蔵書検索

PythonによるWebスクレイピング

PythonによるWebスクレイピング

  • 著者:Ryan Mitchell 訳:黒川 利明/技術監修:嶋田 健志
  • 出版社:オライリー・ジャパン
  • 出版日:2016/03/18
  • ISBN:9784873117614

書評

BeautifulSoupからクローリング、API、データ保存、PDF/画像/OCR、JavaScript(Selenium)まで、スクレイピング実務を“広く深く”一冊にまとめた定番。コード小技より「現場で起きる問題と回避策」が厚い。最後に適法性と倫理にも触れ、長く使える土台になる。

【どんな本?】
Web上の情報を収集・抽出する「スクレイピング」を、Pythonで実装するための総合ガイド。前半でスクレイパー/クローラの基礎を押さえ、後半でOCR、JavaScript実行、Seleniumによる操作やテスト自動化、自然言語処理など“実務で出会う難所”へ進みます。単発のテクニック集ではなく、収集→整形→保存→運用までの一連が見えるのが強み。

【刺さるポイント】
本書が効くのは「取れたら終わり」ではなく、壊れやすい現実を前提にしている点。HTMLの揺れ、ログイン、フォーム、動的ページ、汚れたデータ、画像文字、ブロック回避など、手が止まりやすい場面が章立てで出てくるので、実装の見通しが立ちます。さらに、倫理・規約・法律面の章があることで、技術だけ暴走しない“守り”も身につく。

【活かし方】
読むときは「自分が欲しいデータは何か」を先に決め、該当章だけつまみ食い→最小のスクレイパーを作る→保存先(CSV/DB)までつなぐ、の順が最短です。