自由脳PLACE – 自由で豊かな発想を身につける

← 一覧へ戻る ← 戻る次へ →

PythonによるWebスクレイピング

著者：Ryan Mitchell　訳：黒川利明／技術監修：嶋田健志
出版社：オライリー・ジャパン
出版日：2016/03/18
ISBN：9784873117614

書評

BeautifulSoupからクローリング、API、データ保存、PDF/画像/OCR、JavaScript（Selenium）まで、スクレイピング実務を“広く深く”一冊にまとめた定番。コード小技より「現場で起きる問題と回避策」が厚い。最後に適法性と倫理にも触れ、長く使える土台になる。

【どんな本？】
Web上の情報を収集・抽出する「スクレイピング」を、Pythonで実装するための総合ガイド。前半でスクレイパー／クローラの基礎を押さえ、後半でOCR、JavaScript実行、Seleniumによる操作やテスト自動化、自然言語処理など“実務で出会う難所”へ進みます。単発のテクニック集ではなく、収集→整形→保存→運用までの一連が見えるのが強み。

【刺さるポイント】
本書が効くのは「取れたら終わり」ではなく、壊れやすい現実を前提にしている点。HTMLの揺れ、ログイン、フォーム、動的ページ、汚れたデータ、画像文字、ブロック回避など、手が止まりやすい場面が章立てで出てくるので、実装の見通しが立ちます。さらに、倫理・規約・法律面の章があることで、技術だけ暴走しない“守り”も身につく。

【活かし方】
読むときは「自分が欲しいデータは何か」を先に決め、該当章だけつまみ食い→最小のスクレイパーを作る→保存先（CSV/DB）までつなぐ、の順が最短です。