【業務自動化】Chapter4-3:動的ページをスクレイピングしよう

ながみえ

一つ前のページでは 静的ページのスクレイピング について学習しました。

今回は 動的ページのスクレイピング について見ていきましょう。

Chapter1:PythonによるExcel自動化の基本を身につけよう
Chapter2:自動化ツールを.exe化して配布しよう
Chapter3:現場で使える便利な自動化ツールを4つ作ろう
Chapter4:Webスクレイピングでデータを自動で集めよう
 ・Chapter4-1:Webスクレイピングとは何か
 ・Chapter4-2:静的ページをスクレイピングしよう
 ・Chapter4-3:動的ページをスクレイピングしよう ◁今回はここ
Chapter5:自動化ツールを作ってお金を稼ごう

動的ページとは、JavaScriptによって表示内容が後から生成されたり、ボタン操作やスクロールで新しい情報が読み込まれたりするページのことです。

このタイプのページは、前回学習した requestsBeautifulSoup だけでは正しく情報を取得できません。

この記事では、Pythonのライブラリ Selenium を使い、実際に動的ページからニュース見出しを収集し、さらに「新しい見出しだけをExcelに追加する差分更新処理」を実装します。

最終的な目標は「動的に変化するWebページから必要なデータを効率的に収集・管理する」ことです。

<<前のページ

業務自動化の記事一覧

次のページ>>

動的ページとは|スクレイピングで注意すべきページの種類

Webサイトには大きく分けて「静的ページ」と「動的ページ」があります。

静的ページはサーバーから送られたHTMLがそのまま表示されるため、requestsとBeautifulSoupだけで簡単に情報を収集できます。

一方で 動的ページ は、JavaScriptによってHTMLの内容が後から書き換えられたり、ユーザー操作によって新しい情報が読み込まれたりする仕組みを持っています。

例えば、ニュースサイトで「もっと見る」をクリックすると記事一覧が追加表示される場合や、株価・天気のようにページを開いた後に情報が更新されるケースが典型です。

このようなページでは、ソースコードを直接取得しても必要な情報が含まれていないことが多く、Seleniumのようにブラウザを自動操作できるツール を利用する必要があります。

あわせて読みたい
openpyxl使える関数・メソッド・クラス一覧【Excel自動化の基本リファレンス】
openpyxl使える関数・メソッド・クラス一覧【Excel自動化の基本リファレンス】
ここから先は限定公開です

すでに購入済みの方はこちら

購読には会員登録が必要です

「半角英数字」と「大文字1個以上」を含む、8文字以上

会員登録には 利用規約/特定商取引法に基づく表記 への同意が必要です。

すでに会員の方はこちら

ログインして記事を読む

メールアドレス
パスワード
パスワードを忘れた方
新規会員登録はこちら

パスワード再設定

パスワードを再設定します。入力したメールアドレスに再設定用のURLをお送りしますので、パスワードの再設定を行なってください。
キャンセル
記事URLをコピーしました