Webスクレイピンとは?
Webスクレイピングとは、Webサイトから自動的に情報を抽出するコンピュータソフトウェア技術のことです。
Webスクレイピングの便利なところは?
Webスクレイピングの便利なところは、Webサイトにある情報を自動的に抽出することができる点です。
Webスクレイピングを活用すると、旅行先やホテルの予約情報を効率よく集めたり、ECサイトの情報も集められるので、データ処理することが楽になったりします。
また、自動化でデータを取得できるので、その間、別の業務だったり別のやりたいことに時間を使えます。
Power Automate Desktopでやりたいこと
Webのデータを取得し、EXCELファイルに出力します。
Power Automate Desktopでのフローの概要図
Webブラウザを起動する
↓
対象のWebサイトのURLを指定
↓
Webページからデータを抽出する
↓
EXCELに保存
Power Automate Desktopで実装
Webスクレイピングでやりたいこと
東京の週間天気予報をEXCELに保存する。
最終のフロー
設定手順
左メニューの「アクション」から「新しいMicrosoft Edgeを起動」を選択し、フローに追加します。
今回は、こちらのURLが対象になります。 https://weather.yahoo.co.jp/weather/jp/13/4410.html
左メニューの「アクション」から「Webページからデータを抽出する」を選択し、フローに追加します。「Webページからデータを抽出する」のアクションは、ちょっとコツがいります!
※その前(「Webページからデータを抽出する」をフローに追加する前)に必ずすることがあります。それは、事前にMicrosoft EdgeでWebスクレイピング対象のURLを開いておいてください。
Webデータ抽出は、似たようなアクションがありますので注意が必要です。今回利用するのは、「Webページからデータを抽出する」のアクションです。
そうしますと、先ほどEdgeで開いた、天気予報のページ(ブラウザ)を選択してください。
「ライブWebヘルパー画面」が立ち上がります。WEBスクレイピングによって収集するデータの要素を選択します。
赤枠になった状態で右クリックし、
「HTMLテーブル全体を抽出する」を選択
正しく、データが取り込めない場合、下記のように「詳細設定」でCSSセレクターを設定したりできます。
必ず「終了」をクリックして終わります。そうしないと赤枠表示が続きます。
実行すると下記のように正しくEXCELに表示されます。あとは、「EXCELの保存」アクションで自動保存して完了です。
コード
WebAutomation.LaunchEdge.LaunchEdge Url: $'''https://weather.yahoo.co.jp/weather/jp/13/4410.html''' WindowState: WebAutomation.BrowserWindowState.Maximized ClearCache: False ClearCookies: False WaitForPageToLoadTimeout: 60 Timeout: 60 BrowserInstance=> Browser
WebAutomation.ExtractData.ExtractHtmlTableInExcel BrowserInstance: Browser Control: $'''html > body > div:eq(0) > div:eq(1) > div:eq(1) > div:eq(0) > div:eq(8) > table''' ExtractionParameters: {[$'''Value #1''', $'''Value #2''', $'''Value #3''', $'''Value #4''', $'''Value #5''', $'''Value #6''', $'''Value #7'''], [$'''''', $'''''', $'''''', $'''''', $'''''', $'''''', $''''''] } PostProcessData: False TimeoutInSeconds: 60 ExcelInstance=> ExcelInstance
Excel.SaveExcel.Save Instance: ExcelInstance
参考書籍
Pythonでも出来ます!!!
コメント