WinActor

2020.08.24
サンプルシナリオ ブラウザ関連
テーブルスクレイピングライブラリを用いてウェブページのテーブルをExcelファイルに出力するサンプルシナリオ

テーブルスクレイピングライブラリを用いてウェブページのテーブルをExcelファイルに出力するサンプルシナリオとなります。

本サンプルシナリオを変更することで、テーブルの情報をWordへの転記や、AccessにCSVからインポート等が可能です。

本コンテンツをダウンロードする前にこちらの利用条件を必ずご確認いただき、内容に同意をしたうえでダウンロードしてください。 また、"コンテンツの利用条件"は下のボタンからダウンロードし、お手元で保管してください。

サンプルシナリオ概要

はじめに

テーブルスクレイピングライブラリを用いてウェブページのテーブルをExcelファイルに出力するサンプルシナリオ (以降、本サンプルシナリオ) について説明します。

  • 本サンプルシナリオはWinActor® Ver.7ページの新機能紹介で公開しているものと同様のものになります。
  • テーブルスクレイピングは、Webページ上の表の情報を抽出(スクレイピング)し、CSV形式で出力するライブラリです。複数のページに跨っている表についても、ページ遷移のためのリンク要素を指定することで再帰的に読み取り、1つのCSVとして保存することが出来ます。
    テーブルスクレイピングの詳細は、「WinActor_ブラウザ操作シナリオ作成マニュアル」のテーブルスクレイピングの章をご確認ください。

本サンプルシナリオの概要

本サンプルシナリオは、以下の処理を行います。

  • 指定のウェブページをブラウザで開きます。
  • ウェブページで指定テーブル内の値をCSVファイルに出力します。
  • CSVファイルをExcelファイルに変換します。

使用するWinActorモジュール

本サンプルシナリオでは、以下のWinActorモジュールを使用します。

  • 18_Excel関連/Excel開く(前面化)
  • 23_ブラウザ関連/テーブルスクレイピング
  • 23_ブラウザ関連/ブラウザ起動
  • 23_ブラウザ関連/ページ表示
  • プチライブラリ/18_Excel関連/csvファイルをxls形式で保存するライブラリ

(プチライブラリはこちらからダウンロードできます)

動作確認環境

本サンプルシナリオは以下の環境で動作確認しています。

  • Windows 10
  • WinActor 7.1.0
  • Chrome 83.0.4103.116

制限事項

本サンプルシナリオで使用するテーブルスクレイピングライブラリは、Chromeのみサポートしています。

本サンプルシナリオの使い方

本サンプルシナリオの使い方は以下の通りです。

Step 1. サンプルシナリオの読み込み

ダウンロードしたサンプルシナリオのZIPファイルを展開し、展開したフォルダに含まれている本サンプルシナリオをWinActorで読み込みます。

Step 2. 動作に必要な変数の設定

本サンプルシナリオを実行するために必要な値を、変数一覧で設定します。
事前に設定が必要な変数は下記の3つです。

  • URL
    • 操作対象のURLを指定してください。 ※添付のサンプル(example_table1.html)など、入力ファイルをウェブページとして使用する場合、絶対パスで指定してください。
      例) C:\Sample\example_table1.html

  • CSVファイル
    • スクレイピング結果を出力するCSVファイルのファイルパスを絶対パスまたは相対パスで指定してください。
      例) 一時ファイル.csv

  • Excel保存ファイル名  
    • Excelで保存するファイル名を指定してください。 ※拡張子の指定は不要です。
      例) テーブルスクレイピング結果

11552_input1.png

変数一覧画面

Step 3. サンプルシナリオの実行

WinActorで本サンプルシナリオを実行します。
スクレイピングされたウェブページのテーブルの値がCSVファイルに出力後、Excelファイルに変換されます。

Step 4. サンプルシナリオの終了後の確認

ウェブページのテーブルの値がExcelファイルに出力されていることを確認してください。

11552_input2_r2.png

テーブルスクレイピング実行結果

トラブルシューティング

本サンプルシナリオでエラーが発生した場合、以下を確認してください。

エラーメッセージ エラー内容
エラーメッセージ

スクリプトの実行に失敗しました。
エラー番号:0x00000001
内容:ライブラリ実行(spv_Web)に失敗しました。

エラー内容

①「ブラウザ起動」ライブラリで利用しているWebDriverに問題があります。
webdriverフォルダ下に対象ブラウザのWebDriverが存在しません。またはご利用のブラウザのバージョンに合ったWebDriverを配置してください。
WebDriverの詳細は「WinActor_ブラウザ操作シナリオ作成マニュアル.pdf」をご確認ください。

②変数一覧のURLで指定した値に問題があります。指定のURLが空白や誤っていないか、添付のサンプル(example_table1.html)を使用する場合、変数が絶対パス指定になっているかを確認してください。

③テーブルスクレイピングライブラリでの指定に問題があります。
変数一覧の終了状態を格納する変数にエラーの原因が出力されるため、参考にしてライブラリの指定を修正してください。

サンプルシナリオ解説

本サンプルシナリオで使用している実装テクニックについて解説します。

1.スクレイピング対象のXPath取得

スクレイピング対象のXPathは、ライブラリのプロパティから、以下のマウス操作のみで設定可能です。
①プロパティの「スクレイピング対象のXPath」で「ブラウザ」ボタンを押下
②起動したブラウザで、対象のページを表示
③プロパティの「スクレイピング対象のXPath」で「選択」ボタンを押下
④対象テーブル上でクリック
詳細は「WinActor_ブラウザ操作シナリオ作成マニュアル」の「スクレイピング対象である表のXPath の取得方法」をご確認ください。
「ページ遷移要素のXPath」についても同様の操作でXPathの取得が可能です。

10057_input4.png

11552_input3.png

スクレイピング対象のXpath取得操作

2.複数ページの表をスクレイピング

本サンプルシナリオでは複数ページから同じレイアウトの表のデータを取得できるようプロパティを設定しています。
「回数」を2に設定することで、スクレイピング後のページ遷移要素の押下を2回行っています。
「タイトル行」に第1行を選択、「開始行」に第2行を選択することで、2ページ目以降でタイトル行が取得されないようにしています。
ご利用されるページに合わせて、遷移回数やタイトル行、取得開始行を変更してください。

11552_input4.png

複数ページの表をスクレイピングするプロパティ設定

変更履歴

版数 日付 修正内容
版数
1.0版
日付
2020/8/24
修正内容
初版
版数
1.1版
日付
2024/1/11
修正内容
・注意事項を削除
・ファイル名を「SS2008_11552_TableScrapingOperation_1.0.1.zip」に変更

本コンテンツをダウンロードする前にこちらの利用条件を必ずご確認いただき、内容に同意をしたうえでダウンロードしてください。 また、"コンテンツの利用条件"は下のボタンからダウンロードし、お手元で保管してください。

"ブラウザ関連"に関連するその他のサンプルシナリオ

サンプルシナリオ一覧へ戻る
当サイトでは、お客さまに最適なユーザー体験をご提供するためにCookieを使用しています。当サイトをご利用いただくことにより、お客さまがCookieの使用に同意されたものとみなします。詳細は、「プライバシーポリシー」をご確認ください。