スクレイピング(webスクレイピング)とは、webサイトからの情報を自動で抽出/収集する事です。
今回はREST API(HTTPリクエスト)やHTMLコードの解析等は行わず、webブラウザを自動で操作することによって、情報の抽出や収集を行えればと思います。用途としてはスクレイピングというより、結合(総合)テストの自動化みたいな感じでしょうか。
実行環境
- 使用言語:python(version3.6.1)
- 使用フレームワーク:selenium(既にインストールしているものとします。インストール方法は別途参照)
- OS:windows10
- 使用ブラウザ:Chrome(vrsion110を想定)
サンプルコード(仮)
import time
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('http://www.google.com/’)
time.sleep(5)
search_box = driver.find_element_by_name('q’)
search_box.send_keys('test’)
search_box.submit()
time.sleep(5)
driver.quit()
上記処理は、googleを開いて、検索ボックスに’test’と入力し、検索結果の表示を行うというものになります。合間5秒間の待機を挟むことでサイトのローディングを待つようになっていますね。

コメント