パイソンでスクレイピング

1Reading Time

パイソンでスクレイピングするときにつまずいた点を備忘録としてメモします。

各種ライブラリのインポート

import requests
import time
import os
from selenium import webdriver

冒頭で各種ライブラリをインポートします。

  • import requests…Python の HTTP ライブラリ。
  • import time…決められた時間処理を停止。
  • import os…OSに依存しているさまざまな機能を利用するためのモジュール。
  • from selenium import webdriver…ブラウザを操作するためのモジュール。from(モジュール名) import (関数名)

【注意1】

ライブラリがインストールされていない場合、インストールする必要があります。


#例
pip install requests

【注意2】

Selenium と ブラウザ(今回は Chrome)の間に WebDriver(クロームの場合は ChromeDriver)が必要になります。

ChromeDriver のインストール

クロームドライバーの入手先はhttp://chromedriver.chromium.org/downloads

自分のクロームのバージョンにあうドライバーをダウンロードし、パイソンの実行ファイルと同じディレクトリに配置するか、オプションで指定する。

###オプションの設定###
chromeOptions = webdriver.ChromeOptions()
#ファイルダウンロード先の指定
prefs = {"download.default_directory" : "G:\\Work\\python\\main\\dataset"}
chromeOptions.add_experimental_option("prefs",prefs)
#Chrome diriverのパス
chromedriver = "./driver/chromedriver.exe"

#インスタンス作成時のオプション指定方法
browser = webdriver.Chrome(executable_path=chromedriver, chrome_options=chromeOptions)