パイソンでスクレイピングするときにつまずいた点を備忘録としてメモします。
各種ライブラリのインポート
import requests import time import os from selenium import webdriver
冒頭で各種ライブラリをインポートします。
- import requests…Python の HTTP ライブラリ。
- import time…決められた時間処理を停止。
- import os…OSに依存しているさまざまな機能を利用するためのモジュール。
- from selenium import webdriver…ブラウザを操作するためのモジュール。from(モジュール名) import (関数名)
【注意1】
ライブラリがインストールされていない場合、インストールする必要があります。
#例 pip install requests
【注意2】
Selenium と ブラウザ(今回は Chrome)の間に WebDriver(クロームの場合は ChromeDriver)が必要になります。
ChromeDriver のインストール
クロームドライバーの入手先はhttp://chromedriver.chromium.org/downloads
自分のクロームのバージョンにあうドライバーをダウンロードし、パイソンの実行ファイルと同じディレクトリに配置するか、オプションで指定する。
###オプションの設定### chromeOptions = webdriver.ChromeOptions() #ファイルダウンロード先の指定 prefs = {"download.default_directory" : "G:\\Work\\python\\main\\dataset"} chromeOptions.add_experimental_option("prefs",prefs) #Chrome diriverのパス chromedriver = "./driver/chromedriver.exe" #インスタンス作成時のオプション指定方法 browser = webdriver.Chrome(executable_path=chromedriver, chrome_options=chromeOptions)