# 【第10回】Seleniumを使ったスクレイピングに挑戦しよう！

第9回目までの講義で、`Requests`と`BeautifulSoup`を使ったスクレイピングを学んできました。

`Requests`と`BeautifulSoup`を使うと、HTMLが使われているサイトでスクレイピングできましたね。

<br>

今回の第10回目からは、スクレイピング入門の後半戦ということで、`Selenium`を使ったスクレイピングに挑戦していきたいと思います。

`Selenium`を使うと、JavaScriptが使われているサイトでも、スクレイピングできるようになります。

スキルも上がるし、勉強していて楽しいと思うので、ぜひ一緒に頑張っていきましょう！

この動画では、`Selenium`を使うための準備を進めていきたいと思います。

*※動画の感想を、僕のTwitterにメンションしてツイートしていただけると嬉しいです（ ;  ; ）！*

Twitter : [@hayatasuuu](https://twitter.com/hayatasuuu)

<br>


## Seleniumとは

Selenium(セレニウム)は、Webブラウザの操作を自動化するためのツールです。

少し紛らわしいのですが、Pythonライブラリとは別にツールとして準備されています。

つまり、Seleniumを使っていくとなったら、以下のステップが必要ということです。

1. ツールのSelenium本体をダウンロードする
2. PythonライブラリのSeleniumをインストールする
3. Pythonで使えるようにする

PythonライブラリのSeleniumをインストールしただけでは動作しませんので、その点注意しておきましょう。

また、Seleniumは色々なブラウザに対応しています。ただ、Google Chromeを使うのが主流かと思いますので、今回も例外なくChromeを使っていきたいと思います。

もしGoogle Chromeを使っていなければ、以下のURLからダウンロードしておきましょう。

https://www.google.com/intl/ja_jp/chrome/


### ツールのSelenium本体をダウンロードする

以下のURLからSelenium本体のダウンロードができます。

https://sites.google.com/a/chromium.org/chromedriver/downloads


*※具体的な手順は動画内で解説していきます。*

### PythonライブラリのSeleniumをインストールする

Pythonライブラリのインストールは、Anaconda Navigatorから操作していきましょう。


*※こちらも動画内で具体的な手順を解説していきます。*

### Pythonで使えるようにする

`Selenium`本体とPythonライブラリ`Selenium`をインストールできると準備は完了しています。

あとはPythonで使ってみたいと思いますので、以下でコードを書いていきましょう。

<br>

まずは、いつもどおり今回使うライブラリをインポートします。

*※Anaconda Navigatorを使わず、condaコマンドでライブラリのインストールをすると、エラーが出力される可能性があります。強いこだわりがなければ、Anaconda NavigatorからSeleniumをインストールしていきましょう。*

<br>

今回は、僕が運営している[テックダイアリー](https://tech-diary.net)というWebサイトに自動でアクセスしてみたいと思います。

*※Windowsは少しクセがあり、PATHの書き方が違います。少し注意してみていきましょう。*

In [4]:
# Mac
chrome_path = '/Users/hayato/Desktop/ScrapingBeginner/chromedriver'

# Windows
# chrome_path = r'C:\Users\hayato\Desktop\ScrapingBeginner\chromedriver'



この数行だけで、自動でWebサイトにアクセスできるようになりました。

もちろん対象のURLを変更するだけで、他のURLにもアクセスできます。

<br>

このSeleniumの技術を使って、①Webサイトにアクセスしたあとに、②必要な情報を取ってきましょう。

なお①の過程をクローリング、②の過程をスクレイピングと言います。

<br>

ただ、スクレイピングもクローリングも似たような概念で使われていますので、そこまで細かい定義を気にしなくて大丈夫です。

言うなれば、シチューとビーフシチューの違いみたいな感じです。両方ともシチューであることに変わりはありません。

## 補足：Pythonファイルを使うのがベストです

今回の第１０回目では、Jupyter Notebookを使ってきました。

ただ、Seleniumを使ってスクレイピングを実装するなら、Pythonファイルを使っていくのが吉です。

<br>

Jupyter Notebookは、それぞれの行で少しずつコードを書いていくのには向いています。でも、まとまったコードを書くのには向いていません。

スクレイピング入門の前半戦で紹介していたコードは、次第に長くなっていたかと思います。後半戦も同じように、書いていくソースコードがどんどん長くなっていきます。

またSeleniumの実装は、ライブラリのインポート以外、分割して書けません。

書いたコードを実行するときも、いちいちJupyter Notebookを開くのは面倒です。ゆえに、可能であればPythonファイルを使って、実装を進めていきましょう。

<br>

ちなみに僕自身は、Pythonファイルにコードを書くときVisual Studio Codeを使っていきます。

他にもPyCharmやAtomが有名ですが、Visual Studio Codeは軽いのが特徴です。さらに、日本だとVisual Studio Codeが一番使われています。

<br>

なので、この講義シリーズもVisual Studio Codeを使って、動画紹介をしていきます。

なおWindowsだと、設定が少し難しいです。AnacondaユーザーのためのVisual Studio Code設定方法は、僕のブログで記事にまとめてあります。

https://tech-diary.net/vscode-anaconda3-python/

よかったら参考にしてみてください。

*※Macユーザーは、インストールすればすぐに使えたはずです！*

<br>

もしPythonファイルをインストールできなかったら、今回動画で紹介したように、Jupyter Notebookを使っていきましょう。

エディターの設定で挫折するのは勿体無いので！