# JavaScriptを使ったページのスクレイピング

・近年ではWebサイトにおいて、JavaScriptが果たす役割が大きくなっている

・SPA(Single Page Application)
  従来のようなページ遷移を行わない
  JavaScriptフレームワークの発達もあり、採用例が増えている
  
 こういったページからデータ取得しようとしても
 取得できるHTMLには目的とするデータが含まれていないことが多い。
 
 -> このようなページからスクレイピングする方法を扱う

### JavaScriptを使ったページへの対処方法 (Selenium + PhantomJS)

#### Seleniumとは
  Seleniumとは、Webブラウザを使ってWebアプリケーションをテストするツールです。この「Webブラウザを使って」というのが非常に大きなポイントで、人が手でWebブラウザを操作する代わりにSeleniumがWebブラウザを操作してくれるのです。
  
https://thinkit.co.jp/free/article/0705/2/1/

ブラウザを操作するためのドライバが用意されており、ドライバ経由で様々なブラウザを操作できる

・Firefox

・Chrome

・ヘッドレスブラウザ

ヘッドレスブラウザ -> デスクトップ環境がないサーバでスクリプトを操作できる


#### PhantomJS

Seleniumから使用できるヘッドレスブラウザとして有名。WebKitをベースとしている。

http://phantomjs.org/


#### メリット

・JavaScriptを使用したページからスクレイピングできる

・スクリーンショットを撮影できる

・通常のブラウザと差異が少ない

## SeleniumとPhantomJSのインストール

In [1]:
!pip install selenium



(Mac) 

brew install phantomjs

※xcode-selectがない場合はインストール

xcode-select --install

(Linux) 

wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-1.9.8-linux-x86_64.tar.bz2

tar xvf phantomjs-1.9.8-linux-x86_64.tar.bz2

sudo apt-get install -y libfontconfig1 fonts-migmix

#### Seleniumを使った自動操作

In [2]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

# PhantomJSのWebDriverオブジェクトを作成する。
driver = webdriver.PhantomJS()

# Googleのトップ画面を開く。
driver.get('https://www.google.co.jp/')

# タイトルに'Google'が含まれていることを確認する。
#assert 'Google' in driver.title

# 検索語を入力して送信する。
input_element = driver.find_element_by_name('q')
input_element.send_keys('Python')
input_element.send_keys(Keys.RETURN)

# タイトルに'Python'が含まれていることを確認する。
#assert 'Python' in driver.title

# スクリーンショットを撮る。
driver.save_screenshot('search_results.png')

# 検索結果を表示する。
for a in driver.find_elements_by_css_selector('h3 > a'):
    print(a.text)
    print(a.get_attribute('href'))

Python - ウィキペディア
https://www.google.co.jp/url?q=https://ja.wikipedia.org/wiki/Python&sa=U&ved=0ahUKEwji35mggNfXAhUHObwKHWOyCrUQFggUMAA&usg=AOvVaw2S5TE2vGNp-0XlEfJQdIsv
Pythonとは - python.jp
https://www.google.co.jp/url?q=https://www.python.jp/about/&sa=U&ved=0ahUKEwji35mggNfXAhUHObwKHWOyCrUQFggfMAE&usg=AOvVaw3rRKUntSpufiRk0XRxOoJm
専門知識いらず！Pythonとは？言語の特徴から網羅的に徹底解説 | 侍 ...
https://www.google.co.jp/url?q=https://www.sejuku.net/blog/7720&sa=U&ved=0ahUKEwji35mggNfXAhUHObwKHWOyCrUQFgglMAI&usg=AOvVaw1BXrxrfkMbHGu6-XNwTJ3j
Python基礎講座(1 Pythonとは) - Qiita
https://www.google.co.jp/url?q=https://qiita.com/Usek/items/ff4d87745dfc5d9b85a4&sa=U&ved=0ahUKEwji35mggNfXAhUHObwKHWOyCrUQFggvMAM&usg=AOvVaw18TBgdISlIrITTnikTSCgZ
Python 13302 posts - Qiita
https://www.google.co.jp/url?q=https://qiita.com/tags/Python&sa=U&ved=0ahUKEwji35mggNfXAhUHObwKHWOyCrUQFgg2MAQ&usg=AOvVaw2SOnWnYrZgPD5zkcHFxtA1
Python 3を使うべきでない場合（なんてない） | プログラミング | POSTD
https://www.google.co.jp/url?q=http://postd.cc/case-python-3/&sa=U&ved

In [3]:
!open search_results.png

## JSを使っているページのスクレイピング

https://note.mu/

In [None]:
!wget -U "" https://note.mu/

In [None]:
# !cat index.html

In [4]:
### Seleniumを使って読み込む
from selenium import webdriver
driver = webdriver.PhantomJS()

driver.get('https://note.mu/')
driver.title

'note ――つくる、つながる、とどける。'

In [5]:
driver.save_screenshot('note-1.png')

True

In [6]:
!open note-1.png

In [7]:
#set_window_sizeでウィンドウサイズを指定
driver.set_window_size(800,600)
driver.save_screenshot('note-2.png')

True

In [8]:
!open note-2.png

In [9]:
import sys
import time

from selenium import webdriver


def main():
    """
    メインの処理。
    """

    driver = webdriver.PhantomJS()  # PhantomJSのWebDriverオブジェクトを作成する。
    driver.set_window_size(800, 600)  # ウィンドウサイズを設定する。

    navigate(driver)  # noteのトップページに遷移する。
    posts = scrape_posts(driver)  # 文章コンテンツのリストを取得する。

    # コンテンツの情報を表示する。
    for post in posts:
        print(post)


def navigate(driver):
    """
    目的のページに遷移する。
    """

    print('Navigating...', file=sys.stderr)
    driver.get('https://note.mu/')  # noteのトップページを開く。
    assert 'note' in driver.title  # タイトルに'note'が含まれていることを確認する。
    time.sleep(2)  # 2秒間待つ。


def scrape_posts(driver):
    """
    文章コンテンツのURL、タイトル、概要を含むdictのリストを取得する。
    """

    posts = []

    # すべての文章コンテンツを表すa要素について反復する。
    for a in driver.find_elements_by_css_selector('a.p-post--basic'):
        # URL、タイトル、概要を取得して、dictとしてリストに追加する。
        posts.append({
            'url': a.get_attribute('href'),
            'title': a.find_element_by_css_selector('h4').text,
            'description': a.find_element_by_css_selector('.c-post__description').text,
        })

    return posts

if __name__ == '__main__':
    main()

Navigating...


{'url': 'https://note.mu/genkido/n/n534c9a3dbc7b', 'title': '微信支付（WeChatPay）が超便利だった！', 'description': '2017年11月8日〜15日、中国へ行って来ました！\nMakerFaireShenzhenというイベントに出展するためです。\n全体のレポートについてはいずれ漫画にしようと思いますが、\n何を置いても中国で既に標準になってる（のか？）スマホ決済...'}
{'url': 'https://note.mu/daaakkk/n/n0508493e7d35', 'title': 'zozosuitsで試着ルームが無くなる', 'description': 'お店での試着がめんどくさい。\n混んでいたら一列に並ばなければならないし、店員さんからの高まる期待に応えられない場面を想像すると、まぁ今度でいいかと服を置く。\n\nそこで本日のzozosuitsの発表。 ...'}
{'url': 'https://note.mu/sy0/n/n07f56dace77a', 'title': '女の子に、なる方法', 'description': '女の子に憧れがある。\n実際なってみたら大変なことはたくさんたくさんあるんだろうけど、髪型とか服装とかお化粧とか選択肢がたくさんあるの、いいなぁと思う。やっぱり華やかだから。\n...'}
{'url': 'https://note.mu/sadaaki/n/n8e95e9a40353', 'title': '生活の楽しみ展とどうぶつの森', 'description': '土曜日に、ほぼ日の「生活のたのしみ展」に行ってきた。生活のたのしみ展はこれで2回目なのだが、第1回の4〜5倍くらいの規模になってたのではないだろうか。とにかく、ものすごくもりあがっていた。\n...'}
{'url': 'https://note.mu/weibocomic/n/nde9a9b85b56a', 'title': 'noteでWeiboコミックのマンガの連載を開始します', 'description': '中国最大のSNSプラットフォーム「Weibo（微博）」の傘下会社Weibo Comic株式会社は、noteでの中国マンガの連載を開始します。\n\

#### webDriverオブジェクトのexecute_scriptを使用するとページ内でJavaScriptを実行できる

In [10]:
from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get('https://note.mu/')
driver.execute_script('scroll(0,document.body.scrollHeight)')
time.sleep(2)
driver.save_screenshot('note-3.png')

True

In [11]:
!open note-3.png

In [12]:
import sys
import time

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait


def main():
    """
    メインの処理。
    """

    driver = webdriver.PhantomJS()  # PhantomJSのWebDriverオブジェクトを作成する。
    driver.set_window_size(800, 600)  # ウィンドウサイズを設定する。

    navigate(driver)  # noteのトップページに遷移する。
    posts = scrape_posts(driver)  # 文章コンテンツのリストを取得する。

    # コンテンツの情報を表示する。
    for post in posts:
        print(post)


def navigate(driver):
    """
    目的のページに遷移して続きのコンテンツを読み込む。
    """

    print('Navigating...', file=sys.stderr)
    driver.get('https://note.mu/')  # noteのトップページを開く。
    assert 'note' in driver.title  # タイトルに'note'が含まれていることを確認する。
    time.sleep(2)  # 2秒間待つ。

    # ページの一番下までスクロールする。
    driver.execute_script('scroll(0, document.body.scrollHeight)')

    print('Waiting for contents to be loaded...', file=sys.stderr)
    time.sleep(2)  # 2秒間待つ。

    # ページの一番下までスクロールする。
    driver.execute_script('scroll(0, document.body.scrollHeight)')

    # 10秒でタイムアウトするWebDriverWaitオブジェクトを作成する。
    wait = WebDriverWait(driver, 10)

    print('Waiting for the more button to be clickable...', file=sys.stderr)
    # 「もっとみる」ボタンがクリック可能になるまで待つ。
    button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-more')))

    button.click()  # 「もっとみる」ボタンをクリックする。

    print('Waiting for contents to be loaded...', file=sys.stderr)
    time.sleep(2)  # 2秒間待つ。


def scrape_posts(driver):
    """
    文章コンテンツのURL、タイトル、概要を含むdictのリストを取得する。
    """

    posts = []

    # すべての文章コンテンツを表す<a>要素について反復する。
    for a in driver.find_elements_by_css_selector('a.p-post--basic'):
        # URL、タイトル、概要を取得して、dictとしてリストに追加する。
        posts.append({
            'url': a.get_attribute('href'),
            'title': a.find_element_by_css_selector('h4').text,
            'description': a.find_element_by_css_selector('.c-post__description').text,
        })

    return posts

if __name__ == '__main__':
    main()

Navigating...
Waiting for contents to be loaded...
Waiting for the more button to be clickable...
Waiting for contents to be loaded...


{'url': 'https://note.mu/genkido/n/n534c9a3dbc7b', 'title': '微信支付（WeChatPay）が超便利だった！', 'description': '2017年11月8日〜15日、中国へ行って来ました！\nMakerFaireShenzhenというイベントに出展するためです。\n全体のレポートについてはいずれ漫画にしようと思いますが、\n何を置いても中国で既に標準になってる（のか？）スマホ決済...'}
{'url': 'https://note.mu/daaakkk/n/n0508493e7d35', 'title': 'zozosuitsで試着ルームが無くなる', 'description': 'お店での試着がめんどくさい。\n混んでいたら一列に並ばなければならないし、店員さんからの高まる期待に応えられない場面を想像すると、まぁ今度でいいかと服を置く。\n\nそこで本日のzozosuitsの発表。 ...'}
{'url': 'https://note.mu/sy0/n/n07f56dace77a', 'title': '女の子に、なる方法', 'description': '女の子に憧れがある。\n実際なってみたら大変なことはたくさんたくさんあるんだろうけど、髪型とか服装とかお化粧とか選択肢がたくさんあるの、いいなぁと思う。やっぱり華やかだから。\n...'}
{'url': 'https://note.mu/sadaaki/n/n8e95e9a40353', 'title': '生活の楽しみ展とどうぶつの森', 'description': '土曜日に、ほぼ日の「生活のたのしみ展」に行ってきた。生活のたのしみ展はこれで2回目なのだが、第1回の4〜5倍くらいの規模になってたのではないだろうか。とにかく、ものすごくもりあがっていた。\n...'}
{'url': 'https://note.mu/weibocomic/n/nde9a9b85b56a', 'title': 'noteでWeiboコミックのマンガの連載を開始します', 'description': '中国最大のSNSプラットフォーム「Weibo（微博）」の傘下会社Weibo Comic株式会社は、noteでの中国マンガの連載を開始します。\n\