# ウェブスクレイピング

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/shinchu/dataviz-notebooks/blob/main/week_6/web-scraping.ipynb)

ウェブスクレイピングは、ウェブページの内容を取得する技術です。

静的なウェブページに対しては、HTMLを取得し、HTMLの構造を解析（パース）することで内容を抽出することができます。

動的なウェブページに対しては（アクセスがあって初めて内容が生成されるようなもの）、ブラウザの動きをエミュレートするライブラリを使って内容を取得します。

短時間に大量のアクセスをしてしまうと、相手側のサーバーに負担がかかるため、関連する法律やサイトの利用規約、倫理的な問題に気をつけて行いましょう（例：3秒に1回アクセスする、などの設定にする）。

## 静的ページのスクレイピング

* [requests](https://requests.readthedocs.io/en/latest/): 指定したURLに対してリクエストを投げてレスポンスを取得するライブラリ
* [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/): HTMLやXMLをパースするライブラリ

### ページを取得する

[DIPEx Japan](https://www.dipex-j.org/)の認知症患者と家族の語りを収集します。

In [99]:
import time # 時間の処理
import re # 正規表現
import requests
from bs4 import BeautifulSoup

In [7]:
index_page_url = "https://www.dipex-j.org/dementia/profid"

In [8]:
# HTMLを取得する
html = requests.get(index_page_url)

In [12]:
# 取得したHTMLを解析する
soup = BeautifulSoup(html.content, "html.parser")

In [13]:
# 生のHTMLを確認する
soup


<!DOCTYPE html>

<!--[if IE 7]>
<html class="ie ie7" lang="ja">
<![endif]-->
<!--[if IE 8]>
<html class="ie ie8" lang="ja">
<![endif]-->
<!--[if !(IE 7) & !(IE 8)]><!-->
<html lang="ja">
<head>
<meta charset="utf-8"/>
<!--<meta name="viewport" content="width=device-width" />	-->
<meta content="width=device-width" name="viewport"/>
<title>語り手の番号索引 | 認知症の語り</title>
<link href="https://gmpg.org/xfn/11" rel="profile"/>
<link href="https://www.dipex-j.org/dementia/xmlrpc.php" rel="pingback"/>
<!--[if lt IE 9]>
	<script src="https://www.dipex-j.org/dementia/wp-content/themes/twentytwelve/js/html5.js?ver=3.7.0" type="text/javascript"></script>
	<![endif]-->
<meta content="max-image-preview:large" name="robots">
<link href="//fonts.googleapis.com" rel="dns-prefetch">
<link href="//s.w.org" rel="dns-prefetch"/>
<link crossorigin="" href="https://fonts.gstatic.com" rel="preconnect"/>
<link href="https://www.dipex-j.org/dementia/feed" rel="alternate" title="認知症の語り » フィード" type="application/rss+x

In [20]:
# 目当ての要素を取り出す（それぞれの語り手ページへのリンク）
elem = soup.select("div[class='profid-link'] > ul > li")

In [23]:
# リンクをリストに格納する
links = []
for e in elem:
    link = e.select("a")[0].attrs["href"]
    links.append(link)

In [25]:
# リンクを取得できた
links

['https://www.dipex-j.org/dementia/profile/df01.html',
 'https://www.dipex-j.org/dementia/profile/df02.html',
 'https://www.dipex-j.org/dementia/profile/df03.html',
 'https://www.dipex-j.org/dementia/profile/df04.html',
 'https://www.dipex-j.org/dementia/profile/df05.html',
 'https://www.dipex-j.org/dementia/profile/df06.html',
 'https://www.dipex-j.org/dementia/profile/df07.html',
 'https://www.dipex-j.org/dementia/profile/df08.html',
 'https://www.dipex-j.org/dementia/profile/df09.html',
 'https://www.dipex-j.org/dementia/profile/df10.html',
 'https://www.dipex-j.org/dementia/profile/df11.html',
 'https://www.dipex-j.org/dementia/profile/df12.html',
 'https://www.dipex-j.org/dementia/profile/df13.html',
 'https://www.dipex-j.org/dementia/profile/df14.html',
 'https://www.dipex-j.org/dementia/profile/df15.html',
 'https://www.dipex-j.org/dementia/profile/df16.html',
 'https://www.dipex-j.org/dementia/profile/df17.html',
 'https://www.dipex-j.org/dementia/profile/df19.html',
 'https://

---

まとめて処理するための前準備

In [26]:
# 1つ目のリンクにアクセスして様子を見る

In [27]:
html = requests.get(links[0])

In [28]:
soup = BeautifulSoup(html.content, "html.parser")

In [29]:
soup


<!DOCTYPE html>

<!--[if IE 7]>
<html class="ie ie7" lang="ja">
<![endif]-->
<!--[if IE 8]>
<html class="ie ie8" lang="ja">
<![endif]-->
<!--[if !(IE 7) & !(IE 8)]><!-->
<html lang="ja">
<head>
<meta charset="utf-8"/>
<!--<meta name="viewport" content="width=device-width" />	-->
<meta content="width=device-width" name="viewport"/>
<title>インタビュー家族01 | 認知症の語り</title>
<link href="https://gmpg.org/xfn/11" rel="profile"/>
<link href="https://www.dipex-j.org/dementia/xmlrpc.php" rel="pingback"/>
<!--[if lt IE 9]>
	<script src="https://www.dipex-j.org/dementia/wp-content/themes/twentytwelve/js/html5.js?ver=3.7.0" type="text/javascript"></script>
	<![endif]-->
<meta content="max-image-preview:large" name="robots">
<link href="//fonts.googleapis.com" rel="dns-prefetch">
<link href="//s.w.org" rel="dns-prefetch"/>
<link crossorigin="" href="https://fonts.gstatic.com" rel="preconnect"/>
<link href="https://www.dipex-j.org/dementia/feed" rel="alternate" title="認知症の語り » フィード" type="application/rss

In [30]:
# 体験談一覧を取得する
elem = soup.select("li[class='interviewItem']")

In [31]:
elem

[<li class="interviewItem"><a href="https://www.dipex-j.org/dementia/topic/diagnosis/hajimari/69.html" rel="bookmark" title="Permanent Link to 用もないのにたびたび父から電話がかかってきたのは、今から思うと認知症のはじまりだったのかもしれないが、その時はわからなかった">用もないのにたびたび父から電話がかかってきたのは、今から思うと認知症のはじまりだったのかもしれないが、その時はわからなかった</a></li>,
 <li class="interviewItem"><a href="https://www.dipex-j.org/dementia/topic/diagnosis/kensa/332.html" rel="bookmark" title="Permanent Link to 両親が検査を受けるときは妹が連れて行ってくれたが、説明してもどうせ忘れるのに、行く前にきちんと説明していたのに感心した">両親が検査を受けるときは妹が連れて行ってくれたが、説明してもどうせ忘れるのに、行く前にきちんと説明していたのに感心した</a></li>,
 <li class="interviewItem"><a href="https://www.dipex-j.org/dementia/topic/diagnosis/kusuri/349.html" rel="bookmark" title="Permanent Link to 認知症の両親は降圧剤をはじめとして様々な生活習慣病の薬を飲んでいたが、高齢なので、父は前立腺の薬と認知症の薬、母は認知症の薬だけに絞ることにした">認知症の両親は降圧剤をはじめとして様々な生活習慣病の薬を飲んでいたが、高齢なので、父は前立腺の薬と認知症の薬、母は認知症の薬だけに絞ることにした</a></li>,
 <li class="interviewItem"><a href="https://www.dipex-j.org/dementia/topic/symptom/type/389.html" rel="bookmark" title="Permanent Link to 脳血管性認知症の父は電

In [34]:
# ひとつひとつの体験談へのリンクを取得する
episode_links = []
for e in elem:
    link = e.select("a")[0].attrs["href"]
    episode_links.append(link)

In [36]:
# エピソードリンクを取得できた
episode_links

['https://www.dipex-j.org/dementia/topic/diagnosis/hajimari/69.html',
 'https://www.dipex-j.org/dementia/topic/diagnosis/kensa/332.html',
 'https://www.dipex-j.org/dementia/topic/diagnosis/kusuri/349.html',
 'https://www.dipex-j.org/dementia/topic/symptom/type/389.html',
 'https://www.dipex-j.org/dementia/topic/symptom/shinpai/419.html',
 'https://www.dipex-j.org/dementia/topic/symptom/shinpai/420.html',
 'https://www.dipex-j.org/dementia/topic/resource/hibi/2078.html',
 'https://www.dipex-j.org/dementia/topic/resource/kimeru/489.html',
 'https://www.dipex-j.org/dementia/topic/resource/kaigo/508.html',
 'https://www.dipex-j.org/dementia/topic/resource/kaigo/509.html',
 'https://www.dipex-j.org/dementia/topic/resource/kaigo/510.html',
 'https://www.dipex-j.org/dementia/topic/resource/service/2091.html',
 'https://www.dipex-j.org/dementia/topic/to-be-carer/kimoti/631.html',
 'https://www.dipex-j.org/dementia/topic/to-be-carer/work/650.html',
 'https://www.dipex-j.org/dementia/topic/to-be

In [39]:
# 1つ目の体験談にアクセスしてみる

In [40]:
html = requests.get(episode_links[0])

In [41]:
soup = BeautifulSoup(html.content, "html.parser")

In [42]:
soup


<!DOCTYPE html>

<!--[if IE 7]>
<html class="ie ie7" lang="ja">
<![endif]-->
<!--[if IE 8]>
<html class="ie ie8" lang="ja">
<![endif]-->
<!--[if !(IE 7) & !(IE 8)]><!-->
<html lang="ja">
<head>
<meta charset="utf-8"/>
<!--<meta name="viewport" content="width=device-width" />	-->
<meta content="width=device-width" name="viewport"/>
<title>用もないのにたびたび父から電話がかかってきたのは、今から思うと認知症のはじまりだったのかもしれないが、その時はわからなかった | 認知症の語り</title>
<link href="https://gmpg.org/xfn/11" rel="profile"/>
<link href="https://www.dipex-j.org/dementia/xmlrpc.php" rel="pingback"/>
<!--[if lt IE 9]>
	<script src="https://www.dipex-j.org/dementia/wp-content/themes/twentytwelve/js/html5.js?ver=3.7.0" type="text/javascript"></script>
	<![endif]-->
<meta content="max-image-preview:large" name="robots">
<link href="//fonts.googleapis.com" rel="dns-prefetch">
<link href="//s.w.org" rel="dns-prefetch"/>
<link crossorigin="" href="https://fonts.gstatic.com" rel="preconnect"/>
<link href="https://www.dipex-j.org/dementia/feed" rel="al

In [52]:
# 語りの内容のテキストを取得する（これが最終的な目的）
katari = soup.select("div[class='interview-text-box']")
katari = katari[0].get_text().strip().replace("\n", "")

In [53]:
katari

'実は、異変に気付いたときはね、まあ、今から思うとってことなんですよね。そのときは、やっぱり、分からなかったんです。ていうのが、両親も年とっていきますしね、自分自身もね、昔に比べるとだんだんもの忘れが激しくなってね、外出するにも３回も４回もうちを出入りしたりしている自分がいるもんですからね。単純に、両親も、もう年齢的なものかなってそのときは思っていました。\nですけれども、今から考えてみますとね、わたし、あの、会社に勤めていたんですけれども、父が、あの、しょっちゅう会社に電話してくるんです。内容はたいしたことがなくて。「元気か、今度、いつ帰ってくるのか」とかね、子どもたちの近況をね、聞く、まあ、そういう内容なんですけれども。やはり、ひんぱんにかかってくるなって。午前中にかかってきて、また、午後にかかってきてね。勤めているもんだから、迷惑だなと思っていたわけなんですね。それで、あまり、ひんぱんにかかってくるから、あの、実家へ戻って会社の電話番号をね、えー、削除したんです、あの、メモに書いてあるもんですから。だけれども、頭の中に記憶していたみたいで、まっ黒に塗りつぶしたにもかかわらず、相変わらず会社に電話がかかってくるんですね。'

In [59]:
# URLを見ると、トピックがあらかじめ分類されているようなので、ついでに取得する
episode_links[0]

'https://www.dipex-j.org/dementia/topic/diagnosis/hajimari/69.html'

In [84]:
# 正規表現を使う
topic = re.search(r'/topic/(.*)/[0-9]+', episode_links[0]).groups()[0]

In [85]:
topic

'diagnosis/hajimari'

In [86]:
# 語り手番号も取得しておく
links[0]

'https://www.dipex-j.org/dementia/profile/df01.html'

In [93]:
katarite = re.search(r'/profile/(.*).html', links[0]).groups()[0]

In [94]:
katarite

'df01'

これで1人目の語り手の1つ目のエピソードを取得できたので、ループを回してこれを全体に適用する。

---

In [101]:
# 保存用のファイルを作る
with open("./episodes.tsv", "w") as f:
    f.write("topic\tkatarite\tepisode\n")

In [102]:
for link in links:
    html = requests.get(link)
    soup = BeautifulSoup(html.content, "html.parser")
    # URLから語り手番号を取得する
    katarite = re.search(r'/profile/(.*).html', link).groups()[0]
    # 体験談一覧を取得する
    elem = soup.select("li[class='interviewItem']")
    # ひとつひとつの体験談へのリンクを取得する
    episode_links = []
    for e in elem:
        link = e.select("a")[0].attrs["href"]
        episode_links.append(link)
    # 体験談にアクセスする
    for episode_link in episode_links:
        html = requests.get(episode_link)
        soup = BeautifulSoup(html.content, "html.parser")
        # 語りの内容のテキストを取得する
        katari = soup.select("div[class='interview-text-box']")
        katari = katari[0].get_text().strip().replace("\n", "")
        # URLからトピックを取得する
        topic = re.search(r'/topic/(.*)/[0-9]+', episode_link).groups()[0]
        # ファイルに保存する
        with open("./episodes.tsv", "a") as f:
            f.write(f"{topic}\t{katarite}\t{katari}\n")
        # 3秒休んでから次のページにアクセスする
        time.sleep(3)
    # 3秒休んでから次のページにアクセスする
    time.sleep(3)

## 動的ページのスクレイピング

* [Selenium](https://www.selenium.dev/ja/documentation/): ブラウザのエミュレーションをするライブラリ

In [104]:
# Seleniumのインストール
!pip install selenium

Collecting selenium
  Downloading selenium-4.6.0-py3-none-any.whl (5.2 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.2/5.2 MB[0m [31m23.2 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m[36m0:00:01[0m
Collecting trio~=0.17
  Downloading trio-0.22.0-py3-none-any.whl (384 kB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m384.9/384.9 kB[0m [31m12.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting trio-websocket~=0.9
  Downloading trio_websocket-0.9.2-py3-none-any.whl (16 kB)
Collecting sortedcontainers
  Downloading sortedcontainers-2.4.0-py2.py3-none-any.whl (29 kB)
Collecting sniffio
  Downloading sniffio-1.3.0-py3-none-any.whl (10 kB)
Collecting exceptiongroup>=1.0.0rc9
  Downloading exceptiongroup-1.0.4-py3-none-any.whl (14 kB)
Collecting outcome
  Downloading outcome-1.2.0-py2.py3-none-any.whl (9.7 kB)
Collecting async-generator>=1.9
  Downloading async_generator-1.10-py3-none-any.whl (18 kB)
Collecting wsproto>=

In [None]:
# WebDriverのインストール
!apt-get update
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

In [None]:
# WebDriverの設定
options = webdriver.ChromeOptions()
options.add_argument("--headless")
options.add_argument("--no-sandbox")
options.add_argument("--disable-dev-shm-usage")

In [None]:
# WebDriverを呼び出す
driver = webdriver.Chrome("chromedriver", options=options)

In [None]:
url = "https://google.com"

In [None]:
# Webサイトにアクセスする
driver.get(url)

In [None]:
# ページ内のすべての要素が読み込まれるまで待機する。ただし、10秒たったらタイムアウトする。
element = WebDriverWait(driver, 10).until(
    EC.presence_of_all_elements_located
)

In [None]:
# 取得したHTMLを解析して、検索ボックスを選択する
search = driver.find_element(By.NAME, "q")

In [None]:
# 検索キーワードを入力して、実行する
search.send_keys("data visualization")
search.submit()

element = WebDriverWait(driver, 10).until(
    EC.presence_of_all_elements_located
)

In [None]:
# 検索結果を取得
result = driver.find_element(By.ID, "search")

In [None]:
# 検索結果ののタイトルを表示
links = result.find_elements(By.TAG_NAME, "h3")
for link in links:
    print(link.text)