# ウェブスクレイピング

ウェブスクレイピングは、ウェブページの内容を取得する技術です。

静的なウェブページに対しては、HTMLを取得し、HTMLの構造を解析（パース）することで内容を抽出することができます。

動的なウェブページに対しては（アクセスがあって初めて内容が生成されるようなもの）、ブラウザの動きをエミュレートするライブラリを使って内容を取得します。

短時間に大量のアクセスをしてしまうと、相手側のサーバーに負担がかかるため、関連する法律やサイトの利用規約、倫理的な問題に気をつけて行いましょう（例：3秒に1回アクセスする、などの設定にする）。

## 静的ページのスクレイピング

* [requests](https://requests.readthedocs.io/en/latest/): 指定したURLに対してリクエストを投げてレスポンスを取得するライブラリ
* [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/): HTMLやXMLをパースするライブラリ

### ページを取得する

[DIPEx Japan](https://www.dipex-j.org/)の認知症患者と家族の語りを収集します。

In [1]:
import time # 時間の処理
import re # 正規表現
import requests
from bs4 import BeautifulSoup

In [2]:
index_page_url = "https://www.dipex-j.org/dementia/profid"

In [3]:
# HTMLを取得する
html = requests.get(index_page_url)

In [4]:
# 取得したHTMLを解析する
soup = BeautifulSoup(html.content, "html.parser")

In [5]:
# 生のHTMLを確認する
soup


<!DOCTYPE html>

<!--[if IE 7]>
<html class="ie ie7" lang="ja">
<![endif]-->
<!--[if IE 8]>
<html class="ie ie8" lang="ja">
<![endif]-->
<!--[if !(IE 7) & !(IE 8)]><!-->
<html lang="ja">
<!---sakura--->
<head>
<!-- Google tag (gtag.js) -->
<script async="" src="https://www.googletagmanager.com/gtag/js?id=G-SJ371GH66Y"></script>
<script>
  window.dataLayer = window.dataLayer || [];
  function gtag(){dataLayer.push(arguments);}
  gtag('js', new Date());

  gtag('config', 'G-SJ371GH66Y');
</script>
<meta charset="utf-8"/>
<!--<meta name="viewport" content="width=device-width" />	-->
<meta content="width=device-width" name="viewport"/>
<link href="https://gmpg.org/xfn/11" rel="profile"/>
<link href="https://www.dipex-j.org/dementia/xmlrpc.php" rel="pingback"/>
<!--[if lt IE 9]>
	<script src="https://www.dipex-j.org/dementia/wp-content/themes/twentytwelve/js/html5.js?ver=3.7.0" type="text/javascript"></script>
	<![endif]-->
<meta content="index, follow, max-image-preview:large, max-snippet

In [6]:
# 目当ての要素を取り出す（それぞれの語り手ページへのリンク）
elem = soup.select("div[class='profid-link'] > ul > li")

In [7]:
# リンクをリストに格納する
links = []
for e in elem:
    link = e.select("a")[0].attrs["href"]
    links.append(link)

In [8]:
# リンクを取得できた
links

['https://www.dipex-j.org/dementia/profile/df01.html',
 'https://www.dipex-j.org/dementia/profile/df02.html',
 'https://www.dipex-j.org/dementia/profile/df03.html',
 'https://www.dipex-j.org/dementia/profile/df04.html',
 'https://www.dipex-j.org/dementia/profile/df05.html',
 'https://www.dipex-j.org/dementia/profile/df06.html',
 'https://www.dipex-j.org/dementia/profile/df07.html',
 'https://www.dipex-j.org/dementia/profile/df08.html',
 'https://www.dipex-j.org/dementia/profile/df09.html',
 'https://www.dipex-j.org/dementia/profile/df10.html',
 'https://www.dipex-j.org/dementia/profile/df11.html',
 'https://www.dipex-j.org/dementia/profile/df12.html',
 'https://www.dipex-j.org/dementia/profile/df13.html',
 'https://www.dipex-j.org/dementia/profile/df14.html',
 'https://www.dipex-j.org/dementia/profile/df15.html',
 'https://www.dipex-j.org/dementia/profile/df16.html',
 'https://www.dipex-j.org/dementia/profile/df17.html',
 'https://www.dipex-j.org/dementia/profile/df19.html',
 'https://

---

まとめて処理するための前準備

In [None]:
# 1つ目のリンクにアクセスして様子を見る

In [9]:
html = requests.get(links[0])

In [10]:
soup = BeautifulSoup(html.content, "html.parser")

In [11]:
soup


<!DOCTYPE html>

<!--[if IE 7]>
<html class="ie ie7" lang="ja">
<![endif]-->
<!--[if IE 8]>
<html class="ie ie8" lang="ja">
<![endif]-->
<!--[if !(IE 7) & !(IE 8)]><!-->
<html lang="ja">
<!---sakura--->
<head>
<!-- Google tag (gtag.js) -->
<script async="" src="https://www.googletagmanager.com/gtag/js?id=G-SJ371GH66Y"></script>
<script>
  window.dataLayer = window.dataLayer || [];
  function gtag(){dataLayer.push(arguments);}
  gtag('js', new Date());

  gtag('config', 'G-SJ371GH66Y');
</script>
<meta charset="utf-8"/>
<!--<meta name="viewport" content="width=device-width" />	-->
<meta content="width=device-width" name="viewport"/>
<link href="https://gmpg.org/xfn/11" rel="profile"/>
<link href="https://www.dipex-j.org/dementia/xmlrpc.php" rel="pingback"/>
<!--[if lt IE 9]>
	<script src="https://www.dipex-j.org/dementia/wp-content/themes/twentytwelve/js/html5.js?ver=3.7.0" type="text/javascript"></script>
	<![endif]-->
<meta content="index, follow, max-image-preview:large, max-snippet

In [12]:
# 体験談一覧を取得する
elem = soup.select("li[class='interviewItem']")

In [13]:
elem

[<li class="interviewItem"><a href="https://www.dipex-j.org/dementia/topic/diagnosis/hajimari/69.html" rel="bookmark" title="Permanent Link to 用もないのにたびたび父から電話がかかってきたのは、今から思うと認知症のはじまりだったのかもしれないが、その時はわからなかった">用もないのにたびたび父から電話がかかってきたのは、今から思うと認知症のはじまりだったのかもしれないが、その時はわからなかった</a></li>,
 <li class="interviewItem"><a href="https://www.dipex-j.org/dementia/topic/diagnosis/kensa/332.html" rel="bookmark" title="Permanent Link to 両親が検査を受けるときは妹が連れて行ってくれたが、説明してもどうせ忘れるのに、行く前にきちんと説明していたのに感心した">両親が検査を受けるときは妹が連れて行ってくれたが、説明してもどうせ忘れるのに、行く前にきちんと説明していたのに感心した</a></li>,
 <li class="interviewItem"><a href="https://www.dipex-j.org/dementia/topic/diagnosis/kusuri/349.html" rel="bookmark" title="Permanent Link to 認知症の両親は降圧剤をはじめとして様々な生活習慣病の薬を飲んでいたが、高齢なので、父は前立腺の薬と認知症の薬、母は認知症の薬だけに絞ることにした">認知症の両親は降圧剤をはじめとして様々な生活習慣病の薬を飲んでいたが、高齢なので、父は前立腺の薬と認知症の薬、母は認知症の薬だけに絞ることにした</a></li>,
 <li class="interviewItem"><a href="https://www.dipex-j.org/dementia/topic/symptom/type/389.html" rel="bookmark" title="Permanent Link to 脳血管性認知症の父は電

In [14]:
# ひとつひとつの体験談へのリンクを取得する
episode_links = []
for e in elem:
    link = e.select("a")[0].attrs["href"]
    episode_links.append(link)

In [15]:
# エピソードリンクを取得できた
episode_links

['https://www.dipex-j.org/dementia/topic/diagnosis/hajimari/69.html',
 'https://www.dipex-j.org/dementia/topic/diagnosis/kensa/332.html',
 'https://www.dipex-j.org/dementia/topic/diagnosis/kusuri/349.html',
 'https://www.dipex-j.org/dementia/topic/symptom/type/389.html',
 'https://www.dipex-j.org/dementia/topic/symptom/shinpai/419.html',
 'https://www.dipex-j.org/dementia/topic/symptom/shinpai/420.html',
 'https://www.dipex-j.org/dementia/topic/resource/hibi/2078.html',
 'https://www.dipex-j.org/dementia/topic/resource/kimeru/489.html',
 'https://www.dipex-j.org/dementia/topic/resource/kaigo/508.html',
 'https://www.dipex-j.org/dementia/topic/resource/kaigo/509.html',
 'https://www.dipex-j.org/dementia/topic/resource/kaigo/510.html',
 'https://www.dipex-j.org/dementia/topic/resource/service/2091.html',
 'https://www.dipex-j.org/dementia/topic/to-be-carer/kimoti/631.html',
 'https://www.dipex-j.org/dementia/topic/to-be-carer/work/650.html',
 'https://www.dipex-j.org/dementia/topic/to-be

In [None]:
# 1つ目の体験談にアクセスしてみる

In [16]:
html = requests.get(episode_links[0])

In [17]:
soup = BeautifulSoup(html.content, "html.parser")

In [18]:
soup


<!DOCTYPE html>

<!--[if IE 7]>
<html class="ie ie7" lang="ja">
<![endif]-->
<!--[if IE 8]>
<html class="ie ie8" lang="ja">
<![endif]-->
<!--[if !(IE 7) & !(IE 8)]><!-->
<html lang="ja">
<!---sakura--->
<head>
<!-- Google tag (gtag.js) -->
<script async="" src="https://www.googletagmanager.com/gtag/js?id=G-SJ371GH66Y"></script>
<script>
  window.dataLayer = window.dataLayer || [];
  function gtag(){dataLayer.push(arguments);}
  gtag('js', new Date());

  gtag('config', 'G-SJ371GH66Y');
</script>
<meta charset="utf-8"/>
<!--<meta name="viewport" content="width=device-width" />	-->
<meta content="width=device-width" name="viewport"/>
<link href="https://gmpg.org/xfn/11" rel="profile"/>
<link href="https://www.dipex-j.org/dementia/xmlrpc.php" rel="pingback"/>
<!--[if lt IE 9]>
	<script src="https://www.dipex-j.org/dementia/wp-content/themes/twentytwelve/js/html5.js?ver=3.7.0" type="text/javascript"></script>
	<![endif]-->
<meta content="index, follow, max-image-preview:large, max-snippet

In [19]:
# 語りの内容のテキストを取得する（これが最終的な目的）
katari = soup.select("div[class='interview-text-box']")
katari = katari[0].get_text().strip().replace("\n", "")

In [20]:
katari

'実は、異変に気付いたときはね、まあ、今から思うとってことなんですよね。そのときは、やっぱり、分からなかったんです。ていうのが、両親も年とっていきますしね、自分自身もね、昔に比べるとだんだんもの忘れが激しくなってね、外出するにも３回も４回もうちを出入りしたりしている自分がいるもんですからね。単純に、両親も、もう年齢的なものかなってそのときは思っていました。ですけれども、今から考えてみますとね、わたし、あの、会社に勤めていたんですけれども、父が、あの、しょっちゅう会社に電話してくるんです。内容はたいしたことがなくて。「元気か、今度、いつ帰ってくるのか」とかね、子どもたちの近況をね、聞く、まあ、そういう内容なんですけれども。やはり、ひんぱんにかかってくるなって。午前中にかかってきて、また、午後にかかってきてね。勤めているもんだから、迷惑だなと思っていたわけなんですね。それで、あまり、ひんぱんにかかってくるから、あの、実家へ戻って会社の電話番号をね、えー、削除したんです、あの、メモに書いてあるもんですから。だけれども、頭の中に記憶していたみたいで、まっ黒に塗りつぶしたにもかかわらず、相変わらず会社に電話がかかってくるんですね。'

In [21]:
# URLを見ると、トピックがあらかじめ分類されているようなので、ついでに取得する
episode_links[0]

'https://www.dipex-j.org/dementia/topic/diagnosis/hajimari/69.html'

In [22]:
# 正規表現を使う
topic = re.search(r'/topic/(.*)/[0-9]+', episode_links[0]).groups()[0]

In [23]:
topic

'diagnosis/hajimari'

In [24]:
# 語り手番号も取得しておく
links[0]

'https://www.dipex-j.org/dementia/profile/df01.html'

In [25]:
katarite = re.search(r'/profile/(.*).html', links[0]).groups()[0]

In [26]:
katarite

'df01'

これで1人目の語り手の1つ目のエピソードを取得できたので、ループを回してこれを全体に適用する。

---

In [27]:
# 保存用のファイルを作る
with open("./data/episodes.tsv", "w") as f:
    f.write("topic\tkatarite\tepisode\n")

In [28]:
for link in links:
    html = requests.get(link)
    soup = BeautifulSoup(html.content, "html.parser")
    # URLから語り手番号を取得する
    katarite = re.search(r'/profile/(.*).html', link).groups()[0]
    # 体験談一覧を取得する
    elem = soup.select("li[class='interviewItem']")
    # ひとつひとつの体験談へのリンクを取得する
    episode_links = []
    for e in elem:
        link = e.select("a")[0].attrs["href"]
        episode_links.append(link)
    # 体験談にアクセスする
    for episode_link in episode_links:
        html = requests.get(episode_link)
        soup = BeautifulSoup(html.content, "html.parser")
        # 語りの内容のテキストを取得する
        katari = soup.select("div[class='interview-text-box']")
        katari = katari[0].get_text().strip().replace("\n", "")
        # URLからトピックを取得する
        topic = re.search(r'/topic/(.*)/[0-9]+', episode_link).groups()[0]
        # ファイルに保存する
        with open("./data/episodes.tsv", "a") as f:
            f.write(f"{topic}\t{katarite}\t{katari}\n")
        # 3秒休んでから次のページにアクセスする
        time.sleep(3)
    # 3秒休んでから次のページにアクセスする
    time.sleep(3)

# 34m やって終わらなかったので、途中で止める

KeyboardInterrupt: 

## 動的ページのスクレイピング

* [Selenium](https://www.selenium.dev/ja/documentation/): ブラウザのエミュレーションをするライブラリ

In [29]:
# Seleniumのインストール
%pip install selenium

Collecting selenium
  Downloading selenium-4.26.1-py3-none-any.whl.metadata (7.1 kB)
Collecting trio~=0.17 (from selenium)
  Downloading trio-0.27.0-py3-none-any.whl.metadata (8.6 kB)
Collecting trio-websocket~=0.9 (from selenium)
  Downloading trio_websocket-0.11.1-py3-none-any.whl.metadata (4.7 kB)
Collecting sortedcontainers (from trio~=0.17->selenium)
  Downloading sortedcontainers-2.4.0-py2.py3-none-any.whl.metadata (10 kB)
Collecting outcome (from trio~=0.17->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.9->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl.metadata (5.6 kB)
Collecting pysocks!=1.5.7,<2.0,>=1.5.6 (from urllib3[socks]<3,>=1.26->selenium)
  Downloading PySocks-1.7.1-py3-none-any.whl.metadata (13 kB)
Downloading selenium-4.26.1-py3-none-any.whl (9.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.7/9.7 MB[0m [31m44.1 MB/s[0m eta [36m0:00:00[0ma [36m0:0

In [30]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

In [31]:
# WebDriverの設定
options = Options()
options.add_argument("--headless")
options.add_argument("--no-sandbox")
options.add_argument("--disable-dev-shm-usage")

In [32]:
# WebDriverを呼び出す
driver = webdriver.Chrome(options=options)

In [33]:
url = "https://google.com"

In [34]:
# Webサイトにアクセスする
driver.get(url)

In [35]:
# ページ内のすべての要素が読み込まれるまで待機する。ただし、10秒たったらタイムアウトする。
element = WebDriverWait(driver, 10).until(
    EC.presence_of_all_elements_located
)

In [36]:
# 取得したHTMLを解析して、検索ボックスを選択する
search = driver.find_element(By.NAME, "q")

In [37]:
# 検索キーワードを入力して、実行する
search.send_keys("情報可視化")
search.submit()

element = WebDriverWait(driver, 10).until(
    EC.presence_of_all_elements_located
)

In [38]:
# 検索結果を取得
result = driver.find_element(By.ID, "search")

In [39]:
# 検索結果ののタイトルを表示
links = result.find_elements(By.TAG_NAME, "h3")
for link in links:
    print(link.text)

データ可視化とは？概要や必要性、方法とメリットについて解説




情報可視化入門:人の視覚とデータの表現手法 : 三末 和男
情報可視化が変える日常生活 - 伊藤貴之 研究室
情報可視化 データ分析・活用のためのしくみと考えかた
科学可視化と情報可視化
データ可視化とは？目的や方法、ポイントを徹底解説！
【記事更新】私のブックマーク「情報可視化」
「なるほど！」と言わせる【データ可視化】のトリセツ
意思決定を助ける 情報可視化技術 - VR・AR
情報可視化
