## Webスクレイピング

Webサイトからのデータ収集
- スクレイピング
  - Webページをダウンロードし（必要な）情報を取得
- クローリング
  - Webページのリンクをたどることで、あるWebサイトの全て（一部）をダウンロード

Webスクレイピングの方法
- 商品：Octoparse https://www.octoparse.jp
- パッケージ

### robots.txt

- Webサイトのトップページに配置されるテキストファイル
- クローリングについての指示を記載
  - クローリングを禁止するクローラ
  - クローリングを許可・禁止するパス（フォルダ）
  - クローリングの間隔

同様の情報はHTMLのmetaタグに記載されることもある。
以下は、アーカイブとして保存することを許可しないことを表す。
```
<meta name="robots" content="noarchive">
```

robots.txt, robot metaタグ自体には強制力は無く、紳士協定と言えるものであるが、指示に従うべき。

### ソフトウェアのインストール

requests, bs4 パッケージが無いとエラーが出る場合は、端末（ターミナル等）で以下のコマンドによりインストール：
```
conda install requests
conda install beautifulsoup4
```

### Webページからテキストの取得

In [1]:
import requests

# AIIT 学長あいさつ
url='https://aiit.ac.jp/about/message/'

# URLからデータ取得 (GET)
res = requests.get(url)

# 結果の確認
res

<Response [200]>

In [2]:
# ステータスコード
# - 200番台：成功
#   - 200: OK
# - 400番台：リクエストに誤り
#   - 404: Not Found
# - 500番台：サーバが処理に失敗
#   - 503: Service Unavailable
res.status_code

200

In [3]:
# 取得したデータ
res.content

b'<!DOCTYPE html>\n<html lang="ja">\n   <head prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb# article: http://ogp.me/ns/article#">\n\n<!-- Global site tag (gtag.js) - Google Analytics -->\n<script async="async" src="https://www.googletagmanager.com/gtag/js?id=UA-4739369-2"></script>\n<script>\n  window.dataLayer = window.dataLayer || [];\n  function gtag(){dataLayer.push(arguments);}\n  gtag(\'js\', new Date());\n\n  gtag(\'config\', \'UA-4739369-2\');\n</script>\n\n<!-- Google tag (gtag.js) -->\n<script async="async" src="https://www.googletagmanager.com/gtag/js?id=AW-10955379423"></script>\n<script>\n  window.dataLayer = window.dataLayer || [];\n  function gtag(){dataLayer.push(arguments);}\n  gtag(\'js\', new Date());\n\n  gtag(\'config\', \'AW-10955379423\');\n</script>\n\n<meta charset="UTF-8"/>\n      <meta name="viewport" content="width=device-width, user-scalable=yes"/>\n      <meta name="format-detection" content="telephone=no"/>\n      <meta http-equiv="X-UA-Compatible

In [4]:
# データのエンコーディング
res.encoding

'UTF-8'

In [5]:
# 取得したデータをデコードした HTML
res.text

'<!DOCTYPE html>\n<html lang="ja">\n   <head prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb# article: http://ogp.me/ns/article#">\n\n<!-- Global site tag (gtag.js) - Google Analytics -->\n<script async="async" src="https://www.googletagmanager.com/gtag/js?id=UA-4739369-2"></script>\n<script>\n  window.dataLayer = window.dataLayer || [];\n  function gtag(){dataLayer.push(arguments);}\n  gtag(\'js\', new Date());\n\n  gtag(\'config\', \'UA-4739369-2\');\n</script>\n\n<!-- Google tag (gtag.js) -->\n<script async="async" src="https://www.googletagmanager.com/gtag/js?id=AW-10955379423"></script>\n<script>\n  window.dataLayer = window.dataLayer || [];\n  function gtag(){dataLayer.push(arguments);}\n  gtag(\'js\', new Date());\n\n  gtag(\'config\', \'AW-10955379423\');\n</script>\n\n<meta charset="UTF-8"/>\n      <meta name="viewport" content="width=device-width, user-scalable=yes"/>\n      <meta name="format-detection" content="telephone=no"/>\n      <meta http-equiv="X-UA-Compatible"

In [6]:
from bs4 import BeautifulSoup

# 取得したデータからの必要なデータ抽出（準備）
# - 'html.parser': 標準のHTML解析器
soup = BeautifulSoup(res.content, 'html.parser')

# 結果の確認
# - prettify(): HTMLの構造がわかりやすいように出力
print(soup.prettify())

<!DOCTYPE html>
<html lang="ja">
 <head prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb# article: http://ogp.me/ns/article#">
  <!-- Global site tag (gtag.js) - Google Analytics -->
  <script async="async" src="https://www.googletagmanager.com/gtag/js?id=UA-4739369-2">
  </script>
  <script>
   window.dataLayer = window.dataLayer || [];
  function gtag(){dataLayer.push(arguments);}
  gtag('js', new Date());

  gtag('config', 'UA-4739369-2');
  </script>
  <!-- Google tag (gtag.js) -->
  <script async="async" src="https://www.googletagmanager.com/gtag/js?id=AW-10955379423">
  </script>
  <script>
   window.dataLayer = window.dataLayer || [];
  function gtag(){dataLayer.push(arguments);}
  gtag('js', new Date());

  gtag('config', 'AW-10955379423');
  </script>
  <meta charset="utf-8"/>
  <meta content="width=device-width, user-scalable=yes" name="viewport"/>
  <meta content="telephone=no" name="format-detection"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta co

In [7]:
type(soup)

bs4.BeautifulSoup

In [8]:
# テキストの抽出
text = soup.get_text()

# 結果の確認
text

'\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n学長あいさつ | 大学案内 | AIIT東京都立産業技術大学院大学\n\n\n\n\n\n\n\n\n\n\n\n\n\nこのページの本文へ\n\n\nメインメニューへ（フォーカスすると下層リンクが展開されます）\n\n\n「大学案内」のサブメニューへ\n\n\n\n\n\n\n\n\n\nHOME\n\n\n\n\n\n大学案内\n\n\n\n教育の特色\n\n\n専攻・コース\n\n\n学生生活・キャリア支援\n\n\n研究活動・産学連携\n\n\n入学案内\n\n\n\n\n\n受験生・社会人の方へ\n\n\n企業の方へ\n\n\n修了生の方へ\n\n\nAIITポータル\n\n\n\n\nアクセス\n\n\n資料請求\n\n\nお問い合わせ\n\n\n\n\n\n\n\n\nEnglish\n\n\n\n\n\n\nHOME\n\n\n\n\n大学案内\n\n\n\n\n学長あいさつ\n\n\n\n\n\n\n\n学長あいさつ\n高い志を持った学生が集う大学院がここにあります\n\n\n\n\n\n\n世の中で起こってほしい変化を起こす人になれ。 ーMahatma Gandhi（1869-1948）\n本学は、東京都が設置した専門職大学院であり、国内外の産業技術分野において活躍できる高度で専門的な知識・スキルと実務遂行能力を備えた高度専門職業人を養成することを目的とします。\n本学の産業技術専攻は3コース制をとっています。すなわち、起業、企業内新規事業、事業承継を通して未来の価値づくりを担う「事業イノベーター」を育成する事業設計工学コース、情報系の上流工程のマネジメント能力を備え高度なIT技術者である「情報アーキテクト」を育成する情報アーキテクチャコース、デザインとAI・データサイエンス技術を融合して価値創造をもたらす「ものづくりアーキテクト」を育成する創造技術コースがあります。\n本学の教員組織は、学術的研究を担える教員に加えて産業界の実学を伝えることのできる教員から構成されており、学生みなさんが、研究だけではなく、産業技術分野において新たな価値を示すことのできる能力獲得が行えるような教育プログラムを実施しています。\n本学は多様性を重んじています。この多様性とは、学生みなさ

In [9]:
# 不要な文字コードの置換
# - 改行 \n
# - 全角スペース \u3000
text.replace('\n', '').replace('\u3000', ' ')

'学長あいさつ | 大学案内 | AIIT東京都立産業技術大学院大学このページの本文へメインメニューへ（フォーカスすると下層リンクが展開されます）「大学案内」のサブメニューへHOME大学案内教育の特色専攻・コース学生生活・キャリア支援研究活動・産学連携入学案内受験生・社会人の方へ企業の方へ修了生の方へAIITポータルアクセス資料請求お問い合わせEnglishHOME大学案内学長あいさつ学長あいさつ高い志を持った学生が集う大学院がここにあります世の中で起こってほしい変化を起こす人になれ。 ーMahatma Gandhi（1869-1948）本学は、東京都が設置した専門職大学院であり、国内外の産業技術分野において活躍できる高度で専門的な知識・スキルと実務遂行能力を備えた高度専門職業人を養成することを目的とします。本学の産業技術専攻は3コース制をとっています。すなわち、起業、企業内新規事業、事業承継を通して未来の価値づくりを担う「事業イノベーター」を育成する事業設計工学コース、情報系の上流工程のマネジメント能力を備え高度なIT技術者である「情報アーキテクト」を育成する情報アーキテクチャコース、デザインとAI・データサイエンス技術を融合して価値創造をもたらす「ものづくりアーキテクト」を育成する創造技術コースがあります。本学の教員組織は、学術的研究を担える教員に加えて産業界の実学を伝えることのできる教員から構成されており、学生みなさんが、研究だけではなく、産業技術分野において新たな価値を示すことのできる能力獲得が行えるような教育プログラムを実施しています。本学は多様性を重んじています。この多様性とは、学生みなさんの背景が社会人技術者・管理職、学部卒、企業経営者、スタートアップを志す方等、および、年齢層が多様であること。本学が輩出するキャリアモデルの資質、知識、スキル、能力が学際的に多様であること。個々人の創造性、独自性、価値観が多様であること。これらを本学は受容した上で、独自の教育研究と社会貢献を実施しています。本学に入学されて、この多様な価値観に触れることで、新鮮な啓発や気付きを得られることでしょう。これにより、深い学びの価値に気付くでしょう。そして、学ぶことでみなさんの才能は開花するでしょう。その才能の発揮は、社会や環境そして人の価値観をより良く変えるために行われる、その

### 主要なコンテンツのテキスト

Webページの主要なコンテンツ部分は `<main> ~ </main>` に配置する（のが一般的）：
```
   <main id="mainContents">
    <article>
     <h1>
      学長あいさつ
     </h1>
     ・・・本文・・・
    </article>
   </main>
```

In [10]:
# main要素からテキストの抽出
main_text = soup.main.get_text()

# 結果の確認
main_text

'\n\n学長あいさつ\n高い志を持った学生が集う大学院がここにあります\n\n\n\n\n\n\n世の中で起こってほしい変化を起こす人になれ。 ーMahatma Gandhi（1869-1948）\n本学は、東京都が設置した専門職大学院であり、国内外の産業技術分野において活躍できる高度で専門的な知識・スキルと実務遂行能力を備えた高度専門職業人を養成することを目的とします。\n本学の産業技術専攻は3コース制をとっています。すなわち、起業、企業内新規事業、事業承継を通して未来の価値づくりを担う「事業イノベーター」を育成する事業設計工学コース、情報系の上流工程のマネジメント能力を備え高度なIT技術者である「情報アーキテクト」を育成する情報アーキテクチャコース、デザインとAI・データサイエンス技術を融合して価値創造をもたらす「ものづくりアーキテクト」を育成する創造技術コースがあります。\n本学の教員組織は、学術的研究を担える教員に加えて産業界の実学を伝えることのできる教員から構成されており、学生みなさんが、研究だけではなく、産業技術分野において新たな価値を示すことのできる能力獲得が行えるような教育プログラムを実施しています。\n本学は多様性を重んじています。この多様性とは、学生みなさんの背景が社会人技術者・管理職、学部卒、企業経営者、スタートアップを志す方等、および、年齢層が多様であること。本学が輩出するキャリアモデルの資質、知識、スキル、能力が学際的に多様であること。個々人の創造性、独自性、価値観が多様であること。これらを本学は受容した上で、独自の教育研究と社会貢献を実施しています。\n本学に入学されて、この多様な価値観に触れることで、新鮮な啓発や気付きを得られることでしょう。これにより、深い学びの価値に気付くでしょう。そして、学ぶことでみなさんの才能は開花するでしょう。その才能の発揮は、社会や環境そして人の価値観をより良く変えるために行われる、そのような人材を本学は世に送り出します。\nみなさんの入学をお待ちしています。\n\n東京都立産業技術大学院大学\u3000学長橋本\u3000洋志\n\n'

### 必要なデータだけ抽出

- find(), find_all()の引数に要素名を指定

In [11]:
# 一致する最初の要素
soup.find('h1')

<h1>学長あいさつ</h1>

In [12]:
# テキスト部分
h1 = soup.find('h1')
h1.text

'学長あいさつ'

In [13]:
# 全ての a 要素
soup.find_all('a')

[<a href="#mainContents">このページの本文へ</a>,
 <a href="#globalNav">メインメニューへ（フォーカスすると下層リンクが展開されます）</a>,
 <a href="#localNav">「大学案内」のサブメニューへ</a>,
 <a href="/">
 <img alt="東京都立産業技術大学院大学" src="/assets/img/logo_aiit_jp.svg"/></a>,
 <a href="/">HOME</a>,
 <a href="/about/">大学案内</a>,
 <a href="/education/">教育の特色</a>,
 <a href="/master_program/">専攻・コース</a>,
 <a href="/support/">学生生活・キャリア支援</a>,
 <a href="/research_collab/">研究活動・産学連携</a>,
 <a href="/admission/">入学案内</a>,
 <a href="/prospective/">受験生・社会人の方へ</a>,
 <a href="/company/">企業の方へ</a>,
 <a href="/alumni/">修了生の方へ</a>,
 <a href="/student/">AIITポータル</a>,
 <a href="/about/access/">アクセス</a>,
 <a href="/admission/document.html">資料請求</a>,
 <a href="/contact/">お問い合わせ</a>,
 <a href="/english/">English</a>,
 <a href="/" itemprop="item">
 <span itemprop="name">HOME</span></a>,
 <a href="/about/" itemprop="item">
 <span itemprop="name">大学案内</span></a>,
 <a href="/about/message/" itemprop="item">
 <span itemprop="name">学長あいさつ</span></a>,
 <a href="/about/

In [14]:
# 最初の a 要素のテキスト部分と URL (href) の取得
a = soup.find('a')
print('text({}) href({})'.format(a.text, a['href']))

text(このページの本文へ) href(#mainContents)


In [15]:
# 複数の要素をリストで指定して全ての要素を取得
elements = soup.find_all(['h1', 'h2', 'a', 'p'])

# 空のリストを作成
text_list = []

# 各要素のテキストをリストに追加
for e in elements:
    text_list.append(e.text)

# リストを結合
''.join(text_list)

'このページの本文へメインメニューへ（フォーカスすると下層リンクが展開されます）「大学案内」のサブメニューへ\n\nHOME\nHOME大学案内教育の特色専攻・コース学生生活・キャリア支援研究活動・産学連携入学案内受験生・社会人の方へ企業の方へ修了生の方へAIITポータルアクセス資料請求お問い合わせ\nEnglish\nEnglish\nHOME\n大学案内\n学長あいさつ学長あいさつ高い志を持った学生が集う大学院がここにあります世の中で起こってほしい変化を起こす人になれ。 ーMahatma Gandhi（1869-1948）本学は、東京都が設置した専門職大学院であり、国内外の産業技術分野において活躍できる高度で専門的な知識・スキルと実務遂行能力を備えた高度専門職業人を養成することを目的とします。本学の産業技術専攻は3コース制をとっています。すなわち、起業、企業内新規事業、事業承継を通して未来の価値づくりを担う「事業イノベーター」を育成する事業設計工学コース、情報系の上流工程のマネジメント能力を備え高度なIT技術者である「情報アーキテクト」を育成する情報アーキテクチャコース、デザインとAI・データサイエンス技術を融合して価値創造をもたらす「ものづくりアーキテクト」を育成する創造技術コースがあります。本学の教員組織は、学術的研究を担える教員に加えて産業界の実学を伝えることのできる教員から構成されており、学生みなさんが、研究だけではなく、産業技術分野において新たな価値を示すことのできる能力獲得が行えるような教育プログラムを実施しています。本学は多様性を重んじています。この多様性とは、学生みなさんの背景が社会人技術者・管理職、学部卒、企業経営者、スタートアップを志す方等、および、年齢層が多様であること。本学が輩出するキャリアモデルの資質、知識、スキル、能力が学際的に多様であること。個々人の創造性、独自性、価値観が多様であること。これらを本学は受容した上で、独自の教育研究と社会貢献を実施しています。本学に入学されて、この多様な価値観に触れることで、新鮮な啓発や気付きを得られることでしょう。これにより、深い学びの価値に気付くでしょう。そして、学ぶことでみなさんの才能は開花するでしょう。その才能の発揮は、社会や環境そして人の価値観をより良く変えるために行われる、そのような人材を