# 5.1 スクレイピング

## 5.1.1 スクレイピングとは
* インターネット上のWebページから情報を取得すること
* Webページの内容をプログラムで使用するために、必要とする要素のみを抜き出すこと

## 5.1.2 スクレイピングの準備

### [Requests](http://docs.python-requests.org)
* Webブラウザの代わりにWebサイトにアクセスし、HTTPでデータの送受信を行う

### [BeautifulSoup4](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
* HTMLやXMLを解析しデータを取り出すためのライブラリ

## 5.1.3 Webページをダウンロード

[CodeZine](https://codezine.jp/)の情報を取得する

Requestsを用いてCodeZineにアクセスする

In [1]:
import requests

r = requests.get('https://codezine.jp/') # URLにアクセスする
print(type(r))
print(r.status_code)

<class 'requests.models.Response'>
200


ページの内容（HTML）を取得し、`<titie>`タグと`<h1>`タグの要素を取得する

In [2]:
text = r.text # HTMLのソースコードを取得する
for line in text.split('\n'):
    if '<title>' in line or '<h1>' in line:
        print(line.strip())

<title>CodeZine（コードジン）</title>
<h1><a href="/"><img src="/lib/img/cmn/cmn-header-logo.png" alt="CodeZine（コードジン）" ></a></h1>


## 5.1.4 Webページから要素を抜き出す
* BeautifulSoup4を使うと、HTMLを構文解析して任意の要素を取り出しことができる

CodeZineから取得したHTMLを構文解析し、指定の要素を取得する

In [3]:
from bs4 import BeautifulSoup

# HTMLを解析したオブジェクトを生成
soup = BeautifulSoup(text, 'html.parser')
print(soup.title) # <title>タグの情報を取得
print(soup.h1) # <h1>タグの情報を取得
# h1タグの中のaタグの中のimgタグのalt属性
print(soup.h1.a.img['alt'])

<title>CodeZine（コードジン）</title>
<h1><a href="/"><img alt="CodeZine（コードジン）" src="/lib/img/cmn/cmn-header-logo.png"/></a></h1>
CodeZine（コードジン）


#### bs4.BeautifulSoup.find_allメソッド
* 引数で指定したタグの要素をすべて取得する

すべてのaタグを取得し、先頭5件分のタイトルとリンク先を出力する

In [4]:
atags = soup.find_all('a') # すべてのaタグを取得
print('aタグの数：', len(atags)) # aタグの数を取得
for atag in atags[:5]:
    print('タイトル：', atag.text) # aタグのテキストを取得
    print('リンク：', atag['href']) # aタグのリンクを取得

aタグの数： 169
タイトル： このページの本文へ移動
リンク： #contents
タイトル： 企業IT
リンク： https://enterprisezine.jp/
タイトル： 開発
リンク： https://codezine.jp/
タイトル： データベース
リンク： https://enterprisezine.jp/dbonline/
タイトル： セキュリティ
リンク： https://enterprisezine.jp/securityonline/


## 5.1.5 記事の一覧を抜き出す

#### CodeZineの記事一覧の構造
* 記事自体が`<ul class="catList">`の中にある
* 1つの記事はその中の`<li>`単位
* `<div class="day">`の中に日付
* `<h2>`の中の`<a>`の中にタイトルとリンク先
* `<ul class="tag">`の中にタグ情報があり、各タグごとに`<li>`がある

CodeZineの記事一覧を抜き出す

In [5]:
from datetime import datetime

import requests
from bs4 import BeautifulSoup

r = requests.get('https://codezine.jp/article/tag/223') # Pythonの記事一覧を取得
soup = BeautifulSoup(r.text, 'html.parser')

articles = [] # 各記事の情報を格納するリスト

# CSSセレクターで<ul class="catList"><li>を取得
lis = soup.select('ul.catList > li')
for li in lis:
    # 日付の文字列を取得
    day = li.find('div', class_ = 'day').text.strip()
    # 日付をdatetimeに変換
    published = datetime.strptime(day, '%Y/%m/%d')
    h2_tag = li.find('h2') # h2タグを取得
    title = h2_tag.text # タイトルを取得
    url = h2_tag.a['href'] # URLを取得
    
    tag_list = li.select('ul.tag > li') # タグのli要素を取得
    # タグのリストを生成
    tags = [tag.text.strip() for tag in tag_list]
    
    article = {
        'published': published,
        'title': title,
        'url': url,
        'tags': tags
    }
    articles.append(article)

抜き出した記事一覧の先頭3件を出力する

In [7]:
articles[:3]

[{'published': datetime.datetime(2019, 1, 30, 0, 0),
  'title': '『Pythonで動かして学ぶ 自然言語処理入門』から自然言語処理の概要を紹介',
  'url': '/article/detail/11335',
  'tags': ['Python', '人工知能']},
 {'published': datetime.datetime(2019, 1, 23, 0, 0),
  'title': 'テキストマイニングや評判分析も 『Pythonで動かして学ぶ 自然言語処理入門』',
  'url': '/article/detail/11293',
  'tags': ['Python', '機械学習']},
 {'published': datetime.datetime(2019, 1, 11, 0, 0),
  'title': 'なぜ機械学習にPythonが強いのか、Pythonで並行処理をするコツを伝授【PyData.tokyo】',
  'url': '/article/detail/11197',
  'tags': ['Python', 'データ処理']}]

生成した記事一覧の辞書を、DataFrameに変換する

In [10]:
import pandas as pd
df = pd.DataFrame(articles) # 辞書をDataFrameに変換

変換したDataFrameを表示

In [11]:
df[:3]

Unnamed: 0,published,tags,title,url
0,2019-01-30,"[Python, 人工知能]",『Pythonで動かして学ぶ 自然言語処理入門』から自然言語処理の概要を紹介,/article/detail/11335
1,2019-01-23,"[Python, 機械学習]",テキストマイニングや評判分析も 『Pythonで動かして学ぶ 自然言語処理入門』,/article/detail/11293
2,2019-01-11,"[Python, データ処理]",なぜ機械学習にPythonが強いのか、Pythonで並行処理をするコツを伝授【PyData....,/article/detail/11197


## 5.1.6 スクレイピングで気をつけること
1. Webサイトがプログラムでのアクセスを許可しているかどうか確認する
  * [robots.txt](https://developers.google.com/search/reference/robots_txt)で確認できる
1. 同じWebサイトに連続してアクセスしない
  * Webサーバの負荷が高まるため

## 5.1.7 次のステップ

### JavaScript対応
* RequestsとBeautifulSoup4の組み合わせでは、JavaScriptで表示されているコンテンツの取得は出来ない
  * 別途、[Selenium](https://www.seleniumhq.org/)とヘッドレスブラウザが必要となる

### スクレイピングフレームワーク：[Scrapy](https://scrapy.org/)
* Webスクレイピングフレームワーク
* 以下の機能を提供する
  * クローリング機能：複数ページにアクセスする
  * スクレイピング機能：Webページから情報を抜き出す
* robots.txtやWebサイトへのアクセス間隔の設定に対応する