# PythonでWebスクレイピング

##### Web上のデータを、取得して、その構造を理解し、pandasのDataFrameにします。

#### いくつか注意すべき事項を並べておきます。

1. Web上のデータだからと言って勝手に利用していいとは限りませんので、利用する前に確認しておきましょう。

1. プログラムで連続的にサーバに負荷をかけると、先方にブロックされて接続できなくなる危険性もありますので、注意しましょう。

1. Webサイトのデザインが変わることは日常茶飯ですので、時間が経ったらコードを見直す必要があるかも知れません。

1. Webページはデータの取得用に作られていませんので、取得したデータをクレンジングする（エラーなどを取り除いて整形する作業）する必要は大いにあります。

1. というわけで、やはりWebページごとにコードを書いてデータ取得の方法をカスタマイズする必要はあります。

#### やはりHTMLについて知っておく必要はあります

書籍を使ってしっかり学ぶのが良いかと思いますが、以下の様なサイトも参考になると思います。

[HTMLクイックリファレンス](http://www.htmq.com/)

[W3School(英語)](http://www.w3schools.com/html/)

#### 準備

それぞれ、Webスクレイピングのために必要なモジュールです。セットアップされていない場合は、インストールして使えるようにしておきましょう。

1.) BeautifulSoup<br>
http://www.crummy.com/software/BeautifulSoup/bs4/doc/<br>

OSのシェルで、

`pip install beautifulsoup4`

2.) html5ilb

https://html5lib.readthedocs.io/en/latest/

`pip install html5lib`

3.) requests

http://docs.python-requests.org/en/latest/

`pip install requests`

In [16]:
from bs4 import BeautifulSoup
import requests

In [17]:
import pandas as pd
from pandas import Series, DataFrame

サンプルデータは何でも良いんですが、私のWebサイトにあるPythonの歴史一覧を使います。

In [None]:
url = 'https://tsjshg.github.io/pysetup/python-history'

requestsでデータをとってきて、BeautifulSoupで中身を解析します。

In [18]:
# データを取得
result = requests.get(url)
c = result.content

In [19]:
c

b'<!DOCTYPE html>\n<html lang="en-US">\n  <head>\n    <meta charset="UTF-8">\n    <meta http-equiv="X-UA-Compatible" content="IE=edge">\n    <meta name="viewport" content="width=device-width, initial-scale=1">\n\n<!-- Begin Jekyll SEO tag v2.8.0 -->\n<title>Python\xe3\x81\xae\xe6\xad\xb4\xe5\x8f\xb2 | pysetup</title>\n<meta name="generator" content="Jekyll v3.9.3" />\n<meta property="og:title" content="Python\xe3\x81\xae\xe6\xad\xb4\xe5\x8f\xb2" />\n<meta property="og:locale" content="en_US" />\n<meta name="description" content="Python\xe3\x81\xae\xe7\x92\xb0\xe5\xa2\x83\xe6\xa7\x8b\xe7\xaf\x89" />\n<meta property="og:description" content="Python\xe3\x81\xae\xe7\x92\xb0\xe5\xa2\x83\xe6\xa7\x8b\xe7\xaf\x89" />\n<link rel="canonical" href="https://tsjshg.github.io/pysetup/python-history.html" />\n<meta property="og:url" content="https://tsjshg.github.io/pysetup/python-history.html" />\n<meta property="og:site_name" content="pysetup" />\n<meta property="og:type" content="website" />\n<met

In [20]:
print(c.decode('utf-8'))

<!DOCTYPE html>
<html lang="en-US">
  <head>
    <meta charset="UTF-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">

<!-- Begin Jekyll SEO tag v2.8.0 -->
<title>Pythonの歴史 | pysetup</title>
<meta name="generator" content="Jekyll v3.9.3" />
<meta property="og:title" content="Pythonの歴史" />
<meta property="og:locale" content="en_US" />
<meta name="description" content="Pythonの環境構築" />
<meta property="og:description" content="Pythonの環境構築" />
<link rel="canonical" href="https://tsjshg.github.io/pysetup/python-history.html" />
<meta property="og:url" content="https://tsjshg.github.io/pysetup/python-history.html" />
<meta property="og:site_name" content="pysetup" />
<meta property="og:type" content="website" />
<meta name="twitter:card" content="summary" />
<meta property="twitter:title" content="Pythonの歴史" />
<script type="application/ld+json">
{"@context":"https://schema.org","@type":"WebPage","description

In [21]:
# HTMLをもとに、オブジェクトを作る
soup = BeautifulSoup(c)

In [22]:
# tableタグを目印にtableを見つけます。
tables = soup.find_all('table')

In [23]:
len(tables)

1

ここまでLec103

通常、HTMLのテーブルでは`tr`タグで1行を表現し、`td`タグでその中にいくつか列を作ります。

ここで紹介するのは、Beautiful Soupのごくごく一部の機能です。詳しく知りたい方は[ドキュメントを参照してください。](http://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all).

In [26]:
# データを格納するためのリストです。
data = []

# テーブルから行をすべて探し出します。
rows = tables[0].find_all('tr')

# 行から、それぞれのcellを取り出して画面に表示しつつ、dataに格納します。
for tr in rows:
    cols = tr.find_all('td')
    # textを探して1行分をリストのします。
    row_list = []
    for td in cols:
        text = td.find(string=True) 
        print(text)
        row_list.append(text)
    # 1行ごとにdataに格納します。
    data.append(row_list)

0.9.0
February 1991
Initial release
1.0
January 1994
First stable release
2.0
October 2000
Unicode support, garbage collection
2.1
April 2001
New import system, nested scopes
2.2
December 2001
Generator expressions, unifying types and classes
2.3
July 2003
Generator enhancements, new string methods
2.4
November 2004
Generator improvements, decorators
2.5
September 2006
with statement, conditional expressions
2.6
October 2008
Abstract syntax tree, optimization improvements
2.7
July 2010
Backports of features from Python 3.x
3.0
December 2008
Major revision, not backward-compatible
3.1
June 2009
Improved Unicode support, new I/O library
3.2
February 2011
New multiprocessing module, improved SSL support
3.3
September 2012
New yield from expression, exception chaining
3.4
March 2014
New asyncio module, statistics module
3.5
September 2015
Matrix multiplication operator, async and await syntax
3.6
December 2016
Formatted string literals, asynchronous generators
3.7
June 2018
Data classes, p

In [27]:
data

[[],
 ['0.9.0', 'February 1991', 'Initial release'],
 ['1.0', 'January 1994', 'First stable release'],
 ['2.0', 'October 2000', 'Unicode support, garbage collection'],
 ['2.1', 'April 2001', 'New import system, nested scopes'],
 ['2.2', 'December 2001', 'Generator expressions, unifying types and classes'],
 ['2.3', 'July 2003', 'Generator enhancements, new string methods'],
 ['2.4', 'November 2004', 'Generator improvements, decorators'],
 ['2.5', 'September 2006', 'with statement, conditional expressions'],
 ['2.6', 'October 2008', 'Abstract syntax tree, optimization improvements'],
 ['2.7', 'July 2010', 'Backports of features from Python 3.x'],
 ['3.0', 'December 2008', 'Major revision, not backward-compatible'],
 ['3.1', 'June 2009', 'Improved Unicode support, new I/O library'],
 ['3.2', 'February 2011', 'New multiprocessing module, improved SSL support'],
 ['3.3', 'September 2012', 'New yield from expression, exception chaining'],
 ['3.4', 'March 2014', 'New asyncio module, statisti

In [28]:
header = []

for head in tables[0].find_all('thead')[0].find('tr').find_all('th'):
    header.append(head.find(string=True))

In [29]:
pd.DataFrame(data[1:], columns=header)

Unnamed: 0,Version,Release Date,Important Features
0,0.9.0,February 1991,Initial release
1,1.0,January 1994,First stable release
2,2.0,October 2000,"Unicode support, garbage collection"
3,2.1,April 2001,"New import system, nested scopes"
4,2.2,December 2001,"Generator expressions, unifying types and classes"
5,2.3,July 2003,"Generator enhancements, new string methods"
6,2.4,November 2004,"Generator improvements, decorators"
7,2.5,September 2006,"with statement, conditional expressions"
8,2.6,October 2008,"Abstract syntax tree, optimization improvements"
9,2.7,July 2010,Backports of features from Python 3.x


In [30]:
# pandasなら1行です。
# デフォルトではｌｘｍｌが使われますが、html5libを指定します。
table = pd.read_html(url, flavor='html5lib')[0]
table

Unnamed: 0,Version,Release Date,Important Features
0,0.9.0,February 1991,Initial release
1,1.0,January 1994,First stable release
2,2.0,October 2000,"Unicode support, garbage collection"
3,2.1,April 2001,"New import system, nested scopes"
4,2.2,December 2001,"Generator expressions, unifying types and classes"
5,2.3,July 2003,"Generator enhancements, new string methods"
6,2.4,November 2004,"Generator improvements, decorators"
7,2.5,September 2006,"with statement, conditional expressions"
8,2.6,October 2008,"Abstract syntax tree, optimization improvements"
9,2.7,July 2010,Backports of features from Python 3.x
