# 1.1 データのダウンロード

## `urllib.request.urlretrieve()`を使ったダウンロード

最初に、Webサイトからファイルをダウンロードする方法について学ぶ。  
`urllib.request`ライブラリの`urlretrieve()`を使用すれば、保存元URLと保存先ディレクトリを指定するだけでファイルをダウンロードできる。

In [1]:
import urllib.request

url = "http://uta.pw/shodou/img/28/214.png"
savedirname = "items"
savefilename = "test.png"
urllib.request.urlretrieve(url, savedirname + "/" + savefilename)
print("download done")

download done


<img src="items/test.png" alt="画像を取得できていません">

In [2]:
# 上記で取得したファイルを削除する
import os
deletedirname = savedirname
deletefilename = savefilename
os.remove(deletedirname + "/" + deletefilename)

## `urllib.request.urlopen()`を使ったダウンロード

上記では`retrieve()`を使ってファイルを直接保存した。  
今回は、取得したデータをメモリ上に保持するため、`request.urlopen()`を使用する。

In [3]:
import urllib.request

url = "http://uta.pw/shodou/img/28/214.png"
savename = "items/test2.png"

mem = urllib.request.urlopen(url).read()

# ファイルに保存
with open(savename, mode="wb") as fd:
    fd.write(mem)
    print("download done")

download done


<img src="items/test2.png" alt="画像を取得できていません">

In [4]:
# 上記で取得したファイルを削除する
import os
os.remove(savename)

## Webからデータを取得する

著者が用意している「クジラ Web API」を使ってWebデータを取得する。

In [5]:
import urllib.request

# データを取得する
url = "http://api.aoikujira.com/ip/ini"
data = urllib.request.urlopen(url).read()

# バイナリデータをutf-8にエンコードする
text = data.decode("utf-8")
print(text)

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=126.48.244.33
REMOTE_HOST=softbank126048244033.bbtec.net
REMOTE_PORT=49412
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.5
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




### 任意のパラメータを付けてリクエストを送信する

URLの末尾に`?aaa=xxx&bbb=yyy&ccc=zzz`の形式のパラメータを付けてリクエストを送信する。

In [6]:
import urllib.request
import urllib.parse

API = "http://api.aoikujira.com/zip/xml/get.php"

# パラメータを作成する
values = {
    'fmt' : 'xml',
    'zn' : '1500042'
}

# パラメータをURLエンコードする
params = urllib.parse.urlencode(values)

# リクエスト用のURLを生成
url = API + "?" + params
print("url=", url)

# データをダウンロードする
data = urllib.request.urlopen(url).read()

# データをバイナリからutf-8に変換する
text = data.decode("utf-8")

print(text)

url= http://api.aoikujira.com/zip/xml/get.php?fmt=xml&zn=1500042
<?xml version="1.0" encoding="utf-8" ?>
<address result="1">
<header>
  <result>1</result>
  <api>api.aoikujira.com/zip</api>
  <version>1.1</version>
</header>
<value>
  <zip>1500042</zip>
  <ken>東京都</ken>
  <shi>渋谷区</shi>
  <cho>宇田川町</cho>
  <disp>東京都渋谷区宇田川町</disp>
  <kenkana>トウキョウト</kenkana>
  <shikana>シブヤク</shikana>
  <chokana>ウダガワチョウ</chokana>
</value>
</address>


### 百人一首を検索するコマンドを自作する

下記仕様のAPIを使用して、百人一首を取得する。   

[URL]
- http://api.aoikujira.com/hyakunin/get.php

[パラメータ]

- fmt : 検索結果の形式をini/xml/jsonで指定
- key : 検索キーワードを指定

In [7]:
import urllib.request
import urllib.parse

API = "http://api.aoikujira.com/hyakunin/get.php"

# パラメータを作成する
values = {
    'fmt' : 'xml',
    'key' : '秋の田の'
}

values['fmt'] = input("ファイルフォーマット(ini/xml/json) >> ")
values['key'] = input("百人一首検索 >> ")

# パラメータをURLエンコードする
params = urllib.parse.urlencode(values)

# リクエスト用のURLを生成
url = API + "?" + params
print("url=", url)

# データをダウンロードする
data = urllib.request.urlopen(url).read()

# データをバイナリからutf-8に変換する
text = data.decode("utf-8")

print(text)

ファイルフォーマット(ini/xml/json) >> ini
百人一首検索 >> 冬
url= http://api.aoikujira.com/hyakunin/get.php?fmt=ini&key=%E5%86%AC
[item28]
kami=山里は 冬ぞさびしさ まさりける
simo=人目も草も かれぬと思へば
kami_kana=やまさとはふゆそさびしさまさりける
simo_kana=ひとめもくさもかれぬとおもへは
sakusya=源宗行朝臣




# 1.2 Beautiful Soupを使ってスクレイピングする

Beautiful Soupは、HTMLやXMLを解析するライブラリである。  
したがって、データをダウンロードする機能はない。  
使用するためには、予め`pip`コマンドなどで`beautifulsoup4`をインストールすること。

### Beautiful Soupの基本的な使い方

使用例として、Webサイトからではなく、プログラム内で作成したHTML形式の文字列を解析する。

In [8]:
from bs4 import BeautifulSoup

html = """
<html>
<body>
<h1>スクレイピングとは?</h1>
<p>Webページを解析すること。</p>
<p>任意の箇所を抽出すること。</p>
</body>
</html>
"""

# HTMLを解析する
soup = BeautifulSoup(html, 'html.parser')

# 任意の部分を抽出する
h1 = soup.html.body.h1
p1 = soup.html.p
p2 = p1.next_sibling.next_sibling # next_sibling1回だと、1個目のpの直後の「改行やスペース」を取得する。

# 要素のテキストを表示する
print("h1 = " + h1.string)
print("p1 = " + p1.string)
print("p2 = " + p2.string)


h1 = スクレイピングとは?
p1 = Webページを解析すること。
p2 = 任意の箇所を抽出すること。


### 任意のidで要素を探す方法

In [9]:
from bs4 import BeautifulSoup
html = """
<html>
<body>
<h1 id="title">スクレイピングとは?</h1>
<p id="body">Webページから任意のデータを抽出すること。</p>
</body>
</html>
"""

# HTMLを解析する
soup = BeautifulSoup(html, 'html.parser')

# find()メソッドでidを指定して取り出す
title = soup.find(id='title')
body = soup.find(id='body')

# テキスト部分を表示
print("#title=" + title.string)
print("#body=" + body.string)

# 
print("type of \"title\": " + str(type(title)))

#title=スクレイピングとは?
#body=Webページから任意のデータを抽出すること。
type of "title": <class 'bs4.element.Tag'>


### 複数の要素を取得する - `find_all()`メソッド

複数のタグを一気に取得するために、`find_all()`メソッドを利用する。  
`<a>`タグを取得するプログラムを以下に示す。

In [10]:
from bs4 import BeautifulSoup

html = """
<html><body>
  <ul>
    <li><a href="http://uta.pw">uta</a></li>
    <li><a href="http://oto.chu.jp">oto</a></li>
  </ul>
</body></html>
"""

# HTMLを解析する
soup = BeautifulSoup(html, 'html.parser')

# find_all()メソッドで全ての<a>タグを取り出す
links = soup.find_all("a")

# リンク一覧を表示
for a in links:
    text = a.string
    href = a.attrs['href']
    print(text, ">", href)

uta > http://uta.pw
oto > http://oto.chu.jp


### DOM要素の属性について

DOM(Document Object Model)とは、XMLやHTMLの各要素にアクセスする仕組みのことである。  
そして、DOM要素の属性とは、タグ名の後ろにある各属性のことである。  
例えば、`<a>`タグにおける`href`などのことである。

**下記に、実際にDOM要素の属性を取得する手順を示す。**

In [11]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(
                "<p><a href='a.html'>test</a></p>",
                "html.parser")

# 解析が正しく出来ているか確認する
soup.prettify()

'<p>\n <a href="a.html">\n  test\n </a>\n</p>'

In [12]:
# <a>タグを変数aに代入する
a = soup.p.a

# attrsプロパティの型を確認する
type(a.attrs)

dict

In [13]:
# href属性があるか確認する
'href' in a.attrs

True

In [14]:
# href属性の値を確認
a['href']

'a.html'

### `urlopen()`と`BeautifulSoup()`の組み合わせ

`BeautifulSoup()`への引数には、`open()`関数や`urllib.request.urlopen()`関数の戻り値を指定することも出来る。

In [15]:
from bs4 import BeautifulSoup
import urllib.request as req

# 指定した郵便番号の情報を取得するAPIのURL
url = "http://api.aoikujira.com/zip/xml/1500042"

# urlopen()でデータを取得する
res = req.urlopen(url)

print("type of \"res\": " + str(type(res)))

# BeautifulSoupで解析する
soup = BeautifulSoup(res, "html.parser")

# 任意のデータを抽出する
ken = soup.find("ken",).string
shi = soup.find("shi",).string
cho = soup.find("cho",).string
print(ken, shi, cho)

type of "res": <class 'http.client.HTTPResponse'>
東京都 渋谷区 宇田川町


### CSSセレクタを指定して、任意の要素を抽出する

`BeautifulSoup`では、JavaScriptのライブラリ"jQuery"のように、CSSのセレクタを指定して、任意の要素を抽出することもできる。

|メソッド|解説|
|:----|:----|
|`soup.select_one(セレクタ)`|CSSセレクタで要素を1つ取り出す|
|`soup.select(セレクタ)`|CSSセレクタで複数の要素を取り出し、リスト型で返す|

これらのメソッドの使用例を下記に示す。

In [16]:
from bs4 import BeautifulSoup

# 解析対象となるHTML
html = """
<html><body>
<div id="meigen">
  <h1>トルストイの名言</h1>
  <ul class="items">
    <li>汝の心に教えよ、心に学ぶな</li>
    <li>謙虚な人はだれからも好かれる。</li>
    <li>強い人々は、いつも気取らない。</li>
  </ul>
</div>
</body></html>
"""

# HTMLを解析する
soup = BeautifulSoup(html, 'html.parser')

# 必要な部分をCSSqueryで取り出す
h1 = soup.select_one("div#meigen > h1").string
print("h1 =", h1)

# リスト部分を取得する
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
    print("li =", li.string)

h1 = トルストイの名言
li = 汝の心に教えよ、心に学ぶな
li = 謙虚な人はだれからも好かれる。
li = 強い人々は、いつも気取らない。


## Yahoo!ファイナンスの為替情報を取得する

実際のWebサイトを例に、スクレイピングを実践する。  
ここでは、「Yahoo!ファイナンス」から米ドル/円の為替情報を取得する。  

アメリカ ドル/円 外国為替 Yahoo!ファイナンス
`http://stocks.finance.yahoo.co.jp/stocks/detail/?code=usdjpy`

In [17]:
from bs4 import BeautifulSoup
import urllib.request as req

# HTMLを取得
url = "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=usdjpy"
res = req.urlopen(url)

# HTMLを解析
soup = BeautifulSoup(res, "html.parser")

# 「<td class="stoksPrice">110.840000</td>」部分から文字列を取得する
price = soup.select_one(".stoksPrice").string
print("usd/jpy=", price)

usd/jpy= 112.220000


クジラWeb APIを使って為替情報を取得する。

In [18]:
from bs4 import BeautifulSoup
import urllib.request as req

# 為替情報XMLを取得する
url = "http://api.aoikujira.com/kawase/xml/usd"
res = req.urlopen(url)

# HTMLを解析する
soup = BeautifulSoup(res, "html.parser")

# 任意のデータを抽出する
jpy = soup.select_one("jpy").string
print("usd/jpy=", jpy)

usd/jpy= 112.02083


# 1.3 CSSセレクタについて

### 青空文庫で公開されている夏目漱石の作品一覧を得る

Google Chromeのデベロッパーツールを使用して、青空文庫の芥川龍之介の作品一覧を構成するCSSセレクタを調べてみる。  
htmlの欄から目当ての要素を右クリックして、Copy -> Copy selectorを洗濯すると、その要素のCSSセレクタをコピーできる。  
[作家別作品リスト：芥川 竜之介](http://www.aozora.gr.jp/index_pages/person879.html)  
**「愛読書の印象」のCSSセレクタ** body > body > ol:nth-child(8) > li:nth-child(1)

In [19]:
from bs4 import BeautifulSoup
import urllib.request as req

# 芥川龍之介の作者情報ページのHTMLを取得する
url = "http://www.aozora.gr.jp/index_pages/person879.html"
res = req.urlopen(url)

# HTMLを解析する
soup = BeautifulSoup(res, "html.parser")

# 解析したHTML構造を表示する
print(soup.decode_contents)

<bound method Tag.decode_contents of <html lang="ja">
<head>
<meta content="text/html;charset=utf-8" http-equiv="Content-Type">
<meta content="text/css" http-equiv="Content-Style-Type">
<title>作家別作品リスト：芥川 竜之介</title>
<style type="text/css">
<!--
body{
    margin-left: 10%;
    margin-right: 10%;
    margin-bottom: 5%;
    line-height: 150%;
}
a:hover{
    color: white;
    background-color: #0000ff;
}
h1{
    color: black;
    background-color: #ffffcc;
    padding: 10pt;
    border-color: black;
    border-width: 1pt 0 1pt 0;
    border-style: solid none solid none;
    font-size: 150%;
}
h2{
    color: black;
    background-color: #d3d3d3;
    padding: 5pt;
    border-color: black;
    border-width: 1pt 0 1pt 0;
    border-style: solid none solid none;
    text-indent: 1em;
}
table{
    margin-left: 1em;
    padding: 0.5em 0em 0.5em 1em;
}
table.download{
    color: black;
    margin-left: 0;
    padding: 0;
}
th.download{
    font-weight: bold;
    background-color: black;
    color

In [20]:
# 著作リストのデータを抽出する
auhoring_list = soup.select("ol > li")
for li in auhoring_list:
    a = li.a
    if a != None:
        name = a.string
        href = a.attrs["href"]
        print(name, ">", href)


愛読書の印象 > ../cards/000879/card4872.html
秋 > ../cards/000879/card16.html
芥川竜之介歌集 > ../cards/000879/card178.html
アグニの神 > ../cards/000879/card43014.html
アグニの神 > ../cards/000879/card15.html
悪魔 > ../cards/000879/card3804.html
浅草公園 > ../cards/000879/card21.html
兄貴のような心持 > ../cards/000879/card43361.html
あの頃の自分の事 > ../cards/000879/card17.html
あばばばば > ../cards/000879/card14.html
鴉片 > ../cards/000879/card1138.html
或阿呆の一生 > ../cards/000879/card19.html
或敵打の話 > ../cards/000879/card73.html
或旧友へ送る手記 > ../cards/000879/card20.html
或社会主義者 > ../cards/000879/card3827.html
或日の大石内蔵助 > ../cards/000879/card122.html
或恋愛小説 > ../cards/000879/card129.html
闇中問答 > ../cards/000879/card18.html
案頭の書 > ../cards/000879/card3767.html
飯田蛇笏 > ../cards/000879/card43362.html
遺書 > ../cards/000879/card16034.html
イズムと云ふ語の意味次第 > ../cards/000879/card3750.html
一番気乗のする時 > ../cards/000879/card3748.html
一夕話 > ../cards/000879/card57.html
伊東から > ../cards/000879/card3761.html
糸女覚え書 > ../cards/000879/card58.html
犬養君に就いて > ../cards/000879/

## CSSセレクタの使い方を学ぶ

CSSセレクタをうまく指定することで、対象のHTMLから目当ての情報をきれいに取り出すことが出来る。  
CSSセレクタの指定方法を下記に示す。

#### セレクタの基本書式

|書式|説明|
|----|----|
|\*|すべての要素|
|要素名|要素名の要素(例)p div|
|.クラス名|クラス名をつけた要素|
|#id名|id属性をつけた要素|

#### セレクタ同士の関係を指定する書式

|書式|説明|
|----|----|
|セレクタ,セレクタ|列挙された複数のセレクタ(例)h1,h2|
|セレクタ セレクタ|下の階層の子孫要素(例)div h1|
|セレクタ>セレクタ|直下の階層の子要素(例)div>h1|
|セレクタ+セレクタ|同じ階層で直後に隣接している要素(例)h1+h2|
|セレクタ1~セレクタ2|セレクタ1からセレクタ2までの要素(例)p~ul|

#### セレクタの属性による書式設定

|書式|説明|
|----|----|
|要素[att]|特定の属性名attを持つ要素|
|要素[att="val"]|att属性にvalという値を持つ要素|
|要素[att~="val"]|att属性の値候補val(ホワイトスペース区切り)に一致した要素|
|要素[att&#124;="val"]|att属性の値がvalで始まる要素(ただしハイフン区切り)|
|要素[att^="val"]|att属性の値がvalで始まる要素|
|要素[att$="val"]|att属性の値がvalで終わる要素|
|要素[att*="val"]|att属性の値にvalを含む要素|

#### 位置や状態を指定する書式

|書式|説明|
|---|---|
|要素:root|ルートとなる要素|
|要素:nth-child(n)|n番目の子となる要素|
|要素:nth-last-child(n)|後ろからn番目となる要素|
|要素:nth-of-type(n)|n番目のその種類の要素|
|要素:first-child|子として最初の要素|
|要素:last-child|子として最後の要素|
|要素:first-of-type|最初のその種類の要素|
|要素:last-of-type|最後のその種類の要素|
|要素:only-child|子として唯一の要素|
|要素:only-of-type|子として唯一の種類の要素|
|要素:empty|要素内容が空となる要素|
|要素:lang(code)|特定の言語にcodeを指定された要素|
|要素:not(s)|s以外の要素|
|要素:enabled|要項となっているUI要素|
|要素:disabled|無効となっているUI要素|
|要素:checked|チェックされているUI要素|

### プレースホルダ - CSSセレクタの選択対象をgraphvizでグラフ化したい

In [21]:
from graphviz import Digraph

# formatはpngを指定(他にはPDF, PNG, SVGなどが指定可)
G = Digraph(format='png')
G.attr('node', shape='circle')

N = 15    # ノード数

# ノードの追加
for i in range(N):
    G.node(str(i), str(i))

# 辺の追加
for i in range(N):
    if (i - 1) // 2 >= 0:
        G.edge(str((i - 1) // 2), str(i))

# print()するとdot形式で出力される
print(G)

# binary_tree.pngで保存
G.render('binary_tree')

digraph {
	node [shape=circle]
	0 [label=0]
	1 [label=1]
	2 [label=2]
	3 [label=3]
	4 [label=4]
	5 [label=5]
	6 [label=6]
	7 [label=7]
	8 [label=8]
	9 [label=9]
	10 [label=10]
	11 [label=11]
	12 [label=12]
	13 [label=13]
	14 [label=14]
	0 -> 1
	0 -> 2
	1 -> 3
	1 -> 4
	2 -> 5
	2 -> 6
	3 -> 7
	3 -> 8
	4 -> 9
	4 -> 10
	5 -> 11
	5 -> 12
	6 -> 13
	6 -> 14
}


'binary_tree.png'

## CSSセレクタを抽出する練習をしてみよう

下記のhtmlデータから、Numbersの要素を取り出す。

```html
<ul id="bible">
  <li id="ge">Genesis</li>
  <li id="ex">Exodus</li>
  <li id="le">Leviticus</li>
  <li id="nu">Numbers</li>
  <li id="de">Deuteronomy</li>
</ul>
```

下記にSCCセレクタを使ってNumbersの要素を取り出すプログラムを示す。

In [22]:
from bs4 import BeautifulSoup

books = '''
<ul id="bible">
  <li id="ge">Genesis</li>
  <li id="ex">Exodus</li>
  <li id="le">Leviticus</li>
  <li id="nu">Numbers</li>
  <li id="de">Deuteronomy</li>
</ul>
'''

soup = BeautifulSoup(books, "html.parser")

print("# CSSセレクタで検索する方法")
sel = lambda q : print("sel(" + q +  ") => " + soup.select_one(q).string)
sel("#nu") # 「#id名」で指定
sel("li#nu") # 「li」要素の中で「#id名」がついているものを指定
sel("ul > li#nu") # 「ul」要素直下の「li」要素の中で「#id名」がついているものを指定
sel("#bible #nu") # 「#id名1」と「#id名2」のいずれかにヒットするものを指定
sel("#bible > #nu") # 「#id名1」直下の要素のうち「#id名2」を指定
sel("ul#bible > li#nu") # 「#id名1」のついた「un」要素の直下にある、「#id名2」のついた「li」を指定
sel('li[id="nu"]') # 属性に「id="nu"」がついた「li」要素を指定
sel("li:nth-of-type(4)") # 4番目の「li」要素

print("# その他の方法")
print(soup.select("li")[3].string) # 「li」要素の中の3つ目
print(soup.find_all("li")[3].string) # 「li」要素の中の3つ目


# CSSセレクタで検索する方法
sel(#nu) => Numbers
sel(li#nu) => Numbers
sel(ul > li#nu) => Numbers
sel(#bible #nu) => Numbers
sel(#bible > #nu) => Numbers
sel(ul#bible > li#nu) => Numbers
sel(li[id="nu"]) => Numbers
sel(li:nth-of-type(4)) => Numbers
# その他の方法
Numbers
Numbers


### CSSセレクタで野菜・フルーツを選択しよう

下記のHTMLから野菜・フルーツを選択する。

```html
<html>
<div id="main-goods" role="page">
  <h1>フルーツや野菜</h1>
  <ul id="fr-list">
    <li class="red green" data-lo="jp">リンゴ</li>
    <li class="purple" data-lo="us">ブドウ</li>
    <li class="yellow" data-lo="us">レモン</li>
    <li class="yellow" data-lo="jp">オレンジ</li>
  </ul>
  <ul id="ve-list">
    <li class="white green" data-lo="jp">ダイコン</li>
    <li class="red green" data-lo="us">パプリカ</li>
    <li class="black" data-lo="jp">ナス</li>
    <li class="black" data-lo="us">アボカド</li>
    <li class="white" data-lo="cn">レンコン</li>
  </ul>
</div>
<body>
</body>
</html>
```

上のHTMLから、アボカドを取り出したい。どのようなコードを書けば良いか？

In [None]:
# BeautifulSoupライブラリをインポート
from bs4 import BeautifulSoup

# HTMLファイル
html = '''
<html>
<div id="main-goods" role="page">
  <h1>フルーツや野菜</h1>
  <ul id="fr-list">
    <li class="red green" data-lo="jp">リンゴ</li>
    <li class="purple" data-lo="us">ブドウ</li>
    <li class="yellow" data-lo="us">レモン</li>
    <li class="yellow" data-lo="jp">オレンジ</li>
  </ul>
  <ul id="ve-list">
    <li class="white green" data-lo="jp">ダイコン</li>
    <li class="red green" data-lo="us">パプリカ</li>
    <li class="black" data-lo="jp">ナス</li>
    <li class="black" data-lo="us">アボカド</li>
    <li class="white" data-lo="cn">レンコン</li>
  </ul>
</div>
<body>
</body>
</html>
'''

# 対象のHTMLをパースしてBeautifulSoupインスタンスを作成
soup = BeautifulSoup(html, "html.parser")

select = lambda q : print("select(" + q + ")" + soup.select_one(q).string)