In [1]:
import urllib.request

# データのダウンロード

## urllib.requestを使ったダウンロード

### urllib.request.urlretrieve()

In [2]:
# URLと保存パスを指定
url = "http://uta.pw/shodou/img/28/214.png"
savename = "test.png"

In [3]:
# ダウンロード
urllib.request.urlretrieve(url, savename)
print("保存しました")

保存しました


### urllib.request.urlopen()

In [4]:
url = "http://uta.pw/shodou/img/28/214.png"
savename = "test.png"

In [5]:
# ダウンロード
mem = urllib.request.urlopen(url).read()

In [6]:
# ファイルへ保存
# wは書き込みモード、bはバイナリモードを意味している。
with open(savename, mode="wb") as f:
    f.write(mem)
    print("保存しました")

保存しました


##  Webからデータを取得する

### クライアントの接持続情報を表示する

In [7]:
# データを取得する
url = "http://api.aoikujira.com/ip/ini"
res = urllib.request.urlopen(url)
data = res.read()

In [8]:
# バイナリを文字列に変換
text = data.decode("utf-8")
print(text)

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=114.158.218.36
REMOTE_HOST=p11036-ipngn9901marunouchi.tokyo.ocn.ne.jp
REMOTE_PORT=48256
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.7
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




## 任意のパラメータをつけてリクエストを送信する方法

In [9]:
import urllib.parse

In [10]:
# このAPIは、以下のURLに対して郵便番号を指定すると、その番号に対応した住所を返すものとなっている
# このエントリーポイントに対して、以下のパラメータを指定することになっている
# fmt -> データのフォーマットをjsonからxmlで指定
# zn  -> 住所を知りたい郵便番号を指定
API = "http://api.aoikujira.com/zip/xml/get.php"

In [11]:
# パラメータをURLにエンコードする
# URLエンコードのために、urllib.parseモジュールを利用する
# [補足]郵便番号など簡単な場合はenncodeせずにURLに直接書き込めるが、パラメータに日本が含まれれる場合はエンコードが必須となる
values = {
    'fmt': 'xml',
    'zn': '1500042'
}
params = urllib.parse.urlencode(values)

In [12]:
# リクエスト用のURLを生成
# [書式] GETリクエストでパラメータを送信する
# http://example.com?key1=v1&key2=v2&...
url = API + "?" + params
print("url=", url)

url= http://api.aoikujira.com/zip/xml/get.php?fmt=xml&zn=1500042


In [13]:
# ダウンロード
data = urllib.request.urlopen(url).read()
text = data.decode("utf-8")
print(text)

<?xml version="1.0" encoding="utf-8" ?>
<address result="1">
<header>
  <result>1</result>
  <api>api.aoikujira.com/zip</api>
  <version>1.1</version>
</header>
<value>
  <zip>1500042</zip>
  <ken>東京都</ken>
  <shi>渋谷区</shi>
  <cho>宇田川町</cho>
  <disp>東京都渋谷区宇田川町</disp>
  <kenkana>トウキョウト</kenkana>
  <shikana>シブヤク</shikana>
  <chokana>ウダガワチョウ</chokana>
</value>
</address>


## 百人一首を検索するコマンドを自作してみよう

In [14]:
import sys
import urllib.request as req
import urllib.parse as parse

In [15]:
# コマンドライン引数を得るために、sysモジュールを取り込んでいる
# コマンドライン引数は、sys.argvにリスト型で設定されている
# sys.argv[0] -> スクリプトの名前
# sys.argv[1]以降にコマンドライン引数が設定されている
"""
# コマンドライン引数を得る
if len(sys.argv)<=1:
    print("USAGE: hyakunin.py (keyword)")
    sys.exit()
keyword = sys.argv[1]
"""
keyword = "秋の田"

In [16]:
# パラメータをURLエンコードする
# 日本語のキーワードが与えられているため、URLエンコードが必須となる
# 百人一首検索APIのエントリーポイントに対して、パラメータは以下のように与える
# fmt -> 検索結果の形式を ini | xml | json で指定
# key -> 検索キーワードを指定
API = "http://api.aoikujira.com/hyakunin/get.php"
query = {
    "fmt": "ini",
    "key": keyword
}
params = parse.urlencode(query)
url = API + "?" + params
print("url=", url)

url= http://api.aoikujira.com/hyakunin/get.php?fmt=ini&key=%E7%A7%8B%E3%81%AE%E7%94%B0


In [17]:
# ダウンロード
with req.urlopen(url) as r:
    b = r.read()
    data = b.decode('utf-8')
    print(data)

[item1]
kami=秋の田の かりほの庵の 苫をあらみ
simo=我が衣手は 露にぬれつつ
kami_kana=あきのたのかりほのいほのとまをあらみ
simo_kana=わかころもてはつゆにぬれつつ
sakusya=天智天皇




# BeautifulSoupでスクレイピング

## BeautifulSoupの基本的な使い方

In [18]:
from bs4 import BeautifulSoup

In [19]:
# 解析したいHTML
html = """
<html><body>
    <h1>スクレイピングとは？</h1>
    <p>Webページを解析すること。</p>
    <p>任意の箇所を抽出すること</p>
</body></html>
"""

In [20]:
# HTMLを解析する
# 第一引数にHTMLを指定
# 第二引数に解析を行うパーサーの種類を指定
# -> HTMLを解析するには、"html.parser"を指定
soup = BeautifulSoup(html, 'html.parser')

In [21]:
# 任意の部分を抽出する
# <html><body><h1>を抽出するには -> soup.html.body.h1
# <p>が複数あり、soup.html.body.pだと最初の<p>が抽出される
# next_siblingを用いる -> 一回目のnext_siblingでは</p>直後の改行やスペースが得られるため、二回行う。
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling

# 要素のテキストを表示する
print("h1 = " + h1.string)
print("p = " + p1.string)
print("p = " + p2.string)

h1 = スクレイピングとは？
p = Webページを解析すること。
p = 任意の箇所を抽出すること


いくらなんでも、ルートを最初から辿るのはめんどくさい

## 任意のidで要素を探す方法

BeautifulSoupでは、ルートからひとつずつ要素を辿る以外に、find()メソッドを利用して、任意のid属性を指定して要素を見つけることができる。

In [22]:
html = """
<html><body>
    <h1 id="title">スクレイピングとは？</h1>
    <p id="body">Webページから任意のデータを抽出すること</p>
</body></html>
"""

In [23]:
# HTMLを解析する
soup = BeautifulSoup(html, 'html.parser')

In [24]:
# find()メソッドで取り出す
title = soup.find(id="title")
body = soup.find(id="body")

# テキスト部分を表示
print("#title = " + title.string)
print("#body = " + body.string)

#title = スクレイピングとは？
#body = Webページから任意のデータを抽出すること


## 複数の要素を取得する - find_all()メソッド

In [25]:
html = """
<html><body>
    <ul>
    <li><a href="http://uta.pw">uta</a></li>
    <li><a href="http://oto.chu.jp">oto</a></li>
    </ul>
</body></html>
"""

In [26]:
# HTMLを解析する
soup = BeautifulSoup(html, 'html.parser')

In [27]:
# find_all()メソッドで取り出す
# 全ての"a"タグを抽出する
links = soup.find_all("a")

In [28]:
# リンク一覧を表示
# リンクのhref属性はattrs['href']のようにattrsプロパティにて
# 説明テキストはstringプロパティにて取得できる
for a in links:
    href = a.attrs['href']
    text = a.string
    print(text, ">", href)

uta > http://uta.pw
oto > http://oto.chu.jp


## DOM要素の属性について

DOM: Document Object Model とは、XMLやHTMLの各要素にアクセスする仕組みのこと  
DOM要素の属性とは、タグ名の後にある各属性のこと

In [29]:
soup = BeautifulSoup(
    "<p><a href='a.html'>test</a></p>",
    "html.parser")

In [30]:
# 解析が正しくできているかを確認
soup.prettify()

'<p>\n <a href="a.html">\n  test\n </a>\n</p>'

In [31]:
# <a>タグを変数aに代入
a = soup.p.a

# attrsプロパティの方を確認
type(a.attrs)

dict

In [32]:
# href属性があるか確認
'href' in a.attrs

True

In [33]:
# href属性の値を確認
a['href']

'a.html'

## urlopen() と BeautifulSoup の組み合わせ

In [34]:
url = "http://api.aoikujira.com/zip/xml/1500042"

In [35]:
# urlopen()でデータを取得
res = req.urlopen(url)

# BeautifulSoupで解析
soup = BeautifulSoup(res, "html.parser")

In [36]:
# 任意のデータを抽出
ken = soup.find("ken").string
shi = soup.find("shi").string
cho = soup.find("cho").string
print(ken, shi, cho)

東京都 渋谷区 宇田川町


## CSS セレクタを使う

BeautifulSoupでは、JavaScriptのライブラリjQueryのように、CSSのセレクタを指定して、任意の要素を抽出することもできる

|メソッド|解説|
|-|-|
|soup.select_one(セレクタ)|CSSセレクタで要素の一つを取り出す|
|soup.select(セレクタ)|CSSセレクタで複数要素を取り出しリスト型で返す|

In [37]:
# 解析対象となるHTML
html = """
<html><body>
<div id="meigen">
    <h1>トルストイの名言</h1>
    <ul class="items">
        <li>汝の心に教えよ、心に学ぶな</li>
        <li>謙虚な人は誰からも好かれる。</li>
        <li>強い人々は、いつも気取らない。</li>
    </ul>
</div>
</html></body>
"""

In [38]:
# HTMLを解析する
soup = BeautifulSoup(html, "html.parser")

In [39]:
# 必要な部分をCSSクエリで取り出す
# タイトル部分を取得
# select_one()メソッドを使って、<h1>タグを取り出す
# 実際のWebサイトには複数個の<h1>タグが存在する場合があるため、CSSセレクタで詳細な構造を指定する
h1 = soup.select_one("div#meigen > h1").string
print("h1 =", h1)

# リスト部分を取得
# select()メソッドを使って、複数個の<li>タグを取り出す
# ここでも、詳細な構造を指定することで、明確にリスト部分を取得している
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
    print("li =", li.string)

h1 = トルストイの名言
li = 汝の心に教えよ、心に学ぶな
li = 謙虚な人は誰からも好かれる。
li = 強い人々は、いつも気取らない。


## Yahoo! ファイナンスの為替情報を取得してみよう！

In [40]:
# HTMLを取得
url = "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=usdjpy"
res = req.urlopen(url)

# HTMLを解析
soup = BeautifulSoup(res, "html.parser")

In [41]:
# 任意のデータを抽出
price = soup.select_one(".stoksPrice").string
print("usd/jpy=", price)

usd/jpy= 107.730000


In [42]:
# 別のサイトからもやってみる -> Not Find 404
"""
url = "http://api.aoikujira.com/kawase/xml/usd"
res = req.urlopen(url)

# HTMLを解析
soup = BeautifulSoup(res, "html.parser")

# 任意のデータを抽出
jpy = soup.select_one("jpy").string
print("usd/jpy", jpy)
"""

'\nurl = "http://api.aoikujira.com/kawase/xml/usd"\nres = req.urlopen(url)\n\n# HTMLを解析\nsoup = BeautifulSoup(res, "html.parser")\n\n# 任意のデータを抽出\njpy = soup.select_one("jpy").string\nprint("usd/jpy", jpy)\n'

### 青空文庫で公開せれている夏目漱石の作品一覧を得る

In [43]:
# body > ol:nth-child(8) > li:nth-child(1) > a
# nth-chile(n)はn番目の子となる要素
# この作品リストページを見ると、他に<ol>タグは使われていないため、省略しても良さそう
# BearutifulSoupではnth-childの表記に対応していないため、代わりに、nth-of-typeを用いる

url = "http://www.aozora.gr.jp/index_pages/person148.html"
res = req.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

li_list = soup.select("ol > li")
for li in li_list:
    a = li.a
    if a != None:
        name = a.string
        href = a.attrs["href"]
        print(name, ">", href)

イズムの功過 > ../cards/000148/card2314.html
一夜 > ../cards/000148/card1086.html
永日小品 > ../cards/000148/card758.html
岡本一平著並画『探訪画趣』序 > ../cards/000148/card2669.html
おはなし > ../cards/000148/card59017.html
思い出す事など > ../cards/000148/card792.html
カーライル博物館 > ../cards/000148/card1046.html
薤露行 > ../cards/000148/card769.html
学者と名誉 > ../cards/000148/card2383.html
硝子戸の中 > ../cards/000148/card760.html
元日 > ../cards/000148/card2674.html
鬼哭寺の一夜 > ../cards/000148/card58276.html
木下杢太郎『唐草表紙』序 > ../cards/000148/card2670.html
教育と文芸 > ../cards/000148/card778.html
京に着ける夕 > ../cards/000148/card777.html
京に着ける夕 > ../cards/000148/card55936.html
虚子君へ > ../cards/000148/card2373.html
草枕 > ../cards/000148/card776.html
虞美人草 > ../cards/000148/card761.html
ケーベル先生 > ../cards/000148/card770.html
ケーベル先生の告別 > ../cards/000148/card771.html
現代日本の開化 > ../cards/000148/card759.html
行人 > ../cards/000148/card775.html
坑夫 > ../cards/000148/card774.html
こころ > ../cards/000148/card773.html
『心』広告文 > ../cards/000148/card4689.html
『心』自序 > ../ca

## CSSセレクタをマスターしよう

セレクタの基本書式

|書式|説明|
|:---|:---|
|*|全ての要素|
|要素名|要素名の要素 (例)p div|
|.クラス名|クラス名をつけた要素|
|#id名|id属性をつけた要素|

セレクタ同士の関係を指定する書式

|書式|説明|
|:---|:---|
|セレクタ,セレクタ|列挙された複数のセレクタ (例)h1, h2|
|セレクタ セレクタ|下の階層の子孫要素 (例)div h1|
|セレクタ>セレクタ|直下の階層の子要素 (例)div>h1|
|セレクタ+セレクタ|同じ階層で直後に隣接している要素 (例)h1+h2|
|セレクタ1~セレクタ2|セレクタ1からセレクタ2までの要素 (例)p~ul|

セレクタの属性による指定書式

|書式|説明|
|:---|:---|
|要素[att]|特定の属性名を持つ要素|
|要素[att="val"]|att属性にvalという値を持つ要素|
|要素[att~="val"]|att属性の値候補val(ホワイトスペース区切りに一致した要素)|
|要素[att $|$ ="val"]|att属性の値がvalで始まる要素(ただしハイフン区切り)|
|要素[att^="val"]|att属性の値がvalで始まる要素|
|要素[att$="val"]|att属性の値がvalで終わる要素|
|要素[att*="val"]|att属性の値がvalを含む要素|

位置や状態を指定する書式

|書式|説明|
|:---|:---|
|要素 :root|ルートとなる要素|
|要素 :nth-child(n)|n番目の子となる要素|
|要素 :nth-last-child(n)|後ろからn番目となる要素|
|要素 :nth-of-type(n)|n番目のその種類の要素|
|要素 :first-child|子として最初の要素|
|要素 :last-child|子として最後の要素|
|要素 :first-of-type|最初のその種類の要素|
|要素 :last-of-type|最後のその種類の要素|
|要素 :only-child|子として唯一の要素|
|要素 :only-of-type|子として唯一の種類の要素|
|要素 :empty|要素内容が空となる要素|
|要素 :lang(code)|特定の言語にcodeを指定された要素|
|要素 :not(s)|s以外の要素|
|要素 :enabled|有効となっているUI要素|
|要素 :disabled|向こうとなっているUI要素|
|要素 :checked|チェックされているUI要素|

## CSSセレクタを抽出する練習をしてみよう

In [44]:
fp = open("textFile/books.html", encoding="utf-8")
soup = BeautifulSoup(fp, "html.parser")
soup

<ul id="bible">
<li id="ge">Genesis</li>
<li id="ex">Exodus</li>
<li id="le">Leviticus</li>
<li id="nu">Numbers</li>
<li id="de">Deuteronomy</li>
</ul>

In [45]:
# CSSセレクタで検索する方法
sel = lambda q : print(soup.select_one(q).string)
sel("#nu") # *1
sel("li#nu") # *2
sel("ul > li#nu") # *3
sel("#bible #nu") # *4
sel("#bible > #nu") # *5
sel("ul#bible > li#nu") # *6
sel("li[id='nu']") # *7
sel("li:nth-of-type(4)") # *8

# その他の方法
print(soup.select("li")[3].string) # *9
print(soup.find_all("li")[3].string) # *10

Numbers
Numbers
Numbers
Numbers
Numbers
Numbers
Numbers
Numbers
Numbers
Numbers


*1 オーソドックスに、id属性がnuのものを取り出している  
*2 これに、$<li>$タグがついたもの  
*3 一階層上の$<ul>$タグから指定している  
*4 id属性を1つ書いて、$#bible$の下の$#nu$を指定している  
*5 タグが直接の親子関係になっていることを明示している  
*6 idがbibleである$<ul>$タグ、その直下にあるidがnuである$<li>$タグと明確な指示を与えている  
*7 属性の検索を利用しており、idがnuである$<li>$タグという指定になる  
*8 4つ目の$<li>$を取り出すという指定方法  
*9 *10 select()やfind_all()メソッドを利用している いずれも全ての$<li>$タグを取得した上で、[3]の要素を取得する

### CSSセレクタで野菜・フルーツを選択しよう

In [46]:
# アボカドを抜き出したい
fp = open("textFile/fruits-vegetables.html", encoding="utf-8")
soup = BeautifulSoup(fp, "html.parser")
#soup

In [47]:
# CSSセレクタで選び出す
print(soup.select_one("li:nth-of-type(3)").string) # *1
print(soup.select_one("#ve-list > li:nth-of-type(4)").string) # *2
print(soup.select("#ve-list > li[data-lo='us']")[1].string) # *3
print(soup.select("#ve-list > li.black")[1].string) # *4
    
# findメソッド選び出す *5
cond = {"data-lo":"us", "class":"black"}
print(soup.find("li", cond).string)

# findメソッドを二度組み合わせる *6
print(soup.find(id="ve-list").find("li", cond).string)

レモン
アボカド
アボカド
アボカド
アボカド
アボカド


*1 全$<li>$タグの8個目の要素を取り出す(二つ目のulの際にエラーを吐く)  
*2 野菜を表すidがve-listの直下にある$<li>$タグの4個目の要素を取り出す  
*3 select()メソッドを使って、idがve-listの要素の直下にある$<li>$タグのうち、data-loぞくせいが　"us"の物を全部取り出して[1]を表示  
*4 *3と同じ  
*5 find()メソッドは複数の条件を一度に指定できるのが特徴  
*6 find()メソッドを二重に組み合わせる

### 正規表現と組み合わせる方法

In [48]:
import re # 正規表現を使う時

In [49]:
html = """
<ul>
    <li><a href="hoge.html">hoge</li>
    <li><a href="https://example.com/fuga">fuga*</li>
    <li><a href="https://example.com/foo">foo*</li>
    <li><a href="http://example.com/aaa">aaa</li>
</ul>
"""

In [50]:
soup = BeautifulSoup(html, "html.parser")

In [51]:
# 正規表現でhrefからhttpsのものを抽出
li = soup.find_all(href=re.compile(r"^https://"))
for e in li:
    print(e.attrs['href'])

https://example.com/fuga
https://example.com/foo


# リンク先を丸ごとダウンロード

## 相対パスを展開する方法

In [52]:
from urllib.parse import urljoin

base = "http://example.com/html/a.html"

print(urljoin(base, "b.html"))
print(urljoin(base, "sub/c.html"))
print(urljoin(base, "../index.html"))
print(urljoin(base, "../img/hoge.png"))
print(urljoin(base, "../css/hoge.css"))

http://example.com/html/b.html
http://example.com/html/sub/c.html
http://example.com/index.html
http://example.com/img/hoge.png
http://example.com/css/hoge.css


[書式] urllib.parse.urljoin()の使い方  
urljoin(base, path)

もし解決したいパスがhttp://で始まっている場合には、基本的にURLを無視して、第二引数に指定したURLを返す

In [53]:
print(urljoin(base, "/hoge.html"))
print(urljoin(base, "http://kujirahand.com/wiki"))
print(urljoin(base, "//uta.pw/shodou"))

http://example.com/hoge.html
http://kujirahand.com/wiki
http://uta.pw/shodou


## 再帰的にHTMLページを処理する

htmlファイルにリンクが連鎖的に続いていた場合、その全てを解析する必要があり、それを処理するために再起処理を利用する

### 丸ごとダウンロードするプログラム

In [66]:
# モジュールの取り込み
from bs4 import BeautifulSoup
from urllib.request import *
from urllib.parse import *
from os import makedirs
import os.path, time, re

In [67]:
# 処理済み判断変数
proc_files = {}

In [68]:
# HTML内にあるリンクを抽出する関数
def enum_links(html, base):
    soup = BeautifulSoup(html, "html.parser")
    links = soup.select("link[rel='stylesheet']") # CSS
    links += soup.select("a[href]") # リンク
    result = []
    # href属性を取り出し、リンクを絶対パスに変換
    for a in links:
        href = a.attrs['href']
        url = urljoin(base, href)
        result.append(url)
    return result

In [84]:
# ファイルをダウンロードし保存する関数
def download_file(url):
    o = urlparse(url)
    savepath = "./" + o.netloc + o.path
    if re.search(r"/$", savepath): # ディレクトリならindex.html
        savepath += "index.html"
    savedir = os.path.dirname(savepath)
    # 既にダウンロード済み?
    if os.path.exists(savepath):
        return savepath
    # ダウンロード先のディレクトリを作成
    if not os.path.exists(savedir):
        print("mkdir=", savedir)
        makedirs(savedir)
    # ファイルをダウンロード
    try:
        print("download=", url)
        urlretrieve(url, savepath)
        time.sleep(1) # 礼儀として1秒スリープ
        return savepath
    except:
        print("ダウンロード失敗:", url)
        return None

In [87]:
# HTMLを解析してダウンロードする関数
def analize_html(url, root_url):
    savepath = download_file(url)
    if savepath is None:
        return
    if savepath in proc_files: # 解析済みなら処理しない
        return
    proc_files[savepath] = True
    print("analyze_html=", url)
    # リンクを抽出
    html = open(savepath, "r", encoding="utf-8").read()
    links = enum_links(html, url)
    for link_url in links:
        # リンクがルート以外のパスを指していたら無視
        if link_url.find(root_url) != 0:
            if not re.search(r".css$", link_url):
                continue
        # HTMLか？
        if re.search(r".(html|htm)$", link_url):
            # 再帰的にHTMLファイルを解析
            analize_html(link_url, root_url)
            continue
        # それ以外のファイル
        download_file(link_url)

In [88]:
# URLを丸ごとダウンロード
url = "http://docs.python.jp/3.5/library/"
analize_html(url, url)