In [1]:
import urllib.request

# データのダウンロード

## urllib.requestを使ったダウンロード

### urllib.request.urlretrieve()

In [2]:
# URLと保存パスを指定
url = "http://uta.pw/shodou/img/28/214.png"
savename = "test.png"

In [3]:
# ダウンロード
urllib.request.urlretrieve(url, savename)
print("保存しました")

保存しました


### urllib.request.urlopen()

In [4]:
url = "http://uta.pw/shodou/img/28/214.png"
savename = "test.png"

In [5]:
# ダウンロード
mem = urllib.request.urlopen(url).read()

In [6]:
# ファイルへ保存
# wは書き込みモード、bはバイナリモードを意味している。
with open(savename, mode="wb") as f:
    f.write(mem)
    print("保存しました")

保存しました


##  Webからデータを取得する

### クライアントの接持続情報を表示する

In [7]:
# データを取得する
url = "http://api.aoikujira.com/ip/ini"
res = urllib.request.urlopen(url)
data = res.read()

In [8]:
# バイナリを文字列に変換
text = data.decode("utf-8")
print(text)

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=114.158.218.36
REMOTE_HOST=p11036-ipngn9901marunouchi.tokyo.ocn.ne.jp
REMOTE_PORT=60008
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.7
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




## 任意のパラメータをつけてリクエストを送信する方法

In [9]:
import urllib.parse

In [10]:
# このAPIは、以下のURLに対して郵便番号を指定すると、その番号に対応した住所を返すものとなっている
# このエントリーポイントに対して、以下のパラメータを指定することになっている
# fmt -> データのフォーマットをjsonからxmlで指定
# zn  -> 住所を知りたい郵便番号を指定
API = "http://api.aoikujira.com/zip/xml/get.php"

In [11]:
# パラメータをURLにエンコードする
# URLエンコードのために、urllib.parseモジュールを利用する
# [補足]郵便番号など簡単な場合はenncodeせずにURLに直接書き込めるが、パラメータに日本が含まれれる場合はエンコードが必須となる
values = {
    'fmt': 'xml',
    'zn': '1500042'
}
params = urllib.parse.urlencode(values)

In [12]:
# リクエスト用のURLを生成
# [書式] GETリクエストでパラメータを送信する
# http://example.com?key1=v1&key2=v2&...
url = API + "?" + params
print("url=", url)

url= http://api.aoikujira.com/zip/xml/get.php?fmt=xml&zn=1500042


In [13]:
# ダウンロード
data = urllib.request.urlopen(url).read()
text = data.decode("utf-8")
print(text)

<?xml version="1.0" encoding="utf-8" ?>
<address result="1">
<header>
  <result>1</result>
  <api>api.aoikujira.com/zip</api>
  <version>1.1</version>
</header>
<value>
  <zip>1500042</zip>
  <ken>東京都</ken>
  <shi>渋谷区</shi>
  <cho>宇田川町</cho>
  <disp>東京都渋谷区宇田川町</disp>
  <kenkana>トウキョウト</kenkana>
  <shikana>シブヤク</shikana>
  <chokana>ウダガワチョウ</chokana>
</value>
</address>


## 百人一首を検索するコマンドを自作してみよう

In [14]:
import sys
import urllib.request as req
import urllib.parse as parse

In [15]:
# コマンドライン引数を得るために、sysモジュールを取り込んでいる
# コマンドライン引数は、sys.argvにリスト型で設定されている
# sys.argv[0] -> スクリプトの名前
# sys.argv[1]以降にコマンドライン引数が設定されている
"""
# コマンドライン引数を得る
if len(sys.argv)<=1:
    print("USAGE: hyakunin.py (keyword)")
    sys.exit()
keyword = sys.argv[1]
"""
keyword = "秋の田"

In [16]:
# パラメータをURLエンコードする
# 日本語のキーワードが与えられているため、URLエンコードが必須となる
# 百人一首検索APIのエントリーポイントに対して、パラメータは以下のように与える
# fmt -> 検索結果の形式を ini | xml | json で指定
# key -> 検索キーワードを指定
API = "http://api.aoikujira.com/hyakunin/get.php"
query = {
    "fmt": "ini",
    "key": keyword
}
params = parse.urlencode(query)
url = API + "?" + params
print("url=", url)

url= http://api.aoikujira.com/hyakunin/get.php?fmt=ini&key=%E7%A7%8B%E3%81%AE%E7%94%B0


In [20]:
# ダウンロード
with req.urlopen(url) as r:
    b = r.read()
    data = b.decode('utf-8')
    print(data)

[item1]
kami=秋の田の かりほの庵の 苫をあらみ
simo=我が衣手は 露にぬれつつ
kami_kana=あきのたのかりほのいほのとまをあらみ
simo_kana=わかころもてはつゆにぬれつつ
sakusya=天智天皇




# BeautifulSoupでスクレイピング

## BeautifulSoupの基本的な使い方

In [30]:
from bs4 import BeautifulSoup

In [31]:
# 解析したいHTML
html = """
<html><body>
    <h1>スクレイピングとは？</h1>
    <p>Webページを解析すること。</p>
    <p>任意の箇所を抽出すること</p>
</body></html>
"""

In [33]:
# HTMLを解析する
# 第一引数にHTMLを指定
# 第二引数に解析を行うパーサーの種類を指定
# -> HTMLを解析するには、"html.parser"を指定
soup = BeautifulSoup(html, 'html.parser')

In [38]:
# 任意の部分を抽出する
# <html><body><h1>を抽出するには -> soup.html.body.h1
# <p>が複数あり、soup.html.body.pだと最初の<p>が抽出される
# next_siblingを用いる -> 一回目のnext_siblingでは</p>直後の改行やスペースが得られるため、二回行う。
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling

# 要素のテキストを表示する
print("h1 = " + h1.string)
print("p = " + p1.string)
print("p = " + p2.string)

h1 = スクレイピングとは？
p = Webページを解析すること。
p = 任意の箇所を抽出すること


いくらなんでも、ルートを最初から辿るのはめんどくさい

## 任意のidで要素を探す方法

BeautifulSoupでは、ルートからひとつずつ要素を辿る以外に、find()メソッドを利用して、任意のid属性を指定して要素を見つけることができる。

In [40]:
html = """
<html><body>
    <h1 id="title">スクレイピングとは？</h1>
    <p id="body">Webページから任意のデータを抽出すること</p>
</body></html>
"""

In [42]:
# HTMLを解析する
soup = BeautifulSoup(html, 'html.parser')

In [43]:
# find()メソッドで取り出す
title = soup.find(id="title")
body = soup.find(id="body")

# テキスト部分を表示
print("#title = " + title.string)
print("#body = " + body.string)

#title = スクレイピングとは？
#body = Webページから任意のデータを抽出すること


## 複数の要素を取得する - find_all()メソッド

In [44]:
html = """
<html><body>
    <ul>
    <li><a href="http://uta.pw">uta</a></li>
    <li><a href="http://oto.chu.jp">oto</a></li>
    </ul>
</body></html>
"""

In [45]:
# HTMLを解析する
soup = BeautifulSoup(html, 'html.parser')

In [48]:
# find_all()メソッドで取り出す
# 全ての"a"タグを抽出する
links = soup.find_all("a")

In [50]:
# リンク一覧を表示
# リンクのhref属性はattrs['href']のようにattrsプロパティにて
# 説明テキストはstringプロパティにて取得できる
for a in links:
    href = a.attrs['href']
    text = a.string
    print(text, ">", href)

uta > http://uta.pw
oto > http://oto.chu.jp


## DOM要素の属性について

DOM: Document Object Model とは、XMLやHTMLの各要素にアクセスする仕組みのこと  
DOM要素の属性とは、タグ名の後にある各属性のこと

In [51]:
soup = BeautifulSoup(
    "<p><a href='a.html'>test</a></p>",
    "html.parser")

In [52]:
# 解析が正しくできているかを確認
soup.prettify()

'<p>\n <a href="a.html">\n  test\n </a>\n</p>'

In [53]:
# <a>タグを変数aに代入
a = soup.p.a

# attrsプロパティの方を確認
type(a.attrs)

dict

In [54]:
# href属性があるか確認
'href' in a.attrs

True

In [55]:
# href属性の値を確認
a['href']

'a.html'

## urlopen() と BeautifulSoup の組み合わせ

In [56]:
url = "http://api.aoikujira.com/zip/xml/1500042"

In [57]:
# urlopen()でデータを取得
res = req.urlopen(url)

# BeautifulSoupで解析
soup = BeautifulSoup(res, "html.parser")

In [58]:
# 任意のデータを抽出
ken = soup.find("ken").string
shi = soup.find("shi").string
cho = soup.find("cho").string
print(ken, shi, cho)

東京都 渋谷区 宇田川町


## CSS セレクタを使う

BeautifulSoupでは、JavaScriptのライブラリjQueryのように、CSSのセレクタを指定して、任意の要素を抽出することもできる

|メソッド|解説|
|-|-|
|soup.select_one(セレクタ)|CSSセレクタで要素の一つを取り出す|
|soup.select(セレクタ)|CSSセレクタで複数要素を取り出しリスト型で返す|

In [59]:
# 解析対象となるHTML
html = """
<html><body>
<div id="meigen">
    <h1>トルストイの名言</h1>
    <ul class="items">
        <li>汝の心に教えよ、心に学ぶな</li>
        <li>謙虚な人は誰からも好かれる。</li>
        <li>強い人々は、いつも気取らない。</li>
    </ul>
</div>
</html></body>
"""

In [61]:
# HTMLを解析する
soup = BeautifulSoup(html, "html.parser")

In [63]:
# 必要な部分をCSSクエリで取り出す
# タイトル部分を取得
# select_one()メソッドを使って、<h1>タグを取り出す
# 実際のWebサイトには複数個の<h1>タグが存在する場合があるため、CSSセレクタで詳細な構造を指定する
h1 = soup.select_one("div#meigen > h1").string
print("h1 =", h1)

# リスト部分を取得
# select()メソッドを使って、複数個の<li>タグを取り出す
# ここでも、詳細な構造を指定することで、明確にリスト部分を取得している
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
    print("li =", li.string)

h1 = トルストイの名言
li = 汝の心に教えよ、心に学ぶな
li = 謙虚な人は誰からも好かれる。
li = 強い人々は、いつも気取らない。


## Yahoo! ファイナンスの為替情報を取得してみよう！

In [65]:
# HTMLを取得
url = "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=usdjpy"
res = req.urlopen(url)

# HTMLを解析
soup = BeautifulSoup(res, "html.parser")

In [66]:
# 任意のデータを抽出
price = soup.select_one(".stoksPrice").string
print("usd/jpy=", price)

usd/jpy= 107.490000


In [69]:
# 別のサイトからもやってみる -> Not Find 404
"""
url = "http://api.aoikujira.com/kawase/xml/usd"
res = req.urlopen(url)

# HTMLを解析
soup = BeautifulSoup(res, "html.parser")

# 任意のデータを抽出
jpy = soup.select_one("jpy").string
print("usd/jpy", jpy)
"""

HTTPError: HTTP Error 404: Not Found