# 1-1 データのダウンロード
---
[書式] GETリクエストでパラメータを送信する  
http://example.com?key1=v1&key2=v2&...  

---
任意のパラメータをつけてリクエスト送信  
znに郵便番号

In [1]:
import urllib.request
import urllib.parse

API = "http://api.aoikujira.com/zip/xml/get.php"

values = {'fmt':'xml', 'zn':'2460038'}

params = urllib.parse.urlencode(values)

# リクエスト用のURL作成
url = API+"?"+params
print("url=", url)

# download
data = urllib.request.urlopen(url).read()
text = data.decode("utf-8")
print(text)

url= http://api.aoikujira.com/zip/xml/get.php?fmt=xml&zn=2460038
<?xml version="1.0" encoding="utf-8" ?>
<address result="1">
<header>
  <result>1</result>
  <api>api.aoikujira.com/zip</api>
  <version>1.1</version>
</header>
<value>
  <zip>2460038</zip>
  <ken>神奈川県</ken>
  <shi>横浜市瀬谷区</shi>
  <cho>宮沢</cho>
  <disp>神奈川県横浜市瀬谷区宮沢</disp>
  <kenkana>カナガワケン</kenkana>
  <shikana>ヨコハマシセヤク</shikana>
  <chokana>ミヤザワ</chokana>
</value>
</address>


# 1-2 BeautifulSoupでスクレイピング


In [2]:
from bs4 import BeautifulSoup

html = """
<html><body>
    <ul>
      <li><a href="http://uta.pw">uta</a></li>
      <li><a href="http://oto.chu.jp">oto</a></li>
    </ul>
</body></html>
"""

# htmlを解析
soup = BeautifulSoup(html, 'html.parser')

# find_all()メソッドで取り出す
links = soup.find_all("a")

#リンク一覧表示
for a in links:
    href = a.attrs['href']
    text = a.string
    print(text, ">", href)

uta > http://uta.pw
oto > http://oto.chu.jp


In [6]:
from bs4 import BeautifulSoup
import urllib.request as req

url = "http://api.aoikujira.com/zip/xml/1500042"
print(url)
# urlopenでデータを取得
res = req.urlopen(url)

# BeautifulSoupで解析
soup = BeautifulSoup(res, "html.parser")
print(soup)
print("--------------------------------")
# 任意のデータ取得
ken = soup.find("ken").string
shi = soup.find("shi").string
cho = soup.find("cho").string
print(ken, shi, cho)

http://api.aoikujira.com/zip/xml/1500042
<?xml version="1.0" encoding="utf-8" ?>
<address result="1">
<header>
<result>1</result>
<api>api.aoikujira.com/zip</api>
<version>1.1</version>
</header>
<value>
<zip>1500042</zip>
<ken>東京都</ken>
<shi>渋谷区</shi>
<cho>宇田川町</cho>
<disp>東京都渋谷区宇田川町</disp>
<kenkana>トウキョウト</kenkana>
<shikana>シブヤク</shikana>
<chokana>ウダガワチョウ</chokana>
</value>
</address>
--------------------------------
東京都 渋谷区 宇田川町


### CSSセレクタを使う
|メソッド|解説|
|:--|--|
|soup.select_one(セレクタ)|CSSセレクタで要素を一つ取り出す|
|soup.select(セレクタ)|CSSセレクタで複数要素を取り出しリスト型で返す|

In [8]:
from bs4 import BeautifulSoup
# 解析対象となるHTML
html = """
<html><body>
<div id="meigen">
    <h1>トルストイの名言</h1>
    <ul class="items">
      <li>汝の心に教えよ、心に学ぶな</li>
      <li>謙虚な人は誰からも好かれる。</li>
      <li>強い人々は、いつも気取らない。</li>
    </ul>
</div>
</body></html>
"""

# HTMLを解析
soup = BeautifulSoup(html, 'html.parser')

# 必要な部分をCSSクエリで取り出す
# タイトル部分を取得
h1 = soup.select_one("div#meigen > h1").string
print("h1 =", h1)

# リスト部分を取得
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
    print("li =", li.string)

h1 = トルストイの名言
li = 汝の心に教えよ、心に学ぶな
li = 謙虚な人は誰からも好かれる。
li = 強い人々は、いつも気取らない。


### Yahoo!ファイナンスの為替情報取得

In [1]:
from bs4 import BeautifulSoup
import urllib.request as req

# 為替情報XML取得
url = "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=usdjpy"
res = req.urlopen(url)
print(url)

# HTML解析
soup = BeautifulSoup(res, "html.parser")
print("----------------------------------")

# 任意のデータ抽出
price = soup.select_one(".stoksPrice").string
print("usd/jpy=", price)

http://stocks.finance.yahoo.co.jp/stocks/detail/?code=usdjpy
----------------------------------
usd/jpy= 110.350000


# 1-3 CSSセレクタ

In [2]:
from bs4 import BeautifulSoup
import urllib.request as req

# 為替情報XML取得
url = "http://www.aozora.gr.jp/index_pages/person148.html#sakuhin_list_1"
res = req.urlopen(url)
print(url)

# HTML解析
soup = BeautifulSoup(res, "html.parser")
print("----------------------------------")

li_list = soup.select("ol > li")
for li in li_list:
    a = li.a
    if a != None:
        name = a.string
        href = a.attrs["href"]
        print(name)

http://www.aozora.gr.jp/index_pages/person148.html#sakuhin_list_1
----------------------------------
イズムの功過
一夜
永日小品
岡本一平著並画『探訪画趣』序
思い出す事など
カーライル博物館
薤露行
学者と名誉
硝子戸の中
元日
木下杢太郎『唐草表紙』序
教育と文芸
京に着ける夕
虚子君へ
草枕
虞美人草
ケーベル先生
ケーベル先生の告別
現代日本の開化
行人
坑夫
こころ
『心』広告文
『心』自序
『心』予告
琴のそら音
コンラッドの描きたる自然について
作物の批評
三山居士
三四郎
『三四郎』予告
子規の画
子規の画
「自然を写す文章」
自転車日記
写生文
趣味の遺伝
初秋の一日
処女作追懐談
人生
鈴木三重吉宛書簡―明治三十九年
西洋にはない
戦争からきた行き違い
創作家の態度
それから
それから
『それから』予告
高浜虚子著『鶏頭』序
田山花袋君に答う
「土」に就て
『土』に就て
艇長の遺書と中佐の詩
手紙
『伝説の時代』序
点頭録
『東洋美術図譜』
道楽と職業
長塚節氏の小説「土」
中味と形式
二百十日
入社の辞
猫の広告文
野分
『煤煙』の序
博士問題とマードック先生と余
博士問題の成行
長谷川君と余
彼岸過迄
「額の男」を読む
文芸委員は何をするか
文芸と道徳
文芸とヒロイツク
文芸の哲学的基礎
文芸は男子一生の事業とするに足らざる乎
文士の生活
文壇の趨勢
文鳥
変な音
変な音
僕の昔
坊っちゃん
マードック先生の『日本歴史』
正岡子規
幻影の盾
満韓ところどころ
道草
無題
明暗
明治座の所感を虚子君に問れて
模倣と独立
門
夢十夜
余と万年筆
予の描かんと欲する作品
落第
倫敦消息
倫敦塔
吾輩は猫である
吾輩ハ猫デアル
『吾輩は猫である』下篇自序
『吾輩は猫である』上篇自序
『吾輩は猫である』中篇自序
私の経過した学生時代
私の個人主義


# 1-4 リンク先を丸ごとダウンロード

In [17]:
from urllib.parse import urljoin

base = "http://example.com/html/a.html"

print(urljoin(base, "b.html"))
print(urljoin(base, "sub/b.html"))
print(urljoin(base, "../b.html"))
print(urljoin(base, "../img/b.png"))
print(urljoin(base, "../css/hoge.css"))

http://example.com/html/b.html
http://example.com/html/sub/b.html
http://example.com/b.html
http://example.com/img/b.png
http://example.com/css/hoge.css
