# 1-1 データのダウンロード
---
[書式] GETリクエストでパラメータを送信する  
http://example.com?key1=v1&key2=v2&...  

---
任意のパラメータをつけてリクエスト送信  
znに郵便番号

In [1]:
import urllib.request
import urllib.parse

API = "http://api.aoikujira.com/zip/xml/get.php"

values = {'fmt':'xml', 'zn':'2460038'}

params = urllib.parse.urlencode(values)

# リクエスト用のURL作成
url = API+"?"+params
print("url=", url)

# download
data = urllib.request.urlopen(url).read()
text = data.decode("utf-8")
print(text)

url= http://api.aoikujira.com/zip/xml/get.php?fmt=xml&zn=2460038
<?xml version="1.0" encoding="utf-8" ?>
<address result="1">
<header>
  <result>1</result>
  <api>api.aoikujira.com/zip</api>
  <version>1.1</version>
</header>
<value>
  <zip>2460038</zip>
  <ken>神奈川県</ken>
  <shi>横浜市瀬谷区</shi>
  <cho>宮沢</cho>
  <disp>神奈川県横浜市瀬谷区宮沢</disp>
  <kenkana>カナガワケン</kenkana>
  <shikana>ヨコハマシセヤク</shikana>
  <chokana>ミヤザワ</chokana>
</value>
</address>


# 1-2 BeautifulSoupでスクレイピング


In [2]:
from bs4 import BeautifulSoup

html = """
<html><body>
    <ul>
      <li><a href="http://uta.pw">uta</a></li>
      <li><a href="http://oto.chu.jp">oto</a></li>
    </ul>
</body></html>
"""

# htmlを解析
soup = BeautifulSoup(html, 'html.parser')

# find_all()メソッドで取り出す
links = soup.find_all("a")

#リンク一覧表示
for a in links:
    href = a.attrs['href']
    text = a.string
    print(text, ">", href)

uta > http://uta.pw
oto > http://oto.chu.jp


In [6]:
from bs4 import BeautifulSoup
import urllib.request as req

url = "http://api.aoikujira.com/zip/xml/1500042"
print(url)
# urlopenでデータを取得
res = req.urlopen(url)

# BeautifulSoupで解析
soup = BeautifulSoup(res, "html.parser")
print(soup)
print("--------------------------------")
# 任意のデータ取得
ken = soup.find("ken").string
shi = soup.find("shi").string
cho = soup.find("cho").string
print(ken, shi, cho)

http://api.aoikujira.com/zip/xml/1500042
<?xml version="1.0" encoding="utf-8" ?>
<address result="1">
<header>
<result>1</result>
<api>api.aoikujira.com/zip</api>
<version>1.1</version>
</header>
<value>
<zip>1500042</zip>
<ken>東京都</ken>
<shi>渋谷区</shi>
<cho>宇田川町</cho>
<disp>東京都渋谷区宇田川町</disp>
<kenkana>トウキョウト</kenkana>
<shikana>シブヤク</shikana>
<chokana>ウダガワチョウ</chokana>
</value>
</address>
--------------------------------
東京都 渋谷区 宇田川町


### CSSセレクタを使う
|メソッド|解説|
|:--|--|
|soup.select_one(セレクタ)|CSSセレクタで要素を一つ取り出す|
|soup.select(セレクタ)|CSSセレクタで複数要素を取り出しリスト型で返す|

In [8]:
from bs4 import BeautifulSoup
# 解析対象となるHTML
html = """
<html><body>
<div id="meigen">
    <h1>トルストイの名言</h1>
    <ul class="items">
      <li>汝の心に教えよ、心に学ぶな</li>
      <li>謙虚な人は誰からも好かれる。</li>
      <li>強い人々は、いつも気取らない。</li>
    </ul>
</div>
</body></html>
"""

# HTMLを解析
soup = BeautifulSoup(html, 'html.parser')

# 必要な部分をCSSクエリで取り出す
# タイトル部分を取得
h1 = soup.select_one("div#meigen > h1").string
print("h1 =", h1)

# リスト部分を取得
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
    print("li =", li.string)

h1 = トルストイの名言
li = 汝の心に教えよ、心に学ぶな
li = 謙虚な人は誰からも好かれる。
li = 強い人々は、いつも気取らない。


### Yahoo!ファイナンスの為替情報取得

In [14]:
from bs4 import BeautifulSoup
import urllib.request as req

# 為替情報XML取得
url = "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=usdjpy"
res = req.urlopen(url)
print(url)
print("^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^")

# HTML解析
soup = BeautifulSoup(res, "html.parser")
print(soup)
print("----------------------------------")

# 任意のデータ抽出
price = soup.select_one(".stoksPrice").string
print("usd/jpy=", price)

http://stocks.finance.yahoo.co.jp/stocks/detail/?code=usdjpy
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">

<html lang="ja">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type">
<meta content="text/css" http-equiv="Content-Style-Type">
<meta content="text/javascript" http-equiv="Content-Script-Type">
<meta content="464062600275671" property="fb:app_id">
<meta content="Yahoo!ファイナンス" property="og:site_name">
<meta content="article" property="og:type">
<meta content="https://stocks.finance.yahoo.co.jp:443/stocks/detail/?code=usdjpy" property="og:url">
<meta content="https://s.yimg.jp/images/finance/common/image/ogp.png" property="og:image">
<meta content="アメリカ　ドル / 日本　円の取引値、チャートをご覧いただけます。株価、株式など投資やマネーの総合情報サイト-Yahoo!ファイナンス" name="description">
<meta content="アメリカ　ドル / 日本　円の取引値、チャートをご覧いただけます。株価、株式など投資やマネーの総合情報サイト-Yahoo!ファイナンス" property="og:description">
<meta content="株価,チャート,日経

# 1-3 CSSセレクタ

In [16]:
from bs4 import BeautifulSoup
import urllib.request as req

# 為替情報XML取得
url = "http://www.aozora.gr.jp/index_pages/person148.html#sakuhin_list_1"
res = req.urlopen(url)
print(url)
print("^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^")

# HTML解析
soup = BeautifulSoup(res, "html.parser")
print(soup)
print("----------------------------------")

li_list = soup.select("ol > li")
for li in li_list:
    a = li.a
    if a != None:
        name = a.string
        href = a.attrs["href"]
        print(name)

http://www.aozora.gr.jp/index_pages/person148.html#sakuhin_list_1
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
<html lang="ja">
<head>
<meta content="text/html;charset=utf-8" http-equiv="Content-Type">
<meta content="text/css" http-equiv="Content-Style-Type">
<title>作家別作品リスト：夏目 漱石</title>
<style type="text/css">
<!--
body{
    margin-left: 10%;
    margin-right: 10%;
    margin-bottom: 5%;
    line-height: 150%;
}
a:hover{
    color: white;
    background-color: #0000ff;
}
h1{
    color: black;
    background-color: #ffffcc;
    padding: 10pt;
    border-color: black;
    border-width: 1pt 0 1pt 0;
    border-style: solid none solid none;
    font-size: 150%;
}
h2{
    color: black;
    background-color: #d3d3d3;
    padding: 5pt;
    border-color: black;
    border-width: 1pt 0 1pt 0;
    border-style: solid none solid none;
    text-indent: 1em;
}
table{
    margin-left: 1em;
    padding: 0.5em 0em 0.5em 1em;
}
table.download{
    color: black;
    margin-left: 0;
    padding: 0;
}
th.download

# 1-4 リンク先を丸ごとダウンロード

In [17]:
from urllib.parse import urljoin

base = "http://example.com/html/a.html"

print(urljoin(base, "b.html"))
print(urljoin(base, "sub/b.html"))
print(urljoin(base, "../b.html"))
print(urljoin(base, "../img/b.png"))
print(urljoin(base, "../css/hoge.css"))

http://example.com/html/b.html
http://example.com/html/sub/b.html
http://example.com/b.html
http://example.com/img/b.png
http://example.com/css/hoge.css
