# ②（BeautifulSoupでスクレイピング）

## BeautifulSoupでスクレイピング
### BeautifulSoupのインストール
#### コマンド
pip install beautifulsoup4

### BeautifulSoupの基本的使い方
#### 実行結果

In [8]:
# ライブラリを取り込む --- (※1)
from bs4 import BeautifulSoup 

# 解析したいHTML --- (※2)
html = """
<html><body>
  <h1>スクレイピングとは？</h1>
  <p>Webページを解析すること。</p>
  <p>任意の箇所を抽出すること。</p>
</body></html>
"""

# HTMLを解析する --- (※3)
soup = BeautifulSoup(html, 'html.parser')

# 任意の部分を抽出する --- (※4)
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling

# 要素のテキストを表示する --- (※5)
print("h1 = " + h1.string)
print("p  = " + p1.string)
print("p  = " + p2.string)

h1 = スクレイピングとは？
p  = Webページを解析すること。
p  = 任意の箇所を抽出すること。


### 任意のidで要素を探す方法
#### 実行結果

In [9]:
from bs4 import BeautifulSoup 

html = """
<html><body>
  <h1 id="title">スクレイピングとは？</h1>
  <p id="body">Webページから任意のデータを抽出すること</p>
</body></html>
"""

# HTMLを解析する --- (※1)
soup = BeautifulSoup(html, 'html.parser')

# find()メソッドで取り出す --- (※2)
title = soup.find(id="title")
body  = soup.find(id="body")

# テキスト部分を表示 
print("#title=" + title.string)
print("#body="  + body.string)

#title=スクレイピングとは？
#body=Webページから任意のデータを抽出すること


### 複数の要素を取得する find_all()メソッド
#### 実行結果

In [10]:
from bs4 import BeautifulSoup 

html = """
<html><body>
  <ul>
    <li><a href="http://uta.pw">uta</a></li>
    <li><a href="http://oto.chu.jp">oto</a></li>
  </ul>
</body></html>
"""

# HTMLを解析する --- (※1)
soup = BeautifulSoup(html, 'html.parser')

# findAll()メソッドで取り出す --- (※2)
links = soup.find_all("a")

# リンク一覧を表示 --- (※3)
for a in links:
    href = a.attrs['href']
    text = a.string
    print(text, ">", href) 

uta > http://uta.pw
oto > http://oto.chu.jp


### urlopen()とBeautifulSoupの組み合わせ
#### 実行結果

In [11]:
from bs4 import BeautifulSoup
import urllib.request as req

url = "https://api.aoikujira.com/zip/xml/1500042"

# urlopen()でデータを取得 --- (※1)
res = req.urlopen(url)

# BeautifulSoupで解析 --- (※2)
soup = BeautifulSoup(res, "html.parser")

# 任意のデータを抽出 --- (※3)
ken = soup.find("ken").string
shi = soup.find("shi").string
cho = soup.find("cho").string
print(ken, shi, cho)

東京都 渋谷区 宇田川町


### CSSセレクターを使う
#### 実行結果

In [12]:
from bs4 import BeautifulSoup 

# 解析対象となるHTML --- (※1)
html = """
<html><body>
<div id="meigen">
  <h1>トルストイの名言</h1>
  <ul class="items">
    <li>汝の心に教えよ、心に学ぶな</li>
    <li>謙虚な人は誰からも好かれる。</li>
    <li>強い人々は、いつも気取らない。</li>
  </ul>
</div>
</body></html>
"""

# HTMLを解析する --- (※2)
soup = BeautifulSoup(html, 'html.parser')

# 必要な部分をCSSクエリで取り出す
# | タイトル部分を取得 --- (※3)
h1 = soup.select_one("div#meigen > h1").string
print("h1 =", h1)

# | リスト部分を取得 --- (※4)
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
	print("li =", li.string)

h1 = トルストイの名言
li = 汝の心に教えよ、心に学ぶな
li = 謙虚な人は誰からも好かれる。
li = 強い人々は、いつも気取らない。


### Yahoo!ファイナンスの為替情報の取得
#### 実行結果

In [13]:
from bs4 import BeautifulSoup
import urllib.request as req

# HTMLを取得
url = "https://stocks.finance.yahoo.co.jp/stocks/detail/?code=usdjpy"
res = req.urlopen(url)

# HTMLを解析
soup = BeautifulSoup(res, "html.parser")

# 任意のデータを抽出 --- (※1)
price = soup.select_one(".stoksPrice").string
print("usd/jpy=", price)

usd/jpy= 106.930000
