# クローリング&スクレイピング

## BeautifulSoupでスクレイピング

### Fundamental usage of BeautifulSoup

html形式で記述されている対象から特定の部分を抽出する。

In [4]:
from bs4 import BeautifulSoup

html = """
<html><body>
    <h1>スクレイピングとは</h1>
    <p>Webページを解析すること。</p>
    <p>任意の箇所を抽出すること。</p>
</body></html>
"""

#Make BeautifulSoup Instance(1st: Object of Analysis, Format of analysis objects)
soup = BeautifulSoup(html, 'html.parser')

h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling

print("h1 = " + h1.string)
print("p1 = " + p1.string)
print("p2 = " + p2.string)

h1 = スクレイピングとは
p1 = Webページを解析すること。
p2 = 任意の箇所を抽出すること。


任意のIDで要素を検索

In [13]:
from bs4 import BeautifulSoup

html = """
<html><body>
    <h1 id = "title">スクレイピングとは</h1>
    <p id = "body">Webページから任意のデータを抽出すること。</p>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')

title = soup.find(id = "title")
body = soup.find(id = "body")

print("#title = "  + title.string)
print("#body = " + body.string)

#title = スクレイピングとは
#body = Webページから任意のデータを抽出すること。


複数要素の取得

In [14]:
from bs4 import BeautifulSoup

html = """
<html><body>
    <ul>
       <li><a href = "http://uta.pw">uta</a></li>
       <li><a href = "http://oto.chu.jp">oto</a></li>
   </ul>
</body></html>
"""

#Make BeautifulSoup Instance
soup = BeautifulSoup(html, "html.parser")

#get all "a" tags in html source code.
links = soup.find_all("a")

for a in links:
    href = a.attrs['href']
    text = a.string
    print(text, ">", href)

uta > http://uta.pw
oto > http://oto.chu.jp


`.find_all()`メソッドの戻り値は次のような形の配列となっている。

In [15]:
links

[<a href="http://uta.pw">uta</a>, <a href="http://oto.chu.jp">oto</a>]

 BeautifulSoupインスタンス作成時に使用するhtmlをwebから取得:

In [17]:
from bs4 import BeautifulSoup
import urllib.request as req

url = "http://api.aoikujira.com/zip/xml/1500042"

res = req.urlopen(url)

soup = BeautifulSoup(res, 'html.parser')

ken = soup.find("ken").string
shi = soup.find("shi").string
cho = soup.find("cho").string
print(ken, shi, cho)

東京都 渋谷区 宇田川町


CSSセレクタを使用

BeautifulSoupでは、javascriptのライブラリjQueryのように、CSSセレクタを使用して任意の要素を抽出することが可能。

In [20]:
from bs4 import BeautifulSoup

html = """
<html><body>
<div id = "meigen">
    <h1>トルストイの名言</h1>
    <ul class = "items">
        <li>復習するは我にあり、我は仇をかえさん</li>
        <li>光あるうち光の中を歩め</li>
        <li>強い人々は、いつも気取らない</li>
    </ul>
</div>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')

#get title
h1 = soup.select_one("div#meigen > h1").string  #CSSセレクタで要素を一つ取り出す
print("h1 = ", h1)

#get contents
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
    print("li = ", li.string)

h1 =  トルストイの名言
li =  復習するは我にあり、我は仇をかえさん
li =  光あるうち光の中を歩め
li =  強い人々は、いつも気取らない


Yahoo!ファイナンスの為替情報を取得

In [22]:
from bs4 import BeautifulSoup
import urllib.request as req

url = "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=usdjpy"
res = req.urlopen(url)

soup = BeautifulSoup(res, 'html.parser')

price = soup.select_one(".stoksPrice").string
print("usd/jpy=", price)

usd/jpy= 108.260000


In [None]:
http://stocks.finance.yahoo.co.jp/stocks/detail/?code=usdjpy

#### memo

aタグ: アンカーの略。リンクの出発点と到達点を表す

`href`:Hypertext referenceの略称　リンク先の指定に利用。