## 39. BeautifulSoupの基本

In [1]:
# BeautifulSoupをインポート
from bs4 import BeautifulSoup

In [2]:
# サンプルのhtmlを読み込む
html = """
<html>
    <head>
        <title>清水義孝の著書</title>
    </head>
    <body>
        <p class="title">
            <b>清水義孝の最新の著書には、次の本があります。</b>
        </p>
        <p class="recent books">
            <a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
        </p>
        <p class="end">
            <b>そして、これらの本は好評発売中です。</b>
        </p>
    </body>
</html>
"""

### BeautifulSoupの基本的な使い方
- BeautifulSoup(解析対象のHTML/XML,利用するパーサー)

#### パーサー（解析）の種類
1. html.parser &emsp;:追加ライブラリが不要
2. lxml &emsp;&emsp;&emsp;:高速に処理か
3. xml  &emsp;&emsp;&emsp;:xmlに対応し、高速に処理可
4. thml5lib  &emsp;&emsp;:正しくHTML5を処理可

In [3]:
soup = BeautifulSoup(html, 'html.parser')

In [4]:
print(soup)


<html>
<head>
<title>清水義孝の著書</title>
</head>
<body>
<p class="title">
<b>清水義孝の最新の著書には、次の本があります。</b>
</p>
<p class="recent books">
<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
</p>
<p class="end">
<b>そして、これらの本は好評発売中です。</b>
</p>
</body>
</html>



In [5]:
# 階層化された状態で表示
print(soup.prettify())

<html>
 <head>
  <title>
   清水義孝の著書
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    清水義孝の最新の著書には、次の本があります。
   </b>
  </p>
  <p class="recent books">
   <a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">
    Python3によるビジネスに役立つデータ分析入門
   </a>
   、
   <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">
    よくわかるPython3入門2.NumPy・Matplotlib編
   </a>
   、
   <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">
    よくわかるPython3入門4.Pandasでデータ分析編
   </a>
  </p>
  <p class="end">
   <b>
    そして、これらの本は好評発売中です。
   </b>
  </p>
 </body>
</html>



## 40. BeautifulSoupでHTMLの階層を移動してタグ取得

### Beautiful Soupの必要な情報の抽出方法
- HTMLの階層を移動してHTMLタグの該当する箇所を検索
- find,find_allメソッドにより、HTMLタグの該当する箇所を検索
- selectメソッドにより、cssセレクタで該当する箇所を指定

In [6]:
# html階層を移動する
print(soup.html.head.title)

<title>清水義孝の著書</title>


In [7]:
# titleだけでも表示される
print(soup.title)

<title>清水義孝の著書</title>


In [8]:
# 文字を取得
print(soup.title.string)

清水義孝の著書


In [9]:
# タグの名前を表示する
print(soup.title.name)

title


In [10]:
# 型の確認
print(type(soup.title))

<class 'bs4.element.Tag'>


In [11]:
# 型の確認
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [12]:
# body要素の最初を取得
print(soup.body.p)

<p class="title">
<b>清水義孝の最新の著書には、次の本があります。</b>
</p>


In [13]:
# 次の要素を取得する場合
print(soup.body.p.next_sibling.next_sibling)

<p class="recent books">
<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
</p>


In [14]:
# 上記の1つ目の要素を取得
print(soup.body.p.next_sibling.next_sibling.a)

<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>


In [15]:
# textを取得
print(soup.body.p.next_sibling.next_sibling.a.string)

Python3によるビジネスに役立つデータ分析入門


In [17]:
# URLを取得
print(soup.body.p.next_sibling.next_sibling.a['href'])

https://www.amazon.co.jp/dp/B07TN4D3HG


## 41. BeatutifulSoupのfind, find_allメソッドの使い方

### メソッド概要
- find() : 引数に検索するHTMLタグ　←引数に一致する最初の１つの要素を取得
- find_all() : 引数に検索するHTMLタグ　←引数に一致する全ての要素を取得

#### find_allメソッドの概要
- 戻り値
1. 取得出来たタグをリストで返す
2. 何も取得できない場合、空のリストを返す

#### findメソッドの概要
- 戻り値
1. 取得出来たタグを返す
2. 何も取得できない場合、Noneを返す



In [20]:
# find_allでaタグを検索
print(soup.find_all('a'))

[<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>, <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>, <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>]


In [21]:
# findだと最初のa要素だけが取得
print(soup.find('a'))

<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>


In [24]:
# for文でタグリストを表示
for tag_a in soup.find_all('a'):
    print(tag_a,end='\n\n')

<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>

<a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>

<a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>



In [27]:
# 本のタイトルとURLを取得
for tag_a in soup.find_all('a'):
    print(tag_a.string)
    print(tag_a['href'])

Python3によるビジネスに役立つデータ分析入門
https://www.amazon.co.jp/dp/B07TN4D3HG
よくわかるPython3入門2.NumPy・Matplotlib編
http://www.amazon.co.jp/dp/B07SRLRS4M
よくわかるPython3入門4.Pandasでデータ分析編
http://www.amazon.co.jp/dp/B07T9SZ96B


## 42. BeatutifulSoupのselectメソッドの使い方

#### selectメソッドの概要
- soup.selct('CSSセレクタ')

- 戻り値
1. 取得出来たタグをリストで返す
2. 何も取得できない場合、空のリストを返す

### google chromeでcssセレクタを確認する方法
1. htmlで該当箇所で右クリックする
2. 検証をクリック
3. 該当箇所のhtml文を右クリックしCopy→Copy selecterを選択

In [28]:
# selectで抽出
print(soup.select('body > p.end > b'))

[<b>そして、これらの本は好評発売中です。</b>]


In [30]:
# リストからスライスで抽出して、stringで文字を抜き出し
print(soup.select('body > p.end > b')[0].string)

そして、これらの本は好評発売中です。


## 課題2.BeutifulSoupの基本演習

1. まずはBeautifulSoupをインポートし、サンプルのHTMLをBeautifulSoupで読み込んでください

In [32]:
# BeatuifulSoupをインポート

from bs4 import BeautifulSoup

html= """
<html>
    <head>
        <title>清水義孝の著書</title>
    </head>
    <body>
        <p class="title">
            <b>清水義孝の最新の著書には、次の本があります。</b>
        </p>
        <p class="recent books">
            <a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>、
            <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>
        </p>
        <p class="end">
            <b>そして、これらの本は好評発売中です。</b>
        </p>
    </body>
</html>
"""

soup = BeautifulSoup(html, 'html.parser')

2. 読み込んだHTMLを整形したかたちで表示してください。

In [33]:
# 階層化された状態で表示
print(soup.prettify())

<html>
 <head>
  <title>
   清水義孝の著書
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    清水義孝の最新の著書には、次の本があります。
   </b>
  </p>
  <p class="recent books">
   <a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">
    Python3によるビジネスに役立つデータ分析入門
   </a>
   、
   <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">
    よくわかるPython3入門2.NumPy・Matplotlib編
   </a>
   、
   <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">
    よくわかるPython3入門4.Pandasでデータ分析編
   </a>
  </p>
  <p class="end">
   <b>
    そして、これらの本は好評発売中です。
   </b>
  </p>
 </body>
</html>



3. title要素を取得し、表示してください。

In [39]:
print(soup.title.string)

清水義孝の著書


4. find_allメソッドで全てのa要素を取得し、表示してください。結果はリスト型で表示されます

In [42]:
print(soup.find_all('a'))

[<a class="book" href="https://www.amazon.co.jp/dp/B07TN4D3HG" id="link1">Python3によるビジネスに役立つデータ分析入門</a>, <a class="book" href="http://www.amazon.co.jp/dp/B07SRLRS4M" id="link2">よくわかるPython3入門2.NumPy・Matplotlib編</a>, <a class="book" href="http://www.amazon.co.jp/dp/B07T9SZ96B" id="link3">よくわかるPython3入門4.Pandasでデータ分析編</a>]


5. 問4で取得した全てのa要素から、①href属性の値と②配下のテキストを表示してください

In [46]:
for tag_a in soup.find_all('a'):
    print(tag_a['href'])
    print(tag_a.string)

https://www.amazon.co.jp/dp/B07TN4D3HG
Python3によるビジネスに役立つデータ分析入門
http://www.amazon.co.jp/dp/B07SRLRS4M
よくわかるPython3入門2.NumPy・Matplotlib編
http://www.amazon.co.jp/dp/B07T9SZ96B
よくわかるPython3入門4.Pandasでデータ分析編
