In [1]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('http://www.pythonscraping.com/pages/warandpeace.html')
bs = BeautifulSoup(html, "html.parser")

In [2]:
# リストで取得して出力
nameList = bs.findAll('span', {'class': 'green'})
for name in nameList:
    print(name.get_text())   # タグからコンテンツを分離

# get_text()はタグを取り除いてしまうため、印刷、格納、最終データの処理の直前で用いる。
# タグ情報はできるだけ長く保持しておいた方が良い。

Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna


## find()

```python
find(tag, attributes, recursive, text, ketwords)
```



## findAll()

```python
findAll(tag, attributes, recursive, text, limit, ketwords)
```

## 引数
- tag
    - タグの文字列やタグ名文字列のPythonリストを渡せる。
    ```python
    .findAll({"h1", "h2", "h3", ...})   # h1, h2, h3, ...を返す。
    ```
- attributes
    - 属性のPython辞書をとって、その中の属性のいずれかを含むタグに対応させる。
    ```python
    .findAll("span", {"class": {"green"m "red"}})   # class名が"green"と"red"のspanタグを返す。
    ```
- recursive
    - 論理値を取る。
    - 文書のレイヤーのどこまで深く探したいかを指定。
    - Trueならどんどん下まで見ていき(再帰的)、Falseならトップしか見ない。
- text
    - タグの性質そのものではなく、タグのテキストコンテンツが合致するか検討する。
    - コンテンツでfilterをかけるイメージ。
    ```python
    .findAll(text="~")   # ~でコンテンツにフィルターをかけてリストで取得。
    ```
- limit
    - ページから最初のx個の要素だけ取り出したいという指定方法。
    - findは「limit=1」と同じ。
    - ページの中の順番で最初から数えることに注意。
- ketwords
    - 特別な属性や属性集合を持つタグを選ぶことができる。
    ```python
    .findAll(id="title", class="text")   # id属性が"title"で、class属性が"text"のものを取得。
    ```
    
```python
.findAll(id="text")
.findAll("", {"id": "text"})

.findAll(class_="green")
.findAll("", {"class": "green"})
```

## BeautifulSoupのオブジェクト
- BeautifulSoupオブジェクト
- Tagオブジェクト
     - findやfindAllを呼び出して得られる個別オブジェクトまたはオブジェクトのリスト、あるいは「bsObj.div.h1」のようにドリルダウンして得られるもの。
- NavigablesStringオブジェクト
    - タグそのものではなく、タグ内のテキストを表現するのに使用される。
    - 関数によっては、tagオブジェクトではなく、NavigablesStringを生成したり、操作するのがある。
- Commentオブジェクト
    - コメントタグにおいてHTMLコメントを見つけるために使用。

## 子供を見つける

In [3]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html, 'html.parser')

for child in bs.find('table',{'id':'giftList'}).children:   # childrenで子である子孫を指定。
    print(child)



<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>


<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>


## 兄弟を見つける

In [4]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html, 'html.parser')

for sibling in bs.find('table', {'id':'giftList'}).tr.next_siblings:   # 次の表の兄弟を取得
    print(sibling)



<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>
</td></tr>


<tr class="gift" id="gift4"><td>
Dead Parrot
</td><td>
This is an ex-parr

- previous_siblings : next_siblingsを補うために、得たい兄弟タグのリストの末尾のタグを選ぶ場合に役立つ。
- next_sibling, previous_siblings : タグを１つだけ返す。

In [6]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html, 'html.parser')

print(bs.find('table', {'id':'giftList'}).tr.next_sibling)





## 親を見つける

```html
<tr>
    <td>
    </td>
    <td>
    </td>
    <td>
        <p>$15.00</p>
    </td>
    <td>
        <img src="../img/gifts/img1.jpg">
    </td>
</tr>
    

In [7]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html, 'html.parser')
print(bs.find('img',
              {'src':'../img/gifts/img1.jpg'})   # imgタグの１つ上のタグの１つ前のタグを選択し、その中のテキストを取得。
      .parent.previous_sibling.get_text())


$15.00



## 正規表現

In [8]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html, 'html.parser')
images = bs.find_all('img', {'src':re.compile('\.\.\/img\/gifts/img.*\.jpg')})
for image in images: 
    print(image['src'])

../img/gifts/img1.jpg
../img/gifts/img2.jpg
../img/gifts/img3.jpg
../img/gifts/img4.jpg
../img/gifts/img6.jpg
