Beautifulsoup 是一個可以幫助我們 parse HTML 的 lib, 這篇主要紀錄使用 beautifulsoup 時常用的指令。 

In [18]:
from bs4 import BeautifulSoup

## 找出特定 HTML 物件

假設我們有一個字串代表一個表格：

In [19]:
html = """<div><table border="1" class="dataframe"><thead><tr style="text-align:right;"><th></th><th>x</th><th>y</th></tr></thead><tbody><tr><th>0</th><td>-2.863752</td><td>-1.066424</td></tr><tr><th>1</th><td>-0.779238</td><td>0.862169</td></tr></tbody></table></div>"""

渲染成 HTML:
<div>
   <table border="1" class="dataframe">
      <thead>
         <tr style="text-align: right;">
            <th></th>
            <th>x</th>
            <th>y</th>
         </tr>
      </thead>
      <tbody>
         <tr>
            <th>0</th>
            <td>-2.863752</td>
            <td>-1.066424</td>
         </tr>
         <tr>
            <th>1</th>
            <td>-0.779238</td>
            <td>0.862169</td>
         </tr>
      </tbody>
   </table>
</div>

實際 HTML 架構：
```html
<div>
   <table border="1" class="dataframe">
      <thead>
         <tr style="text-align: right;">
            <th></th>
            <th>x</th>
            <th>y</th>
         </tr>
      </thead>
      <tbody>
         <tr>
            <th>0</th>
            <td>-2.863752</td>
            <td>-1.066424</td>
         </tr>
         <tr>
            <th>1</th>
            <td>-0.779238</td>
            <td>0.862169</td>
         </tr>
      </tbody>
   </table>
</div>
```

利用 `BeautifulSoup` 物件 parse HTML:

In [20]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
soup

<div><table border="1" class="dataframe"><thead><tr style="text-align:right;"><th></th><th>x</th><th>y</th></tr></thead><tbody><tr><th>0</th><td>-2.863752</td><td>-1.066424</td></tr><tr><th>1</th><td>-0.779238</td><td>0.862169</td></tr></tbody></table></div>

找到第一個符合條件的 `table` 標籤

In [21]:
table = soup.find('table', {'class': 'dataframe'})
table

<table border="1" class="dataframe"><thead><tr style="text-align:right;"><th></th><th>x</th><th>y</th></tr></thead><tbody><tr><th>0</th><td>-2.863752</td><td>-1.066424</td></tr><tr><th>1</th><td>-0.779238</td><td>0.862169</td></tr></tbody></table>

## 設定新屬性 / class

因為這時候我們取出來的 `table` 物件是 reference 到 soup 裡頭對應的物件, 只要直接改變對應的 attr 就會直接反映結果到 `soup` 物件:

In [22]:
table['class'] = table['class'] + ['table', 'table-striped', 'table-responsive']

In [23]:
soup

<div><table border="1" class="dataframe table table-striped table-responsive"><thead><tr style="text-align:right;"><th></th><th>x</th><th>y</th></tr></thead><tbody><tr><th>0</th><td>-2.863752</td><td>-1.066424</td></tr><tr><th>1</th><td>-0.779238</td><td>0.862169</td></tr></tbody></table></div>

## Iterate 標籤裡頭的子標籤

In [24]:
for c in table.children:
    print(f'{c.name} in {table.name}')

thead in table
tbody in table


## 移除標籤

這邊假設我們要移除表格裡頭第一行的值 ( 第2個 `tr` 標籤 ), 可以對要移除的標籤物件使用 `extract()` func.

<div>
   <table border="1" class="dataframe">
      <thead>
         <tr style="text-align: right;">
            <th></th>
            <th>x</th>
            <th>y</th>
         </tr>
      </thead>
      <tbody>
         <tr>
            <th>0</th>
            <td>-2.863752</td>
            <td>-1.066424</td>
         </tr>
         <tr>
            <th>1</th>
            <td>-0.779238</td>
            <td>0.862169</td>
         </tr>
      </tbody>
   </table>
</div>

In [25]:
for i, tr in enumerate(soup.findAll('tr')):
    if i == 1:
        tr.extract()

<div>
   <table border="1" class="dataframe">
      <thead>
         <tr style="text-align: right;">
            <th></th>
            <th>x</th>
            <th>y</th>
         </tr>
      </thead>
      <tbody>
         <tr>
            <th>1</th>
            <td>-0.779238</td>
            <td>0.862169</td>
         </tr>
      </tbody>
   </table>
</div>

## 建立新標籤

假設我們想要建立一個新的 `blockquote` 標籤，並加入一些文字：

In [26]:
text = 'I love BeautifulSoup!'

In [27]:
blockquote = soup.new_tag('blockquote')
blockquote.append(text)
blockquote

<blockquote>I love BeautifulSoup!</blockquote>