# Beautiful Soup

`Beautiful Soup` 的運作方式就是讀取 HTML 原始碼，自動進行解析並產生一個 BeautifulSoup 物件，此物件中包含了整個 HTML 文件的結構樹，有了這個結構樹之後，就可以輕鬆找出任何有興趣的資料了。

以下是一個簡單的小程式，示範如何使用 Beautiful Soup 模組解析原始的 HTML 程式碼：

In [1]:
# 引入 Beautiful Soup 模組
from bs4 import BeautifulSoup

# 原始 HTML 程式碼
html_doc = """
<html><head><title>Hello World</title></head>
<body><h2>Test Header</h2>
<p>This is a test.</p>
<a id="link1" href="/my_link1">Link 1</a>
<a id="link2" href="/my_link2">Link 2</a>
<p>Hello, <b class="boldtext">Bold Text</b></p>
</body></html>
"""

# 以 Beautiful Soup 解析 HTML 程式碼
soup = BeautifulSoup(html_doc, 'html.parser')

這裡的 `soup` 就是解析完成後，所產生的結構樹物件，接下來所有資料的搜尋、萃取等操作都會透過這個物件來進行。
<br>
首先我們可以將完整個 HTML 結構經過排版後輸出，觀察整份文件的輪廓：

In [2]:
html_doc

'\n<html><head><title>Hello World</title></head>\n<body><h2>Test Header</h2>\n<p>This is a test.</p>\n<a id="link1" href="/my_link1">Link 1</a>\n<a id="link2" href="/my_link2">Link 2</a>\n<p>Hello, <b class="boldtext">Bold Text</b></p>\n</body></html>\n'

In [3]:
# 輸出排版後的 HTML 程式碼
print(soup.prettify())

<html>
 <head>
  <title>
   Hello World
  </title>
 </head>
 <body>
  <h2>
   Test Header
  </h2>
  <p>
   This is a test.
  </p>
  <a href="/my_link1" id="link1">
   Link 1
  </a>
  <a href="/my_link2" id="link2">
   Link 2
  </a>
  <p>
   Hello,
   <b class="boldtext">
    Bold Text
   </b>
  </p>
 </body>
</html>



### 取得節點文字內容
若要輸出網頁標題的 HTML 標籤，可以直接指定網頁標題標籤的名稱（`title`），即可將該標籤的節點抓出來：

In [4]:
# 網頁標題 HTML 標籤
title_tag = soup.title
print(title_tag)

<title>Hello World</title>


HTML 標籤節點的文字內容，可以透過 `string` 屬性存取：

In [6]:
# 網頁的標題文字
print(title_tag.string)

Hello World


### 搜尋節點
我們可以使用 `find_all` 找出所有特定的 HTML 標籤節點，再以 Python 的迴圈來依序輸出每個超連結的文字：

In [9]:
# 所有的超連結
a_tags = soup.find_all('a')
for tag in a_tags:
  # 輸出超連結的文字
  print(tag.string)

Link 1
Link 2


### 取出節點屬性
若要取出 HTML 節點的各種屬性，可以使用 get，例如輸出每個超連結的網址（`href` 屬性）：

In [7]:
for tag in a_tags:
  # 輸出超連結網址
  print(tag.get('href'))

/my_link1
/my_link2


### 同時搜尋多種標籤
若要同時搜尋多種 HTML 標籤，可以使用 list 來指定所有的要列出的 HTML 標籤名稱：

In [None]:
# 搜尋所有超連結與粗體字
tags = soup.find_all(["a", "b"])
for tag in tags:
  # 輸出超連結的文字
  print(tag.string)

限制搜尋節點數量
`find_all` 預設會輸出所有符合條件的節點，但若是遇到節點數量很多的時候，就會需要比較久的計算時間，如果我們不需要所有符合條件的節點，可以用 `limit` 參數指定搜尋節點數量的上限值，這樣它就只會找出前幾個符合條件的節點：

In [None]:
# 限制搜尋結果數量
tags = soup.find_all(["a", "b"], limit = 2)
for tag in tags:
  # 輸出超連結的文字
  print(tag.string)

如果只需要抓出第一個符合條件的節點，可以直接使用 `find`：

In [None]:
# 只抓出第一個符合條件的節點
a_tag = soup.find("a")
for tag in a_tag:
  # 輸出超連結的文字
  print(tag.string)

### 以 HTML 屬性搜尋

我們也可以根據網頁 HTML 元素的屬性來萃取指定的 HTML 節點，例如搜尋 `id` 屬性為 `link2` 的節點：

In [None]:
# 根據 id 搜尋
link2_tag = soup.find(id = 'link2')
print(link2_tag)

我們可以結合 HTML 節點的名稱與屬性進行更精確的搜尋，例如搜尋 href 屬性為 `/my_link1` 的 `a` 節點：

In [None]:
# 搜尋 href 屬性為 /my_link1 的 a 節點
a_tag = soup.find_all("a", href = "/my_link1")
print(a_tag)

搜尋屬性時，也可以使用正規表示法，例如以正規表示法比對超連結網址：

In [None]:
import re

# 以正規表示法比對超連結網址
links = soup.find_all(href = re.compile("^/my_link\d"))
print(links)

我們也可以同時使用多個屬性的條件進行篩選：

In [None]:
# 以多個屬性條件來篩選
link = soup.find_all(href = re.compile("^/my_link\d"), id = "link1")
print(link)

### 其他

在 HTML5 中有一些屬性名稱若直接寫在 Python 的參數中會有一些問題，例如 `data-*` 這類的屬性直接寫的話，就會產生錯誤訊息：

In [None]:
data_soup = BeautifulSoup('<div data-foo="value">foo!</div>', 'html.parser')

In [None]:
# 錯誤的用法
# data_soup.find_all(data-foo="value")

遇到這種狀況，可以把屬性的名稱與值放進一個 dictionary 中，再將此 dictionary 指定給 `attrs` 參數即可：

In [None]:
# 正確的用法
data_soup.find_all(attrs = {"data-foo" : "value"})