<center><h1>Python 網路爬蟲實做簡介</h1></center>

網路的世界有需多資料可以被挖掘，配合大數據技術，網路的資料提供資料處理、分析、及應用練習，甚至可以支持商業的用途。從網頁內容挖掘資料的技術稱為網路資料探勘(webmining)。web scraping是一個以Python為基礎的架構用於由網頁獲得資料以供分析應用。

## 網頁組成

當我們要在電腦瀏覽器上讀取一個網頁時，瀏覽器先送一個要求(request)给網頁伺服器。`requests.get`使我們可以從伺服器獲得網頁檔案，伺服器接受要求後，會送回一個網頁檔案，瀏覽器可以顯示這個檔案內容。網頁檔案包含以下幾個組成：

* HTML：包括網頁內容
* CSS：網頁顯示的格式
* JS：Javascript指令提供使用者與網頁互動能力
* Images：允許網頁顯示圖像的格式，如JPG，PNG格式。

當我們存取網頁資料進行scraping時，並不會破壞網頁，我們只是將HTML中有興趣的內容擷取出來。

### HTML

HTML(HyperText Markup Language)稱為建構網頁的程式語言，但它並不像Python或Java，它是一種標記語言(Markup Language)用於定義瀏覽器如何展示內容。HTML的組成元件稱為標籤(tag)，如`<html>`標籤。以下是最基本的一個HTML程式。

```html
<html>
</html>
```

再加入二個基本關鍵標籤，`<hea>`及`<body>`，`<head>`標籤主要定義網頁的名稱抬頭，`<body>`標籤定義網頁的內容。以下為網頁HTML程式的基本架構。
    
```html
<heml>
    <head>
    </head>
    <body>
    </body>
</html>
```
網頁的內容可以由許多標籤組成，其中`<p>`表示獨立的文字段落。例如以下例子顯示二段獨立的文字。

``` html
<html>
    <head>
    </head>
    <body>
        <p>
            這是第一段文字!
        </p>
        <p>
            這是第二段文字!
        </p>
    </body>
</html>
```

<html>
    <head>
    </head>
    <body>
        <p>
            這是第一段文字!
        </p>
        <p>
            這是第二段文字!
        </p>
    </body>
</html>

HTML程式中的標籤有二個值得注意的地方，一是位置，一是屬性。

標籤的位置指與其他標籤間的關係，有以下三類
  - child：指該標籤存在於另一個標籤中，如`p`為`body`的child。
  - parent：指該標籤包含另一個標籤，如`html`為`body`的parent。
  - sibiling：指標籤在同一個parent標籤之下，如`head`與`body`為sibiling，二個`p`為sibiling。

在上述的HTML中加入二個新的標籤`<a>`。`<a>`是連結(link)標籤，用於連結到另一個網頁。其中，`href`是它的屬性，定義連結網頁的位址。

``` html
<html>
    <head>
    </head>
    <body>
        <p>
            這是第一段文字!
            <a href="http://www.cust.edu.tw">中華科技大學</a>
        </p>
        <p>
            這是第二段文字!
            <a href="https://sites.google.com/view/jc7qx">鍾健雄老師教學網頁</a>
        </p>
    </body>
</html>
```

<html>
    <head>
    </head>
    <body>
        <p>
            這是第一段文字!
            <a href="http://www.cust.edu.tw">中華科技大學</a>
        </p>
        <p>
            這是第二段文字!
            <a href="https://sites.google.com/view/jc7qx">鍾健雄老師教學網頁</a>
        </p>
    </body>
</html>

以下綜整HTML程式常用的標籤：

| 標籤名稱 | 標籤用途 |
|---------|---------|
| p    | 文字段落  |
| a    | 定義超連結 |
| div  | 定義網頁的部份區域 ｜
| b    | 文字粗體 ｜
| i    | 文字斜體 |
| table | 定義表格 |
| form  | 定義輸入表格 |

更詳細的HTML元件請參考<a href="https://developer.mozilla.org/en-US/docs/Web/HTML/Element">這裡</a>

此外，有關標籤還有二個重要的屬性用於scrapy應用，即`class`及`id`。這兩個標籤的屬性可定義HTML元件的名稱，可用於scrapy。請見以下範例

``` html

<html>
    <head>
    </head>
    <body>
        <p class="bold-paragraph">
            Here's a paragraph of text!
            <a href="https://www.dataquest.io" id="learn-link">Learn Data Science Online</a>
        </p>
        <p class="bold-paragraph extra-large">
            Here's a second paragraph of text!
            <a href="https://www.python.org" class="extra-large">Python</a>
        </p>
    </body>
</html>

```

## requests 程式套件

requests套件的`get`函式可以送出要求至網頁伺服器，下載回傳網頁HTML檔案內容。以下範例使我們下載一個簡單的HTML檔案。執行結果回傳一個狀態`200`表示執行成果，`page.status_code`顯示狀態編號，`page.content`表示執行結果內容。

狀態訊號 | 說明
--------|-----
200     | ok回傳結果
301     |
401     |
400     |
403     |
404     | 找不到檔案

In [3]:
import requests

page = requests.get("http://dataquestio.github.io/web-scraping-pages/simple.html")
page

<Response [200]>

In [4]:
page.status_code

200

In [5]:
page.content

b'<!DOCTYPE html>\n<html>\n    <head>\n        <title>A simple example page</title>\n    </head>\n    <body>\n        <p>Here is some simple content for this page.</p>\n    </body>\n</html>'

## BeautifulSoup

BeautifulSoup是一個用於解析HTML內容的python工具套件。首先，導入bs4套件中的BeautifulSoup函式，再來建立一個BeatifulSoup的物件`soup`，利用`html.parser`來解析HTML頁面程式。可以利用BeautifulSoup物件的`prettify()`方法來顯示HTML程式。

In [2]:
import requests
from bs4 import BeautifulSoup
page = requests.get("http://dataquestio.github.io/web-scraping-pages/simple.html")
soup = BeautifulSoup(page.content, 'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   A simple example page
  </title>
 </head>
 <body>
  <p>
   Here is some simple content for this page.
  </p>
 </body>
</html>


HTML中所有標籤都是階層性的，`soup.children`用來選擇網頁首層(top level)的元件，產生一個串列結果，可以利用`list`函式來建立串列。

In [3]:
list(soup.children)

['html', '\n', <html>
 <head>
 <title>A simple example page</title>
 </head>
 <body>
 <p>Here is some simple content for this page.</p>
 </body>
 </html>]

In [4]:
[type(item) for item in list(soup.children)]

[bs4.element.Doctype, bs4.element.NavigableString, bs4.element.Tag]

In [6]:
html = list(soup.children)[2]
list(html.children)

['\n', <head>
 <title>A simple example page</title>
 </head>, '\n', <body>
 <p>Here is some simple content for this page.</p>
 </body>, '\n']

In [7]:
body = list(html.children)[3]

In [8]:
list(body.children)

['\n', <p>Here is some simple content for this page.</p>, '\n']

In [9]:
p = list(body.children)[1]

In [10]:
p.get_text()

'Here is some simple content for this page.'

In [11]:
soup = BeautifulSoup(page.content, "html.parser")
soup.find_all('p')

[<p>Here is some simple content for this page.</p>]

In [12]:
soup.find_all('p')[0].get_text()

'Here is some simple content for this page.'

In [13]:
soup.find('p')

<p>Here is some simple content for this page.</p>

In [1]:
import requests
from bs4 import BeautifulSoup
response = requests.get("http://jimmy15923.github.io/example_page")
soup = BeautifulSoup(response.text, "lxml")
print(soup.find("h1"))

<h1>Python 爬蟲實戰</h1>


`requests.get(...)`表示點擊網頁的URL，點擊網頁時有二種方法：GET及POST

Requests的常用函數
* response.status_code
  - 200 ok
  - 403 Forbidden
  - 404 Not Found
* response.encoding
  - 特別要注意中文網站編碼
* response.text
  - 目標網頁的HTML文字

In [2]:
response.text

'<!DOCTYPE html>\n\n<html>\n<head>\n\t<meta charset="UTF-8" />\n\t<title>網頁名稱-python crawler</title>\n\t<style>\n\t.abc {\n\t\tcolor: blue;\n\t\tfont-size: 40px;\t\n\t}\n\n\t#i-am-id {\n\t\tbackground-color: LightCyan;\n\t}\n\n\ttable, th, td {\n\t\tborder: 1px solid black;\n\t    border-collapse: collapse;\n\t}\n\tth, td {\n\t\tpadding: 10px;\n\t}\n\t</style>\n</head>\n<body>\n\t<h1>Python 爬蟲實戰</h1>\n\t<h2>這是 h2 標籤的內容</h2>\n\t<h3>這是 h3 標籤的內容</h3>\n\n\t<p title="i-am-title">這是 p 標籤的內容</p>\n\n\t<div> \n\t這是 div 標籤的內容，\n\t即使換行寫，網頁顯示出的文字一樣是不會換行\n\t</div>\n\n\t<p>但如果用了 br 標籤 <br/> 就可以順利斷行了</p>\n\t\n\t<div class = "zzz" id = "id1">我是有著屬性 class="zzz" 的標籤內容</div>\n\t<p hidden>python_crawler</p>\n\t<div id = "value-of-attr">\n\t我是有著屬性 id="value-of-attr" 的標籤內容\n\t\n\t\t<table id = "i-am-id">\n\t\t  <tr>\n\t\t\t<th>標頭 1 (table-header)</th>\n\t\t\t<th>標頭 2 (table-header)</th>\n\t\t\t<th>標頭 3 (table-header)</th>\n\t\t\t<th>標頭 4 (table-header)</th>\n\t\t  </tr>\n\t\t  <tr>\n\t\t\t<td> 列2 欄1 </td>\n

In [5]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <meta charset="utf-8"/>
  <title>
   網頁名稱-python crawler
  </title>
  <style>
   .abc {
		color: blue;
		font-size: 40px;	
	}

	#i-am-id {
		background-color: LightCyan;
	}

	table, th, td {
		border: 1px solid black;
	    border-collapse: collapse;
	}
	th, td {
		padding: 10px;
	}
  </style>
 </head>
 <body>
  <h1>
   Python 爬蟲實戰
  </h1>
  <h2>
   這是 h2 標籤的內容
  </h2>
  <h3>
   這是 h3 標籤的內容
  </h3>
  <p title="i-am-title">
   這是 p 標籤的內容
  </p>
  <div>
   這是 div 標籤的內容，
	即使換行寫，網頁顯示出的文字一樣是不會換行
  </div>
  <p>
   但如果用了 br 標籤
   <br/>
   就可以順利斷行了
  </p>
  <div class="zzz" id="id1">
   我是有著屬性 class="zzz" 的標籤內容
  </div>
  <p hidden="">
   python_crawler
  </p>
  <div id="value-of-attr">
   我是有著屬性 id="value-of-attr" 的標籤內容
   <table id="i-am-id">
    <tr>
     <th>
      標頭 1 (table-header)
     </th>
     <th>
      標頭 2 (table-header)
     </th>
     <th>
      標頭 3 (table-header)
     </th>
     <th>
      標頭 4 (table-header)
     </th>
    </tr>
    <tr>
     

### 以節點標籤搜尋資料

BeautifulSoup可以依照HTML的節點標籤篩選出所要的資料，利用`標籤.string`(or text)可以讀取標籤文字部分。bs4的`find()`及`find_all()`函式可以用來找出節點標籤。`find()`找出第一個符合條件的節點標籤，`find_all()`可以會以遞迴的方式尋找所有的子節點標籤的內容，並以串列儲存找到的標籤內容。如果想要限制 `find_all` 只找尋次一層的子節點，可以加上 `recursive=False` 關閉遞迴搜尋功能。

In [20]:
print(soup.title)
print(soup.title.string)
print(soup.p)
print(soup.p.string)
print(soup.h1)
print(soup.h1.string)
print(soup.div)
print(soup.div.string)

<title>網頁名稱-python crawler</title>
網頁名稱-python crawler
<p title="i-am-title">這是 p 標籤的內容</p>
這是 p 標籤的內容
<h1>Python 爬蟲實戰</h1>
Python 爬蟲實戰
<div> 
	這是 div 標籤的內容，
	即使換行寫，網頁顯示出的文字一樣是不會換行
	</div>
 
	這是 div 標籤的內容，
	即使換行寫，網頁顯示出的文字一樣是不會換行
	


In [21]:
soup.find("p") #和soup.p一樣的結果，找出第一個標籤p的內容

<p title="i-am-title">這是 p 標籤的內容</p>

In [22]:
soup.find_all('p')

[<p title="i-am-title">這是 p 標籤的內容</p>,
 <p>但如果用了 br 標籤 <br/> 就可以順利斷行了</p>,
 <p hidden="">python_crawler</p>,
 <p>python_crawler</p>]

In [23]:
for p in soup.find_all('p'): #注意此處使用text來擷取標籤文字
    print(p.text)

這是 p 標籤的內容
但如果用了 br 標籤  就可以順利斷行了
python_crawler
python_crawler


### 以標籤屬性搜尋資料

In [29]:
print(soup.a['href'])
atag=soup.find('a')
print(atag.get('href'))

http://www.yahoo.com.tw
http://www.yahoo.com.tw


In [34]:
# 根據 id 搜尋
print(soup.find(id="hyperlink"))

<a href="http://foundation.datasci.tw/python-crawling-170813/" id="hyperlink"> 列3 欄3 (資料協會-python 爬蟲實戰)</a>


In [41]:
# 根據屬性搜尋
print(soup.find(attrs={"class":"zzz"}))
print(soup.find(attrs={"value":"5566"}))

<div class="zzz" id="id1">我是有著屬性 class="zzz" 的標籤內容</div>
<td value="5566">列3 欄1 </td>


In [46]:
# 利用 repex 搜尋資料
import re
link = soup.find_all(href=re.compile("foundation"))
print(link)

[<a href="http://foundation.datasci.tw/">列2 欄4 (資料協會) </a>, <a href="http://foundation.datasci.tw/python-crawling-170813/" id="hyperlink"> 列3 欄3 (資料協會-python 爬蟲實戰)</a>]


### 以 CSS 搜尋

In [47]:
print(soup.find('p', title="i-am-title"))

<p title="i-am-title">這是 p 標籤的內容</p>


In [50]:
for h in soup.find_all('th'):
    print(h)

<th>標頭 1 (table-header)</th>
<th>標頭 2 (table-header)</th>
<th>標頭 3 (table-header)</th>
<th>標頭 4 (table-header)</th>


## BeautifulSoup

* 強大且簡單易學的 HTML 解析器
* 將 HTML 轉變成 BeautifulSoup 物件
* 再用 BeautifulSoup 的函數取得想要的標籤資訊
* BeautifulSoup 可以直接找出你想要的 tags 而不需告訴他路徑

In [10]:
print(soup.find("h1"))
print(soup.h1)
print(soup.html.h1)
print(soup.body.h1)
print(soup.html.body.h1)

<h1>Python 爬蟲實戰</h1>
<h1>Python 爬蟲實戰</h1>
<h1>Python 爬蟲實戰</h1>
<h1>Python 爬蟲實戰</h1>
<h1>Python 爬蟲實戰</h1>


In [11]:
print(soup.find("h1"))

<h1>Python 爬蟲實戰</h1>


In [12]:
print(soup.find("h1").text)

Python 爬蟲實戰


In [13]:
# 找出第一個 td 的標籤
print(soup.find("td"))

<td> 列2 欄1 </td>


In [14]:
# 找出第一個 td 的標籤並印出其文字內容
print(soup.find("td").text)

 列2 欄1 


In [16]:
# 找出所有 td 的標籤
print(soup.find_all("td"))

[<td> 列2 欄1 </td>, <td class="zzz"> 列2 欄2 (我的屬性 class="zzz") </td>, <td>
<a href="http://www.yahoo.com.tw">列2 欄3 (我是 a 標籤，屬性 href=網址) </a>
</td>, <td>
<a href="http://foundation.datasci.tw/">列2 欄4 (資料協會) </a>
</td>, <td value="5566">列3 欄1 </td>, <td>列3 欄2
				<ol>
<li class="zz">我是 li 標籤 (列表)，屬性 class="zz" </li>
<li> 第二個 li 標籤 </li>
</ol>
</td>, <td>
<a href="http://foundation.datasci.tw/python-crawling-170813/" id="hyperlink"> 列3 欄3 (資料協會-python 爬蟲實戰)</a>
</td>, <td class="zzzz">列3 欄4 (我的屬性 class="zzzz")</td>]


In [17]:
# 不指定標籤,但找出所有屬性 class = "zzz" 的標籤
print(soup.find_all("",{"class":"zzz"}))

[<div class="zzz" id="id1">我是有著屬性 class="zzz" 的標籤內容</div>, <td class="zzz"> 列2 欄2 (我的屬性 class="zzz") </td>]


In [18]:
# 找出所有 td 標籤的第三個並找出其中的 a 標籤
print(soup.find_all("td")[2].find("a"))

<a href="http://www.yahoo.com.tw">列2 欄3 (我是 a 標籤，屬性 href=網址) </a>


In [19]:
print(soup.find_all(text="python_crawler"))

['python_crawler', 'python_crawler']


In [20]:
print(soup.find("a").attrs)

{'href': 'http://www.yahoo.com.tw'}


In [21]:
print(soup.find("a")["href"])

http://www.yahoo.com.tw


### 練習1

In [23]:
# 請計算範例網頁中,共含有幾個 "td" 的標籤 (tags)?
len(soup.find_all("td"))

8

In [29]:
print(soup.find("div", id="id1").text)

我是有著屬性 class="zzz" 的標籤內容


### 參考資料

1. [Python 使用 Beautiful Soup 抓取與解析網頁資料，開發網路爬蟲教學](https://blog.gtwang.org/programming/python-beautiful-soup-module-scrape-web-pages-tutorial/)
2. [給初學者的 Python 網頁爬蟲與資料分析 (1)](http://blog.castman.net/%E6%95%99%E5%AD%B8/2016/12/19/python-data-science-tutorial-1.html)
3. [Python Web Scraping Tutorial using BeautifulSoup](https://www.dataquest.io/blog/web-scraping-tutorial-python/) - [Dataquest](https://www.dataquest.io/)
4. [How To Scrape Web Pages with Beautiful Soup and Python 3](https://www.digitalocean.com/community/tutorials/how-to-scrape-web-pages-with-beautiful-soup-and-python-3)
5. [Modern Python web scraping using (Beautiful Soup & Selenium)](https://likegeeks.com/python-web-scraping/)
6. [Beautiful Soup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)