# 透過 Python 擷取網頁上的資料 (臺股爬蟲)

在大數據變成顯學的時代，從網路上蒐集資料這個議題也變得更加重要，只需一個簡單的程式，就能透過低成本並且自動化的方式獲得大量的資料，因此學習與實作網頁爬蟲成為一個投資報酬率極高的事務，而用 Python 讓實作爬蟲變得非常簡單

## 在體驗 Python 實作爬蟲的強大前，我們先來參考 Excel 現有的解法
Excel 其實有內建一個擷取網頁資料的功能，進入**資料** > **從 web 擷取資料**

![](https://www.dropbox.com/s/kzblclnr74d469h/excel_web_scraping.PNG?dl=1)

若要用 VBA 實作這個功能，則可以選擇用 **querytable**

## 但是，這個看似強大的功能卻有一個嚴重的問題

- querytable / 從 web 匯入資料因爲核心是透過 IE 運作, 效能**非常慢！**



## 用 Python 實作爬蟲

Python 用來實作爬蟲的兩個主流套件：

- BeautifulSoup [官方文件](https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/)

- PyQuery [官方文件](https://pythonhosted.org/pyquery/)

**BeautifulSoup** 是比較貼近**程式設計師**的角度去思考

**PyQuery** 貼近**網頁開發者**的角度去思考

## 範例網頁：

[連結](http://pythonscraping.com/pages/warandpeace.html)

In [1]:
!pip install pyquery

Collecting pyquery
  Downloading https://files.pythonhosted.org/packages/09/c7/ce8c9c37ab8ff8337faad3335c088d60bed4a35a4bed33a64f0e64fbcf29/pyquery-1.4.0-py2.py3-none-any.whl
Collecting cssselect>0.7.9 (from pyquery)
  Downloading https://files.pythonhosted.org/packages/7b/44/25b7283e50585f0b4156960691d951b05d061abf4a714078393e51929b30/cssselect-1.0.3-py2.py3-none-any.whl
Installing collected packages: cssselect, pyquery
Successfully installed cssselect-1.0.3 pyquery-1.4.0


You are using pip version 9.0.1, however version 18.1 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.


In [2]:
# 使用 from 套件名稱 import 模組名稱 as 別名
# from pyquery import PyQuery as pq
from pyquery import PyQuery as pq


url = "http://pythonscraping.com/pages/warandpeace.html"

# 抓取頁面，存入html變數
html = pq("http://pythonscraping.com/pages/warandpeace.html")

# 可以看到構成整個頁面的 html, css, 與 javascript 的程式碼
print(html)

<html>
<head>
<style>
.green{
	color:#55ff55;
}
.red{
	color:#ff5555;
}
#text{
	width:50%;
}
</style>
</head>
<body>
<h1>War and Peace</h1>
<h2>Chapter 1</h2>
<div id="text">
"<span class="red">Well, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news.</span>"
<p/>
It was in July, 1805, and the speaker was the well-known <span class="green">Anna
Pavlovna Scherer</span>, maid of honor and favorite of the <span class="green">Empress Marya
Fedorovna</span>. With these words she greeted <span class="green">Prince Vasili Kuragin</span>, a man
of high rank and importance, who was the first t

## 網頁開發 101

任何網頁都是由**標籤(tag)**所組成，基本結構如下
```html
<標籤名稱 class="類別名稱">內容</標籤名稱>
<標籤名稱 id="id名稱">內容</標籤名稱>
```
今天我們要擷取的任何內容，一定是被包裹在在某一個標籤裡面
而今天若網頁開發者需要改變任何一個標籤的**樣式**，就需要用到**css**語法
以上面的網頁為例，人名都是以綠色顯示，所以就先宣告一個名為 **green** 的 css 類別:

```html
<style>
.green{
	color:#55ff55;
}
</style>
```

若今天希望讓一個標籤的内容文字變成綠色，可以使用定義好的 .green 這個 css 類別：

```html
<span class="green">Prince Vasili Kuragin</span>
```

*想了解更多 html 可以看一下 Mozilla 官網的教學：[HTML 基礎](https://developer.mozilla.org/zh-TW/docs/Learn/Getting_started_with_the_web/HTML_basics)

## 範例網頁

![](https://www.dropbox.com/s/c1ztwcc798eas89/warandpeace.PNG?dl=1)


## 使用 標籤 「類別名稱」取得資料

要擷取資料前，首先需要透過方法**選擇**到該標籤

這時我們就需要介紹一下在網頁開發裡的強大套件：**jQuery**

## jQuery是什麼？
在網頁開發領域最被廣汎使用的套件之一。
網頁元素取得神器，使用css的選擇器選取元素，只要會css的選法，就能快速找到想要的元素
```javascript
$('選擇器')
```
PyQuery 使用類似 jQuery的方式取得資料
```python
html('選擇器')
```

## 選擇器基礎語法

- 選取類別：使用 **英文句點+類別名稱** 

例如： **.green**

- 選取具有某類別的標籤 **標籤名稱+英文句點+類別名稱** 

例如： **span.green**


In [3]:
elements = html(".green")

elements

[<span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>]

In [5]:
#selector = "span.green"
selector = ".green"
# 取得所有 class="green" 的 span 標籤
# 以 list 形式存入叫做 elements 的變數 
elements = html(".green")
elements

[<span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>, <span.green>]

In [6]:
elements[0].text

'Anna\nPavlovna Scherer'

In [7]:
# 取出第一個標籤的文字
text = elements[0]
print(text) # Anna Pavlovna Scherer

<Element span at 0x7cfc458>


In [11]:
# 若想看所有標籤的文字
for tag in elements:
    print(tag.text)

Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna
