# Python中階-爬蟲簡介


## 中正大學資管系 (20181021)

## 什麼是爬蟲?

+ 網站是一種靜態網頁(html)
+ 網站有資料庫但不提供 api 取得資料

以上情形，而你對某些網站的訊息感到興趣，所以你會用類似瀏覽器的方式去自動一個個爬取網站內容，我們稱之為爬蟲

## 基本環境

本教學使用 Python3，建議使用 Anaconda 安裝 Python，且版本最好是 3.5 以上。如果你使用 Anaconda 安裝的 Python 預設可能已經安裝相關的爬蟲套件，可以使用 `pip list` 來確認使否有安裝相關套件:

+ `requests`: 發送 HTTP 請求與回應，因此不推薦 `urlib` 模組
+ `requests_html`: 解析 `html` 內容與元素（Requests 同作者）
+ `BeautifulSoup 4`: 解析 `html` 內容
+ `lxml`: 簡單，但要先熟系 xpath 語法，也容易學


假使沒有安裝相關套件，請使用 pip 安裝。不過在安裝之前我們建議使用虛擬環境來區分不同專案的套件

## 虛擬環境設定

### Conda 建立虛擬環境 (Virtual Environment)

使用 `Anaconda` 來安裝 Python 的話會內建 conda 指令，可以使用 conda 來建立虛擬環境:

* 建立 virtual environment
```
c:\> conda create -n yourenvname python=x.x anaconda
```

* 列出所有 virtual environment
```
c:\> conda info -e
```

* 啟動 virtual environment
```
c:\> source activate yourenvname
```

* 停止 virtual environment
```
c:\> source deactivate
```

* 刪除 virtual environment
```
c:\> conda remove -n yourenvname --all
```

### Python 建立虛擬環境 (Virtual Environment)

如果使用自行安裝的 Python3.x 可以使用 Python 提供的指令來建立一個虛擬環境:


* 建立一個名稱為 `env` 虛擬環境
```
c:\> python -m vevn env
```

## 安裝套件

使用 pip 安裝套件 `pip install requests` 安裝成功之後。就能開始使用了。

試著 `import` 套件，接著試著爬 `http://example.com`

In [2]:
import requests
url = 'http://example.com/'
resp = requests.get(url)
print(resp)

<Response [200]>


In [None]:
# 回傳 200 代表成功。接著印出內容
resp.text

### 輸出內容有格式

In [20]:
import pprint
pp = pprint.PrettyPrinter(indent=4)
pp.pprint(resp.text)

## 使用 requests_html 解析 html 原始碼，[文件連結](https://html.python-requests.org)

In [6]:
from requests_html import HTML
html = HTML(html=resp.text)
post_entries = html.find('body div p')
post_entries[0].text

'This domain is established to be used for illustrative examples in documents. You may use this domain in examples without prior coordination or asking for permission.'

## 使用 BeautifulSoup 剖析 html 原始碼，[文件連結](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-beautiful-soup)

In [8]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(resp.text, 'lxml')
soup.select('body div p')[0].text

'This domain is established to be used for illustrative examples in documents. You may use this\n    domain in examples without prior coordination or asking for permission.'

## 結論

會發現不同的套件，原理其實是一樣的，只是封裝的方法有些許不同，因此可以根據你的喜好去選擇套件使用

### 嘗試挖取 cynes 的新聞文章

In [26]:
url = 'https://news.cnyes.com/news/id/4218190'
resp = requests.get(url)
soup = BeautifulSoup(resp.text, 'lxml')
soup.select('div[itemprop="articleBody"]')[0].text

'台股今 (15) 大跌 144 點，收在 9901 點，差 1 點就又失 9900 關卡，三大法人再度同步站在賣方，自營商賣超 5.74 億元，投信賣超 2.21 億元，外資及陸資賣超 195.54 億元，三大法人合計砍出 203.49 億元。\n值得留意的是，外資大砍元大台灣 50 (0050-TW) 高達 4.15 萬張、台積電 2.2 萬張，其中台積電已被外資連 7 賣，合計出脫超過 10 萬張，外資今天還重兵狙擊金融股，賣超前 10 名個股中，金融股就佔據了 6 檔，電子、金融權值股明顯成了外資賣超主要標的，慎防外資恐加速提款。\n外資現貨賣超 195 億，已經連 7 賣，期貨淨多單持續略增，淨多單水位升至 26506 口，外資連日逢低大幅低接台指期淨多單，但台指期週三即將結算，目前整體氣氛仍是偏空，要小心結算行情。\n外資今天買超前 10 名個股分別為：富邦 VIX 獲買超 19552 張、元大台灣 50 反 1 獲買超 15138 張、南亞科 7102 張、台航 3359 張、兆豐金 2703 張、華泰 2247 張、裕民 1595 張、GIS-KY 獲買超 1278 張、晶電 1179 張、華通 1153 張。\n外資賣超前 10 名個股分別為：元大台灣 50 遭砍 41514 張、台積電 22615 張、旺宏 17913 張、開發金 17306 張、群創 16145 張、新光金 13935 張、玉山金 13411 張、元大金 13316 張、第一金 12753 張、台新金 12333 張。\n投信買超前 10 名個股分別為：新興 1196 張、裕民 1010 張、中鴻 700 張、玉山金 642 張、華新科 524 張、華通 509 張、文曄 500 張、台表科 459 張、台達電 449 張、兆豐金 380 張。\n投信賣超前 10 名個股分別為：遠東新 4047 張、華泰 3392 張、中纖 1904 張、欣興 1541 張、達運 1107 張、台化 1093 張、開發金 1030 張、國喬 980 張、奇力新 901 張、中石化 750 張。\n自營商無論買賣超，都大舉操作權證，買超前 10 名個股分別為：元大台灣 50 反 1 獲買 48121 張、富邦 VIX 獲買 10362 張、滬深 2X 群益 7C 購 07 獲買 3036 張、華

## 練習

+ 使用 requests_html 試試抓出一樣的內容
+ 選擇你喜歡的套件抓取 `url = https://tw.entertainment.appledaily.com/realtime/20181016/1448564/` 的新聞文章內容

## 進階

如何抓取*八卦版文章*(告訴伺服器你已經滿 18 歲？)可[參考](http://largitdata.com/course/46/)

In [19]:
import urllib3
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning) # 關閉 ssl 驗證 https://www.jianshu.com/p/bc2ad1311331

payload = {
    'from':'/bbs/Gossiping/index.html',
    'yes':'yes'
}
r = requests.session()
res = r.post('https://www.ptt.cc/ask/over18', verify=False, data=payload)
res = r.get('https://www.ptt.cc/bbs/Gossiping/index.html', verify=False)

soup = BeautifulSoup(res.text, 'lxml')
for entry in soup.select('.r-ent'):
    print(entry.select('.date')[0].text, entry.select('.author')[0].text, entry.select('.title')[0].text)

10/17 bruce32439 
[問卦] 登入1500就算是大學長了嗎

10/17 catwalk456 
[新聞] 慶生趴變大根鬥毆　春風怒「沒在場，關我

10/17 Linama 
[新聞] 日媒：中告知日將放寬食品進口限制可望

10/17 sqe123456z 
[問卦] 手搖飲料可以帶進捷運站嗎？

10/17 Benbenyale 
[問卦] 人類為何不再登月了?

10/17 q10242 
[爆卦] Youtube修好了

10/17 g987669 
[新聞] Youtube大掛點 均已先恢復

10/17 xxxpoolixxx 
[問卦] 控制不了眼球該如何是好

10/17 fatman5566 
[問卦] 嗆法官智商低的 誰考得上

10/17 yuzukineko 
[問卦] 祭祀先祖要說什麼好

10/17 ptt987654321 
[ＦＢ] 朱學恒-當年政治受難者變對民眾提告代表

10/17 ru04ul4 
[ＦＢ] YouTube

10/17 xraymugen 
Re: [新聞] 母湯！美男路上酒醉 竟「性侵」汽車排氣

10/17 ufel1226 
[新聞] 三中案馬英九主導音檔曝光　馬辦嗆：透過

10/17 gilingking 
[問卦] Youtube是不是歧視工程師?

10/17 Sunerk 
Re: [新聞] 中成立對台小組：騙台媒轉載假新聞可領錢

10/17 INGNI 
[問卦] 米國工程師是不是找不到重開機按鈕?

10/17 askaleroux 
[新聞] 館長表態挺韓國瑜 嗆民進黨 做得比狗屎爛

10/17 wugucc029 
[問卦] 密學妹都被不讀不回怎麼解

10/17 danieloo 
Re: [問卦] 20年前的高雄台北差多少？

11/11 Kay731 
[公告] 八卦板板規(2017.11.11)

 9/30 RandyMarsh 
[公告] 政問罰則暫時提高至16個月

10/01 RandyMarsh 
[公告] 十月置底閒聊聊天文

10/14 YAKIOAO 
[協尋] 1071008晚間民權東路三段/龍江路口車禍

10/16 girl55665566 
[公告] 八卦板板規修訂案於GossipPicket討論中 



### 有其他方式直接告訴網站你滿 18?

In [18]:
url = 'https://www.ptt.cc/bbs/Gossiping/index.html'
resp = requests.get(url)
resp = requests.get(url, cookies={'over18': '1'})  # 一直向 server 回答滿 18 歲了 !
html = HTML(html=resp.text)
post_entries = html.find('div.r-ent')
for ent in post_entries:
    print(ent.find('div.date', first=True).text, ent.find('div.author', first=True).text, ent.find('div.title', first=True).text)

10/17 bruce32439 [問卦] 登入1500就算是大學長了嗎
10/17 catwalk456 [新聞] 慶生趴變大根鬥毆　春風怒「沒在場，關我
10/17 Linama [新聞] 日媒：中告知日將放寬食品進口限制可望
10/17 sqe123456z [問卦] 手搖飲料可以帶進捷運站嗎？
10/17 Benbenyale [問卦] 人類為何不再登月了?
10/17 q10242 [爆卦] Youtube修好了
10/17 g987669 [新聞] Youtube大掛點 均已先恢復
10/17 xxxpoolixxx [問卦] 控制不了眼球該如何是好
10/17 fatman5566 [問卦] 嗆法官智商低的 誰考得上
10/17 yuzukineko [問卦] 祭祀先祖要說什麼好
10/17 ptt987654321 [ＦＢ] 朱學恒-當年政治受難者變對民眾提告代表
10/17 ru04ul4 [ＦＢ] YouTube
10/17 xraymugen Re: [新聞] 母湯！美男路上酒醉 竟「性侵」汽車排氣
10/17 ufel1226 [新聞] 三中案馬英九主導音檔曝光　馬辦嗆：透過
10/17 gilingking [問卦] Youtube是不是歧視工程師?
10/17 Sunerk Re: [新聞] 中成立對台小組：騙台媒轉載假新聞可領錢
10/17 INGNI [問卦] 米國工程師是不是找不到重開機按鈕?
10/17 askaleroux [新聞] 館長表態挺韓國瑜 嗆民進黨 做得比狗屎爛
10/17 wugucc029 [問卦] 密學妹都被不讀不回怎麼解
10/17 danieloo Re: [問卦] 20年前的高雄台北差多少？
11/11 Kay731 [公告] 八卦板板規(2017.11.11)
9/30 RandyMarsh [公告] 政問罰則暫時提高至16個月
10/01 RandyMarsh [公告] 十月置底閒聊聊天文
10/14 YAKIOAO [協尋] 1071008晚間民權東路三段/龍江路口車禍
10/16 girl55665566 [公告] 八卦板板規修訂案於GossipPicket討論中
