## 初學網路爬蟲的方式與建議

郭耀仁 | tony@kyosei.ai

## 大綱

- 關於我
- 網路爬蟲學習架構
- 一個 End-to-end 簡單範例
- 延伸閱讀

## 關於我

## 資料科學講師

- 台大資工系統訓練班資深講師（授課時數 2,000+ 小時）
- 資策會資料工程師養成班（Python、R）
- 中華電信學院（Python 資料科學、Python 機器學習）
- 華南銀行 Python 資料科學講師
- 玉山銀行 Python 資料科學講師
- 2017 資料科學年會講者 http://datasci.tw/tony/

## 喜歡撰寫資料科學相關文章

- 2.3k+ Likes at https://www.facebook.com/datainpoint/
- 1.6k+ Followers at https://medium.com/datainpoint
- https://www.datainpoint.com/
- 2017 iT 邦幫忙 Big Data 組冠軍 https://ithelp.ithome.com.tw/ironman/articles/1077

## 著作

- [進擊的資料科學](https://www.datainpoint.com/data-science-in-action/) @碁峰出版社
- [輕鬆學習 R 語言, 2nd Edition](https://www.datainpoint.com/r-essentials/) @碁峰出版社

## 喜歡長跑

- 3k PR: 10:01
- 5k PR: 17:35
- 10k PR: Around 37:00
- 21k PR: Around 79:40
- 42.195k PR 02:43:12

## 工作經歷

- Senior Data Analyst, [Coupang](https://www.coupang.com/)
- Senior Analytical Consultant, [SAS](https://www.sas.com/)
- Management Associate, [CTBC](https://www.ctbcbank.com/)
- Research Intern, [McKinsey & Company](https://www.mckinsey.com/)

## 學歷

- MBA@台大商研所
- BA@台大工商管理系

## 網路爬蟲學習架構

## 架構一覽

- 釐清網路爬蟲任務
- 學習網路爬蟲之前
- 相關的工具與方法
- 碰到困難如何解決

## 釐清網路爬蟲任務

- **請求資料**
- **解析資料**
- 資料清理
- 定期執行
- 資料儲存
- 資料分享

## 學習網路爬蟲之前

- Python 程式語言
- HTML/CSS 入門
- 暸解陣列與 JSON
- 暸解基礎的 HTTP 與資料庫
- 暸解基礎的命令列

## Python 程式語言

> 因應任務：請求資料、解析資料、資料清理、資料儲存、資料分享

## HTML/CSS 入門

> 因應任務：解析資料

<https://www.w3schools.com/>

## 暸解陣列與 JSON

> 因應任務：解析資料

<https://www.w3schools.com/>

## 暸解基礎的 HTTP 與資料庫

> 因應任務：請求資料、資料儲存

https://www.w3schools.com/

## 暸解基礎的命令列

> 因應任務：定期執行、資料分享

https://www.learnenough.com/command-line-tutorial/basics

## 相關的工具與方法

- Chrome 開發者工具、瀏覽器外掛
- Python 模組套件

## Chrome 開發者工具

<https://developers.google.com/web/tools/chrome-devtools/?hl=zh-tw>

## Chrome 瀏覽器外掛

- [Quick Javascript Switcher](https://chrome.google.com/webstore/detail/quick-javascript-switcher/geddoclleiomckbhadiaipdggiiccfje)：關閉 JavaScript 功能
- [JSONView](https://chrome.google.com/webstore/detail/jsonview/chklaanhfefbnpoihckbnefhakgolnmc)：讓 JSON 資料在瀏覽器上呈現得比較漂亮
- [SelectorGadget](https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb)：協助 CSS Selector 定位
- [XPath Helper](https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl)：協助 XPath 定位
- [EditThisCookie](https://chrome.google.com/webstore/detail/editthiscookie/fngmhnnpilhplaeedifhccceomclgfbg)：觀察網站的 cookies 參數

## Python 模組套件

- 請求資料：`requests`、`selenium`, `urllib`
- 解析資料：`BeautifulSoup4`、`PyQuery`
- 資料清理：`NumPy`、`Pandas`、`re`
- 資料儲存：`json`、`sqlite3`、`Pandas`
- 資料分享：`flask`、`gunicorn`

## 碰到困難如何解決

- 80/20 法則
- 以英文下關鍵字搜尋
- 學習社群
- 導師

## 花費 80% 的精力學習 20% 的主題，以 Python 程式設計為例

- 資料型態留意 `str`
- 資料結構留意 `list` 與 `dict`
- 技巧留意 `list comprehension` 與 `generator`
- Standard Library 留意 `json`, `re` 與 `urllib`
- ...etc.

## 花費 80% 的精力學習 20% 的主題，以 HTML/CSS 入門為例

- 留意標記的樹狀結構
- 留意 DOM
- 留意 id 與 class
- 留意 CSS Selector
- 留意 XPath
- ...etc.

## 一個 End-to-end 簡單範例

## 想要讓這本書的選股指標自動化

[財務自由的世界：財務分析就是一場投資的戰爭](https://www.books.com.tw/products/0010562279)

## 盤點六個任務

- 請求資料
- 解析資料
- 資料清理
- 資料儲存
- 定期執行
- 資料分享

## 請求資料

- <https://tw.stock.yahoo.com/d/i/rank.php?t=pri&e=tse&n=100>
- <https://tw.stock.yahoo.com/d/i/rank.php?t=pri&e=otc&n=100>

In [None]:
import requests

page_url = "https://tw.stock.yahoo.com/d/i/rank.php?t=pri&e=tse&n=100"
r = requests.get(page_url)
print(r.text)

## 解析資料

使用 `BeautifulSoup`

In [None]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(r.text, 'html.parser')

## 資料清理

- 處理文字
- 處理 `list`
- 使用 `pandas` 處理表格

In [None]:
import datetime
import requests
from bs4 import BeautifulSoup
import pandas as pd

def get_price_ranks():
    current_dt = datetime.datetime.now().strftime("%Y-%m-%d %X")
    current_dts = [current_dt for _ in range(200)]
    stock_types = ["tse", "otc"]
    price_rank_urls = ["https://tw.stock.yahoo.com/d/i/rank.php?t=pri&e={}&n=100".format(st) for st in stock_types]
    tickers = []
    stocks = []
    prices = []
    volumes = []
    mkt_values = []
    ttl_steps = 10*100
    each_step = 10
    for pr_url in price_rank_urls:
        r = requests.get(pr_url)
        soup = BeautifulSoup(r.text, 'html.parser')
        ticker = [i.text.split()[0] for i in soup.select(".name a")]
        tickers += ticker
        stock = [i.text.split()[1] for i in soup.select(".name a")]
        stocks += stock
        price = [float(soup.find_all("td")[2].find_all("td")[i].text) for i in range(5, 5+ttl_steps, each_step)]
        prices += price
        volume = [int(soup.find_all("td")[2].find_all("td")[i].text.replace(",", "")) for i in range(11, 11+ttl_steps, each_step)]
        volumes += volume
        mkt_value = [float(soup.find_all("td")[2].find_all("td")[i].text)*100000000 for i in range(12, 12+ttl_steps, each_step)]
        mkt_values += mkt_value
    types = ["上市" for _ in range(100)] + ["上櫃" for _ in range(100)]
    ky_registered = [True if "KY" in st else False for st in stocks]
    df = pd.DataFrame()
    df["scrapingTime"] = current_dts
    df["type"] = types
    df["kyRegistered"] = ky_registered
    df["ticker"] = tickers
    df["stock"] = stocks
    df["price"] = prices
    df["volume"] = volumes
    df["mktValue"] = mkt_values
    return df

In [None]:
price_ranks = get_price_ranks()
price_ranks.head()

## 資料儲存

## 增加寫入資料庫的程式碼

<https://gist.github.com/yaojenkuo/7e744c1ffb845ceded0ef856d02865fd>

In [None]:
import sqlite3
import pandas as pd

conn = sqlite3.connect('/home/ubuntu/yahoo_stock.db')
price_ranks.to_sql("price_ranks", conn, if_exists="append", index=False)

## 定期執行

- 創建一個 AWS EC2
- 安裝 Miniconda
- 設定 crontab

## 創建一個 AWS EC2

![Imgur](https://i.imgur.com/LlIU8nd.png)

## 安裝 Miniconda

```bash
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
```

## 設定 crontab

```bash
*/30 * * * * /home/ubuntu/miniconda3/bin/python /home/ubuntu/price_rank_scraper.py
```

## 資料分享

## 採用 `flask` + `gunicorn` + `nginx` 架構

- `flask`: 網站框架
- `gunicorn`: Web Server Gateway Interface
- `nginx`: 網站伺服器

## 安裝 `flask`、`gunicorn` 與 `nginx`

```bash
sudo apt-get update
sudo apt-get install nginx
pip install flask gunicorn
```

## 利用 `flask` 創建 Web API

<https://gist.github.com/yaojenkuo/b968fe2374dd880bffdfaba9fa68935d>

## 設定 `nginx`

```bash
sudo rm /etc/nginx/sites-enabled/default
sudo vim /etc/nginx/sites-available/price-rank.com
```

```
# /etc/nginx/sites-available/price-rank.com
server {
	listen 80;

	location / {
		proxy_pass http://127.0.0.1:8000/;
	}
}
```

```bash
sudo ln -s /etc/nginx/sites-available/price-rank.com /etc/nginx/sites-enabled/price-rank.com
sudo service nginx restart
```

## 以 gunicorn 背景模式啟動 flask API

```bash
gunicorn api:app --daemon
```

## 前往 EC2 的 Public IP 檢視成果，大功告成

## 延伸閱讀

[Python 與網頁資料擷取](https://medium.com/datainpoint/web-scraping-with-python/home)