## 前後端小知識
* JavaScript 主要有兩個功能：(1)產生網頁動畫效果，(2)跟外部伺服器要資料，再動態產生內容
* JSON 是一種資訊交換語言，後端可以把資料庫整成線上 JSON 格式，提供給前端做進一步的使用。前端要將 JSON 載入頁面，就要透過 XMLHttpRequest API (稱為 XHR)。XHR 是極好用的 JavaScript 物件，可讓網路請求透過 JavaScript 來檢索伺幅器的資源(例如圖片、文字、JSON，甚至 HTML 片段)，這樣不需載入整個頁面，就能更新小部分的內容，可讓網頁反應速度更快
* client side render 跟 server side render 最大的差別：
    - 對於後者，當你想要訪問文章列表這個頁面的時候，瀏覽器會送 request 到 server，然後經過 controller 與 model，最後把資料帶給 view。view 再回傳一份完整的 HTML 檔案（這個動作就叫做 render），而瀏覽器拿到之後，只要顯示出來就好。
    - 對於前者，是在執行期間「動態」去跟後端伺服器拿資料，再動態產生你看到的那些元素。而那些元素原本不存在 index.html 裡面，是我們後來自己用 jQuery append 上去的，所以檢視原始碼不會出現任何東西。
* MongoDB 是用 Key-value 的方式來儲存資料，長的跟 JSON 沒兩樣。值得注意的是 MongoDB 用的是所謂 BSON 而不是 JSON，每筆資料的 key 和 value 都是區分大小寫的。BSON 是 Binary JSON 的縮寫，就是拿 JSON 下去擴充，所以可以塞 Binary data 等 JSON 不能塞的東西


不同函式庫：
* Requests 庫：適合小規模、數據量小、爬取速度不敏感，爬取網頁
* Scrapy 庫：適合中規模、數據規模較大、爬取速度敏感，爬取系列網站
* 定製開發：適合大規模、搜索引擎級別、爬取速度關鍵，爬取全網
* API：有 Python API 的券商：[永豐](https://www.sinotrade.com.tw/ec/20191125/Main/index.aspx)、[元大](http://www.yuantafutures.com.tw/pages/static-pages/service_future/product1_7.aspx?Node=65af4d99-3e51-4d4d-8802-ad5d9178187e&Show=LIST)、[富果](https://developer.fugle.tw/realtime/document)
需另外透過 com 串接的券商：[群益](https://www.capital.com.tw/Service2/download/api.asp)、[凱基](https://www.kgifutures.com.tw/content/order04.html)

[requests 操作](https://www.youtube.com/watch?v=xJNyvI2E9Ec)
[BeautifulSoup 操作](https://www.youtube.com/watch?v=KHU4mPLqskA)
[股票消息面新聞擷取](https://www.youtube.com/watch?v=TesL4Xjl9R8)
[股票籌碼面資料擷取](https://www.youtube.com/watch?v=SBej3hKHkX4)
[股票基本面財報分析](https://www.youtube.com/watch?v=AMV8JqT6tuE)
[期貨盤後資訊擷取](https://www.youtube.com/watch?v=ilY1Iox6koM)
[其他範例](https://www.youtube.com/watch?v=7yBAp7IeE98)
[StockAI 數據抓取](https://www.youtube.com/watch?v=ZFvIfE3456E)1

## 爬蟲SOP
1. 真人實際操作網頁並了解頁面如何觸發產生內容
2. 判斷資料與架構是否分離：
    - 資料與架構一起：右鍵檢視網頁原始碼，如果資料在原始碼裡，說明資料與架構在同一個檔案。之後就直接用 BeautifulSoup 在 HTML 裡爬資料
    - 資料與架構分離：右鍵檢視網頁原始碼，如果資料不在原始碼裡，說明是分離的；或者，往下拖發現網頁動態載入，說明也是分離的。之後在第 4 步可先篩選 XHR，從中找尋 json 的 API。或用關鍵詞搜索。
3. 透過 Chrome 開發人員工具(快捷鍵 option + command + i)，側錄網路請求封包
4. 分析封包找出資料連結與傳送參數：（1）從 Network 標籤頁找出正確連結：挑選網頁關鍵字，逐一清查 Doc、XHR、JS、 WS 標籤頁中的 Preview、Response 標籤頁內容是否出現該關鍵字，可用 Ctrl+F 搜尋關鍵字；（2）並觀察 Headers 裡面的 Request URL、Request Method、Request Headers、Parameters 傳送參數
5. 連線測試：（1）簡易方式確認網站是否有反爬蟲機制：將 Request URL 以 Chrome 無痕視窗確認，確認網頁是否為空白、回首頁或回傳 404、403、503，以及 Get/Post 傳送方式；（2）使用網路封包發送工具 Postman 測試連結是否能取回資料：Request URL、Request Method、Request Headers、Body 等。「需要帳號密碼登陸」或「機器人驗證碼」或「未滿十八歲」的問題：先登入帳號密碼及驗證碼，然後找到 header 裡面的 cookie 等資料放入 headers 參數裡，只要瀏覽器可以看得到的內容技術上都可以爬
6. 撰寫爬蟲程式

## 呼叫方式
- GET：取得傳回來的全部資料。GET 傳送的參數稱為 Query String，類似明信片
- POST：新增資料，同時也取得返回結果。POST 傳送的參數稱為 Form Data，類似信封
- PUT：更新資料，同時也取得返回結果
- DELETE：刪除資料，同時也取得返回結果

## 資料類型
- HTML：一般網頁的格式。需使用 BeautifulSoup 解析
- JSON：一種簡易的資料表示格式，是樹狀結構。很容易解析
- XML：一種資料表示格式，樣子與網頁語法類似。需使用 BeautifulSoup 解析。現在網路傳輸的資料大多是 JSON 格式，比較少用 XML 了
- CSV：一種資料表示格式，以逗點區隔資料類型，一列存取一筆資料。使用 Pandas 分析，很容易解析
- Javascript：有時候資料不是直接以 json 格式傳輸，可能藏在 js 裡面，這時可以當成一般的文字處理進行解析
- TEXT：沒有特別格式的文字資料，例如大公司會自訂資料格式
- BINARY：圖片、影片或 pdf, excel, rar 檔案等。可以用 with open('xxx', 'wb') as f:f.write(res.content) 存檔

## 網頁反制爬蟲類型
* Content-Type：內容類型
* User-Agent：身分證
* Referer：血統
* Cookie：號碼牌
* Location：驗證資料換人處理
* Authorization
* 動態參數：虛擬繳費碼
* JavaScript：加密、混淆與Base64編碼
* 鎖 IP 限制連線次數
* 驗證碼
* 瀑布式網頁

## requests
requests.request(method, url, \*\*kwargs)

\*\*kwargs：控制訪問的參數，可選項，包括：
* params：字典或字節序列，作為參數增加到 url 中
* data：字典、字節序列或文件對象，作為 Requests 的內容
* json：JSON 格式的數據，作為 Requests 的內容。如果與 data 同時使用，則以 data 的資料為主
* headers：字典，HTTP 定製頭
* cookies：字典或 CookieJar，Request 中的 cookie
* auth：元組，支持 HTTP 認證功能
* files：字典類型，傳輸文件
* timeout：設定超時時間，單位為秒
* proxies：字典類型，設定訪問代理伺服器，可以增加登陸認證
* allow_redirects：True/False，默認為 True，重定向開關
* stream：True/False，默認為 True，獲取內容立即下載開關
* verify：True/False，默認為 True，認證 SSL 憑證開關。如果遇到 SSL 憑證過期，需要改為 False 關閉驗證才能抓取資料
* cert：本地 SSL 證書路徑

In [None]:
import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
import json
import re

In [None]:
url = 'https://stock-ai.com'
res = requests.get(url)

requests.get(url, stream=True, verify=False)

- verify=False：忽略SSL驗證
- stream=False：
get請求會把所有的資料請求下來，一個視訊1個G的話，會把1G的視訊下載到記憶體裡面，然後再進一步操作。
- stream=True：
get請求會先建立連線，而不會把content內容或text內容下載到記憶體裡，等開始對content操作的時候，get請求這個時候才開始下載資料。通常還可以這樣分一段一段寫入，這樣就可以友好地下載大檔案了，對於下載較大的視訊尤其管用。

In [None]:
import requests
url = ''
res = requests.get(url, stream=True)
with open('filename', 'wb') as fp:
    for item in res.iter_content(10240):
	    # 10240表示每次會寫入10240個位元組，即10KB
        fp.write(item)

In [None]:
# Response 對象的屬性
print(res.status_code) # 狀態碼，參考 https://developer.mozilla.org/zh-TW/docs/Web/HTTP/Status
print(res.encoding)    # 如果發現亂碼，需要設定編碼
print(res.apparent_encoding)
print(res.text)        # 取得內容 (以純文字型態讀取，會自動做編碼的轉換)
print(res.content)     # 取得內容 (原始型態，可讀取二進位資料)
print(res.json())      # 如果確定回傳的格式是 json，可以直接使用 res.json() 取得
print(res.headers)     # 列出 HTTP Response Headers

In [None]:
# 帳號密碼登入
url = 'http://teaching.bo-yuan.net/'
params = {'ex': 'login'}
data = {
    'ex[class]': '632ec67d1f521',
    'ex[username]': '03王珊珊',
    'ex[password]': 'd21d9a'
}
headers = {
    'Cookie': 'PHPSESSID=7i2qb0elvt28necul60045en79',
    'Referer': 'http://teaching.bo-yuan.net/'
}

res = requests.post(url, params = params, data = data, headers = headers)

In [None]:
# HTML 格式，前提：當網頁有 table，並且可以直接 get 獲取
url = 'https://tw.stock.yahoo.com/q/q?s=2330'
res = requests.get(url)
df = pd.read_html(res.text)
df[2]

In [None]:
# JSON 格式
url = 'https://production.api.coindesk.com/v2/price/values/BTC'
res = requests.get(url, params = {'start_date': 2021-8-15T12:47, 'end_date': 2021-10-15T12:47})

# 法一：
jd = json.loads(res.text)
df = pd.DataFrame(jd['data']['entries'])

# 法二：
jd = res.json()
df = pd.DataFrame(jd['data']['entries'])     # 可以用 res.get('data').get('entries') 避免錯誤？

In [None]:
# CSV 格式
from io import StringIO

url = 'https://www.twse.com/fund/BFI82U?response=csv'
res = requests.get(url)
res.encoding = 'utf-8'               # 如果發現亂碼，需要設定編碼
df = pd.read_csv(StringIO(res.text), header = [1])      # 如果想要直接解析字串，可以用 io.StringIO() 將字串轉成檔案串流
df

In [3]:
# Javascript 格式
import requests
import json

url = 'https://www.cwb.gov.tw/Data/js/TableData_36hr_County_C.js'
res = requests.get(url)
res = res.text.split("'10018':")[1].split(",\n    '10004':")[0]     # 針對回應處理
res = res.replace("\'", "\"")       # 把字串轉換成 json 字串(單引號改成雙引號)
jd = json.loads(res)                # 使用 json 把長得像 List 的字串轉回 List
print(jd[0]['Wx'])

晴時多雲


In [None]:
# BINARY 格式，例如圖片
import requests

image_url = ''
res = requests.get(image_url, stream = True)
if res.status_code == 200:
    with open('img1.jpg', 'wb') as f:
        f.write(res.content)

## BeautifulSoup
快速解析網頁 HTML 或 XML

In [None]:
soup = bs(res.text, 'html.parser')   # 分析 HTML 用 html.parser，分析 XML 用 lxml
tb = soup.select('table')[2]
df = pd.read_html(tb.prettify(), encoding = 'utf-8')
df[0]

In [None]:
# 進階用法範例
url = "https://www.cnyes.com/twstock/a_technical10.aspx"
res = requests.get(url)
soup = bs(res.text, "lxml")
payload = {
    'ctl00$ContentPlaceHolder1$D3': '2020-04-29',
    'ctl00$ContentPlaceHolder1$D1': 'TSE'
}

for ele in soup.select("input[type=hidden]"):
    if(ele['value'] != ""):
        payload[ele['name']] = ele['value']

res = requests.post(url, data = payload)
soup = bs(res.text, "lxml")
tb = soup.select("table")[0]
df = pd.read_html(tb.prettify(), encoding = 'utf8')
df[0]

In [None]:
# 進階用法範例，搭配正則表達式
import requests
import pandas as pd
from bs4 import BeautifulSoup as bs
import re, sys, time

stockid = 2330
year = 111
url = f"https://mops.twse.com.tw/mops/web/ajax_t05st01?firstin=1&TYPEK=sii&co_id={stockid}&year={year}"
url2 = "https://mops.twse.com.tw/mops/web/ajax_t05st01?firstin=1&step=2&" 

res = requests.get(url)
df0 = pd.read_html(res.text, header = 0)
df = df0[1]
df.drop(['Unnamed: 5'], axis = 1, inplace=True)
    
l = []
soup = bs(res.text, "lxml")
for ele in soup.select("input[type=button]"):
    params = re.findall("(\w+).value='(\w+)'", ele['onclick'])
    res = requests.get(url2, params = dict(params))
    soup = bs(res.text, "lxml")
    dec = soup.select("pre")[0]
    l.append(re.sub('\s+', '', dec.text))
    time.sleep(2)

df["詳細資料"] = pd.Series(l)
df

選擇器
* Html語法：<標籤 屬性>內文</標記>
* CSS語法：選擇器{屬性:值;屬性值:值;}  
* ID選擇器：#
* Class選擇器：.
* 通用選擇器：標籤
* 屬性選擇器：標籤[屬性] 或 標籤[屬性=值]，例如a[href] 或 input[type=button]
* 子選擇器：E>F
* 後代選擇器：E F
* 同層相鄰選擇器：E+F

In [None]:
html_sample = ''' 
<html> 
     <head>
         <title>iInfo資訊交流</title>
     </head>
     <body> 
         <h1 id="title">股票價格</h1>         
         <h3 id="header">台積電---即時價格</h3>
         <table>
             <tr>
                 <th>股票代號</th>
                 <th>名稱</th>
                 <th>開盤價</th>
                 <th>最高價</th>
                 <th>最低價</th>
                 <th>成交價</th>                   
             </tr>
             <tr>
                 <td>2330</td>
                 <td>台積電</td>
                 <td>250.5</td>
                 <td>250.5</td>
                 <td>246</td>
                 <td>246</td>
             </tr>
         </table>
         <div id='muse33' class="content">
         <p>台積電是台灣第一大半導體公司</p>
         </div>
         <input type="hidden" id="kk" name="kk" value="abcdefghijk1234567890" />
         <input onclick="document.t05st01_fm.seq_no.value='1';document.t05st01_fm.spoke_time.value='144433';document.t05st01_fm.spoke_date.value='20180103';document.t05st01_fm.co_id.value='3008';document.t05st01_fm.TYPEK.value='sii';" type="button" value="詳細資料"/>
         <a href="http://www.tsmc.com.tw/chinese/default.htm" class="qq">台積電官網</a>
         <a href="https://tw.stock.yahoo.com/q/q?s=2330" class="qq">Yahoo股市--台積電</a>
         <a href="https://goodinfo.tw/StockInfo/StockDetail.asp?STOCK_ID=2330" class="pp">Goodinfo--台積電</a>
         <img src="https://example.com/media/photo1.jpg" with="600" heigh="400" alt="第一張圖片">
         <img src="https://example.com/media/photo2.jpg" with="600" heigh="400" alt="第二張圖片">
         <img src="https://example.com/media/photo3.png" with="600" heigh="400" alt="第三張圖片">
     </body> 
</html>'''

In [None]:
soup = bs(html_sample, 'lxml')

print('ID選擇器範例：' + soup.select('#title')[0].text)
print('Class選擇器範例：' + soup.select('.content')[0].text.strip())
print('通用選擇器範例：' + soup.select('h1')[0].text)
print('屬性選擇器範例：' + soup.select('a[href]')[0]['href'])    # 可用 x.get('屬性名稱') 或 x['屬性名稱'] 取標籤屬性
print('屬性選擇器範例：' + soup.select('input[type=button]')[0]['value'])
print('子選擇器範例：' + soup.select('#muse33 > p')[0].text)
print('後代選擇器範例：' + soup.select('#muse33 p')[0].text)
print('同層相鄰選擇器範例：' + soup.select('input + a')[0].text)

for a in soup.select('a'):
    print(a.text, a['href'])

tb = soup.select('table')[0]
df = pd.read_html(tb.prettify(), encoding = 'utf8')
df[0]

In [None]:
print(soup.find(id = 'title').text.strip())
print(soup.find(None, class_ = 'content').text.strip())
print(soup.find('div', 'content').text.strip())         # 預設 class_ = 'content'
print(soup.find('h1').text)
print(soup.find('a', {'href': re.compile(r"stock", flags = re.I)})['href'])
print(soup.find('input', {'type': 'button'})['value'])

for a in soup.find_all('a', 'qq'):
    print(a.text, a['href'])
    
tds = soup.find_all('td')
for td in tds:
    print(td.text)
    
imgs = soup.find_all('img', {'src': re.compile('.*?\.jpg')})      # 搭配正則表達式
for img in imgs:
    print(img['alt'], img['src'])

## 爬蟲通用代碼框架

In [None]:
import requests

def get_html_text(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return '產生異常'
    
if __name__ == '__main__':
    url = 'https://www.opec.org/basket/basketDay.json'
    print(get_html_text(url))

## 正則表達式

In [None]:
import requests
import pandas as pd
from bs4 import BeautifulSoup as bs
import re, sys, time

stockid = 2330
year = 111
url = f"https://mops.twse.com.tw/mops/web/ajax_t05st01?firstin=1&TYPEK=sii&co_id={stockid}&year={year}"
url2 = "https://mops.twse.com.tw/mops/web/ajax_t05st01?firstin=1&step=2&" 

res = requests.get(url)
df0 = pd.read_html(res.text, header = 0)
df = df0[1]
df.drop(['Unnamed: 5'], axis = 1, inplace=True)
    
l = []
soup = bs(res.text, "lxml")
for ele in soup.select("input[type=button]"):
    params = re.findall("(\w+).value='(\w+)'", ele['onclick'])
    res2 = requests.get(url2, params = dict(params))
    soup2 = bs(res2.text, "lxml")
    dec = soup2.select("pre")[0]
    l.append(re.sub('\s+', '', dec.text))
    time.sleep(2)

df["詳細資料"] = pd.Series(l)
df

## selenium
1. 下載 [chromedriver](https://chromedriver.chromium.org/downloads)，並放到專案資料夾下面
2. 安裝 selenium：pip install selenium

In [None]:
from selenium.webdriver import Chrome
from pytube import Playlist
import time
import os

driver = Chrome('./chromedriver')
driver.get('https://www.youtube.com/view_all_playlists')
driver.find_element_by_id('indentifierID').send_key('lingchequ@gmail.com')
driver.find_element_by_id('indentifierNext').click()
time.sleep(1)
driver.find_element_by_class_name('whsOnd').send_keys('xxxxxxxxxxx')
driver.find.element_by_id('passwordNext').click()
time.sleep(5)

ps = driver.find_elements_by_class_name('vm-video-title-text')
for p in ps:
    category = p.text
    url = p.get('href')
    pl = Playlist(url, suppress_exception = True)
    dirname = 'youtube/' + category + '/'
    if not os.path.exists(dirname):
        os.mkdir(dirname)
    pl.download_all(dirname)