這是一個去爬 台灣證券交易所 的爬蟲,秉持著 open data 的理念,公開爬蟲公開資料最安心。
目前 API 好像壞了,待修理!
-
或來個 command line:
git clone https://github.com/Asoul/twse.git
抓完後,data
內就是所有資料囉
python crawl.py
- 先去
http://www.twse.com.tw/ch/trading/exchange/MI_INDEX/MI_INDEX.php
下載昨日全部資料 - 更改
getCurrentList.py
中的FILE_NAME
,FIRST_INDEX
, 和LAST_INDEX
python getCurrentList.py
後,就可以在stocknumber.csv
中看到昨天為止還存活的清單了,再接續用python crawl.py
抓。
- 爬蟲會連續抓到過去某一個月無資料就停止,所以可能有分段超過一個月的股票舊的就不會被抓到。
- 有時候爬蟲戳一些不常被搜尋的股票會戳不到東西,目前不知原因為何,目前解法是開 Sikuli 把那些戳不到的清單戳一遍。
- 資料每日下午會更新,可以
git pull
就好囉。
- 每個檔案的檔名
XXX.csv
,XXX
是股票編號 - 每個檔案中有數列,每列為一天交易的資訊
- 每列包含:交易日期、成交股數、成交金額、開盤價、最高價、最低價、收盤價、漲跌價差、成交筆數,共 9 欄。
- 符號說明: +表示漲、- 表示跌、X表示不比價
- 當日統計資訊含一般、零股、盤後定價、鉅額交易,不含拍賣、標購。
範例:104/02/13,7599922.0,528270219.0,69.35,69.65,69.35,69.45,0.45,1771.0
- 可以把分段超過一個月的股票也抓一抓
台灣證券交易所 http://www.twse.com.tw/
本人旨在為廣大投資人提供正確可靠之資訊及最好之服務,作為投資研究的參考依據,若因任何資料之不正確或疏漏所衍生之損害或損失,本人將不負法律責任。是否經由本網站使用下載或取得任何資料,應由您自行考量且自負風險,因任何資料之下載而導致您電腦系統之任何損壞或資料流失,您應負完全責任。
有 Bug 麻煩跟我說:azx754@gmail.com
最後更新時間:2015/03/03