Cupoy 1st-PyCrawler Marathon
介紹幾本的網路溝通原理和資料來源與格式,搭配程式自動化的收集資料
- 資料來源與檔案存取
介紹常見的資料提供管道與資料取得方式,並且利用 Python 進行存取
- 實作:Python 下載CSV檔案與解析
示範存取、解析一個 CSV 格式的檔案
- 實作:Python 下載XML檔案與解析
示範存取、解析一個 XML 格式的檔案
- HTTP Server-Client 架構說明與利用 Python 存取 API
淺談 HTTP 網站架構與運作方式,如何利用 Python 程式存取來自 HTTP API 的資源
- 實作 Day:API 資料串接 - 基本 API + JSON
示範存取、解析一個 JSON 格式的 API 資源
- 實作 Day:API 資料串接 - Headers
如何在 API 存取中加上標頭檔
拆解靜態網頁的原理,解析並收集資料
- HTTP 靜態網頁架構說明與淺談HTML / CSS / JavaScript
淺談 HTTP 網站架構與運作方式與 網頁基礎結構:HTML、CSS、JavaScript
- 靜態網頁的資料爬蟲策略
解析靜態網站的運算方式與爬蟲的實作策略
- 圖片下載
了解除了文字以外的圖片爬蟲技術
- PyQuery/grab
介紹更多的資料爬蟲工具
- Regular expression
學習利用正規表達式,過濾及擷取資料
- 實作 Day:ETTODAY 靜態爬蟲實作練習
以 ETTODAY 為例示範如何完成網頁爬蟲
- 實作 Day:PTT(批踢踢)網路爬蟲實作練習
以 PTT 為例示範如何完成網頁爬蟲
- 實作 Day:Yahoo! 電影網頁爬蟲實作練習
以YAHOO電影為例示範如何爬取電影資訊
- 實作 Day:金融資訊網頁爬蟲實作練習
以台銀網站為例示範如何爬取資訊並整理資料
- 實作 Day:Wiki的爬蟲實作練習
練習爬取Wikipedia的資料
了解動態網頁的原理,模擬資料取得過程
- HTTP 動態網頁架構說明與非同步取得資料
解析動態網站的運算方式與爬蟲的實作策略
- 瀏覽器開發者工具介紹
介紹瀏覽器開發工具
- 動態網頁爬蟲 - 使用Selenium + BeautifulSoup 模擬瀏覽器執行
示範如何使用瀏覽器模擬工具實作動態網頁爬蟲
- 動態網頁爬蟲 - 利用開發者工具,觀察模擬 API 存取
示範如何使用瀏覽器開發工具實作動態網頁爬蟲
- 實作 Day:ETTODAY 動態爬蟲實作練習
以 ETTODAY 為例示範如何完成網頁爬蟲
- 實作 Day:空氣污染網站爬蟲實作練習
以 空氣污染網站 為例示範如何完成網頁爬蟲
- 實作 Day:東森新聞雲網站爬蟲實作練習
以東森新聞為例示範如何完成網頁爬蟲
- 實作 Day:104人力銀行網站爬蟲實作練習
以104人力銀行網站為例示範如何完成網頁爬蟲
透過框架以專案角度學習非同步爬蟲
- 多網頁爬蟲實作策略介紹
大量爬蟲的起點: 多網頁 / 多網站爬蟲策略
- Scrapy 爬蟲流程 (1) - 建立流程 + 送出請求
建立專案與請求
- Scrapy 爬蟲流程 (2) - XPath + Item Pipeline
處理資料的 pipeline
- Scrapy 爬蟲流程 (3) - API
由外部呼叫框架爬蟲
- Scrapy 爬蟲流程 (4) - 多網頁爬蟲
以 PTT 為例實作框架多網頁爬蟲
如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
- 爬蟲可能會遇到的問題
說明實務的爬蟲程式可能會面臨的幾種情況與挑戰
- 反爬:瀏覽器標頭與基本資訊
利用HTTP 的標頭檔的設定 處理反爬蟲機制
- 反爬:驗證碼處理
利用視覺辨識的工具處理網頁中的驗證碼
- 反爬:登入授權模擬
利用 Cookie 來模仿網站中的登入行為
- 反爬:代理 IP
利用代理伺服器來解決 IP 被禁止使用的狀況
- 加速:多線程爬蟲
利用多線程 加速爬蟲的執行時間
- 加速:非同步爬蟲
利用非同步加速爬蟲的執行時間
- 自動化更新機制(排程)
利用排程自動化爬蟲更新資料的操作