第一屆Python網路爬蟲實戰馬拉松

Cupoy 1st-PyCrawler Marathon

1. 爬蟲基礎知識

介紹幾本的網路溝通原理和資料來源與格式，搭配程式自動化的收集資料

資料來源與檔案存取 介紹常見的資料提供管道與資料取得方式，並且利用 Python 進行存取
實作：Python 下載CSV檔案與解析 示範存取、解析一個 CSV 格式的檔案
實作：Python 下載XML檔案與解析 示範存取、解析一個 XML 格式的檔案
HTTP Server-Client 架構說明與利用 Python 存取 API 淺談 HTTP 網站架構與運作方式，如何利用 Python 程式存取來自 HTTP API 的資源
實作 Day：API 資料串接 - 基本 API + JSON 示範存取、解析一個 JSON 格式的 API 資源
實作 Day：API 資料串接 - Headers 如何在 API 存取中加上標頭檔

2. 靜態網頁爬蟲技術

拆解靜態網頁的原理，解析並收集資料

HTTP 靜態網頁架構說明與淺談HTML / CSS / JavaScript 淺談 HTTP 網站架構與運作方式與網頁基礎結構：HTML、CSS、JavaScript
靜態網頁的資料爬蟲策略 解析靜態網站的運算方式與爬蟲的實作策略
圖片下載 了解除了文字以外的圖片爬蟲技術
PyQuery/grab 介紹更多的資料爬蟲工具
Regular expression 學習利用正規表達式，過濾及擷取資料
實作 Day：ETTODAY 靜態爬蟲實作練習 以 ETTODAY 為例示範如何完成網頁爬蟲
實作 Day：PTT(批踢踢)網路爬蟲實作練習 以 PTT 為例示範如何完成網頁爬蟲
實作 Day：Yahoo! 電影網頁爬蟲實作練習 以YAHOO電影為例示範如何爬取電影資訊
實作 Day：金融資訊網頁爬蟲實作練習 以台銀網站為例示範如何爬取資訊並整理資料
實作 Day：Wiki的爬蟲實作練習 練習爬取Wikipedia的資料

3. 動態網頁爬蟲技術

了解動態網頁的原理，模擬資料取得過程

HTTP 動態網頁架構說明與非同步取得資料 解析動態網站的運算方式與爬蟲的實作策略
瀏覽器開發者工具介紹 介紹瀏覽器開發工具
動態網頁爬蟲 - 使用Selenium + BeautifulSoup 模擬瀏覽器執行 示範如何使用瀏覽器模擬工具實作動態網頁爬蟲
動態網頁爬蟲 - 利用開發者工具，觀察模擬 API 存取 示範如何使用瀏覽器開發工具實作動態網頁爬蟲
實作 Day：ETTODAY 動態爬蟲實作練習 以 ETTODAY 為例示範如何完成網頁爬蟲
實作 Day：空氣污染網站爬蟲實作練習 以空氣污染網站為例示範如何完成網頁爬蟲
實作 Day：東森新聞雲網站爬蟲實作練習 以東森新聞為例示範如何完成網頁爬蟲
實作 Day：104人力銀行網站爬蟲實作練習 以104人力銀行網站為例示範如何完成網頁爬蟲

4. Scrapy 網站爬蟲框架

透過框架以專案角度學習非同步爬蟲

多網頁爬蟲實作策略介紹 大量爬蟲的起點: 多網頁 / 多網站爬蟲策略
Scrapy 爬蟲流程 (1) - 建立流程 + 送出請求 建立專案與請求
Scrapy 爬蟲流程 (2) - XPath + Item Pipeline 處理資料的 pipeline
Scrapy 爬蟲流程 (3) - API 由外部呼叫框架爬蟲
Scrapy 爬蟲流程 (4) - 多網頁爬蟲 以 PTT 為例實作框架多網頁爬蟲

5. 進階爬蟲技術

如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧

爬蟲可能會遇到的問題 說明實務的爬蟲程式可能會面臨的幾種情況與挑戰
反爬：瀏覽器標頭與基本資訊 利用HTTP 的標頭檔的設定處理反爬蟲機制
反爬：驗證碼處理 利用視覺辨識的工具處理網頁中的驗證碼
反爬：登入授權模擬 利用 Cookie 來模仿網站中的登入行為
反爬：代理 IP 利用代理伺服器來解決 IP 被禁止使用的狀況
加速：多線程爬蟲 利用多線程加速爬蟲的執行時間
加速：非同步爬蟲 利用非同步加速爬蟲的執行時間
自動化更新機制(排程) 利用排程自動化爬蟲更新資料的操作

Name		Name	Last commit message	Last commit date
Latest commit History 50 Commits
homework		homework
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

homework

homework

README.md

README.md

Repository files navigation

第一屆Python網路爬蟲實戰馬拉松

1. 爬蟲基礎知識

2. 靜態網頁爬蟲技術

3. 動態網頁爬蟲技術

4. Scrapy 網站爬蟲框架

5. 進階爬蟲技術

About

Releases

Packages

Languages

PrestonYU/WebCrawling-with-Python-Marathon-Challenge

Folders and files

Latest commit

History

homework

homework

README.md

README.md

Repository files navigation

第一屆Python網路爬蟲實戰馬拉松

1. 爬蟲基礎知識

2. 靜態網頁爬蟲技術

3. 動態網頁爬蟲技術

4. Scrapy 網站爬蟲框架

5. 進階爬蟲技術

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages