17 June 2022. Update: 2022/06/17.
-
requests
-
bs4
-
fake_useragent
- 爬取各大平台餐飲資料,並存成所需欄位,最終進行資料分析。
- pttcrawler: 透過 requests 與 bs4 抓取資料,並可自行設定關鍵字與頁數。
- dcardcrawler: 透過 Dcard API 中搜尋關鍵字的語法抓取特定資料,另特別使用 fake_useragent 避免被擋爬。
- googlecrawler: 透過 requests 爬取 google 地圖的評論資料,且需在事前將須爬取店家的 requests 存成另一個檔案,此外,也特別使用 fake_useragent 避免被擋爬。
補充:店家 requests 的查找方式
1.選擇一個商家資訊網址
2.打開開發者工具 > Network > XHR。
3.重新整理,讓工具抓到新讀取的資料。
4.找到重複的連結(listentitiesreviews….)。
- sampleapi: 透過將爬取到的資料存至 phpmyadmin,再利用 SQL 語法與 HTTP Get 做簡易串接,最終在 swagger 中呈現。(目前由於 swagger 服務問題尚無法呈現在 swagger,只能在 postman 呈現)