2026-03-08: 改為隔天scrape;以後會每個單數日晚上scrape
簡單陳述個人daily scrape workflow
首先是sync 個人repo和upstream repo ,確保local repo沒有任何commits behind upstream repo: 因為 content_scraper/daemon.py 如果遇到local repo有任何 behind upstream repo的commits,會強行覆蓋local repo所有changes。
然後是run $ python url_scraper/main.py 。
之後我多數會手動編輯一些「過度取樣」的新聞來源,例如mingpao和hkej,移去相關性低的新聞。
之後run $ python content_scraper/daemon.py --once 。
最後有需要時手動 pull request upstream repo 。
