Scrapy
Selenium
Gerapy
目前写了爬取javbus当日的高清磁力链,chrome为依赖,若本地无chrome,Selenium无法正常抓取ajax内容。
目录 | 备注 |
---|---|
javScrapy | 爬取javbus的项目 |
scrapyd | docer化scrapyd |
scrapyd 用于爬虫守护进程,建议配合 gerapy 使用。
cd $项目文件夹
scrapy crawl javid # 开始spider任务
# 开启新项目
scrapy startproject xxx
# 新建新的爬虫任务(模版文件)
scrapy genspider $任务名 $DOMAIN
# 若新开发了爬虫需要重新拉依赖
# cd javScrapy
# pip install pipreqs
# pipreqs .
# mv requirements.txt ../scrapyd
cd scrapyd
docker build -t .
docker compose up -d
若使用容器部署,需要在scrapyd目录中使用middleware.py替换项目文件中的对应文件。