个人Scrapy爬虫存档

Scrapy Selenium Gerapy

目前写了爬取javbus当日的高清磁力链，chrome为依赖，若本地无chrome，Selenium无法正常抓取ajax内容。

目录	备注
javScrapy	爬取javbus的项目
scrapyd	docer化scrapyd

scrapyd 用于爬虫守护进程，建议配合 gerapy 使用。

cd $项目文件夹
scrapy crawl javid  # 开始spider任务

# 开启新项目
scrapy startproject xxx
# 新建新的爬虫任务（模版文件）
scrapy genspider $任务名 $DOMAIN

# 若新开发了爬虫需要重新拉依赖
# cd javScrapy
# pip install pipreqs
# pipreqs .
# mv requirements.txt ../scrapyd
cd scrapyd
docker build -t .
docker compose up -d

若使用容器部署，需要在scrapyd目录中使用middleware.py替换项目文件中的对应文件。

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
javScrapy		javScrapy
scrapyd		scrapyd
.gitignore		.gitignore
README.md		README.md

Provide feedback