Skip to content

mrbruce516/scrapy

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 

Repository files navigation

个人Scrapy爬虫存档

Scrapy Selenium Gerapy


目前写了爬取javbus当日的高清磁力链,chrome为依赖,若本地无chrome,Selenium无法正常抓取ajax内容。

目录结构

目录 备注
javScrapy 爬取javbus的项目
scrapyd docer化scrapyd

scrapyd 用于爬虫守护进程,建议配合 gerapy 使用。

调试命令

cd $项目文件夹
scrapy crawl javid  # 开始spider任务

Scrapy常用命令

# 开启新项目
scrapy startproject xxx
# 新建新的爬虫任务(模版文件)
scrapy genspider $任务名 $DOMAIN

部署

# 若新开发了爬虫需要重新拉依赖
# cd javScrapy
# pip install pipreqs
# pipreqs .
# mv requirements.txt ../scrapyd
cd scrapyd
docker build -t .
docker compose up -d

若使用容器部署,需要在scrapyd目录中使用middleware.py替换项目文件中的对应文件。

About

个人scrapy合集

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published