Skip to content
百度云网盘搜索引擎,包含爬虫 & 网站
Branch: master
Clone or download
Latest commit 3586990 Jun 17, 2019
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
api Support /share/link?uk&shareid url format Jun 7, 2019
screenshot Add readme May 13, 2019
spider Support multi files Jun 17, 2019
tests add scrapy Apr 25, 2019
utils Add rest api May 7, 2019
web/admin Fix刷新列表时,Dialog闪屏 May 12, 2019
.gitignore v2 init Apr 25, 2019
README.md Update README.md Jun 15, 2019
__init__.py add scrapy Apr 25, 2019
requirements.txt Flask serve react app May 12, 2019
scrapy.cfg add scrapy Apr 25, 2019

README.md

BaiduyunSpider

分布式百度网盘爬虫,使用当前最流行的技术框架。适合个人学习以及二次开发。

爬虫基于 Scrapy,灵活简单、易扩展,方便二次开发。使用 Scrapy-Redis 作为分布式中间件,可同时部署多个爬虫实例,以提升采集效率。Web后台管理基于ReactMaterial Design 设计风格。

依赖

  • MongoDB
  • Python3
  • Redis
  • Node.js > 8.0 (可选)

安装

pip install -r requirements.txt

如何使用

1.运行爬虫

scrapy crawl baidupan

2.运行Web Service

cd api
python rest.py

3.开始采集

开源版目前需要通过后台管理界面,手动提交待采集的分享链接。或者使用API方式:

POST http://localhost:5000/addUrl
表单参数: url

curl 例子

curl -X POST http://localhost:5000/addUrl \
  -F url=https://pan.baidu.com/s/17BtXyO-i02gsC7h4QsKexg

运行截图

爬虫运行截图 crawl

后台管理界面 admin

You can’t perform that action at this time.