基于scrapy框架的闲鱼二手网站信息抓取

功能

全站爬虫
支持mongodb数据库的写入
自动更换用户代理
根据请求频率自动限速

环境要求

Python 3.0+
Scrapy 1.3+

我的开发环境

Anaconda 1.6.5
scrapy 1.3.3

安装步骤

git clone https://github.com/xiaofang-git/xianyu.git #克隆项目到本地
cd ershou # 进入项目文件
scrapy list # 查看是否存在xinyu的spider
pip install fake_useragent pymongo # 安装除了scrapy之外还需要的第三方库文件

fake_useragent =>实现自动更换用户代理
pymongo => 链接数据库

fake_useragent使用过程中或许会出现报错的情况，但是不会导致程序退出

scrapy crawl xianyu#启动爬虫文件就可以在命令行中查看抓取到的数据

修改配置

常规设置请参考scrapy文档修改setting文件
程序已经实现了mongo数据库的写入功能，请修改setting文件中pipline的设置。将ershou.pipelines.ErshouPipeline注释掉，而将ershou.pipelines.ErshouPipeline取消注释

ITEM_PIPELINES = { 'ershou.pipelines.ErshouPipeline': 300, #'ershou.pipelines.WriteMongo': 3 }

联系方式

fang.1995@outlook.com

Name		Name	Last commit message	Last commit date
Latest commit History 22 Commits
ershou		ershou
.gitignore		.gitignore
License		License
README.md		README.md
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ershou

ershou

.gitignore

.gitignore

License

License

README.md

README.md

scrapy.cfg

scrapy.cfg

Repository files navigation

基于scrapy框架的闲鱼二手网站信息抓取

功能

环境要求

我的开发环境

安装步骤

修改配置

联系方式

About

Releases

Packages

Languages

License

ahlfors/xianyu-1

Folders and files

Latest commit

History

Repository files navigation

基于scrapy框架的闲鱼二手网站信息抓取

功能

环境要求

我的开发环境

安装步骤

修改配置

联系方式

About

Resources

License

Stars

Watchers

Forks

Languages