相关代码已经修改调试成功----2017-4-21

2017-5-7更新：加入数据收集和信号量，比如404url的记录捕获等。

2017-5-6更新：在scrapy中集成了selenium中的chrome（可以动态的抓取，虽然本项目其实用不到，但是可以借鉴到一些需要js加载才能抓取的项目中）

一、说明

1.目标网址：伯乐在线

2.实现：如图字段的爬取

3.数据：存放在百度网盘，有需要的可以拿取链接：http://pan.baidu.com/s/1nvdnzpZ 密码：2j9l

二、运行

运行我就不多说了，直接运行main.py就好了，相关的参数变一下就好了。有点基础的应该都会。

三、学习笔记

本项目爬取伯乐在线的全部文章，主要是记录几个常用的模版可以反复使用

loader机制和item处理

异步存入数据库模版

爬取图片存放目录记录

main.py的模版

md5加密函数

scrapy框架中自动下载图片

四、问题----欢迎留言提出问题

1.暂时没有很大的问题解决不了，后期如果遇到再贴出来

五、调试中遇到的问题记录

1.TypeError：'Failure' object is not subscriptable

如图：

解决方法：添加一个try，except，因为有些图片加载不出来

2.pymysql.err.InterfaceError: (0, '')

那是因为scrapy异步的存储的原因，太快。

解决方法：只要放慢爬取速度就能解决，setting.py中设置 DOWNLOAD_DELAY = 2

如果本项目对你有用请给我一颗star，万分感谢。

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
bole		bole
README.md		README.md
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

相关代码已经修改调试成功----2017-4-21

一、说明

二、运行

三、学习笔记

四、问题----欢迎留言提出问题

五、调试中遇到的问题记录

About

Releases

Packages

Languages

pujinxiao/jobbole_spider

Folders and files

Latest commit

History

Repository files navigation

相关代码已经修改调试成功----2017-4-21

一、说明

二、运行

三、学习笔记

四、问题----欢迎留言提出问题

五、调试中遇到的问题记录

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages