Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
.gitattributes		.gitattributes
analysisJson.py		analysisJson.py
crawlJD.py		crawlJD.py
goodProxy.list		goodProxy.list
proxy.py		proxy.py
readme.md		readme.md
seleniumChrome.py		seleniumChrome.py
tosmall.py		tosmall.py

Repository files navigation

京东爬虫

这不是工程项目只是个人所需生猛硬糙地写了个爬虫所有内容仅为了方便日后个人查阅与理解

爬的内容：

milk drink paper noodle 4大类目的销量排行榜前300SKU的详细信息并自动生成xlsx
下载每个SKU京东提供所有的图片
下载每个SKU前20张买家秀图片

使用技术

自动缓存
selenium 操纵浏览器 or PhantomJS
免费代理池
多线程加快速度

使用

先下载并运行代理池
运行crawlJD.py 及其他

可复用部分

异常类的父类(.__base__)来统一except 再 retry
proxy.py 中可用代理池(goodList) 及守护线程(pushGoodWhile)对其的维护
cache 设计
多线程 mapmt 的使用
see(html) 函数将html保存到/tmp 并自动用浏览器打开来可视化(网页为gbk 的话则乱码)

心得

requests.get(url) 的 .content 要考虑编码问题而 .text 则自动转换为了 unicode
爬虫更好的设计模式应该是 callback 型, 不过架构得完全重新设计

About

No description or website provided.

crawler jingdong

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%