Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
doubanBook		doubanBook
getWebpage		getWebpage
proxyInfo		proxyInfo
qiushibaike		qiushibaike
README.md		README.md

Repository files navigation

myCrawler

我的爬虫练习

doubanBook

爬取豆瓣读书。只爬取了每个标签类别的首页的图书信息，若稍加修改，可以爬取任意页数的信息。

bookCrawler2

爬取每个热门标签下的书籍基本信息，存储到MySQL中。因为有些数据的格式不符合要求，实际爬取数量为60000+。稍作修改，可以拓展功能，或者做些其他有趣的事情。

bookCrawler3

上一个爬虫的全面升级。只爬取“编程”标签下的书籍，但这次爬取了书籍详情页面和书籍图片，并且使用了多线程，速度提高很多。

bookSearch

另外，在尝试用wxPython做一个图形化的书籍检索页面，更好地利用爬取成果。目前只做了最简单的实现。

getWebpage

保存指定URL的页面到本地。

qiushibaike

爬取糗事百科的内容，输出到命令行。主要参考http://cuiqingcai.com/990.html ，略作修改。

proxyInfo

爬取某个代理页面的信息，输出到控制台。

About

我的爬虫练习

Report repository

Releases

No releases published

Packages

No packages published

Languages

HTML 78.2%
Python 21.8%