Skip to content

Meadowlu/myCrawler

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

myCrawler

我的爬虫练习

doubanBook

爬取豆瓣读书。只爬取了每个标签类别的首页的图书信息,若稍加修改,可以爬取任意页数的信息。

bookCrawler2

爬取每个热门标签下的书籍基本信息,存储到MySQL中。因为有些数据的格式不符合要求,实际爬取数量为60000+。稍作修改,可以拓展功能,或者做些其他有趣的事情。

bookCrawler3

上一个爬虫的全面升级。只爬取“编程”标签下的书籍,但这次爬取了书籍详情页面和书籍图片,并且使用了多线程,速度提高很多。

bookSearch

另外,在尝试用wxPython做一个图形化的书籍检索页面,更好地利用爬取成果。目前只做了最简单的实现。

getWebpage

保存指定URL的页面到本地。

qiushibaike

爬取糗事百科的内容,输出到命令行。主要参考http://cuiqingcai.com/990.html ,略作修改。

proxyInfo

爬取某个代理页面的信息,输出到控制台。

About

我的爬虫练习

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • HTML 78.2%
  • Python 21.8%