我的爬虫练习
爬取豆瓣读书。只爬取了每个标签类别的首页的图书信息,若稍加修改,可以爬取任意页数的信息。
爬取每个热门标签下的书籍基本信息,存储到MySQL中。因为有些数据的格式不符合要求,实际爬取数量为60000+。稍作修改,可以拓展功能,或者做些其他有趣的事情。
上一个爬虫的全面升级。只爬取“编程”标签下的书籍,但这次爬取了书籍详情页面和书籍图片,并且使用了多线程,速度提高很多。
另外,在尝试用wxPython做一个图形化的书籍检索页面,更好地利用爬取成果。目前只做了最简单的实现。
保存指定URL的页面到本地。
爬取糗事百科的内容,输出到命令行。主要参考http://cuiqingcai.com/990.html ,略作修改。
爬取某个代理页面的信息,输出到控制台。