Skip to content

SimonCqk/DouBanCrawls

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

DouBan Crawler Series

完成豆瓣读书/电影相关的爬取,使用了简单的多线程极大地提高了爬虫效率,更多信息待加入补充。

豆瓣图书爬虫 [Python 3.6.1]

爬取结果在Result_Book文件夹,可直接查看

实现功能:

  • 增加了简单的多线程爬取(concurrent.futures模块,线程池管理),极大地提高了爬虫效率。
  • 按标签名称进行相关图书信息的抓取,排序后存入本地excel,可自行进行进一步筛选,按Tag存取在不同的Sheet
  • 使用User Agent伪装成不同的浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封
豆瓣页面截图:

Page

运行时截图:

Running

Excel结果截图:

Excel

豆瓣电影爬虫

爬取结果在Result_Movie文件夹,可直接查看

实现功能:

  • 增加了简单的多线程爬取(threading模块,简单粗暴的多线程管理),极大地提高了爬虫效率。
  • 按标签名称进行相关电影信息的抓取,排序后存入本地excel,可自行进行进一步筛选,按Tag存取在不同的Sheet
  • 使用User Agent伪装成不同的浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封
豆瓣页面截图:

Page

运行时截图:

Running

Excel结果截图:

Excel

欢迎 Star / PR.

About

豆瓣内容爬取系列(读书/电影..)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages