Skip to content

使用多进程爬取并下载今日头条‘街角’图片,并保存至MongoDB

Notifications You must be signed in to change notification settings

al2ln44edr/spider_multiprocess_jinritoutiao_images

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 

Repository files navigation

spider_multiprocess_jinritoutiao_images

详细编码过程,参见:https://www.jianshu.com/p/268d04af20f0

1.爬取对象

今日头条(https://www.toutiao.com/),是一个综合性信息平台;

今日头条图片站(https://www.toutiao.com/ch/news_image/)提供海量的图片内容,用户可以通过输入框搜索的形式获得自己感兴趣的内容。

本文介绍的方法,用于爬取今日头条图片站‘街角’内容。

2.使用工具 & 知识点

  • JSON;
  • urllib;
  • MD5;
  • bs4;
  • pymongo;
  • 正则表达式;
  • lxml;
  • AJAX;
  • 进程池;

About

使用多进程爬取并下载今日头条‘街角’图片,并保存至MongoDB

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages