通过scrapy
框架实现对简书的全部文章爬取,爬虫模版为crawl
模版
初始 url 为简书首页,提取文章详情页面推荐阅读
模块的文章链接,实现对未在首页的文章爬取,因每篇文章都有推荐阅读模块,从而实现对所有文章的连接
爬取内容为文章标题、文章内容、文章作者、阅读数、发布时间和钻的数量
爬取结果存储在Mysql数据库
中,存储方式有异步(Twisted)
和非异步
两种方式,异步数据量大时采用,scrapy爬取的速度大于数据库插入的速度,当数据量大时就会出现堵塞,就需要采用异步保存