Skip to content

yonghuizhong/newsqq

Repository files navigation

newsqq

  • 使用Scrapy框架获取当日腾讯新闻的各类新闻链接、相关信息、正文等;
  • 数据库为MongoDB,获取的数据量约为2700条,用时约6分钟,具备断点续传、数据监控、导出csv、json、excel等功能;
  • 运行:执行main.py即可,会自动执行如下操作:
  1. 清空数据库
  2. 运行genLinks.py生成需获取的所有页面链接,为9大类型,共135个页面链接
  3. 执行第一个爬虫:scrapy crawl links_spider,获取所有页面的新闻链接及相关信息,约2700条数据
  4. 运行autoRestart.py获取所有新闻的正文(会执行第二个爬虫:article_spider),如果中途中断会自动重新获取剩下的正文
  5. 运行linksAndArticleToExcel.py,会将两个爬虫获取的数据进行整合,并将所有数据导出到excel

运行截图

About

scrapy爬取腾讯各类别的新闻

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published