- 使用Scrapy框架获取当日腾讯新闻的各类新闻链接、相关信息、正文等;
- 数据库为MongoDB,获取的数据量约为2700条,用时约6分钟,具备断点续传、数据监控、导出csv、json、excel等功能;
- 运行:执行main.py即可,会自动执行如下操作:
- 清空数据库
- 运行genLinks.py生成需获取的所有页面链接,为9大类型,共135个页面链接
- 执行第一个爬虫:scrapy crawl links_spider,获取所有页面的新闻链接及相关信息,约2700条数据
- 运行autoRestart.py获取所有新闻的正文(会执行第二个爬虫:article_spider),如果中途中断会自动重新获取剩下的正文
- 运行linksAndArticleToExcel.py,会将两个爬虫获取的数据进行整合,并将所有数据导出到excel
-
Notifications
You must be signed in to change notification settings - Fork 3
yonghuizhong/newsqq
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
scrapy爬取腾讯各类别的新闻
Topics
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published