newsqq

使用Scrapy框架获取当日腾讯新闻的各类新闻链接、相关信息、正文等；

数据库为MongoDB，获取的数据量约为2700条，用时约6分钟，具备断点续传、数据监控、导出csv、json、excel等功能；

运行：执行main.py即可，会自动执行如下操作：

清空数据库

运行genLinks.py生成需获取的所有页面链接，为9大类型，共135个页面链接

执行第一个爬虫：scrapy crawl links_spider，获取所有页面的新闻链接及相关信息，约2700条数据

运行autoRestart.py获取所有新闻的正文（会执行第二个爬虫：article_spider），如果中途中断会自动重新获取剩下的正文

运行linksAndArticleToExcel.py，会将两个爬虫获取的数据进行整合，并将所有数据导出到excel

Name		Name	Last commit message	Last commit date
Latest commit History 33 Commits
.idea		.idea
data		data
newsqq		newsqq
screenshot		screenshot
README.md		README.md
User-Agent.json		User-Agent.json
autoRestart.py		autoRestart.py
count_article.py		count_article.py
genLinks.py		genLinks.py
links.txt		links.txt
linksAndArticleToExcel.py		linksAndArticleToExcel.py
main.py		main.py
myType.txt		myType.txt
scrapy.cfg		scrapy.cfg
type_links.txt		type_links.txt
updateDB.sh		updateDB.sh
updateSummary.py		updateSummary.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

newsqq

About

Releases

Packages

Languages

yonghuizhong/newsqq

Folders and files

Latest commit

History

Repository files navigation

newsqq

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages