GitHub - ooooooooe/PeopleDailyTopicAnalysis: People's Daily Articles Crawler and Topic Analysis

目标：利用爬虫爬取人民日报网[链接](http://data.people.com.cn/) 上"气候变化"和"健康"两个主题关系的新闻文章，分析出近10年左右讲两个主题的文章数量的变化趋势。

假设：不是所有包含主题关键词的文章即是相关主题的文章。

步骤1: 构建两个主题的相关关键词表，利用人民日报数据库的搜索功能，模拟搜索对既包含"气候变化"主题中的关键词，同时也包含"健康"主题中的关键词的文章，对所有文章进行爬取保存

步骤2：中文预处理：分词&去停用词

步骤3：利用LDA非监督主题模型[wiki](https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation) 对文本进行分析，得到每个文章包含每个主题的概率，同时得到每个主题中所对应的高概率关键词。

步骤4：首先从所有主题中甄别出我们需要的主题，同时设置阈值（1%）筛选出文章包含两个主题概率同时高于阈值的文章，即可认为文章包含两个主题。

步骤5：设置距离（25），在文章中找到分别属于两个主题的关键词的位置，如果文章中存在两个主题的关键词之间距离小于预设的距离，则认为文章中讲"气候变化"与"健康"之间关系

步骤6：绘图.

![pic](/data/time.png)

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
data		data
.gitignore		.gitignore
Crawl.py		Crawl.py
DistanceAnalysis.py		DistanceAnalysis.py
Main.py		Main.py
Model.py		Model.py
Parser.py		Parser.py
README.md		README.md
RelationAnalysis.py		RelationAnalysis.py
Util.py		Util.py
time190327.png		time190327.png

Provide feedback