目标:利用爬虫爬取人民日报网[链接](http://data.people.com.cn/) 上"气候变化"和"健康"两个主题关系的新闻文章,分析出近10年左右讲两个主题的文章数量的变化趋势。
假设:不是所有包含主题关键词的文章即是相关主题的文章。
步骤1: 构建两个主题的相关关键词表,利用人民日报数据库的搜索功能,模拟搜索对既包含"气候变化"主题中的关键词,同时也包含"健康"主题中的关键词的文章,对所有文章进行爬取保存
步骤2:中文预处理:分词&去停用词
步骤3:利用LDA非监督主题模型[wiki](https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation) 对文本进行分析,得到每个文章包含每个主题的概率,同时得到每个主题中所对应的高概率关键词。
步骤4:首先从所有主题中甄别出我们需要的主题,同时设置阈值(1%)筛选出文章包含两个主题概率同时高于阈值的文章,即可认为文章包含两个主题。
步骤5:设置距离(25),在文章中找到分别属于两个主题的关键词的位置,如果文章中存在两个主题的关键词之间距离小于预设的距离,则认为文章中讲"气候变化"与"健康"之间关系
步骤6:绘图.
