本项目为实时新闻数据采集系统+可视化界面,数据来源网易新闻、搜狗新闻、百度贴吧、豆瓣热点。
该项目主题分为两个部分,Server(python)和Main(C#),
Server部分主要通过爬虫进行抓取数据并简易处理,搭建api与C#实现实时通讯。
1、 通过Xpath对爬出得数据处理,得到关键数据 2、 通过json文件直接爬取json文件获取数据 3、 通过二级爬虫获取豆瓣和百度贴吧得评论。 4、 基于情感词典的文本情感极性分析 5、 通过jieba分词制作词云图,以及当日新闻柱状图 6、 搭建api,以及发送邮件提醒功能。
Main部分主要制作软件界面,可视化数据以及展示部分数据,数据库使用Access,用于存储关键数据。
程序截图在pic文件中