新浪微博自动下载与分类工具 本项目为一个java project,开发工具为MyEclipse 10或者Eclipse都行
其主要模块功能如下: 1、模拟登录 httpClient 2、微博解析 Jsoup 3、微博分类 Bayes分类法 4、图形界面 Java Swing编程
对目录的介绍: html文件是用来存放抓取到的HTML页面的,我的html页面是我的测试用户的所有微博页面 Category是用来存放训练集的,用于分类时使用,详见贝叶斯分类法 data相当于一个临时文件夹,用于存放一些属性文件,临时文件