文本分类,使用搜狗文本分类语料库
- 文本分词处理
- 特征选择
- 特征权重计算
- 文本特征向量表示
- 训练模型并测试:kNN、NB、SVM
- 使用爬虫抓取新闻并测试
数据集使用著名的20 Newsgrousps新闻数据集,你可以从这里下载。
数据加载使用sklearn.datasets.load_files来加载数据集。
使用搜狐新闻数据(SogouCS)的精简版数据其中的一部分。
- python 3.4
- scikit-learn
- numpy
- jieba
| Name | Name | Last commit date | ||
|---|---|---|---|---|
文本分类,使用搜狗文本分类语料库
数据集使用著名的20 Newsgrousps新闻数据集,你可以从这里下载。
数据加载使用sklearn.datasets.load_files来加载数据集。
使用搜狐新闻数据(SogouCS)的精简版数据其中的一部分。