Skip to content

longcd/text-classification-system

Repository files navigation

文本分类

文本分类,使用搜狗文本分类语料库

1.主要步骤

  • 文本分词处理
  • 特征选择
  • 特征权重计算
  • 文本特征向量表示
  • 训练模型并测试:kNN、NB、SVM
  • 使用爬虫抓取新闻并测试

2.数据集

英文文本

数据集使用著名的20 Newsgrousps新闻数据集,你可以从这里下载。

数据加载使用sklearn.datasets.load_files来加载数据集。

中文文本

使用搜狐新闻数据(SogouCS)的精简版数据其中的一部分。

3.运行环境

  • python 3.4
  • scikit-learn
  • numpy
  • jieba

4.示例

运行HTTP服务器

image

打开页面

image

今日头条上的新闻

image

测试结果

image

About

使用scikit-learn进行文本分类

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors