In [3]:
import pandas as pd

dataset = pd.read_csv('../data/20news-18828.csv', header=None, delimiter=',', names=['label', 'text'])
dataset.head()

Unnamed: 0,label,text
0,alt.atheism,b'From: mathew <mathew@mantis.co.uk>\nSubject:...
1,alt.atheism,b'From: mathew <mathew@mantis.co.uk>\nSubject:...
2,alt.atheism,b'From: I3150101@dbstu1.rz.tu-bs.de (Benedikt ...
3,alt.atheism,b'From: mathew <mathew@mantis.co.uk>\nSubject:...
4,alt.atheism,b'From: strom@Watson.Ibm.Com (Rob Strom)\nSubj...


In [9]:
# dataset.label等同于  dataset['label']
print("数据集有20类: %s" % (len(dataset.label.unique()) == 20))
print("数据集一共有18828条记录: %s" % (len(dataset) == 18828))

数据集有20类: True
数据集一共有18828条记录: True


# Data Preparation

In [11]:
# 机器学习，一般需要将数据集分为训练集和测试集。过去和现在的数据可以作为训练集去训练模型，
# 测试集可理解成未知的或者未来的数据，是用来检验型的数据。

In [12]:
# train_test_split函数用于将矩阵随机划分为训练子集和测试子集，并返回划分好的训练集测试集样本和训练集测试集标签。
# X_train,X_test, y_train, y_test = train_test_split(train_data,train_target,test_size=0.3, random_state=0)

# train_data：被划分的样本特征集
# train_target：被划分的样本标签
# test_size：如果是浮点数，在0-1之间，表示样本占比；如果是整数的话就是样本的数量
# random_state：是随机数的种子。


from sklearn.model_selection import train_test_split

# 30% of data is the testing set
X_train, X_test, y_train, y_test =train_test_split(dataset.text, dataset.label, test_size=0.3)



# Feature Extraction Using CountVectorizer

In [20]:
from sklearn.feature_extraction.text import CountVectorizer
import re

def normalize_numbers(s):
    """
    将数字特征统一替换为NUM
    """
    return re.sub(r'\b\d+\b', 'NUM', s)


#CountVectorizer和TfidfVectorizer都有preprocessor参数，该参数传入预处理函数。
#也含有停用词处理参数stop_words
cv = CountVectorizer(preprocessor=normalize_numbers, stop_words='english')

#fit_transform是fit和transform两种方法的简写
#fit方法用于构建特征空间（也就是构建词典）
#transform方法使用该空间将文本数据转化为特征矩阵
X_train_counts = cv.fit_transform(X_train)

#该矩阵共有13179行，对应着13179条数据。 
#175237表示特征空间共有161958个词语。
X_train_counts.shape




(13179, 182576)

In [21]:
# 训练集其实主要是学会数据中的特征空间（构建词典），之后我们需要用学到的特征空间去处理测试集。
# 所以我们只需要用到transform方法，从而将测试集数据从文本数据转化为特征矩阵。
X_test_counts = cv.transform(X_test)

#这里你会发现，测试集特征矩阵的列数与训练集特征矩阵的列数是一致的，都是175237
X_test_counts.shape

(5649, 182576)

# Machine Learning


In [22]:
from sklearn.naive_bayes import MultinomialNB

estimator = MultinomialNB()
#这里是有监督的训练模型
#所以要同时输入X_train_counts和y_train
estimator.fit(X_train_counts, y_train)

#训练好的模型，对测试集数据进行预测
predicted = estimator.predict(X_test_counts)

# 这里我们仅仅打印前10个测试数据的预测  及其真实类别
for prediction, truth in zip(predicted[:10], y_test[:10]):
    print(prediction, truth)

rec.sport.hockey rec.sport.hockey
misc.forsale misc.forsale
rec.autos rec.autos
sci.crypt sci.crypt
comp.graphics comp.graphics
misc.forsale misc.forsale
soc.religion.christian talk.religion.misc
rec.motorcycles rec.motorcycles
comp.sys.ibm.pc.hardware comp.sys.ibm.pc.hardware
rec.motorcycles rec.motorcycles


In [23]:
from sklearn.metrics import classification_report
from sklearn.metrics import precision_recall_fscore_support

#按照分类labels分类输出准确率召回率F1值
print(classification_report(y_test, predicted, labels=dataset.label.unique()))

                          precision    recall  f1-score   support

             alt.atheism       0.84      0.92      0.88       216
           comp.graphics       0.66      0.88      0.76       300
 comp.os.ms-windows.misc       0.95      0.30      0.45       284
comp.sys.ibm.pc.hardware       0.68      0.84      0.75       312
   comp.sys.mac.hardware       0.82      0.90      0.86       271
          comp.windows.x       0.82      0.90      0.86       314
            misc.forsale       0.91      0.76      0.83       294
               rec.autos       0.91      0.92      0.92       302
         rec.motorcycles       0.99      0.91      0.95       330
      rec.sport.baseball       0.95      0.94      0.95       289
        rec.sport.hockey       0.94      0.97      0.96       307
               sci.crypt       0.91      0.96      0.93       291
         sci.electronics       0.90      0.82      0.86       311
                 sci.med       0.97      0.94      0.95       302
         

# Feature Extraction Using TfidfVectorizer

In [24]:
from sklearn.feature_extraction.text import TfidfVectorizer

# preprocessor预处理数据
tv = TfidfVectorizer(preprocessor=normalize_numbers, stop_words='english')
X_train_tf = tv.fit_transform(X_train)
X_test_tf = tv.transform(X_test)
estimator2 = MultinomialNB()
estimator2.fit(X_train_tf, y_train)
predicted = estimator2.predict(X_test_tf)
print(classification_report(y_test, predicted, labels=dataset.label.unique()))

                          precision    recall  f1-score   support

             alt.atheism       0.84      0.85      0.84       216
           comp.graphics       0.85      0.79      0.82       300
 comp.os.ms-windows.misc       0.75      0.87      0.81       284
comp.sys.ibm.pc.hardware       0.76      0.81      0.78       312
   comp.sys.mac.hardware       0.85      0.89      0.87       271
          comp.windows.x       0.94      0.87      0.90       314
            misc.forsale       0.91      0.75      0.82       294
               rec.autos       0.91      0.93      0.92       302
         rec.motorcycles       0.99      0.95      0.97       330
      rec.sport.baseball       0.94      0.97      0.95       289
        rec.sport.hockey       0.97      0.99      0.98       307
               sci.crypt       0.86      0.98      0.92       291
         sci.electronics       0.93      0.81      0.87       311
                 sci.med       0.97      0.90      0.93       302
         