# Step4 机器学习训练流程

    建立模型，对新闻文本进行分类(包括特征抽取，分类器选择，分类器参数调优，结果评估等过程)。这里的顺序同上。
    这里简述各部分需要做的事情：
        特征抽取：
           选择有价值的数据内容做特征提取。对文本分类选择内容作为输入，分别按照词频和逆文本频率进行提取。按照if-idf可以有效提取关键词，而不是使与主题无关的常用词有较高的权重。
        分类器选择：
            训练高维数据，一般需要不考虑极高复杂度的情况。
            选择低复杂度的训练器：
                例如逻辑斯蒂回归模型、朴素贝叶斯模型和K最近邻模型。
        分类器参数调优：
            使用GridSearchCV进行参数调优。
        结果评估：
            例如直接度量其准确度，或者使用混淆矩阵。其中混淆矩阵反映了分类的细节，例如A被分为A、B、C的数量。
            
       注： 交叉验证不做图是因为懒。

# 1. 导入常见库

In [1]:
# -*- coding: utf-8 -*-
import jieba
import numpy as np
import codecs
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

# 2. 读入数据

In [2]:
import json

def readfromJson(filename):
    dir = "data/"
    filename = dir + filename
    file = codecs.open(filename, 'r')
    
    data = {}
    data['title'] = []
    data['publisher'] = []
    data['type'] = []
    data['time'] = []
    data['content'] = []
    
    for line in file.readlines():
        news_unit = json.loads(line)
        data['title'].append(news_unit['title'])
        data['publisher'].append(news_unit['publisher'])
        data['type'].append(news_unit['type'])
        data['time'].append(news_unit['time'])
        data['content'].append(news_unit['content'])

    data = pd.DataFrame(data)
    return data

GuojiData = readfromJson("Guoji.json")
GuoneiData = readfromJson("Guonei.json")
ShehuiData = readfromJson("Shehui.json")
frames = [GuojiData, GuoneiData, ShehuiData]
data = pd.concat(frames)
data["segment"] = data["content"].apply(lambda x : " ".join(list(jieba.cut(x))))
data.head(10)

Building prefix dict from the default dictionary ...
Loading model from cache c:\users\hehaox~1\appdata\local\temp\jieba.cache
Loading model cost 0.343 seconds.
Prefix dict has been built succesfully.


Unnamed: 0,content,publisher,time,title,type,segment
0,随着国际社会对朝鲜制裁的进一步加剧，朝鲜正在寻求包括开拓国内旅游业在内的更多渠道，来弥补...,澎湃新闻,2017-03-24 18:05:27,朝鲜拟推邮轮旅游弥补制裁损失 允许船上开赌场,国际,随着 国际 社会 对 朝鲜 制裁 的 进一步 加剧 ， 朝鲜 正在 寻求 包括 开拓...
1,埃及前总统穆巴拉克24日获释回到位于开罗市内的家中。,新华网,2017-03-24 18:18:44,埃及前总统穆巴拉克获释回到家中,国际,埃及 前 总统 穆巴拉克 24 日 获释 回到 位于 开罗 市内 的 家中 。
2,朝鲜局势不断升温之下，3月22日，朝鲜再次发射了导弹。\n 据央视新闻客户端报道，韩国...,澎湃新闻,2017-03-22 17:04:13,朝鲜今晨导弹发射失败 专家称或为旧型导弹,国际,朝鲜 局势 不断 升温 之下 ， 3 月 22 日 ， 朝鲜 再次 发射 了 导弹 ...
3,【观察者网 综合报道】据韩联社3月22日报道，韩国海洋水产部表示，试捞世越号沉船于今日（...,观察者网,2017-03-22 17:09:05,上海打捞局助韩国试捞世越号沉船 今日或出水,国际,【 观察者 网 综合 报道 】 据 韩联社 3 月 22 日 报道 ， 韩国 海...
4,当地时间3月22日下午，英国伦敦议会外发生恐怖袭击，据英国警方透露，目前已造成5人死亡4...,澎湃新闻,2017-03-23 16:10:29,英内政部：伦敦恐袭尚未发现与特定恐怖组织有关,国际,当地 时间 3 月 22 日 下午 ， 英国伦敦 议会 外 发生 恐怖袭击 ， 据 ...
5,【英国警方逮捕7名嫌疑人】伦敦警察局助理专员马克·罗利说，在包括伦敦、伯明翰等多地开展的...,综合,2017-03-23 16:08:59,英国警方逮捕7名恐袭事件嫌疑人,国际,【 英国 警方 逮捕 7 名 嫌疑人 】 伦敦 警察局 助理 专员 马克 · 罗利 ...
6,坠机现场。\n 中新网3月21日电综合报道，当地时间20日下午，一架从南苏丹首都朱巴飞...,中国新闻网,2017-03-21 04:17:23,南苏丹坠机多人受伤无人死亡 部分乘客未系安全带,国际,坠机 现场 。 \n 中新网 3 月 21 日电 综合 报道 ， 当地 时间...
7,3月23日上午，英国伦敦警察局（苏格兰场）召开新闻发布会通报了伦敦议会恐怖袭击的最新进展...,澎湃新闻,2017-03-23 16:18:53,伦敦警方上百警力连夜搜查 搜查6个地点逮捕7人,国际,3 月 23 日 上午 ， 英国伦敦 警察局 （ 苏格兰 场 ） 召开 新闻 发布会...
8,新华社喀布尔3月23日电（记者卢树群）阿富汗北部昆都士省警方证实，该省一处安全检查站当天...,新华网,2017-03-23 16:33:33,阿富汗北部一安全检查站遭袭9名警察身亡,国际,新华社 喀布尔 3 月 23 日电 （ 记者 卢树群 ） 阿富汗 北部 昆都士 省 ...
9,西班牙加泰罗尼亚自治区首府巴塞罗那的数千民众19日走上街头，抗议地方政府谋求举行“独立”...,综合,2017-03-21 04:30:33,西班牙加泰罗尼亚再谋“公投” 闹独立持续数百年,国际,西班牙 加泰罗尼亚 自治区 首府 巴塞罗那 的 数千 民众 19 日 走上 街头 ，...


    CountVectorizer()计数器引入停用词后会报错。
        Not hashable错误。似乎只能赋值为"english"这种。

In [3]:
#不能导入停用词? not hashable?
stopwords = pd.read_csv("stopwords.txt", index_col=False, quoting=3, sep="\t", names=['stopword'], encoding = "utf-8")
stopwords = list(stopwords['stopword'])
stopwords.append(["\n", "\r", " "])

# 3. 校验不同模型

    1. 以词频向量作为训练数据，以朴素贝叶斯模型分类。

In [4]:
#文章的词向量作为特征
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split

vectorizer = CountVectorizer()
word_split = list(data["segment"])
word_split = vectorizer.fit_transform(word_split)
target = list(data["type"])

x_train, x_test, y_train, y_test = train_test_split(word_split, target, random_state = 1)

In [5]:
#维度较高，使用简单模型，首先选择朴素贝叶斯模型
from sklearn.model_selection import GridSearchCV
from sklearn.naive_bayes import MultinomialNB

param_grid = {
    'alpha': [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0],
    'fit_prior' : [True, False]
}
grid_search = GridSearchCV(MultinomialNB(), param_grid, cv=5)
grid_search.fit(x_train, y_train)
y_pred = grid_search.predict(x_test)

print "Best params:"
print grid_search.best_estimator_
print "Grid Search results:"
grid_search.grid_scores_

Best params:
MultinomialNB(alpha=0.3, class_prior=None, fit_prior=False)
Grid Search results:




[mean: 0.84100, std: 0.01405, params: {'alpha': 0.1, 'fit_prior': True},
 mean: 0.84763, std: 0.01745, params: {'alpha': 0.1, 'fit_prior': False},
 mean: 0.84135, std: 0.01162, params: {'alpha': 0.2, 'fit_prior': True},
 mean: 0.84833, std: 0.01531, params: {'alpha': 0.2, 'fit_prior': False},
 mean: 0.84205, std: 0.01251, params: {'alpha': 0.3, 'fit_prior': True},
 mean: 0.84868, std: 0.01656, params: {'alpha': 0.3, 'fit_prior': False},
 mean: 0.84170, std: 0.01377, params: {'alpha': 0.4, 'fit_prior': True},
 mean: 0.84868, std: 0.01724, params: {'alpha': 0.4, 'fit_prior': False},
 mean: 0.84170, std: 0.01303, params: {'alpha': 0.5, 'fit_prior': True},
 mean: 0.84833, std: 0.01648, params: {'alpha': 0.5, 'fit_prior': False},
 mean: 0.83996, std: 0.01241, params: {'alpha': 0.6, 'fit_prior': True},
 mean: 0.84763, std: 0.01646, params: {'alpha': 0.6, 'fit_prior': False},
 mean: 0.83926, std: 0.01266, params: {'alpha': 0.7, 'fit_prior': True},
 mean: 0.84658, std: 0.01603, params: {'alpha

In [6]:
from sklearn.metrics import accuracy_score
print "Train Accuracy score：" + str(grid_search.score(x_train, y_train))
print "Test Accuracy score：" + str(accuracy_score(y_test, y_pred))

Train Accuracy score：0.940725244073
Test Accuracy score：0.857740585774


In [7]:
from sklearn.metrics import confusion_matrix
print "Classifier result:"
confusion_matrix(y_test, y_pred)

Classifier result:


array([[248,  31,  40],
       [ 11, 292,   6],
       [ 41,   7, 280]])

    2. 以词频向量作为训练数据，以逻辑斯蒂回归模型分类。

In [8]:
#维度较高，使用简单模型，再次选择逻辑斯蒂回归模型
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
param_grid = {
    'penalty': ['l1', 'l2'],
    'C' : [0.01, 0.1, 1.0, 10.0, 100.0, 1000.0]
}
grid_search = GridSearchCV(LogisticRegression(), param_grid, cv=5)
grid_search.fit(x_train, y_train)
y_pred = grid_search.predict(x_test)

print "Best params:"
print grid_search.best_estimator_
print "Grid Search results:"
grid_search.grid_scores_

Best params:
LogisticRegression(C=0.01, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)
Grid Search results:




[mean: 0.71583, std: 0.01433, params: {'penalty': 'l1', 'C': 0.01},
 mean: 0.85251, std: 0.01803, params: {'penalty': 'l2', 'C': 0.01},
 mean: 0.81834, std: 0.01589, params: {'penalty': 'l1', 'C': 0.1},
 mean: 0.85146, std: 0.01548, params: {'penalty': 'l2', 'C': 0.1},
 mean: 0.83194, std: 0.01753, params: {'penalty': 'l1', 'C': 1.0},
 mean: 0.84379, std: 0.01260, params: {'penalty': 'l2', 'C': 1.0},
 mean: 0.82252, std: 0.01579, params: {'penalty': 'l1', 'C': 10.0},
 mean: 0.83647, std: 0.01016, params: {'penalty': 'l2', 'C': 10.0},
 mean: 0.82566, std: 0.01385, params: {'penalty': 'l1', 'C': 100.0},
 mean: 0.82322, std: 0.00865, params: {'penalty': 'l2', 'C': 100.0},
 mean: 0.82601, std: 0.01402, params: {'penalty': 'l1', 'C': 1000.0},
 mean: 0.79463, std: 0.01132, params: {'penalty': 'l2', 'C': 1000.0}]

In [9]:
from sklearn.metrics import accuracy_score
print "Train Accuracy score：" + str(grid_search.score(x_train, y_train))
print "Test Accuracy score：" + str(accuracy_score(y_test, y_pred))

Train Accuracy score：0.967224546722
Test Accuracy score：0.862970711297


In [10]:
from sklearn.metrics import confusion_matrix
print "Classifier result:"
confusion_matrix(y_test, y_pred)

Classifier result:


array([[257,  15,  47],
       [ 14, 283,  12],
       [ 36,   7, 285]])

    3. 以词频向量作为训练数据，以K最近邻模型分类。
        此模型复杂度相对高且效果差，放弃。

In [11]:
#也可以用KNN模型，但效果差，准确度低，放弃。参数只调距离公式：
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
param_grid = {
    'p' : [1, 2]
}
grid_search = GridSearchCV(KNeighborsClassifier(n_neighbors = 5), param_grid, cv=5)
grid_search.fit(x_train, y_train)
y_pred = grid_search.predict(x_test)

print "Best params:"
print grid_search.best_estimator_
print "Grid Search results:"
grid_search.grid_scores_

Best params:
KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')
Grid Search results:




[mean: 0.40656, std: 0.01658, params: {'p': 1},
 mean: 0.58961, std: 0.01121, params: {'p': 2}]

In [12]:
from sklearn.metrics import accuracy_score
print "Train Accuracy score：" + str(grid_search.score(x_train, y_train))
print "Test Accuracy score：" + str(accuracy_score(y_test, y_pred))

Train Accuracy score：0.706764295676
Test Accuracy score：0.608786610879


In [13]:
from sklearn.metrics import confusion_matrix
print "Classifier result:"
confusion_matrix(y_test, y_pred)

Classifier result:


array([[268,  20,  31],
       [ 94, 203,  12],
       [190,  27, 111]])

    4. 以逆文本频率向量作为训练数据，以朴素贝叶斯模型分类。

In [14]:
#改用IT-IDF作为词特征，先重新读入数据
from sklearn.feature_extraction.text import  TfidfVectorizer
from sklearn.model_selection import train_test_split

vectorizer = TfidfVectorizer()
word_split = list(data["segment"])
word_split = vectorizer.fit_transform(word_split)
target = list(data["type"])

x_train, x_test, y_train, y_test = train_test_split(word_split, target, random_state = 1)

In [15]:
#选择朴素贝叶斯模型
from sklearn.model_selection import GridSearchCV
from sklearn.naive_bayes import MultinomialNB

param_grid = {
    'alpha': [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0],
    'fit_prior' : [True, False]
}
grid_search = GridSearchCV(MultinomialNB(), param_grid, cv=5)
grid_search.fit(x_train, y_train)
y_pred = grid_search.predict(x_test)

print "Best params:"
print grid_search.best_estimator_
print "Grid Search results:"
grid_search.grid_scores_

Best params:
MultinomialNB(alpha=0.1, class_prior=None, fit_prior=False)
Grid Search results:




[mean: 0.85321, std: 0.00664, params: {'alpha': 0.1, 'fit_prior': True},
 mean: 0.86192, std: 0.00854, params: {'alpha': 0.1, 'fit_prior': False},
 mean: 0.84937, std: 0.00541, params: {'alpha': 0.2, 'fit_prior': True},
 mean: 0.85635, std: 0.00802, params: {'alpha': 0.2, 'fit_prior': False},
 mean: 0.84589, std: 0.00554, params: {'alpha': 0.3, 'fit_prior': True},
 mean: 0.85635, std: 0.00920, params: {'alpha': 0.3, 'fit_prior': False},
 mean: 0.84623, std: 0.00566, params: {'alpha': 0.4, 'fit_prior': True},
 mean: 0.85460, std: 0.00832, params: {'alpha': 0.4, 'fit_prior': False},
 mean: 0.84519, std: 0.00661, params: {'alpha': 0.5, 'fit_prior': True},
 mean: 0.85425, std: 0.00811, params: {'alpha': 0.5, 'fit_prior': False},
 mean: 0.84449, std: 0.00686, params: {'alpha': 0.6, 'fit_prior': True},
 mean: 0.85251, std: 0.00794, params: {'alpha': 0.6, 'fit_prior': False},
 mean: 0.84240, std: 0.00781, params: {'alpha': 0.7, 'fit_prior': True},
 mean: 0.85181, std: 0.00827, params: {'alpha

In [16]:
from sklearn.metrics import accuracy_score
print "Train Accuracy score：" + str(grid_search.score(x_train, y_train))
print "Test Accuracy score：" + str(accuracy_score(y_test, y_pred))

Train Accuracy score：0.949790794979
Test Accuracy score：0.862970711297


In [17]:
from sklearn.metrics import confusion_matrix
print "Classifier result:"
confusion_matrix(y_test, y_pred)

Classifier result:


array([[264,  21,  34],
       [ 16, 284,   9],
       [ 45,   6, 277]])

    5. 以逆文本频率向量作为训练数据，以逻辑斯蒂模型分类。

In [18]:
#维度较高，使用简单模型，再次选择逻辑斯蒂回归模型
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
param_grid = {
    'penalty': ['l1', 'l2'],
    'C' : [0.01, 0.1, 1.0, 10.0, 100.0, 1000.0]
}
grid_search = GridSearchCV(LogisticRegression(), param_grid, cv=5)
grid_search.fit(x_train, y_train)
y_pred = grid_search.predict(x_test)

print "Best params:"
print grid_search.best_estimator_
print "Grid Search results:"
grid_search.grid_scores_

Best params:
LogisticRegression(C=10.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)
Grid Search results:




[mean: 0.35669, std: 0.00023, params: {'penalty': 'l1', 'C': 0.01},
 mean: 0.55544, std: 0.00977, params: {'penalty': 'l2', 'C': 0.01},
 mean: 0.48152, std: 0.00618, params: {'penalty': 'l1', 'C': 0.1},
 mean: 0.78940, std: 0.01758, params: {'penalty': 'l2', 'C': 0.1},
 mean: 0.79428, std: 0.01907, params: {'penalty': 'l1', 'C': 1.0},
 mean: 0.84589, std: 0.01082, params: {'penalty': 'l2', 'C': 1.0},
 mean: 0.84066, std: 0.01334, params: {'penalty': 'l1', 'C': 10.0},
 mean: 0.86088, std: 0.01360, params: {'penalty': 'l2', 'C': 10.0},
 mean: 0.84554, std: 0.01439, params: {'penalty': 'l1', 'C': 100.0},
 mean: 0.85809, std: 0.01126, params: {'penalty': 'l2', 'C': 100.0},
 mean: 0.85286, std: 0.01411, params: {'penalty': 'l1', 'C': 1000.0},
 mean: 0.85669, std: 0.01404, params: {'penalty': 'l2', 'C': 1000.0}]

In [19]:
from sklearn.metrics import accuracy_score
print "Train Accuracy score：" + str(grid_search.score(x_train, y_train))
print "Test Accuracy score：" + str(accuracy_score(y_test, y_pred))

Train Accuracy score：0.982217573222
Test Accuracy score：0.85460251046


In [20]:
from sklearn.metrics import confusion_matrix
print "Classifier result:"
confusion_matrix(y_test, y_pred)

Classifier result:


array([[261,  12,  46],
       [ 17, 275,  17],
       [ 43,   4, 281]])

# 4. 总结

不同特征选择和训练模型下，分类的准确度：

    1. 在训练集上的准确度
<table border="1">
<tr>
  <td>特征选择\训练模型</td>
  <td>朴素贝叶斯模型</td>
  <td>逻辑斯蒂回归模型</td>
  <td>K最近邻模型</td>
</tr>   
<tr>
  <td>词频计数向量</td>
  <td>94.07%</td>
  <td>96.72%</td>
  <td>70.67%</td>
</tr>
<tr>
  <td>TFIDF词向量</td>
  <td>94.98%</td>
  <td>98.22%</td>
  <td>-</td>
</tr>
</table>

    2. 在测试集上的准确度
<table border="1">
<tr>
  <td>特征选择\训练模型</td>
  <td>朴素贝叶斯模型</td>
  <td>逻辑斯蒂回归模型</td>
  <td>K最近邻模型</td>
</tr>   
<tr>
  <td>词频计数向量</td>
  <td>85.77%</td>
  <td>86.30%</td>
  <td>60.88%</td>
</tr>
<tr>
  <td>TFIDF词向量</td>
  <td>86.29%</td>
  <td>85.46%</td>
  <td>-</td>
</tr>
</table>

由上可知，样本在视同TF-IDF词向量做特征，以朴素贝叶斯模型训练样本，样本拟合比较好。
          相比于朴素贝叶斯模型，逻辑斯蒂模型有过拟合的倾向。
          但是使用K最近邻模型，样本明显欠拟合。
        
由此可知，使用TF-IDF词向量做特征，使用朴素贝叶斯模型作拟合，在本例中起到了比较好的效果。