### 导入工具包并读取数据

In [1]:
import numpy as np
import pandas as pd
import random
import jieba
import warnings
warnings.filterwarnings("ignore")

In [2]:
df_news = pd.read_excel('../../data/all_news.xlsx')

### 随机打乱数据

In [3]:
from sklearn.utils import shuffle
df_news = shuffle(df_news, random_state=0)

### 分词处理

In [11]:
def splitWord(x):
    segment=[]
    try:
        segs = jieba.lcut(x)
        for seg in segs:
            if len(seg) > 1 and seg != '\r\n':
                segment.append(seg)
    except:
        print(line)
    return segment
df_news['content'] = df_news['content'].apply(lambda x:splitWord(x))

In [18]:
df_news

Unnamed: 0,title,content,label
883,NBA年度热文出炉 过去的2018年希望你能记住这十篇文章,文章 记录 时光 如果说 一年 365 天是 本书 文字 标注 记忆 书签 鞭辟入里 分析 ...,体育
5462,李光洙公布恋情，女友李先彬竟撞脸宋慧乔张雨绮杨超越看懵网友,2018 李光洙 李先彬 恋情 公开 娱乐圈 一弹 粉红 炮弹 光洙 欧巴 2018 顺利 ...,时尚
799,火箭近11战10胜震惊联盟 哈登之外还有两人功不可没,北京 时间 2019 时差 关系 火箭 主场 比赛 2018 收官 之战 一场 大胜 詹姆斯...,体育
1826,邻邦扫描：伊朗有意购入“枭龙”战机 印度“不掺和”围堵中国,2018 南亚 军情 热点 频现 印度 俄罗斯 达成 多项 巨额 军售 订单 伊朗 有意 巴...,军事
6495,车辆蓝牌之间的互换都有哪些条件的约束？,深圳 比亚迪 车辆 销量 新能源 汽车 燃油 汽车 比亚迪 比亚迪 消费者 青睐 消费者 在...,汽车
6512,洗车工6万收回一辆君威准备翻新，修理工：不想后悔就5万卖给我,家住 河北 唐山 一名 车工 海奇 化名 洗车 打工 二手车 修理厂 工人 打交道 原因 利...,汽车
8578,优信三季度营收大增，高盛预计其2020年可盈利,二手车 电商 平台 优信 日前 发布 2018 第三季度 财报 显示 报告 期内 优信 2C...,财经
4534,get不到针织开衫的时尚感？那是你没穿对,立冬 针织 开衫 永远 过时 单品 大法 收藏 开春 不用 搭配 发愁 针织 开衫 同色 套...,时尚
2670,美国白宫宣布从叙利亚撤军 仍将继续对叙、伊施压,俄罗斯 卫星 通讯社 时间 周三 美国白宫 发言人 桑德斯 美国 叙利亚 撤军 美军 部队 ...,国际
578,王霜独造3球大逆转 4个人防不住她 14场狂造10球征服欧洲,王霜 率队 逆转 制造 巴黎 圣日耳曼 女足 稳法 甲第 距离 第一 里昂 差距 王霜 各项...,体育


### 去停用词

In [12]:
with open('../../data/stopwords.txt') as f:
    stopwords = []
    for line in f:
        stopwords.append(line.strip('\n'))

In [17]:
df_news['content'] = df_news['content'].apply(lambda x:' '.join([word for word in x if word not in stopwords]))

### 切分数据集

In [19]:
X = df_news['content']
y = df_news['label']

In [20]:
# 切分为训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

### CountVectorizer词频向量

In [45]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer(analyzer='word', max_features=9000, lowercase=False).fit(X_train)
X_train_vectorized = vect.transform(X_train)
X_test_vectorized = vect.transform(X_test)

#### 朴素贝叶斯模型

In [46]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
clfrNB = MultinomialNB()
clfrNB.fit(X_train_vectorized, y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [47]:
print("train accuracy:", clfrNB.score(X_train_vectorized, y_train))
print("test accuracy:", clfrNB.score(X_test_vectorized, y_test))

train accuracy: 0.8622856394816075
test accuracy: 0.8277486910994765


In [48]:
bayes_predict = clfrNB.predict(X_test_vectorized)
bayes_predict

array(['财经', '军事', '国际', ..., '时尚', '体育', '财经'], dtype='<U2')

In [49]:
print(classification_report(y_test, bayes_predict))

              precision    recall  f1-score   support

          体育       0.99      0.98      0.98       209
          军事       0.75      0.78      0.77       199
          国际       0.75      0.73      0.74       218
          娱乐       0.79      0.90      0.84       189
          时尚       0.94      0.89      0.92       314
          汽车       0.98      0.93      0.95       252
          科技       0.71      0.65      0.68       260
          财经       0.71      0.77      0.74       269

   micro avg       0.83      0.83      0.83      1910
   macro avg       0.83      0.83      0.83      1910
weighted avg       0.83      0.83      0.83      1910



#### 逻辑回归模型

In [50]:
from sklearn.linear_model import LogisticRegression
logis = LogisticRegression(C=0.0001)
logis.fit(X_train_vectorized, y_train)

LogisticRegression(C=0.0001, class_weight=None, dual=False,
          fit_intercept=True, intercept_scaling=1, max_iter=100,
          multi_class='warn', n_jobs=None, penalty='l2', random_state=None,
          solver='warn', tol=0.0001, verbose=0, warm_start=False)

In [51]:
print(logis.score(X_train_vectorized, y_train))
print(logis.score(X_test_vectorized, y_test))

0.833878779945019
0.8005235602094241


In [52]:
lg_predict = logis.predict(vect.transform(X_test))
lg_predict

array(['财经', '科技', '娱乐', ..., '时尚', '体育', '财经'], dtype=object)

In [53]:
print(classification_report(y_test, lg_predict))

              precision    recall  f1-score   support

          体育       0.98      0.97      0.97       209
          军事       0.75      0.69      0.72       199
          国际       0.77      0.65      0.70       218
          娱乐       0.79      0.84      0.81       189
          时尚       0.91      0.90      0.91       314
          汽车       0.95      0.92      0.94       252
          科技       0.66      0.65      0.66       260
          财经       0.63      0.76      0.69       269

   micro avg       0.80      0.80      0.80      1910
   macro avg       0.81      0.80      0.80      1910
weighted avg       0.81      0.80      0.80      1910



#### svm模型

In [58]:
from sklearn.svm import SVC
svm = SVC(C=10)
svm.fit(X_train_vectorized, y_train)

SVC(C=10, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
  kernel='rbf', max_iter=-1, probability=False, random_state=None,
  shrinking=True, tol=0.001, verbose=False)

In [59]:
print(svm.score(X_train_vectorized, y_train))
print(svm.score(X_test_vectorized, y_test))

0.9319282628616311
0.8109947643979057


In [60]:
svm_predict = svm.predict(X_test_vectorized)
svm_predict

array(['财经', '科技', '国际', ..., '时尚', '体育', '财经'], dtype=object)

In [61]:
print(classification_report(y_test, svm_predict))

              precision    recall  f1-score   support

          体育       0.97      0.97      0.97       209
          军事       0.74      0.71      0.73       199
          国际       0.71      0.76      0.73       218
          娱乐       0.82      0.87      0.84       189
          时尚       0.94      0.89      0.91       314
          汽车       0.95      0.93      0.94       252
          科技       0.69      0.64      0.66       260
          财经       0.68      0.73      0.70       269

   micro avg       0.81      0.81      0.81      1910
   macro avg       0.81      0.81      0.81      1910
weighted avg       0.81      0.81      0.81      1910



In [44]:
# 将分词好并去了停用词的数据保存，便于后续模型优化
df_news.to_excel('../../data/分词并去停用词的新闻数据.xlsx', index=False, encoding='utf-8')