## 新闻文本数据EDA

In [4]:
import os
import pandas as pd
import numpy as np
import tensorflow.keras as kr

### 读入数据

In [5]:
train = pd.read_csv('./cnews.train.txt',sep='\t', encoding='utf-8',names=['类型','文本'])
test = pd.read_csv('./cnews.test.txt',sep='\t', encoding='utf-8',names=['类型','文本'])
val = pd.read_csv('./cnews.val.txt',sep='\t', encoding='utf-8',names=['类型','文本'])

In [6]:
train

Unnamed: 0,类型,文本
0,体育,马晓旭意外受伤让国奥警惕 无奈大雨格外青睐殷家军记者傅亚雨沈阳报道 来到沈阳，国奥队依然没有...
1,体育,商瑞华首战复仇心切 中国玫瑰要用美国方式攻克瑞典多曼来了，瑞典来了，商瑞华首战求3分的信心也...
2,体育,冠军球队迎新欢乐派对 黄旭获大奖张军赢下PK赛新浪体育讯12月27日晚，“冠军高尔夫球队迎新...
3,体育,辽足签约危机引注册难关 高层威逼利诱合同笑里藏刀新浪体育讯2月24日，辽足爆发了集体拒签风波...
4,体育,揭秘谢亚龙被带走：总局电话骗局 复制南杨轨迹体坛周报特约记者张锐北京报道 谢亚龙已经被公安...
5,体育,阿的江：八一需重新定位 我们有机会但该进的没进新浪体育讯12月24日，回到主场的北京金隅迎战...
6,体育,姚明未来次节出战成疑 火箭高层称将改变用姚战略新浪体育讯北京时间11月5日消息，休斯敦当地6...
7,体育,姚明：我来承担一切 四连败巨人宣言酷似当年麦蒂新浪体育讯北京时间11月5日消息，据《休斯敦纪...
8,体育,姚麦均无胜殊途同归 活塞酝酿交易火箭不如插一脚新浪体育讯火箭和活塞，是全联盟仅存的两支没有胜...
9,体育,布雷克替补席成功接棒法玛 湖人板凳后卫越打越好新浪体育讯记者戴高乐报道 上赛季，湖人经常在...


In [7]:
import jieba

### 使用jieba对汉语文本进行分词

In [8]:
def chinese_word_cut(mytext):  
    return " ".join(jieba.cut(mytext))

In [9]:
train['文本'] =train['文本'].apply(chinese_word_cut)
test['文本'] = test['文本'].apply(chinese_word_cut)

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/dr/7_l8t5r14nx1l3zk8mrz8nvw0000gn/T/jieba.cache
Loading model cost 0.722 seconds.
Prefix dict has been built succesfully.


### 分词结果

In [10]:
train.head()

Unnamed: 0,类型,文本
0,体育,马晓旭 意外 受伤 让 国奥 警惕 无奈 大雨 格外 青睐 殷家 军 记者 傅亚雨 沈阳...
1,体育,商瑞华 首战 复仇 心切 中国 玫瑰 要 用 美国 方式 攻克 瑞典 多曼来 了 ， 瑞...
2,体育,冠军 球队 迎新 欢乐 派对 黄旭获 大奖 张军 赢 下 PK 赛 新浪 体育讯 12 ...
3,体育,辽足 签约 危机 引 注册 难关 高层 威逼利诱 合同 笑里藏刀 新浪 体育讯 2 月 ...
4,体育,揭秘 谢亚龙 被 带走 ： 总局 电话 骗局 复制 南杨 轨迹 体坛周报 特约记者 张锐...


### 为了方便处理分类数据，我们把分类从文字对应到0-9的数字

In [11]:
def read_category(cur):
    """读取分类目录，固定"""
    categories = ['体育', '财经', '房产', '家居', '教育', '科技', '时尚', '时政', '游戏', '娱乐']
    cat_to_id = categories.index(cur)

    return cat_to_id

In [12]:
def read_idx(idx):
    categories = ['体育', '财经', '房产', '家居', '教育', '科技', '时尚', '时政', '游戏', '娱乐']
    return categories[idx]

In [13]:
train['label'] = 1
train['label'] = train['类型'].apply(lambda r:read_category(r))
test['label'] = 1
test['label'] = test['类型'].apply(lambda r:read_category(r))

### 可以看到，各种类型的数据占比是完全相同的，所以这是一个平衡的数据集

In [14]:
for i in range(10):
    print("类型{}共占比{}".format(i,len(train[train['label'] == i]) / len(train) * 100))

类型0共占比10.0
类型1共占比10.0
类型2共占比10.0
类型3共占比10.0
类型4共占比10.0
类型5共占比10.0
类型6共占比10.0
类型7共占比10.0
类型8共占比10.0
类型9共占比10.0


### 进行Tfidf向量映射，min_df设置为3篇文章

In [15]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vect = TfidfVectorizer(max_df = 0.8,min_df = 3)
tfidf_vect.fit(train['文本'])
X_train=tfidf_vect.transform(train['文本'])
X_test=tfidf_vect.transform(test['文本'])

### 采用多项式朴素贝叶斯进行训练

In [16]:
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB(alpha=0.1)
clf.fit(X_train, train['label'])

MultinomialNB(alpha=0.1, class_prior=None, fit_prior=True)

In [17]:
y_predicted = clf.predict(X_test)

### 我们可以看到，用朴素贝叶斯的方法可以得到92%的准确率

In [18]:
from sklearn.metrics import accuracy_score
accuracy_score(test['label'],y_predicted)

0.9245

### 我们看看哪些数据标签值与预测值是不相同的

In [19]:
np.where(test['label']!=y_predicted)[0]

array([  70,  336,  600,  706, 1099, 1164, 1272, 1322, 1445, 1719, 1914,
       1961, 1969, 1971, 2002, 2005, 2007, 2009, 2010, 2011, 2012, 2013,
       2014, 2015, 2018, 2020, 2021, 2023, 2026, 2034, 2036, 2039, 2040,
       2041, 2042, 2043, 2044, 2045, 2046, 2047, 2048, 2049, 2053, 2054,
       2056, 2060, 2061, 2064, 2066, 2068, 2069, 2073, 2077, 2078, 2080,
       2081, 2082, 2085, 2087, 2093, 2095, 2098, 2100, 2101, 2102, 2103,
       2104, 2108, 2109, 2110, 2111, 2112, 2113, 2117, 2118, 2120, 2122,
       2123, 2125, 2129, 2130, 2131, 2133, 2134, 2135, 2136, 2137, 2138,
       2140, 2141, 2142, 2146, 2149, 2150, 2152, 2153, 2155, 2156, 2161,
       2162, 2166, 2173, 2174, 2176, 2177, 2178, 2182, 2187, 2194, 2197,
       2200, 2201, 2202, 2204, 2205, 2206, 2209, 2216, 2217, 2220, 2221,
       2222, 2223, 2224, 2231, 2232, 2233, 2235, 2236, 2237, 2239, 2240,
       2241, 2242, 2243, 2245, 2246, 2247, 2249, 2250, 2253, 2254, 2257,
       2259, 2261, 2262, 2263, 2266, 2267, 2270, 22

### 随便拿出来一个看一看，我们发现一个姚明相关的汽车展览的消息被误分类为游戏类型。看来确实是有很大问题

In [20]:
test['文本'].iloc[706]

'姚明 黑色 西装 现身 车展   德 美女 围观 ： 太 刺激 了 ( 高清 ) 新浪 体育讯 北京 时间 4 月 19 日 上海 消息 ， 2011 年 上海 国际 车展 今天 正式 举行 ， 在 宝马 展台 上 车迷 们 意外 的 发现 了 姚明 的 身影 。 原来 姚明 是 作为 宝马 7 系 的 用户 来 参加 这次 活动 ， 这位 超级 球星 的 出现 让 本来 平静 的 展台 瞬间 变得 躁动 兴奋 起来 。 宝马 品牌 今天 主要 展示 的 是 一款 纯 电动 动力 的 新车 ， 姚明 也 是 作为 相应 的 推广 嘉宾 出现 在 展台 上 。 这 款 电动 轿车 尺寸 并 不是 很大 ， 但是 零排放 是 这款 轿车 最大 的 亮点 。 姚明 也 非常 赞同 推广 这种 绿色 动力 的 车型 ， 2 米 26 的 姚明 虽然 要 挤进 这辆 车会 非常 困难 ， 但 姚明 表示 为了 推广 绿色 环保 出行 ， 他 宁愿 为 这款 车 作出 改变 ( 躺 着 开 ？ ) 。 当 发布会 结束 后 ， 姚明 离开 展台 ， 很多 车迷 都 想着 近距离 再 看看 姚明 ， 纷纷 趴在 展台 周边 照相 ， 而 一些 国外 车商 的 官员 和 工作人员 也 学着 中国 车迷 的 样 趴在 展台 上 围观 。 作为 展台 上 真正 主角 的 宝马新 车 一不留神 成 了 配角 。 ( 小黑 )'

In [21]:
read_idx(y_predicted[706])

'游戏'

### 拿所有的idf出来看一看。我们发现排序靠前的都是一些毫无意义的数字，这些没有意义的东西附了过高的权重，通过正则表达式予以清除

In [22]:
sorted(list(zip(tfidf_vect.get_feature_names(),tfidf_vect.idf_)),key=lambda x:x[1],reverse=True)

[('000042', 10.433503923090395),
 ('00012', 10.433503923090395),
 ('00013', 10.433503923090395),
 ('0003', 10.433503923090395),
 ('000401', 10.433503923090395),
 ('0005', 10.433503923090395),
 ('000537', 10.433503923090395),
 ('000629', 10.433503923090395),
 ('000667', 10.433503923090395),
 ('000671', 10.433503923090395),
 ('000918', 10.433503923090395),
 ('000hz', 10.433503923090395),
 ('0011', 10.433503923090395),
 ('00123', 10.433503923090395),
 ('002053', 10.433503923090395),
 ('00272', 10.433503923090395),
 ('0058', 10.433503923090395),
 ('0100', 10.433503923090395),
 ('0101', 10.433503923090395),
 ('0108', 10.433503923090395),
 ('0120', 10.433503923090395),
 ('017', 10.433503923090395),
 ('0175', 10.433503923090395),
 ('0189', 10.433503923090395),
 ('019', 10.433503923090395),
 ('02009', 10.433503923090395),
 ('02628', 10.433503923090395),
 ('031', 10.433503923090395),
 ('032', 10.433503923090395),
 ('033', 10.433503923090395),
 ('0337', 10.433503923090395),
 ('037', 10.433503923

### 重新进行匹配

In [23]:
tfidf_vect = TfidfVectorizer(max_df = 0.8,min_df = 3,token_pattern=r"(?u)\b[\u4e00-\u9fa5]+\b")
tfidf_vect.fit(train['文本'])

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.float64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=0.8, max_features=None, min_df=3,
        ngram_range=(1, 1), norm='l2', preprocessor=None, smooth_idf=True,
        stop_words=None, strip_accents=None, sublinear_tf=False,
        token_pattern='(?u)\\b[\\u4e00-\\u9fa5]+\\b', tokenizer=None,
        use_idf=True, vocabulary=None)

### 这时候我们发现idf比较大的都是由汉字组成的词语

In [24]:
sorted(list(zip(tfidf_vect.get_feature_names(),tfidf_vect.idf_)),key=lambda x:x[1],reverse=True)

[('一丁', 10.433503923090395),
 ('一万两千', 10.433503923090395),
 ('一万倍', 10.433503923090395),
 ('一万六千', 10.433503923090395),
 ('一万种', 10.433503923090395),
 ('一下周', 10.433503923090395),
 ('一专多能', 10.433503923090395),
 ('一两千元', 10.433503923090395),
 ('一两块', 10.433503923090395),
 ('一两样', 10.433503923090395),
 ('一两款', 10.433503923090395),
 ('一两门', 10.433503923090395),
 ('一个二十', 10.433503923090395),
 ('一个千', 10.433503923090395),
 ('一个名', 10.433503923090395),
 ('一个团', 10.433503923090395),
 ('一个多亿', 10.433503923090395),
 ('一个排', 10.433503923090395),
 ('一个碗', 10.433503923090395),
 ('一个零', 10.433503923090395),
 ('一中全会', 10.433503923090395),
 ('一举三得', 10.433503923090395),
 ('一举数得', 10.433503923090395),
 ('一九七', 10.433503923090395),
 ('一九九七年', 10.433503923090395),
 ('一九九三年', 10.433503923090395),
 ('一九九二年', 10.433503923090395),
 ('一九九五年', 10.433503923090395),
 ('一九四九年', 10.433503923090395),
 ('一了百了', 10.433503923090395),
 ('一二九', 10.433503923090395),
 ('一二十年', 10.433503923090395),
 ('一人会', 10.43350392

### 用朴素贝叶斯来训练

In [25]:
X_train=tfidf_vect.transform(train['文本'])
X_test=tfidf_vect.transform(test['文本'])
clf.fit(X_train, train['label'])
y_predicted2 = clf.predict(X_test)
accuracy_score(test['label'],y_predicted2)

0.9211

### 居然比没有处理非汉字字符前的准确率还要低。我们拿出来一个例子看看

In [26]:
np.setdiff1d(np.where(test['label']!=y_predicted2)[0],np.where(test['label']!=y_predicted))

array([1988, 2035, 2058, 2269, 2286, 2324, 2358, 2462, 2478, 2671, 2716,
       2739, 2762, 2801, 2834, 2864, 2895, 2912, 2934, 2937, 2947, 3169,
       3211, 3215, 3993, 4186, 4356, 4408, 4415, 4498, 4618, 4772, 4972,
       5136, 5389, 5429, 5511, 5545, 6203, 6519, 6672, 7031, 7064, 7069,
       7636, 7663, 7693, 7841, 7879, 7943, 8120, 8454, 8612, 8974, 9282,
       9332, 9996])

In [27]:
test.iloc[2035]['文本']

'元洲 李泰岩 ： 吴厚斌 用 “ 厚脸皮 ” 举得 成功 李泰岩 ： 写诗 都 是 多年 以前 的 事情 了 。 跟 吴厚斌 这么 多年 都 是 挺 好 的 朋友 ， 出 这个 诗集 ， 他 在 给我发 第三个 短信 在 说 ， 我 说 你 是不是 想 出本 诗集 ， 他 当时 没 回答 我 ， 吴厚斌 ， 我 跟 大家 分享 一下 跟 他 的 感觉 。 前面 写 几首 诗 ， 开始 的 时候 我 说 我们 这个 圈子 还有 人干 这个 事 呢 。 因为 我 身边 还有 一些 朋友 他们 还 在 坚持 。 去年 在 宋庄 ， 有 一个 诗人 差点 死 了 ， 吃不上 饭 ， 病 在 家里 没人管 ， 有 一些 人 在 坚持 自己 的 人生 理想 ， 很 痛苦 地 艰苦 ， 吴厚斌 衣食无忧 ， 又 做 名记 ， 我 觉得 真是 一首一首 给我发 ， 我 记得 有 一次 回 了 他 一首 。 我 说 你 写 的 挑不出 一句 好 的 来 。 不是 说 诗 不好 ， 我 是 觉得 他 有点 附庸风雅 ， 脸皮厚 就 厚 在 真的 坚持 下来 了 。 前几次 他 给我发 短信 ， 我 说 这 家伙 今天 又 写 了 一个 ， 经常 还 重复 地发 ， 慢慢 慢慢 地 我 觉得 越写 越 有 感觉 了 ， 我 觉得 今天 能出 这 本书 ， 关键在于 脸皮厚 ， 脸皮厚 在于 对 一件 事情 真的 坚持 下来 。 任何 一个 人 执着 地 坚持 ， 都 会 成功 。 今天 我们 家居 圈 的 老朋友 ， 大家 每 一个 人 ， 我们 行业 1997 年 到 现在 ， 谁 不是 凭着 这份 执著 坚持 下来 的 。 所以 在 这里 为了 吴厚斌 的 厚脸皮 鼓掌 。 再 一个 是 吴厚斌 在 这个 行业 里 ， 坚持 这么 多年 ， 他 在 这个 行业 ， 我们 做 媒体 的 ， 大家 走来走去 变化 很多 ， 他 是 比较 关注 行业 深刻 的 变化 、 深刻 的 发展 ， 这么 多年 一直 坚持 ， 这是 第三 本书 ， 我 相信 他 的 第四 本书 ， 也 会 慢慢 做 出来 。 若干年 后 我们 回头 看 的 时候 ， 能 看到 吴厚斌 在 这 各 行业 里 慢慢 积累 、 沉淀 ， 记录 这个 行业 的 成长 和 发展 。 在 这里 祝贺 吴厚斌 诗集 出版 。 

In [28]:
test.iloc[2035]['类型']

'家居'

In [29]:
read_idx(y_predicted2[2035])

'娱乐'

### 还是有点奇怪的。我们从文档的平均长度入手，看看能否看到一些文档的规律

In [30]:
train['length'] = train['文本'].apply(lambda x:len(x.strip().split()))
test['length'] = test['文本'].apply(lambda x:len(x.strip().split()))

In [31]:
train.head()

Unnamed: 0,类型,文本,label,length
0,体育,马晓旭 意外 受伤 让 国奥 警惕 无奈 大雨 格外 青睐 殷家 军 记者 傅亚雨 沈阳...,0,447
1,体育,商瑞华 首战 复仇 心切 中国 玫瑰 要 用 美国 方式 攻克 瑞典 多曼来 了 ， 瑞...,0,957
2,体育,冠军 球队 迎新 欢乐 派对 黄旭获 大奖 张军 赢 下 PK 赛 新浪 体育讯 12 ...,0,1052
3,体育,辽足 签约 危机 引 注册 难关 高层 威逼利诱 合同 笑里藏刀 新浪 体育讯 2 月 ...,0,921
4,体育,揭秘 谢亚龙 被 带走 ： 总局 电话 骗局 复制 南杨 轨迹 体坛周报 特约记者 张锐...,0,527


In [32]:
def average_len(data,target):
    return np.mean(data['length'][data['label'] == target])

In [33]:
for i in range(10):
    mean_len = average_len(pd.concat([train,test]),i)
    print('{}的平均长度：{}'.format(read_idx(i),mean_len))

体育的平均长度：538.4318333333333
财经的平均长度：589.365
房产的平均长度：816.1973333333333
家居的平均长度：246.25833333333333
教育的平均长度：735.0485
科技的平均长度：505.49133333333333
时尚的平均长度：284.9225
时政的平均长度：407.0061666666667
游戏的平均长度：492.8788333333333
娱乐的平均长度：693.4683333333334


### 貌似"家居"和“时尚”的长度要总体较小。我们把文章长度可以加入feature

In [34]:
from scipy.sparse import csr_matrix, hstack
X_train = hstack([X_train, csr_matrix(train['length']).T], 'csr')
X_test = hstack([X_test, csr_matrix(test['length']).T], 'csr')

### 使用Logistic Regression来尝试分类

In [35]:
from sklearn.multiclass import OneVsRestClassifier
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(verbose=True)
lr.fit(X_train, train['label'])



[LibLinear]

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='warn',
          n_jobs=None, penalty='l2', random_state=None, solver='warn',
          tol=0.0001, verbose=True, warm_start=False)

In [37]:
y_predicted3 = lr.predict(X_test)
accuracy_score(test['label'],y_predicted3)

0.9347

### 我们可以看到，准确率上升到93%。接下来我们看看不同种类的文档的数字平均值

In [42]:
train['digits'] = train['文本'].apply(lambda x: len(''.join([a for a in x if a.isdigit()])))
test['digits'] = test['文本'].apply(lambda x: len(''.join([a for a in x if a.isdigit()])))

In [43]:
def average_digit(data,target):
    return np.mean(data['digits'][data['label'] == target])

In [45]:
for i in range(10):
    mean_len = average_digit(pd.concat([train,test]),i)
    print('{}的平均数字个数：{}'.format(read_idx(i),mean_len))

体育的平均数字个数：39.337666666666664
财经的平均数字个数：58.64066666666667
房产的平均数字个数：61.19833333333333
家居的平均数字个数：7.2025
教育的平均数字个数：36.43983333333333
科技的平均数字个数：43.59583333333333
时尚的平均数字个数：8.760833333333334
时政的平均数字个数：21.5915
游戏的平均数字个数：31.441166666666668
娱乐的平均数字个数：17.7455


### 貌似“家居”和“时尚”的数字要少一些。再进行LR训练

In [46]:
from scipy.sparse import csr_matrix, hstack
X_train = hstack([X_train, csr_matrix(train['digits']).T], 'csr')
X_test = hstack([X_test, csr_matrix(test['digits']).T], 'csr')

In [47]:
lr = LogisticRegression(verbose=True)
lr.fit(X_train, train['label'])



[LibLinear]

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='warn',
          n_jobs=None, penalty='l2', random_state=None, solver='warn',
          tol=0.0001, verbose=True, warm_start=False)

### 有一点提升，但是不多。貌似我们yong

In [49]:
y_predicted4 = lr.predict(X_test)
accuracy_score(test['label'],y_predicted4)

0.9373