## 基于深度学习的文本分类

- Word2Vec
- 全连接神经网络
- LSTM
- GRU

In [18]:
import pandas as pd
import numpy as np

### 读取数据

In [12]:
data = pd.read_csv("all_data.csv")
data.head()

Unnamed: 0,分类,正文,文本分词
0,艺术,﻿【 文献号 】1-2432\r\n【原文出处】出版发行研究\r\n【原刊地名】京\r\n【...,﻿ 【 文献号 】 1 - 2432 \r\n 【 原文 出处 】 出版发行 研究 ...
1,艺术,﻿【 文献号 】1-2435\r\n【原文出处】扬州师院学报：社科版\r\n【原刊期号】19...,﻿ 【 文献号 】 1 - 2435 \r\n 【 原文 出处 】 扬州 师院 学报...
2,艺术,﻿【 文献号 】1-2785\r\n【原文出处】南通师专学报：社科版\r\n【原刊期号】19...,﻿ 【 文献号 】 1 - 2785 \r\n 【 原文 出处 】 南通 师专 学报...
3,艺术,﻿【 文献号 】1-3021\r\n【原文出处】社会科学战线\r\n【原刊地名】长春\r\n...,﻿ 【 文献号 】 1 - 3021 \r\n 【 原文 出处 】 社会科学 战线 ...
4,艺术,﻿【 文献号 】1-3062\r\n【原文出处】上海文化\r\n【原刊期号】199505\r...,﻿ 【 文献号 】 1 - 3062 \r\n 【 原文 出处 】 上海 文化 \r...


### 编码类别标签

In [13]:
from sklearn import preprocessing

encode = preprocessing.LabelEncoder()
label =  encode.fit_transform(data['分类'].values)

### 划分训练集和验证集

In [14]:
from sklearn.model_selection import train_test_split

X_train,X_valid,Y_train,Y_valid = train_test_split(data['文本分词'].values, label,stratify=label, random_state=42, test_size=0.1,shuffle=True ) 
# stratify=y : 按照数据集中y的比例分配给train和test，使得train和test中各类别数据的比例与原数据集的比例一致。
print (X_train.shape)
print (X_valid.shape)

(8324,)
(925,)


### 训练词向量

In [15]:
X=data['文本分词']
X = [i.split() for i in X]

In [5]:
import gensim

# 训练100维词向量
model = gensim.models.Word2Vec(X, min_count=5, window=8, size=100) # X 是分词后的文本构成的列表
embed_indx = dict(zip(model.wv.index2word, model.wv.vectors)) # 字典：词-词向量
print("词向量数量：%s" % len(embed_indx))

paramiko missing, opening SSH/SCP/SFTP paths will be disabled.  `pip install paramiko` to suppress


词向量数量：119775


### 文本向量化

In [19]:
import jieba
from tqdm import tqdm

stop_words = [line.strip() for line in open('中文停用词表.txt', 'r', encoding='utf-8').readlines()] # 停用词表

# 将语句转化为一个标准化的向量：各个词的向量求和再标准化
def sen2vec(s,model):

    words = [w for w in s.split() if w not in stop_words]
    M = []
    for w in words:
        try:
            M.append(model[w]) # 查询对应的词向量
        except:
            continue
    M = np.array(M)
    v = M.sum(axis=0) # 每一列求和
    if type(v) !=np.ndarray:
        return np.zeros(300)
    return v / np.sqrt((v**2).sum()) # 标准化

X_train_wv = [sen2vec(x,model) for x in tqdm(X_train)]
X_valid_wv = [sen2vec(x,model) for x in tqdm(X_valid)]

X_train_wv = np.array(X_train_wv)
X_valid_wv = np.array(X_valid_wv)



  del sys.path[0]


  0%|                                                                                 | 5/8324 [00:00<03:35, 38.63it/s]

  0%|                                                                                 | 7/8324 [00:00<04:39, 29.78it/s]

  0%|                                                                                 | 9/8324 [00:00<06:18, 22.00it/s]

  0%|                                                                                | 13/8324 [00:00<05:28, 25.30it/s]

  0%|▏                                                                               | 17/8324 [00:00<05:11, 26.66it/s]

  0%|▏                                                                               | 21/8324 [00:00<04:49, 28.66it/s]

  0%|▏                                                                               | 24/8324 [00:00<05:28, 25.30it/s]

  0%|▎                                                                               | 27/8324 [00:01<05:36, 24.63it/s]

  0%|▎    

  3%|██▌                                                                            | 272/8324 [00:08<03:57, 33.96it/s]

  3%|██▌                                                                            | 276/8324 [00:09<04:06, 32.68it/s]

  3%|██▋                                                                            | 280/8324 [00:09<04:44, 28.30it/s]

  3%|██▋                                                                            | 285/8324 [00:09<04:38, 28.85it/s]

  4%|██▊                                                                            | 292/8324 [00:09<03:54, 34.28it/s]

  4%|██▊                                                                            | 296/8324 [00:09<04:04, 32.87it/s]

  4%|██▊                                                                            | 302/8324 [00:09<03:50, 34.75it/s]

  4%|██▉                                                                            | 307/8324 [00:09<03:37, 36.92it/s]

  4%|██▉                        

  7%|█████▍                                                                         | 572/8324 [00:18<04:52, 26.51it/s]

  7%|█████▍                                                                         | 577/8324 [00:18<04:43, 27.36it/s]

  7%|█████▌                                                                         | 580/8324 [00:18<05:26, 23.70it/s]

  7%|█████▌                                                                         | 583/8324 [00:18<05:10, 24.96it/s]

  7%|█████▌                                                                         | 588/8324 [00:18<04:30, 28.61it/s]

  7%|█████▋                                                                         | 593/8324 [00:18<04:02, 31.87it/s]

  7%|█████▋                                                                         | 597/8324 [00:18<04:13, 30.53it/s]

  7%|█████▋                                                                         | 601/8324 [00:19<03:56, 32.69it/s]

  7%|█████▊                     

 11%|████████▍                                                                      | 889/8324 [00:27<03:40, 33.64it/s]

 11%|████████▍                                                                      | 893/8324 [00:27<03:47, 32.73it/s]

 11%|████████▌                                                                      | 899/8324 [00:27<03:23, 36.50it/s]

 11%|████████▌                                                                      | 903/8324 [00:27<03:29, 35.42it/s]

 11%|████████▌                                                                      | 907/8324 [00:27<04:01, 30.74it/s]

 11%|████████▋                                                                      | 912/8324 [00:27<03:36, 34.29it/s]

 11%|████████▋                                                                      | 916/8324 [00:27<03:57, 31.17it/s]

 11%|████████▋                                                                      | 920/8324 [00:28<03:53, 31.72it/s]

 11%|████████▊                  

 14%|███████████▏                                                                  | 1188/8324 [00:36<03:53, 30.54it/s]

 14%|███████████▏                                                                  | 1192/8324 [00:36<03:44, 31.73it/s]

 14%|███████████▏                                                                  | 1196/8324 [00:36<04:05, 29.06it/s]

 14%|███████████▏                                                                  | 1200/8324 [00:36<04:24, 26.90it/s]

 14%|███████████▎                                                                  | 1203/8324 [00:36<04:37, 25.65it/s]

 15%|███████████▎                                                                  | 1207/8324 [00:36<04:20, 27.36it/s]

 15%|███████████▎                                                                  | 1212/8324 [00:36<03:45, 31.49it/s]

 15%|███████████▍                                                                  | 1219/8324 [00:37<03:17, 35.99it/s]

 15%|███████████▍               

 18%|█████████████▊                                                                | 1480/8324 [00:45<03:12, 35.63it/s]

 18%|█████████████▉                                                                | 1484/8324 [00:45<03:16, 34.75it/s]

 18%|█████████████▉                                                                | 1488/8324 [00:45<03:32, 32.22it/s]

 18%|█████████████▉                                                                | 1493/8324 [00:45<03:28, 32.70it/s]

 18%|██████████████                                                                | 1498/8324 [00:45<03:16, 34.76it/s]

 18%|██████████████                                                                | 1503/8324 [00:45<03:04, 36.88it/s]

 18%|██████████████                                                                | 1507/8324 [00:45<03:33, 31.95it/s]

 18%|██████████████▏                                                               | 1513/8324 [00:46<03:09, 35.86it/s]

 18%|██████████████▏            

 22%|████████████████▊                                                             | 1798/8324 [00:54<03:28, 31.30it/s]

 22%|████████████████▉                                                             | 1802/8324 [00:54<03:23, 32.05it/s]

 22%|████████████████▉                                                             | 1806/8324 [00:54<03:26, 31.51it/s]

 22%|████████████████▉                                                             | 1810/8324 [00:54<03:30, 30.96it/s]

 22%|████████████████▉                                                             | 1814/8324 [00:54<03:24, 31.79it/s]

 22%|█████████████████                                                             | 1819/8324 [00:55<03:15, 33.27it/s]

 22%|█████████████████                                                             | 1825/8324 [00:55<03:00, 35.95it/s]

 22%|█████████████████▏                                                            | 1829/8324 [00:55<03:05, 34.96it/s]

 22%|█████████████████▏         

 25%|███████████████████▋                                                          | 2097/8324 [01:03<02:52, 36.20it/s]

 25%|███████████████████▋                                                          | 2101/8324 [01:03<02:51, 36.37it/s]

 25%|███████████████████▋                                                          | 2106/8324 [01:03<02:44, 37.84it/s]

 25%|███████████████████▊                                                          | 2111/8324 [01:03<02:34, 40.16it/s]

 25%|███████████████████▊                                                          | 2116/8324 [01:04<02:38, 39.16it/s]

 25%|███████████████████▊                                                          | 2121/8324 [01:04<02:54, 35.53it/s]

 26%|███████████████████▉                                                          | 2126/8324 [01:04<02:40, 38.66it/s]

 26%|███████████████████▉                                                          | 2131/8324 [01:04<02:35, 39.73it/s]

 26%|████████████████████       

 29%|██████████████████████▌                                                       | 2408/8324 [01:12<04:08, 23.79it/s]

 29%|██████████████████████▌                                                       | 2413/8324 [01:12<03:40, 26.86it/s]

 29%|██████████████████████▋                                                       | 2417/8324 [01:12<03:25, 28.78it/s]

 29%|██████████████████████▋                                                       | 2422/8324 [01:13<03:09, 31.21it/s]

 29%|██████████████████████▋                                                       | 2426/8324 [01:13<03:13, 30.48it/s]

 29%|██████████████████████▊                                                       | 2431/8324 [01:13<03:00, 32.57it/s]

 29%|██████████████████████▊                                                       | 2435/8324 [01:13<03:08, 31.23it/s]

 29%|██████████████████████▊                                                       | 2439/8324 [01:13<03:23, 28.96it/s]

 29%|██████████████████████▉    

 33%|█████████████████████████▍                                                    | 2714/8324 [01:22<02:43, 34.38it/s]

 33%|█████████████████████████▍                                                    | 2719/8324 [01:22<03:04, 30.36it/s]

 33%|█████████████████████████▌                                                    | 2723/8324 [01:22<02:53, 32.27it/s]

 33%|█████████████████████████▌                                                    | 2728/8324 [01:22<02:39, 34.98it/s]

 33%|█████████████████████████▌                                                    | 2732/8324 [01:22<02:47, 33.34it/s]

 33%|█████████████████████████▋                                                    | 2736/8324 [01:22<02:52, 32.40it/s]

 33%|█████████████████████████▋                                                    | 2740/8324 [01:22<02:56, 31.60it/s]

 33%|█████████████████████████▋                                                    | 2745/8324 [01:22<02:43, 34.19it/s]

 33%|█████████████████████████▊ 

 36%|████████████████████████████▏                                                 | 3008/8324 [01:31<02:42, 32.81it/s]

 36%|████████████████████████████▏                                                 | 3012/8324 [01:31<02:34, 34.37it/s]

 36%|████████████████████████████▎                                                 | 3016/8324 [01:31<02:52, 30.74it/s]

 36%|████████████████████████████▎                                                 | 3021/8324 [01:31<02:48, 31.50it/s]

 36%|████████████████████████████▎                                                 | 3025/8324 [01:31<02:38, 33.42it/s]

 36%|████████████████████████████▍                                                 | 3030/8324 [01:31<02:27, 35.84it/s]

 36%|████████████████████████████▍                                                 | 3035/8324 [01:31<02:20, 37.69it/s]

 37%|████████████████████████████▍                                                 | 3039/8324 [01:32<02:18, 38.20it/s]

 37%|███████████████████████████

 40%|███████████████████████████████                                               | 3310/8324 [01:40<02:26, 34.11it/s]

 40%|███████████████████████████████                                               | 3316/8324 [01:40<02:11, 37.98it/s]

 40%|███████████████████████████████                                               | 3321/8324 [01:40<02:11, 37.95it/s]

 40%|███████████████████████████████▏                                              | 3326/8324 [01:40<02:39, 31.32it/s]

 40%|███████████████████████████████▏                                              | 3330/8324 [01:40<02:43, 30.50it/s]

 40%|███████████████████████████████▏                                              | 3334/8324 [01:40<02:38, 31.40it/s]

 40%|███████████████████████████████▎                                              | 3338/8324 [01:40<02:29, 33.40it/s]

 40%|███████████████████████████████▎                                              | 3342/8324 [01:41<02:38, 31.37it/s]

 40%|███████████████████████████

 43%|█████████████████████████████████▉                                            | 3618/8324 [01:49<01:59, 39.33it/s]

 44%|█████████████████████████████████▉                                            | 3623/8324 [01:49<02:31, 30.97it/s]

 44%|█████████████████████████████████▉                                            | 3627/8324 [01:49<02:30, 31.24it/s]

 44%|██████████████████████████████████                                            | 3631/8324 [01:50<02:31, 31.07it/s]

 44%|██████████████████████████████████                                            | 3635/8324 [01:50<02:43, 28.73it/s]

 44%|██████████████████████████████████                                            | 3639/8324 [01:50<02:47, 27.91it/s]

 44%|██████████████████████████████████▏                                           | 3643/8324 [01:50<02:43, 28.55it/s]

 44%|██████████████████████████████████▏                                           | 3646/8324 [01:50<02:58, 26.22it/s]

 44%|███████████████████████████

 47%|████████████████████████████████████▌                                         | 3906/8324 [01:58<01:45, 41.85it/s]

 47%|████████████████████████████████████▋                                         | 3911/8324 [01:58<01:40, 43.75it/s]

 47%|████████████████████████████████████▋                                         | 3916/8324 [01:58<01:53, 38.84it/s]

 47%|████████████████████████████████████▋                                         | 3921/8324 [01:59<01:58, 37.11it/s]

 47%|████████████████████████████████████▊                                         | 3926/8324 [01:59<01:54, 38.35it/s]

 47%|████████████████████████████████████▊                                         | 3930/8324 [01:59<02:14, 32.74it/s]

 47%|████████████████████████████████████▊                                         | 3934/8324 [01:59<02:13, 32.98it/s]

 47%|████████████████████████████████████▉                                         | 3938/8324 [01:59<02:06, 34.67it/s]

 47%|███████████████████████████

 50%|███████████████████████████████████████▏                                      | 4185/8324 [02:07<02:10, 31.83it/s]

 50%|███████████████████████████████████████▎                                      | 4189/8324 [02:08<02:31, 27.36it/s]

 50%|███████████████████████████████████████▎                                      | 4193/8324 [02:08<02:33, 26.96it/s]

 50%|███████████████████████████████████████▎                                      | 4197/8324 [02:08<02:28, 27.77it/s]

 50%|███████████████████████████████████████▎                                      | 4200/8324 [02:08<03:05, 22.24it/s]

 50%|███████████████████████████████████████▍                                      | 4203/8324 [02:08<03:05, 22.17it/s]

 51%|███████████████████████████████████████▍                                      | 4207/8324 [02:08<03:00, 22.83it/s]

 51%|███████████████████████████████████████▍                                      | 4210/8324 [02:08<02:55, 23.38it/s]

 51%|███████████████████████████

 54%|█████████████████████████████████████████▊                                    | 4461/8324 [02:17<01:53, 33.92it/s]

 54%|█████████████████████████████████████████▊                                    | 4465/8324 [02:17<02:07, 30.18it/s]

 54%|█████████████████████████████████████████▉                                    | 4469/8324 [02:17<02:31, 25.49it/s]

 54%|█████████████████████████████████████████▉                                    | 4472/8324 [02:17<02:50, 22.62it/s]

 54%|█████████████████████████████████████████▉                                    | 4475/8324 [02:17<02:45, 23.24it/s]

 54%|█████████████████████████████████████████▉                                    | 4479/8324 [02:17<02:29, 25.76it/s]

 54%|█████████████████████████████████████████▉                                    | 4482/8324 [02:18<02:29, 25.78it/s]

 54%|██████████████████████████████████████████                                    | 4486/8324 [02:18<02:13, 28.68it/s]

 54%|███████████████████████████

 57%|████████████████████████████████████████████                                  | 4704/8324 [02:26<01:46, 33.85it/s]

 57%|████████████████████████████████████████████                                  | 4708/8324 [02:26<01:42, 35.41it/s]

 57%|████████████████████████████████████████████▏                                 | 4712/8324 [02:27<01:52, 32.13it/s]

 57%|████████████████████████████████████████████▏                                 | 4718/8324 [02:27<01:38, 36.45it/s]

 57%|████████████████████████████████████████████▏                                 | 4722/8324 [02:27<01:54, 31.55it/s]

 57%|████████████████████████████████████████████▎                                 | 4726/8324 [02:27<02:00, 29.90it/s]

 57%|████████████████████████████████████████████▎                                 | 4731/8324 [02:27<01:55, 30.98it/s]

 57%|████████████████████████████████████████████▎                                 | 4735/8324 [02:27<01:50, 32.63it/s]

 57%|███████████████████████████

 60%|██████████████████████████████████████████████▋                               | 4982/8324 [02:36<01:49, 30.58it/s]

 60%|██████████████████████████████████████████████▋                               | 4986/8324 [02:36<01:57, 28.51it/s]

 60%|██████████████████████████████████████████████▊                               | 4990/8324 [02:36<01:51, 29.80it/s]

 60%|██████████████████████████████████████████████▊                               | 4994/8324 [02:36<01:58, 28.06it/s]

 60%|██████████████████████████████████████████████▊                               | 4999/8324 [02:36<01:49, 30.24it/s]

 60%|██████████████████████████████████████████████▉                               | 5003/8324 [02:36<01:59, 27.82it/s]

 60%|██████████████████████████████████████████████▉                               | 5006/8324 [02:37<02:00, 27.43it/s]

 60%|██████████████████████████████████████████████▉                               | 5009/8324 [02:37<02:13, 24.76it/s]

 60%|███████████████████████████

 63%|█████████████████████████████████████████████████▎                            | 5258/8324 [02:45<01:50, 27.67it/s]

 63%|█████████████████████████████████████████████████▎                            | 5262/8324 [02:46<01:45, 29.12it/s]

 63%|█████████████████████████████████████████████████▎                            | 5268/8324 [02:46<01:40, 30.36it/s]

 63%|█████████████████████████████████████████████████▍                            | 5272/8324 [02:46<01:52, 27.18it/s]

 63%|█████████████████████████████████████████████████▍                            | 5279/8324 [02:46<01:35, 32.02it/s]

 63%|█████████████████████████████████████████████████▌                            | 5283/8324 [02:46<01:45, 28.87it/s]

 64%|█████████████████████████████████████████████████▌                            | 5287/8324 [02:46<01:38, 30.91it/s]

 64%|█████████████████████████████████████████████████▌                            | 5293/8324 [02:46<01:30, 33.37it/s]

 64%|███████████████████████████

 67%|███████████████████████████████████████████████████▉                          | 5540/8324 [02:55<01:31, 30.44it/s]

 67%|███████████████████████████████████████████████████▉                          | 5545/8324 [02:55<01:21, 34.01it/s]

 67%|███████████████████████████████████████████████████▉                          | 5549/8324 [02:55<01:35, 28.95it/s]

 67%|████████████████████████████████████████████████████                          | 5553/8324 [02:55<01:36, 28.74it/s]

 67%|████████████████████████████████████████████████████                          | 5558/8324 [02:55<01:27, 31.59it/s]

 67%|████████████████████████████████████████████████████                          | 5562/8324 [02:55<01:35, 28.86it/s]

 67%|████████████████████████████████████████████████████▏                         | 5566/8324 [02:56<01:36, 28.66it/s]

 67%|████████████████████████████████████████████████████▏                         | 5570/8324 [02:56<01:28, 31.19it/s]

 67%|███████████████████████████

 70%|██████████████████████████████████████████████████████▌                       | 5819/8324 [03:04<01:40, 24.92it/s]

 70%|██████████████████████████████████████████████████████▌                       | 5823/8324 [03:04<01:31, 27.47it/s]

 70%|██████████████████████████████████████████████████████▌                       | 5826/8324 [03:04<02:02, 20.44it/s]

 70%|██████████████████████████████████████████████████████▋                       | 5830/8324 [03:05<01:49, 22.75it/s]

 70%|██████████████████████████████████████████████████████▋                       | 5833/8324 [03:05<02:05, 19.82it/s]

 70%|██████████████████████████████████████████████████████▋                       | 5837/8324 [03:05<01:59, 20.88it/s]

 70%|██████████████████████████████████████████████████████▋                       | 5840/8324 [03:05<01:53, 21.98it/s]

 70%|██████████████████████████████████████████████████████▊                       | 5843/8324 [03:05<01:47, 22.98it/s]

 70%|███████████████████████████

 73%|████████████████████████████████████████████████████████▊                     | 6059/8324 [03:14<01:09, 32.52it/s]

 73%|████████████████████████████████████████████████████████▊                     | 6063/8324 [03:14<01:21, 27.60it/s]

 73%|████████████████████████████████████████████████████████▊                     | 6066/8324 [03:14<01:28, 25.47it/s]

 73%|████████████████████████████████████████████████████████▉                     | 6070/8324 [03:15<01:28, 25.38it/s]

 73%|████████████████████████████████████████████████████████▉                     | 6076/8324 [03:15<01:17, 28.89it/s]

 73%|████████████████████████████████████████████████████████▉                     | 6080/8324 [03:15<01:21, 27.58it/s]

 73%|█████████████████████████████████████████████████████████                     | 6085/8324 [03:15<01:10, 31.81it/s]

 73%|█████████████████████████████████████████████████████████                     | 6089/8324 [03:15<01:11, 31.24it/s]

 73%|███████████████████████████

 76%|███████████████████████████████████████████████████████████▍                  | 6345/8324 [03:24<01:16, 25.86it/s]

 76%|███████████████████████████████████████████████████████████▍                  | 6349/8324 [03:24<01:19, 24.73it/s]

 76%|███████████████████████████████████████████████████████████▌                  | 6352/8324 [03:24<01:16, 25.69it/s]

 76%|███████████████████████████████████████████████████████████▌                  | 6356/8324 [03:24<01:16, 25.85it/s]

 76%|███████████████████████████████████████████████████████████▌                  | 6359/8324 [03:24<01:15, 26.16it/s]

 76%|███████████████████████████████████████████████████████████▌                  | 6363/8324 [03:25<01:11, 27.26it/s]

 76%|███████████████████████████████████████████████████████████▋                  | 6367/8324 [03:25<01:05, 29.96it/s]

 77%|███████████████████████████████████████████████████████████▋                  | 6371/8324 [03:25<01:00, 32.40it/s]

 77%|███████████████████████████

 80%|██████████████████████████████████████████████████████████████                | 6625/8324 [03:33<00:53, 31.78it/s]

 80%|██████████████████████████████████████████████████████████████                | 6629/8324 [03:33<00:54, 31.20it/s]

 80%|██████████████████████████████████████████████████████████████▏               | 6633/8324 [03:33<00:58, 28.90it/s]

 80%|██████████████████████████████████████████████████████████████▏               | 6637/8324 [03:34<00:57, 29.32it/s]

 80%|██████████████████████████████████████████████████████████████▏               | 6641/8324 [03:34<00:53, 31.48it/s]

 80%|██████████████████████████████████████████████████████████████▎               | 6647/8324 [03:34<00:49, 33.83it/s]

 80%|██████████████████████████████████████████████████████████████▎               | 6651/8324 [03:34<00:53, 31.32it/s]

 80%|██████████████████████████████████████████████████████████████▎               | 6655/8324 [03:34<00:57, 28.78it/s]

 80%|███████████████████████████

 83%|████████████████████████████████████████████████████████████████▍             | 6879/8324 [03:42<01:03, 22.76it/s]

 83%|████████████████████████████████████████████████████████████████▌             | 6884/8324 [03:42<00:53, 27.15it/s]

 83%|████████████████████████████████████████████████████████████████▌             | 6888/8324 [03:42<00:51, 27.89it/s]

 83%|████████████████████████████████████████████████████████████████▌             | 6892/8324 [03:43<00:49, 28.73it/s]

 83%|████████████████████████████████████████████████████████████████▌             | 6896/8324 [03:43<00:47, 30.28it/s]

 83%|████████████████████████████████████████████████████████████████▋             | 6900/8324 [03:43<00:52, 27.06it/s]

 83%|████████████████████████████████████████████████████████████████▋             | 6903/8324 [03:43<01:02, 22.64it/s]

 83%|████████████████████████████████████████████████████████████████▋             | 6909/8324 [03:43<00:52, 26.88it/s]

 83%|███████████████████████████

 86%|███████████████████████████████████████████████████████████████████▏          | 7168/8324 [03:52<00:53, 21.52it/s]

 86%|███████████████████████████████████████████████████████████████████▏          | 7171/8324 [03:52<00:49, 23.34it/s]

 86%|███████████████████████████████████████████████████████████████████▏          | 7174/8324 [03:52<00:49, 23.13it/s]

 86%|███████████████████████████████████████████████████████████████████▎          | 7177/8324 [03:52<00:47, 24.19it/s]

 86%|███████████████████████████████████████████████████████████████████▎          | 7180/8324 [03:52<00:53, 21.30it/s]

 86%|███████████████████████████████████████████████████████████████████▎          | 7184/8324 [03:52<00:46, 24.31it/s]

 86%|███████████████████████████████████████████████████████████████████▎          | 7188/8324 [03:53<00:45, 25.20it/s]

 86%|███████████████████████████████████████████████████████████████████▍          | 7191/8324 [03:53<00:43, 26.23it/s]

 86%|███████████████████████████

 89%|█████████████████████████████████████████████████████████████████████▌        | 7428/8324 [04:01<00:30, 29.31it/s]

 89%|█████████████████████████████████████████████████████████████████████▋        | 7432/8324 [04:01<00:28, 31.37it/s]

 89%|█████████████████████████████████████████████████████████████████████▋        | 7436/8324 [04:01<00:27, 31.88it/s]

 89%|█████████████████████████████████████████████████████████████████████▋        | 7441/8324 [04:02<00:28, 31.38it/s]

 89%|█████████████████████████████████████████████████████████████████████▊        | 7445/8324 [04:02<00:27, 32.36it/s]

 89%|█████████████████████████████████████████████████████████████████████▊        | 7449/8324 [04:02<00:31, 27.72it/s]

 90%|█████████████████████████████████████████████████████████████████████▊        | 7455/8324 [04:02<00:29, 29.82it/s]

 90%|█████████████████████████████████████████████████████████████████████▉        | 7459/8324 [04:02<00:30, 27.98it/s]

 90%|███████████████████████████

 92%|████████████████████████████████████████████████████████████████████████      | 7691/8324 [04:11<00:22, 28.06it/s]

 92%|████████████████████████████████████████████████████████████████████████      | 7694/8324 [04:11<00:23, 26.56it/s]

 92%|████████████████████████████████████████████████████████████████████████▏     | 7698/8324 [04:11<00:24, 25.10it/s]

 93%|████████████████████████████████████████████████████████████████████████▏     | 7706/8324 [04:11<00:20, 30.27it/s]

 93%|████████████████████████████████████████████████████████████████████████▎     | 7711/8324 [04:11<00:17, 34.19it/s]

 93%|████████████████████████████████████████████████████████████████████████▎     | 7716/8324 [04:11<00:17, 35.38it/s]

 93%|████████████████████████████████████████████████████████████████████████▎     | 7720/8324 [04:12<00:16, 36.32it/s]

 93%|████████████████████████████████████████████████████████████████████████▍     | 7724/8324 [04:12<00:16, 35.63it/s]

 93%|███████████████████████████

 96%|██████████████████████████████████████████████████████████████████████████▋   | 7973/8324 [04:20<00:13, 26.36it/s]

 96%|██████████████████████████████████████████████████████████████████████████▋   | 7976/8324 [04:21<00:13, 25.72it/s]

 96%|██████████████████████████████████████████████████████████████████████████▊   | 7979/8324 [04:21<00:13, 25.78it/s]

 96%|██████████████████████████████████████████████████████████████████████████▊   | 7982/8324 [04:21<00:13, 25.43it/s]

 96%|██████████████████████████████████████████████████████████████████████████▊   | 7987/8324 [04:21<00:12, 26.07it/s]

 96%|██████████████████████████████████████████████████████████████████████████▊   | 7990/8324 [04:21<00:13, 24.99it/s]

 96%|██████████████████████████████████████████████████████████████████████████▉   | 7995/8324 [04:21<00:11, 27.94it/s]

 96%|██████████████████████████████████████████████████████████████████████████▉   | 8002/8324 [04:21<00:09, 32.55it/s]

 96%|███████████████████████████

 99%|█████████████████████████████████████████████████████████████████████████████▏| 8233/8324 [04:30<00:03, 24.69it/s]

 99%|█████████████████████████████████████████████████████████████████████████████▏| 8237/8324 [04:30<00:03, 27.04it/s]

 99%|█████████████████████████████████████████████████████████████████████████████▏| 8240/8324 [04:30<00:03, 25.28it/s]

 99%|█████████████████████████████████████████████████████████████████████████████▎| 8245/8324 [04:30<00:02, 29.66it/s]

 99%|█████████████████████████████████████████████████████████████████████████████▎| 8250/8324 [04:31<00:02, 30.04it/s]

 99%|█████████████████████████████████████████████████████████████████████████████▎| 8254/8324 [04:31<00:02, 28.72it/s]

 99%|█████████████████████████████████████████████████████████████████████████████▍| 8258/8324 [04:31<00:02, 30.14it/s]

 99%|█████████████████████████████████████████████████████████████████████████████▍| 8262/8324 [04:31<00:02, 25.62it/s]

 99%|███████████████████████████

 21%|████████████████▌                                                               | 191/925 [00:05<00:31, 23.00it/s]

 21%|████████████████▊                                                               | 194/925 [00:06<00:30, 23.70it/s]

 22%|█████████████████▏                                                              | 199/925 [00:06<00:27, 26.09it/s]

 22%|█████████████████▋                                                              | 205/925 [00:06<00:23, 31.21it/s]

 23%|██████████████████                                                              | 209/925 [00:06<00:26, 27.12it/s]

 23%|██████████████████▍                                                             | 213/925 [00:06<00:25, 27.72it/s]

 23%|██████████████████▊                                                             | 217/925 [00:06<00:26, 26.58it/s]

 24%|███████████████████                                                             | 221/925 [00:06<00:24, 29.30it/s]

 24%|███████████████████▍       

 52%|█████████████████████████████████████████▌                                      | 480/925 [00:14<00:13, 33.92it/s]

 52%|█████████████████████████████████████████▊                                      | 484/925 [00:15<00:14, 30.36it/s]

 53%|██████████████████████████████████████████▏                                     | 488/925 [00:15<00:13, 32.39it/s]

 53%|██████████████████████████████████████████▌                                     | 492/925 [00:15<00:16, 26.85it/s]

 54%|██████████████████████████████████████████▊                                     | 495/925 [00:15<00:17, 24.16it/s]

 54%|███████████████████████████████████████████                                     | 498/925 [00:15<00:17, 24.40it/s]

 54%|███████████████████████████████████████████▌                                    | 504/925 [00:15<00:14, 29.04it/s]

 55%|███████████████████████████████████████████▉                                    | 508/925 [00:15<00:15, 26.57it/s]

 55%|███████████████████████████

 82%|█████████████████████████████████████████████████████████████████▌              | 758/925 [00:24<00:05, 29.46it/s]

 82%|█████████████████████████████████████████████████████████████████▉              | 762/925 [00:24<00:05, 28.04it/s]

 83%|██████████████████████████████████████████████████████████████████▏             | 766/925 [00:24<00:05, 27.47it/s]

 83%|██████████████████████████████████████████████████████████████████▌             | 769/925 [00:25<00:06, 24.01it/s]

 84%|██████████████████████████████████████████████████████████████████▊             | 773/925 [00:25<00:05, 26.98it/s]

 84%|███████████████████████████████████████████████████████████████████             | 776/925 [00:25<00:05, 27.11it/s]

 84%|███████████████████████████████████████████████████████████████████▍            | 780/925 [00:25<00:04, 29.63it/s]

 85%|███████████████████████████████████████████████████████████████████▉            | 785/925 [00:25<00:04, 32.70it/s]

 85%|███████████████████████████

### 多分类损失函数

In [23]:
def multiclass_logloss(actual, predicted, eps=1e-15):
    """
     对数损失度量的多分类版本。
    :param actual: 包含actual target classes的数组
    :param predicted: 分类预测结果矩阵, 每个类别都有一个概率
    """
    # Convert 'actual' to a binary array if it's not already:
    if len(actual.shape) == 1:
        actual2 = np.zeros((actual.shape[0], predicted.shape[1])) # 将真实标签转化为矩阵[0,0,1,0,0]
        for i, val in enumerate(actual):
            actual2[i, val] = 1
        actual = actual2

    clip = np.clip(predicted, eps, 1 - eps) # eps最小，1-eps最大，避免求对数出现问题
    rows = actual.shape[0]
    vsota = np.sum(actual * np.log(clip)) # 两个矩阵各元素乘机之和
    return -1.0 / rows * vsota # 负的交叉熵之和除以样本数

### Xgboost

In [26]:
import xgboost as xgb
from sklearn.metrics import classification_report

boost = xgb.XGBClassifier(max_depth=7,n_estimator=200, colsample_bytree=0.8,subsample=0.8,nthread=-1,learning_rate=0.1,silent=False)
boost.fit(X_train_wv, Y_train)
pred = boost.predict_proba(X_valid_wv)

print("多分类交叉熵损失：%0.3f" % multiclass_logloss(Y_valid,pred))
#print(classification_report(pred, Y_valid))

多分类交叉熵损失：0.390


## 深度学习算法

### 数据准备

In [28]:
# 数据标准化
from sklearn import preprocessing

scale = preprocessing.StandardScaler()
X_train_wv_st = scale.fit_transform(X_train_wv)
X_valid_wv_st = scale.transform(X_valid_wv)

# 编码类别
from keras.utils import np_utils

Y_train_en = np_utils.to_categorical(Y_train) # 将整型标签转为onehot
Y_valid_en = np_utils.to_categorical(Y_valid)

Using TensorFlow backend.


### 全连接神经网络

In [51]:
from keras.models import Sequential
from keras.layers.core import Dense, Activation, Dropout
from keras.layers.normalization import BatchNormalization

from keras import metrics

model = Sequential()
model.add(Dense(500,input_dim=100,activation='relu'))
model.add(Dropout(0.2))
model.add(BatchNormalization())

model.add(Dense(300,activation='relu'))
model.add(Dropout(0.3))
model.add(BatchNormalization())

model.add(Dense(19))
model.add(Activation('softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam',metrics=[ metrics.categorical_accuracy]) 
# categorical_accuracy:对多分类问题,计算再所有预测值上的平均正确率

history = model.fit(X_train_wv_st,y=Y_train_en,batch_size=64,epochs=5,verbose=2,validation_data=(X_valid_wv_st,Y_valid_en))

Train on 8324 samples, validate on 925 samples
Epoch 1/5
 - 3s - loss: 0.8660 - categorical_accuracy: 0.7464 - val_loss: 0.4877 - val_categorical_accuracy: 0.8497
Epoch 2/5
 - 1s - loss: 0.5082 - categorical_accuracy: 0.8387 - val_loss: 0.4524 - val_categorical_accuracy: 0.8659
Epoch 3/5
 - 1s - loss: 0.4297 - categorical_accuracy: 0.8616 - val_loss: 0.3940 - val_categorical_accuracy: 0.8714
Epoch 4/5
 - 1s - loss: 0.3808 - categorical_accuracy: 0.8749 - val_loss: 0.3702 - val_categorical_accuracy: 0.8735
Epoch 5/5
 - 1s - loss: 0.3786 - categorical_accuracy: 0.8773 - val_loss: 0.3462 - val_categorical_accuracy: 0.8757


In [52]:
history_dict = history.history
history_dict.keys()

dict_keys(['val_loss', 'val_categorical_accuracy', 'loss', 'categorical_accuracy'])

### LSTM

#### 数据预处理

In [53]:
from keras.preprocessing import sequence, text

# https://blog.csdn.net/zzulp/article/details/76146947

token = text.Tokenizer(num_words=None) # 用来对文本中的词进行统计计数，生成文档词典，以支持基于词典位序生成文本的向量表示
max_len = 70

token.fit_on_texts(list(X_train) + list(X_valid)) #  使用一系列文档来生成token词典，texts为list类，每个元素为一个文档
X_train_seq = token.texts_to_sequences(X_train) #  将多个文档转换为word下标的向量形式,shape为[len(texts)，len(text)] 
X_valid_seq = token.texts_to_sequences(X_valid) # [[1, 2, 3, 4], [1, 2, 3, 5]] # 词的编号
# 通过词向量所处W矩阵的行号（index化）来表示原文，极大缩减了存储空间，还减少了训练时候的IO开销

X_train_pad = sequence.pad_sequences(X_train_seq,maxlen=max_len) #  将序列填充到maxlen长度,默认填0
X_valid_pad = sequence.pad_sequences(X_valid_seq,maxlen=max_len)
# pad_sequences(sequences, maxlen, padding=’pre’, truncating=’pre’, value=0.) 

word_index = token.word_index # 一个dict，保存所有word对应的编号id，从1开始
# 全部词向量组成的矩阵,增加0对应的词向量
embed_matrix = np.zeros((len(word_index)+1, 100)) ####### 加1的原因是上面补0了  http://blog.sina.com.cn/s/blog_1450ac3c60102x79x.html
for word , i in tqdm(word_index.items()): # 词，编号
    embed_vec = embed_indx.get(word) # 从词-词向量 字典查询对应的词向量
    if embed_vec is not None:
        embed_matrix[i] = embed_vec



  0%|                                                                                       | 0/381291 [00:00<?, ?it/s]

  1%|▉                                                                        | 4807/381291 [00:00<00:07, 47760.89it/s]

  3%|██                                                                      | 10837/381291 [00:00<00:07, 49667.89it/s]

  5%|███▎                                                                    | 17794/381291 [00:00<00:06, 54239.50it/s]

  7%|████▊                                                                   | 25342/381291 [00:00<00:06, 59138.76it/s]

  9%|██████▋                                                                 | 35421/381291 [00:00<00:05, 67444.67it/s]

 12%|████████▋                                                               | 46043/381291 [00:00<00:04, 73412.15it/s]

 15%|██████████▌                                                             | 56048/381291 [00:00<00:04, 79409.30it/s]

 17%|████████████▌            

In [54]:
embed_matrix.shape # 全部词向量矩阵

(381292, 100)

In [55]:
X_train_pad.shape # 每条文档补齐为一样长度：70

(8324, 70)

#### 构建模型

In [61]:
from keras.layers.recurrent import LSTM
from keras.layers.embeddings import Embedding
from keras.layers import  SpatialDropout1D

from keras.callbacks import EarlyStopping

model = Sequential()

model.add(Embedding(len(word_index)+1,100,weights=[embed_matrix],input_length=max_len,trainable=False)) 
# Embedding层可理解为将词编号映射为词向量
# 词汇表大小，词向量的维度，(矩阵W的行数和列数),weights就是权重矩阵,input_length 输入序列的长度，trainable采用训练好的词向量，所以False

model.add(SpatialDropout1D(0.3))
model.add(LSTM(100,dropout=0.3,recurrent_dropout=0.3))

model.add(Dense(1024,activation='relu'))
model.add(Dropout(0.8))

model.add(Dense(1024,activation='relu'))
model.add(Dropout(0.8))

model.add(Dense(19))
model.add(Activation('softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam',metrics=[ metrics.categorical_accuracy]) 
# categorical_accuracy:对多分类问题,计算再所有预测值上的平均正确率
earlystop = EarlyStopping(monitor='val_loss', min_delta=0, patience=3, verbose=0, mode='auto')

# X_train_pad 是词编号列表，
history = model.fit(X_train_pad,y=Y_train_en,batch_size=512,epochs=100,verbose=2,validation_data=(X_valid_pad,Y_valid_en),callbacks=[earlystop])

Train on 8324 samples, validate on 925 samples
Epoch 1/100
 - 15s - loss: 2.4188 - categorical_accuracy: 0.2071 - val_loss: 1.9807 - val_categorical_accuracy: 0.3092
Epoch 2/100
 - 21s - loss: 2.0502 - categorical_accuracy: 0.2841 - val_loss: 1.8419 - val_categorical_accuracy: 0.3546
Epoch 3/100
 - 21s - loss: 1.9339 - categorical_accuracy: 0.3203 - val_loss: 1.7412 - val_categorical_accuracy: 0.3805
Epoch 4/100
 - 18s - loss: 1.8530 - categorical_accuracy: 0.3555 - val_loss: 1.6788 - val_categorical_accuracy: 0.3989
Epoch 5/100
 - 16s - loss: 1.7976 - categorical_accuracy: 0.3800 - val_loss: 1.6098 - val_categorical_accuracy: 0.4378
Epoch 6/100
 - 16s - loss: 1.7456 - categorical_accuracy: 0.3969 - val_loss: 1.5563 - val_categorical_accuracy: 0.4541
Epoch 7/100
 - 22s - loss: 1.7012 - categorical_accuracy: 0.4163 - val_loss: 1.5149 - val_categorical_accuracy: 0.4746
Epoch 8/100
 - 16s - loss: 1.6572 - categorical_accuracy: 0.4296 - val_loss: 1.4707 - val_categorical_accuracy: 0.4876
E

## 双向LSTM

In [None]:
from keras.layers import Bidirectional

model = Sequential()

model.add(Embedding(len(word_index)+1,100,weights=[embed_matrix],input_length=max_len,trainable=False)) 
# Embedding层可理解为将词编号映射为词向量
# 词汇表大小，词向量的维度，(矩阵W的行数和列数),weights就是权重矩阵,input_length 输入序列的长度，trainable采用训练好的词向量，所以False

model.add(SpatialDropout1D(0.3))
model.add(Bidirectional(LSTM(100,dropout=0.3,recurrent_dropout=0.3))) #### 双向LSTM区别

model.add(Dense(1024,activation='relu'))
model.add(Dropout(0.8))

model.add(Dense(1024,activation='relu'))
model.add(Dropout(0.8))

model.add(Dense(19))
model.add(Activation('softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam',metrics=[ metrics.categorical_accuracy]) 
# categorical_accuracy:对多分类问题,计算再所有预测值上的平均正确率
earlystop = EarlyStopping(monitor='val_loss', min_delta=0, patience=3, verbose=0, mode='auto')

# X_train_pad 是词编号列表，
history = model.fit(X_train_pad,y=Y_train_en,batch_size=512,epochs=100,verbose=2,validation_data=(X_valid_pad,Y_valid_en),callbacks=[earlystop])

## GRU

In [None]:
from keras.layers.recurrent import GRU

model = Sequential()

model.add(Embedding(len(word_index)+1,100,weights=[embed_matrix],input_length=max_len,trainable=False)) 
model.add(SpatialDropout1D(0.3))

# 两层GRU
model.add(GRU(100, dropout=0.3,recurrent_dropout=0.3,return_sequences=True))
model.add(GRU(100, dropout=0.3,recurrent_dropout=0.3))

model.add(Dense(1024,activation='relu'))
model.add(Dropout(0.8))

model.add(Dense(1024,activation='relu'))
model.add(Dropout(0.8))

model.add(Dense(19))
model.add(Activation('softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam',metrics=[ metrics.categorical_accuracy]) 

earlystop = EarlyStopping(monitor='val_loss', min_delta=0, patience=3, verbose=0, mode='auto')
# X_train_pad 是词编号列表，
history = model.fit(X_train_pad,y=Y_train_en,batch_size=512,epochs=100,verbose=2,validation_data=(X_valid_pad,Y_valid_en),callbacks=[earlystop])