# 语义理解
词的含义与两者相关:
1. 词序
2. 词的邻近度(proximity) 

# 卷积神经网络
Convolutional Neural Net, CNN  
## 构建块
定义了一组在数据上移动的过滤器(filter，也称为卷积核、滤波器或特征检测器)。  
卷积核会在输入样本中进行卷积或滑动，卷积核窗口大小的参数由模型选择器选择，并高度依赖数据内容。  
## 步长
移动的距离，为一超参数，一般不会超过卷积核宽度，每个快照通常都与邻近快照有重叠的部分，通常设置为1。  
若设置太大导致卷积核之间没有重叠，就会失去像素与相邻像素之间的模糊效果。  
## 卷积核的组成
卷积核由两部分组成：
1. 一组权重
2. 一个激活函数  

当卷积核在滑动时，每前进一个步长，得到当前覆盖数据的快照，然后将这些快照与卷积核中对应位置的权重相乘后求和，并传递到激活函数中。  
## 填充
若每次移动一个单位为1的步长，那么卷积层输出的数据会比原数据窄两个长度。  
有两种处理方法：  
1. 忽略输出维度变小的问题：在keras中可以设置参数padding='valid'，需注意下一层输入的维度，缺点是重叠位置上的内部数据点会被多次传递到每个卷积核上，原始输入的边缘数据将被欠采样。  
2. 填充(padding):向输入数据的外部边缘添加足够多的数据，使得边缘上的数据点可以被视为内部数据点进行处理。缺点是向输入数据中添加了可能不相关的内容，导致偏离了输出结果。  
  
## 学习
如所有的神经网络，卷积核本身会一初始化为接近零的随机值的权重开始训练。

# 狭窄的窗口
图像这种二维输入使用的是二维卷积，对于句子这种一维输入，大家主要关注的是词条在一维空间维度的关系，所以做的是一维卷积。  
文本的卷积核是一维的

# 使用CNN实现文本分类

In [1]:
import numpy as np
from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation
from keras.layers import Conv1D, GlobalMaxPooling1D

In [2]:
import glob
import os
from random import shuffle

In [3]:
def pre_process_data(file_path):
    positive_path = os.path.join(file_path, 'pos')
    negative_path = os.path.join(file_path, 'neg')
    pos_label = 1
    neg_label = 0
    dataset = []
    
    for file_name in glob.glob(os.path.join(positive_path, '*.txt')):
        with open(file_name, 'r') as f:
            dataset.append((pos_label, f.read()))
    
    for file_name in glob.glob(os.path.join(negative_path, '*.txt')):
        with open(file_name, 'r') as f:
            dataset.append((neg_label, f.read()))
    
    shuffle(dataset)
    return dataset

In [4]:
file_path = "/Users/chiang/数据/IMDB/ImdbData/train"
dataset = pre_process_data(file_path)
dataset[0]

(1,
 "Okay, truthfully, I saw the previews for this movie and thought to myself, what are the producers thinking? Hutton, Jolie, and DUCHOVNY? How could the monotoned actor possibly compete with Jolie's natural power on the screen? But surprisingly, the two had the kind of chemistry that showed intense caring without a kiss. Even David's humor matched up to Jolie's spark and fire. As for Hutton, he played the psycho very well, contrasting with David's calm delivery of life threatening situations. Overall, I was very impressed with the writing and character development. I gave it 8 stars.")

数据读取完成后再来对数据进行分词和向量化，这边使用基于谷歌新闻的预训练Word2Vec向量

In [5]:
from nltk.tokenize import TreebankWordTokenizer
from gensim.models.keyedvectors import KeyedVectors
from nlpia.loaders import get_data
word_vectors = get_data('w2v', limit=200000)

  [datetime.datetime, pd.datetime, pd.Timestamp])
  MIN_TIMESTAMP = pd.Timestamp(pd.datetime(1677, 9, 22, 0, 12, 44), tz='utc')
  np = pd.np
  np = pd.np
  np = pd.np
  np = pd.np
  2%|▏         | 9981/402111 [13:18<8:42:53, 12.50it/s] 


ConnectionError: HTTPSConnectionPool(host='uc7e59178a533d0375fa820bd40a.dl.dropboxusercontent.com', port=443): Read timed out.

In [None]:
def tokenize_and_vectorize(dataset):
    tokenizer = TreebankWordTokenizer()
    vectorized_data = []
    expected = []
    for sample in dataset:
        tokens = tokenizer.tokenize(sample[1])  # 分词
        sample_vecs = []
        for token in tokens:
            try:
                sample_vecs.append(word_vectors[token])
            except KeyError:
                pass  # no matching token in the Google w2v vocab
        vectorized_data.append(sample_vecs)
    return vectorized_data

In [None]:
# 将标签按照与训练样本相同的顺序排列
def collect_expected(dataset):
    expected = []
    for sample in dataset:
        expected.append(sample[0])
    return expected

In [None]:
# 将数据传入这些参数
vectorized_data = tokenize_and_vectorize(dataset)
expected = collect_expected(dataset)

再来将准备好的数据分成训练集与测试集，若直接对导入的数据进行80/20划分，会忽略掉test文件夹中的数据

In [None]:
# 划分训练集/测试集
split_point = int(len(vectorized_data)*0.8)

x_train = vectorized_data[:split_point]
y_train = expected[:split_point]

x_test = vectorized_data[split_point:]
y_test = expected[split_point:]

In [None]:
# 超参数设置
maxlen = 400  #设置评论的最大长度，超过则截断，过短则填充，填充值可以是Null或0
batch_size = 32  # 在反向传播误差和更新权重前，向网络输入的样本数量
embedding_dims = 300  # 传入卷积神经网络中词条向量的长度
filters = 250  # 要训练的卷积核数量
kernel_size = 3  # 卷积核大小：每个卷积核是一个矩阵，embedding_dims * kernel_size,本例为300*3
hidden_dims = 250  # 在前馈网络中传播端点的神经元数量
epochs = 2  # 整个训练数据集在网络中的传入次数

keras中提供的pad_sequences，只对标量序列有效，而这里是向量序列，所以需要自己写一个辅助函数来截断/填充输入数据。

In [None]:
def pad_trunc(data, maxlen):
    new_data = []
    zero_vector = []
    for _ in range(len(data[0][0])):  # 看一下第0个样本的第一个词有几维
        zero_vector.append(0.0)
        
    for sample in data:
        if len(sample) > maxlen:
            temp = sample[:maxlen]  # 过长就截断
        elif len(sample) < maxlen:
            temp = sample
            additional_elems = maxlen - len(sample)
            for _ in range(additional_elems):
                temp.append(zero_vector)
        else:
            temp = sample
        new_data.append(temp)
    return new_data

In [None]:
# 将训练数据和测试数据都传递到填充器/截断器中，将其转换为numpy数组
x_train = pad_trunc(x_train, maxlen)
x_test = pad_trunc(x_test, maxlen)

x_train = np.reshape(x_train, (len(x_train), maxlen, embedding_dims))
y_train = np.array(y_train)
x_test = np.reshape(x_test, (len(x_test), maxlen, embedding_dims))
y_test = np.array(y_test)

## 卷积神经网络架构
在本例中，假设输出层的维度小于输入层，填充符号设置为‘valid’，每个卷积核从句首的最左侧边缘开始，到最右侧边缘的最后一个词条结束。  
卷积核每次将移动一个词条(步长)，卷积核(窗口宽度)大小设置为3个词条，并使用'relu'作为激活函数。  
每一步都将卷积核的权重与它正在查看的三个词条(逐个元素)相乘，然后求和，若结果大于0则继续传递，否则输出0，最后的结果(正数或0)将传递给修正线性单元(rectified linear unit, ReLU)激活函数中

In [7]:
print("Build model...")
model = Sequential()
model.add(Conv1D(filters, kernel_size, padding='valid', activation='relu', strides=1, input_shape=(maxlen, embedding_dims)))

Build model...


## 池化
池化是卷积神经网络中的一种降维方法，某种程度上我们通过并行计算来加快处理速度，但每个我们创立但卷积核都会创建一个新的、经过卷积过滤的数据样本，池化可以一定程度上缓解输出过多的情况。  
池化的关键思想是将每个卷积核的输出均匀的分成多个子部分，对于每个子部分，挑选或计算出一个最具有代表性的值，然后就可以将原始输出放在一旁，而只使用这些具有代表性的值作为下一层的输入。  
  
在图像处理中，池化区域通常是2*2的像素窗口(不像卷积核那样相互重叠)，而在一维卷积中他们是一维窗口(如1*2或1*3)。  
  
池化有两种方式：
1. 平均池化：较为直观，通过求子集平均值理论上可以保留最多的数据信息
2. 最大池化：通过取特定区域中的最大激活值，网络可以看到这个片段中最突出的特征。
  
除了降维和节省计算量，还获得了：位置不变性。  
若原始输入在相似但有区别的输入样本中的位置发生轻微变化，最大池化层仍会输出类似的内容。  
GlobalMaxPooling1D层：不是对每个卷积核输出的各个子部分取最大值，而是对该卷积核整体输出取最大值，会导致大量的信息损失，但还是不会有问题的。

## 步骤
1. 对每个输入样本应用一个卷积核(权重和激活函数)
2. 卷积输出的一维向量的维度略小于原始输入(假设输入数据维度为400)，卷积核开始于输入数据的左对齐位置，结束于右对齐位置，输出维度为1*398。  
3. 对于每个卷积核的输出(有250个卷积核)，取每个一维向量的最大值。
4. 对每个输入样本得到一个1*250向量(250为卷积核数量)

## Dropout
一种特殊技术，用于防止神经网络过拟合。  
按照一定比例随机关掉部分进入下一层的输入数据，这样模型就不会学到训练集的特点而导致过拟合，而是会学到更多数据中的略有差别的表示模式，从而在看到新数据时可以对数据进行概括并作出正确的预测。  
  
在每次向前传递训练数据时，会随机关闭一定比例的输入数据，而在实际应用的推理或预测时，则不会做dropout，所以在非训练的推理阶段，Dropout层后面的层接受到的信号强度会显著增强。为缓解这个问题，在训练阶段会按比例增强所有的未关闭输入，使进入下一层的聚合信号与推理阶段时的前度相同。

In [None]:
model.add(Dense(hidden_dims))
model.add(Dropout(0.2))  # 随机选择80%的嵌入数据按原样传递到下一层，其余的设置为0
model.add(Activation('relu'))

## 输出层

In [None]:
model.add(Dense(1))
model.add(Activation('sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])


## 开始学习(训练)
可以将模型结构保存在JSON文件中，并将训练后的权重保存在另一个文件中，方便重新实例化

In [None]:
model_structure = model.to_json()  # 这个地方仅保留模型结构，并不会保存模型权重
with open("cnn_model.json", 'w') as json_file:
    json_file.write(model_structure)


model.save_weights("cnn_weights.h5")  # 保存训练好的模型参数

由于神经元初始权重是随机的，可以通过为随机数生成器设置种子来克服这种随机性，要设置种子则在模型定义之前加入这两行

In [None]:
import numpy as np
np.random.seed(1337)

In [None]:
# 加载保存的模型
from keras.models import model_from_json
with open("cnn_model.json", "r") as json_file:
    json_string = json_file.read()
model = model_from_json(json_string)

model.load_weights("cnn_weights.h5")

In [None]:
# 测试
sample = "I love Jenny."
vec_list = tokenize_and_vectorize([(1, sample)])
test_vec_list = pad_trunc(vec_list, maxlen)
test_vec = np.reshape(test_vec_list, (len(test_vec_list), maxlen, embedding_dims))
model.predict(test_vec)
# 或者用 model.predict_classes(test_vec)