# 实验指导

实验目的：

1. 掌握神经网络的基本原理；
2. 掌握word2vec的基本原理；
3. 掌握Keras的基本用法；
4. 掌握tensorflow的基本用法；
5. 掌握RNN的基本原理；
6. 观察熟悉RNN的两种常见变体(LSTM和GRU)的原理和用法；
7. 熟悉深度学习自然语言处理的基本流程。 

## I 实验描述：

#### 数据： 使用爬虫获得的豆瓣评论数据
#### 目标： 建立机器学习模型，能够对输入的句子自动判断其对应的分值或感情倾向

## II 数据预处理

目的： 将文本信息变成神经网络可以处理的数据格式； 

## 第一部分： 基础理论

## III 神经网络的基本原理

#### Q1: 神经网络的Loss函数的作用为何？

回答： 神经网络里面的Loss函数是用来衡量预测结果和实际结果之间的差异的，Loss函数越大，预测与实际的误差越大，预测越不准确。为了让预测结果更加精准，我们要减少Loss函数，通过梯度下降法，利用反向传播不停迭代调整神经网络中的参数，找到使Loss函数最小的参数，确定模型。

#### Q2: 神经网络的激活函数(activation function)起什么作用？ 如果没有激活函数会怎么样？ 

回答：对于神经网络每一层里面的每一个神经元来说，激活函数紧连着线性函数，激活函数是非线性函数，通过使用非线性变换，我们可以拟合任何函数，如果没有激活函数，神经网络就不能完成分类和回归任务。

#### Q3: 神经网络的softmax如何理解， 其作用是什么？ 在`答案`中写出softmax的python表达；


答案：softmax是一种归一化的方式，可以将数据转换到[0,1]之间；也可以将数据变得更加平均，使反向传播初始最大最小的数据的影响变小；softmax常用来解决多分类问题。

In [1]:
# 使用Numpy
import numpy as np
z = [1.0,2.0,3.0,4.0]



In [2]:
# 输出阵列
softmax = lambda x : np.exp(x/np.sum(x))/np.sum(np.exp(x/np.sum(x)),axis=0)
softmax(z)

array([0.21383822, 0.23632778, 0.26118259, 0.28865141])

#### Q4: 简述 normalized_1 和softmax函数的相同点和不同点， 说明softmax相比normalized_1该函数的优势所在
```python
output = np.array([y1, y2, y3])

normalized_1 = output / np.sum(output)
```

回答：normalized_1也是一种归一化方法，相比于normalized_1，softmax函数可以将数据变得更加平均，而前者却不能。但是前者可以减少计算量（q3中的x先经过了normalized_1处理，否则softmax在数字较大的时候会出错）

#### Q5: 写出crossentropy的函数表达式，说明该函数的作用和意义

crossentropy= -np.sum(Y_true*np.log(Y_hat))

回答：Crossentropy，交叉熵，经常作为神经网络的损失函数，交叉熵是信息熵和相对熵之间的差值。
机器学习中我们用非真实分布预测真实分布，真实分布固定，信息熵固定，交叉熵越大，相对熵越大，信息熵和相对熵之间的距离越大，模型预测结果越不好，交叉熵越小，相对熵越小，距离越小，模型预测结果越好。


### IV 掌握word2vec的基本用法

#### Q6: 说明word2vec要解决的问题背景， 以及word2vec的基本思路， 说明word2vec比起之前方法的优势；

回答：
解决的问题背景：在表征词的方法中之前的one-hot,PCA方法都无法处理word之间的相似问题，word2vec可以用来保持word之间的相似性的。

基本思路：Word2vec是一种Embedding过程，使用单词向量化的方式，通过上下文单词表示目标单词，可以将word之间的相似关系保存到词向量里。同样的思路还可以应用于graph embedding还有node embedding。

word2vec相比于以前的方法的优势：
1.word 之间的相似性问题，通过word上下文向量相似，便可以判断两个单词是否相似；
2.以前的one hot 方法如果增加新词，所有词都要重新表示一遍，有了word2vec，不需要重新表示；
3.之前不能解决的多义词问题通过Word2vec也可以被解决。

#### Q7: 说明word2vec的预测目标， predication target, 在答案中写出skip-gram和cbow的预测概率；

回答： 
1.  skip-gram是给定输入单词，预测目标是上下文。
$$ \hat{y}= \frac{e^{u_{o}^Tv_{c}}}{\sum_{w=1}^{n}e^{u_{w}^Tv_{c}}} $$
$v_{c}$是输入向量，$u_{w}$是所有的分类模型矩阵，$u_{o}$是输出向量的分类模型矩阵。

2.  cbow是给定上下文，预测目标是输入单词。
$$  h=\frac{1}{C}W\sum_{i=1}^{C}x_i $$
$$ \hat{y}= \frac{e^{u_{o}^Th}}{\sum_{w=1}^{n}e^{u_{w}^Th}} $$
$h$是输入向量，$u_{w}$是所有的分类模型矩阵。


#### Q8: 请说明word2vec的两种常见优化方法，分别阐述其原理；

回答：一种是Hierachical softmax，采用了huffman tree方法，将输出结果变成了2进制编码的形式进行存储，这种结构是一种信息压缩方法，是为了解决计算量较大的难题。

另一种优化方法是negtive Samples，在迭代的过程中我们只更新context这几个词以及选择部分不在context里的词，这样子可以大大的节约计算量。


#### Q9: 请说明word2vec中哈夫曼树的作用；

回答：将输出结果变成了2进制编码的形式进行存储,可以将一个1024维的向量降成10维的，大大的节约计算量，同时将词频较高的单词用维度较小的向量，进一步的节约计算量。

#### Q10: 在gensim中如何实现词向量？ 请将gensim中实现词向量的代码置于`答案`中

回答：model = word2vec.Word2Vec(sentences=sentences,size=25,window=20, min_count=500, workers=2)

选择一个语料，词向量维度为25，最大distance是20，词出现小于500的删除，2核工作

#### Q11: 请说出除了 skip-gram和cbow的其他4中词向量方法的名字， 并且选取其中两个叙述其基本原理。

回答：Glove,Cove,EMLo,Deep contextualized word representations.

1.Glove(global vector),通过构建一个矩阵统计两个单词同时出现的概率（co-occurance），如果a和b出现概率和a和b'的概率相似，那么b和b'也相似。Glove可以通过集群跑计算简化计算。

 2.Cove,主要用来解决多义词的问题，以前通过 $$ v =  \alpha v1+\beta v2 + \gamma v3 $$ 
 的方法，Cove是先训练一个机器翻译的encoder-RNN模型，下一次做情感分析，文本分类的时候，将原话输入encoder里面，提取出词向量，再加上原话里的词向量，最后进行分类。

3.EMLo,使用多个RNN ,每个RNN的encoder训练出的词向量传到下一个encoder里面，然后将每一个encoder的输出用线性函数进行表示。



### V 掌握keras的基本用法

#### Q12. 参考keras参考手册，构建一个机器学习模型，该模型能够完成使用DNN(deep neural networks) 实现MNIST数据集的分类；

In [3]:
#回答：代码请置于下方：




#hints:  keras 序列模型构建 

In [4]:
'''Trains a simple deep NN on the MNIST dataset.
Gets to 98.40% test accuracy after 20 epochs
(there is *a lot* of margin for parameter tuning).
2 seconds per epoch on a K520 GPU.
'''

from __future__ import print_function

import keras
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.optimizers import RMSprop

batch_size = 128
num_classes = 10
epochs = 20

# the data, split between train and test sets
(x_train, y_train), (x_test, y_test) = mnist.load_data()

x_train = x_train.reshape(60000, 784)
x_test = x_test.reshape(10000, 784)
x_train = x_train.astype('float32')
x_test = x_test.astype('float32')
x_train /= 255
x_test /= 255
print(x_train.shape[0], 'train samples')
print(x_test.shape[0], 'test samples')

# convert class vectors to binary class matrices
y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)

model = Sequential()
model.add(Dense(512, activation='relu', input_shape=(784,)))#input_dim = 784
model.add(Dropout(0.2))
model.add(Dense(512, activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(num_classes, activation='softmax'))

model.summary()

model.compile(loss='categorical_crossentropy',
              optimizer=RMSprop(),
              metrics=['accuracy'])

history = model.fit(x_train, y_train,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=1,
                    validation_data=(x_test, y_test))
score = model.evaluate(x_test, y_test, verbose=0)
print('Test loss:', score[0])
print('Test accuracy:', score[1])



Using TensorFlow backend.


60000 train samples
10000 test samples
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_1 (Dense)              (None, 512)               401920    
_________________________________________________________________
dropout_1 (Dropout)          (None, 512)               0         
_________________________________________________________________
dense_2 (Dense)              (None, 512)               262656    
_________________________________________________________________
dropout_2 (Dropout)          (None, 512)               0         
_________________________________________________________________
dense_3 (Dense)              (None, 10)                5130      
Total params: 669,706
Trainable params: 669,706
Non-trainable params: 0
_________________________________________________________________
Train on 60000 samples, validate on 10000 samples
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epo

### VI 掌握tensorflow的基本用法

#### Q13: 参考tensorflow的参考手册，构建一个机器学习模型，该模型能够完成使用DNN(deep neural networks)实现MNIST数据集的分类；

回答：代码请置于下方：

hints:tensorflow实现MNIST https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/udacity/2_fullyconnected.ipynb

In [5]:
from __future__ import print_function
import numpy as np
import tensorflow as tf
from six.moves import cPickle as pickle
from six.moves import range
import os

In [6]:
pickle_file = os.path.join('/Users/xingke/Documents/NLP/tensorflow/tensorflow/examples/udacity/', 'notMNIST.pickle')

with open(pickle_file, 'rb') as f:
  save = pickle.load(f)
  train_dataset = save['train_dataset']
  train_labels = save['train_labels']
  valid_dataset = save['valid_dataset']
  valid_labels = save['valid_labels']
  test_dataset = save['test_dataset']
  test_labels = save['test_labels']
  del save  # hint to help gc free up memory
  print('Training set', train_dataset.shape, train_labels.shape)
  print('Validation set', valid_dataset.shape, valid_labels.shape)
  print('Test set', test_dataset.shape, test_labels.shape)

Training set (200000, 28, 28) (200000,)
Validation set (10000, 28, 28) (10000,)
Test set (10000, 28, 28) (10000,)


In [7]:
image_size = 28
num_labels = 10

def reformat(dataset, labels):
  dataset = dataset.reshape((-1, image_size * image_size)).astype(np.float32)
  # Map 0 to [1.0, 0.0, 0.0 ...], 1 to [0.0, 1.0, 0.0 ...]
  labels = (np.arange(num_labels) == labels[:,None]).astype(np.float32)
  return dataset, labels
train_dataset, train_labels = reformat(train_dataset, train_labels)
valid_dataset, valid_labels = reformat(valid_dataset, valid_labels)
test_dataset, test_labels = reformat(test_dataset, test_labels)
print('Training set', train_dataset.shape, train_labels.shape)
print('Validation set', valid_dataset.shape, valid_labels.shape)
print('Test set', test_dataset.shape, test_labels.shape)

Training set (200000, 784) (200000, 10)
Validation set (10000, 784) (10000, 10)
Test set (10000, 784) (10000, 10)


In [8]:
#采用的模型为带有一个包含1024个节点隐藏层的DNN网络，隐藏层激活函数为relu函数，采用了SGD随机梯度下降法。

In [9]:
batch_size = 128

def accuracy(predictions, labels):
  return (100.0 * np.sum(np.argmax(predictions, 1) == np.argmax(labels, 1))
          / predictions.shape[0])

graph = tf.Graph()
with graph.as_default():

  # Input data. For the training data, we use a placeholder that will be fed
  # at run time with a training minibatch.
  tf_train_dataset = tf.placeholder(tf.float32,
                                    shape=(batch_size, image_size * image_size))
  tf_train_labels = tf.placeholder(tf.float32, shape=(batch_size, num_labels))
  tf_valid_dataset = tf.constant(valid_dataset)
  tf_test_dataset = tf.constant(test_dataset)
  
  #Middle layers
  weights_m = tf.Variable(
  tf.truncated_normal([image_size * image_size, 1024]))
  biases_m = tf.Variable(tf.zeros([1024]))
    
  # Variables.
  weights = tf.Variable(
    tf.truncated_normal([1024, num_labels]))
  biases = tf.Variable(tf.zeros([num_labels]))
  
  # Training computation.
  logits_m = tf.nn.relu(tf.matmul(tf_train_dataset, weights_m) + biases_m)
  logits = tf.matmul(logits_m,weights) + biases
  loss = tf.reduce_mean(
    tf.nn.softmax_cross_entropy_with_logits(labels=tf_train_labels, logits=logits))
  
  # Optimizer.
  optimizer = tf.train.GradientDescentOptimizer(0.5).minimize(loss)
  
  # Predictions for the training, validation, and test data.
  train_prediction = tf.nn.softmax(logits)
  logits_m_v = tf.nn.relu(tf.matmul(tf_valid_dataset, weights_m) + biases_m)
  logits_m_t = tf.nn.relu(tf.matmul(tf_test_dataset, weights_m) + biases_m)
  valid_prediction = tf.nn.softmax(tf.matmul(logits_m_v, weights) + biases)
  test_prediction =  tf.nn.softmax(tf.matmul(logits_m_t, weights) + biases)

Instructions for updating:

Future major versions of TensorFlow will allow gradients to flow
into the labels input on backprop by default.

See tf.nn.softmax_cross_entropy_with_logits_v2.



In [10]:
num_steps = 3001

with tf.Session(graph=graph) as session:
  tf.global_variables_initializer().run()
  print("Initialized")
  for step in range(num_steps):
    # Pick an offset within the training data, which has been randomized.
    # Note: we could use better randomization across epochs.
    offset = (step * batch_size) % (train_labels.shape[0] - batch_size)
    # Generate a minibatch.
    batch_data = train_dataset[offset:(offset + batch_size), :]
    batch_labels = train_labels[offset:(offset + batch_size), :]
    # Prepare a dictionary telling the session where to feed the minibatch.
    # The key of the dictionary is the placeholder node of the graph to be fed,
    # and the value is the numpy array to feed to it.
    feed_dict = {tf_train_dataset : batch_data, tf_train_labels : batch_labels}
    _, l, predictions = session.run(
      [optimizer, loss, train_prediction], feed_dict=feed_dict)
    if (step % 500 == 0):
      print("Minibatch loss at step %d: %f" % (step, l))
      print("Minibatch accuracy: %.1f%%" % accuracy(predictions, batch_labels))
      print("Validation accuracy: %.1f%%" % accuracy(
        valid_prediction.eval(), valid_labels))
  print("Test accuracy: %.1f%%" % accuracy(test_prediction.eval(), test_labels))

Initialized
Minibatch loss at step 0: 280.651093
Minibatch accuracy: 6.2%
Validation accuracy: 38.9%
Minibatch loss at step 500: 23.051874
Minibatch accuracy: 83.6%
Validation accuracy: 76.6%
Minibatch loss at step 1000: 18.587530
Minibatch accuracy: 72.7%
Validation accuracy: 77.2%
Minibatch loss at step 1500: 21.942440
Minibatch accuracy: 74.2%
Validation accuracy: 77.8%
Minibatch loss at step 2000: 6.269750
Minibatch accuracy: 89.8%
Validation accuracy: 82.2%
Minibatch loss at step 2500: 11.965834
Minibatch accuracy: 78.1%
Validation accuracy: 82.4%
Minibatch loss at step 3000: 1.865368
Minibatch accuracy: 85.2%
Validation accuracy: 82.6%
Test accuracy: 88.3%


#### Q14: 参考keras和tensorflow对同一问题的实现，说明keras和tensorflow的异同；

回答：相同点：都对数据进行了分类和数据处理（reshape or reform)，都是采用相同的原理，通过多次训练减少loss函数得到最优参数；不同点：keras的模型是封装好的，直接调用就可以，而tensorflow的模型需要手写出来。keras是高层api,tensorflow是底层架构。

#### Q15: Q12， Q13 的tensorflow 或 keras 模型的训练时准确率和测试集准确率分别是多少？
回答：Q12 keras: 训练准确率99.52%,测试准确率98.23%，tensorflow模型训练尊却屡85.9%，测试准确率屡是81.4%。

#### Q16: 训练时准确率大于测试集准确率的现象叫什么名字，在神经网络中如何解决该问题？
回答：Q12，Q13中出现的训练准确率大雨测试集的现象叫做过拟合，在神经网络中可以通过dropout、正则化或者增加数据集的方法来解决这个问题。

#### Q17: 请使用自己的语言简述通过正则化 (regularization)减小过拟合的原理；
回答：正则化分成L1正则化和L2增则化。L2正则化又称权重衰减，在加上L2正则化项后，当权重w迭代的时候，会有所减小。根据奥卡姆剃刀法则，w越小，网络复杂度越小（也可以理解为w引起的值的波动越小），这样就减小了过拟合；L 1增则化类似，但是不是减小w,是让w趋近于0，同样可以减小网络复杂度，减小过拟合。

#### Q18: 在tensorflow官方实例中给出的fully connected 神经网络的分类模型中，数据进行了哪些预处理，这些预处理的原因是什么？ 
回答：1.数据导入，2。将数据集从一个3维矩阵变成了2维矩阵，3.选择一个小的数据集进行快速的处理分析。这样是为了方便运算同时快速分析结果。

### VII 掌握RNN的基本原理

#### Q19: 简述RNN解决的问题所具有的特点；
回答：RNN是根据某一个输入序列，来预测下一个的输出的模型。

#### Q20: 写出RNN实现时间或者序列相关的数学实现(见课程slides)；
回答：![image.png](attachment:image.png)

#### Q20: 简述RNN的两种重要变体的提出原因和基本原理？
   回答：LSTM，虽然使用Relu函数可以解决一些梯度消失或者梯度爆炸现象，但是在不停的迭代过程中，还是会有梯度消失、梯度爆炸现象；而且对于long-term dependencies（长信息）的效果不好；这样就提出了LSTM模型，通过门电路的原理，用一个阀门选择性的忽略某些信息，可以收敛的更快，对长信息的存储效果比较好；
   GRU，是对LSTM的一个简化，把forget gate 和 input gate合成了一个update gate,把cell state 和 hidden state 合成一个，删除了out gate，这样可以减少运算量、收敛速度更快（参数少了，量少，更快稳定），而且可以防止过拟合。
   

#### Q21: Attentional RNN 以及 Stacked RNN 和 Bi-RNN 分别是什么，其做了什么改动？
回答：

## 第二部分： 实验过程

### IIX 数据预处理

#### Q22：要实现文本分类或情感分类，文本信息需要进行哪些初始化操作？自己手工实现，keras提供的API，tenorflow提供的API，分别是哪些？请提供关键代码置于下边`回答`中

回答：

1. 简述所需要的初始化操作：
去除无效数据、去除停用词、分词、数据分类（训练、验证和预测）、训练词向量矩阵（可以预训练）、加入情感label等.

2. 自己手工实现的id_to_word, word_to_id, padding, batched等操作如何实现？
    + id_to_word, word_to_id
    
    ```python
    #word 2 id
from collections import Counter
counts = Counter(cleanwords_one_list)
vocab = sorted(counts, key=counts.get, reverse=True)#aesending order   #id2word
vocab_to_int = {word: ii for ii, word in enumerate(vocab, 1)} #word2id
    ```
    + padding
    
    ```python
    seq_len = 200
    features = np.zeros((len(reviews_ints), seq_len), dtype=int)
    for i, row in enumerate(reviews_ints):
        features[i, -len(row):] = np.array(row)[:seq_len]  #将数据保存到向量的最后
    ```
    
    + batched
    
    ```python
    def get_batches(x, y, batch_size=100):
    
    n_batches = len(x)//batch_size
    x, y = x[:n_batches*batch_size], y[:n_batches*batch_size]
    for ii in range(0, len(x), batch_size):
        yield x[ii:ii+batch_size], y[ii:ii+batch_size]  #迭代数据
    ```

In [255]:
#导入数据

In [11]:
import pandas as pd
import numpy as np

In [12]:
file = pd.read_csv('/Users/xingke/Documents/NLP/final_result的副本.csv',encoding="utf-8")

In [13]:
file['comment'][0]

'本片已收录于《圣母婊摧毁世界的1000种方法》。'

In [14]:
file['rate'][0]

6.9

In [15]:
len(file)

31002

In [16]:
# 删除无用数据

In [17]:
drop_line = [] 
for i in range(len(file)):
    if ('全部' in str(file['comment'][i])) & ('个问题' in str(file['comment'][i])):
        drop_line.append(i)
file_new = file.drop(drop_line,inplace=False)
        

In [18]:
len(file_new)

30903

In [19]:
# 得到训练和验证集

In [20]:
file_train_validation = file_new.dropna()

In [21]:
len(file_train_validation)

27701

In [22]:
file_new

Unnamed: 0,ID,title,comment,rate
0,26416062,侏罗纪世界2,本片已收录于《圣母婊摧毁世界的1000种方法》。,6.9
1,26416062,侏罗纪世界2,布鲁中枪和腕龙目送船离港两幕实在太难过了！！！暴龙和狮子的对吼实在太萌了！！！牛龙和沧龙实在...,6.9
2,26416062,侏罗纪世界2,暴虐恐龙追杀小女孩那一场戏真是充满了古典之美。,6.9
3,26416062,侏罗纪世界2,充满诚意的爆米花片，节奏紧凑，小女孩房间那场戏的调度不错，最后的世界观架设将影片提升了一个档次！,6.9
4,26636712,蚁人2：黄蜂女现身,我就很喜欢蚁人啊～,
5,26636712,蚁人2：黄蜂女现身,同步上映是不可能的，这辈子都不可能同步上映,
6,26636712,蚁人2：黄蜂女现身,现在漫威的脑残粉真是又多又厉害，人家说句话都不行了。呵呵。,
7,26636712,蚁人2：黄蜂女现身,短评里那位不喜欢蚁人的朋友，不喜欢就不要来看，还要在这里刷短评，就是过分不成熟的想刷存在感了。。。,
9,26430636,狂暴巨兽,吴京加油啊！巨石强森这边都开始大战山寨哥斯拉了！,6.6
10,26430636,狂暴巨兽,第三次约女孩出来看电影，虽然还是没啥进展，但希望还在.,6.6


In [23]:
np.any(file_train_validation.isnull())

False

In [24]:
#提取预测集

In [25]:
file_new['rate'].iloc[4]

nan

In [26]:
len(file_new)

30903

In [27]:
file_new.fillna(11,inplace=True)
drop_line = [] 
for i in range(len(file_new)):
    if file_new['rate'].iloc[i] != 11:
        drop_line.append(file_new.iloc[i].name)
        #print(drop_line)
file_predict = file_new.drop(drop_line,inplace=False)

In [28]:
len(file_predict)

3195

In [29]:
#查看信息

In [30]:
file_train_validation['情感'] = np.where(file_train_validation['rate']>=5,1,0)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [31]:
file_train_validation

Unnamed: 0,ID,title,comment,rate,情感
0,26416062,侏罗纪世界2,本片已收录于《圣母婊摧毁世界的1000种方法》。,6.9,1
1,26416062,侏罗纪世界2,布鲁中枪和腕龙目送船离港两幕实在太难过了！！！暴龙和狮子的对吼实在太萌了！！！牛龙和沧龙实在...,6.9,1
2,26416062,侏罗纪世界2,暴虐恐龙追杀小女孩那一场戏真是充满了古典之美。,6.9,1
3,26416062,侏罗纪世界2,充满诚意的爆米花片，节奏紧凑，小女孩房间那场戏的调度不错，最后的世界观架设将影片提升了一个档次！,6.9,1
9,26430636,狂暴巨兽,吴京加油啊！巨石强森这边都开始大战山寨哥斯拉了！,6.6,1
10,26430636,狂暴巨兽,第三次约女孩出来看电影，虽然还是没啥进展，但希望还在.,6.6,1
11,26430636,狂暴巨兽,强森先生，加入微商三个月，通过自己的努力，喜提巨兽一枚，他性感勇猛，睿智帅气，国际微商界新男...,6.6,1
12,26430636,狂暴巨兽,哈哈哈 每只好小猴子 都叫乔治 推荐4D观影 观影体验极佳,6.6,1
13,26430636,狂暴巨兽,游戏改编，原游戏就是个怪兽拆楼杀人一通砸的东西，其实挺邪恶的。电影版加入强森角色，稍微正了正...,6.6,1
14,24773958,复仇者联盟3：无限战争,为什么不砍手？？？？？？？,8.2,1


In [60]:
#切词

In [35]:
from gensim.models import keyedvectors
from gensim.models import word2vec
import jieba

In [36]:
def cut(string) :return list(jieba.cut(string))

In [37]:
sentences = [cut((i)) for i in file_train_validation['comment'].values]

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/4c/81354wk90fq8b6y7s4355yf00000gq/T/jieba.cache
Loading model cost 0.906 seconds.
Prefix dict has been built succesfully.


In [38]:
sentences[0:100]

[['本片',
  '已',
  '收录于',
  '《',
  '圣母',
  '婊',
  '摧毁',
  '世界',
  '的',
  '1000',
  '种',
  '方法',
  '》',
  '。'],
 ['布鲁中',
  '枪',
  '和',
  '腕龙',
  '目送',
  '船离港',
  '两幕',
  '实在',
  '太',
  '难过',
  '了',
  '！',
  '！',
  '！',
  '暴龙',
  '和',
  '狮子',
  '的',
  '对',
  '吼',
  '实在',
  '太萌',
  '了',
  '！',
  '！',
  '！',
  '牛龙',
  '和',
  '沧龙',
  '实在',
  '太帅',
  '了',
  '！',
  '！',
  '！',
  '世界',
  '上',
  '最好',
  '的',
  '系列',
  '电影',
  '，',
  '不要',
  '停',
  '继续',
  '拍',
  '！',
  '！',
  '！',
  '！'],
 ['暴虐', '恐龙', '追杀', '小女孩', '那', '一场', '戏', '真是', '充满', '了', '古典', '之美', '。'],
 ['充满',
  '诚意',
  '的',
  '爆米花',
  '片',
  '，',
  '节奏',
  '紧凑',
  '，',
  '小女孩',
  '房间',
  '那场',
  '戏',
  '的',
  '调度',
  '不错',
  '，',
  '最后',
  '的',
  '世界观',
  '架设',
  '将',
  '影片',
  '提升',
  '了',
  '一个',
  '档次',
  '！'],
 ['吴京',
  '加油',
  '啊',
  '！',
  '巨石',
  '强森',
  '这边',
  '都',
  '开始',
  '大战',
  '山寨',
  '哥斯拉',
  '了',
  '！'],
 ['第三次',
  '约',
  '女孩',
  '出来',
  '看',
  '电影',
  '，',
  '虽然',
  '还是',
  '没',
  '啥',
  '进展',
  '，',
  '但',
  '希望',

In [59]:
#清除停用词

In [39]:
 def get_stopwords(filename = "/Users/xingke/Documents/NLP/Project-1-master/chinese_stopwords.txt"):
     stopwords_dic = open(filename, encoding= 'utf-8')
     stopwords = stopwords_dic.readlines()   #按行输入stopword
     stopwords = [w.strip() for w in stopwords]  #删除每行的空格
     stopwords_dic.close()
     stopwords.append('\r\n')
     print(stopwords)
     return stopwords

In [40]:
stopwords = get_stopwords()

['，', '的', '。', '、', '在', '了', '是', '', '“', '”', '和', '年', '月', '：', '也', '）', '为', '（', '有', '%', '日', '将', '中', '-', '到', '与', '对', ':', '', '上', '都', '等', '不', '他', '》', '《', '就', '但', '我', '而', '这', '会', '并', '；', '被', '后', '人', '从', '还', '1', '3', '6', '以', '新', '说', '7', '2', '要', '5', '？', '更', '于', '个', '10', '大', '时', '4', '多', '/', '让', '其', ')', '(', '很', '及', '下', '', '能', '—', '或', '该', '她', '比', '8', '元', '12', '已', '向', '做', '来', '前', '由', '好', '.', '称', '给', '最', '11', '·', '据', '着', '又', '至', '9', '20', '！', '[', ']', '去', '可', '把', '则', '', '一', '地', '高', '吗', '30', '所', '分', '较', '内', '第', '里', '占', '过', '15', '曾', '"', '再', '人民日报', '新闻网', '它', '况', '而且', '而是', '而外', '而言', '而已', '尔后', '反过来', '反过来说', '反之', '非但', '非徒', '否则', '嘎', '嘎登', '该', '赶', '个', '各', '各个', '各位', '各种', '各自', '给', '根据', '跟', '故', '故此', '固然', '关于', '管', '归', '果然', '果真', '过', '哈', '哈哈', '呵', '和', '何', '何处', '何况', '何时', '嘿', '哼', '哼唷', '呼哧', '乎', '哗', '还是', '还有', '换句话说', '换言之', '或', '或是', '或者', '极了', 

In [57]:
cleanwords = []
for sentence in sentences:
    words = []
    for word in sentence: 
        if (not word.isdigit()) and (word not in stopwords) and (1<len(word)<5):
            words.append(word)
    cleanwords.append(words)

In [92]:
cleanwords  #处理后的数据为列表的列表

[['本片', '收录于', '圣母', '摧毁', '世界', '方法'],
 ['布鲁中',
  '腕龙',
  '目送',
  '船离港',
  '两幕',
  '实在',
  '难过',
  '暴龙',
  '狮子',
  '实在',
  '太萌',
  '牛龙',
  '沧龙',
  '实在',
  '太帅',
  '世界',
  '最好',
  '系列',
  '电影',
  '不要',
  '继续'],
 ['暴虐', '恐龙', '追杀', '小女孩', '一场', '真是', '充满', '古典', '之美'],
 ['充满',
  '诚意',
  '爆米花',
  '节奏',
  '紧凑',
  '小女孩',
  '房间',
  '那场',
  '调度',
  '不错',
  '最后',
  '世界观',
  '架设',
  '影片',
  '提升',
  '一个',
  '档次'],
 ['吴京', '加油', '巨石', '强森', '大战', '山寨', '哥斯拉'],
 ['第三次', '女孩', '出来', '电影', '进展', '希望'],
 ['强森',
  '先生',
  '加入',
  '微商',
  '三个',
  '努力',
  '喜提',
  '巨兽',
  '一枚',
  '性感',
  '勇猛',
  '睿智',
  '帅气',
  '国际',
  '商界',
  '男性',
  '左手',
  '哑铃',
  '右手',
  '事业',
  '掌声',
  '送给',
  '强森',
  '知道',
  '为啥',
  '怪兽',
  '联手',
  '推塔',
  '塔倒',
  '之后',
  '应该',
  '高地',
  '进攻',
  '水晶',
  '反目',
  '内杠',
  '起来',
  'what',
  'are',
  'you'],
 ['哈哈哈', '只好', '小猴子', '乔治', '推荐', '4D', '观影', '观影', '体验', '极佳'],
 ['游戏',
  '改编',
  '游戏',
  '怪兽',
  '拆楼',
  '杀人',
  '一通',
  '东西',
  '其实',
  '邪恶',
  '电影版',
  '加入',
  '强森',
  '角色',
  

hints: 

+ 参考1 https://github.com/keras-team/keras/blob/master/examples/imdb_lstm.py
+ 参考2 

### IX 构建神经网络模型

#### Q22:在没有预训练的词向量时候， keras 如何实现embedding操作，即如何依据一个单词的序列获得其向量表示？
回答：将所有的评论转化为词索引序列。所谓词索引就是为每一个词依次分配一个整数ID。遍历所有的评论，可以
生成一个词向量矩阵。第i列表示词索引为i的词的词向量。
将词向量矩阵载入Keras Embedding层，设置该层的权重不可再训练（也就是说在之后的网络训练过程中，词向量不再改变）。


#### Q23:在没有预训练的词向量时候， tensorflow 如何实现embedding操作，即如何依据一个单词的序列获得其向量表示？
回答：将所有的评论转化为词索引序列。所谓词索引就是为每一个词依次分配一个整数ID。遍历所有的评论，我们只保留最参见的20,000个词。
生成一个词向量矩阵。第i列表示词索引为i的词的词向量。
将词向量矩阵载入 Embedding层，设置该层的权重不可再训练（也就是说在之后的网络训练过程中，词向量不再改变）。

#### Q24: 在有预先训练的词向量时候，keras和tensorflow又如何实现embeding操作

回答：keras.embedding/You could train an embedding layer using tf.Variable .Create the embedding lookup matrix as a tf.Variable. Use that embedding matrix to get the embedded vectors to pass to the LSTM cell with tf.nn.embedding_lookup.

#### Q25： 基于上文进行的数据预处理，使用keras和tensorflow如何构建神经网络模型？请提供关键代码

回答： keras模型构建的关键代码：

In [78]:
## 训练词向量模型

In [64]:
length = []
for i in cleanwords:
    length.append(len(i)) 

In [69]:
model = word2vec.Word2Vec(sentences=sentences,size=25,window=20, min_count=5, workers=2)

In [71]:
len(model.wv.vocab)

13811

In [72]:
model.save('/Users/xingke/Documents/NLP/assignment2-Project2-master/comment.model')

In [76]:
model.wv.get_vector('温暖')

array([-0.55143654,  0.35112143, -0.35127774,  0.29864493,  0.25353557,
        0.5167455 ,  0.02856631,  0.38137302,  1.0054917 ,  0.4964925 ,
        0.2321648 , -0.5493579 , -0.15854764,  0.25245568, -0.63439864,
       -0.9402608 , -0.07918315, -1.5151889 ,  0.5616195 ,  1.0654793 ,
        0.01357382,  0.4930335 , -0.10463107,  0.21855968,  0.3061103 ],
      dtype=float32)

In [91]:
model.most_similar('狮子')

  """Entry point for launching an IPython kernel.


[('没边', 0.8734464645385742),
 ('吴彦祖', 0.8596014380455017),
 ('没演', 0.8558696508407593),
 ('😂', 0.8514242768287659),
 ('不对劲', 0.8513942956924438),
 ('半天', 0.8496172428131104),
 ('差点', 0.8495014309883118),
 ('查', 0.8486182689666748),
 ('真真是', 0.8465322256088257),
 ('放', 0.8416659832000732)]

In [None]:
#如何将单词转换为词向量

In [None]:
#word 2 id

In [101]:
cleanwords_one_list = []
for i in range(len(cleanwords)):
    for j in cleanwords[i]:
        cleanwords_one_list.append(j)

In [106]:
from collections import Counter
counts = Counter(cleanwords_one_list)
vocab = sorted(counts, key=counts.get, reverse=True)#aesending order
vocab_to_int = {word: ii for ii, word in enumerate(vocab, 1)}



In [107]:
vocab_to_int

{'电影': 1,
 '一个': 2,
 '故事': 3,
 '没有': 4,
 '最后': 5,
 '剧情': 6,
 '导演': 7,
 '一部': 8,
 '喜欢': 9,
 '片子': 10,
 '不是': 11,
 '不错': 12,
 '这部': 13,
 '觉得': 14,
 '但是': 15,
 '真的': 16,
 '真是': 17,
 '不过': 18,
 '感觉': 19,
 '这种': 20,
 '有点': 21,
 '其实': 22,
 '好看': 23,
 '看到': 24,
 '知道': 25,
 '非常': 26,
 '影片': 27,
 '...': 28,
 '镜头': 29,
 '完全': 30,
 '结尾': 31,
 '演员': 32,
 '角色': 33,
 '很多': 34,
 '世界': 35,
 '演技': 36,
 '实在': 37,
 '已经': 38,
 '现在': 39,
 '人物': 40,
 '比较': 41,
 '生活': 42,
 '情节': 43,
 '动作': 44,
 '中国': 45,
 '不能': 46,
 '观众': 47,
 '作品': 48,
 '出来': 49,
 '应该': 50,
 '表演': 51,
 '喜剧': 52,
 '看过': 53,
 '特效': 54,
 '可能': 55,
 '节奏': 56,
 '结局': 57,
 '一点': 58,
 '爱情': 59,
 '一种': 60,
 '一直': 61,
 '可爱': 62,
 '居然': 63,
 '主角': 64,
 '可惜': 65,
 '剧本': 66,
 '配乐': 67,
 '美国': 68,
 '风格': 69,
 '本片': 70,
 '简直': 71,
 '两个': 72,
 '经典': 73,
 '女主': 74,
 '之后': 75,
 '问题': 76,
 '特别': 77,
 '这是': 78,
 '除了': 79,
 '画面': 80,
 '烂片': 81,
 '精彩': 82,
 '题材': 83,
 '纪录片': 84,
 '以为': 85,
 '一起': 86,
 '时间': 87,
 '真实': 88,
 '里面': 89,
 '恐怖片': 90,
 '东西': 91,
 '恐怖'

In [125]:
len(vocab_to_int)

60749

In [None]:
#取出0长度行

In [141]:
review_ints = []
for each in cleanwords: 
    reviews_ints.append([vocab_to_int[word] for word in each])

In [142]:
len(reviews_ints)

27701

In [134]:
labels = [i for i in file_train_validation['情感'].values]

In [143]:
len(labels)

27701

In [144]:
review_lens = Counter([len(x) for x in reviews_ints])
print("Zero-length reviews: {}".format(review_lens[0]))
print("Maximum review length: {}".format(max(review_lens)))

Zero-length reviews: 437
Maximum review length: 857


In [165]:
reviews_ints[0]

[70, 11610, 2320, 3154, 35, 1203]

In [163]:
review_lens

Counter({6: 1384,
         21: 395,
         9: 924,
         17: 435,
         7: 1142,
         40: 295,
         10: 821,
         25: 331,
         1: 1450,
         38: 314,
         39: 294,
         42: 294,
         13: 587,
         35: 342,
         43: 246,
         19: 415,
         46: 153,
         36: 314,
         33: 289,
         4: 1852,
         27: 284,
         44: 253,
         28: 291,
         14: 564,
         30: 304,
         20: 391,
         23: 320,
         12: 611,
         26: 274,
         29: 284,
         11: 730,
         16: 453,
         8: 1078,
         34: 307,
         24: 320,
         5: 1582,
         32: 281,
         3: 2032,
         49: 37,
         45: 179,
         48: 73,
         31: 281,
         22: 361,
         2: 1987,
         0: 437,
         41: 297,
         50: 28,
         15: 511,
         47: 98,
         18: 400,
         37: 306,
         857: 1,
         59: 1,
         63: 3,
         51: 13,
         54: 4,
      

In [145]:
non_zero_idx = [ii for ii, review in enumerate(reviews_ints) if len(review) != 0]
len(non_zero_idx)

27264

In [146]:
reviews_ints = [reviews_ints[ii] for ii in non_zero_idx]
labels = np.array([labels[ii] for ii in non_zero_idx])

In [175]:
len(reviews_ints)

27264

In [None]:
#划分训练测试集

In [176]:
indices = np.arange(len(reviews_ints))

In [177]:
np.random.shuffle(indices)

In [178]:
train_indices = indices[:int(len(indices)*0.85)]

In [179]:
train_indices

array([20461,  1652, 13232, ...,   433,  6434,  5476])

In [180]:
test_indices = indices[int(len(indices)*0.85):]

In [181]:
test_indices

array([18352,  9977, 18511, ...,  3503,  5601, 26489])

In [189]:
reviews_ints_array= np.array(reviews_ints)
labels_array = np.array(labels)

In [205]:
x_train = reviews_ints_array[train_indices]

In [206]:
y_train = labels_array[train_indices]

In [233]:
len(x_train[2])

80

In [229]:
x_train[:10]

array([[    0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,   264,  2729,    35,   185],
       [    0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            

In [227]:
y_train[:100]

array([1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1,
       1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1,
       0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1])

In [207]:
len(x_train),len(y_train)

(23174, 23174)

In [208]:
x_test = reviews_ints_array[test_indices]

In [209]:
y_test = labels_array[test_indices]

In [210]:
len(x_test),len(y_test)

(4090, 4090)

In [211]:
##进性情感预测

In [212]:
from __future__ import print_function

from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Embedding
from keras.layers import LSTM

In [220]:
for i in range(len(x_train)):
    print(len(x_train[i]))

4
22
8
3
5
3
43
9
35
6
9
7
43
36
24
8
40
5
37
21
2
2
2
25
2
23
5
17
23
19
6
30
12
4
2
5
35
40
12
8
31
2
19
1
7
36
43
12
34
15
12
5
6
1
13
14
10
3
30
25
26
8
6
2
49
9
4
2
35
9
46
13
12
29
15
26
6
8
32
28
18
42
46
42
8
37
14
33
14
11
17
8
10
37
20
2
7
3
7
13
30
14
39
38
17
27
42
27
2
5
8
34
7
11
11
39
38
3
27
1
5
4
23
14
2
5
30
18
10
4
6
3
7
29
34
18
7
26
30
5
6
41
7
32
30
5
8
6
20
7
17
28
2
46
6
3
16
42
9
3
32
5
22
25
23
17
40
8
38
5
32
9
21
12
2
9
13
3
10
46
5
11
16
24
5
36
6
20
1
2
2
5
36
15
1
9
27
41
7
4
1
4
18
15
19
10
3
25
1
3
3
3
4
2
9
18
35
18
20
2
7
6
5
11
14
21
4
3
45
5
19
15
4
13
9
3
3
4
31
22
20
7
13
7
4
47
16
3
12
17
38
5
8
25
8
3
1
37
14
5
27
8
1
9
11
25
24
1
44
16
22
2
2
7
14
7
3
12
27
40
24
6
13
16
23
3
11
5
14
20
19
7
42
7
6
3
2
5
3
26
39
36
3
37
3
42
12
14
22
5
41
7
42
20
2
7
42
37
1
47
2
7
1
42
52
34
10
10
39
4
43
11
10
47
3
2
2
53
4
8
28
36
2
49
5
6
18
28
10
30
5
7
7
3
1
21
35
2
9
5
22
3
3
4
7
6
16
21
1
3
8
25
1
4
2
15
5
4
25
2
2
23
20
44
40
7
35
18
13
2
14
41
3
7
49


42
1
16
32
18
4
10
3
2
8
47
43
9
19
12
4
30
46
28
32
11
7
2
23
12
5
3
10
20
3
1
6
3
4
3
10
17
8
6
23
7
3
8
1
4
40
10
9
3
20
24
39
1
29
10
9
8
38
7
2
17
32
31
11
19
32
3
6
34
9
7
42
21
10
2
3
46
4
17
34
5
6
1
25
1
14
4
3
11
9
38
15
2
28
41
3
11
2
35
15
3
5
11
34
6
28
4
14
40
46
24
23
7
48
5
8
4
35
5
16
34
4
5
2
29
5
16
3
22
47
6
34
1
1
35
22
6
4
3
16
8
5
11
3
2
13
3
1
2
5
6
3
12
6
16
1
19
38
20
3
26
6
4
2
36
1
36
6
22
4
33
5
13
4
8
2
9
40
4
10
18
28
8
3
6
57
5
35
7
37
1
4
6
3
9
35
4
39
2
2
16
2
19
11
36
23
5
12
8
4
2
2
17
8
33
7
10
2
14
5
6
3
41
8
6
41
3
5
37
41
1
2
6
42
9
17
27
12
5
5
7
7
20
5
4
11
3
36
30
7
13
1
7
20
33
1
9
5
21
1
31
2
16
47
23
37
18
38
4
11
4
5
10
5
6
31
14
3
6
27
29
44
17
30
25
17
27
2
2
36
13
25
2
3
2
12
25
29
12
8
17
3
3
20
13
9
46
8
4
23
8
20
35
31
36
10
26
4
34
13
3
25
11
32
13
16
3
9
32
3
7
28
22
2
5
38
29
11
40
24
25
7
39
4
33
2
40
2
28
24
1
39
26
5
7
6
10
7
3
11
16
42
23
21
4
6
7
29
8
1
35
8
6
32
10
28
17
2
36
4
2
8
3
13
43
37
8
15
39
15
7
24
10
1
48
42
14
42

3
40
2
31
18
36
3
12
6
14
35
39
8
16
31
13
9
2
13
20
2
2
19
10
2
41
40
3
2
14
27
8
5
3
3
22
40
1
3
7
20
12
1
29
3
17
23
34
3
22
11
4
15
3
2
4
7
7
31
6
10
4
35
18
42
10
17
14
4
7
5
4
10
8
19
8
27
45
45
2
6
41
24
35
2
2
4
50
1
11
22
4
22
40
27
4
3
35
3
1
5
5
38
44
18
8
12
3
3
44
38
30
8
33
4
41
4
3
4
18
7
8
39
4
42
4
7
3
24
5
4
5
5
37
22
11
12
44
43
34
4
20
34
16
17
6
32
13
3
30
11
33
20
5
4
6
35
16
15
10
1
23
41
20
28
37
4
4
8
21
6
4
36
3
6
17
38
14
8
2
2
5
3
19
42
6
19
12
1
5
14
34
21
4
1
3
21
3
11
5
43
7
13
1
8
9
10
13
44
5
13
9
13
12
2
5
5
8
7
3
18
10
5
25
15
1
4
3
4
25
45
10
22
29
9
16
18
8
2
16
17
43
35
32
22
4
25
27
8
18
42
2
50
4
4
3
9
6
19
7
31
11
9
40
34
10
3
3
3
9
12
2
44
19
21
10
1
7
10
33
12
39
7
8
34
43
6
1
5
2
2
7
6
2
6
18
36
8
4
20
31
15
20
37
3
10
37
44
18
9
6
7
1
41
16
1
14
6
36
6
22
21
44
14
9
12
28
8
21
4
12
5
21
1
13
39
11
13
10
3
32
14
36
20
20
25
39
9
18
39
5
3
4
3
9
16
6
33
11
4
2
6
37
13
16
15
11
7
41
21
1
15
30
5
12
4
11
32
18
1
6
4
24
18
9
24
17
3
6
4
1
38
8
33

12
8
6
3
39
2
2
11
9
33
37
9
5
4
25
5
5
2
3
8
10
38
8
7
13
4
18
11
2
26
5
5
6
2
5
2
16
29
27
29
1
10
16
27
15
3
28
5
11
43
3
9
1
1
27
3
9
1
15
36
45
5
2
10
17
4
14
8
14
3
3
39
2
34
38
9
34
12
1
15
20
5
16
1
13
5
12
4
5
1
1
40
1
11
35
35
9
6
44
3
28
37
29
15
31
7
22
24
5
2
21
7
13
20
31
7
33
6
26
9
30
7
8
4
6
4
24
2
3
8
17
6
13
6
8
18
44
5
3
25
34
8
2
41
5
34
3
3
4
5
33
5
6
37
35
32
9
3
5
39
3
4
19
5
5
5
11
8
20
33
25
11
3
7
2
7
3
26
1
3
43
22
7
20
2
21
5
6
5
18
5
4
8
4
6
24
19
46
22
18
9
7
20
17
4
1
4
27
5
2
2
18
40
8
4
4
4
30
7
10
5
37
9
6
1
31
14
28
3
10
31
1
7
2
9
9
27
4
17
19
7
7
4
1
3
1
4
5
34
12
6
21
1
13
41
9
24
1
4
3
3
34
11
13
11
37
4
12
12
5
2
4
3
5
3
2
15
9
8
40
6
17
11
1
3
3
4
3
11
13
40
9
27
17
10
35
5
19
4
6
2
40
11
1
10
20
31
33
4
8
14
2
7
46
8
1
15
3
5
11
2
14
2
1
6
2
19
4
13
2
11
5
31
3
7
7
15
2
5
7
32
14
7
13
5
7
9
19
2
39
13
3
7
8
15
1
1
3
2
11
4
1
25
42
38
8
16
11
33
20
11
15
10
28
26
30
2
34
2
9
28
9
2
4
3
36
13
1
11
17
22
2
12
3
5
8
10
10
6
29
2
4
23
7
7
20
35
10


9
33
36
3
15
5
10
12
32
3
14
20
3
3
19
26
35
12
10
8
14
5
10
20
3
10
24
24
18
12
35
20
10
37
2
4
3
1
13
2
33
6
38
5
25
4
3
2
4
3
7
12
24
3
10
8
2
2
3
39
8
15
4
42
16
30
6
4
3
11
21
26
2
4
4
6
5
11
4
25
6
11
3
11
43
35
19
31
46
11
8
4
11
9
1
25
33
8
9
3
27
35
6
2
32
3
21
3
14
3
3
34
1
5
12
7
6
1
2
2
24
32
7
5
4
43
10
10
4
3
49
20
4
17
38
3
4
5
9
1
39
14
19
35
18
29
29
8
21
8
5
11
7
9
5
10
29
26
17
5
18
37
32
8
11
10
7
4
15
46
3
8
6
5
3
44
35
6
1
39
11
17
10
19
4
37
5
7
1
20
18
24
47
25
9
2
6
30
6
15
2
8
21
19
3
15
15
9
19
1
12
1
3
10
40
20
8
31
33
6
8
12
12
15
3
4
20
39
7
4
7
14
29
16
42
9
7
40
1
19
38
2
2
2
4
41
25
16
30
4
12
44
16
7
4
36
10
2
11
3
6
37
41
29
14
29
25
4
8
1
16
2
5
6
8
38
34
44
10
11
9
4
7
12
40
9
12
1
4
2
6
11
24
1
13
7
4
7
12
1
22
8
7
49
3
22
48
4
8
4
3
44
2
4
3
7
6
2
5
20
9
3
8
6
26
3
18
1
43
6
1
18
30
17
38
43
1
7
5
9
2
19
9
6
8
3
21
9
22
15
15
3
5
43
11
8
15
7
39
33
27
10
6
6
5
27
3
32
7
5
4
10
16
3
9
2
2
6
6
3
2
8
3
3
9
5
41
26
6
12
1
29
3
3
6
8
28
35
25
39
28
25


9
38
4
6
35
30
41
43
4
12
32
44
2
26
27
5
3
9
37
2
41
11
9
2
2
4
39
6
1
2
41
4
6
41
42
34
14
13
40
36
12
7
15
9
33
2
3
11
42
2
12
1
21
5
36
33
2
42
4
19
30
6
2
3
23
2
6
12
2
2
29
40
7
13
3
7
9
39
5
3
4
1
14
7
9
15
32
3
2
5
7
3
15
5
1
48
8
39
5
17
22
30
18
17
8
2
3
4
3
31
2
3
5
15
8
9
19
4
7
17
2
13
18
42
34
3
2
34
23
9
18
12
8
5
24
8
6
4
8
4
20
24
40
11
7
44
28
31
5
2
2
5
37
7
24
6
3
25
26
16
27
33
35
4
2
33
5
6
45
6
5
8
14
2
4
7
10
21
2
8
3
40
10
34
7
3
27
3
2
7
6
9
22
10
26
8
5
6
4
9
4
6
29
6
31
2
39
2
14
34
6
10
41
17
4
2
1
8
3
22
2
32
3
11
4
11
16
5
3
3
43
22
6
25
34
43
20
14
17
15
23
7
27
6
10
3
4
5
1
1
1
8
5
29
16
10
12
11
15
11
36
1
6
2
16
7
3
11
1
2
26
20
10
2
27
27
15
5
1
5
18
11
7
12
24
4
4
43
6
3
1
10
10
14
30
20
1
3
16
6
2
2
6
14
3
12
36
27
4
9
32
40
3
27
4
11
39
35
13
25
6
10
28
8
4
5
3
2
26
5
17
1
19
5
5
34
13
31
47
3
1
7
3
29
35
6
38
37
14
17
9
4
1
9
46
6
37
13
6
2
2
1
32
24
1
45
15
9
3
24
19
2
5
35
19
41
3
47
2
40
4
7
41
2
11
5
5
13
12
22
1
3
26
13
8
21
41
2
8
27
24
19


In [252]:
max_features = 70000
maxlen = 80  # cut texts after this number of words (among top max_features most common words)
batch_size = 64


print('Loading data...')
print(len(x_train), 'train sequences')
print(len(x_test), 'test sequences')



Loading data...
23174 train sequences
4090 test sequences


In [247]:
print('Pad sequences (samples x time)')
x_train = sequence.pad_sequences(x_train, maxlen=maxlen)
x_test = sequence.pad_sequences(x_test, maxlen=maxlen)
print('x_train shape:', x_train.shape)
print('x_test shape:', x_test.shape)

Pad sequences (samples x time)
x_train shape: (23174, 80)
x_test shape: (4090, 80)


In [248]:
print('Build model...')
model = Sequential()
model.add(Embedding(max_features, 128))
model.add(LSTM(128, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(1, activation='sigmoid'))

Build model...


In [249]:
# try using different optimizers and different optimizer configs
model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

print('Train...')

Train...


In [254]:
model.fit(x_train, y_train,
          batch_size=batch_size,
          epochs=15,
          validation_data=(x_test, y_test))
score, acc = model.evaluate(x_test, y_test,
                            batch_size=batch_size)
print('Test score:', score)

Train on 23174 samples, validate on 4090 samples
Epoch 1/15
Epoch 2/15
Epoch 3/15
Epoch 4/15
Epoch 5/15
Epoch 6/15
Epoch 7/15
Epoch 8/15
Epoch 9/15
Epoch 10/15
Epoch 11/15
Epoch 12/15
Epoch 13/15
Epoch 14/15
Epoch 15/15
Test score: 1.2135013578282008


回答：tensorflow模型构建的关键代码：

###  X 使用keras的history观察loss以及accuracy的变化

#### Q26: keras如何观察模型的loss变化以及准确率的变化，请列出关键代码

回答：
model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])
              
score, acc = model.evaluate(x_test, y_test,
                            batch_size=batch_size)
print('Test score:', score)

#### Q27: 请使用matplotlib画出loss变化的趋势；

回答：

### XI 使用tensorflow tensorboard观察loss, accuracy的变化

#### Q28: tensorflow如何观察模型的loss变化以及准确率的变化， tensor board 如何使用？ 请列出关键代码

回答：

#### Q29: 试着点击tensor board的不同按钮 观察图像的变化； 试着给tensorflow board机制 写入不同时候训练的模型时候，给模型取不同的名字，观察tensor board的图像变化；

回答：

### XII 观察熟悉RNN的两种变体的原理和方法

#### Q30:试着改进RNN，使用LSTM， GRU 进行模型的改动， 观察训练结果(loss和accuracy)的变化， 你观察到了什么变化？ 如何解释？

回答：

### XIII 模型的改进

#### Q31: 修改vocabulary size, embedding size, 并且结合使用LSTM， GRU， Bi-RNN， Stacked， Attentional, regularization, 等各种方法组合进行模型的优化， 至少进行10次优化，每次优化请按照以下步骤填写：

回答：

---这是一个实例----

第1次优化：

1. 存在的问题： loss下降太慢；
2. 准备进行的优化：减小模型的神经单元数量；
3. 期待的结果：loss下降加快；
4. 实际结果：loss下降的确加快(或者并没有加快)
5. 原因分析：模型神经元数量减小，收敛需要的次数减少，loss下降加快


---你的实验优化结构记录在此---

**第1次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：

**第2次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：

**第3次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：

**第4次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：

**第5次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：

**第6次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：

**第7次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：

**第9次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：

**第10次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：


### XIV问题： 本次实验的总结

请写实验的总结报告，描述此次项目的主要过程，其中遇到的问题，以及如何解决这些问题的，以及有什么经验和收获。

In [None]:
list = []
list.append('adfr')
list.append('fag')
list.append('gvcb')

letter_count = {}
for i in list:
    for j in i:
        if j not in letter_count.keys():
            letter_count[j] = 0
        letter_count[j] += 1
for k in letter_count:
    print(k,letter_count[k])