# 实验指导

实验目的：

1. 掌握神经网络的基本原理；
2. 掌握word2vec的基本原理；
3. 掌握Keras的基本用法；
4. 掌握tensorflow的基本用法；
5. 掌握RNN的基本原理；
6. 观察熟悉RNN的两种常见变体(LSTM和GRU)的原理和用法；
7. 熟悉深度学习自然语言处理的基本流程。 

### I 实验描述：

#### 数据： 使用爬虫获得的豆瓣评论数据
#### 目标： 建立机器学习模型，能够对输入的句子自动判断其对应的分值或感情倾向

## II 数据预处理

目的： 将文本信息变成神经网络可以处理的数据格式； 

## 第一部分： 基础理论

## III 神经网络的基本原理

#### Q1: 神经网络的Loss函数的作用为何？

回答： 

衡量神经网络预测值和真实值之间的误差，作为优化的目标函数，计算出来的误差值是反向传播的依据。

#### Q2: 神经网络的激活函数(activation function)起什么作用？ 如果没有激活函数会怎么样？ 

回答：

1. 激活函数对输入数据进行了非线性变换。

2. 若没有激活函数会导致模型过于简单，无法拟合非线性数据的复杂情况。

#### Q3: 神经网络的softmax如何理解， 其作用是什么？ 在`答案`中写出softmax的python表达；


答案：

softmax函数把神经网络输出的logits转化为总和为1的概率分布。

```python
import numpy as np
logits = np.array([y1,y2,y3])
softmax = np.exp(logits)/np.sum(np.exp(logits))
```

#### Q4: 简述 normalized_1 和softmax函数的相同点和不同点， 说明softmax相比normalized_1该函数的优势所在
```python
output = np.array([y1, y2, y3])

normalized_1 = output / np.sum(output)
```

回答：

相同点：normalized_1和softmax函数都是数据归一化的方式。

不同点：softmax在标准化之前对数据进行了指数转换。

softmax的优势：可以处理output中同时存在正负数的情况，数据间评分的概率分布不会在计算时抵消。

#### Q5: 写出crossentropy的函数表达式，说明该函数的作用和意义

回答：

cross_entropy $:= -\sum_{c=1}^{C}y_{c}\log{\hat{y}_{c}}$

在分类问题中对比预测值和真实值衡量它们之间的误差。


### IV 掌握word2vec的基本用法

#### Q6: 说明word2vec要解决的问题背景， 以及word2vec的基本思路， 说明word2vec比起之前方法的优势；

回答：

问题背景：
1. 对于简单的方法，词向量化质量低，没有很好地保持不同词语之间的语义关系。
2. 过于复杂的方法，当需要向量化的词汇太多时计算量过大，效率低。

基本思路：

优势：


#### Q7: 说明word2vec的预测目标， predication target, 在答案中写出skip-gram和cbow的预测概率；

回答： 
1.  skip-gram, $\hat{y}=$ {you code here}
2.  cbow, $\hat{y} = $ {you code here}

hints: 你可能需要查询latex的基本写法

#### Q8: 请说明word2vec的两种常见优化方法，分别阐述其原理；

回答：

#### Q9: 请说明word2vec中哈夫曼树的作用；

回答：

#### Q10: 在gensim中如何实现词向量？ 请将gensim中实现词向量的代码置于`答案`中

回答：

#### Q11: 请说出除了 skip-gram和cbow的其他4中词向量方法的名字， 并且选取其中两个叙述其基本原理。

回答：

### V 掌握keras的基本用法

#### Q12. 参考keras参考手册，构建一个机器学习模型，该模型能够完成使用DNN(deep neural networks) 实现MNIST数据集的分类；

回答：代码请置于下方：

hints:  keras 序列模型构建 https://keras.io/getting-started/sequential-model-guide/ 

### VI 掌握tensorflow的基本用法

#### Q13: 参考tensorflow的参考手册，构建一个机器学习模型，该模型能够完成使用DNN(deep neural networks)实现MNIST数据集的分类；

回答：代码请置于下方：

hints:tensorflow实现MNIST https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/udacity/2_fullyconnected.ipynb

#### Q14: 参考keras和tensorflow对同一问题的实现，说明keras和tensorflow的异同；

回答：

#### Q15: Q12， Q13 的tensorflow 或 keras 模型的训练时准确率和测试集准确率分别是多少？
回答：

#### Q16: 训练时准确率大于测试集准确率的现象叫什么名字，在神经网络中如何解决该问题？
回答：

#### Q17: 请使用自己的语言简述通过正则化 (regularization)减小过拟合的原理；
回答：

#### Q18: 在tensorflow官方实例中给出的fully connected 神经网络的分类模型中，数据进行了哪些预处理，这些预处理的原因是什么？ 
回答：

### VII 掌握RNN的基本原理

#### Q19: 简述RNN解决的问题所具有的特点；
回答：

#### Q20: 写出RNN实现时间或者序列相关的数学实现(见课程slides)；
回答：

#### Q20: 简述RNN的两种重要变体的提出原因和基本原理？
回答：

#### Q21: Attentional RNN 以及 Stacked RNN 和 Bi-RNN 分别是什么，其做了什么改动？
回答：

## 第二部分： 实验过程

### IIX 数据预处理

#### Q22：要实现文本分类或情感分类，文本信息需要进行哪些初始化操作？自己手工实现，keras提供的API，tenorflow提供的API，分别是哪些？请提供关键代码置于下边`回答`中

回答：

1. 简述所需要的初始化操作：
2. 自己手工实现的id_to_word, word_to_id, padding, batched等操作如何实现？
    + id_to_word, word_to_id
    
    ```python
    python: <you code here>
    ```
    + padding
    
    ```python
    python: <you code here>
    ```
    
    + batched
    
    ```python
    python: <you code here>
    ```

hints: 

+ 参考1 https://github.com/keras-team/keras/blob/master/examples/imdb_lstm.py
+ 参考2 

### IX 构建神经网络模型

#### Q22:在没有预训练的词向量时候， keras 如何实现embedding操作，即如何依据一个单词的序列获得其向量表示？
回答：


#### Q23:在没有预训练的词向量时候， tensorflow 如何实现embedding操作，即如何依据一个单词的序列获得其向量表示？
回答：

#### Q24: 在有预先训练的词向量时候，keras和tensorflow又如何实现embeding操作

回答：

#### Q25： 基于上文进行的数据预处理，使用keras和tensorflow如何构建神经网络模型？请提供关键代码

回答： keras模型构建的关键代码：

回答：tensorflow模型构建的关键代码：

###  X 使用keras的history观察loss以及accuracy的变化

#### Q26: keras如何观察模型的loss变化以及准确率的变化，请列出关键代码

回答：

#### Q27: 请使用matplotlib画出loss变化的趋势；

回答：

### XI 使用tensorflow tensorboard观察loss, accuracy的变化

#### Q28: tensorflow如何观察模型的loss变化以及准确率的变化， tensor board 如何使用？ 请列出关键代码

回答：

#### Q29: 试着点击tensor board的不同按钮 观察图像的变化； 试着给tensorflow board机制 写入不同时候训练的模型时候，给模型取不同的名字，观察tensor board的图像变化；

回答：

### XII 观察熟悉RNN的两种变体的原理和方法

#### Q30:试着改进RNN，使用LSTM， GRU 进行模型的改动， 观察训练结果(loss和accuracy)的变化， 你观察到了什么变化？ 如何解释？

回答：

### XIII 模型的改进

#### Q31: 修改vocabulary size, embedding size, 并且结合使用LSTM， GRU， Bi-RNN， Stacked， Attentional, regularization, 等各种方法组合进行模型的优化， 至少进行10次优化，每次优化请按照以下步骤填写：

回答：

---这是一个实例----

第1次优化：

1. 存在的问题： loss下降太慢；
2. 准备进行的优化：减小模型的神经单元数量；
3. 期待的结果：loss下降加快；
4. 实际结果：loss下降的确加快(或者并没有加快)
5. 原因分析：模型神经元数量减小，收敛需要的次数减少，loss下降加快


---你的实验优化结构记录在此---

**第1次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：

**第2次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：

**第3次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：

**第4次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：

**第5次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：

**第6次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：

**第7次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：

**第9次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：

**第10次优化**：

1. 存在的问题： 
2. 准备进行的优化：
3. 期待的结果：
4. 实际结果：
5. 原因分析：


### XIV问题： 本次实验的总结

请写实验的总结报告，描述此次项目的主要过程，其中遇到的问题，以及如何解决这些问题的，以及有什么经验和收获。