### 几中不同优化算法的比较

In [1]:
# 载入必要的函数库
import numpy as np
import matplotlib.pyplot as plt

import tensorflow as tf
from keras import Model
from keras.layers import Dense,Flatten,Input
from keras.optimizers import SGD,RMSprop,Adam

from keras.utils import to_categorical 

In [2]:
## 载入mnist数据集
mnist = tf.keras.datasets.mnist
(X_train, y_train), (X_test, y_test) = mnist.load_data() 

## 转换为one - hot型向量
Y_train=to_categorical(y_train)
Y_test=to_categorical(y_test)

print(Y_train.shape)
print(Y_train[0])

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
(60000, 10)
[0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]


In [3]:
'''
 实验：构建 Multi-layer Nueral Network 模型 
'''

##  第一步  创建模型结构 ##

IMSIZE = 28                                               
input_layer = Input([IMSIZE,IMSIZE])       # MNIST图像为28*28的单层图片
x = input_layer                              
x = Flatten()(input_layer)                   # 将28*28*1的Tensor拉直为784维向量
x = Dense(1000,activation = 'relu')(x)       # 全连接到1000个节点，并采用relu激活函数
x = Dense(10,activation = 'softmax')(x)      # 全连接到10个节点，并采用softmax激活函数转化为(0,1)取值
output_layer=x
model=Model(input_layer,output_layer)    # Model函数将input_layer 和 output_layer中间的部分连接起来
model.summary()

##  第二步  模型编译 ##

model.compile(loss='categorical_crossentropy',optimizer=SGD(lr=0.001),metrics=['accuracy'])

##  第三步  模型拟合 ##

history1 = model.fit(X_train,Y_train, validation_data=(X_test,Y_test), batch_size=1000, epochs=50)

# 第四部  提取loss指标
# model.fit会返回一个history对象，里面记录了训练集和测试集的loss以及acc
# 我们将这些指标取出，绘制折线图

train_loss1 = history1.history["loss"]

Model: "functional_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         [(None, 28, 28)]          0         
_________________________________________________________________
flatten (Flatten)            (None, 784)               0         
_________________________________________________________________
dense (Dense)                (None, 1000)              785000    
_________________________________________________________________
dense_1 (Dense)              (None, 10)                10010     
Total params: 795,010
Trainable params: 795,010
Non-trainable params: 0
_________________________________________________________________
Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epo

### 请编写出Momentum、RMSprop和Adam优化算法下的train loss情况，并将四种优化算法绘制在一张折线图下，如下

<img src="https://github.com/XingruiWang/RUC-Deep-Learning-Course/blob/master/NoteBook/optimizer.PNG?raw=1" alt="drawing" width="500"/>


### 提示：

### 1、你需要去查找资料，其他优化器的代码是什么？
### 2、一个最简单粗暴的办法，把上面的程序运行四个不同的版本，即可得到不同优化算法下的loss值，有愿意挑战的同学，不妨想想如何通话循环的方式将上述过程简化？