# Tensorflow回忆

之前我们搭建了一个没有隐层，只有一层输入和一层输出的人工神经网络（ANN）。

我们可以简单回忆一下搭建这个神经网络的步骤：

* 1）确定结构：一层输入，一层输出，没有隐层；输入层节点数等于特征数目，输出层节点数等于label种类数。

* 2）确定激活函数：softmax

* 3）确定损失函数：log损失函数

* 4）确定优化方法：梯度下降方法；实际训练有随机梯度下降（batch-gradient-descent）

那么在实际搭建中，tensorflow（tf）网络是这么建立的：

* 1）训练样本x,y：两个tf的placeholder，因为x,y作为训练样本需要不断传入新的，因此用place-holder。

* 2）参数w,b：w和b分别表示weights和bias，用tf的variable来进行表示，他们不用随时传递新的值，只需要不断更新就好。

* 3）输出Result：利用tf的乘法和简单加法计算y=w*x+b，得到每个节点的线性结果。

* 4）激活结果pred：prediction通过对输出result运用tf自带的softmax函数得到。

* 5）损失函数loss：通过tf自带的函数得到，并以真实值y和预测值pred作为输入。

* 6）优化函数train：通过tf自带的梯度下降函数得到，并将loss作为参数传入。

* 7）运行时，利用sess运行train，并把由实际数据分割成的batch_x和batch_y喂给x和y。


# 数据预处理

昨天的训练结果比较差，只能在90%左右徘徊，今天通过搭建一个CNN，来将结果尽可能提高到98%。

关于CNN的相关知识，可以回去查笔记。

## 加载包和数据

In [1]:
import numpy as np
import pandas as pd
import tensorflow as tf
import matplotlib.pyplot as plt

In [2]:
train=pd.read_csv('input/train.csv',index_col=False)
test=pd.read_csv('input/test.csv',index_col=False)

In [3]:
train.head()

Unnamed: 0,label,pixel0,pixel1,pixel2,pixel3,pixel4,pixel5,pixel6,pixel7,pixel8,...,pixel774,pixel775,pixel776,pixel777,pixel778,pixel779,pixel780,pixel781,pixel782,pixel783
0,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,4,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


## 提取特征数据&预处理

这里我们提取train数据中的特征数据x，并做简单的预处理（归一化）

**提取特征**

In [5]:
x_train=train.iloc[:,1:].values
x_train=x_train.astype(np.float)

**归一化处理**

In [6]:
x_train=np.multiply(x_train,1.0/255.0)

**计算图片长和高**

CNN会用到图片的长和高

In [9]:
image_size=x_train.shape[1]
image_width=image_height=np.ceil(np.sqrt(image_size)).astype(np.uint8)
image_width

28

## 提取label数据和预处理

这里我们把样本的label数据提取出来，并做one-hot编码，方便训练。

In [14]:
# 获得一共有几个label
labels_count=np.unique(train.iloc[:,0]).shape[0]
labels_count

10

**利用pd进行one-hot编码**

In [18]:
labels=pd.get_dummies(train.iloc[:,0]).values
labels[25]

array([0, 0, 0, 1, 0, 0, 0, 0, 0, 0], dtype=uint8)

## 划分训练集和验证集

我们对大的训练集做简单划分，划分成训练集和验证集，从而让我们的模型可以在验证集上跑一跑。

In [19]:
VALIDATION_SIZE=2000

train_images=x_train[VALIDATION_SIZE:]
train_labels=labels[VALIDATION_SIZE:]

validation_images=x_train[:VALIDATION_SIZE]
validation_labels=labels[:VALIDATION_SIZE]

**批处理**

由于数据量比较大，一次吃这么多数据进去训练慢，而且内存压力大。

因此我们采用批处理，让训练数据分批训练。

In [22]:
batch_size=100
n_batch=int(len(train_images)/batch_size)
n_batch

400

# 搭建模型

模型搭建主要需要有这么几个内容：

    1、用来接收特征和样本的两个placeholder
    
    2、若干个表示weights和bias的variable。
    
    3、将weights和variable与特征x组合起来的计算节点。
    
    4、将计算节点的输出进行激活的激活函数节点。
    
    5、以及根据预测值和真实值定义的损失函数。
    
    6、最后是根据损失函数定义的优化方法。

## 样本和label的接收节点

这里的None表示x和y传入几个样本都没关系，只要样本的大小是784或者10就可以。

In [25]:
x=tf.placeholder(tf.float32,[None,784])
y=tf.placeholder(tf.float32,[None,10])

## weights和bias初始化方法

由于这次的神经网络层比较多，我们逐层手动写会比较麻烦，这里我们通过构建两个方法来实现weights和bias的初始化。

In [28]:
def weight_variable(shape):
    # 表示初始化权重为正态分布，标准差为0.1
    initial=tf.truncated_normal(shape,stddev=0.1)
    return tf.Variable(initial)

def bias_variable(shape):
    # 初始化bias为常量0.1
    initial=tf.constant(0.1,shape=shape)
    return tf.Variable(initial)

## 卷积层和池化层

卷积层和池化层可以看做是对一个矩阵的特殊操作，具体的操作这里不多提。

那么为了不重复手工定义这个操作，我们同样用函数来定义一下。

In [29]:
def conv2d(x,W):
    return tf.nn.conv2d(x,W,strides=[1,1,1,1],padding='SAME')

def max_pool_2x2(x):
    return tf.nn.max_pool(x,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME')

## 输入张量化

呃，我也不知道这个是啥= - 

In [30]:
x_image=tf.reshape(x,[-1,28,28,1])

## 定义神经网络结构

那么现在开始，我们就要来搭建自己的神经网络啦。

**第一层**

In [32]:
# 定义第一层的weights
W_conv1=weight_variable([3,3,1,32])

# 定义第一层的bias
b_conv1=bias_variable([32])

# 对第一层数据做卷积
h_conv1=tf.nn.relu(conv2d(x_image,W_conv1)+b_conv1)

# 对卷积结果做池化
h_pool1=max_pool_2x2(h_conv1)

**第二层**

In [35]:
# 准备第二层参数
W_conv2=weight_variable([6,6,32,64])
b_conv2=bias_variable([64])

# 对第二层数据做卷积
h_conv2=tf.nn.relu(conv2d(h_pool1,W_conv2)+b_conv2)

# 对第二层做池化
h_pool2=max_pool_2x2(h_conv2)

**全连接层**

In [36]:
# 展开第二层池化结果
h_pool2_flat=tf.reshape(h_pool2,[-1,7*7*64])

# 定义全连接层参数
W_fc1=weight_variable([7*7*64,1024])
b_fc1=bias_variable([1024])

# 激活全连接层
h_fc1=tf.nn.relu(tf.matmul(h_pool2_flat,W_fc1)+b_fc1)

**对全连接层做dropout**

全连接层用1024个节点，太多了，我们需要drop_out

In [37]:
keep_prob=tf.placeholder(tf.float32)
h_fc1_drop=tf.nn.dropout(h_fc1,keep_prob)

**输出层**

In [38]:
W_fc2=weight_variable([1024,10])
b_fc2=bias_variable([10])
y_conv=tf.matmul(h_fc1_drop,W_fc2)+b_fc2

## 定义损失函数和优化方法

In [39]:
# 损失函数
loss=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y,logits=y_conv))

# 梯度下降优化
train_step_1=tf.train.AdadeltaOptimizer(learning_rate=0.1).minimize(loss)

## 定义精度计算节点以及保存模型

**精度计算方法**

In [41]:
# 定义在验证集上计算精度的节点
correct_prediction=tf.equal(tf.argmax(y,1),tf.argmax(y_conv,1))
accuracy=tf.reduce_mean(tf.cast(correct_prediction,tf.float32))

**保存模型**

In [42]:
global_step=tf.Variable(0,name='global_step',trainable=False)
saver=tf.train.Saver()

## 进行训练

最激动人心的时刻

In [49]:
# 别忘了初始化参数
init=tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init)
    
    for epoch in range(1,30):
        for batch in range(n_batch):
            # 得到批数据，利用批数据进行训练
            batch_x=train_images[(batch)*batch_size:(batch+1)*batch_size]
            batch_y=train_labels[(batch)*batch_size:(batch+1)*batch_size]
            # 运行整个模型
            sess.run(train_step_1,feed_dict={x:batch_x,y:batch_y,keep_prob:0.5})
            
        # 每个周期算一个精度
        accuracy_n=sess.run(accuracy,feed_dict={x:validation_images,y:validation_labels,keep_prob:1.0})
        
        # 打印结果
        print("第"+str(epoch+1)+"轮，准确度为："+str(accuracy_n))
        
        # 保存训练模型
        global_step.assign(epoch).eval()
        saver.save(sess,"save/model.ckpt",global_step=global_step)

第2轮，准确度为：0.896
第3轮，准确度为：0.9275
第4轮，准确度为：0.946
第5轮，准确度为：0.951
第6轮，准确度为：0.955
第7轮，准确度为：0.962
第8轮，准确度为：0.9655
第9轮，准确度为：0.968
第10轮，准确度为：0.9735
第11轮，准确度为：0.976
第12轮，准确度为：0.9765
第13轮，准确度为：0.978
第14轮，准确度为：0.9785
第15轮，准确度为：0.984
第16轮，准确度为：0.9825
第17轮，准确度为：0.982
第18轮，准确度为：0.985
第19轮，准确度为：0.986
第20轮，准确度为：0.985
第21轮，准确度为：0.9855
第22轮，准确度为：0.987
第23轮，准确度为：0.986
第24轮，准确度为：0.9875
第25轮，准确度为：0.988
第26轮，准确度为：0.989
第27轮，准确度为：0.9885
第28轮，准确度为：0.9895
第29轮，准确度为：0.9895
第30轮，准确度为：0.9885


## 预测

接下来，就可以用我们训练好的模型开始预测了

In [52]:
with tf.Session() as sess:
    sess.run(init)
    
    saver.restore(sess,'save/model.ckpt-29')
    
    test_x=np.array(test,dtype=np.float32)
    
    conv_y_predict=y_conv.eval(feed_dict={x:test_x[1:100,:],keep_prob:1.0})
    
    conv_y_predict_all=list()
    
    for i in np.arange(100,28001,100):
        
        conv_y_predict=y_conv.eval(feed_dict={x:test_x[i-100:i,:],keep_prob:1.0})
        
        test_pred=np.argmax(conv_y_predict,axis=1)
        
        conv_y_predict_all=np.append(conv_y_predict_all,test_pred)
    
    submission=pd.DataFrame(data={'ImageId':range(1,28001),'Label':np.int32(conv_y_predict_all)})
    
    submission.to_csv('Digit1.csv',index=False)

INFO:tensorflow:Restoring parameters from save/model.ckpt-29
