# Tensorflow 筆記

## import需要的模組

In [2]:
import tensorflow as tf 
import numpy as np
from time import time
import matplotlib.pyplot as plt
import tensorflow.examples.tutorials.mnist.input_data as input_data

## 變數宣告

* 常數  tf.constant(數字,name="")
* 此變數名稱會顯示在計算圖上

In [3]:
ts_c = tf.constant(2,name="ts_c")
ts_c

<tf.Tensor 'ts_c:0' shape=() dtype=int32>

* 變數宣告 tf.Variable(數字,name="")
* 執行後只是顯示這是一個Tensorflow變數。這是因為Tensorflow變數必須要執行"計算圖"之後，才能看到結果

In [4]:
ts_x = tf.Variable(ts_c+5,name="ts_x")
ts_x

<tf.Variable 'ts_x:0' shape=() dtype=int32_ref>

# 執行計算圖

* 建立計算圖後，就可以執行計算圖
* 執行前必須先建立Session
* 在tensorflow中Session代表在用戶端和執行裝置之間建立連結
* 有了這個連結，就可以將計算圖在裝置中執行
* 後續任何與裝置間的溝通，都必須透過Session

#### 建立Session

In [5]:
sess=tf.Session()
sess

<tensorflow.python.client.session.Session at 0x1c334222e8>

#### 執行Tensorflow起始化變數
* 必須使用下列指令，起始化所有Tensorflow global變數

In [6]:
init = tf.global_variables_initializer()
sess.run(init)

#### 關閉Tensorflow session
* 不需要再使用session時，必須使用sess.close()關閉session

In [7]:
sess.close()

#### with語法開啟Session並且自動關閉
* 在with區塊中可使用sess變數與裝置溝通，離開with區塊自動關閉session

In [8]:
with tf.Session() as sess:
    ...

# Tensorflow placeholder
* 希望在執行計算圖階段才決定數值，而不是像上面在建立計算圖階段就已經設定完成

#### tf.placeholder("data_type") &  feed_dict{} :傳入參數

In [9]:
width = tf.placeholder("int32")
height = tf.placeholder("int32")
area = tf.multiply(width,height)
with tf.Session() as sess:
    init = tf.global_variables_initializer()
    sess.run(init)
    sess.run(area,feed_dict={width:6,height: 8})

# 建立1維的張量(向量)
* 只需要使用tf.Variable()傳入list即可
* 利用shape查看資料形狀

In [10]:
ts_X=tf.Variable([0.4,0.2,0.4])
with tf.Session() as sess:
    init=tf.global_variables_initializer()
    sess.run(init)
    X=sess.run(ts_X)
    print(X)
    print(X.shape)

[0.4 0.2 0.4]
(3,)


# 建立2維的tensor
* 使用tf.Variable()傳入2維的list

In [11]:
W=tf.Variable([[-0.5,-0.2],
               [-0.3,0.4],
               [-0.5,0.2]])
with tf.Session() as sess:
    init=tf.global_variables_initializer()
    sess.run(init)
    W_array=sess.run(W)
    print(W_array)
    print(W_array.shape)

[[-0.5 -0.2]
 [-0.3  0.4]
 [-0.5  0.2]]
(3, 2)


# 矩陣基本運算
* 矩陣乘法: tf.matmul()
* 矩陣加法: 使用+號即可

In [12]:
X=tf.Variable([[1.,1.,1.]])
W=tf.Variable([[-0.5,-0.2],
               [-0.3,0.4],
               [-0.5,0.2]])
b=tf.Variable([[0.1,0.2]])
XWb=tf.matmul(X,W)+b
with tf.Session() as sess:
    init = tf.global_variables_initializer()
    sess.run(init)
    print(sess.run(XWb))

[[-1.1999999  0.6      ]]


# 以矩陣運算模擬神經網路
* y1=activation function(x1*W11+x2*w21+x3*w31+b1)
* y2=activation function(x1*W12+x2*w22+x3*w32+b2)
* -----------------------------------[w11 w12] 
* [y1 y2]=activation( [x1 x2 x3] * [w21 w22] + [b1 b2] )
* -----------------------------------[w31 w32]

# 矩陣運算式加入sigmoid&relu激活函數
* tf.nn.sigmoid()
* tf.nn.relu()

In [13]:
X=tf.Variable([[1.,1.,1.]])
W=tf.Variable([[-0.5,-0.2],
               [-0.3,0.4],
               [-0.5,0.2]])
b=tf.Variable([[0.1,0.2]])
XWb=tf.matmul(X,W)+b
y=tf.nn.sigmoid(XWb)
#y=tf.nn.relu(XWb)
with tf.Session() as sess:
    init = tf.global_variables_initializer()
    sess.run(init)
    print(sess.run(y))

[[0.23147522 0.6456563 ]]


# 亂數產生Weight與bias
* 以常態分佈的亂數產生Weight與bias的初始值
* tf.random_normal([row,col])

In [14]:
W=tf.Variable( tf.random_normal([3,2]) )
b=tf.Variable( tf.random_normal([1,2]) )
X=tf.Variable([[0.4,0.2,0.4]]) #x要是matrix[[]]
y=tf.nn.relu(tf.matmul(X,W)+b)
with tf.Session() as sess:
    init = tf.global_variables_initializer()
    sess.run(init)
    print(sess.run(b))
    print(sess.run(W))
    print(sess.run(y))

[[-0.0745519   0.49776375]]
[[ 0.17381388 -0.04452677]
 [ 0.4749147   0.24185096]
 [ 0.39149633 -0.8116722 ]]
[[0.24655512 0.20365435]]


#### 參數合在一起
* ( _b, _W, _y)=sess.run( (b,W,y) )
* 要兩個括號

In [15]:
W=tf.Variable( tf.random_normal([3,2]) )
b=tf.Variable( tf.random_normal([1,2]) )
X=tf.Variable([[0.4,0.2,0.4]]) #x要是matrix[[]]
y=tf.nn.relu(tf.matmul(X,W)+b)
with tf.Session() as sess:
    init = tf.global_variables_initializer()
    sess.run(init)
    (_b,_W,_y)=sess.run((b,W,y)) 
    print(_b)
    print(_W)
    print(_y)

[[-1.4756765 -1.0410008]]
[[ 0.7992254  -0.7507751 ]
 [-0.617283   -0.68168026]
 [ 0.440204   -0.42031956]]
[[0. 0.]]


# 以placeholder傳入x值
* x=tf.placeholder( "data_type",[None,col] )
* [None,3]，第一個維度設定為None，因為傳入的X筆數不限數量，第二個維度是每一筆的數字個數

In [16]:
W=tf.Variable( tf.random_normal([3,2]) )
b=tf.Variable( tf.random_normal([1,2]) )
X=tf.placeholder("float",[None,3])
y=tf.nn.relu(tf.matmul(X,W)+b)
with tf.Session() as sess:
    init = tf.global_variables_initializer()
    sess.run(init)
    X_array = np.array([[0.4,0.2,0.4]])
    (_b,_W,_y)=sess.run((b,W,y),feed_dict={X:X_array}) 
    print(_b)
    print(_W)
    print(_y)

[[ 0.3719206  -0.31936184]]
[[ 0.04643898  0.2564865 ]
 [-0.30867648 -2.2626848 ]
 [ 0.6012653  -1.4424192 ]]
[[0.56926703 0.        ]]


# 建立layer函數

In [17]:
def layer(output_dim,input_dim,inputs,activation=None):
    W=tf.Variable(tf.random_normal([input_dim,output_dim]))
    b=tf.Variable(tf.random_normal([1,output_dim]))
    XWb=tf.matmul(inputs,W)+b
    if activation is None:
        outputs = XWb
    else:
        outputs = activation(XWb)
    return outputs

# 使用layer函數建立3層類神經網路

In [18]:
X = tf.placeholder("float",[None,4])
h = layer(output_dim=3,input_dim=4,inputs=X,activation=tf.nn.relu)
y = layer(output_dim=2,input_dim=3,inputs=h)
with tf.Session() as sess:
    init = tf.global_variables_initializer()
    sess.run(init)
    X_array = np.array([[0.4,0.2,0.4,0.5]])
    (layer_X,layer_h,layer_y) = sess.run((X,h,y),feed_dict={X:X_array})


# 建立模型(multilayer perceptron)

#### x:輸入層  & h1:隱藏層  & y_predict:輸出層

In [19]:
x=tf.placeholder("float",[None,784])
h1=layer(output_dim=256,input_dim=784,inputs=x,activation=tf.nn.relu)
y_predict=layer(output_dim=10,input_dim=256,inputs=h1,activation=None)

#### 建立訓練資料label真實值的placeholder
* 第一維度：設定為None，因為後續訓練時會傳送很多數字影像，筆數不固定
* 第二維度：設定為10，因為輸入的數字真實值已經使用Onehot encoding轉換

In [20]:
y_label=tf.placeholder("float",[None,10])

#### 定義loss function 
* 深度學習通常使用cross_entropy
* tf.nn.softmax_cross_entropy_with_logits(logits,labels)
* logits:神經網路最後一層的輸出
* labels:實際的標籤
* tf.reduce_mean():將下列cross_entropy計算結果平均

In [21]:
loss_function=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits
                             (logits=y_predict,labels=y_label))

Instructions for updating:

Future major versions of TensorFlow will allow gradients to flow
into the labels input on backprop by default.

See @{tf.nn.softmax_cross_entropy_with_logits_v2}.



#### 定義optimizer最優化方法
* optimizer呼叫tf.train模組定義
* 使用AdamOptimizer
* Optimizer使用loss_function計算loss(誤差)，並且依照loss(誤差)更新模型權重(weight&bias)使loss最小化

In [22]:
optimizer=tf.train.AdamOptimizer(learning_rate=0.001).minimize(loss_function)

# 定義評估模型的準確率方式

#### 計算每一筆資料是否預測正確
* tf.equal(a,b)：計算a,b是否相等
* tf.argmax()：將Onehot encoding轉成數字0~9

In [23]:
correct_prediction=tf.equal(tf.argmax(y_label,1),
                            tf.argmax(y_predict,1))

#### 將計算預測正確結果平均
* 將前一步驟計算結果correct_prediction進行平均運算
* 先將correct_prediction利用tf.cast()轉成float
* tf.reduce_mean()：計算平均

In [24]:
accuracy=tf.reduce_mean(tf.cast(correct_prediction,"float"))

# 進行訓練

#### 資料共55000筆，分為每一批次100筆，要將所有資料訓練完畢，須執行550批次，當所有資料訓練完畢，稱為一個epoch(訓練週期)

#### 定義訓練參數
* trainEpochs:設定訓練週期
* batchSize:每一batch多少筆資料
* totalBatchs：計算每一epoch要做幾次batch
* startTime:記錄起始時間
* loss_list[]&accuracy_list:記錄每一epoch的loss和準確率

In [33]:
mnist = input_data.read_data_sets("MNIST_data/",one_hot=True)
trainEpochs=15
batchSize=100
totalBatchs=int(mnist.train.num_examples/batchSize)
loss_list=[]
epoch_list=[]
accuracy_list=[]
startTime=time()
sess=tf.Session()
sess.run(tf.global_variables_initializer())

Extracting MNIST_data/train-images-idx3-ubyte.gz
Extracting MNIST_data/train-labels-idx1-ubyte.gz
Extracting MNIST_data/t10k-images-idx3-ubyte.gz
Extracting MNIST_data/t10k-labels-idx1-ubyte.gz


#### 進行訓練

In [26]:
for epoch in range(trainEpochs):
    for i in range(totalBatchs):
        batch_x,batch_y=mnist.train.next_batch(batchSize)
        sess.run(optimizer,feed_dict={x:batch_x,y_label:batch_y})
    loss,acc=sess.run([loss_function,accuracy],feed_dict={x:mnist.validation.images,
                                                          y_label:mnist.validation.labels})
    epoch_list.append(epoch)
    loss_list.append(loss)
    accuracy_list.append(acc)
    print("Train Epoch:",'%02d' % (epoch+1),"Loss=","{:.9f}".format(loss),"Accuracy=",acc)
duration=time()-startTime
print("Train Finished takes:",duration)
    
    
    
    

Train Epoch: 01 Loss= 6.133258820 Accuracy= 0.8484
Train Epoch: 02 Loss= 4.046940804 Accuracy= 0.8886
Train Epoch: 03 Loss= 3.082746029 Accuracy= 0.903
Train Epoch: 04 Loss= 2.605566502 Accuracy= 0.9098
Train Epoch: 05 Loss= 2.232368231 Accuracy= 0.9214
Train Epoch: 06 Loss= 1.987748027 Accuracy= 0.9254
Train Epoch: 07 Loss= 1.812515259 Accuracy= 0.9314
Train Epoch: 08 Loss= 1.646093369 Accuracy= 0.9328
Train Epoch: 09 Loss= 1.512596965 Accuracy= 0.9384
Train Epoch: 10 Loss= 1.468485594 Accuracy= 0.9386
Train Epoch: 11 Loss= 1.454109788 Accuracy= 0.9416
Train Epoch: 12 Loss= 1.374641418 Accuracy= 0.9412
Train Epoch: 13 Loss= 1.291119695 Accuracy= 0.9426
Train Epoch: 14 Loss= 1.291845798 Accuracy= 0.9438
Train Epoch: 15 Loss= 1.265330672 Accuracy= 0.9454
Train Finished takes: 27.28214693069458


# CNN卷積網路

# 建立共用函數

#### 定義weight函數，用於建立權重(weight)張量
* 利用tf.truncated_normal(shape,stddev)隨機初始化權重
* tf.trucated_normal() 產生常態分佈，標準差和平均可以自己決定

In [27]:
def weight(shape):
    return tf.Variable(tf.truncated_normal(shape,stddev=0.1),name='W')

#### 定義bias函數，用於建立bias張量
* 使用tf.constant()

In [28]:
def bias(shape):
    return tf.Variable(tf.constant(0.1,shape=shape),name='b')

#### 定義conv2d函數，用於進行卷積運算
* strides:格式是[1,stride,stride,1]，也就是濾鏡每次移動時，由左往右，由上而下各一步
* padding:設定為'SAME'模式，此模式會在邊界之外補0再做運算，讓輸入和輸出影像是同一個大小

In [29]:
def conv2d(x,W):
    return tf.nn.conv2d(x,W,strides=[1,1,1,1],padding='SAME')

#### 建立max_pool_2*2函數
* ksize:格式為[1,height,width,1]

In [30]:
def max_pool_2_2(x):
    return tf.nn.max_pool(x,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME')

# 建立模型

#### 輸入層
* x原本是一維向量，因為後續要進行卷積與max pooling，必須轉換為四維張量
* 第一個維度是-1：因為之後是由placeholder輸入的筆數不固定
* 第2,3個維度是28*28:因為輸入的數字影像大小是28*28
* 第四個維度是1:是單色所以設定為1，如果是彩色就要設定為3

In [31]:
with tf.name_scope('Input_Layer'):
    x=tf.placeholder("float",shape=[None,784],name="x")
    x_image=tf.reshape(x,[-1,28,28,1])

#### 建立卷積層1
* 卷積層的運算會將單一影像，產生多個影像，很類似濾鏡的效果。這可以幫助提取輸入的不同特徵，例如邊緣，線條等等
* conv2d:進行卷積運算，輸入參數：x_image(要處理的影像),W1(filter的權重)
* 建立W1的權重：
* 第1,2個維度是5,5:代表(filter weight)的大小5*5
* 第三個維度是1:因為數字影像是單色所以設定為1，如果是彩色就要設定為3
* 第四個維度是16:因為要產生16個影像
* 最後以上卷積運算的結果，再由relu轉換

In [32]:
with tf.name_scope('C1_Conv'):
    W1=weight([5,5,1,16])
    b1=bias([16])
    Conv1=conv2d(x_image,W1)+b1
    C1_Conv=tf.nn.relu(Conv1)

#### 建立max pooling layer 1
* max pooling層使用縮減取樣(downsampling)，會將影像從28*28縮減成14*14，不會改變影像數量(仍16)
* 1.減少所需處理的資料點：減少後續運算所需的時間
* 2.讓影像位置差異變小：例如手寫數字7，位置上下左右可能不同，但是位置的不同可能會影響辨識。減小影像大小，讓數字的位置差異變小
* 3.參數的數量和計算量下降：對控制overfitting有幫助

In [34]:
with tf.name_scope("C1_Pool"):
    C1_Pool=max_pool_2_2(C1_Conv)

#### 建立卷積層2
* 將原本16個的影像，轉換為36個影像
* 建立W2的權重：
* 第1,2個維度是5,5:代表(filter weight)的大小5*5
* 第3個維度是16:因為卷積層1的影像數量是16
* 第4個維度是36:因為要將原本16個影像，轉換為36個影像
* 最後以上卷積運算的結果，再由relu轉換

In [36]:
with tf.name_scope('C2_Conv'):
    W2=weight([5,5,16,36])
    b2=bias([36])
    Conv2=conv2d(C1_Pool,W2)+b2
    C2_Conv=tf.nn.relu(Conv2)

#### 建立max pooling layer 2

In [37]:
with tf.name_scope('C2_Pool'):
    C2_Pool=max_pool_2_2(C2_Conv)

#### 建立Fully connected layer
* 此層將max pooling layer 2的36個7*7影像，轉換為1維的向量，長度是36x7x7=1764
* [-1,1764]：第一個維度是-1，因為後續會傳入不限定筆數的訓練資料數字影像

In [39]:
with tf.name_scope('D_Flat'):
    D_Flat=tf.reshape(C2_Pool,[-1,1764])

#### 建立隱藏層
* 加入Dropout避免overfitting
* tf.nn.dropout的功能是，每次訓練迭代時，會隨機地在神經網路中放棄一些神經元，以避免overfitting
* D_Hidden：要執行dropout的神經網路層
* keep_prob=0.8:設定要保留的神經元比率，0.8代表要保留80%的神經元，隨機去掉20%的神經元

In [40]:
with tf.name_scope('D_Hidden_Layer'):
    W3=weight([1764,128])
    b3=bias([128])
    D_Hidden=tf.nn.relu(tf.matmul(D_Flat,W3)+b3)
    D_Hidden_Dropout=tf.nn.dropout(D_Hidden,keep_prob=0.8)

#### 建立輸出層(output_layer)
* 先使用tf.matmul()最後再使用tf.nn.softmax() 激活函數

In [41]:
with tf.name_scope('Output_Layer'):
    W4=weight([128,10])
    b4=bias([10])
    y_predict=tf.nn.softmax(tf.matmul(D_Hidden_Dropout,W4)+b4)
    

#### 定義訓練方式

In [42]:
with tf.name_scope("optimizer"):
    y_label=tf.placeholder("float",shape=[None,10],name="y_label")
    loss_function=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits
                                (logits=y_predict,labels=y_label))
    optimizer=tf.train.AdamOptimizer(learning_rate=0.0001).minimize(loss_function)

#### 定義評估模型的準確率方式

In [44]:
with tf.name_scope("evaluate_model"):
    correct_prediction=tf.equal(tf.arg_max(y_predict,1),tf.arg_max(y_label,1))
    accuracy=tf.reduce_mean(tf.cast(correct_prediction,"float"))

#### 定義訓練參數

In [45]:
trainEpochs=3
batchSize=100
totalBatchs=int(mnist.train.num_examples/batchSize)
epoch_list=[]
accuracy_list=[]
loss_list=[]
startTime=time()
sess=tf.Session()
sess.run(tf.global_variables_initializer())

#### 進行訓練

In [49]:
for epoch in range(trainEpochs):
    for i in range(totalBatchs):
        batch_x,batch_y=mnist.train.next_batch(batchSize)
        sess.run(optimizer,feed_dict={x:batch_x,y_label:batch_y})
    loss,acc=sess.run([loss_function,accuracy],feed_dict={x:mnist.validation.images,
                                                          y_label:mnist.validation.labels})
    epoch_list.append(epoch)
    loss_list.append(loss)
    accuracy_list.append(acc)
    print("Train Epoch:",'%02d' %(epoch+1),"Loss=",loss,"Accuracy=",acc)
duration=time()-startTime
print("Train Finished takes:",duration)

Train Epoch: 01 Loss= 1.5171881 Accuracy= 0.9494
Train Epoch: 02 Loss= 1.509616 Accuracy= 0.9556
Train Epoch: 03 Loss= 1.5035113 Accuracy= 0.9622
Train Finished takes: 681.2201976776123
