In [None]:
!nvidia-smi

Tue Nov  3 07:48:36 2020       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 455.32.00    Driver Version: 418.67       CUDA Version: 10.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla V100-SXM2...  Off  | 00000000:00:04.0 Off |                    0 |
| N/A   35C    P0    25W / 300W |      0MiB / 16130MiB |      0%      Default |
|                               |                      |                 ERR! |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

* @file 深度學習基礎/tf_basic_operation.ipynb
  * @brief tf_basic_operation

  * 此份程式碼是以教學為目的，附有完整的架構解說。

  * @author 人工智慧科技基金會 AI 工程師 - 康文瑋
  * Email: run963741@aif.tw
  * Resume: https://www.cakeresume.com/run963741

  * 最後更新日期: 2020/11/26

# Tensorflow 基本概念和語法

In [None]:
import tensorflow as tf
import numpy as np

print(tf.__version__)

2.3.0


## Tensor 張量

在 Tensorflow 中，所有的運算都是以 `tf.Tensor` 來進行，Tensor 又稱張量，張量是一種廣義矩陣的講法，在 Tensorflow 中是使用 `tf.Tensor` 來儲存數值。

### 零維張量 (0-dimension)，又稱常數 (scalar)

In [None]:
x = tf.constant(value=1)
print(x) 

tf.Tensor(1, shape=(), dtype=int32)


### 一維張量 (1-dimension)，又稱向量 (vector)

In [None]:
x = tf.constant(value=[1, 2, 3, 4, 5, 6])
print(x) 

tf.Tensor([1 2 3 4 5 6], shape=(6,), dtype=int32)


### 二維張量 (2-dimension)，又稱矩陣 (matrix)

在深度學習領域中，大部分的計算過程都是二維以上在進行。


In [None]:
x = tf.constant(value=[[1, 2, 3], [4, 5, 6]])
print(x) 

tf.Tensor(
[[1 2 3]
 [4 5 6]], shape=(2, 3), dtype=int32)


### 三維張量 (3-dimension)


In [None]:
x = tf.constant(value=[[[1, 2, 3], [4, 5, 6]],[[7, 8, 9], [10, 11, 12]]])
print(x)

tf.Tensor(
[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]], shape=(2, 2, 3), dtype=int32)


### 格式說明

在訓練過程或是 debug 時，常常用下面三個指令來確定 `tf.Tensor` 裡面的數值型態。

In [None]:
x.numpy()

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]], dtype=int32)

In [None]:
x.shape

TensorShape([2, 2, 3])

In [None]:
x.dtype

tf.int32

雖然 Tensorflow 2 已經支援大部分的數學運算，但有時候仍然有一些數學運算只能用`numpy`來實現，常常使用 `tf.convert_to_tensor` 將 `numpy` 轉換成 `tf.Tensor`。

In [None]:
np_matrix = np.arange(0,10).reshape(2,5)
x = tf.convert_to_tensor(np_matrix)
print(x)

tf.Tensor(
[[0 1 2 3 4]
 [5 6 7 8 9]], shape=(2, 5), dtype=int64)


## Variable 變數

在模型訓練過程中，參數會一步一步更新，`tf.Variable` 就是用來放置**可更新學習的變數**，例如神經網路中的權重 (Weights)、截距 (bias)就是 `tf.Variable` 型態，而其中也支援多種維度的張量，另外，所有的變數基本上都是用浮點數 (float) 來表示。

### 零維張量 (0-dimension)，又稱常數 (scalar)

In [None]:
y = tf.Variable(1., name='variable', dtype=tf.float32)
print(y)

<tf.Variable 'variable:0' shape=() dtype=float32, numpy=1.0>


### 一維張量 (1-dimension)，又稱向量 (vector)

In [None]:
y = tf.Variable([1., 2., 3., 4., 5., 6.], name='variable', dtype=tf.float32)
print(y)

<tf.Variable 'variable:0' shape=(6,) dtype=float32, numpy=array([1., 2., 3., 4., 5., 6.], dtype=float32)>


### 二維張量 (2-dimension)，又稱矩陣 (matrix)

In [None]:
y = tf.Variable([[1., 2., 3.], [4., 5., 6.]], name='variable', dtype=tf.float32)
print(y)

<tf.Variable 'variable:0' shape=(2, 3) dtype=float32, numpy=
array([[1., 2., 3.],
       [4., 5., 6.]], dtype=float32)>


### 三維張量 (3-dimension)



In [None]:
y = tf.Variable([[[1., 2., 3.], [4., 5., 6.]],[[7., 8., 9.], [10., 11., 12.]]], name='variable')
print(y)

<tf.Variable 'variable:0' shape=(2, 2, 3) dtype=float32, numpy=
array([[[ 1.,  2.,  3.],
        [ 4.,  5.,  6.]],

       [[ 7.,  8.,  9.],
        [10., 11., 12.]]], dtype=float32)>


`tf.Variable` 也有基本的數值型態可以確認

In [None]:
y.shape

TensorShape([2, 2, 3])

In [None]:
y.dtype

tf.float32

In [None]:
y.numpy()

array([[[ 1.,  2.,  3.],
        [ 4.,  5.,  6.]],

       [[ 7.,  8.,  9.],
        [10., 11., 12.]]], dtype=float32)

另外有 `.trainable` 來確定此變數是不是可以訓練的

In [None]:
y.trainable

True

## 基礎運算

接下來介紹幾種常見的數學基本運算元。

In [None]:
# 變數初始化
y = tf.Variable([1., 2.], name='variable', dtype=tf.float32)
print(y)

# 變數賦值
y.assign([2., 1.])
print(y)

<tf.Variable 'variable:0' shape=(2,) dtype=float32, numpy=array([1., 2.], dtype=float32)>
<tf.Variable 'variable:0' shape=(2,) dtype=float32, numpy=array([2., 1.], dtype=float32)>


### Addition

在 `tensorflow` 有許多種運算方式與 `numpy` 類似，例如加法、減法等等。

In [None]:
# 變數初始化
y = tf.Variable([1., 2.], name='variable', dtype=tf.float32)
print(y)
print('-'*10)

# 法一：直接用 + 符號
y1 = y + tf.Variable([2., 1.], dtype=tf.float32)
print(y1)
print('-'*10)


# 法二：使用 .assign_add
y.assign_add([2. ,1.])
print(y)

<tf.Variable 'variable:0' shape=(2,) dtype=float32, numpy=array([1., 2.], dtype=float32)>
----------
tf.Tensor([3. 3.], shape=(2,), dtype=float32)
----------
<tf.Variable 'variable:0' shape=(2,) dtype=float32, numpy=array([3., 3.], dtype=float32)>


### Subtraction

In [None]:
# 變數初始化
y = tf.Variable([1., 2.], name='variable', dtype=tf.float32)
print(y)
print('-'*10)

# 法一：直接用 - 符號
y1 = y - tf.Variable([2. ,1.], dtype=tf.float32)
print(y1)
print('-'*10)

# 法二：使用 .assign_add
y.assign_sub([2., 1.])
print(y)

<tf.Variable 'variable:0' shape=(2,) dtype=float32, numpy=array([1., 2.], dtype=float32)>
----------
tf.Tensor([-1.  1.], shape=(2,), dtype=float32)
----------
<tf.Variable 'variable:0' shape=(2,) dtype=float32, numpy=array([-1.,  1.], dtype=float32)>


### Mean

平均數是常見的運算符號，在高維張量中則涉及不同維度的平均。

In [None]:
# 變數初始化
y = tf.Variable([[1., 2.],[3., 4.]], name='variable', dtype=tf.float32)
print(y)
print(y.shape)
print('-'*10)

# axis=None, 全部數字一起平均
y1 = tf.math.reduce_mean(y, axis=None)
print(y1)
print('-'*10)

# axis=0, 依照第一個維度做平均
y2 = tf.math.reduce_mean(y, axis=0)
print(y2)
print('-'*10)

# axis=1, 依照第二個維度做平均
y3 = tf.math.reduce_mean(y, axis=1)
print(y3)

<tf.Variable 'variable:0' shape=(2, 2) dtype=float32, numpy=
array([[1., 2.],
       [3., 4.]], dtype=float32)>
(2, 2)
----------
tf.Tensor(2.5, shape=(), dtype=float32)
----------
tf.Tensor([2. 3.], shape=(2,), dtype=float32)
----------
tf.Tensor([1.5 3.5], shape=(2,), dtype=float32)


### Sum

總和是常見的運算符號，在高維張量中則涉及不同維度的總和。

In [None]:
# 變數初始化
y = tf.Variable([[1., 2.],[3., 4.]], name='variable', dtype=tf.float32)
print(y)
print(y.shape)
print('-'*10)

# axis=None, 全部數字一起總和
y1 = tf.math.reduce_sum(y, axis=None)
print(y1)
print('-'*10)

# axis=0, 依照第一個維度做總和
y2 = tf.math.reduce_sum(y, axis=0)
print(y2)
print('-'*10)

# axis=1, 依照第二個維度做總和
y3 = tf.math.reduce_sum(y, axis=1)
print(y3)

<tf.Variable 'variable:0' shape=(2, 2) dtype=float32, numpy=
array([[1., 2.],
       [3., 4.]], dtype=float32)>
(2, 2)
----------
tf.Tensor(10.0, shape=(), dtype=float32)
----------
tf.Tensor([4. 6.], shape=(2,), dtype=float32)
----------
tf.Tensor([3. 7.], shape=(2,), dtype=float32)


### Transpose

矩陣轉置

In [None]:
# 變數初始化
y = tf.random.normal((3,4))
print(y)
print(y.shape)
print('-'*10)

y2 = tf.transpose(y)
print(y2)
print(y2.shape)

tf.Tensor(
[[ 0.15332015 -0.8256734  -1.2237763  -0.443251  ]
 [-1.0732932   0.80645853  0.56135184 -0.3240419 ]
 [-1.3530598  -1.325858    0.1992644  -0.78542906]], shape=(3, 4), dtype=float32)
(3, 4)
----------
tf.Tensor(
[[ 0.15332015 -1.0732932  -1.3530598 ]
 [-0.8256734   0.80645853 -1.325858  ]
 [-1.2237763   0.56135184  0.1992644 ]
 [-0.443251   -0.3240419  -0.78542906]], shape=(4, 3), dtype=float32)
(4, 3)


### `tf.expand_dim`, `tf.squeeze`

* `tf.expand_dim`: 是用來新增維度，在資料的維度上常常使用這個函數。

* `tf.squeeze`: 刪除把料中多餘的維度 (維度為 `1`)。

In [None]:
# 變數初始化
y = tf.random.normal((3,4))
print(y)
print(y.shape)
print('-'*10)

y2 = tf.expand_dims(y, axis=0)
print(y2)
print(y2.shape)

y3 = tf.squeeze(y2, axis=0)
print(y3)
print(y3.shape)

tf.Tensor(
[[-0.61891776  0.69787574 -0.22616729  0.17015018]
 [ 0.5204047   1.4835792   0.27810964  1.0540859 ]
 [-0.22169791 -1.057322    0.36840266  1.0978284 ]], shape=(3, 4), dtype=float32)
(3, 4)
----------
tf.Tensor(
[[[-0.61891776  0.69787574 -0.22616729  0.17015018]
  [ 0.5204047   1.4835792   0.27810964  1.0540859 ]
  [-0.22169791 -1.057322    0.36840266  1.0978284 ]]], shape=(1, 3, 4), dtype=float32)
(1, 3, 4)
tf.Tensor(
[[-0.61891776  0.69787574 -0.22616729  0.17015018]
 [ 0.5204047   1.4835792   0.27810964  1.0540859 ]
 [-0.22169791 -1.057322    0.36840266  1.0978284 ]], shape=(3, 4), dtype=float32)
(3, 4)


### tf.concat

將同樣維度的資料按指定維度進行合併 (只能在資料維度內)。

In [None]:
# 變數初始化
y = tf.random.normal((3,4))
print(y)
print(y.shape)
print('-'*20)

y2 = tf.concat((y, y), axis=0)
print(y2)
print(y2.shape)

tf.Tensor(
[[ 0.49961236  0.977866   -0.07409934  0.8740624 ]
 [ 0.00459327 -1.1049466  -0.553338   -0.2377583 ]
 [-0.46714118 -2.6727993   1.6648747  -0.13395919]], shape=(3, 4), dtype=float32)
(3, 4)
--------------------
tf.Tensor(
[[ 0.49961236  0.977866   -0.07409934  0.8740624 ]
 [ 0.00459327 -1.1049466  -0.553338   -0.2377583 ]
 [-0.46714118 -2.6727993   1.6648747  -0.13395919]
 [ 0.49961236  0.977866   -0.07409934  0.8740624 ]
 [ 0.00459327 -1.1049466  -0.553338   -0.2377583 ]
 [-0.46714118 -2.6727993   1.6648747  -0.13395919]], shape=(6, 4), dtype=float32)
(6, 4)


### tf.stack

將同樣維度的資料合併，合併的方式是新增一個維度。

In [None]:
# 變數初始化
y = tf.random.normal((3,4))
print(y)
print(y.shape)
print('-'*20)

y2 = tf.stack((y, y), axis=0)
print(y2)
print(y2.shape)

tf.Tensor(
[[-1.7061808  -0.25690144 -0.08092981  0.63186955]
 [-0.15895994  2.2937627  -0.35088328 -0.36123657]
 [ 1.6005267   1.2680273  -0.7025833  -0.25266758]], shape=(3, 4), dtype=float32)
(3, 4)
--------------------
tf.Tensor(
[[[-1.7061808  -0.25690144 -0.08092981  0.63186955]
  [-0.15895994  2.2937627  -0.35088328 -0.36123657]
  [ 1.6005267   1.2680273  -0.7025833  -0.25266758]]

 [[-1.7061808  -0.25690144 -0.08092981  0.63186955]
  [-0.15895994  2.2937627  -0.35088328 -0.36123657]
  [ 1.6005267   1.2680273  -0.7025833  -0.25266758]]], shape=(2, 3, 4), dtype=float32)
(2, 3, 4)


### 可以混合 Tensor 和 Numpy 做運算

In [None]:
a = tf.constant([[1, 2], [3, 4]], dtype=tf.float32)
b = np.array([[1., 2.], [2., 3.]], dtype=np.float32)
print("a constant: {}-D Tensor".format(a.ndim))

c = a + b
print("a + b = \n{}".format(c))

d = tf.matmul(a, b)
print("a * b = \n{}".format(d))

a constant: 2-D Tensor
a + b = 
[[2. 4.]
 [5. 7.]]
a * b = 
[[ 5.  8.]
 [11. 18.]]


## Slice

Tensorflow 在張量的選值操作方式跟 numpy 是一模一樣的

In [None]:
x = tf.Variable(np.arange(0,24).reshape(2,3,4), dtype=tf.float32)
print(x)

<tf.Variable 'Variable:0' shape=(2, 3, 4) dtype=float32, numpy=
array([[[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]],

       [[12., 13., 14., 15.],
        [16., 17., 18., 19.],
        [20., 21., 22., 23.]]], dtype=float32)>


In [None]:
# 挑出第一個維度的第一筆資料
x[0,:,:]

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]], dtype=float32)>

In [None]:
# 挑出第二個維度的第三筆資料
x[:,2,:]

<tf.Tensor: shape=(2, 4), dtype=float32, numpy=
array([[ 8.,  9., 10., 11.],
       [20., 21., 22., 23.]], dtype=float32)>

In [None]:
# 挑出第二個維度的第一、二筆資料
x[:,0:2,:]

<tf.Tensor: shape=(2, 2, 4), dtype=float32, numpy=
array([[[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.]],

       [[12., 13., 14., 15.],
        [16., 17., 18., 19.]]], dtype=float32)>

In [None]:
# numpy 可以跳著挑值
np_slice = np.arange(0,24).reshape(2,3,4)[:,[0,2],:]
print('Numpy: ', np_slice)
print('-' * 20)

# tensorflow 沒辦法跳著挑值，會噴錯
x[:,[0,2],:]

Numpy:  [[[ 0  1  2  3]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [20 21 22 23]]]
--------------------


TypeError: ignored

In [None]:
# 在 tensorlfow, 要跳著挑值要使用 tf.gather 函數
# 拿出第二個維度的第一、三筆資料
tf.gather(x, axis=1, indices=[0,2])

<tf.Tensor: shape=(2, 2, 4), dtype=float32, numpy=
array([[[ 0.,  1.,  2.,  3.],
        [ 8.,  9., 10., 11.]],

       [[12., 13., 14., 15.],
        [20., 21., 22., 23.]]], dtype=float32)>

## Random Initialization

模型在還沒開始訓練前，需要先初始化模型的權重，然後在訓練過程中慢慢的修正權重。

在 Tensorlfow 中，參數通常都是 `tf.Variable`，而參數初始化的方式常見的有幾種：

### 常態分佈

預設平均值 (mean) 為 0，標準差 (std) 為 1

In [None]:
# 隨機生成形狀為 (3,1) 的常態分佈矩陣
w = tf.random.normal(shape=(3,1), dtype=tf.float32)
w = tf.Variable(w)
print(w)

<tf.Variable 'Variable:0' shape=(3, 1) dtype=float32, numpy=
array([[ 0.52337795],
       [-0.03050877],
       [-1.3431629 ]], dtype=float32)>


### 均勻分佈

預設最小值為 0，最大值為 1。

In [None]:
# 隨機生成形狀為 (3,1) 的均勻分佈矩陣
w = tf.random.uniform(shape=(3, 1), dtype=tf.float32)
w = tf.Variable(w)
print(w)

<tf.Variable 'Variable:0' shape=(3, 1) dtype=float32, numpy=
array([[0.4384315],
       [0.5602999],
       [0.606382 ]], dtype=float32)>


### tf.random_normal_initializer

另一種常見的初始化方式是先定義一個 `class`，然後在指定 `shape` 和 `dtype`。

In [None]:
init = tf.initializers.GlorotNormal()

w = init(shape=(3, 1), dtype=tf.float32)
w = tf.Variable(w)
print(w)

<tf.Variable 'Variable:0' shape=(3, 1) dtype=float32, numpy=
array([[-0.49000782],
       [ 0.8860234 ],
       [ 0.15674302]], dtype=float32)>


In [None]:
# glorot_uniform 是全連結層的初始化方式
init = tf.initializers.GlorotUniform()

w = init(shape=(3, 1), dtype=tf.float32)
w = tf.Variable(w)
print(w)

<tf.Variable 'Variable:0' shape=(3, 1) dtype=float32, numpy=
array([[-1.1429896 ],
       [ 0.33261502],
       [-1.1022402 ]], dtype=float32)>



# 建立一個簡單的線性方程式

$x$ 和 $y$ 分別是輸入和輸出，$a$ 和 $b$ 分別是權重和截距。

$$
y=wx+b, x\in R^3, w\in R^{3\times1}, b\in R^1
$$

假設輸入 $x$ 是一筆有 $3$ 個特徵的資料，$y$ 則是一個常數，在 tensorflow 中可以表示為：

In [None]:
# 輸入 x
x = tf.constant(value=[[1., 2., 3.]], dtype=tf.float32)
print(x)

tf.Tensor([[1. 2. 3.]], shape=(1, 3), dtype=float32)


In [None]:
# 權重 w
w = tf.Variable(tf.random.normal(shape=(3, 1)), dtype=tf.float32)
print(w)

<tf.Variable 'Variable:0' shape=(3, 1) dtype=float32, numpy=
array([[-0.50285715],
       [-0.6114974 ],
       [ 1.0583384 ]], dtype=float32)>


In [None]:
# 截距 b
b = tf.Variable(tf.random.normal((1,)), dtype=tf.float32)
print(b)

<tf.Variable 'Variable:0' shape=(1,) dtype=float32, numpy=array([-0.39175883], dtype=float32)>


In [None]:
# wx + b = y
y = tf.add(tf.matmul(x, w), b)
print(y)

tf.Tensor([[1.0574044]], shape=(1, 1), dtype=float32)


### `tf.keras`


在訓練模型時，不需要一個變數一個變數慢慢定義，可以直接使用 `tf.keras` API 來一次做完。

In [None]:
dense_layer = tf.keras.layers.Dense(1,
                                    use_bias=True,
                                    input_dim=x.shape[1],
                                    activation='linear',
                                    kernel_initializer=tf.initializers.GlorotNormal(), # kernel 指的就是權重 w
                                    bias_initializer=tf.initializers.GlorotNormal()) # bias 指的就是截距 b

In [None]:
dense_layer(x)

<tf.Tensor: shape=(1, 1), dtype=float32, numpy=array([[1.5688701]], dtype=float32)>

In [None]:
# 權重 w
dense_layer.kernel

<tf.Variable 'dense_2/kernel:0' shape=(3, 1) dtype=float32, numpy=
array([[-0.44173434],
       [ 1.1836303 ],
       [-0.11931454]], dtype=float32)>

In [None]:
# 截距 b
dense_layer.bias

<tf.Variable 'dense_2/bias:0' shape=(1,) dtype=float32, numpy=array([0.00128729], dtype=float32)>