# 1. Tensorflow 
## 1.1. Tensorflow là gì?

Tensorflow là một thư viện mã nguồn mở làm việc dựa trên lập trình *luồng dữ liệu* (dataflow) thông qua các nhiệm vụ. Đây là một thư viện toán học được sử dụng nhiều trong các ứng dụng của học máy chẳng hạn như xây dựng các mạng nơ ron, các thuật toán phân loại kNN (k-Nearest Neighbor), SVM (Support Vector Machine),.... và được sử dụng trong các dự án nghiên cứu cũng như sản phâm của google và thay thế các thư viện gần đây.

## 1.2. Đặc trưng của tensorflow.

Tensorflow là luồng của dữ liệu được thể hiện qua một đồ thị tính toán. Khi xây dựng một model tensorflow chúng ta thường tách biệt 2 phần riêng rẽ đó là: 

1. Xây dựng đồ thị tính toán:  Một đồ thị sẽ bao gồm các node và các cạnh. Node của đồ thị sẽ thể hiện chức năng tính toán (chẳng hạn phép cộng, trừ, nhân, chia,...) và cách cạnh thể hiện dữ liệu tính toán, thường là các dữ liệu nhiều chiều hay còn gọi là tensor được kết nối với nhau thông qua các node.


2. Thực thi các luồng tính toán trên đồ thị: Đồ thị tính toán mà ta có mới chỉ là một bản thiết kế của mô hình. Chúng ta cần chạy bản thiết kế đó bằng cách kích hoạt một session để thực thi các operation của đồ thị. Các thực thi này sẽ cần được truyền dữ liệu đầu vào để làm nguyên liệu trả về kết quả ở đầu ra.


## 1.3. Giới thiệu tensor.

Tensor là một kiểu dữ liệu cho phép lưu trữ được số chiều tùy ý, nó có thể là đại lượng vô hướng, vector, mảng 1 chiều, mảng 2 chiều hoặc mảng kích thước n chiều. Sau đây là các ví dụ về tensor:

* 0 chiều (đại lượng vô hướng): 1
* 1 chiều: [1, 2, 3]
* 2 chiều: [[1, 2], [3, 4]]
* 3 chiều: [[[1, 2], [3, 4]], 
            [[5, 6], [7, 8]]]

# 2. Các đối tượng trong tensor

## 2.1. Hằng số

Là giá trị cố định trong tensorflow được khởi tạo thông qua hàm `tf.constant()`. Chúng ta sẽ không thể thay đổi được giá trị của một hằng số.

In [1]:
import tensorflow as tf
a = tf.constant(5)
a

<tf.Tensor 'Const:0' shape=() dtype=int32>

Ta nhận thấy mặc dù đã khởi tạo giá trị cho a = 5 nhưng khi hiển thị giá trị của a = 0. Đó là vì chúng ta mới chỉ tạo ra đồ thị gồm một operation là a nhưng vẫn chưa thực thi đồ thị đó. Do đó a vẫn đang giữ giá trị mặc định là 0. Khi thực thi đồ thị chúng ta cần tạo ra một session để run operation a nhằm kích hoạt luồng xử lý, khi đó giá trị a = 5. Lưu ý trong một graph thì một dữ liệu (có thể là hằng, biến, placeholder) đều là 1 operation.

In [5]:
with tf.Session() as sess:
    print(sess.run(a))

5


Ngoài ra ta có thể sử dụng lệnh `eval()` để đánh giá các node trong một đồ thị. Nhưng trước đó ta phải khai báo một session như là mặc định để chạy được graph.

In [3]:
with tf.Session() as sess:
    sess.as_default()
    print(a.eval())

5


Ngoài ra ta có thể sử dụng lệnh tf.InteractiveSession() để tạo ra một session trong trạng thái mặc định (luôn được sử dụng) để đánh giá đồ thị.

In [4]:
tf.InteractiveSession()
a.eval()

5

## 2.2. Biến

Trái ngược với hằng. Biến là là giá thay đổi trong một đồ thị. Thông thường trong mạng nơ ron thì biến chính là ma trận hệ số của hàm loss function. Biến sẽ luôn có giá trị khởi tạo ban đầu để kích hoạt thuật toán gradient. Để tạo ra một variable trong tensorflow ta sử dụng hàm `tf.Variabel()` hoặc `tf.get_variable()`.

* Khởi tạo một biến thông qua hàm tf.Variabel():

Cú pháp: `tf.Variabel(value = value, name = name)`. Trong đó value là các giá trị của biến và name là tên của operation thể hiện trên đồ thị.

In [2]:
# Khởi tạo một giá trị Variable trong tensorflow
v = tf.Variable([1, 2, 3], name = 'vector')
m_2D = tf.Variable([[1, 2], [3, 4]], name = 'matrix_2D')
m_nD = tf.Variable(tf.zeros([2, 2, 2]), name = 'matrix_nD')

* Khởi tạo một biến thông qua hàm tf.get_variable():

Cú pháp:`tf.get_variable(initializer = value, name = name)`. Trong đó initializer là giá trị của biến và name là tên của operation trên đồ thị.

In [3]:
# Khởi tạo một giá trị Variable trong tensorflow
gv_v = tf.get_variable(initializer = [1, 2, 3], name = 'vector')
gv_m_2D = tf.get_variable(initializer = [[1, 2], [3, 4]], name = 'matrix_2D')
gv_m_nD = tf.get_variable(initializer = tf.zeros([2, 2, 2]), name = 'matrix_nD')

Các biến sau khi được khởi tạo nếu muốn sử dụng được sẽ cần được kích hoạt thông qua 1 session bằng lệnh `tf.global_variables_initializer()`.

In [6]:
# Khởi tạo tất cả trong 1 lần:
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    print(sess.run([gv_v, gv_m_2D, gv_m_nD]))

[array([1, 2, 3]), array([[1, 2],
       [3, 4]]), array([[[0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.]]], dtype=float32)]


Trong trường hợp chỉ muốn khởi tạo các biến trong danh sách cụ thể ta có thể dùng hàm `tf.variables_initializer()`.

In [9]:
# Khởi tạo tất cả trong 1 lần:
with tf.Session() as sess:
    sess.run(tf.variables_initializer([v, m_2D, m_nD]))
    print(sess.run([v, m_2D, m_nD]))

[array([1, 2, 3]), array([[1, 2],
       [3, 4]]), array([[[0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.]]], dtype=float32)]


## 2.3. Placeholder

Là các biến mà giá trị ban đầu không được khởi tạo trong lúc tạo graph mà được truyền vào từ như tập data input để chạy một mô hình. Chẳng hạn một mô hình được xây dựng dựa trên một bộ dữ liệu có thể được sử dụng lại cho nhiều bộ dữ liệu khác có cùng đặc điểm. Khi đó giá trị mà ta cần truyền vào mô hình chính là các placeholder. Đồ thị của mô hình có thể được giữ nguyên (số lớp, số lượng đơn vị trong từng lớp, kích thước đầu vào, đầu ra,...) ta thu được các hệ số mới. Hàm số để khởi tạo placeholder là `tf.placeholder(dtype, shape)`.
Giả sử bên dưới ta khởi tạo một placeholder x có kích thước 2x3. Chúng ta cần tính phép nhân ma trận x với một ma trận hằng số y kích thước 3x1. Ta làm như sau:

In [22]:
x = tf.placeholder(tf.float32, shape = [2, 3])
y = tf.constant([[1], [2], [3]], tf.float32) #lưu ý phải kiểu dữ liệu của y và x phải trùng nhau
y_hat = tf.matmul(x, y)

Khi đó một operation y_hat được khởi tạo bằng với phép nhân ma trận x và y thông qua hàm `tf.matmul()`. Một điều ta dễ nhận thấy đó là giá trị của x không được khởi tạo mặc định như đối với kiểu biến thông thường (`tf.variable()`) mà chỉ khi ta kích hoạt đồ thị tại operation y_hat thì chúng ta mới truyền vào giá trị của x thông qua tham số feed_dict có dạng của một dictionary trong python.

In [23]:
with tf.Session() as sess:
    print(sess.run([y_hat], feed_dict = {x: [[1, 2, 3], [4, 5, 6]]}))

[array([[14.],
       [32.]], dtype=float32)]


Khi ta cần thay một bộ dữ liệu khác thì chúng ta sẽ thay đổi giá trị của x trong feed_dict. Kết quả đầu ra sẽ thay đổi nhưng kích thước của ma trận đầu ra không thay đổi.

In [24]:
with tf.Session() as sess:
    print(sess.run([y_hat], feed_dict = {x: [[3, 5, 1], [2, 5, 2]]}))

[array([[16.],
       [18.]], dtype=float32)]


## 2.4. Các tensor đặc biệt 

Cũng giống như numpy, tensor sẽ có những kiểu ma trận đặc biệt để giúp khởi tạo tensor nhanh hơn bao gồm: ma trận 0, ma trận 1, ma trận đơn vị, ma trận ngẫu nhiên,....

**1. zeros tensor**

`tf.zeros(shape = shape, dtype = dtype)` với dtype là kiểu biến và shape là kích thước của tensor.

In [34]:
t_zeros = tf.zeros([2, 3, 2],tf.float32)
with tf.Session() as sess:
    print(sess.run(t_zeros))

[[[0. 0.]
  [0. 0.]
  [0. 0.]]

 [[0. 0.]
  [0. 0.]
  [0. 0.]]]


Hoặc ta có thể tạo một zero tensor có kích thước bằng với một tensor cho trước thông qua hàm 
`tf.zeros_like(original_tensor)`

In [45]:
t_origin = tf.constant([[[1, 2], 
                         [3, 4]],
                        [[5, 6],
                         [7, 8]]])
t_zeros = tf.zeros_like(t_origin)

with tf.Session() as sess:
    print(sess.run(t_zeros))

[[[0 0]
  [0 0]]

 [[0 0]
  [0 0]]]


**2. one tensor**

Hoàn toàn tương tự như zeros tensor, one tensor cũng có cú pháp như sau: `tf.ones(shape = shape, dtype = dtype)`.

In [51]:
t_ones = tf.ones([2, 3, 2],tf.float32)
t_ones_like = tf.ones_like(t_ones)
with tf.Session() as sess:
    print('tensor ones:' + str(sess.run(t_ones)) + '\n')
    print('tensor ones like:' + str(sess.run(t_ones_like)))

tensor ones:[[[1. 1.]
  [1. 1.]
  [1. 1.]]

 [[1. 1.]
  [1. 1.]
  [1. 1.]]]

tensor ones like:[[[1. 1.]
  [1. 1.]
  [1. 1.]]

 [[1. 1.]
  [1. 1.]
  [1. 1.]]]


**3. tensor đơn vị**

Tensor đơn vị sẽ có các phần tử là một ma trận đơn vị và được khởi tạo thông qua hàm:

`
tf.eye(
    num_rows,
    num_columns=None,
    batch_shape=None,
    dtype=tf.float32,
    name=None
)
`

Trong đó num_rows, num_columns lần lượt là số dòng và số cột, batch_shape là kích thước của tensor theo batch. Nếu batch_shape = [3, 3] thì tensor sẽ bao gồm 3 dòng và 3 cột trong đó một phần tử ứng với 1 dòng và 1 cột là một ma trận kích thước num_rows x num_columns. dtype là kiểu biến và name là tên của node. Kích thước của tensor khi biểu diễn đến từng phần tử của ma trận là [batch_shape, num_rows, num_columns].

In [58]:
t_eye = tf.eye(3, 3, [1], tf.float32)
with tf.Session() as sess:
    print(sess.run(t_eye))

[[[1. 0. 0.]
  [0. 1. 0.]
  [0. 0. 1.]]]


**4.tensor ngẫu nhiên**

Là tensor có các phần tử được tạo ra một cách ngẫu nhiên. Thông thường là phân phối `gaussian` với kì vọng và phương sai xác định. Hàm `tf.random_normal()` sẽ được sử dụng để tạo ra một tensor ngẫu nhiên có cú pháp:
`
tf.random_normal(
    shape,
    mean=0.0,
    stddev=1.0,
    dtype=tf.float32,
    seed=None,
    name=None
)
`

Trong đó shape là kích thước của tensor, mean là trung bình, stddev là độ lệch chuẩn, giá trị seed là 1 số nguyên dương sẽ qui định lần chạy lại sau sẽ đưa ra kết quả như lần chạy trước. Mặc định của seed là các kết quả mỗi lần chạy sẽ không tái lập.

In [60]:
t_random = tf.random_normal([2, 3], mean = 9, stddev = 2)
with tf.Session() as sess:
    print(sess.run(t_random))

[[ 6.371148 11.631453  9.860746]
 [ 9.928445  8.940451  7.29932 ]]


Ngoài ra ta còn có `tf.random_poisson()` sử dụng cho phân phối poisson và `tf.random_uniform()` sử dụng cho phân phối đều. Có cú pháp lần lượt là:

`
tf.random_poisson(
    lam, #tham số đặc trưng xác định phân phối poisson
    shape, #kích thước của tensor
    dtype=tf.float32,
    seed=None,
    name=None
)
`

và 

`
tf.random_uniform(
    shape, #kích thước của tensor
    minval=0, #giá trị nhỏ nhất
    maxval=None, #giá trị lớn nhất
    dtype=tf.float32,
    seed=None,
    name=None
)
`

In [63]:
t_rand_pois = tf.random_poisson(lam = 2, shape = [2, 3])
t_rand_unif = tf.random_uniform(shape = [2, 3], minval = 0, maxval = 2)

with tf.Session() as sess:
    print(sess.run([t_rand_pois, t_rand_unif]))

[array([[1., 1., 4.],
       [3., 2., 2.]], dtype=float32), array([[1.5300908 , 1.3826258 , 0.26188993],
       [0.5182018 , 1.3891945 , 0.26262975]], dtype=float32)]


## 2.5. Các toán tử 

**1. Phép cộng/ trừ**

Được thực hiện qua hàm `tf.add()` như sau

In [67]:
x = tf.constant(1)
y = tf.constant(2)
z = tf.add(x, y)
t = tf.add(x, -y)
with tf.Session() as sess:
    print(sess.run([z, t]))

[3, -1]


**2. Phép nhân**

Được thực hiện qua hàm `tf.multiply()` như sau

In [66]:
x = tf.constant(1)
y = tf.constant(2)
z = tf.multiply(x, y)
with tf.Session() as sess:
    print(sess.run(z))

2


**3. Phép nhân ma trận**

Sử dụng hàm `tf.matmul()` có cú pháp như sau:

`tf.matmul(
    a,
    b,
    transpose_a=False,
    transpose_b=False,
    adjoint_a=False,
    adjoint_b=False,
    a_is_sparse=False,
    b_is_sparse=False,
    name=None
)`

Trong đó a, b lần lượt là các tensor bên trái và tensor bên phải. Lưu ý là trong trường hợp tensor 2D thì số cột của a phải bằng số dòng của b; trường hợp tensor 3D thì kích thước của a phải bằng kích thước của b khi chuyển vị của 2 chiều cuối cùng. Các tham số transpose_a, transpose_b khi được thiệt lập True (mặc định False) lần lượt có ý nghĩa có chuyển vị trước khi nhân hay không. Các tham số a_is_sparse, b_is_sparse = True lần lượt có ý nghĩa coi a, b như là các biểu diễn của ma trận sparse hay không (mặc định là không). Bên dưới là các ví dụ:

* Trường hợp tensor 2D

In [69]:
import numpy as np

x = tf.constant(np.arange(12), shape = [3, 4])
y = tf.constant(np.arange(16), shape = [4, 4])
z = tf.matmul(x, y)

with tf.Session() as sess:
    print(sess.run(z))

[[ 56  62  68  74]
 [152 174 196 218]
 [248 286 324 362]]


* Trường hợp tensor 3D

In [79]:
import numpy as np

x = tf.constant(np.arange(40), shape = [2, 4, 5]) 
y = tf.constant(np.arange(40), shape = [2, 5, 4]) 
z = tf.matmul(x, y)

with tf.Session() as sess:
    print(sess.run(z))

[[[ 120  130  140  150]
  [ 320  355  390  425]
  [ 520  580  640  700]
  [ 720  805  890  975]]

 [[3120 3230 3340 3450]
  [3820 3955 4090 4225]
  [4520 4680 4840 5000]
  [5220 5405 5590 5775]]]


## 2.5. Các hàm đặc biệt

**1. Trung bình**

Để tính trung bình của một tensor ta sẽ sử dụng hàm `tf.reduce_mean()`:

`tf.reduce_mean(
    input_tensor,
    axis=None,
    keepdims=None,
    name=None
)`

input_tensor là tensor cần tính trung bình. axis là chiều cần tính trung bình. Nếu axis = None thì mặc định tính trung bình của toàn bộ các phần tử của tensor mà không xét đến chiều. Nếu tính trung bình theo một chiều nào đó thì số chiều của kết quả đầu ra sẽ giảm đi 1 do theo chiều đó tensor đều có 1 phần tử đại diện. keepdims = True có tác dụng giữ nguyên số chiều so với input__tensor.

In [90]:
x = tf.constant([[[1, 2, 3], [4, 5, 6], [7, 8, 9]]])
y = tf.reduce_mean(x)
z = tf.reduce_mean(x, axis = 1, keepdims = True)
with tf.Session() as sess:
    print(sess.run([y, z]))

[5, array([[[4, 5, 6]]])]


**2. Min/Max**

Tương tự như cách tính trung bình. Ta sẽ sử dụng hàm `tf.reduce_min()` hoặc `tf.reduce_max()` có cú pháp lần lượt:

`tf.reduce_max(
    input_tensor,
    axis=None,
    keepdims=None,
    name=None
)`


`tf.reduce_max(
    input_tensor,
    axis=None,
    keepdims=None,
    name=None
)`

Kết quả trả về sẽ là giá trị min hoặc max theo các chiều.

In [91]:
x = tf.constant([[[1, 2, 3], [4, 5, 6], [7, 8, 9]]])
y = tf.reduce_min(x)
z = tf.reduce_min(x, axis = 1, keepdims = True)
with tf.Session() as sess:
    print(sess.run([y, z]))

[1, array([[[1, 2, 3]]])]


**3. exponential**

Hàm mũ cơ số tự nhiên được sử dụng phổ biến trong học máy chẳng hạn như trong hồi qui logistic, hàm softmax, .... Chúng ta sẽ sử dụng hàm `tf.exp()` để tính giá trị của cơ số mũ đối với 1 tensor. Kết quả trả về là một tensor chứa các phần tử là lũy thừa cơ số tự nhiên ($e$) của phần tử tương ứng trên tensor gốc. Cú pháp của hàm đơn giản như sau:

`tf.exp(x, name=None)`

Lưu ý rằng x là tensor có kiểu định dạng nằm trong các kiếu `half, float32, float64, complex64, complex128`.

In [94]:
x = tf.constant([[[1, 2, 3], [4, 5, 6], [7, 8, 9]]], dtype = tf.float32)
y = tf.exp(x)
with tf.Session() as sess:
    print(sess.run([y]))

[array([[[2.7182817e+00, 7.3890562e+00, 2.0085537e+01],
        [5.4598152e+01, 1.4841316e+02, 4.0342880e+02],
        [1.0966332e+03, 2.9809580e+03, 8.1030840e+03]]], dtype=float32)]


**4. Hàm relu**

Hàm relu có công thức là $y = max(0, x)$. Đây là một hàm activation được sử dụng khá phổ biến trong các mô hình học máy trong những năm gần đây để thay thế cho hàm sigmoid bởi đạo hàm của nó tồn tại hầu khắp nơi (trừ điểm 0) và khi $x > 0$ đạo hàm chỉ nhận giá trị là 1 nên sẽ tiết kiệm chi phí tính toán đồng thồi không bị triệt tiêu. Trong khi hạn chế của đạo hàm sigmoid đó là mỗi lần $x$ thay đổi sẽ phải tính lại đạo hàm và sẽ bị triệt tiêu khi giá trị của $x$ vô cùng lớn hoặc vô cùng nhỏ. Chúng ta có thể sử dụng hàm `tf.nn.relu()` để tính giá trị relu của một tensor.

In [99]:
x = tf.constant([[[1, -2, 3], [4, 5, -6], [7, -8, 9]]], dtype = tf.float32)
y = tf.nn.relu(x)
with tf.Session() as sess:
    print(sess.run([y]))

[array([[[1., 0., 3.],
        [4., 5., 0.],
        [7., 0., 9.]]], dtype=float32)]


**5. Hàm softmax**

Được sử dụng để ước lượng xác xuất xảy ra của một class. Chẳng hạn chúng ta có bài toán phân loại $C$ class. Sau khi thiết lập mạng nơ ron ta tính được layer cuối cùng là vector $\mathbf{z} \in \mathbb{R}^{C}$. Khi đó giá trị của hàm softmax ứng với class $i$ sẽ là:

$$a_i = \frac{\exp(z_i)}{\sum_{j=1}^C \exp(z_j)}, ~~ \forall i = 1, 2, \dots, C$$

Một tính chất ta dễ nhận thấy là tổng các giá trị softmax của toàn bộ các class phải bằng 1.

softmax có thể được tính toán thông qua hàm `tf.nn.softmax()` với cú pháp:

`tf.nn.softmax(logits, dim=-1, name=None)`

Trong đó logits là một tensor có các kiểu biến `half, float32, float64`.

In [100]:
x = tf.constant([1, 1, 2, 3, 4, 5, 6, 7, 8], dtype = tf.float32)
y = tf.nn.softmax(x)
with tf.Session() as sess:
    print(sess.run([y]))

[array([5.7628046e-04, 5.7628046e-04, 1.5664927e-03, 4.2581689e-03,
       1.1574903e-02, 3.1463847e-02, 8.5527599e-02, 2.3248814e-01,
       6.3196826e-01], dtype=float32)]


Kiểm tra tổng giá trị softmax trả về.

In [102]:
x = tf.constant([1, 1, 2, 3, 4, 5, 6, 7, 8], dtype = tf.float32)
y = tf.nn.softmax(x)
with tf.Session() as sess:
    print(sess.run(tf.reduce_sum(y)))

1.0


**6. argument min/max**

Hàm này sẽ trả về số thứ tự tương ứng theo một chiều nào đó trong một tensor có giá trị là lớn nhất hoặc nhỏ nhất. Cú pháp:

`tf.argmax(input, axis=None, name=None, dimension=None)`

`tf.argmin(input, axis=None, name=None, dimension=None)`

trong đó input là tensor và axis là chiều để tính argmax hoặc argmin. Trường hợp thông thường được áp dụng là vector (tensor-1D).

In [104]:
x = tf.constant([1, 9, 0, 2, 3, 4, 5, 6, 7, 8], dtype = tf.float32)
y = tf.argmin(x)
z = tf.argmax(x)
with tf.Session() as sess:
    print(sess.run([y, z]))

[2, 1]


## 2.6. Đồ thị

### 2.6.1. Các tạo một đồ thị

Đồ thị là một cấu phần không thể thiếu trong một model tensorflow. Trong một đồ thị sẽ bao gồm rất nhiều các operation object, mỗi một operation object đại diện cho một tính toán.

Chúng ta có 2 cách chính để tạo ra một graph đó là thông qua hàm `tf.Graph()` hoặc `tf.get_default_graph()`. 

Khi gọi hàm `tf.get_default_graph()` thì một graph mặc định luôn được tạo ra. Khi đó để thêm một phần tử operation mới vào graph mặc định ta chỉ cần khởi tạo operation. Chẳng hạn như bên dưới ta sẽ tạo ra một operation và kiểm tra xem operation này có phải là một thành phần của graph mặc định hay không.

In [107]:
x = tf.constant(5)
if x.graph is tf.get_default_graph():
    print('x is one part of default graph')

x is one part of default graph


Kết quả cho thấy một operation khi được tạo ra luông là một phần của graph mặc định. 

Khi khởi tạo một graph từ hàm `tf.Graph()` thì graph đó không mặc định. Do đó để thêm một operation vào graph thì ta phải chuyển graph vừa khởi tạo sang mặc định bằng hàm `as_default()` và tạo các operation trong graph đó.

In [109]:
g = tf.Graph()

with g.as_default():
    x = tf.constant(5)
    if x.graph is g:
        print('x is one part of default graph')

x is one part of default graph


### 2.6.2. Xuất đồ thị trên tensorboard

Tensorboard làm một công cụ giúp ta hiển thị, theo dõi và quản lý các đồ thị từ một luồng xử lý dữ liệu tensorflow. Để cài đặt tensorboard chúng ta gõ lệnh.

`pip install tensorboard=1.8.0`

lưu ý sau dấu bằng là version của tensorboard. Nên cài version của tensorboard bằng với version của tensorflow để tránh conflict. Trong tensorboard có một vài hàm quan trọng có chức năng như sau:

* `tf.summary.scalar`: Được gắn vào các nodes để lưu lại các giá trị của learning rate và loss sau mỗi lần xử lý.

* `tf.summary.histogram`: Vẽ biểu đồ histogram phân phối của các trọng số và gradients từ một layer cụ thể.

* `tf.summary.merge_all`: Sát nhập các thống kê của toàn bộ các nodes trong graph vào một bản thống kê dữ liệu chung.

* `tf.summary.FileWriter`: Lưu toàn bộ các thống kê của đồ thị vào ổ đĩa.

Chúng ta sẽ quan tâm đến hàm `tf.summary.FileWriter()` nhất bởi hàm này cho phép ta lưu và đọc một graph trên tensorboard. `tf.summary.FileWriter()` có cú pháp như sau:

`tf.summary.FileWriter(folder directory, graph)`

Trong đó folder directory là địa chỉ của thư mục mà ta sẽ lưu đồ thị. graph là đồ thị cần lưu vào disk. Lưu ý đồ thị này luôn phải để mặc định để có thể thêm các phần operation vào trong nó.

Bên dưới chúng ta tạo ra một graph mặc định và lưu vào ổ đĩa ở folder cùng thư mục cha với file hiện hành có tên là `first_graph_logs`:

In [111]:
import tensorflow as tf
x = tf.Variable(2, name = 'x_variabel')
y = tf.Variable(4, name = 'y_variabel')
z = tf.multiply(x, y)

#Khởi tạo một writer để lưu graph mặc định vào ổ đĩa
writer = tf.summary.FileWriter('first_graph_logs', tf.get_default_graph())
with tf.Session() as sess:
    #Khởi tạo toàn bộ các biến
    sess.run(tf.global_variables_initializer())
    #Thêm operation z vào graph mặc định
    sess.run(z)
#Đóng writer    
writer.close()

Sau khi chạy chương trình trên một folder mới tên là first_graph_logs được tạo trong cùng thư mục với file hiện hành và lưu toàn bộ các kết quả xử lý và cấu trúc của graph. Để đọc được graph này ta vào cửa số command line trỏ tới folder cha chứa file hiện hành và gõ lệnh:

`tensorboard --logdir first_graph_logs`

--logdirs là tên của tham số và giá trị phía sau là đường dẫn tới folder lưu trữ graph. Khi đó kết chương trình sẽ hiển thị dòng logs:

`TensorBoard 1.8.0 at http://laptopTCC-PC:6006 (Press CTRL+C to quit)`

Ta copy đường link và truy cập thông qua trình duyệt để xem cấu trúc của graph.

# 3. Xây dựng mạng nơ ron  trên tensorflow

Bên dưới ta sẽ sử dụng tensorflow để xây dựng một mạng nơ ron network phân loại các loại hoa trong tập dữ liệu iris. Đây là bộ dữ liệu bao gồm 120 quan sát trên tập train và 30 quan sát trên tập test về dữ liệu Kích thước chiều dài và chiều rộng của cánh và tán của 3 loài hoa iris khác nhau. Dựa vào kích thước các loài hoa ta sẽ xây dựng một model mạng nơ ron để phân loại đúng loài hoa về nhóm của chúng. 

Quá trình xây dựng mạng nơ ron sẽ trải qua 4 bước:

1. Chuẩn bị dữ liệu đầu vào.
2. Xây dựng mạng nơ ron.
3. Thiết lập hàm loss function và phương pháp tối ưu gradient descent.
4. Fitting mô hình và đánh giá kết quả.

Các bước lần lượt như bên dưới:

**1. Chuẩn bị dữ liệu **

In [30]:
import os
import urllib.request as req
import numpy as np
import tensorflow as tf

#set up parameter
TRAIN = 'iris_training.csv'
TRAIN_URL = 'http://download.tensorflow.org/data/iris_training.csv'
TEST = 'iris_testing.csv'
TEST_URL = 'http://download.tensorflow.org/data/iris_test.csv'
input_shape = 4
n_classes = 3

def loadfile(filename, link):
    if not os.path.exists(filename):
        raw = req.urlopen(link).read().decode('utf-8')
        with open(filename, 'w') as f:
            f.write(raw)
            
    data = tf.contrib.learn.datasets.base.load_csv_with_header(
      filename=filename,
      target_dtype=np.int,
      features_dtype=np.float32)
    #normalize biến dự báo theo phân phối chuẩn
    mu = np.mean(data.data, axis = 0)
    sigma = (np.std(data.data, axis=0))
    predictor = (data.data - mu) / sigma
    
    #Chuyển biến mục tiêu sang dạng onehot endcoder
#     target = np.eye(len(data.target), n_classes, dtype = np.float32)[data.target]
    target = data.target
    return {'predictor': predictor, 'target': target}

train = loadfile(TRAIN, TRAIN_URL)
test = loadfile(TEST, TEST_URL)


X = tf.placeholder(tf.float32, [None, input_shape])
y = tf.placeholder(tf.int32, [None])

In [16]:
# filename_queue = tf.train.string_input_producer([TRAIN, TEST])
# reader = tf.TextLineReader(skip_header_lines = True)
# key, value = reader.read(filename_queue)

# record_defaults = [[0.], [0.], [0.], [0.], [0.]]

# col1, col2, col3, col4, col5 = tf.decode_csv(
#     value, record_defaults=record_defaults)

# features = tf.stack([col1, col2, col3, col4])


# with tf.Session() as sess:
#   # Start populating the filename queue.
#   coord = tf.train.Coordinator()
#   threads = tf.train.start_queue_runners(coord=coord)

# #   for i in range(120):
#     # Retrieve a single instance:
#   example, label = sess.run([features, col5])

#   coord.request_stop()
#   coord.join(threads)

X và y lần lượt là 2 placeholder được sử dụng để chứa biến dự báo và và biến được dự báo. Kích thước của nó có height bằng None ngụ ý rằng ta có thể đưa vào bao nhiêu quan sát tùy ý. Điều này thuận lợi cho fitting model theo các batch_size khác nhau ở bước 4.

**2. Xây dựng mạng nơ ron**

Ta nhận thấy các giá trị cần tunning trong mô hình là các weights và biases. Do đó trong mạng nơ ron ta sẽ xây dựng các layer  dựa trên ma trận hệ số và vector chệch. Lưu ý chúng ta phải khai báo các ma trận hệ số và vector chệch dưới dạng Variable để thuật toán tối ưu có thể hiểu được đây là các giá trị cần cập nhật.
Mạng nơ ron sẽ có gồm 3 layer với kích thước mỗi layer như sau:

* layer 1: 200 units với kích thước ma trận [input_shape, 10].

* layer 2: 300 units với kích thước ma trận [10, 15].

* layer 3: 400 units với kích thước ma trận [15, 20].

* output layer: là một flatten layer. Do đó nó có kích thước ma trận trọng số là [20, 1].

Do output của layer trước sẽ làm input của layer sau nên ta hoàn toàn xác định được shape của input dựa vào ouput của layer trước. Để thỏa mãn các phép nhân ma trận thực hiện được thì các kích thước ma trận hệ số ở mỗi layer phải được sắp xếp sao cho width của layer liền trước phải bằng height của layer liền sau. Các vector chệch sẽ có height = 1 và width phải bằng width của ma trận trọng số thuộc cùng 1 layer.

In [38]:
#https://stackoverflow.com/questions/46264133/weights-and-biases-not-updating-in-tensorflow
weights = {
    'l1': tf.Variable(tf.random_normal([input_shape, 10])),
    'l2': tf.Variable(tf.random_normal([10, 15])),                              
    'l3': tf.Variable(tf.random_normal([15, 20])),
    'out': tf.Variable(tf.random_normal([20, 1]))
}


biases = {
    'l1': tf.Variable(tf.random_normal([1, 10])),
    'l2': tf.Variable(tf.random_normal([1, 15])),                              
    'l3': tf.Variable(tf.random_normal([1, 20])),
    'out': tf.Variable(tf.random_normal([1, 3]))
}
                           
    
def neural_network(X):
    layer1 = tf.nn.relu(tf.add(tf.matmul(X, weights['l1']), biases['l1']))
    layer2 = tf.nn.relu(tf.add(tf.matmul(layer1, weights['l2']), biases['l2']))
    layer3 = tf.nn.relu(tf.add(tf.matmul(layer2, weights['l3']), biases['l3']))
    out = tf.nn.softmax(tf.nn.relu(tf.add(tf.matmul(layer3, weights['out']), biases['out'])))
    return out

nn = neural_network(X)

**3. Thiết lập hàm loss function và phương pháp tối ưu gradient descent**

In [55]:
learning_rate = 5
global_step = tf.Variable(0)

loss_op = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(
    logits = nn, labels = y))
grad_op = tf.reduce_sum(tf.gradients(loss_op, nn)[0])
optimizer = tf.train.AdamOptimizer(learning_rate = learning_rate)
train_op = optimizer.minimize(loss_op, global_step = global_step)

Hàm `tf.nn.softmax_cross_entropy_with_logits_v2(logits, labels)` sẽ tính ra hàm ra giá trị cross entropy giữa 2 phân phối được dự báo từ mạng nơ ron (logits) và phân phối thực tế (labels). Giá trị này càng nhỏ thì giữa 2 phân phối càng sát nhau tức mô hình đưa ra dự báo càng chuẩn xác.
Thuật toán gradient descent mà chúng ta sử dụng là AdamOptimizer với learning_rate = 0.05.

**4. Fitting model**

In [42]:
#Tính toán mức độ chính xác của model
match_pred = tf.equal(tf.cast(tf.argmax(nn, 1), tf.int32), y)
acc_op = tf.reduce_mean(tf.cast(match_pred, tf.float32))

Hàm `tf.argmax(x, 1)` sẽ tìm ra class có xác xuất lớn nhất trong lớp các class trả về. Đây chính là class được dự báo. Hàm `tf.equal()` sẽ so sánh class dự báo có trùng với class thực tế (ground truth) hay không. acc là tỷ lệ phần trăm dự báo chính xác được tính ra từ trung bình của toàn bộ các kết quả so sánh ở toàn bộ các quan sát.

In [58]:
import time
#Xây dựng vòng lặp fitting model trên từng batch
batch_size = 120 #Kích thước mỗi batch.
n_steps = 2000 #Số lượng các lượt cập nhật dữ liệu.
print_every = 100 #Khoảng cách lượt cập nhật dữ liệu để in ra kết quả thuật toán.
learning_rate = 0.5
#Tạo hàm lấy batch tiếp theo. Khi lấy hết đến batch cuối cùng của mẫu sẽ shuffle lại mẫu.
def next_batch(X, batch_size, index = 0):
    start = index
    index += batch_size
    if index > len(X['predictor']):
        perm = np.arange(len(X['predictor']))
        np.random.shuffle(perm)
        X['predictor'] = X['predictor'][perm]
        X['target'] = X['target'][perm]
        start = 0
        index = batch_size
    end = index
    return X['predictor'][start:end], X['target'][start:end], index

with tf.Session() as sess:
    #Khởi tạo toàn bộ các biến.
    sess.run(tf.global_variables_initializer())
    idx = 0
    for step in range(n_steps):
        start_time = time.time()
        batch_x, batch_y, idx = next_batch(train, batch_size = batch_size, index = idx)
        #Thực thi thuật toán gradient descent
        sess.run(train_op, feed_dict = {X: batch_x, y: batch_y})
        loss = sess.run(loss_op, feed_dict = {X:batch_x, y:batch_y})
        acc = sess.run(acc_op, feed_dict = {X:batch_x, y:batch_y})
        grad = sess.run(grad_op, feed_dict = {X:batch_x, y:batch_y})
        duration = time.time() - start_time
        if step % print_every == 0:
            print('Step {}; grads: {};Loss value: {:.8f}; Accuracy: {:.4f}; time: {:.4f} sec'.format(sess.run(global_step), grad, loss, acc, duration))
#             print(sess.run(weights['l1']))
            
    print('Finished training!')
    print('Loss value in test: {:.4f}; Accuracy in test: {:.4f}'.format(sess.run(loss_op, feed_dict = {X:test['predictor'], y:test['target']}),
                                                          sess.run(acc_op, feed_dict = {X:test['predictor'], y:test['target']})))

Step 1; grads: 1.862645149230957e-08;Loss value: 1.09861207; Accuracy: 0.3500; time: 0.4291 sec
Step 101; grads: 2.60770320892334e-08;Loss value: 1.09861207; Accuracy: 0.3500; time: 0.0000 sec
Step 201; grads: 1.4901161193847656e-08;Loss value: 1.09861207; Accuracy: 0.3500; time: 0.0000 sec
Step 301; grads: 1.862645149230957e-08;Loss value: 1.09861207; Accuracy: 0.3500; time: 0.0156 sec
Step 401; grads: 1.862645149230957e-08;Loss value: 1.09861207; Accuracy: 0.3500; time: 0.0156 sec
Step 501; grads: 2.2351741790771484e-08;Loss value: 1.09861207; Accuracy: 0.3500; time: 0.0060 sec
Step 601; grads: 1.862645149230957e-08;Loss value: 1.09861207; Accuracy: 0.3500; time: 0.0156 sec
Step 701; grads: 2.2351741790771484e-08;Loss value: 1.09861207; Accuracy: 0.3500; time: 0.0156 sec
Step 801; grads: 2.60770320892334e-08;Loss value: 1.09861207; Accuracy: 0.3500; time: 0.0156 sec
Step 901; grads: 2.2351741790771484e-08;Loss value: 1.09861207; Accuracy: 0.3500; time: 0.0000 sec
Step 1001; grads: 2.

Một lưu ý mà chúng ta không thể quên đó là phải khởi tạo các biến bằng lệnh `tf.global_variables_initializer()` trước khi chạy session để các biến được gán giá trị. Bên dưới là code của toàn bộ quá trình xây dựng mạng nơ ron.

In [1]:
import os
import urllib.request as req
import numpy as np
import tensorflow as tf

#set up parameter
TRAIN = 'iris_training.csv'
TRAIN_URL = 'http://download.tensorflow.org/data/iris_training.csv'
TEST = 'iris_testing.csv'
TEST_URL = 'http://download.tensorflow.org/data/iris_test.csv'
input_shape = 4
n_classes = 3

def loadfile(filename, link):
    if not os.path.exists(filename):
        raw = req.urlopen(link).read().decode('utf-8')
        with open(filename, 'w') as f:
            f.write(raw)
    data = tf.contrib.learn.datasets.base.load_csv_with_header(
      filename=filename,
      target_dtype=np.int,
      features_dtype=np.float32)
    #normalize biến dự báo theo phân phối chuẩn
    mu = np.mean(data.data, axis = 0)
    sigma = (np.std(data.data, axis=0))
    predictor = (data.data - mu) / sigma
    
    #Chuyển biến mục tiêu sang dạng onehot endcoder
#     target = np.eye(len(data.target), n_classes, dtype = np.float32)[data.target]
    target = data.target
    return {'predictor': predictor, 'target': target}

train = loadfile(TRAIN, TRAIN_URL)
test = loadfile(TEST, TEST_URL)


X = tf.placeholder(tf.float32, [None, input_shape])
y = tf.placeholder(tf.int32, [None])

Instructions for updating:
Use tf.data instead.


In [10]:
#https://stackoverflow.com/questions/46264133/weights-and-biases-not-updating-in-tensorflow
keep_prob = tf.placeholder(tf.float32)
dropout = 0.7

weights = {
    'l1': tf.Variable(tf.random_normal([input_shape, 10])),
    'l2': tf.Variable(tf.random_normal([10, 15])),                              
    'l3': tf.Variable(tf.random_normal([15, 20])),
    'out': tf.Variable(tf.random_normal([20, 1]))
}


biases = {
    'l1': tf.Variable(tf.random_normal([1, 10])),
    'l2': tf.Variable(tf.random_normal([1, 15])),                              
    'l3': tf.Variable(tf.random_normal([1, 20])),
    'out': tf.Variable(tf.random_normal([1, 3]))
}
                           
    
def neural_network(X):
    layer1 = tf.nn.relu(tf.add(tf.matmul(X, weights['l1']), biases['l1']))
    layer2 = tf.nn.relu(tf.add(tf.matmul(layer1, weights['l2']), biases['l2']))
    layer3 = tf.nn.relu(tf.add(tf.matmul(layer2, weights['l3']), biases['l3']))
    out = tf.nn.dropout(tf.add(tf.matmul(layer3, weights['out']), biases['out']), keep_prob = dropout)
    return out

nn = neural_network(X)



learning_rate = 1
global_step = tf.Variable(0)

loss_op = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(
    logits = nn, labels = y))
grad_op = tf.reduce_sum(tf.gradients(loss_op, nn)[0])
optimizer = tf.train.AdamOptimizer(learning_rate = learning_rate)
train_op = optimizer.minimize(loss_op, global_step = global_step)



match_pred = tf.equal(tf.cast(tf.argmax(nn, 1), tf.int32), y)
acc_op = tf.reduce_mean(tf.cast(match_pred, tf.float32))



import time
#Xây dựng vòng lặp fitting model trên từng batch
batch_size = 120 #Kích thước mỗi batch.
n_steps = 2000 #Số lượng các lượt cập nhật dữ liệu.
print_every = 100 #Khoảng cách lượt cập nhật dữ liệu để in ra kết quả thuật toán.

#Tạo hàm lấy batch tiếp theo. Khi lấy hết đến batch cuối cùng của mẫu sẽ shuffle lại mẫu.
def next_batch(X, batch_size, index = 0):
    start = index
    index += batch_size
    if index > len(X['predictor']):
        perm = np.arange(len(X['predictor']))
        np.random.shuffle(perm)
        X['predictor'] = X['predictor'][perm]
        X['target'] = X['target'][perm]
        start = 0
        index = batch_size
    end = index
    return X['predictor'][start:end], X['target'][start:end], index

with tf.Session() as sess:
    #Khởi tạo toàn bộ các biến.
    sess.run(tf.global_variables_initializer())
    idx = 0
    for step in range(n_steps):
        start_time = time.time()
        batch_x, batch_y, idx = next_batch(train, batch_size = batch_size, index = idx)
        #Thực thi thuật toán gradient descent
        sess.run(train_op, feed_dict = {X: batch_x, y: batch_y, keep_prob: dropout})
        loss = sess.run(loss_op, feed_dict = {X:batch_x, y:batch_y, keep_prob: dropout})
        acc = sess.run(acc_op, feed_dict = {X:batch_x, y:batch_y, keep_prob: dropout})
        grad = sess.run(grad_op, feed_dict = {X:batch_x, y:batch_y, keep_prob: dropout})
        duration = time.time() - start_time
        if step % print_every == 0:
            print('Step {}; grads: {};Loss value: {:.8f}; Accuracy: {:.4f}; time: {:.4f} sec'.format(sess.run(global_step), grad, loss, acc, duration))
#             print(sess.run(weights['l1']))
            
    print('Finished training!')
    print('Loss value in test: {:.4f}; Accuracy in test: {:.4f}'.format(sess.run(loss_op, feed_dict = {X:test['predictor'], y:test['target']}),
                                                          sess.run(acc_op, feed_dict = {X:test['predictor'], y:test['target']})))

Step 1; grads: -2.9802322387695312e-08;Loss value: 159710.03125000; Accuracy: 0.4083; time: 0.6118 sec
Step 101; grads: -3.3527612686157227e-08;Loss value: 1.10983443; Accuracy: 0.3000; time: 0.0080 sec
Step 201; grads: 1.30385160446167e-08;Loss value: 1.12865674; Accuracy: 0.3500; time: 0.0080 sec
Step 301; grads: -1.862645149230957e-09;Loss value: 1.14147997; Accuracy: 0.3083; time: 0.0080 sec
Step 401; grads: 2.2351741790771484e-08;Loss value: 1.15174305; Accuracy: 0.2750; time: 0.0080 sec
Step 501; grads: 2.2351741790771484e-08;Loss value: 1.11556244; Accuracy: 0.3500; time: 0.0080 sec
Step 601; grads: -4.6566128730773926e-09;Loss value: 1.21996009; Accuracy: 0.2750; time: 0.0080 sec
Step 701; grads: 3.725290298461914e-09;Loss value: 1.13091958; Accuracy: 0.2833; time: 0.0080 sec
Step 801; grads: 3.259629011154175e-08;Loss value: 1.12134171; Accuracy: 0.3417; time: 0.0080 sec
Step 901; grads: 2.514570951461792e-08;Loss value: 1.22984004; Accuracy: 0.3750; time: 0.0040 sec
Step 1001