# Giới thiệu TensorFlow và các thao tác cơ bản
## MaSSP 2017, Computer Science

## 0. Giới thiệu TensorFlow
<img style="width: 320px; height: 320px; float: left;" src="../../images/Intro_TensorFlow/tensorflow_logo.png" />

<li>__TensorFlow__ là một thư viện mở được phát triển bởi các nhà nghiên cứu và kĩ sư trong Google Brain Team. 
<li>Mục đích ban đầu nhắm là thực hiện nghiên cứu trong Machine Learning và Deep neural networks, nhưng hệ thống có thể áp dụng cho nhiều lĩnh vực khác. 

<img style="width: 350px; height: 260px; float: right;" src="../../images/Intro_TensorFlow/dataflow_graph.png" />
 
<li> __TensorFlow__ thực hiện các tính toán trong một __session__ </li>
<li> các tính toán được biểu diễn dưới dạng __graph__</li>
<li> mỗi phép tính (__operation__) là một node </li>
<li> dữ liệu, biến được biễu diễn dưới dạng __tensor__</li>

Khi thực hiện tính toán trong graph, graph phải được chạy trong một __session__.

__Session__ sẽ đưa các __operation__ trong __graph__ vào CPU hoặc GPU để thực hiện chúng.

<li> __Tensor__ là một _typed multi-dimensional array_</li>

Ví dụ, một nhóm các hình ảnh có thể được biểu diễn bằng một 4-D array tensor gồm các số thực. Bốn chiều của array này là $[batch, height, width, channels]$. $Batch$ tương ứng với số hình ảnh, và 3 giá trị còn lại ta đã nắm rõ từ lab xử lý ảnh, chúng tương ứng với chiều cao, độ rộng của một ảnh, và số kênh của một hình ảnh.

<img style="width: 450px; height: 270px; float: left;" src="../../images/Intro_TensorFlow/operations.png" />

<li> Một __operation__ có thể nhận $0$ hoặc nhiều hơn $0$ Tensor, thực hiện một số tính toán, và tạo ra $0$ hoặc nhiều hơn $0$ __tensor__.</li>

## 1. Xây dựng graph đơn giản nhất
Đầu tiên chúng ta import tensorflow và viết tắt nó là <i>tf</i>.

In [2]:
import tensorflow as tf

Dùng lệnh $get\_default\_graph()$ để thu được graph có sẵn.

In [2]:
graph = tf.get_default_graph()

Như đã đề cập, mỗi node trong graph là một operation. Hàm $get\_operations()$ sẽ trả về các operations có trong graph.

In [3]:
graph.get_operations()

[]

Lúc này graph chưa có operation nào cả, nhưng ta sẽ thêm vào operation khởi tạo một hằng số với giá trị $1.0$.

In [4]:
x = tf.constant(1.0)

Hằng số này nằm trong một node, hay một operation trong graph.

In [6]:
operations = graph.get_operations()
operations

[<tensorflow.python.framework.ops.Operation at 0x74188d358>]

>Từ output ta thấy được đây là một Operation. Operation class được định nghĩa tại đây: https://github.com/tensorflow/tensorflow/blob/master/tensorflow/python/framework/ops.py

Hãy thử tìm các hàm $get\_default\_graph()$, $get\_operations()$ chúng ta vừa sửa dụng trong file $ops.py$ này. Các hàm này được định nghĩa trong $class$ nào?

Ta có thể dùng $node\_def$ để thấy rõ hơn cấu trúc của operation này.

In [7]:
operations[0].node_def

name: "Const"
op: "Const"
attr {
  key: "dtype"
  value {
    type: DT_FLOAT
  }
}
attr {
  key: "value"
  value {
    tensor {
      dtype: DT_FLOAT
      tensor_shape {
      }
      float_val: 1.0
    }
  }
}

Lưu ý, chúng ta có thể đánh giá input $x$ theo cách thông thường, nhưng sẽ chỉ thu được những thông tin sau.

In [7]:
x

<tf.Tensor 'Const:0' shape=() dtype=float32>

__Checkpoint 1__: Bạn hãy thử tìm xem kết quả trên thu được nhờ hàm nào trong https://github.com/tensorflow/tensorflow/blob/master/tensorflow/python/framework/ops.py?  

Kết quả cho thấy input $x$ là một hằng số, 32-bit float tensor không có chiều, nhưng kết quả không cho ta biết giá trị của hằng số này là gì. Để đánh giá input $x$ và nhận được giá trị số của nó, chúng ta cần đến một __session__.

In [8]:
sess = tf.Session()
sess.run(x)

1.0

Lưu ý, ngoài $Session()$, chúng ta sẽ sử dụng $InteractiveSession()$ rất nhiều trong chương trình. Với $InteractiveSession$, chúng ta không cần viết $sess.run(x)$, mà có thể viết $x.eval()$ để thực hiện một operation.

In [9]:
sess = tf.InteractiveSession()
x.eval()

1.0

Hãy nhớ đóng session lại cuối chương trình!

In [10]:
sess.close()

Chúng ta vừa học cách tạo ra một hằng số trong TensorFlow, cách nhận biết các operations trong __graph__, và dùng __session__ để đánh giá một operation. 

Tuy nhiên graph hiện tại chưa thực hiện một phép tính toán đúng nghĩa nào. Hãy cùng xây dựng một _neuron_ có thể thực hiện được một phép tính toán đơn giản trong phần sau.

## 2. Xây dựng TensorFlow neuron
<img style="float: left" src="../../images/Intro_TensorFlow/a_simple_neuron.png" />
Trong phần này, chúng ta sẽ mô phỏng lại một neuron đơn giản. Neuron này chỉ có 2 tham số cần tìm và cả 2 đều là số thực, đó là weight $w$ và bias $b$. Neuron sẽ nhận một giá trị input, và xuất ra một giá trị output $y$ theo công thức 

$output = weight * input + bias$, hay $y = w*x + b$

Neuron sẽ bắt đầu với giá trị weight $w$ và bias $b$ bất kì. Chúng ta sẽ cho neuron giá trị của input $x$, và output $y\_correct$ mong muốn tương ứng với input $x$ này.

Với giá trị weight $w$, bias $b$ ban đầu và input $x$, neuron áp dụng công thức tính ra output $y$, và tất nhiên sẽ có sai số với output mong muốn $y\_correct$.

Để giúp neuron điều chỉnh giá trị weight $w$ và bias $b$ cho phù hợp (sao cho output $y$ của neuron sẽ gần hơn với $y\_correct$), chúng ta sẽ cung cấp cho neuron một hàm tính sai số __cost function__.

Sai số càng lớn khi output $y$ của neuron càng xa với $y\_correct$, và neuron sẽ thay đổi weight $w$ và bias $b$ nhiều hơn khi sai số càng lớn.

Do đó weight $w$ và bias $b$ sẽ biến thiên tùy vào sai số trong quá trình học. Ta sẽ sử dụng biến TensorFlow ($tf.Variable$ class) cho chúng.

Code của $tf.Variable$ class: https://github.com/tensorflow/tensorflow/blob/master/tensorflow/python/ops/variables.py.

Đầu tiên, khởi tạo biến này với một giá trị weight $w$ ban đầu, giả sử là $0.8$.

In [3]:
w = tf.Variable(0.8)
w

<tensorflow.python.ops.variables.Variable at 0x94fa3389b0>

__Checkpoint 2__: So với khởi tạo một hằng số, việc khởi tạo một biến thêm vào graph bao nhiêu operations? Những operations đó làm gì?

_Gợi ý: sử dụng $op.name$ để biết được tên của operation._

In [None]:
# code 


Tương tự, ta khởi tạo biến bias $b$ với giá trị ban đầu bất kì, giả sử là $0.5$.

In [10]:
b = tf.Variable(0.5)
b

<tensorflow.python.ops.variables.Variable at 0x738fc5fd0>

Hãy sử dụng lại code từ Checkpoint 2 để biết các operations thêm vào graph từ việc khởi tạo bias $b$.

In [None]:
# code


Với input $x$ $1.0$ từ phần 1 và weight $w$, bias $b$ vừa khởi tạo, ta đã sẵn sàng thêm vào graph một operation tính toán thật sự khi tính output $y$.

In [12]:
y = w * x + b
# hoặc dùng output = tf.add(tf.mul(w, x), b) đúng cho cả khi w, x là array 
# thay vì số thực

Hãy viết code để biết được _2 operation mới nhất_ nào vừa được thêm vào graph.

In [14]:
# code

__Checkpoint 3__: Bạn có thể đoán được đoạn code có mục đich gì không?

In [20]:
for op in graph.get_operations():
    print("Operation name: {}".format(op.name))
    for op_input in op.inputs:
        print("\tOp input: {}".format(op_input))

Hãy thử tính kết quả của phép nhân trên bằng $InteractiveSession$.

In [22]:
sess = tf.InteractiveSession()
sess.run(y)              # hoặc y.eval()

Thay vì nhận được kết quả, chúng ta lại gặp lỗi này:

<span style="color: red">"FailedPreconditionError (see above for traceback): Attempting to use uninitialized value Variable"</span>

Phép nhân này cần có biến weight $w$. Mặc dù chúng ta đã khởi tạo biến này, giá trị của nó vẫn chưa được gán trong session hiện tại. Hàm $tf.global\_variables\_initializer()$ sẽ làm nhiệm vụ init tất cả các biến trong graph (trong trường hợp này chỉ có một biến là weight $w$).

In [23]:
init = tf.global_variables_initializer()

Hàm $tf.global\_variables\_initializer()$ này cũng trả về một operation, nên đừng quên dùng session để thực hiện operation này!

In [24]:
sess.run(init)               # hoặc init.eval() trong InteractiveSession

Cuối cùng ta có thể chạy operation tính output $y$.

In [25]:
sess.run(y)

1.3

Đây là kết quả tính hợp lý của $output = weight * input + bias = 0.8 * 1.0 + 0.5 = 1.3$.

Qua phần này, ta thấy rằng bản thân mỗi operation đều chứa thông tin về các input của nó (cũng là những operation khác trong graph). 

Tưởng tượng với số lượng operation tăng lên, sẽ rất khó nhớ được mối quan hệ giữa các operation.

[TensorBoard graph visualization](https://www.tensorflow.org/how_tos/graph_viz/) là một công cụ giúp ta hình dung graph trong TensorFlow.

## 3. Dùng TensorBoard để phân tích graph

__TensorBoard__ là một công cụ hữu ích giúp thể hiện mối quan hệ của các operation trong graph cũng như xem thông tin của từng operation. Ngoài ra TensorBoard còn nhiều chức năng khác như vẽ đồ thị, hình ảnh..., chúng ta sẽ tìm hiểu song song với các bài thực hành tiếp theo.

Đầu tiên, ta cần đến $FileWriter$, cùng với tên của thư mục ta sẽ lưu dữ liệu của graph vào (ví dụ "Lab2").

In [22]:
file_writer = tf.summary.FileWriter("Lab2", sess.graph)

Bây giờ bạn hãy tạm rời Jupyter Notebook và dùng command shell (sau khi đã "activate tensorflow") để chạy TensorBoard với lệnh _"tensorboard --logdir=Lab2"_.

In [41]:
#(tensorflow) D:\MaSSP\track_2>tensorboard --logdir=Lab2
#Starting TensorBoard b'39' on port 6006
#(You can navigate to http://10.0.0.5:6006)

Thư mục "Lab2" sẽ chứa thông tin thu lại từ graph. Command còn cho ta biết một đường link có thể được truy cập từ trình duyệt web, nơi ta có thể nhìn thấy graph:

<img style="width: 970px; height: 400px;" src='../../images/Intro_TensorFlow/log_simple_graph.png' />

Ta nhận thấy rằng __operation__ có tên khác với tên biến trong Python (ta không thấy có chữ output $y$, input $x$ trong graph, thay vào đó là $Const\_1$, $Variable\_2$ hoặc tương tự).

Tuy nhiên ta có thể đặt tên các operation này để phân biệt chúng dễ dàng hơn trong graph.

In [29]:
x = tf.constant(1.0, name="input")
w = tf.Variable(0.8, name="weight")
b = tf.Variable(0.5, name="bias")
y = tf.add(tf.mul(w, x), b, name="output")

Hãy viết lại graph lần nữa. Lưu ý khi làm việc với Jupyter notebook các bạn nên xóa thư mục "Lab2" trước khi thực hiện tính toán một lần nữa, nếu không graph sẽ chứa nhiều bản sao của cùng một operation. 

In [30]:
tf.summary.FileWriter("Lab2", sess.graph)

<tensorflow.python.summary.writer.writer.FileWriter at 0x7c1979dcf8>

...khởi động lại TensorBoard với "Lab2", và refresh trang web.

In [None]:
#(tensorflow) D:\MaSSP\track_2>ls
#... Lab2_Tutorial1

#(tensorflow) D:\MaSSP\track_2>tensorboard --logdir=Lab2_Tutorial1
#Starting TensorBoard b'39' on port 6006
#(You can navigate to http://10.0.0.5:6006)

Lúc này, tên các operation sẽ xuất hiện trong graph tương tự như sau.

<img src='../../images/Intro_TensorFlow/named_vars.png' />

Ngoài cách đặt tên biến, ta còn có thể sử dụng hàm $tf.name\_scope()$ để nhóm các operation lại với nhau. Việc nhóm các operation tương tự giúp biểu diễn cách graph phức tạp dễ dàng hơn và hiểu cách thành phần của quá trình tính toán rõ ràng hơn.

In [33]:
with tf.name_scope("a_simple_neuron") as scope:
    x = tf.constant(1.0)
    w = tf.Variable(0.8, name="weight")
    b = tf.Variable(0.5, name="bias")
    y = tf.add(tf.mul(w, x), b, name="output")

Và đây là kết quả thu được trong TensorBoard, các operation được nhóm lại trong scope "a_simple_neuron" và có thể được triển khai hoặc thu gọn bằng cách nhấn vào dấu "+" hoặc "-" tương ứng.

__Checkpoint 4__: Hãy khởi động lại TensorBoard để thấy scope "a_simple_neuron".
<img src='../../images/Intro_TensorFlow/a_simple_neuron_scope.png' />

## 4. Train neuron - Linear Regression
Quay lại với neuron đơn giản của chúng ta với chỉ 2 thông số là weight $w$ và bias $b$ và các thông số này có giá trị ban đầu lần lượt là là $0.8$ và $0.5$. Với input $x$ là $1.0$, neuron tính giá trị output $y$ là $1.3$. 

Tuy nhiên, giả sử $y\_correct$ chúng ta mong muốn lại là $1.6$, thay vì $0.8$, ta cần giúp neuron biết: 
1. giá trị output $y$ nó tính được là chưa chuẩn (lý do là vì weight $w$ và bias $b$ chưa chuẩn!), và 
2. chỉ cho neuron biết cách điều chỉnh weight $w$ và bias $b$ để giảm sai số giữa output $y$ neuron tính được và output thực tế $y\_correct$.

In [46]:
# Khởi tạo output mong muốn y_expect
y_correct = tf.constant(1.6, name="correct_output")

### 4.1 Hàm sai số
Ta cần định nghĩa một hàm sai số để tính được độ lệch của output $y$ và $correct\_output$. Trong trường hợp này chúng đều là 2 số thực, và ta sẽ sử dụng hàm sai số least squares:

$$cost = (correct\_output - output)^2$$

In [48]:
with tf.name_scope("cost_function") as scope:
    cost = (y_correct - y)**2

Ta có thể đánh giá $cost$ với interactive session hiện tại.

In [32]:
cost.eval()

0.090000041

__Checkpoint 5__: Kết quả $cost$ này có hợp lý không?

### 4.2 Điều chỉnh tham số
Từ giá trị hiện tại của $cost$, ta cần điều chỉnh weight $w$ và bias $b$. Hiển nhiên nếu sai số $cost$ càng lớn thì ta nên thay đổi càng nhiều weight $w$ và bias $b$.

Trong bài giảng, ta đã biết đến cách dùng thuật toán Gradient Descent để điều chỉnh tham số dựa vào đạo hàm của $cost$. 

TensorFlow cung cấp hàm $GradientDescentOptimizer()$ cho việc này, lấy $learning\_rate$ là giá trị thể hiện tốc độ học nhanh hay chậm của quá trình học. 

Nếu tốc độ học quá lớn, khả năng cao ta sẽ không đạt được giá trị nhỏ nhất của sai số. Tốc độ học quá chậm lại dẫn đến việc quá trình học quá lâu, qua nhiều bước mà sai số vẫn lớn.

Để bắt đầu, ta sẽ thử với tốc độ học là $0.025$. Và định nghĩa một bước học là quá trình điều chỉnh weight $w$ và bias $b$ dựa vào sai số $cost$, sử dụng Gradient Descent Optimizer của TensorFlow với tốc độ học $0.025$.
>Gradient Descent Optimizer: https://www.tensorflow.org/api_docs/python/tf/train/GradientDescentOptimizer

In [2]:
with tf.name_scope("train_step") as scope:
    train_step = tf.train.GradientDescentOptimizer(0.025).minimize(cost)

Chúng ta sẽ điều chỉnh thông số 100 lần (100 bước học). Hàm $tf.summary.scalar$ giúp ta biết được các biến thay đổi thế nào trong quá trình học.

In [84]:
file_writer = tf.summary.FileWriter("Lab2", sess.graph)
sess.run(tf.global_variables_initializer())

# Tạo các đồ thị thể hiện sự biến thiên của weight, bias, cost, và output
summary_weight = tf.summary.scalar('weight', w)
summary_bias = tf.summary.scalar('bias', b)
summary_cost = tf.summary.scalar('cost', cost)
summary_y = tf.summary.scalar('output', y)

Lúc này ta đã sẵn sàng thực hiện quá trình "train" neuron. Cụ thể ta sẽ gọi bước $train\_step$ 100 lần, và trong mỗi bước ghi lại sự biến thiên của các biến nhờ $FileWriter$.

Để tiện theo dõi, phần code cần thiết để chạy chương trình này đã được viết trong file $Intro\_TensorFlow\_mini\_regression.py$.

In [None]:
# Thực hiện quá trình học
for i in range(100):
    # Tính và log các giá trị hiện tại của weight, bias, cost, và output
    summaries = sess.run([summary_weight, summary_bias, summary_cost, summary_y])
    for summary in summaries:
        file_writer.add_summary(summary, i)
        
    # Gọi bước học tiếp theo
    sess.run(train_step)

__Checkpoint 6__: Hãy sử dụng TensorBoard để trả lời các câu hỏi sau:
- Giá trị cuối cùng của weight, bias, và cost?
- Giá trị cuối cùng của output có hợp lý không?
- Đến khoảng bước nào thì cost giảm không đáng kể?
- Tại sao sau bước này thì giá trị của weight, bias, cost, và output không thay đổi nhiều?

<img src='../../images/Intro_TensorFlow/a_simple_neuron_one_data_point.png' />

__Checkpoint 7__: Hãy thay đổi learning_rate và lặp lại các bước trên, quan sát và nhận xét các đồ thị thu được
- learning_rate = 0.4
- learning_rate = 0.5
- learning_rate = 0.001
- learning_rate = 0.00001

### 4.3 Kết luận
Chúng ta vừa xây dựng một neuron đơn giản bằng TensorFlow với 2 thông số weight $w$ và bias $b$. Với một cặp giá trị $(input, correct\_output)$ cho sẵn, neuron đã biết cách học và tự điều chỉnh weight $w$ và bias $b$ sao cho output $y$ mà neuron tính được càng gần với output thật $y\_expected$. Số bước học và sai số của output $y$ phụ thuộc nhiều vào tốc độ học, hàm sai số, và optimizer.

Tiếp theo, chúng ta sẽ cho neuron học dựa trên nhiều cặp giá trị $(input, correct\_output)$ khác nhau, thay vì một cặp $(0.8, 1.6)$ như trên (vô số nghiệm thỏa mãn cho hệ phương trình 2 ẩn, 1 phương trình). Mặt khác mỗi input có thể không phải là một số thực (thể hiện 1 thuộc tính), mà có nhiều thuộc tính và input khi đó sẽ được biếu diễn bởi 1 vector. Ví dụ:

<img src="../../images/Intro_TensorFlow/housing_cost.png" />
$$ x = 
    \begin{bmatrix}
        [2104 & 5 & 1 & 45] \\
        [1416 & 3 & 2 & 40] \\
        [1534 & 3 & 2 & 30] \\
         [852 & 2 & 1 & 36] \\
         ...
    \end{bmatrix}
; \ \ \  y = 
    \begin{bmatrix}
         460 \\
         232 \\
         315 \\
         178 \\
         ...
    \end{bmatrix}         
$$

## Hỏi đáp

__Bài tập__: (Hãy làm bài tập này sau khi hoàn thành lab Logistic Regression)

Sử dụng thuật toán Linear Regression để tìm công thức tính giá nhà dựa vào dữ liệu có trong file "data/housing_train.csv".