# Backpropagation

Giờ ta cần tìm hệ số $W$ và $b$.

Có thể nghĩ ngay tới thuật toán **gradient descent** và việc quan trọng nhất trong thuật toán gradient descent là đi tìm đạo hàm của các hệ số đối với loss function. Bài này sẽ tính đạo hàm của các hệ số trong neural network với thuật toán **backpropagation**.

# Bài toán XOR với Neural Network

$x_{1}$ | $x_{2}$ | $x_{1} XOR x_{2}$
:-|:-------:|-:
1|    1    |0
1|    0    |1
0|1|1
0|0|0

### Model:

![](image1.png)

- Mô hình trên có 2 layers (số lượng layer của mô hình không tính input layer)
- Mô hình 2-2-1, nghĩa là 2 node trong input layer, 1 hidden layer có 2 node và output layer có 1 node.
- Input layer và hidden layer luôn thêm node 1 để tính bias cho layer sau, nhưng không tính vào số lượng node trong layer.
- Ở mỗi node trong trong hidden layer và output layer đều thực hiện 2 bước: tính tổng linear + áp dụng activation function.
- Các hệ số và bias tương ứng được ký hiệu như trong hình.

### Feedforward

- $z_{1}^{(1)} = b_{1}^{(1)} + x_{1}.w_{11}^{(1)} + x_{2}.w_{21}^{(1)}$
- $a_{1}^{(1)} = \sigma(z_{1}^{(1)})$
- $z_{2}^{(1)} = b_{2}^{(1)} + x_{1}.w_{12}^{(1)} + x_{2}.w_{22}^{(1)}$
- $a_{1}^{(1)} = \sigma(z_{1}^{(1)})$
- $z_{1}^{(2)} = b_{1}^{(2)} + a_{1}^{(1)}.w_{11}^{(2)} + a_{2}^{(1)}.w_{21}^{(2)}$
- $\hat{y} = a_{1}^{(2)} = \sigma(z_{1}^{(2)})$

Viết dưới dạng matrix:

$$
X = \begin{bmatrix} 1&1\\1&0\\0&1\\0&0 \end{bmatrix}, Y = \begin{bmatrix} 0\\1\\1\\0 \end{bmatrix}
$$

$Z^{(1)} = X.W^{(1)} + b^{(1)}$

$A^{(1)} = \sigma(Z^{(1)})$

$Z^{(2)} = A^{(1)}.W^{(2)} + b^{(2)}$

$\hat{Y} = A^{(2)} = \sigma(Z^{(2)})$

### Loss Function

Với mỗi điểm $(x^{[i]}, y_{i})$, gọi hàm **loss function**:
$$
L = -(y_{i}.log(\hat{y_{i}})+(1-y_{i}).log(1-\hat{y_{i}}))
$$

Hàm **loss function** cho toàn bộ dữ liệu:
$$
J = -\sum_{i=1}^{N}{(y_{i}.log(\hat{y_{i}})+(1-y_{i}).log(1-\hat{y_{i}}))}
$$

### Gradient Descent

Để áp dụng gradient descent, ta cần tính được đạo hàm của các hệ số $W$ và bias $b$ với hàm Loss Function.

- Khi hàm $f(x)$ là hàm 1 biến $x$. Đạo hàm của $f$ đối với biến $x$ ký hiệu:
$$
\frac{df}{dx}
$$
- Khi hàm $f(x,y)$ là hàm nhiều biến. Đạo hàm $f$ với biến $x$ kí hiệu là:
$$
\frac{\partial f}{\partial x}
$$

Với mỗi điểm $(x^{([i])}, y_{i})$, hàm **Loss Function**:
$$
L = -(y_{i}.log(\hat{y_{i}}) + (1-y_{i}).log(1-\hat{y_{i}}))
$$

- trong đó:
    - $\hat{y_{i}}$: là $a_{1}^{(2)} = \sigma(a_{1}^{(1)}.w_{11}^{(2)}+a_{2}^{(2)}.w_{21}^{(2)} + b_{1}^{(2)})$.
    - $y_{i}$: là giá trị thật của dữ liệu.

Đạo hàm của **Loss Function**:
$$
\frac{\partial L}{\partial \hat{y_{i}}}=
-\frac{\partial(y_{i}.log(\hat{y_{i}})+(1-y_{i}).log(1-\hat{y_{i}}))}{\partial \hat{y_{i}}} =
-(\frac{y_{i}}{\hat{y_{i}}}-\frac{1-y_{i}}{(1-\hat{y_{i}})})
$$

### Tính đạo hàm $L$ với $W^{(2)}, b^{(2)}$

Áp dụng **Chain Rule** ta có:
$$
\frac{\partial L}{\partial b_{1}^{(2)}} = \frac{\partial L}{\partial \hat{y_{i}}}.\frac{\partial \hat{y_{i}}}{\partial b_{1}^{(2)}}
$$

Lý do sử dụng Chain Rule:

- Ta có Loss: $L=L(\hat{y_{i}},y_{i})$
    - và $\hat{y_{i}}$ lại phụ thuộc vào $W$ và $b$ ở layer cuối:
        $$
        \hat{y_{i}}=f(z^{(2)})=f(W^{(2)}.h^{(1)}+b^{(2)})
        $$
$\rightarrow$ Tức là **Loss** không phụ thuộc trực tiếp vào $b^{(2)}$, mà phụ thuộc gián tiếp thông qua $\hat{y_{i}}$.

![](image2.png)

Từ đồ thị ta thấy:
$$
\frac{\partial \hat{y_{i}}}{\partial b_{1}^{(2)}} = \hat{y_{i}}.(1-\hat{y_{i}})
$$

$$
\frac{\partial \hat{y_{i}}}{\partial w_{11}^{(2)}} = a_{1}^{(1)}.\hat{y_{i}}.(1-\hat{y_{i}})
$$

$$
\frac{\partial \hat{y_{i}}}{\partial w_{21}^{(2)}} = a_{2}^{(1)}.\hat{y_{i}}.(1-\hat{y_{i}})
$$

$$
\frac{\partial \hat{y_{i}}}{\partial a_{1}^{(1)}} = w_{11}^{(2)}.\hat{y_{i}}.(1-\hat{y_{i}})
$$

$$
\frac{\partial \hat{y_{i}}}{\partial a_{2}^{(1)}} = w_{21}^{(2)}.\hat{y_{i}}.(1-\hat{y_{i}})
$$

#### **Gradient** của **Loss Function** theo từng tham số ($b$,$w$,$a$)

$b$:
$$
\frac{\partial L}{\partial b_{1}^{(2)}} =
\frac{\partial L}{\partial \hat{y_{i}}}.\frac{\partial \hat{y_{i}}}{\partial b_{1}^{(2)}} =
-(\frac{y_{i}}{\hat{y_{i}}}-\frac{1-y_{i}}{(1-\hat{y_{i}})}).\hat{y_{i}}.(1-\hat{y_{i}})
$$
$$
=-(y_{i}.(1-\hat{y_{i}})-(1-y_{i}).\hat{y_{i}})
$$
$$
= \hat{y_{i}}-y_{i}
$$

$w$:
$$
\frac{\partial L}{\partial w_{11}^{(2)}} = a_{1}^{(1)}.(\hat{y_{i}}-y_{i})
$$
$$
\frac{\partial L}{\partial w_{21}^{(2)}} = a_{2}^{(1)}.(\hat{y_{i}}-y_{i})
$$

$a$:

$$
\frac{\partial L}{\partial a_{1}^{(1)}} = w_{11}^{(2)}.(\hat{y_{i}}-y_{i})
$$
$$
\frac{\partial L}{\partial a_{2}^{(1)}} = w_{21}^{(2)}.(\hat{y_{i}}-y_{i})
$$

### Biểu diễn dưới dạng ma trận

Lưu ý:
- Đạo hàm của $L$ có kích thước $m\times n$ thì đạo hàm của $W$ cũng phải có kích thước là $n\times m$.

$$
\frac{\partial L}{\partial W} =
\begin{bmatrix}
\frac{\partial L}{\partial w_{11}}&...&\frac{\partial L}{\partial w_{1n}}\\
\frac{\partial L}{\partial w_{21}}&...&\frac{\partial L}{\partial w_{2n}}\\
...&...&...\\
\frac{\partial L}{\partial w_{m1}}&...&\frac{\partial L}{\partial w_{mn}}\\
\end{bmatrix}
$$

- Gradient của một ma trận là một ma trận có cùng shape.
- Mỗi phần tử là đạo hàm riêng của loss theo từng trọng số.

$W^{(2)}$:
$$
\frac{\partial J}{\partial W^{(2)}} = (A^{(1)})^{T}.(\hat{Y}-Y)
$$

$b^{(2)}$:
$$
\frac{\partial J}{\partial b^{(2)}}=(\sum(\hat{Y}-Y))^{T}
$$

$A^{(1)}$:
$$
\frac{\partial J}{\partial A^{(1)}} = (W^{(2)})^T.(\hat{Y}-Y)
$$

Vậy là đã tính xong đạo hàm của $L$ với hệ số $W^{(2)}, b^{(2)}$. Giờ sẽ tính đạo hàm của $L$ với hệ số $W^{(1)},b^{(1)}$.

# Thế khi nào dùng element-wise $(\otimes)$, khi nào dùng nhân ma trận (.)???

- Khi tính đạo hàm ngược lại qua bước activation thì dùng $(\otimes)$
- Khi có phép tính nhân ma trận thì dùng (.), nhưng đặc biệt chú ý đến **kích thước ma trận** và dùng **transpose** nếu cần thiết.

![](image8.png)

## Vậy là đã tính xong hết đạo hàm của **Loss Function** với các hệ số $W$ và bias $b$, giờ có thể áp dụng **Gradient Descent** để giải bài toán.

**Ví dụ:** Giờ thử tính $\frac{\partial L}{\partial x_{1}}$, ở bài này thì không cần vì chỉ có 1 hidden layer, nhưng nếu nhiều hơn 1 hidden layer thì bạn cần tính bước này để tính đạo hàm với các hệ số trước đó.

![](image3.png)

Ta thấy $w_{11}^{(1)}$ chỉ tác động đến $a_{1}^{(1)}$, cụ thể là $a_{1}^{(1)} = \sigma(b_{1}^{(1)}) + x_{1}.w_{11}^{(1)} + x_{2}.w_{21}^{(1)}$

Tuy nhiên $x_{1}$ không những tác động đến $a_{1}^{(1)}$ mà còn tác động đến $a_{2}^{(1)}$, nên khi áp dụng **chain rule** tính đạo hàm của $L$ với $x_{1}$ cần tính tổng đạo hàm qua cả $a_{1}^{(1)}$ và $a_{2}^{(1)}$.

![](image4.png)

Do đó:
$$
\frac{\partial L}{\partial x_{1}} =
\frac{\partial L}{\partial a_{1}^{(1)}}.\frac{\partial a_{1}^{(1)}}{\partial x_{1}} +
\frac{\partial L}{\partial a_{2}^{(1)}}.\frac{\partial a_{2}^{(1)}}{\partial x_{1}}
$$
$$
= w_{11}^{(1)}.a_{1}^{(1)}.(1-a_{1}^{(1)}).w_{11}^{(2)}.(y_{i}-\hat{y_{i}}) +
w_{12}^{(1)}.a_{2}^{(1)}.(1-a_{2}^{(1)}).w_{21}^{(2)}.(y_{i}-\hat{y_{i}})
$$

### Mô hình Tổng Quát

![](image5.png)

- **Bước 1**: Tính $\frac{\partial J}{\partial \hat{Y}}$, trong đó $\hat{Y}=A^{(3)}$

- **Bước 2**: Tính $\frac{\partial J}{\partial \hat{W}^{(3)}}$,$\frac{\partial J}{\partial \hat{b}^{(3)}}$ và $\frac{\partial J}{\partial \hat{A}^{(2)}}$

- **Bước 3**: Tính $\frac{\partial J}{\partial \hat{W}^{(2)}}$,$\frac{\partial J}{\partial \hat{b}^{(2)}}$ và $\frac{\partial J}{\partial \hat{A}^{(1)}}$

- **Bước 4**: Tính $\frac{\partial J}{\partial \hat{W}^{(1)}}$,$\frac{\partial J}{\partial \hat{b}^{(1)}}$, trong đó $A^{(0)}=X$

Nếu network có nhiều layer hơn thì cứ tiếp tục cho đến khi tính được đạo hàm của loss function $J$ với tất cả các hệ số $W$ và bias $b$.

# FeedForward

![](image6.png)

# BackPropagation

![](image7.png)

Đấy là vì sao thuật toán được gọi là backpropagation (lan truyền ngược)