## 1. Đạo hàm của hàm hợp $g(f(x))$
\begin{align}
y &= f(x) \\
z &= g(y) = g(f(x))
\end{align}
Cần tính đạo hàm của $z$ theo $x$?

$$\frac{dz}{dx} \approx \frac{g(f(x + \Delta x)) - g(f(x))}{\Delta x}, \quad \Delta x \approx 0$$

Khi $x$ dịch chuyển đi một đoạn $\Delta x$ thì $y$ cũng dịch chuyển đi một đoạn

$$\Delta y = f(x + \Delta x) - f(x)$$

Với điều kiện $y$ biến đổi liên tục theo $x$, nếu $\Delta x \approx 0$ thì $\Delta y$ cũng  $\approx 0$. Từ đó

\begin{align}
\frac{dz}{dx} &\approx \frac{g(f(x + \Delta x)) - g(f(x))}{\Delta x} \\
&\approx \frac{g(y + \Delta y) - g(y)}{\Delta y}\cdot\frac{\Delta y}{\Delta x}
\end{align}

Cho $\Delta x \rightarrow 0$ (kéo theo $\Delta y$ cũng $\rightarrow 0$):
$$\frac{dz}{dx} = \frac{dz}{dy} \cdot \frac{dy}{dx}$$

(Qui tắc đạo hàm của hàm hợp/chain rule)

![chainrule](resources/chainrule.png)

In [1]:
def estimate_derivative(f, x):
    epsilon = 1e-7
    return (f(x + epsilon) - f(x)) / epsilon

Ví dụ: $y = x + 1, z = y^2$

* Cách 1: tính trực tiếp (không khả thi trong các trường hợp phức tạp hơn)

$z = y^2 = (x + 1)^2$

Từ đó
\begin{align}
\frac{dz}{dx} &\approx \frac{(x + \Delta x + 1)^2 - (x + 1)^2}{\Delta x} \\
&\approx \frac{((x + \Delta x)^2 + 2(x + \Delta x) + 1) - (x^2 + 2x + 1)}{\Delta x} \\
&\approx \frac{(x + \Delta x)^2 + 2\Delta x - x^2}{\Delta x} \\
&\approx \frac{(x^2 + 2x\Delta x + (\Delta x)^2) + 2\Delta x - x^2}{\Delta x} \\
&\approx \frac{2x\Delta x + (\Delta x)^2 + 2\Delta x}{\Delta x} \\
&\approx 2x + \Delta x + 2
\end{align}

Cho $\Delta x \rightarrow 0$: $\frac{dz}{dx} = 2x + 2$
* Cách 2: dùng chain rule
$$\frac{dz}{dx} = \frac{dz}{dy} \cdot \frac{dy}{dx} = 2y\cdot1 = 2(x + 1)$$

In [25]:
x = 4.5
f = lambda x: x + 1
g = lambda x: x**2
composition = lambda x: g(f(x))
print('x = {}\ny = f(x) = x + 1 = {}'.format(x, f(x)))
print('z = g(y) = g(f(x)) = (x + 1)^2 = {}, derivative = {}'.format(composition(x),
                                                                    estimate_derivative(composition, x)))

x = 4.5
y = f(x) = x + 1 = 5.5
z = g(y) = g(f(x)) = (x + 1)^2 = 30.25, derivative = 11.000000128547072


## 2. Đạo hàm của hàm hợp $h(f(x), g(x))$

\begin{align}
u &= f(x) \\
v &= g(x) \\
y &= h(u, v) = h(f(x), g(x))
\end{align}
Cần tính đạo hàm của $y$ theo $x$?
![chainrule2](resources/chainrule2.png)

Khi $x$ dịch chuyển đi một đoạn $\Delta x$ thì kéo theo $u$ và $v$ dịch chuyển đi một đoạn
\begin{align}
\Delta u &= f(x + \Delta x) - f(x) \\
\Delta v &= g(x + \Delta x) - g(x) 
\end{align}
từ đó kéo theo $y$ cũng di chuyển một đoạn
$$\Delta y = h(u + \Delta u, v + \Delta v) - h(u, v)$$
Đạo hàm của $y$ theo $x$
\begin{align}
\frac{dy}{dx} \approx \frac{\Delta y}{\Delta x} &= \frac{h(u + \Delta u, v + \Delta v) - h(u, v)}{\Delta x} \\
&= \frac{h(u + \Delta u, v + \Delta v) - h(u, v + \Delta v)}{\Delta x} + \frac{h(u, v + \Delta v) - h(u, v)}{\Delta x} \\
&= \underbrace{\frac{h(u + \Delta u, v + \Delta v) - h(u, v + \Delta v)}{\Delta u}}_{\dfrac{\partial y}{\partial u}} \cdot \underbrace{\frac{\Delta u}{\Delta x}}_{\dfrac{du}{dx}} + \underbrace{\frac{h(u, v + \Delta v) - h(u, v)}{\Delta v}}_{\dfrac{\partial y}{\partial v}} \cdot \underbrace{\frac{\Delta v}{\Delta x}}_{\dfrac{dv}{dx}}\\
\end{align}

Cho $\Delta x \rightarrow 0$ thì
$$\frac{dy}{dx} = \underbrace{\dfrac{\partial y}{\partial u} \cdot \dfrac{du}{dx}}_{x \rightarrow u \rightarrow y} + \underbrace{\dfrac{\partial y}{\partial v} \cdot \dfrac{dv}{dx}}_{x \rightarrow v \rightarrow y}$$
(Đạo hàm của $y$ theo $x$ = tổng các con đường đi từ $x \rightarrow y$)

In [24]:
x = 4.5
f = lambda x: x - 1
g = lambda x: x + 1
h = lambda u, v: u**2 + v**2
composition = lambda x: h(f(x), g(x))
print('x = {}\nu = f(x) = x - 1 = {}\nv = g(x) = x + 1 = {}'.format(x, f(x), g(x)))
print('y = h(u, v) = u^2 + v^2 = {}, derivative = {}'.format(composition(x),
                                                             estimate_derivative(composition, x)))

x = 4.5
u = f(x) = x - 1 = 3.5
v = g(x) = x + 1 = 5.5
y = h(u, v) = u^2 + v^2 = 42.5, derivative = 18.000000210349754


Ví dụ: 
\begin{align}
u &= x - 1 \\
v &= x + 1 \\
y &= u^2 + v^2 = (x - 1)^2 + (x + 1)^2
\end{align}
Đạo hàm của $y$ theo $x$
\begin{align}
\frac{dy}{dx} &= \frac{\partial y}{\partial u}\cdot\frac{du}{dx} + \frac{\partial y}{\partial v}\cdot\frac{dv}{dx} \\
&= 2u \cdot 1 + 2v \cdot 1 \\
&= 2(x - 1) + 2(x + 1) = 4x
\end{align}

## 3. Trường hợp 2 biến đầu vào

Nếu có thêm một biến đầu vào $t$ nữa
\begin{align}
u &= f(x, t) \\
v &= g(x, t) \\
y &= h(u, v)
\end{align}
thì tính đạo hàm riêng của $y$ theo $x$ và theo $t$ ntn?
![chainrule3](resources/chainrule3.png)
Tương tự phần trên, đạo hàm riêng của $y$ theo $x$
$$\frac{\partial y}{\partial x} = \frac{\partial y}{\partial u}\cdot\frac{\partial u}{\partial x} + \frac{\partial y}{\partial v}\cdot\frac{\partial v}{\partial x}$$
![chainrule4](resources/chainrule4.png)
Đạo hàm riêng của $y$ theo $t$
$$\frac{\partial y}{\partial t} = \frac{\partial y}{\partial u}\cdot\frac{\partial u}{\partial t} + \frac{\partial y}{\partial v}\cdot\frac{\partial v}{\partial t}$$
![chainrule5](resources/chainrule5.png)
Viết gọn lại dạng vector: rename lại các biến
\begin{align}
y_1 &= f(x_1, x_2) \\
y_2 &= g(x_1, x_2) \\
z &= h(y_1, y_2)
\end{align}
![chainrule6](resources/chainrule6.png)
Chain rule
\begin{align}
\dfrac{\partial z}{\partial x_1} = \dfrac{\partial z}{\partial y_1}\cdot\dfrac{\partial y_1}{\partial x_1} + \dfrac{\partial z}{\partial y_2}\cdot\dfrac{\partial y_2}{\partial x_1} = 
\begin{bmatrix}
\dfrac{\partial z}{\partial y_1} & \dfrac{\partial z}{\partial y_2}
\end{bmatrix}
\cdot
\begin{bmatrix}
\dfrac{\partial y_1}{\partial x_1} \\
\dfrac{\partial y_2}{\partial x_1}
\end{bmatrix} \\
\dfrac{\partial z}{\partial x_2} = \dfrac{\partial z}{\partial y_1}\cdot\dfrac{\partial y_1}{\partial x_2} + \dfrac{\partial z}{\partial y_2}\cdot\dfrac{\partial y_2}{\partial x_2} = 
\begin{bmatrix}
\dfrac{\partial z}{\partial y_1} & \dfrac{\partial z}{\partial y_2}
\end{bmatrix}
\cdot
\begin{bmatrix}
\dfrac{\partial y_1}{\partial x_2} \\
\dfrac{\partial y_2}{\partial x_2}
\end{bmatrix}
\end{align}
$$ 
\underbrace{
\begin{bmatrix}
\dfrac{\partial z}{\partial x_1} & \dfrac{\partial z}{\partial x_2}
\end{bmatrix}
}_{\text{vector gradient $z$ theo $\textbf{x}$}}
=
\underbrace{
\begin{bmatrix}
\dfrac{\partial z}{\partial y_1} & \dfrac{\partial z}{\partial y_2}
\end{bmatrix}
}_{\text{vector gradient $z$ theo $\textbf{y}$}}
\cdot
\underbrace{
\begin{bmatrix}
\dfrac{\partial y_1}{\partial x_1} & \dfrac{\partial y_1}{\partial x_2} \\
\dfrac{\partial y_2}{\partial x_1} & \dfrac{\partial y_2}{\partial x_2}
\end{bmatrix}
}_{\text{ma trận Jacobian}}
$$
Kí hiệu vector gradient $z$ theo $\textbf{x}$ là $\dfrac{\partial z}{\partial \textbf{x}}$, vector gradient $z$ theo $\textbf{y}$ là $\dfrac{\partial z}{\partial \textbf{y}}$, ma trận Jacobian là $\dfrac{\partial \textbf{y}}{\partial \textbf{x}}$ thì chain rule viết gọn dưới dạng
$$\dfrac{\partial z}{\partial \textbf{x}} = \underbrace{\dfrac{\partial z}{\partial \textbf{y}} \cdot \dfrac{\partial \textbf{y}}{\partial \textbf{x}}}_{\text{nhân ma trận}}$$