# 01. Giới thiệu

## Bài toán

Nhiều bài toán tối ưu trong khoa học máy tính và học máy liên quan đến việc tối thiểu hóa một hàm mất mát (loss function), hàm này đo lường sự khác biệt giữa dự đoán của mô hình và giá trị thực tế. Các bài toán này thường có dạng tối thiểu tổng của nhiều hàm khả vi, chẳng hạn như:
$$
\min_{\mathbf{w}} \frac{1}{n} \sum_{i=1}^n f_i(\mathbf{w}),
$$
trong đó mỗi $f_i$ tương ứng với giá trị mất mát của điểm dữ liệu thứ $i$. Việc tối thiểu hóa trực tiếp hàm mất mát này có thể rất tốn kém về tính toán khi tập dữ liệu lớn, do đó các thuật toán tối ưu hiệu quả là rất cần thiết. Phương pháp Gradient Descent và các biến thể của nó như Stochastic Gradient Descent (SGD) và Mini-batch SGD là một trong những phương pháp tối ưu được sử dụng khá rộng rãi để giải quyết các bài toán như vậy.

## Ứng dụng

Gradient Descent (GD), Stochastic Gradient Descent (SGD) và Mini-batch SGD là các kỹ thuật tối ưu hóa cơ bản với nhiều ứng dụng rộng rãi, đặc biệt trong lĩnh vực học máy. Trong đó, **deep learning (học sâu)** là lĩnh vực nổi bật nhất mà các phương pháp này đã chứng tỏ hiệu quả vượt trội. Việc huấn luyện các mạng nơ-ron sâu đòi hỏi phải tối ưu các hàm mất mát phi lồi với hàng triệu đến hàng tỷ tham số - một nhiệm vụ gần như bất khả thi nếu không có các thuật toán tối ưu hóa hiệu quả như SGD và các biến thể của nó.

Các phương pháp này được sử dụng để huấn luyện những mô hình hiện đại nhất trong các bài toán như **nhận diện hình ảnh, xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói, và các mô hình sinh như GAN hoặc các mô hình ngôn ngữ lớn (LLM)**. Mini-batch SGD đặc biệt hữu ích khi cân bằng giữa tính nhiễu của SGD thuần túy và chi phí tính toán cao của GD toàn bộ, nhờ đó trở thành lựa chọn tiêu chuẩn trong hầu hết các framework học sâu hiện nay.

## Một số bài toán khoa học máy tính đã được giải bằng các phương pháp này

Gradient Descent và các biến thể của nó không chỉ là công cụ tối ưu hóa mà còn đóng vai trò trung tâm trong việc giải quyết nhiều bài toán quan trọng trong khoa học máy tính. Một số ví dụ tiêu biểu kể đến như:

- **Huấn luyện mạng nơ-ron sâu (Deep Neural Networks):** Các mô hình như ResNet, BERT, GPT,… đều được huấn luyện bằng mini-batch SGD hoặc các biến thể nâng cao của nó như Adam, RMSProp. Những mô hình này đạt hiệu suất vượt trội trong các tác vụ như phân loại ảnh, dịch máy, và tạo sinh văn bản.

- **Hệ thống gợi ý (Recommendation Systems):** Tối ưu hóa hàm mất mát trong mô hình ma trận tiềm ẩn hoặc mô hình học sâu gợi ý (Deep Recommender Systems) đều cần đến các thuật toán tối ưu như SGD.

- **Thị giác máy tính (Computer Vision):** Trong các bài toán như phát hiện đối tượng, phân đoạn ảnh, và tạo ảnh, mini-batch SGD được dùng để tối ưu các mô hình học sâu phức tạp với dữ liệu ảnh quy mô lớn.

- **Học tăng cường (Reinforcement Learning):** Các thuật toán như Policy Gradient, Deep Q-Learning sử dụng SGD để cập nhật chính sách hoặc hàm giá trị dựa trên trải nghiệm từ môi trường.

Những ví dụ trên cho thấy tầm quan trọng rộng khắp của GD, SGD và Mini-batch SGD trong việc giải quyết các bài toán cốt lõi của khoa học máy tính hiện đại, đặc biệt khi dữ liệu và mô hình ngày càng lớn và phức tạp.

# 02. Gradient Descent
Gradient descent là một thuật toán tối ưu hóa thường được sử dụng để đào tạo các mô hình học máy và mạng nơ-ron. Nó đào tạo các mô hình học máy bằng cách giảm thiểu lỗi giữa kết quả dự đoán và kết quả thực tế.
Thuật toán hoạt động bằng cách điều chỉnh liên tục các tham số của mô hình (như trọng số và độ lệch) theo hướng làm giảm chi phí nhiều nhất. Hướng này được xác định bằng cách tính toán độ dốc (hướng đến mức tăng chi phí nhiều nhất) của hàm chi phí liên quan đến các tham số, sau đó di chuyển các tham số theo hướng ngược lại.


## One-Dimensional Gradient Descent
Xét một hàm thực khả vi liên tục $f: \mathbb{R} \rightarrow \mathbb{R}$ . Sử dụng khai triển Taylor:
$$f(x+\epsilon)=f(x)+\epsilon f^{\prime}(x)+O\left(\epsilon^2\right). \tag{1}$$ 
Tức là, trong xấp xỉ bậc một, $f(x+\epsilon)$ được xác định bởi giá trị hàm $f(x)$ và đạo hàm bậc một $f^{\prime}(x)$ tại $x$. Có thể giả định rằng với $\epsilon$ nhỏ, việc di chuyển theo hướng gradient âm sẽ giảm $f$. Chọn một kích thước bước cố định $\eta>0$ và chọn $\epsilon=-\eta f^{\prime}(x)$. Thay vào khai triển Taylor ở trên:
$$f\left(x-\eta f^{\prime}(x)\right)=f(x)-\eta f^{\prime 2}(x)+O\left(\eta^2 f^{\prime 2}(x)\right).\tag{2}$$
Nếu đạo hàm $f^{\prime}(x) \neq 0$ không tiêu biến, ta đạt được bước tiến tới điểm tối ưu vì $\eta f^{\prime 2}(x)>0$. Hơn nữa, ta luôn có thể chọn $\eta$ đủ nhỏ để các hạng bậc cao trở nên không đáng kể. Do đó:
$$f\left(x-\eta f^{\prime}(x)\right) \lessapprox f(x). \tag{3}$$
Điều này có nghĩa là, nếu ta sử dụng:
$$x \leftarrow x-\eta f^{\prime}(x). \tag{4}$$
để lặp $x$, giá trị của hàm $f(x)$ có thể giảm. Do đó, trong gradient descent, ta đầu tiên chọn một giá trị ban đầu $x$ và một hằng số $\eta>0$, sau đó sử dụng chúng để lặp $x$ liên tục cho đến khi đạt điều kiện dừng, ví dụ, khi độ lớn của gradient $\left|f^{\prime}(x)\right|$ đủ nhỏ hoặc số lần lặp đạt một giá trị nhất định.
### Ví dụ minh họa
Ta chọn hàm mục tiêu $f(x)=x^2 +5sin(x)$ để minh họa cách thực hiện gradient descent. Đạo hàm: $f^{\prime}(x) =2x + 5cos(x)$

In [None]:
%matplotlib inline
import numpy as np
import torch
import d2l
def f(x):  # objective function
    return x**2 + 5 * np.sin(x)

def f_grad(x):  # Gradient (derivative) of the objective function
    return 2*x + 5 * np.cos(x)

Tiếp theo, ta sử dụng $x=-5$ làm giá trị ban đầu và giả sử $\eta=0.1$. Sử dụng gradient descent để lặp $x$ 15 lần, ta có thể thấy rằng x xuất phát từ bên trái và cuối cùng, giá trị của $x$ tiến gần đến nghiệm tối ưu.

In [None]:
def gd(eta, f_grad, start_x, step):
    x = start_x
    results = [x]
    for i in range(step):
        x -= eta * f_grad(x)
        results.append(x)
    print(f'epoch 11, x: {x:.6f}')
    return results

results = gd(0.1, f_grad,-5,15)

Tiến trình tối ưu hóa $x$ có thể được vẽ như sau.

In [None]:
def show_trace(results, f):
    n = max(abs(min(results)), abs(max(results)))
    f_line = np.arange(-n, n, 0.01)
    d2l.set_figsize()
    d2l.plot([f_line, results], [[f(x) for x in f_line], [f(x) for x in results]], 'x', 'f(x)', fmts=['-', '-o'])
show_trace(results, f)

Ta sử dụng $x=4$ làm giá trị ban đầu và giả sử $\eta=0.1$. Sử dụng gradient descent để lặp $x$ 30 lần, ta có thể thấy rằng x xuất phát từ bên phải và đi dần tới nghiệm tối ưu

In [None]:
results = gd(0.1, f_grad,4,25)
show_trace(results, f)

### Learning Rate
Tốc độ học (learning rate) 𝜂 có thể được thiết lập bởi người thiết kế thuật toán. Nếu chúng ta sử dụng một tốc độ học quá nhỏ, nó sẽ khiến `𝑥` cập nhật rất chậm, đòi hỏi nhiều vòng lặp hơn để thu được nghiệm tốt hơn. Để minh họa điều xảy ra trong trường hợp như vậy, hãy xem xét tiến trình trong cùng bài toán tối ưu với 𝜂 = 0.02. Như ta có thể thấy, ngay cả sau 10 bước lặp, chúng ta vẫn còn cách xa nghiệm tối ưu.

In [None]:
show_trace(gd(0.02, f_grad,-5,10), f)

Ngược lại, nếu chúng ta sử dụng tốc độ học quá lớn, giá trị `|𝜂 𝑓'(𝑥)|` có thể trở nên quá lớn đối với công thức khai triển Taylor bậc nhất. Nghĩa là, số hạng `O (𝜂² 𝑓'²(𝑥))` trong công thức (2) có thể trở nên đáng kể. Trong trường hợp này, chúng ta không thể đảm bảo rằng quá trình cập nhật lặp của `𝑥` sẽ làm giảm giá trị của hàm `𝑓(𝑥)`. Ví dụ, khi chúng ta đặt tốc độ học `𝜂 = 1.1`, `𝑥` vượt quá (overshoots) nghiệm tối ưu `𝑥 = 0` và dần dần phân kỳ.

In [None]:
show_trace(gd(1.1, f_grad,-5,10), f)

### Local Minima
Để minh họa điều gì xảy ra với các hàm không lồi, hãy xem xét trường hợp $f(x) = 0.25x^4 - \frac{1}{3}x^3 - 1.5x^2 + 2x$ . Hàm này có  cực tiểu cục bộ tại $x = 2$, với $f(2) \approx -0.67$ và cực tiểu toàn cục nằm tại $x \approx -1.618$, với $f(-1.618) \approx -4.04$. Tùy thuộc vào lựa chọn tốc độ học và mức độ điều kiện của bài toán, ta có thể đạt được một trong nhiều nghiệm. Ví dụ dưới đây minh họa cách một tốc độ học cao sẽ dẫn đến một cực tiểu cục bộ kém. Với tốc độ học 0.08 giá trị của x bắt đầu tại -4 và đi về phía bên phải và vượt qua cực tiểu toàn cục rồi đi tới cực tiểu cục bộ tại $x=2$. 

In [None]:
def f(x):  # Objective function
    return 0.25*x**4 - (1/3)*x**3 - 1.5*x**2 + 2*x

def f_grad(x):  # Gradient of the objective function
    return x**3 -x**2-3*x+2

show_trace(gd(0.08, f_grad,-4,20), f)

## Multivariate Gradient Descent
Xem xét tình huống mà $\mathbf{x}=\left[x_1, x_2, \ldots, x_d\right]^{\top}$. Tức là, hàm mục tiêu $f: \mathbb{R}^d \rightarrow \mathbb{R}$ ánh xạ các vector thành số thực. Gradient của nó cũng là đa biến, là một vector gồm $d$ đạo hàm riêng:
$$\nabla f(\mathbf{x})=\left[\frac{\partial f(\mathbf{x})}{\partial x_1}, \frac{\partial f(\mathbf{x})}{\partial x_2}, \ldots, \frac{\partial f(\mathbf{x})}{\partial x_d}\right]^{\top}. \tag{5}$$
Mỗi phần tử đạo hàm riêng $\partial f(\mathbf{x}) / \partial x_i$ trong gradient biểu thị tốc độ thay đổi của $f$ tại $\mathbf{x}$ theo đầu vào $x_i$. Như trong trường hợp một biến, ta có thể sử dụng xấp xỉ Taylor đa biến để có ý tưởng về việc nên làm gì. Cụ thể, ta có:
$$f(\mathbf{x}+\boldsymbol{\epsilon})=f(\mathbf{x})+\boldsymbol{\epsilon}^{\top} \nabla f(\mathbf{x})+O\left(|\boldsymbol{\epsilon}|^2\right). \tag{6}$$
Nói cách khác, đến các hạng bậc hai trong $\epsilon$, hướng giảm nhanh nhất được cho bởi gradient âm $-\nabla f(\mathbf{x})$. Chọn một tốc độ học phù hợp $\eta>0$ cho ra thuật toán gradient descent nguyên mẫu:
$$\mathbf{x} \leftarrow \mathbf{x}-\eta \nabla f(\mathbf{x}). \tag{7}$$
Lấy ví dụ hàm mục tiêu $f(\mathbf{x})=x_1^2+10x_2^2$ với vector hai chiều $\mathbf{x}=\left[x_1, x_2\right]^{\top}$ làm đầu vào và một số thực làm đầu ra. Gradient được cho bởi $\nabla f(\mathbf{x})=\left[2x_1, 20x_2\right]^{\top}$. Ta sẽ quan sát quỹ đạo của $\mathbf{x}$ bằng gradient descent từ vị trí ban đầu $[-5, -2]$.
Cần hai hàm hỗ trợ, hàm đầu tiên sử dụng một hàm cập nhật và áp dụng nó 20 lần cho giá trị ban đầu. Hàm hỗ trợ thứ hai trực quan hóa quỹ đạo của $\mathbf{x}$.

In [None]:
def train_2d(trainer, steps=20, f_grad=None):  # save
    """Optimize a 2D objective function with a customized trainer."""
    # s1 and s2 are internal state variables that will be used in Momentum,
    # Adagrad, RMSProp
    x1, x2, s1, s2 = -5, -2, 0, 0
    results = [(x1, x2)]
    for i in range(steps):
        if f_grad:
            x1, x2, s1, s2 = trainer(x1, x2, s1, s2, f_grad)
        else:
            x1, x2, s1, s2 = trainer(x1, x2, s1, s2)
        results.append((x1, x2))
    print(f'epoch {i + 1}, x1: {float(x1):f}, x2: {float(x2):f}')
    return results

def show_trace_2d(f, results):  # save
    """Show the trace of 2D variables during optimization."""
    d2l.set_figsize()
    d2l.plt.plot(*zip(*results), '-o', color='#ff7f0e')
    x1, x2 = torch.meshgrid(torch.arange(-10, 1.0, 0.1),
                            torch.arange(-3.0, 1.0, 0.1), indexing='ij')
    d2l.plt.contour(x1, x2, f(x1, x2), colors='#1f77b4')
    d2l.plt.xlabel('x1')
    d2l.plt.ylabel('x2')

Tiếp theo, ta quan sát quỹ đạo của biến tối ưu $\mathbf{x}$ với tốc độ học $\eta=0.1$. Ta thấy rằng sau 20 bước, giá trị của $\mathbf{x}$ tiến gần đến cực tiểu tại $[0, 0]$. Tiến trình khá ổn định mặc dù khá chậm.

In [None]:
def f_2d(x1, x2): # Objective function
    return x1 ** 2 + 10 * x2 ** 2
def f_2d_grad(x1, x2): # Gradient of the objective function
    return (2 * x1, 20 * x2)
def gd_2d(x1, x2, s1, s2, f_grad):
    g1, g2 = f_grad(x1, x2)
    return (x1 - eta * g1, x2 - eta * g2, 0, 0)
eta = 0.02
show_trace_2d(f_2d, train_2d(gd_2d, f_grad=f_2d_grad))

## Adaptive Methods
Việc chọn tốc độ học $\eta$ "vừa đúng" là một việc khó khăn. Nếu chọn quá nhỏ, tiến bộ rất ít. Nếu chọn quá lớn, nghiệm sẽ dao động và trong trường hợp xấu nhất, có thể phân kỳ. Các phương pháp bậc hai, không chỉ xem xét giá trị và gradient của hàm mục tiêu mà còn xem xét độ cong của nó, có giúp ích trong trường hợp này. Mặc dù các phương pháp này không thể áp dụng trực tiếp cho deep learning do chi phí tính toán, chúng cung cấp trực giác hữu ích để thiết kế các thuật toán tối ưu hóa nâng cao, mô phỏng nhiều đặc tính mong muốn của các thuật toán được trình bày dưới đây.
### Phương Pháp Newton
Xem lại khai triển Taylor của hàm $f: \mathbb{R}^d \rightarrow \mathbb{R}$, không cần dừng lại sau hạng đầu tiên:
$$f(\mathbf{x}+\boldsymbol{\epsilon})=f(\mathbf{x})+\boldsymbol{\epsilon}^{\top} \nabla f(\mathbf{x})+\frac{1}{2} \boldsymbol{\epsilon}^{\top} \nabla^2 f(\mathbf{x}) \boldsymbol{\epsilon}+O\left(|\boldsymbol{\epsilon}|^3\right).\tag{8}$$
Để tránh ký hiệu phức tạp, ta định nghĩa $\mathbf{H} \stackrel{\text{def}}{=} \nabla^2 f(\mathbf{x})$ là ma trận Hessian của $f$, một ma trận $d \times d$.
Sau cùng, cực tiểu của $f$ thỏa mãn $\nabla f=0$. Bằng cách lấy đạo hàm của (8) theo $\epsilon$ và bỏ qua các hạng bậc cao:

1. **Số hạng đầu tiên: $ f(x) $**  
   Hàm $ f(x) $ là hằng số đối với $\epsilon$ bởi vì $ x $ là cố định. Cho nên:

   $$
   \nabla_{\epsilon} f(x) = 0
   $$

2. **Số hạng thứ 2: $ \epsilon^T \nabla f(x) $**

    $$ \boldsymbol{\epsilon}^\top \nabla f(\mathbf{x})
    = \epsilon_1 \frac{\partial f(\mathbf{x})}{\partial x_1}
    + \epsilon_2 \frac{\partial f(\mathbf{x})}{\partial x_2}
    + \cdots
    + \epsilon_d \frac{\partial f(\mathbf{x})}{\partial x_d}
    = \sum_{i=1}^{d} \epsilon_i \frac{\partial f(\mathbf{x})}{\partial x_i} $$
    
    Với
    
    $$
    \nabla f(\mathbf{x}) =
    \left[
    \frac{\partial f(\mathbf{x})}{\partial x_1}, \dots, \frac{\partial f(\mathbf{x})}{\partial x_d}
    \right]^\top
    $$
    
    là gradient của  $f$ tại $\mathbf{x}$. Suy ra

   $$
   \epsilon^T \nabla f(x) = \sum_{i=1}^d \epsilon_i \frac{\partial f(x)}{\partial x_i}
   $$
    
   Tính toán đạo hàm riêng với $\epsilon_j$:

   $$
   \frac{\partial}{\partial \epsilon_j} \left( \sum_{i=1}^d \epsilon_i \frac{\partial f(x)}{\partial x_i} \right) = \frac{\partial f(x)}{\partial x_j}
   $$

   Gradient là:

   $$
   \nabla_{\epsilon} (\epsilon^T \nabla f(x)) = \nabla f(x) = \begin{bmatrix} \frac{\partial f(x)}{\partial x_1} \\ \vdots \\ \frac{\partial f(x)}{\partial x_d} \end{bmatrix}
   $$

4. **Số hạng thứ 3: $ \frac{1}{2} \epsilon^T \nabla^2 f(x) \epsilon $**  
   $$
   \frac{1}{2} \epsilon^T \nabla^2 f(x) \epsilon = \frac{1}{2} \sum_{i=1}^d \sum_{j=1}^d \epsilon_i \epsilon_j \frac{\partial^2 f(x)}{\partial x_i \partial x_j}
   $$

   Đạo hàm riêng đối với $\epsilon_k$:

   $$
   \frac{\partial}{\partial \epsilon_k} \left( \frac{1}{2} \sum_{i=1}^d \sum_{j=1}^d \epsilon_i \epsilon_j \frac{\partial^2 f(x)}{\partial x_i \partial x_j} \right) = \frac{1}{2} \left( \sum_{j=1}^d \epsilon_j \frac{\partial^2 f(x)}{\partial x_k \partial x_j} + \sum_{i=1}^d \epsilon_i \frac{\partial^2 f(x)}{\partial x_i \partial x_k} \right)
   $$

   Bởi vì $\nabla^2 f(x)$ đối xứng nên hai tổng bằng nhau nên:

   $$
   \frac{\partial}{\partial \epsilon_k} = \sum_{j=1}^d \epsilon_j \frac{\partial^2 f(x)}{\partial x_k \partial x_j} = \left[ \nabla^2 f(x) \epsilon \right]_k
   $$

   Gradient là:

   $$
   \nabla_{\epsilon} \left( \frac{1}{2} \epsilon^T \nabla^2 f(x) \epsilon \right) = \nabla^2 f(x) \epsilon
   $$

5. **Kết hợp với nhau và bỏ qua $ O(\|\epsilon\|^3) $**  
   $$
   \nabla_{\epsilon} f(x + \epsilon) = 0 + \nabla f(x) + \nabla^2 f(x) \epsilon
   $$

Như đã định nghĩa trước đó $\mathbf{H} \stackrel{\text{def}}{=} \nabla^2 f(\mathbf{x})$ nên $\nabla_{\epsilon} f(x + \epsilon) = \nabla f(x) + \mathbf{H} \epsilon$ và ta cần tìm giá trị $\nabla_{\epsilon} f(x + \epsilon)=0$: $$\nabla f(\mathbf{x}) + H \boldsymbol{\epsilon} = 0$$và do đó $$\boldsymbol{\epsilon} = -H^{-1} \nabla f(\mathbf{x})$$ 
Ví dụ với hàm hyperbolic cosine lồi $f(x)=\cosh(cx)$ với một hằng số $c$, cực tiểu toàn cục tại $x=0$ được đạt sau vài lần lặp.

In [None]:
c = torch.tensor(0.5)

def f(x):  # objective function
    return torch.cosh(c * x)

def f_grad(x):  # Gradient of the objective function
    return c * torch.sinh(c * x)

def f_hess(x):  # Hessian of the objective function
    return c ** 2 * torch.cosh(c * x)

def newton(x,step,eta=1):
    results = [x]
    for i in range(step):
        x -= eta * f_grad(x) / f_hess(x)
        results.append(float(x))
    print('epoch 10, x:', x)
    return results

show_trace(newton(10.0,10), f)

Xét hàm $f(x)=x \cos(cx)$ với một hằng số $c$. Trong phương pháp Newton, ta chia cho Hessian. Điều này có nghĩa là nếu đạo hàm bậc hai âm, ta có thể đi theo hướng làm tăng giá trị của $f$.

In [None]:
c = torch.tensor(0.15 * np.pi)

def f(x):  # Objective function
    return x * torch.cos(c * x)

def f_grad(x):  # Gradient of the objective function
    return torch.cos(c * x) - c * x * torch.sin(c * x)

def f_hess(x):  # Hessian of the objective function
    return -2 * c * torch.sin(c * x) - c ** 2 * x * torch.cos(c * x)

show_trace(newton(10,10), f)

Hàm số không di chuyển về cực tiểu do đạo hàm bậc 2 âm. Một phương pháp là lấy Hessian bằng cách lấy giá trị tuyệt đối của nó. Một chiến lược khác là đưa lại tốc độ học. Có thông tin bậc hai cho phép thận trọng bất cứ khi nào độ cong lớn và thực hiện các bước dài hơn bất cứ khi nào hàm mục tiêu phẳng hơn. Với tốc độ học nhỏ hơn một chút, chẳng hạn $\eta=0.5$, thuật toán hoạt động hiệu quả hơn.

In [None]:
show_trace(newton(10,10,0.5), f)

### Ví dụ minh họa
Lấy thêm một ví dụ minh họa với $f(x) = x \log(x)$. Với phương pháp gradient descent thông thường và phương pháp Newton ta có thể thấy phương pháp Newton tiến về điểm tối ưu nhanh hơn với cùng tốc độ học $\eta=0.2$ và cùng số bước là 10.

In [None]:
def f(x):
    return x * np.log(x)

def f_grad(x):
    x=torch.tensor([x])
    return (torch.log(x) + 1).item()

def f_hess(x):
    return 1 / x
def show_trace(results, f):
    n = max(abs(min(results)), abs(max(results)))
    f_line = np.arange(0.01, n, 0.01)
    d2l.set_figsize()
    d2l.plot([f_line, results], [[f(x) for x in f_line], [f(x) for x in results]], 'x', 'f(x)', fmts=['-', '-o'])
show_trace(newton(5,10,0.2), f)


In [None]:
def gd(eta, f_grad, start_x, step):
    x = start_x
    results = [x]
    for i in range(step):
        x -= eta * f_grad(x)
        results.append(x)
    print(f'epoch 11, x: {x:.6f}')
    return results

results = gd(0.2, f_grad,5,10)
show_trace(results, f)

### Phân Tích Hội Tụ
Ta chỉ phân tích tốc độ hội tụ của phương pháp Newton cho một hàm mục tiêu lồi và khả vi ba lần, trong đó đạo hàm bậc hai khác không, tức là $f^{\prime\prime}>0$.
Gọi $x^{(k)}$ là giá trị của $x$ tại lần lặp thứ $k$ và đặt $e^{(k)} \stackrel{\text{def}}{=} x^{(k)}-x^*$ là khoảng cách từ điểm tối ưu tại lần lặp thứ $k$. Bằng khai triển Taylor, ta có điều kiện $f^{\prime}\left(x^{(*)}\right)=0$ có thể được viết là:
$$0=f^{\prime}\left(x^{(k)}-e^{(k)}\right)=f^{\prime}\left(x^{(k)}\right)-e^{(k)} f^{\prime\prime}\left(x^{(k)}\right)+\frac{1}{2}\left(e^{(k)}\right)^2 f^{\prime\prime\prime}\left(\xi^{(k)}\right),\tag{9}$$
điều này đúng với một $\xi^{(k)} \in \left[x^{(k)}-e^{(k)}, x^{(k)}\right]$. Chia khai triển trên cho $f^{\prime\prime}\left(x^{(k)}\right)$, ta được:
$$e^{(k)}-\frac{f^{\prime}\left(x^{(k)}\right)}{f^{\prime\prime}\left(x^{(k)}\right)}=\frac{1}{2}\left(e^{(k)}\right)^2 \frac{f^{\prime\prime\prime}\left(\xi^{(k)}\right)}{f^{\prime\prime}\left(x^{(k)}\right)} .\tag{10}$$
Nhớ rằng ta có cập nhật $x^{(k+1)}=x^{(k)}-f^{\prime}\left(x^{(k)}\right) / f^{\prime\prime}\left(x^{(k)}\right)$ (phương pháp Newton). Thay vào phương trình cập nhật này và lấy giá trị tuyệt đối của cả hai vế, ta có:
$$
e^{(k+1)}=x^{(k+1)} - x^*
         =x^{(k)}-f^{\prime}\left(x^{(k)}\right) / f^{\prime\prime}\left(x^{(k)}\right)- x^* = e^{(k)}-f^{\prime}\left(x^{(k)}\right) / f^{\prime\prime}\left(x^{(k)}\right)= \frac{1}{2}\left(e^{(k)}\right)^2 \frac{f^{\prime\prime\prime}\left(\xi^{(k)}\right)}{f^{\prime\prime}\left(x^{(k)}\right)}
$$
Lấy trị tuyệt đối 2 vế:
$$\left|e^{(k+1)}\right|=\frac{1}{2}\left(e^{(k)}\right)^2 \frac{\left|f^{\prime\prime\prime}\left(\xi^{(k)}\right)\right|}{f^{\prime\prime}\left(x^{(k)}\right)} .\tag{11}$$
Do đó, bất cứ khi nào ta ở trong một vùng có $\left|f^{\prime\prime\prime}\left(\xi^{(k)}\right)\right| /\left(2 f^{\prime\prime}\left(x^{(k)}\right)\right) \leq c$, ta có sai số giảm bậc hai:
$$\left|e^{(k+1)}\right| \leq c\left(e^{(k)}\right)^2 .\tag{12}$$
Lưu ý rằng các nhà nghiên cứu tối ưu hóa gọi đây là hội tụ tuyến tính, trong khi một điều kiện như $\left|e^{(k+1)}\right| \leq \alpha\left|e^{(k)}\right|$ được gọi là tốc độ hội tụ hằng số. Phân tích này đi kèm với một số lưu ý. Thứ nhất, không thực sự có đảm bảo khi nào sẽ đạt được vùng hội tụ nhanh. Thay vào đó chỉ biết rằng một khi đạt được, hội tụ sẽ rất nhanh. Thứ hai, phân tích này yêu cầu $f$ có tính chất tốt đến các đạo hàm bậc cao. Nó phụ thuộc vào việc đảm bảo rằng $f$ không có bất kỳ đặc tính "bất ngờ" nào về cách nó có thể thay đổi giá trị.

### Tiền Điều Kiện Hóa
Không ngạc nhiên khi việc tính toán và lưu trữ toàn bộ Hessian rất tốn kém. Một cách để cải thiện là tiền điều kiện hóa. Nó tránh tính toán toàn bộ Hessian mà chỉ tính các phần tử đường chéo. Điều này dẫn đến các thuật toán cập nhật dạng:
$$\mathbf{x} \leftarrow \mathbf{x}-\eta \operatorname{diag}(\mathbf{H})^{-1} \nabla f(\mathbf{x}) .$$
Mặc dù điều này không tốt bằng phương pháp Newton đầy đủ, nó vẫn tốt hơn nhiều so với việc không sử dụng. Để thấy tại sao đây là ý tưởng tốt, hãy xem xét một tình huống mà một biến biểu thị chiều cao tính bằng milimet và một biến khác biểu thị chiều cao tính bằng kilômét. Giả sử rằng với cả hai, tỷ lệ tự nhiên là mét, ta có sự không khớp lớn trong tham số hóa. May mắn thay, việc sử dụng tiền điều kiện hóa sẽ loại bỏ điều này. Hiệu quả, tiền điều kiện hóa với gradient descent tương đương với việc chọn một tốc độ học khác nhau cho mỗi biến (tọa độ của vector $\mathbf{x}$). Như ta sẽ thấy sau, tiền điều kiện hóa thúc đẩy một số cải tiến trong các thuật toán tối ưu hóa gradient descent ngẫu nhiên.
### Gradient descent với Tìm Kiếm Tuyến
Một trong những vấn đề chính trong hạ gradient là ta có thể vượt quá mục tiêu hoặc tiến bộ không đủ. Một cách sửa đơn giản là sử dụng tìm kiếm tuyến kết hợp với gradient descent. Tức là, ta sử dụng hướng được cho bởi $\nabla f(\mathbf{x})$ và sau đó thực hiện tìm kiếm nhị phân để xác định tốc độ học $\eta$ nào tối ưu hóa $f(\mathbf{x}-\eta \nabla f(\mathbf{x}))$.
Thuật toán này hội tụ nhanh chóng. Tuy nhiên, đối với mục đích học sâu, điều này không thực sự khả thi, vì mỗi bước của tìm kiếm tuyến sẽ yêu cầu đánh giá hàm mục tiêu trên toàn bộ tập dữ liệu. Điều này quá tốn kém để thực hiện.

## Excercises
### 1. Thử nghiệm với các tốc độ học và hàm mục tiêu khác nhau để giảm dần độ dốc.
Đã thực hiện trong quá trình tìm hiểu
### 2. Triển khai tìm kiếm tuyến để giảm thiểu một hàm lồi trong khoảng [𝑎, 𝑏].
#### 1. Bạn có cần đạo hàm cho tìm kiếm nhị phân không, tức là để quyết định chọn $[𝑎, (𝑎 +
𝑏)/2]$ hay $[(𝑎 + 𝑏)/2, 𝑏]$.
Không thực sự cần đạo hàm cho tìm kiếm nhị phân, nhưng tìm kiếm nhị phân đơn giản trên x sẽ không hoạt động trực tiếp nếu không có thêm thông tin.
- Nếu hàm đơn điệu trên khoảng $[a,b]$ thì thực hiện tìm kiếm nhị phân cho $f(x)=0$ sẽ có hiệu quả và không cần sử dụng tới đạo hàm
- Nếu hàm không đơn điệu trong khoảng $[a,b]$, để tối thiểu hóa $f(x)$. Nếu chỉ đánh giá $f((a+b)/2)$ thì sẽ không xác định được điểm cực tiểu nằm ở trong khoảng $[(a+b)/2,b]$ hay $[a,(a+b)/2]$. Giả sử $f((a+b)/2)<f(a)$ ta sẽ không biết được điểm cực tiểu nằm trong khoảng $[(a+b)/2,b]$ hay $[a,(a+b)/2]$ 
##### Phương pháp không sử dụng đạo hàm để quyết định chọn khoảng trong trường hợp hàm lồi.
-Chọn 2 điểm $x_1$, $x_2$:
  - Nếu $f(x_1)<f(x_2)$ điểm cực tiểu sẽ nằm trong khoảng $[a,x_2]$
  - Nếu $f(x_1)>f(x_2)$ điểm cực tiểu sẽ nằm trong khoảng $[x_1,b]$
##### Phương pháp sử dụng đạo hàm để quyết định chọn khoảng trong trường hợp hàm lồi.
- Đánh giá đạo hàm $f^{\prime}((a+b)/2)$
  - Nếu $f^{\prime}((a+b)/2)<0$ hàm số đang giảm tại điểm $(a+b)/2$ nên cực tiểu nằm trong khoảng $[(a+b)/2, b]$
  - Nếu $f^{\prime}((a+b)/2)>0$ hàm số đang tăng tại điểm $(a+b)/2$ nên cực tiểu nằm trong khoảng $[a,(a+b)/2]$
#### 2. Tốc độ hội tụ của thuật toán nhanh như thế nào?
- Tốc độ hội tụ là **tuyến tính**. Độ rộng của khoảng được giảm theo một hệ số không đổi sau mỗi bước lặp, hệ số này là $ \frac{1}{\varphi} \approx 0{,}618$ (với $\varphi$, xấp xỉ $1{,}618 $.Điều này có nghĩa là, để đạt được **một chữ số thập phân chính xác hơn** (tức là giảm độ rộng khoảng tìm kiếm đi 10 lần), ta cần khoảng:$\frac{\log(10)}{\log(\varphi)} \approx 4{,}78$ bước lặp.
- Nếu đạo hàm của hàm $f(x)$ có sẵn, ta có thể thực hiện **tìm kiếm nhị phân trên $f'(x)$**. Phương pháp này cũng có **tốc độ hội tụ tuyến tính**, nhưng hệ số giảm độ rộng khoảng tại mỗi bước là $0{,}5$ (tức là chia đôi khoảng). Điều này nhanh hơn so với phương pháp **Tìm kiếm theo Tỷ lệ Vàng** (Golden Section Search).Để đạt được **một chữ số thập phân chính xác hơn** (tức là giảm độ rộng khoảng đi 10 lần), cần khoảng:$\frac{\log(10)}{\log(2)} \approx 3{,}32$ bước lặp.
#### 3. Triển khai thuật toán và áp dụng nó để tối thiểu log(exp(𝑥) + exp(−2𝑥 − 3)).

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def f(x):
    """Function to minimize: f(x) = log(exp(x) + exp(-2x - 3))"""
    return np.log(np.exp(x) + np.exp(-2 * x - 3))

def f_prime(x):
    """Derivative of f(x)"""
    return (np.exp(x) - 2 * np.exp(-2 * x - 3)) / (np.exp(x) + np.exp(-2 * x - 3))

def binary_search_derivative(f_prime, a, b, tol=1e-5):
    """
    Find the root of f'(x) = 0 in [a, b] using binary search, assuming f'(a) and f'(b) have opposite signs.
    Returns the approximate minimum point x, number of iterations, and list of midpoints.
    """
    if f_prime(a) * f_prime(b) >= 0:
        raise ValueError("f'(a) and f'(b) must have opposite signs")
    
    iterations = 0
    midpoints = []
    
    while (b - a) > tol:
        m = (a + b) / 2
        fm = f_prime(m)
        midpoints.append(m)
        iterations += 1
        
        if abs(fm) < tol:  # If derivative is close to zero, stop
            break
        elif fm > 0:
            b = m  # Root is in [a, m]
        else:
            a = m  # Root is in [m, b]
    
    x_min = (a + b) / 2
    return x_min, iterations, midpoints

# Run Binary Search
a, b = -1, 0
tol = 1e-5
x_min, iterations, midpoints = binary_search_derivative(f_prime, a, b, tol)

# Print results
print(f"Approximate minimum at x = {x_min:.6f}")
print(f"Function value f(x) = {f(x_min):.6f}")
print(f"Number of iterations: {iterations}")

# Plot the function and search progress
x = np.linspace(-2, 1, 1000)
y = f(x)
plt.figure(figsize=(10, 7))
plt.plot(x, y, '-', label='f(x) = log(exp(x) + exp(-2x - 3))')

# Plot the midpoints from the first few iterations
plt.plot(-1, f(-1), 'o', color='black', label='a')
plt.plot(0, f(0), 'o', color='black', label='b')
for i, m in enumerate(midpoints[:5]):  # Show first 5 iterations
    plt.plot(m, f(m), 'o', label=f'Iteration {i+1}' if i < 5 else '')

plt.xlabel('x')
plt.ylabel('f(x)')
plt.title('Binary Search on Derivative')
plt.legend()
plt.grid(True)
plt.show()

### 3. Thiết kế một hàm mục tiêu xác định trên $\mathbb{R}^2$ mà gradient descent rất chậm.
#### Hàm $f(x_1, x_2)= x_1^2 + Sx_2^2$
Tại sao hàm $f(x_1, x_2)= x_1^2 + Sx_2^2$ lại hội tụ chậm:
- Cực tiểu toàn cục của hàm này rõ ràng nằm tại $(x_1, x_2) = (0, 0)$, với $f(0, 0) = 0$.
- $\nabla f(x_1, x_2) = [2x_1,\ 2Sx_2]$
- $H = \begin{bmatrix}
\frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} \\
\frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2}
\end{bmatrix}
= 
\begin{bmatrix}
2 & 0 \\
0 & 2S
\end{bmatrix}$

### Số điều kiện (Condition Number):

Các giá trị riêng của ma trận Hessian là:

- $\lambda_1 = 2$
- $\lambda_2 = 2S$

Vậy số điều kiện của Hessian là:
$$
\kappa(H) = \frac{\lambda_{\text{max}}}{\lambda_{\text{min}}} = \frac{2S}{2} = S
$$
Nếu $S$ lớn (ví dụ $S = 100$), số điều kiện là 100. Khi $S$ lớn, các ellipse sẽ bị kéo dãn mạnh. Nếu $S > 1$, chúng bị kéo dãn theo trục $x_1$ (nghĩa là "thung lũng" sẽ hẹp theo phương $x_2$ và dài theo phương $x_1$). Hàm tăng rất nhanh theo hướng $x_2$ so với hướng $x_1$.

### Hành vi của Gradient Descent:

Gradient $\nabla f = [2x_1,\ 2Sx_2]$ sẽ có thành phần lớn hơn nhiều ở hướng $x_2$ (do hệ số $2S$) khi $x_2 \ne 0$.

Khi Gradient Descent cập nhật:

$$
x_{\text{new}} = x_{\text{old}} - \alpha \nabla f
$$

thì thay đổi của $x_2$ sẽ lớn hơn đáng kể so với $x_1$.

Điều này khiến thuật toán dao động (zig-zag) qua lại nhanh trong phần hẹp của thung lũng (hướng $x_2$), trong khi tiến triển dọc theo phần bằng phẳng (hướng $x_1$) rất chậm.

Để tránh sai lệch do thành phần gradient $x_2$ quá lớn, tốc độ học $\alpha$ phải được giữ rất nhỏ, điều này càng làm chậm bước đi theo hướng $x_1$.


In [None]:
import numpy as np
import matplotlib.pyplot as plt

S = 100  # Scaling factor

def f(x1, x2):
  return x1**2 + S * x2**2

def grad_f(x1, x2):
  return np.array([2 * x1, 2 * S * x2])

# --- Gradient Descent Implementation ---
def gradient_descent(grad_f, start_point, learning_rate, iterations):
    x = np.array(start_point, dtype=float)
    path = [x.copy()] # Store the path
    for i in range(iterations):
        grad = grad_f(x[0], x[1])
        x = x - learning_rate * grad
        path.append(x.copy())
        # Optional: Check for divergence or convergence
        if np.linalg.norm(grad) < 1e-6:
            print(f"Converged at iteration {i+1}")
            break
        if np.any(np.abs(x) > 1e5): # Crude divergence check
            print(f"Diverged at iteration {i+1}")
            break
    return np.array(path)

# --- Parameters ---
start_x = np.array([10.0, 1.0])   
learning_rate_eta = 0.01
num_iterations = 100

# --- Run Gradient Descent ---
path = gradient_descent(
    grad_f,
    start_x,
    learning_rate_eta,
    num_iterations
)
def draw_function(path):
    
    x1_vals = np.linspace(min(path[:, 0].min(), -10) - 1, max(path[:, 0].max(), 10) + 1, 200)
    x2_vals = np.linspace(min(path[:, 1].min(), -1.5) - 0.2, max(path[:, 1].max(), 1.5) + 0.2, 200)
    X1, X2 = np.meshgrid(x1_vals, x2_vals)
    Z = f(X1, X2)
    
    plt.figure(figsize=(10, 7))
    
    levels = np.logspace(0, np.log10(Z.max() if Z.max() > 0 else 1), 30) if Z.max() > 0 else 10
    contour = plt.contour(X1, X2, Z, levels=levels, cmap='viridis')
    plt.colorbar(contour, label='f(x₁, x₂)')
    
    # Plot the path of gradient descent
    plt.plot(path[:, 0], path[:, 1], 'r-o', markersize=3, linewidth=1, label=f'GD Path (η={learning_rate_eta})')
    
    plt.scatter(0, 0, color='black', marker='*', s=150, label='Minimum (0,0)', zorder=5)
    plt.scatter(start_x[0], start_x[1], color='blue', s=100, label='Start Point', zorder=4)
    
    plt.title(f'Gradient Descent on f(x₁, x₂) = x₁² + {S}x₂²')
    plt.xlabel('x₁')
    plt.ylabel('x₂')
    plt.legend()
    plt.axis('equal') 
    plt.grid(True)
    plt.show()
draw_function(path)

In [None]:
# --- Parameters ---
start_x = np.array([10.0, 1.0])   
learning_rate_eta = 0.005
num_iterations = 100

# --- Run Gradient Descent ---
path = gradient_descent(
    grad_f,
    start_x,
    learning_rate_eta,
    num_iterations
)
draw_function(path)

### 4. Triển khai phiên bản của phương pháp Newton bằng cách sử dụng tiền điều kiện hóa.
Tiền điều kiện chéo (Diagonal Preconditioner) $M$:

Ta lấy các phần tử trên đường chéo chính của Hessian: $\text{diag}(H) = [2,\ 2S]$.

Dùng giá trị tuyệt đối (mặc dù trong trường hợp này với $S > 0$, chúng đã là số dương): 

$$
M_{\text{diag}} = [|2|,\ |2S|] = [2,\ 2S]
$$

Ma trận tiền điều kiện $M$ (nếu viết đầy đủ, dù ta chỉ cần phần tử đường chéo để tính $M^{-1} \nabla f$):

$$
M = \begin{bmatrix}
2 & 0 \\
0 & 2S
\end{bmatrix}
$$

---

### Nghịch đảo của tiền điều kiện chéo $M^{-1}$ (áp dụng từng phần tử):

Nếu $M$ là ma trận chéo với phần tử $m_{ii}$, thì $M^{-1}$ cũng là chéo với phần tử $1/m_{ii}$.

Vì vậy, tiền điều kiện có tác dụng **chia từng thành phần của gradient cho phần tử tương ứng trên đường chéo của Hessian**.

---

### Quy tắc cập nhật:

Gradient descent có tiền điều kiện chuẩn là:

$$
x_{\text{new}} = x_{\text{old}} - \eta \cdot M^{-1} \nabla f
$$

Với $M$ là ma trận chéo, ta có:

- $x_1^{\text{new}} = x_1^{\text{old}} - \eta \cdot \left( \frac{\partial f / \partial x_1}{|H_{11}|} \right)$  
- $x_2^{\text{new}} = x_2^{\text{old}} - \eta \cdot \left( \frac{\partial f / \partial x_2}{|H_{22}|} \right)$

---

### Thay các giá trị cụ thể vào:

- $x_1^{\text{new}} = x_1^{\text{old}} - \eta \cdot \left( \frac{2x_1^{\text{old}}}{|2|} \right) = x_1^{\text{old}} - \eta \cdot x_1^{\text{old}} = x_1^{\text{old}} (1 - \eta)$

- $x_2^{\text{new}} = x_2^{\text{old}} - \eta \cdot \left( \frac{2Sx_2^{\text{old}}}{|2S|} \right) = x_2^{\text{old}} - \eta \cdot x_2^{\text{old}} = x_2^{\text{old}} (1 - \eta)$

In [None]:


def diag_hessian_abs_f(x1, x2):

  h11 = 2.0
  h22 = 2.0 * S
  epsilon = 1e-8
  return np.array([abs(h11) + epsilon, abs(h22) + epsilon])

def preconditioned_gradient_descent(
    grad_f, diag_hess_abs_f, start_point, learning_rate_eta, iterations
):
    x = np.array(start_point, dtype=float)
    path = [x.copy()] # Store the path

    for i in range(iterations):
        grad = grad_f(x[0], x[1])
        diag_H_abs = diag_hess_abs_f(x[0], x[1])

        # Element-wise division for preconditioning
        preconditioned_grad = grad / diag_H_abs

        x = x - learning_rate_eta * preconditioned_grad
        path.append(x.copy())

        # Check for convergence or divergence
        if np.linalg.norm(grad) < 1e-7: # Check original gradient for convergence
            print(f"Converged at iteration {i+1}")
            break
        if np.any(np.abs(x) > 1e6): # Crude divergence check
            print(f"Diverged at iteration {i+1}")
            break
    return np.array(path)

# --- Parameters ---
start_x = np.array([10.0, 1.0])   # Start pointt
learning_rate_eta = 0.5 
num_iterations = 50


path_preconditioned = preconditioned_gradient_descent(
    grad_f,
    diag_hessian_abs_f,
    start_x,
    learning_rate_eta,
    num_iterations
)
draw_function(path_preconditioned)

Với tốc độ học $\eta=0.5$ ta thấy sau lần lặp đầu tiên giá trị của $x_1, x_2$ đã giảm 1 nửa do 
- $x_1^{\text{new}} = x_1^{\text{old}} (1 - \eta)=x_1^{\text{old}} (1 - 0.5)$ 
- $x_2^{\text{new}} = x_2^{\text{old}} (1 - \eta)=x_2^{\text{old}} (1 - 0.5)$


### Áp dụng thuật toán trên cho một số hàm mục tiêu (lồi hoặc không). Điều gì xảy ra nếu bạn xoay tọa độ 45 độ?
#### 1. Elliptic Paraboloid:

$$
f(x_1, x_2) = x_1^2 + 100x_2^2
$$

- $\text{diag}_H^{\text{abs}} = [2,\ 200]$ (hằng số)
- **Kỳ vọng**: Hội tụ nhanh và trực tiếp (1 bước nếu $\eta = 1$)
#### 2. Circular Paraboloid:

$$
f(x_1, x_2) = x_1^2 + x_2^2
$$

- $\text{diag}_H^{\text{abs}} = [2,\ 2]$ (hằng số)
- **Kỳ vọng**: Hội tụ nhanh và trực tiếp (1 bước nếu $\eta = 1$).  
#### 3. Hàm Rosenbrock (Không lồi):

$$
f(x_1, x_2) = (1 - x_1)^2 + 100(x_2 - x_1^2)^2
$$

- $\frac{\partial^2 f}{\partial x_1^2} = 2 - 400(x_2 - x_1^2) + 1200x_1^2$
- $\frac{\partial^2 f}{\partial x_2^2} = 200$

- $\text{diag}_H^{\text{abs}} = [|2 - 400(x_2 - x_1^2) + 1200x_1^2|,\ 200]$  *($H_{11}$ có thể âm!)*

- **Kỳ vọng**: Thành phần $H_{11}$ rất phức tạp và phụ thuộc vào $x_1, x_2$.  

#### 4. Hàm không lồi đơn giản (Hai điểm cực tiểu):

$$
f(x_1, x_2) = x_1^4 - 2x_1^2 + x_2^2
$$

- Cực tiểu tại $(\pm1,\ 0)$, điểm yên tại $(0,\ 0)$
- $\frac{\partial^2 f}{\partial x_1^2} = 12x_1^2 - 4$
- $\frac{\partial^2 f}{\partial x_2^2} = 2$
- $\text{diag}_H^{\text{abs}} = [|12x_1^2 - 4|,\ 2]$  *( $H_{11}$ có thể âm hoặc bằng 0)*
- **Kỳ vọng**: Thuật toán sẽ hội tụ đến một cực tiểu tùy theo điểm khởi đầu.  

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# --- Helper: Generic Optimization and Plotting ---
def run_optimizer(
    optimizer_func,
    f_obj,
    grad_f,
    diag_hess_abs_f, # Specific to preconditioned GD
    start_point,
    learning_rate_eta,
    iterations,
    title_prefix="",
    S_param=None # For functions that use S
):
    if S_param is not None: # If the function needs S, curry it
        obj_func_to_plot = lambda x1, x2: f_obj(x1, x2, S_param)
    else:
        obj_func_to_plot = f_obj

    path = optimizer_func(
        grad_f,
        diag_hess_abs_f, # Pass this
        start_point,
        learning_rate_eta,
        iterations,
        S_param # Pass S if needed for grad/hessian
    )

    print(f"{title_prefix} - Starting at: {path[0]}")
    print(f"{title_prefix} - Ending at after {len(path)-1} iterations: {path[-1]}")

    # Visualization
    # Adjust plot ranges based on path and known features of the function
    x_min_plot = min(path[:, 0].min() - 1, -2.5 if "Rosenbrock" in title_prefix else -3)
    x_max_plot = max(path[:, 0].max() + 1, 2.5 if "Rosenbrock" in title_prefix else 3)
    y_min_plot = min(path[:, 1].min() - 1, -1.5 if "Rosenbrock" in title_prefix else -3)
    y_max_plot = max(path[:, 1].max() + 1, 3.5 if "Rosenbrock" in title_prefix else 3)

    x1_vals = np.linspace(x_min_plot, x_max_plot, 200)
    x2_vals = np.linspace(y_min_plot, y_max_plot, 200)
    X1, X2 = np.meshgrid(x1_vals, x2_vals)
    Z = obj_func_to_plot(X1, X2)

    plt.figure(figsize=(10, 7))
    levels = np.logspace(np.log10(max(Z.min(), 0.01)), np.log10(Z.max() if Z.max() > 0 else 1), 30) if Z.min() < Z.max() else 15
    try:
        contour = plt.contour(X1, X2, Z, levels=levels, cmap='viridis')
        plt.colorbar(contour, label='f(x₁, x₂)')
    except Exception as e:
        print(f"Contour plot error for {title_prefix}: {e}")
        plt.contour(X1, X2, Z, cmap='viridis') # Fallback


    plt.plot(path[:, 0], path[:, 1], 'g-o', markersize=3, linewidth=1, label=f'Preconditioned GD (η={learning_rate_eta})')
    plt.scatter(path[0, 0], path[0, 1], color='blue', s=100, label='Start', zorder=4)
    # Add known minima if applicable
    if "Ill-Conditioned" in title_prefix or "Well-Conditioned" in title_prefix:
        plt.scatter(0, 0, color='black', marker='*', s=150, label='Minimum (0,0)', zorder=5)
    elif "Rosenbrock" in title_prefix:
        plt.scatter(1, 1, color='black', marker='*', s=150, label='Minimum (1,1)', zorder=5)
    elif "Two Minima" in title_prefix:
        plt.scatter([1, -1], [0, 0], color='black', marker='*', s=150, label='Minima (±1,0)', zorder=5)


    plt.title(title_prefix)
    plt.xlabel('x₁')
    plt.ylabel('x₂')
    plt.legend()
    plt.axis('equal' if "Ill-Conditioned" in title_prefix or "Well-Conditioned" in title_prefix else 'tight')
    plt.grid(True)
    plt.show()
    return path 
    

# --- Diagonal Preconditioned Gradient Descent (from previous example) ---
def preconditioned_gradient_descent(
    grad_f, diag_hess_abs_f, start_point, learning_rate_eta, iterations, S_param=None
):
    x = np.array(start_point, dtype=float)
    path = [x.copy()]
    epsilon_hess = 1e-8 # For numerical stability if diag_H is zero

    for i in range(iterations):
        # Pass S if the gradient/Hessian functions need it
        current_grad = grad_f(x[0], x[1], S_param) if S_param is not None else grad_f(x[0], x[1])
        current_diag_H_abs = diag_hess_abs_f(x[0], x[1], S_param) if S_param is not None else diag_hess_abs_f(x[0], x[1])

        # Ensure diagonal elements are not zero (add epsilon)
        preconditioner = np.maximum(current_diag_H_abs, epsilon_hess)
        preconditioned_grad = current_grad / preconditioner

        x = x - learning_rate_eta * preconditioned_grad
        path.append(x.copy())

        if np.linalg.norm(current_grad) < 1e-7:
            # print(f"Converged at iteration {i+1}")
            break
        if np.any(np.abs(x) > 1e7): # Divergence check
            print(f"Diverged at iteration {i+1}")
            break
    return np.array(path)

# --- Function Definitions ---

# 1. Ill-Conditioned Convex (Elliptical Paraboloid)
S_ill = 100
def f_ill(x1, x2, S=S_ill): return x1**2 + S * x2**2
def grad_f_ill(x1, x2, S=S_ill): return np.array([2 * x1, 2 * S * x2])
def diag_hess_abs_f_ill(x1, x2, S=S_ill): return np.array([abs(2.0), abs(2.0 * S)])

# 2. Well-Conditioned Convex (Circular Paraboloid)
def f_well(x1, x2): return x1**2 + x2**2
def grad_f_well(x1, x2): return np.array([2 * x1, 2 * x2])
def diag_hess_abs_f_well(x1, x2): return np.array([abs(2.0), abs(2.0)])

# 3. Rosenbrock Function (Non-Convex)
def f_rosen(x1, x2): return (1 - x1)**2 + 100 * (x2 - x1**2)**2
def grad_f_rosen(x1, x2):
    g1 = -2 * (1 - x1) - 400 * x1 * (x2 - x1**2)
    g2 = 200 * (x2 - x1**2)
    return np.array([g1, g2])
def diag_hess_abs_f_rosen(x1, x2):
    h11 = 2 - 400 * (x2 - x1**2) + 1200 * x1**2 # Corrected from 800 to 1200
    h22 = 200.0
    return np.array([abs(h11), abs(h22)])

# 4. Simple Non-Convex (Two Minima)
def f_two_min(x1, x2): return x1**4 - 2*x1**2 + x2**2
def grad_f_two_min(x1, x2): return np.array([4*x1**3 - 4*x1, 2*x2])
def diag_hess_abs_f_two_min(x1, x2):
    h11 = 12*x1**2 - 4
    h22 = 2.0
    return np.array([abs(h11), abs(h22)])


# --- Run Experiments ---
eta = 0.5 # A reasonably robust learning rate for this preconditioned method
# For quadratics, eta=1 is often optimal, but 0.5 is safer for non-quadratics
iters = 200

print("--- 1. Ill-Conditioned Elliptical Paraboloid ---")
run_optimizer(preconditioned_gradient_descent, f_ill, grad_f_ill, diag_hess_abs_f_ill,
              [10.0, 1.0], 1.0, 50, "Ill-Conditioned Convex", S_param=S_ill) # eta=1 is good here

print("\n--- 2. Well-Conditioned Circular Paraboloid ---")
run_optimizer(preconditioned_gradient_descent, f_well, grad_f_well, diag_hess_abs_f_well,
              [10.0, 1.0], 1.0, 50, "Well-Conditioned Convex") # eta=1 is good here

print("\n--- 3. Rosenbrock Function ---")
# Rosenbrock needs smaller eta and more iterations
run_optimizer(preconditioned_gradient_descent, f_rosen, grad_f_rosen, diag_hess_abs_f_rosen,
              [-1.5, 1.5], 0.1, 500, "Rosenbrock (Non-Convex)") # Try smaller eta

print("\n--- 4. Two Minima Function ---")
run_optimizer(preconditioned_gradient_descent, f_two_min, grad_f_two_min, diag_hess_abs_f_two_min,
              [0.5, 0.5], eta, iters, "Two Minima (Start near saddle)")
run_optimizer(preconditioned_gradient_descent, f_two_min, grad_f_two_min, diag_hess_abs_f_two_min,
              [2.0, 0.5], eta, iters, "Two Minima (Start near x1=1 min)")
run_optimizer(preconditioned_gradient_descent, f_two_min, grad_f_two_min, diag_hess_abs_f_two_min,
              [-2.0, -0.5], eta, iters, "Two Minima (Start near x1=-1 min)")

S_rot = 100 # Use the same S as in the ill-conditioned example

# Rotated function f_rot(u1, u2)
def f_rotated(u1, u2, S=S_rot):
    return 0.5 * ((1+S)*u1**2 + (1+S)*u2**2 + 2*(S-1)*u1*u2)

def grad_f_rotated(u1, u2, S=S_rot):
    g_u1 = (1+S)*u1 + (S-1)*u2
    g_u2 = (S-1)*u1 + (1+S)*u2
    return np.array([g_u1, g_u2])

def diag_hess_abs_f_rotated(u1, u2, S=S_rot):
    # Diagonal elements of H_rot are both (1+S)
    h_diag = 1.0 + S
    return np.array([abs(h_diag), abs(h_diag)])

print("\n--- 5. Rotated Ill-Conditioned Function (45 degrees) ---")
# Start point in the rotated coordinate system
# If original start was (10,1), rotated start could be approx (10/√2 + 1/√2, -10/√2 + 1/√2)
# Or just pick a challenging start like [10.0, 1.0] in u1, u2 space
rotated_start = [7.0, -7.0] # Example start in u1, u2 space

# Let's compare with standard GD as well for this one
def standard_gradient_descent(grad_f, start_point, learning_rate_eta, iterations, S_param=None):
    x = np.array(start_point, dtype=float)
    path = [x.copy()]
    for i in range(iterations):
        current_grad = grad_f(x[0], x[1], S_param) if S_param is not None else grad_f(x[0], x[1])
        x = x - learning_rate_eta * current_grad
        path.append(x.copy())
        if np.linalg.norm(current_grad) < 1e-7: break
        if np.any(np.abs(x) > 1e7): print("Std GD Diverged"); break
    return np.array(path)

eta_rotated = 0.005 # Need a smaller eta for the rotated version (both methods)
iters_rotated = 300

path_prec_rot = run_optimizer(preconditioned_gradient_descent, f_rotated, grad_f_rotated, diag_hess_abs_f_rotated,
                  rotated_start, eta_rotated, iters_rotated, "Rotated Ill-Conditioned (Preconditioned GD)", S_param=S_rot)

print("\nComparing with Standard GD on Rotated function:")
path_std_gd_rot = standard_gradient_descent(grad_f_rotated, rotated_start, eta_rotated, iters_rotated, S_param=S_rot)

# Visualization for comparison
plt.figure(figsize=(10, 7))
x1_vals_rot = np.linspace(min(path_prec_rot[:,0].min(), path_std_gd_rot[:,0].min()) -1, max(path_prec_rot[:,0].max(), path_std_gd_rot[:,0].max()) +1, 200)
x2_vals_rot = np.linspace(min(path_prec_rot[:,1].min(), path_std_gd_rot[:,1].min()) -1, max(path_prec_rot[:,1].max(), path_std_gd_rot[:,1].max()) +1, 200)
X1_rot, X2_rot = np.meshgrid(x1_vals_rot, x2_vals_rot)
Z_rot = f_rotated(X1_rot, X2_rot, S_rot)

levels_rot = np.logspace(np.log10(max(Z_rot.min(),0.01)), np.log10(Z_rot.max() if Z_rot.max() > 0 else 1), 30) if Z_rot.min() < Z_rot.max() else 15
contour_rot = plt.contour(X1_rot, X2_rot, Z_rot, levels=levels_rot, cmap='viridis')
plt.colorbar(contour_rot, label='f_rot(u₁, u₂)')

plt.plot(path_prec_rot[:, 0], path_prec_rot[:, 1], 'g-o', markersize=3, linewidth=1, label=f'Preconditioned GD (η={eta_rotated})')
plt.plot(path_std_gd_rot[:, 0], path_std_gd_rot[:, 1], 'm--x', markersize=3, linewidth=1, label=f'Standard GD (η={eta_rotated})')

plt.scatter(0, 0, color='black', marker='*', s=150, label='Minimum (0,0)', zorder=5) # Minimum is still at origin
plt.scatter(rotated_start[0], rotated_start[1], color='blue', s=100, label='Start', zorder=4)
plt.title(f'Comparison on Rotated f(x₁,x₂) = x₁² + {S_rot}x₂²')
plt.xlabel('u₁ (rotated coord)')
plt.ylabel('u₂ (rotated coord)')
plt.legend()
plt.axis('equal')
plt.grid(True)
plt.show()

#### Vấn đề: Ảnh hưởng của phép quay đến cấu trúc Hessian

Khi quay một hàm như:$f(x_1, x_2) = x_1^2 + 100x_2^2$ một góc 45 độ, hàm mới (với tọa độ gọi là $u_1, u_2$) sẽ có các **thành phần ngoài đường chéo** mà giá trị của chúng lớn hơn giá trị của thành phần trên đường chéo trong ma trận Hessian.

Các **trục chính** của các đường đồng mức hình elip **sẽ không còn thẳng hàng** với các trục $u_1$ và $u_2$ nữa.

Điều này có nghĩa là hình dạng của bài toán bị "nghiêng", làm cho các phương pháp như Gradient Descent hay tiền điều kiện chéo dựa trên các phần tử đường chéo **mất hiệu quả** rõ rệt.

#### Hàm gốc (tọa độ $x_1, x_2$):

Giả sử ta có hàm $f(x_1, x_2) = x_1^2 + Sx_2^2$. Hessian $H = \begin{bmatrix} H_{11} & 0 \\ 0 & H_{22} \end{bmatrix}$

Là ma trận chéo. Bộ tiền điều kiện chéo (diagonal preconditioner) hoạt động tốt vì:$M_{\text{diag}} = [|H_{11}|, |H_{22}|]$ xác định chính xác các tỉ lệ thay đổi theo từng hướng khác nhau này và chuẩn hóa chúng.

#### Hàm sau khi quay (tọa độ $u_1, u_2$):

Phép biến đổi quay 45 độ:$x_1 = \frac{u_1 - u_2}{\sqrt{2}}, \quad x_2 = \frac{u_1 + u_2}{\sqrt{2}}$
Thay vào hàm: $f(x_1, x_2) = x_1^2 + Sx_2^2$

Ta được hàm sau khi quay:$f_{\text{rot}}(u_1, u_2) = \left( \frac{u_1 - u_2}{\sqrt{2}} \right)^2 + S \left( \frac{u_1 + u_2}{\sqrt{2}} \right)^2$. 

Rút gọn: 
$f_{\text{rot}}(u_1, u_2) = \frac{1}{2}(u_1^2 - 2u_1u_2 + u_2^2) + \frac{S}{2}(u_1^2 + 2u_1u_2 + u_2^2)
= \frac{1}{2}(1 + S)u_1^2 + \frac{1}{2}(1 + S)u_2^2 + (S - 1)u_1u_2$

---

#### Ma trận Hessian sau khi quay:

$$
H_{\text{rot}} =
\begin{bmatrix}
\frac{\partial^2 f}{\partial u_1^2} & \frac{\partial^2 f}{\partial u_1 \partial u_2} \\
\frac{\partial^2 f}{\partial u_2 \partial u_1} & \frac{\partial^2 f}{\partial u_2^2}
\end{bmatrix}
=
\begin{bmatrix}
1 + S & S - 1 \\
S - 1 & 1 + S
\end{bmatrix}
$$

---

#### Ảnh hưởng đến tiền điều kiện chéo:

Bộ tiền điều kiện chỉ dùng phần tử chéo của Hessian:

$$
\text{diag}(H_{\text{rot}}) = [|1 + S|,\ |1 + S|]
$$

Nó **bỏ qua hoàn toàn** phần tử ngoài đường chéo $(S - 1)$, đây là thành phần quan trọng khi $S$ lớn.

Ví dụ, nếu $S = 100$ thì $S - 1 = 99$ — cho thấy mối tương quan mạnh giữa $u_1$ và $u_2$ mà tiền điều kiện chéo không nắm bắt được. Điều này khiến dẫn tới:
- Hiệu suất của tiền điều kiện chéo sẽ **giảm sút đáng kể**.
- Thuật toán sẽ **dao động** trở lại như Gradient Descent thông thường.
- Tốc độ hội tụ sẽ chậm lại do vấn đề tỷ lệ co giãn không còn nằm theo trục tọa độ.

# 03. Stochastic Gradient Descent

In [None]:
%matplotlib inline
import math
import torch
import d2l

## Stochastic Gradient Updates

Trong học sâu (deep learning), hàm mục tiêu thường là trung bình của các hàm mất mát (loss function) cho từng mẫu trong tập dữ liệu huấn luyện.

Giả sử có một tập huấn luyện gồm $n$ mẫu, gọi $f_i(\mathbf{x})$ là hàm mất mát tương ứng với mẫu huấn luyện thứ $i$, trong đó $\mathbf{x}$ là vector tham số.
Khi đó, ta có hàm mục tiêu:

$$
f(\mathbf{x}) = \frac{1}{n} \sum_{i = 1}^n f_i(\mathbf{x}).
$$

Gradient của hàm mục tiêu tại $\mathbf{x}$ được tính bằng:

$$
\nabla f(\mathbf{x}) = \frac{1}{n} \sum_{i = 1}^n \nabla f_i(\mathbf{x}).
$$

Nếu sử dụng phương pháp **Gradient Descent**, chi phí tính toán cho mỗi vòng lặp cập nhật tham số sẽ là $\mathcal{O}(n)$, tức là **tăng tuyến tính** theo $n$. Do đó, khi tập dữ liệu huấn luyện **càng lớn** thì **chi phí** cho mỗi bước lặp của gradient descent **càng cao**.

Phương pháp **Stochastic Gradient Descent (SGD)** giúp giảm chi phí tính toán ở mỗi bước lặp. Ở mỗi bước của SGD, ta chọn **ngẫu nhiên một mẫu** $i \in \{1, \ldots, n\}$ từ tập dữ liệu, và tính gradient $\nabla f_i(\mathbf{x})$ để cập nhật tham số $\mathbf{x}$:

$$
\mathbf{x} \leftarrow \mathbf{x} - \eta \nabla f_i(\mathbf{x}),
$$

trong đó $\eta$ là tốc độ học (learning rate). Ta thấy rằng chi phí tính toán cho mỗi bước lặp giảm từ $\mathcal{O}(n)$ (của gradient descent) xuống còn hằng số $\mathcal{O}(1)$.

Ngoài ra, cần nhấn mạnh rằng gradient ngẫu nhiên $\nabla f_i(\mathbf{x})$ là một ước lượng không chệch (unbiased estimate) của gradient đầy đủ $\nabla f(\mathbf{x})$ vì:

$$
\mathbb{E}_i \nabla f_i(\mathbf{x}) = \frac{1}{n} \sum_{i = 1}^n \nabla f_i(\mathbf{x}) = \nabla f(\mathbf{x}).
$$

Điều này có nghĩa là, nhìn chung, gradient ngẫu nhiên là một ước lượng tốt cho gradient thực sự.

Bây giờ, chúng ta sẽ so sánh nó với gradient descent bằng cách thêm nhiễu ngẫu nhiên có kỳ vọng bằng 0 và phương sai bằng 1 vào gradient để mô phỏng stochastic gradient descent.

In [None]:
def f(x1, x2):  # Objective function
    return x1 ** 2 + 2 * x2 ** 2

def f_grad(x1, x2):  # Gradient of the objective function
    return 2 * x1, 4 * x2

def sgd(x1, x2, s1, s2, f_grad):
    g1, g2 = f_grad(x1, x2)
    # Simulate noisy gradient
    g1 += torch.normal(0.0, 1, (1,)).item()
    g2 += torch.normal(0.0, 1, (1,)).item()
    eta_t = eta * lr()
    return (x1 - eta_t * g1, x2 - eta_t * g2, 0, 0)

def constant_lr():
    return 1

eta = 0.1
lr = constant_lr  # Constant learning rate
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=50, f_grad=f_grad))

Như chúng ta có thể thấy, quỹ đạo của các biến trong phương pháp stochastic gradient descent nhiễu hơn nhiều so với quỹ đạo quan sát được trong gradient descent. Điều này là do bản chất ngẫu nhiên của gradient. Cụ thể, ngay cả khi chúng ta đã tiến gần đến điểm cực tiểu, ta vẫn bị ảnh hưởng bởi sự bất định của gradient tức thời $\eta \nabla f_i(\mathbf{x})$. Ngay cả sau 50 bước, chất lượng nghiệm vẫn chưa tốt. Thậm chí tệ hơn, nó sẽ không được cải thiện thêm dù có thực hiện thêm nhiều bước nữa.

Điều này dẫn đến lựa chọn duy nhất: thay đổi tốc độ học $\eta$. Tuy nhiên, nếu chọn giá trị quá nhỏ, ta sẽ không đạt được tiến triển đáng kể ban đầu. Ngược lại, nếu chọn quá lớn, ta sẽ không thu được nghiệm tốt, như đã thấy ở trên. Cách duy nhất để giải quyết mâu thuẫn này là giảm tốc độ học một cách *động* khi quá trình tối ưu hóa tiến triển.

Đây cũng là lý do vì sao cần thêm một hàm tốc độ học `lr` vào hàm cập nhật `sgd`. Trong ví dụ trên, ta đã đặt hàm `lr` tương ứng là hằng số.

## Dynamic Learning Rate

Thay thế $\eta$ bằng một tốc độ học phụ thuộc vào thời gian $\eta(t)$ làm tăng độ phức tạp trong việc kiểm soát sự hội tụ của một thuật toán tối ưu. Cụ thể, chúng ta cần xác định tốc độ giảm của $\eta$. Nếu giảm quá nhanh, quá trình tối ưu sẽ dừng lại quá sớm. Nếu giảm quá chậm, ta sẽ lãng phí quá nhiều thời gian cho việc tối ưu.

Sau đây là một vài chiến lược cơ bản để điều chỉnh $\eta$ theo thời gian:

$$
\begin{aligned}
    \eta(t) & = \eta_i \textrm{ nếu } t_i \leq t \leq t_{i+1}  && \textrm{hằng theo từng khoảng (piecewise constant)} \\
    \eta(t) & = \eta_0 \cdot e^{-\lambda t} && \textrm{giảm theo hàm mũ (exponential decay)} \\
    \eta(t) & = \eta_0 \cdot (\beta t + 1)^{-\alpha} && \textrm{giảm theo đa thức (polynomial decay)}
\end{aligned}
$$

Trong chiến lược *hằng theo từng khoảng*, chúng ta có thể giảm tốc độ học mỗi khi quá trình tối ưu hóa không còn cải thiện. Đây là một chiến lược phổ biến khi huấn luyện các mạng nơ-ron sâu. Ngoài ra, chúng ta có thể giảm mạnh hơn bằng cách *giảm theo hàm mũ*. Tuy nhiên, điều này thường dẫn đến việc dừng tối ưu quá sớm trước khi thuật toán hội tụ.

Một lựa chọn phổ biến là *giảm theo đa thức* với $\alpha = 0.5$. Trong trường hợp tối ưu hóa lồi (convex optimization), có nhiều chứng minh cho thấy tốc độ giảm này hoạt động hiệu quả và ổn định.

Hãy cùng xem việc giảm theo hàm mũ trông như thế nào trong thực tế.

In [None]:
def exponential_lr():
    # Global variable that is defined outside this function and updated inside
    global t
    t += 1
    return math.exp(-0.1 * t)

t = 1
lr = exponential_lr
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=1000, f_grad=f_grad))

Như dự đoán, phương sai trong các tham số đã giảm đáng kể. Tuy nhiên, điều này phải đánh đổi bằng việc không hội tụ đến nghiệm tối ưu $\mathbf{x} = (0, 0)$. Ngay cả sau 1000 bước lặp, chúng ta vẫn còn rất xa so với nghiệm tối ưu. Thực tế, thuật toán không hội tụ chút nào.

Ngược lại, nếu chúng ta sử dụng phương pháp giảm theo đa thức, trong đó tốc độ học giảm theo nghịch đảo căn bậc hai của số bước, thì khả năng hội tụ được cải thiện rõ rệt chỉ sau 50 bước lặp.

In [None]:
def polynomial_lr():
    # Global variable that is defined outside this function and updated inside
    global t
    t += 1
    return (1 + 0.1 * t) ** (-0.5)

t = 1
lr = polynomial_lr
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=50, f_grad=f_grad))

Có rất nhiều cách khác nhau để thiết lập tốc độ học. Ví dụ, ta có thể bắt đầu với một tốc độ học nhỏ, sau đó tăng nhanh rồi lại giảm dần, tuy nhiên giảm chậm hơn. Thậm chí, ta có thể xen kẽ giữa tốc độ học nhỏ và lớn. Có rất nhiều chiến lược điều chỉnh tốc độ học như vậy.

## Convergence Analysis for Convex Objectives

Trong phần này, chúng ta sẽ phân tích hội tụ của phương pháp stochastic gradient descent (SGD) đối với hàm mục tiêu lồi tùy chọn.

Giả sử hàm mục tiêu $f(\boldsymbol{\xi}, \mathbf{x})$ là lồi theo $\mathbf{x}$ với mọi mẫu $\boldsymbol{\xi}$. Cụ thể, ta xét công thức cập nhật của SGD:

$$
\mathbf{x}_{t+1} = \mathbf{x}_{t} - \eta_t \partial_\mathbf{x} f(\boldsymbol{\xi}_t, \mathbf{x}),
$$

trong đó $f(\boldsymbol{\xi}_t, \mathbf{x})$ là hàm mục tiêu tương ứng với mẫu huấn luyện $\boldsymbol{\xi}_t$ được lấy ngẫu nhiên tại bước $t$, và $\mathbf{x}$ là tham số mô hình. Gọi:

$$
R(\mathbf{x}) = E_{\boldsymbol{\xi}}[f(\boldsymbol{\xi}, \mathbf{x})]
$$

là rủi ro kỳ vọng, và $R^*$ là giá trị tối thiểu của nó theo $\mathbf{x}$. Gọi $\mathbf{x}^*$ là điểm tối ưu (giả định tồn tại trong miền xác định của $\mathbf{x}$). Khi đó ta có thể theo dõi khoảng cách giữa tham số hiện tại $\mathbf{x}_t$ tại thời điểm $t$ và điểm tối ưu $\mathbf{x}^*$ để xem liệu có cải thiện theo thời gian không:

$$\begin{aligned}    &\|\mathbf{x}_{t+1} - \mathbf{x}^*\|^2 \\ =& \|\mathbf{x}_{t} - \eta_t \partial_\mathbf{x} f(\boldsymbol{\xi}_t, \mathbf{x}) - \mathbf{x}^*\|^2 \\    =& \|\mathbf{x}_{t} - \mathbf{x}^*\|^2 + \eta_t^2 \|\partial_\mathbf{x} f(\boldsymbol{\xi}_t, \mathbf{x})\|^2 - 2 \eta_t    \left\langle \mathbf{x}_t - \mathbf{x}^*, \partial_\mathbf{x} f(\boldsymbol{\xi}_t, \mathbf{x})\right\rangle. \end{aligned} \tag{1} $$

Giả sử chuẩn $\ell_2$ của gradient ngẫu nhiên bị chặn bởi một hằng số $L$, ta có:

$$
\eta_t^2 \|\partial_\mathbf{x} f(\boldsymbol{\xi}_t, \mathbf{x})\|^2 \leq \eta_t^2 L^2. \tag{2}
$$

Chúng ta quan tâm chủ yếu đến việc, trung bình, khoảng cách giữa $\mathbf{x}_t$ và $\mathbf{x}^*$ thay đổi như thế nào. Trên thực tế, khoảng cách này có thể tăng hoặc giảm, tùy thuộc vào mẫu $\boldsymbol{\xi}_t$ mà ta gặp phải. Do đó, ta cần chặn tích vô hướng.

Với mọi hàm lồi $f$, ta có [(first-order condition)](https://machinelearningcoban.com/2017/03/12/convexity/#-first-order-condition):

$$
f(\mathbf{y}) \geq f(\mathbf{x}) + \langle f'(\mathbf{x}), \mathbf{y} - \mathbf{x} \rangle.
$$

Áp dụng với $\mathbf{x}_t$ và $\mathbf{x}^*$, ta được:
<!-- $$\begin{aligned}
 f(\boldsymbol{\xi}_t, \mathbf{x}^*) &\geq f(\boldsymbol{\xi}_t, \mathbf{x}_t) + \left\langle \mathbf{x}^* - \mathbf{x}_t, \partial_{\mathbf{x}} f(\boldsymbol{\xi}_t, \mathbf{x}_t) \right\rangle\\ \left\langle \mathbf{x}^* - \mathbf{x}_t, \partial_{\mathbf{x}} f(\boldsymbol{\xi}_t, \mathbf{x}_t) \right\rangle &\leq f(\boldsymbol{\xi}_t, \mathbf{x}^*) - f(\boldsymbol{\xi}_t, \mathbf{x}_t)\\ - \left\langle \mathbf{x}_t - \mathbf{x}^*, \partial_{\mathbf{x}} f(\boldsymbol{\xi}_t, \mathbf{x}_t) \right\rangle &\leq f(\boldsymbol{\xi}_t, \mathbf{x}^*) - f(\boldsymbol{\xi}_t, \mathbf{x}_t) \label{eq:bat_dang_thuc_first_order_condition} \tag{2}
\end{aligned}$$ -->
$$ f(\boldsymbol{\xi}_t, \mathbf{x}^*) \geq f(\boldsymbol{\xi}_t, \mathbf{x}_t) + \left\langle \mathbf{x}^* - \mathbf{x}_t, \partial_{\mathbf{x}} f(\boldsymbol{\xi}_t, \mathbf{x}_t) \right\rangle $$
$$ \left\langle \mathbf{x}^* - \mathbf{x}_t, \partial_{\mathbf{x}} f(\boldsymbol{\xi}_t, \mathbf{x}_t) \right\rangle \leq f(\boldsymbol{\xi}_t, \mathbf{x}^*) - f(\boldsymbol{\xi}_t, \mathbf{x}_t) $$
$$ - \left\langle \mathbf{x}_t - \mathbf{x}^*, \partial_{\mathbf{x}} f(\boldsymbol{\xi}_t, \mathbf{x}_t) \right\rangle \leq f(\boldsymbol{\xi}_t, \mathbf{x}^*) - f(\boldsymbol{\xi}_t, \mathbf{x}_t) \tag{3} $$
Thay hai bất đẳng thức $(2)$ và $(3)$ vào biểu thức $(1)$, ta thu được:

$$
\begin{aligned}
\|\mathbf{x}_{t+1} - \mathbf{x}^*\|^2 &\leq \|\mathbf{x}_{t} - \mathbf{x}^*\|^2 + \eta_t^2 L^2 - 2 \eta_t (f(\boldsymbol{\xi}_t, \mathbf{x}^*) - f(\boldsymbol{\xi}_t, \mathbf{x}_t))\\
\|\mathbf{x}_{t} - \mathbf{x}^*\|^2 - \|\mathbf{x}_{t+1} - \mathbf{x}^*\|^2 &\geq 2 \eta_t (f(\boldsymbol{\xi}_t, \mathbf{x}_t) - f(\boldsymbol{\xi}_t, \mathbf{x}^*)) - \eta_t^2 L^2.
\end{aligned}
$$

Điều này có nghĩa là ta đang tiến gần đến điểm tối ưu miễn là sự khác biệt giữa giá trị mất mát (loss) hiện tại và giá trị mất mát tối ưu lớn hơn $\eta_t L^2 / 2$. Do sự khác biệt này sẽ tiến dần về 0 nên tốc độ học $\eta_t$ cũng cần *giảm dần*.

Tiếp theo, lấy kỳ vọng của bất đẳng thức trên:

$$
E\left[\|\mathbf{x}_{t} - \mathbf{x}^*\|^2\right] - E\left[\|\mathbf{x}_{t+1} - \mathbf{x}^*\|^2\right] \geq 2 \eta_t [E[R(\mathbf{x}_t)] - R^*] -  \eta_t^2 L^2.
$$

Tổng các bất đẳng thức này với $t = 1, \ldots, T$, và bỏ đi phần âm, ta được:

$$
\|\mathbf{x}_1 - \mathbf{x}^*\|^2 \geq 2 \left (\sum_{t=1}^T   \eta_t \right) [E[R(\mathbf{x}_t)] - R^*] - L^2 \sum_{t=1}^T \eta_t^2.
$$

Do $\mathbf{x}_1$ là giá trị đã biết nên ta bỏ kỳ vọng. Định nghĩa:

$$
\bar{\mathbf{x}} := \frac{\sum_{t=1}^T \eta_t \mathbf{x}_t}{\sum_{t=1}^T \eta_t}.
$$

Ta có:

$$
E\left(\frac{\sum_{t=1}^T \eta_t R(\mathbf{x}_t)}{\sum_{t=1}^T \eta_t}\right) = \frac{\sum_{t=1}^T \eta_t E[R(\mathbf{x}_t)]}{\sum_{t=1}^T \eta_t} = E[R(\mathbf{x}_t)].
$$

Do bất đẳng thức Jensen và tính lồi của $R$, ta có:

$$
E[R(\mathbf{x}_t)] \geq E[R(\bar{\mathbf{x}})],
\Rightarrow \sum_{t=1}^T \eta_t E[R(\mathbf{x}_t)] \geq \sum_{t=1}^T \eta_t  E\left[R(\bar{\mathbf{x}})\right].
$$

Thay vào bất đẳng thức trên, ta được:

$$
\left[E[R(\bar{\mathbf{x}})]\right] - R^* \leq \frac{r^2 + L^2 \sum_{t=1}^T \eta_t^2}{2 \sum_{t=1}^T \eta_t},
$$

với $r^2 := \|\mathbf{x}_1 - \mathbf{x}^*\|^2$ là độ chênh lệch giữa điểm khởi đầu và điểm tối ưu. Tóm lại, tốc độ hội tụ phụ thuộc vào việc gradient ngẫu nhiên được chặn như thế nào ($L$) và điểm bắt đầu cách xa tối ưu bao nhiêu ($r$).

Khi $r, L$, và $T$ đã biết, ta có thể chọn tốc độ học $\eta = r/(L \sqrt{T})$. Khi đó, ta có chặn trên là $rL/\sqrt{T}$, tức ta hội tụ với tốc độ $\mathcal{O}(1/\sqrt{T})$ đến nghiệm tối ưu.

## Stochastic Gradients and Finite Samples

Cho đến giờ, chúng ta đã nói về **stochastic gradient descent (SGD)** một cách khá đơn giản và sơ lược. Chúng ta giả định rằng ta lấy các mẫu $x_i$, thường đi kèm với nhãn $y_i$, từ một phân phối nào đó $p(x, y)$ và sử dụng chúng để cập nhật các tham số của mô hình theo một cách nào đó. Cụ thể hơn, với một tập dữ liệu hữu hạn, ta đã lập luận rằng phân phối rời rạc $p(x, y) = \frac{1}{n} \sum_{i=1}^n \delta_{x_i}(x) \delta_{y_i}(y)$
với một số hàm $\delta_{x_i}$ và $\delta_{y_i}$
cho phép ta thực hiện SGD trên phân phối đó.

Tuy nhiên, thực tế không hoàn toàn như vậy. Trong các ví dụ minh họa đơn giản ở phần này, ta đơn giản chỉ thêm nhiễu vào gradient không ngẫu nhiên, tức là ta giả vờ như đang có các cặp $(x_i, y_i)$. Điều này là hợp lý trong ngữ cảnh ở đây (xem bài tập để hiểu chi tiết hơn). Điều đáng lo ngại hơn là trong các phần trước, rõ ràng ta không làm như vậy. Thay vào đó, ta **duyệt qua tất cả các mẫu huấn luyện đúng một lần**. Để thấy tại sao cách làm này tốt hơn, hãy xét tình huống ngược lại: giả sử ta chọn ngẫu nhiên $n$ quan sát từ phân phối rời rạc **có hoàn lại**. Xác suất để chọn một phần tử $i$ bất kỳ là $1/n$. Do đó, xác suất để **chọn được ít nhất một lần** là:

$P(\textrm{chọn~} i) = 1 - P(\textrm{không chọn~} i) = 1 - (1-1/n)^n \approx 1-e^{-1} \approx 0.63.$

Lập luận tương tự cho thấy xác suất chọn một mẫu **chính xác một lần duy nhất** là:

${n \choose 1} \frac{1}{n} \left(1-\frac{1}{n}\right)^{n-1} = \frac{n}{n-1} \left(1-\frac{1}{n}\right)^{n} \approx e^{-1} \approx 0.37.$

Việc lấy mẫu **có hoàn lại** làm tăng phương sai và giảm hiệu quả sử dụng dữ liệu so với lấy mẫu **không hoàn lại**. Do đó, trong thực tế, ta thường dùng cách lấy mẫu **không hoàn lại** (và đây cũng là cách được mặc định sử dụng xuyên suốt trong cuốn sách này). Cuối cùng, lưu ý rằng nếu duyệt lại tập huấn luyện nhiều lần thì mỗi lần như vậy sẽ duyệt qua tập dữ liệu theo **một thứ tự ngẫu nhiên khác nhau**.

## Exercises

### Exercise 1

Experiment with different learning rate schedules for stochastic gradient descent and with different numbers of iterations. In particular, plot the distance from the optimal solution $(0, 0)$ as a function of the number of iterations.

In [None]:
def sgd(x1, x2, s1, s2, f_grad):
    dist_to_optimum.append(d2l.np.linalg.norm([x1, x2]).item())
    g1, g2 = f_grad(x1, x2)
    # Simulate noisy gradient
    g1 += torch.normal(0.0, 1, (1,)).item()
    g2 += torch.normal(0.0, 1, (1,)).item()
    eta_t = eta * lr()
    return (x1 - eta_t * g1, x2 - eta_t * g2, 0, 0)

# CONSTANT LEARNING RATE
dist_to_optimum = []
eta = 0.1
lr = constant_lr  # Constant learning rate
d2l.train_2d(sgd, steps=50, f_grad=f_grad)

# Plotting
d2l.plt.figure(figsize=(8, 5))
d2l.plt.plot(dist_to_optimum, marker='o', linestyle='-', color='blue', label='Distance to Optimum')
d2l.plt.xlabel('Iteration')
d2l.plt.ylabel('Distance')
d2l.plt.title('Constant learning rate: Convergence to Optimum')
d2l.plt.ylim(0, 6)
d2l.plt.grid(True)
d2l.plt.legend()
d2l.plt.tight_layout()
d2l.plt.show()

# EXPONENTIAL LEARNING RATE
dist_to_optimum = []
t = 1
lr = exponential_lr
d2l.train_2d(sgd, steps=50, f_grad=f_grad)

# Plotting
d2l.plt.figure(figsize=(8, 5))
d2l.plt.plot(dist_to_optimum, marker='o', linestyle='-', color='blue', label='Distance to Optimum')
d2l.plt.xlabel('Iteration')
d2l.plt.ylabel('Distance')
d2l.plt.title('Exponential learning rate: Convergence to Optimum')
d2l.plt.ylim(0, 6)
d2l.plt.grid(True)
d2l.plt.legend()
d2l.plt.tight_layout()
d2l.plt.show()

# POLYNOMIAL LEARNING RATE
dist_to_optimum = []
t = 1
lr = polynomial_lr
d2l.train_2d(sgd, steps=50, f_grad=f_grad)

# Plotting
d2l.plt.figure(figsize=(8, 5))
d2l.plt.plot(dist_to_optimum, marker='o', linestyle='-', color='blue', label='Distance to Optimum')
d2l.plt.xlabel('Iteration')
d2l.plt.ylabel('Distance')
d2l.plt.title('Polynomial learning rate: Convergence to Optimum')
d2l.plt.ylim(0, 6)
d2l.plt.grid(True)
d2l.plt.legend()
d2l.plt.tight_layout()
d2l.plt.show()

### Exercise 2

Prove that for the function $f(x_1, x_2) = x_1^2 + 2 x_2^2$ adding normal noise to the gradient is equivalent to minimizing a loss function $f(\mathbf{x}, \mathbf{w}) = (x_1 - w_1)^2 + 2 (x_2 - w_2)^2$ where $\mathbf{x}$ is drawn from a normal distribution.

Ta có gradient của hàm $f(x_1,x_2)$:
$$ \nabla f(x_1, x_2) = \begin{bmatrix} 2x_1 \\ 4x_2 \end{bmatrix} \tag{1} $$

gradient sau khi được thêm nhiễu:
$$\tilde{\nabla} f(x) = \nabla f(x) + \epsilon, \quad \epsilon \sim \mathcal{N}(0, \sigma^2 I)$$

Thưc hiện lấy gradient của hàm $f(x,w)$:

Ta có 
$$
\nabla_{\mathbf{w}} L(\mathbf{w}) = \begin{bmatrix} \frac{\partial}{\partial w_1} (x_1 - w_1)^2 \\ \frac{\partial}{\partial w_2} 2(x_2 - w_2)^2 \end{bmatrix}
=  \begin{bmatrix} -2(x_1 - w_1) \\ -4(x_2 - w_2) \end{bmatrix} 
$$

Thực hiên lấy kỳ vọng của công thức trên ta có:
$$ \nabla_{\mathbf{w}} L(\mathbf{w}) = \mathbb{E} \left[ \begin{bmatrix} -2(x_1 - w_1) \\ -4(x_2 - w_2) \end{bmatrix} \right] $$ 

Tương đương 
$$ \begin{bmatrix} -2(\mathbb{E} \left[x_1\right] - w_1) \\ -4(\mathbb{E} \left[x_2\right] - w_2) \end{bmatrix} $$ 

Vì $x$ có phân phối chuẩn $\mathbf{x} \sim \mathcal{N}(0, I)$ và x1 và x2 là hai giá trị ngẫu nhiên nên $\mathbb{E} \left[x_1\right] =  \left[x_2\right] = 0$:
$$ \nabla_{\mathbf{w}} L(\mathbf{w}) = \begin{bmatrix} 2(w_1) \\ 4( w_2) \end{bmatrix} \tag{2} $$ 
Từ $(1)$ và $(2)$ có thể thấy hàm $f(x_1, x_2)$ = $x_1^2 + x_2^2$ có thêm nhiễu vào gradient có thể tương đương với gradient của hàm $f(x,w) = (x_1-w_1)^2 +2(x_2-w_2)^2$ dùng để cập nhật tham số và tìm điểm cực tiểu của hàm.  

In [None]:
#Define function for f(x1,x2) 
def f1(x1,x2):
    return x1**2 + 2*x2**2

# Define gradient of f(x1,x2)
def f1_grad(x1,x2):
    return 2*x1, 4*x2 

# Define gradient of f(x,w)
def f2(x,w):
    return (x[0] - w[0])**2 + 2*(x[1] - w[1])**2

# Define gradient of f(x,w)
def f2_grad(x,w):
    return -2*(x[0] - w[0]), -4*(x[1] - w[1])

g_f1= []
# Gradient computing and weight updating for f(x1,x2)
def sgd_f1(x1, x2, s1, s2, f1_grad):
    g1, g2 = f1_grad(x1, x2)
    # Simulate noisy gradient
    g1 += torch.normal(0.0, 1, (1,)).item() #Add normal noise
    g2 += torch.normal(0.0, 1, (1,)).item() #Add normal noise
    g_f1.append(torch.tensor([g1,g2]))
    eta_t = eta * lr()
    return (x1 - eta_t * g1, x2 - eta_t * g2, 0, 0)

noise_std = 1.0
g_f2= []
x_sample = []
# Gradient computing and weight updating for f(x,w)
def sgd_f2(x1, x2, s1, s2, f2_grad):
    x= torch.randn(2)
    x_sample.append(x)
    w = torch.tensor([x1,x2])
    g1, g2 = f2_grad(x, w)
    g_f2.append(torch.tensor([g1,g2]))
    eta_t = eta * lr()
    return (x1 - eta_t * g1, x2 - eta_t * g2, 0, 0)


eta = 0.1
lr = polynomial_lr  # Constant learning rate
result_f1 = d2l.train_2d(sgd_f1, steps=1000, f_grad=f1_grad)
result_f2 = d2l.train_2d(sgd_f2, steps=1000, f_grad=f2_grad)
print("Average gradient for f(x1,x2) when adding noise gradient:", torch.stack(g_f1).mean(dim=0))
print("Average gradient for f(x,w)",torch.stack(g_f2).mean(dim=0))

### Exercise 3

Compare convergence of stochastic gradient descent when you sample from $\{(x_1, y_1), \ldots, (x_n, y_n)\}$ with replacement and when you sample without replacement.

Ta có bất đẳng thức đánh giá về tốc độ hội tụ từ phần 12.4.3: 
$$
\left[E[R(\bar{\mathbf{x}})]\right] - R^* \leq \frac{r^2 + L^2 \sum_{t=1}^T \eta_t^2}{2 \sum_{t=1}^T \eta_t},
$$

Với việc lấy mẫu có Hoàn Lại:
Với tốc độ học cố định $\eta = \frac{r}{L\sqrt{T}}$:
$$\sum_{t=1}^{T} \eta_t = T \cdot \frac{r}{L\sqrt{T}} = \frac{rT}{L\sqrt{T}} = \frac{r\sqrt{T}}{L}$$

$$\sum_{t=1}^{T} \eta_t^2 = T \cdot \left(\frac{r}{L\sqrt{T}}\right)^2 = T \cdot \frac{r^2}{L^2T} = \frac{r^2}{L^2}$$
Thay vào biểu thức giới hạn ban đầu:
$$[E[R(\bar{x})]] - R^* \leq \frac{r^2 + L^2 \cdot \frac{r^2}{L^2}}{2 \cdot \frac{r\sqrt{T}}{L}} = \frac{r^2 + r^2}{2 \cdot \frac{r\sqrt{T}}{L}} = \frac{2r^2}{\frac{2r\sqrt{T}}{L}} = \frac{rL}{\sqrt{T}}$$
Điều này cho chúng ta tốc độ hội tụ rõ ràng $O\left(\frac{rL}{\sqrt{T}}\right)$ đối với phương pháp lấy mẫu có hoàn lại.

Với việc lấy mẫu không hoàn lại với $\eta = r/(L \sqrt{T})$: 

Chúng ta tính toán hệ số giảm phương sai:
+ Với $\frac{n-1}{n}$ được xem là phần nhiễu ảnh hưởng đến tốc độ hội tụ giữa các bước vì khi lấy mẫu không thay thế, các mẫu khác nhau phụ thuộc vào nhau (sau khi chọn một điểm, khả năng chọn lại giảm còn $n-1$ trong tổng $n$ => các mẫu không còn độc lập với nhau )

$$[E[R(\bar{x})]] - R^* \leq \frac{r^2 + L^2 \cdot \frac{n-1}{n} \cdot \frac{r^2}{L^2}}{2 \cdot \frac{r\sqrt{T}}{L}}$$ 

$$= \frac{r^2 + r^2 \cdot \frac{n-1}{n}}{2 \cdot \frac{r\sqrt{T}}{L}}$$

$$= \frac{r^2 \cdot \left(1 + \frac{n-1}{n}\right)}{2 \cdot \frac{r\sqrt{T}}{L}}$$

$$= \frac{r^2 \cdot \frac{2n-1}{n}}{2 \cdot \frac{r\sqrt{T}}{L}}$$

$$= \frac{rL}{\sqrt{T}} \cdot \frac{2n-1}{2n}$$

Với $n$ lớn, $\frac{2n-1}{2n} \approx \frac{2n}{2n} - \frac{1}{2n} = 1 - \frac{1}{2n}$, vì vậy chúng ta có:

$$[E[R(\bar{x})]] - R^* \leq \frac{rL}{\sqrt{T}} \cdot \left(1 - \frac{1}{2n}\right)$$

Vậy ta có:

+ **Lấy mẫu có hoàn lại**: $[E[R(\bar{x})]] - R^* \leq \frac{rL}{\sqrt{T}}$

+ **Lấy mẫu không hoàn lại**: $[E[R(\bar{x})]] - R^* \leq \frac{rL}{\sqrt{T}} \cdot \left(1 - \frac{1}{2n}\right)$

=> **Tốc độ hội tụ của phương pháp lấy mẫu không hoàn lại cải thiện theo hệ số không đổi xấp xỉ $\left(1 - \frac{1}{2n}\right)$ so với phương pháp lấy mẫu có hoàn lại**

Hệ số cải thiện $(1 - \frac{1}{2n})$ phụ thuộc vào kích thước tập dữ liệu $n$:
- Với $n$ nhỏ, mức cải thiện đáng kể hơn
- Khi $n$ tăng lên, mức cải thiện tiệm cận đến một hệ số không đổi

In [None]:
import random


def show_trace_2d_custom(x_subsample, results, color, label):
    """Show the trace of 2D variables during optimization.

    Defined in :numref:`subsec_gd-learningrate`"""
    d2l.set_figsize()
    d2l.plt.plot(*zip(*results), '-o', color=color, label=label)
    x1, x2 = d2l.meshgrid(d2l.arange(-5.5, 1.0, 0.1),
                          d2l.arange(-3.0, 1.0, 0.1), indexing='ij')
    w = [x1,x2]
    d2l.plt.contour(x1, x2, f_ex3(x_subsample, w), colors='#1f77b4')
    d2l.plt.xlabel('x1')
    d2l.plt.ylabel('x2')
    d2l.plt.legend()

x_sample = torch.randn(200,2)
x_choices = [x_sample[0]]
x_subsample=[x_sample[0]]
eta = 0.01
t = 1

# Define gradient of f(x,w)
def f_ex3(x,w):
    return (x[0] - w[0])**2 + 2*(x[1] - w[1])**2

# Define gradient of f(x,w)
def f_ex3_grad(x,w):
    return -2*(x[0] - w[0]), -4*(x[1] - w[1])


def sgd_replacement(x1, x2, s1, s2, f2_grad):
    dist_to_optimum.append(d2l.np.linalg.norm([x1, x2]).item())
    x= random.choice(x_sample)
    x_choices.append(x)
    w = torch.tensor([x1,x2])
    g1, g2 = f2_grad(x, w)
    eta_t = eta * lr()
    return (x1 - eta_t * g1, x2 - eta_t * g2, 0, 0)

i=0
def sgd_without_replacement(x1, x2, s1, s2, f2_grad):
    global i 
    i += 1
    x = x_sample[i]
    x_subsample.append(x)
    dist_to_optimum.append(d2l.np.linalg.norm([x1, x2]).item())
    w = torch.tensor([x1,x2])
    g1, g2 = f2_grad(x, w)
    eta_t = eta * lr()
    return (x1 - eta_t * g1, x2 - eta_t * g2, 0, 0)


# show_trace_2d_custom(x_subsample[-1], d2l.train_2d(sgd_without_replacement, steps=999, f_grad=f_ex3_grad),"#0000ff", "Without replacement")
# show_trace_2d_custom(x_choices[-1], d2l.train_2d(sgd_replacement, steps=999, f_grad=f_ex3_grad),"#ff7f0e","With replacement")
dist_to_optimum=[]
d2l.train_2d(sgd_without_replacement, steps=199, f_grad=f_ex3_grad)
d2l.plt.figure(figsize=(8, 5))
d2l.plt.plot(dist_to_optimum, marker='o', linestyle='-', color='blue', label='Distance to Optimum')
d2l.plt.xlabel('Iteration')
d2l.plt.ylabel('Distance')
d2l.plt.title('Without replacement: Convergence to Optimum')
d2l.plt.ylim(0, 6)
d2l.plt.grid(True)
d2l.plt.legend()
d2l.plt.tight_layout()
d2l.plt.show()

dist_to_optimum=[]
d2l.train_2d(sgd_replacement, steps=199, f_grad=f_ex3_grad)
d2l.plt.figure(figsize=(8, 5))
d2l.plt.plot(dist_to_optimum, marker='o', linestyle='-', color='blue', label='Distance to Optimum')
d2l.plt.xlabel('Iteration')
d2l.plt.ylabel('Distance')
d2l.plt.title('With replacement: Convergence to Optimum')
d2l.plt.ylim(0, 6)
d2l.plt.grid(True)
d2l.plt.legend()
d2l.plt.tight_layout()
d2l.plt.show()

### Exercise 4

How would you change the stochastic gradient descent solver if some gradient (or rather some coordinate associated with it) was consistently larger than all the other gradients?

Trong quá trình tối ưu bằng Stochastic Gradient Descent (SGD), nếu một thành phần (tọa độ) của gradient luôn có giá trị lớn hơn đáng kể so với các thành phần còn lại, điều này có thể khiến việc cập nhật tham số bị lệch, dẫn đến quá trình hội tụ trở nên **kém hiệu quả** hoặc thậm chí **không ổn định**.

Để khắc phục vấn đề này, ta có thể áp dụng một trong hai giải pháp sau:

1. **Điều chỉnh tốc độ học theo từng tọa độ**:
   Giảm tốc độ học (learning rate) cho các tọa độ có gradient lớn hơn nhằm hạn chế việc cập nhật quá mạnh ở các chiều đó, giúp quá trình tối ưu trở nên cân bằng và ổn định hơn.
1. **Gradient clipping** (cắt gradient):
   Giới hạn độ lớn tối đa của gradient, bằng cách cắt ngắn (rescale) vector gradient nếu nó vượt quá một ngưỡng cho trước. Điều này giúp tránh việc các gradient cực lớn gây ra những bước nhảy quá lớn trong quá trình cập nhật tham số.

### Exercise 5

Assume that $f(x) = x^2 (1 + \sin x)$. How many local minima does $f$ have? Can you change $f$ in such a way that to minimize it one needs to evaluate all the local minima?

Miền xác định của $f(x)$ là $\mathbb{R}$.

Ta có:
$$
f'(x) = 2x(1 + \sin x) + x^2 \cos x
$$
$f'(x) = 0$:
$$
2x(1 + \sin x) + x^2 \cos x = 0
$$
Ta biến đổi thành:
$$
x [2(1 + \sin x) + x \cos x] = 0
$$

Vậy các điểm tới hạn xảy ra khi:
- $x = 0$, hoặc
- $2(1 + \sin x) + x \cos x = 0$
  
Ở phương trình thứ hai, ta thấy rằng:
- $\sin x$, $\cos x$ dao động giữa $[-1,1]$
- Khi $|x| \to \infty$, biên độ của $x \cos x$ tăng lên

Điều này cho thấy phương trình $ 2(1 + \sin x) + x \cos x = 0 $ có **vô số nghiệm**, do bản chất dao động của $ \sin x $, $ \cos x $.

Nhiều nghiệm trong số đó là cực tiểu địa phương (trên đồ thị, có ít nhất một cực tiểu trong mỗi khoảng $ [2\pi n, 2\pi(n+1)] $).

Vậy hàm $ f(x) $ có **vô số cực tiểu địa phương**.

# 04. Minibatch Stochastic Gradient Descent

Trong học sâu, việc tối ưu hóa các tham số của mô hình là một bước quan trọng để đạt được hiệu suất tốt nhất. Có nhiều phương pháp tối ưu hóa khác nhau, trong đó Gradient Descent (GD) và Stochastic Gradient Descent (SGD) là hai phương pháp phổ biến. Tuy nhiên, cả hai đều có những hạn chế riêng. Minibatch Stochastic Gradient Descent (Minibatch SGD) được xem là một giải pháp cân bằng giữa hai phương pháp này, mang lại hiệu quả cả về mặt tính toán và thống kê.

## Vectorization and Caches

Trọng tâm của quyết định sử dụng minibatches là hiệu quả tính toán. Điều này dễ hiểu nhất khi xem xét song song với nhiều GPU và nhiều máy chủ. Trong trường hợp này, chúng ta cần gửi ít nhất một hình ảnh cho mỗi GPU. Với 8 GPU trên mỗi máy chủ và 16 máy chủ, ta có minibatch kích thước 128. 

Vấn đề trở nên nhạy cảm hơn đối với GPU đơn hay ngay cả CPU đơn. Các thiết bị này có nhiều loại bộ nhớ, thường là nhiều loại đơn vị tính toán và hạn chế băng thông khác nhau giữa chúng. Ví dụ, CPU có một số lượng nhỏ các thanh ghi và sau đó là L1, L2 và trong một số trường hợp thậm chí bộ nhớ cache L3 (được chia sẻ giữa các lõi bộ xử lý khác nhau). Các bộ nhớ đệm này có kích thước và độ trễ ngày càng tăng (đồng thời chúng giảm băng thông). Nó đủ để nói, bộ xử lý có khả năng thực hiện nhiều hoạt động hơn so với những gì giao diện bộ nhớ chính có thể cung cấp. 

* CPU 2GHz với 16 lõi và vectorization AVX-512 có thể xử lý lên đến $2 \cdot 10^9 \cdot 16 \cdot 32 = 10^{12}$ byte mỗi giây. Khả năng của GPU dễ dàng vượt quá con số này theo hệ số 100. Mặt khác, một bộ xử lý máy chủ tầm trung có thể không có nhiều hơn 100 Gb/s băng thông, tức là, ít hơn một phần mười những gì sẽ được yêu cầu để giữ cho bộ xử lý ăn. Vấn đề còn tồi tệ hơn khi ta xét đến việc không phải khả năng truy cập bộ nhớ nào cũng như nhau: đầu tiên, giao diện bộ nhớ thường rộng 64 bit hoặc rộng hơn (ví dụ, trên GPU lên đến 384 bit), do đó việc đọc một byte duy nhất vẫn sẽ phải chịu chi phí giống như truy cập một khoảng bộ nhớ rộng hơn.
* Tổng chi phí cho lần truy cập đầu tiên là khá lớn, trong khi truy cập liên tiếp thường hao tổn ít. Có rất nhiều điều cần lưu ý, ví dụ như lưu trữ đệm khi ta có nhiều điểm truy cập cuối, chiplet và các cấu trúc khác...

Cách để giảm bớt những hạn chế này là sử dụng một hệ thống phân cấp của bộ nhớ cache CPU thực sự đủ nhanh để cung cấp cho bộ xử lý dữ liệu. Đây là *động lực* đằng sau việc sử dụng batch trong học sâu. ĐĐể đơn giản, xét phép nhân hai ma trận $\mathbf{A} = \mathbf{B}\mathbf{C}$. Để tính $\mathbf{A}$ ta có khá nhiều lựa chọn, ví dụ như: 

1. Ta có thể tính $\mathbf{A}_{ij} = \mathbf{B}_{i,:} \mathbf{C}_{:,j}^\top$, tức là tính từng phần tử bằng tích vô hướng.
1. Ta có thể tính $\mathbf{A}_{:,j} = \mathbf{B} \mathbf{C}_{:,j}^\top$, ttức là tính theo từng cột. Tương tự, ta có thể tính $\mathbf{A}$ theo từng hàng $\mathbf{A}_{i,:}$.
1. Ta đơn giản có thể tính $\mathbf{A} = \mathbf{B} \mathbf{C}$.
1. Ta có thể chia $\mathbf{B}$ và $\mathbf{C}$ thành các ma trận khối nhỏ hơn và tính toán $\mathbf{A}$ theo từng khối một.

Nếu sử dụng cách đầu tiên, ta cần sao chép một vector cột và một vector hàng vào CPU cho mỗi lần tính phần tử $\mathbf{A}_{ij}$. Tệ hơn nữa, do các phần tử của ma trận được lưu thành một dãy liên tục dưới bộ nhớ, ta buộc phải truy cập nhiều vùng nhớ rời rạc khi đọc một trong hai vector từ bộ nhớ. Cách thứ hai tốt hơn nhiều. Theo cách này, ta có thể giữ vector cột $\mathbf{C}_{:,j}$ trong vùng nhớ đệm của CPU trong khi ta tiếp tục quét qua $\mathbf{B}$. Cách này chỉ cần nửa băng thông cần thiết của bộ nhớ, do đó truy cập nhanh hơn. Đương nhiên cách thứ ba là tốt nhất. Đáng tiếc rằng đa số ma trận quá lớn để có thể đưa vào vùng nhớ đệm (dù sao đây cũng chính là điều ta đang thảo luận). Cách thứ tư là một phương pháp thay thế khá tốt: đưa các khối của ma trận vào vùng nhớ đệm và thực hiện phép nhân cục bộ. Các thư viện đã được tối ưu sẽ thực hiện việc này giúp chúng ta. Hãy xem xét hiệu suất của từng phương pháp trong thực tế. 

Ngoài hiệu suất tính toán, chi phí tính toán phát sinh đến từ Python và framework học sâu cũng đáng cân nhắc. Mỗi lần ta thực hiện một câu lệnh, bộ thông dịch Python gửi một câu lệnh đến MXNet để chèn câu lệnh đó vào đồ thị tính toán và thực thi nó theo đúng lịnh trình. Chi phí đó có thể khá bất lợi. Nói ngắn gọn, nên áp dụng vector hóa (và ma trận) bất cứ khi nào có thể.

In [None]:
import time
import numpy as np
import torch
from torch import nn
import d2l

A = torch.zeros(512, 512)
B = torch.randn(512, 512)
C = torch.randn(512, 512)

Vì chúng ta sẽ thường xuyên đo thời gian chạy trong phần còn lại của báo cáo, hãy định nghĩa một bộ đếm thời gian.

In [None]:
class Timer:
    """Record multiple running times."""
    def __init__(self):
        self.times = []
        self.start()

    def start(self):
        """Start the timer."""
        self.tik = time.time()

    def stop(self):
        """Stop the timer and record the time in a list."""
        self.times.append(time.time() - self.tik)
        return self.times[-1]

    def avg(self):
        """Return the average time."""
        return sum(self.times) / len(self.times)

    def sum(self):
        """Return the sum of time."""
        return sum(self.times)

    def cumsum(self):
        """Return the accumulated time."""
        return np.array(self.times).cumsum().tolist()

timer = Timer()

Gán từng phần tử đơn giản là lặp qua tất cả các hàng và cột của $\mathbf{B}$ và $\mathbf{C}$ tương ứng để gán giá trị cho $\mathbf{A}$.

In [None]:
# Compute A = BC one element at a time
timer.start()
for i in range(512):
    for j in range(512):
        A[i, j] = torch.dot(B[i, :], C[:, j])
timer.stop()

Một chiến lược nhanh hơn là thực hiện gán theo cột.

In [None]:
# Compute A = BC one column at a time
timer.start()
for j in range(512):
    A[:, j] = torch.mv(B, C[:, j])
timer.stop()

Cuối cùng, phương pháp hiệu quả nhất là thực hiện toàn bộ phép toán trong một khối duy nhất.
Lưu ý rằng việc nhân hai ma trận $\mathbf{B} \in \mathbb{R}^{m \times n}$ và $\mathbf{C} \in \mathbb{R}^{n \times p}$ cần khoảng $2mnp$ phép toán dấu phẩy động,
khi phép nhân và cộng vô hướng được tính là hai phép toán riêng biệt (mặc dù trên thực tế thường được gộp lại).
Do đó, việc nhân hai ma trận kích thước $512 \times 512$ cần khoảng $0.27$ tỷ phép toán dấu phẩy động.
Bây giờ, hãy cùng xem tốc độ tương ứng của các phép toán này.

In [None]:
# Compute A = BC in one go
timer.start()
A = torch.mm(B, C)
timer.stop()

gigaflops = [0.27 / i for i in timer.times]
print(f'performance in Gigaflops: element {gigaflops[0]:.3f}, '
      f'column {gigaflops[1]:.3f}, full {gigaflops[2]:.3f}')

## Minibatches

Ở các phần trước ta đọc dữ liệu theo *minibatches* thay vì từng điểm dữ liệu đơn lẻ để cập nhật các tham số. Ta có thể giải thích ngắn gọn mục đích như sau. Xử lý từng điểm dữ liệu đơn lẻ đòi hỏi phải thực hiện rất nhiều phép nhân ma trận với vector (hay thậm chí vector với vector). Cách này khá tốn kém và đồng thời phải chịu thêm chi phí khá lớn đến từ các framework học sâu bên dưới. Vấn đề này xảy ra ở cả lúc đánh giá một mạng với dữ liệu mới và khi tính toán gradient để cập nhật các tham số. Tức là vấn đề xảy ra mỗi khi ta thực hiện $\mathbf{w} \leftarrow \mathbf{w} - \eta_t \mathbf{g}_t$  trong đó 

$$\mathbf{g}_t = \partial_{\mathbf{w}} f(\mathbf{x}_{t}, \mathbf{w})$$

Ta có thể tăng hiệu suất *tính toán* của phép tính này bằng cách áp dụng nó trên mỗi minibatch dữ liệu. Tức là ta thay thế gradient $\mathbf{g}_t$ trên một điểm dữ liệu đơn lẻ bằng gradient trên một batch nhỏ. 

$$\mathbf{g}_t = \partial_{\mathbf{w}} \frac{1}{|\mathcal{B}_t|} \sum_{i \in \mathcal{B}_t} f(\mathbf{x}_{i}, \mathbf{w})$$

Hãy thử xem phương pháp trên tác động thế nào đến các tính chất thống kê của $\mathbf{g}_t$: vì cả $\mathbf{x}_t$ và tất cả các phần tử trong minibatch $\mathcal{B}_t$ được lấy ra từ tập huấn luyện với xác suất như nhau, kỳ vọng của gradient là không đổi. Mặt khác, phương sai giảm một cách đáng kể. Do gradient của minibatch là trung bình của $b := |\mathcal{B}_t|$ gradient độc lập, độ lệch chuẩn của nó giảm đi theo hệ số $b^{-\frac{1}{2}}$. Đây là một điều tốt, cách cập nhật này có độ tin cậy gần bằng việc lấy gradient trên toàn bộ tập dữ liệu.

Từ ý trên, ta sẽ nhanh chóng cho rằng chọn minibatch $\mathcal{B}_t$ lớn luôn là tốt nhất. Tiếc rằng đến một mức độ nào đó, độ lệch chuẩn sẽ giảm không đáng kể so với chi phí tính toán tăng tuyến tính. Do đó trong thực tế, ta sẽ chọn kích thước minibatch đủ lớn để hiệu suất tính toán cao trong khi vẫn đủ để đưa vào bộ nhớ của GPU. Để minh hoạ quá trình lưu trữ này, hãy xem đoạn mã nguồn dưới đây. Trong đó ta vẫn thực hiện phép nhân ma trận với ma trận, tuy nhiên lần này ta tách thành từng minibatch 64 cột.

In [None]:
timer.start()
for j in range(0, 512, 64):
    A[:, j:j+64] = torch.mm(B, C[:, j:j+64])
timer.stop()
print(f'performance in Gigaflops: block {0.27 / timer.times[3]:.3f}')

Có thể thấy quá trình tính toán trên minibatch về cơ bản có hiệu suất gần bằng thực hiện trên toàn ma trận. Tuy nhiên, cần lưu ý rằng Trong ví dụ trước đó ta sử dụng một loại điều chuẩn phụ thuộc chặt chẽ vào phương sai của minibatch. khi tăng kích thước minibatch, phương sai giảm xuống và cùng với đó là lợi ích của việc thêm nhiễu (noise-injection) cũng giảm theo do phương pháp chuẩn hóa theo batch.

## Reading the Dataset

Chúng ta hãy xem cách minibatches được tạo ra hiệu quả từ dữ liệu. Sau đây chúng tôi sử dụng một tập dữ liệu do NASA phát triển để kiểm tra mức độ tiếng ồn do cánh máy bay tạo ra trong điều kiện khí động học cụ thể [noise from different aircraft](https://archive.ics.uci.edu/ml/datasets/Airfoil+Self-Noise) để so sánh các thuật toán tối ưu hóa này. Để thuận tiện, chúng tôi chỉ sử dụng các ví dụ $1,500$ đầu tiên. Dữ liệu được làm trắng để xử lý trước, tức là, chúng tôi loại bỏ trung bình và giải thích phương sai thành $1$ cho mỗi tọa độ.

In [None]:
#@save
d2l.DATA_HUB['airfoil'] = (d2l.DATA_URL + 'airfoil_self_noise.dat',
                           '76e5be1548fd8222e5074cf0faae75edff8cf93f')

#@save
def get_data_ch11(batch_size=10, n=1500):
    data = np.genfromtxt(d2l.download('airfoil'),
                         dtype=np.float32, delimiter='\t')
    data = torch.from_numpy((data - data.mean(axis=0)) / data.std(axis=0))
    data_iter = d2l.load_array((data[:n, :-1], data[:n, -1]),
                               batch_size, is_train=True)
    return data_iter, data.shape[1] - 1

## Implementation from Scratch

Ta sẽ sử dụng mô hình Hồi quy Tuyến tính với lần lượt các thuật toán tối ưu GD, SGD và SGD theo minibatch để so sánh độ hiệu quả.

### Nhắc lại về Hồi quy Tuyến tính

#### Định nghĩa
Hồi quy Tuyến tính (Linear Regression) là một phương pháp học máy cơ bản thuộc nhóm học có giám sát (Supervised learning). Phương pháp này bao gồm 2 yếu tố là Hồi quy và Tuyến tính. Phép Hồi quy phân tích mối quan hệ giữa một hoặc nhiều biến đầu vào (biến độc lập) và một biến đầu ra (biến phụ thuộc). Trong khi đó, phép Tuyến tính chỉ mối quan hệ tổ hợp tuyến tính của các biến đầu vào mà không có sự xuất hiện của các hàm lũy thừa hay phi tuyến như sin, log, relu, ... Như vậy, Hồi quy Tuyến tính là phương pháp học máy và thống kê giúp mô hình hóa mối quan hệ **tuyến tính** giữa một hoặc nhiều biến đầu vào (biến độc lập) và một biến đầu ra (biến phụ thuộc), từ đó giúp dự đoán giá trị của biến phụ thuộc dựa trên giá trị của các biến độc lập.

#### Mô hình Tuyến tính
Mô hình Hồi quy Tuyến tính cho `d` đặc trưng (biến đầu vào) có dạng:
$$
y = \omega_1*x_1 + \omega_2*x_2 + ... + \omega_d*x_d + b
$$
Thu thập toàn bộ các đặc trưng vào một vector $\mathbf{x}$ và toàn bộ các trọng số vào một vector $\mathbf{w}$, ta có thể biểu diễn mô hình dưới dạng tích vô hướng của 2 vector:
$$
y = \mathbf{w}^T*\mathbf{x}
$$
Trong đó:
- $\mathbf{x}$: vector đặc trưng đầu vào, $\mathbf{x} \in R^d$ (input features)
- $\mathbf{w}$: vector trọng số (weights) cần huấn luyện
- $b$: độ lệch (bias)
- $y$: giá trị đầu ra (output)


#### Hàm mất mát
Để đánh giá mức độ khớp giữa mô hình được xây dựng và dữ liệu, ta sử dụng hàm mất mát. Hàm mất mát định lượng khoảng cách giữa giá trị thực $y$ và giá trị dự đoán $\hat{y}$ của mục tiêu. Độ mất mát thường là một số không âm và có giá trị càng nhỏ càng tốt. Khi các dự đoán hoàn hảo, chúng sẽ có độ mất mát sẽ bằng **0**. Hàm mất mát thông dụng nhất trong các bài toán hồi quy là hàm tổng bình phương các lỗi - Mean Squared Error (MSE):
$$
L_i = \frac{1}{2} MSE(y_i, \hat{y}_i) = \frac{1}{2} E[(y_i - \hat{y}_i)^2] = \frac{1}{2} (y_i - \hat{y}_i)^2
$$
Hằng số **1/2** không tạo ra sự khác biệt thực sự nào nhưng sẽ giúp thuận tiện hơn về mặt ký hiệu: nó sẽ được triệt tiêu khi lấy đạo hàm của hàm mất mát.

Lưu ý rằng khi hiệu giữa giá trị thực $y_i$ và giá trị ước lượng $\hat{y}_i$ lớn, giá trị hàm mất mát sẽ tăng rất lớn cho sự phụ thuộc bậc 2. Để đo chất lượng của mô hình trên toàn bộ tập dữ liệu, ta đơn thuần lấy trung bình (hay tương đương là lấy tổng) các giá trị mất mát của từng mẫu trong tập huấn luyện.
$$
L = \frac{1}{n} \sum_{i=1}^{n} L_i = \frac{1}{n} \sum_{i=1}^{n} \frac{1}{2} (y_i - \hat{y}_i)^2
$$


#### Mục tiêu
Khi huấn luyện mô hình, ta muốn tìm các tham số $\mathbf{w}^*$ và $b^*$ sao cho tổng độ mất mát trên toàn bộ các mẫu huấn luyện được cực tiểu hóa:
$$
\mathbf{w}^*, b^* = \underset{\mathbf{w}, b}{\text{argmin}}\:L(\mathbf{w}, b)
$$

Kỹ thuật chính để tối ưu hóa mô hình này, cũng như các mô hình học sâu khác, bao gồm việc giảm thiểu lỗi qua các vòng lặp bằng cách cập nhật tham số theo hướng làm giảm gần hàm mát mát. Với các hàm mất mát mặt lồi, giá trị mất mát cuối cùng sẽ hội tụ về giá trị nhỏ nhất. Tuy điều tương tự không thể áp dụng cho các mặt không lồi, ít nhất thuật toán sẽ dẫn tới một cực tiểu (hy vọng là tốt)

Đơn giản nhất ta có thể kể đến là việc tính đạo hàm của hàm mất mát, tức trung bình của các giá trị mất mát được tính trên mỗi mẫu của tập dữ liệu. Cuối cùng, gradient này được nhân với tốc độ học $\eta > 0$, lấy trung bình trên kích thước tập dữ liệu và kết quả này được trừ đi từ các giá trị tham số hiện tại. Đây là chính phương pháp Gradient Descent (GD). Trên thực tế, điều này có thể cực kỳ chậm: chúng ta phải duyệt qua toàn bộ tập dữ liệu trước khi thực hiện một lần cập nhật duy nhất, ngay cả khi có bước cập nhật có thể rất mạnh mẽ. Tệ hơn nữa, nếu có nhiều dữ liệu trùng lặp trong tập dữ liệu huấn luyện, lợi ích của việc cập nhật toàn bộ sẽ bị hạn chế.

Việc cập nhật có thể được biểu diễn bằng công thức dưới đây:
$$
(\mathbf{w}, b) \leftarrow (\mathbf{w}, b) - \frac{\eta}{|\boldsymbol{N}|} \sum_{i \in \boldsymbol{N}} \partial_{(\mathbf{w}, b)}L_i(\mathbf{w}, b)
$$
hay,
$$
\mathbf{w} \leftarrow \mathbf{w} - \frac{\eta}{|\boldsymbol{N}|} \sum_{i \in \boldsymbol{N}} \partial_\mathbf{w} L_i(\mathbf{w}, b)
$$
$$
b \leftarrow b - \frac{\eta}{|\boldsymbol{N}|} \sum_{i \in \boldsymbol{N}} \partial_{b} L_i(\mathbf{w}, b)
$$

Một cách khác hoàn toàn là chỉ xem xét một mẫu dữ liệu duy nhất tại một thời điểm và thực hiện các bước cập nhật dựa trên từng quan sát tại một thời điểm. Đây là chính phương pháp Stochastic Gradient Descent (SGD). Có thể coi đây là một chiến lược hiệu quả, ngay cả đối với các tập dữ liệu lớn. Tuy nhiên, SGD có những nhược điểm, cả về mặt tính toán và thống kê. Một vấn đề phát sinh từ thực tế là bộ xử lý nhân và cộng số nhanh hơn nhiều so với việc di chuyển dữ liệu từ bộ nhớ chính đến bộ đệm bộ xử lý. Thực hiện phép nhân ma trận-vectơ hiệu quả hơn tới một cấp độ so với số lượng phép toán vecto-vectơ tương ứng. Điều này có nghĩa là có thể mất nhiều thời gian hơn để xử lý một mẫu tại một thời điểm so với toàn bộ mẫu. Một vấn đề thứ hai là một số lớp, chẳng hạn như batch normalization yêu cầu có nhiều hơn một mẫu dữ liệu tại một thời điểm.

Việc cập nhật có thể được biểu diễn bằng công thức dưới đây:
$$
(\mathbf{w}, b) \leftarrow (\mathbf{w}, b) - \eta*\partial_{(\mathbf{w}, b)}L(\mathbf{w}, b)
$$
hay,
$$
\mathbf{w} \leftarrow \mathbf{w} - \eta*\partial_\mathbf{w} L(\mathbf{w}, b)
$$
$$
b \leftarrow b - \eta*\partial_{b} L(\mathbf{w}, b)
$$

Giải pháp cho cả hai vấn đề là chọn một chiến lược trung gian: thay vì lấy toàn bộ mẫu dữ liệu hoặc chỉ một tại một thời điểm, chúng ta lấy một số lượng nhỏ. Lựa chọn cụ thể về kích thước của số lượng nói trên phụ thuộc vào nhiều yếu tố, chẳng hạn như lượng bộ nhớ, số lượng bộ tăng tốc, lựa chọn lớp và tổng kích thước tập dữ liệu. Mặc dù vậy, một số từ 32 đến 256, tốt nhất là bội số của một lũy thừa lớn của 2 là một khởi đầu tốt. Đây chính là phương pháp biến thể Stochastic Gradient Descent theo minibatch (Minibatch SGD). Ở vòng lặp `t`, ta lấy ngẫu nhiên một số mẫu gọi là $B_t$ sao cho kích thước là |$B$|. Sau đó, chúng ta tính đạo hàm của hàm mất mát trên minibatch đó theo các tham số của mô hình. Cuối cùng, gradient này được nhân với tốc độ học  $\eta > 0$, lấy trung bình trên kích thước minibatch và kết quả này được trừ đi từ các giá trị tham số hiện tại.

Việc cập nhật có thể được biểu diễn bằng công thức dưới đây:
$$
(\mathbf{w}, b) \leftarrow (\mathbf{w}, b) - \frac{\eta}{|\boldsymbol{B}|} \sum_{i \in \boldsymbol{B_t}} \partial_{(\mathbf{w}, b)}L_i(\mathbf{w}, b)
$$
hay,
$$
\mathbf{w} \leftarrow \mathbf{w} - \frac{\eta}{|\boldsymbol{B}|} \sum_{i \in \boldsymbol{B_t}} \partial_\mathbf{w} L_i(\mathbf{w}, b)
$$
$$
b \leftarrow b - \frac{\eta}{|\boldsymbol{B}N|} \sum_{i \in \boldsymbol{B_t}} \partial_{b} L_i(\mathbf{w}, b)
$$

### Ứng dụng các Thuật toán tối ưu cho Hồi quy Tuyến tính

Để thuận tiện, hàm lập trình GD, SGD và SGD theo minibatch sẽ có danh sách tham số giống nhau. Cụ thể, chúng ta thêm trạng thái đầu vào biến `states` và đặt siêu tham số trong biến `hyperparams`. Bên cạnh đó, chúng ta sẽ tính giá trị mất mát trung bình của từng minibatch trong hàm huấn luyện, từ đó không cần phải chia gradient cho kích thước batch trong thuật toán tối ưu nữa. 

In [None]:
def sgd(params, states, hyperparams):
    for p in params:
        p.data.sub_(hyperparams['lr'] * p.grad)
        p.grad.data.zero_()

**Giải thích**

Hàm `sgd` sẽ duyệt qua các tham số `p` trong `params` của mô hình, trong bài toán Hồi quy Tuyến tính sẽ là vector trọng số $\mathbf{w}$ và $b$ và cập nhật theo quy tắc:
$$
p := p - \eta*\Delta_pL
$$
Trong đó:
- `p`: tham số
- `p.grad`: đạo hàm của hàm mất mát theo p
- `hyperparams['lr']` hay $\eta$: tốc độ học (learning rate)
Sau đó, thực hiện reset gradient ở bước cuối trong mỗi vòng lặp để tránh tích lũy gradient từ nhiều batch

Tiếp theo, chúng ta hiện thực một hàm huấn luyện tổng quát, sử dụng được cho tất cả các thuật toán tối ưu. Hàm sẽ khởi tạo một mô hình Hồi quy Tuyến tính và có thể được sử dụng để huấn luyện mô hình với GD, SGD và SGD theo minibatch.

In [None]:
#@save
def train_ch11(trainer_fn, states, hyperparams, data_iter,
               feature_dim, num_epochs=2):
    # Initialization
    w = torch.normal(mean=0.0, std=0.01, size=(feature_dim, 1),
                     requires_grad=True)
    b = torch.zeros((1), requires_grad=True)
    net, loss = lambda X: d2l.linreg(X, w, b), d2l.squared_loss
    # Train
    animator = d2l.Animator(xlabel='epoch', ylabel='loss',
                            xlim=[0, num_epochs], ylim=[0.22, 0.35])
    n, timer = 0, d2l.Timer()
    for _ in range(num_epochs):
        for X, y in data_iter:
            l = loss(net(X), y).mean()
            l.backward()
            trainer_fn([w, b], states, hyperparams)
            n += X.shape[0]
            if n % 200 == 0:
                timer.stop()
                animator.add(n/X.shape[0]/len(data_iter),
                             (d2l.evaluate_loss(net, data_iter, loss),))
                timer.start()
    print(f'loss: {animator.Y[0][-1]:.3f}, {timer.sum()/num_epochs:.3f} sec/epoch')
    return timer.cumsum(), animator.Y[0]

**Giải thích**

Hàm `train_ch11` sẽ khởi tạo các giá trị cần cho mô hình Hồi quy Tuyến tính và thực hiện huấn luyện.

Tham số đầu vào:
- `trainer_fn`: hàm cập nhật tham số mô hình (GD, SGD, ...)
- `states`: các trạng thái cần thiết cho `trainer_fn`
- `hyperparams`: các siêu tham số như `lr`, `beta`
- `feature_dim`: số lượng đặc trưng (hoặc số chiều biến đầu vào)
- `num_epochs`: số vòng lặp huấn luyện

**Bước 1: Khởi tạo mô hình**
Đầu tiên, khởi tạo 2 vector trọng số $\mathbf{w}$ và bias $b$ đều yêu cầu gradient, trong đó:
- $\mathbf{w}$ tuân theo phân phối chuẩn với $\mu$ = 0.0 và $\sigma$ = 0.01, có kích thước `feature_dim` x 1 
- $b$ = 0

Tiếp theo, khởi tạo `net` với `loss`, lần lượt là mô hình Hồi quy tuyến tính có dạng $y = \boldsymbol{X}*\mathbf{w} + b$ và hàm mất mát theo MSE

**Bước 2: Khởi tạo tiến trình vẽ hàm mất mát và bộ đếm thời gian**
- `animator`: thực thể để biểu diễn hàm mất mát dưới dạng đồ thị theo thời gian
- `n`: tổng số mẫu đã xử lý
- `timer`: để đo thời gian chạy từng epoch

**Bước 3: Huấn luyện mô hình**
Lần lượt duyệt qua từng batch:
1. Tính giá trị hàm mất mát: `l = loss(net(X), y).mean()` tương ứng việc lấy trung bình giá trị MSE cho toàn bộ các điểm dữ liệu trong batch
2. Thực hiện lan truyền ngược để tính GD: `l.backward()`
3. Cập nhật tham số: `trainer_fn` được gọi với `[w, b]`, `states` và `hyperparams`
4. Reset gradient descent nằm trong `trainer_fn`.

Vẽ hàm mất mát với mỗi 200 mẫu

**Bước 4: In kết quả**
In giá trị hàm mất mát cuối cùng và thời gian trung bình mỗi epoch

Tiếp theo, ta tạo một hàm đầu vào để thực hiện toàn quá trình

In [None]:
def train_sgd(lr, batch_size, num_epochs=2):
    data_iter, feature_dim = get_data_ch11(batch_size)
    return train_ch11(sgd, None, {'lr': lr}, data_iter, feature_dim, num_epochs)

**Giải thích**
Hàm `train_sgd` thực hiện việc đọc dữ liệu, khởi tạo các tham số và huấn luyện mô hình.

Tham số đầu vào:
- `lr`: siêu tham số tốc độ học (learning rate)
- `batch_size`: kích thước của batch
- `num_epochs`: số vòng lặp huấn luyện

Dữ liệu được trả về theo từng batch từ hàm `get_data_ch11` sẽ được dùng để huấn luyện trong hàm `train_ch11`

#### Thực nghiệm với GD
Hãy cùng quan sát quá trình tối ưu của thuật toán Gradient Descent (GD) theo toàn bộ batch. Ta có thể sử dụng toàn bộ batch bằng cách thiết lập kích thước minibatch bằng tổng số mẫu (trong trường hợp này là 1500). Kết quả là các tham số mô hình chỉ được cập nhật một lần duy nhất trong mỗi epoch. Có thể thấy không có tiến triển nào đáng kể. Trong ví dụ, việc tối ưu bị ngừng trệ sau 6 epoch.

In [None]:
gd_res = train_sgd(1, 1500, 10)

**Giải thích**

Ở đây ta thực nghiệm huấn luyện mô hình với GD, sử dụng $\eta = 1$, số lượng epoch = 10 và thiết lập tham số `batch_size` = 1500 (= kích thước của tập dữ liệu), tức là với mỗi epoch hàm mất mát sẽ được tính và thực hiện cập nhật $(\mathbf{w}, b)$ chỉ 1 lần duy nhất

#### Thực nghiệm với SGD

Khi kích thước của batch bằng 1, chúng ta sử dụng thuật toán SGD để tối ưu. Để đơn giản hóa việc hiện thực, chúng ta cố định tốc độ học (learning rate) bằng một hằng số (có giá trị nhỏ). Trong SGD, các tham số mô hình được cập nhật bất cứ khi nào có một mẫu huấn luyện được xử lý. Trong trường hợp này, sẽ có 1500 lần cập nhật trong mỗi epoch. Có thể thấy, sự suy giảm giá trị của hàm mục tiêu chậm lại sau một epoch. Mặc dù cả hai thuật toán cùng xử lý 1500 mẫu trong một epoch, SGD tốn thời gian hơn GD trong thí nghiệm trên. Điều này là do SGD cập nhật các tham số thường xuyên hơn và kém hiệu quả khi xử lý đơn lẻ từng mẫu.

In [None]:
sgd_res = train_sgd(0.005, 1)

**Giải thích**

Ở đây ta thực nghiệm huấn luyện mô hình với SGD, sử dụng $\eta = 0.005$, số lượng epoch = 2 (theo mặc định) và thiết lập tham số `batch_size` = 1, tức là với mỗi epoch hàm mất mát sẽ được tính và thực hiện cập nhật $(\mathbf{w}, b)$ với mỗi điểm dữ liệu trong tập.

#### Thực nghiệm với SGD theo minibatch

Cuối cùng, khi kích thước của batch bằng 100, chúng ta sử dụng thuật toán SGD theo minibatch để tối ưu. Thời gian cần thiết cho mỗi epoch ngắn hơn thời gian tương ứng của SGD và GD theo toàn bộ batch.

In [None]:
mini1_res = train_sgd(.4, 100)

**Giải thích**

Ở đây ta thực nghiệm huấn luyện mô hình với SGD theo minibatch có kích thước = 100, sử dụng $\eta = 0.4$, số lượng epoch = 2 (theo mặc định), tức là với mỗi epoch hàm mất mát sẽ được tính và thực hiện cập nhật $(\mathbf{w}, b)$ tương ứng là $\frac{1500}{100} = 15$ lần

Giảm kích thước của batch bằng 10, thời gian cho mỗi epoch tăng vì thực thi tính toán trên mỗi batch kém hiệu quả hơn.

In [None]:
mini2_res = train_sgd(.05, 10)

**Giải thích**

Ở đây ta thực nghiệm huấn luyện mô hình với SGD theo minibatch có kích thước = 10, sử dụng $\eta = 0.05$, số lượng epoch = 2 (theo mặc định), tức là với mỗi epoch hàm mất mát sẽ được tính và thực hiện cập nhật $(\mathbf{w}, b)$ tương ứng là $\frac{1500}{10} = 150$ lần

Cuối cùng, chúng ta so sánh tương quan thời gian và giá trị hàm mấy mát trong bốn thí nghiệm trên. Có thể thấy, dù hội tụ nhanh hơn GD về số mẫu được xử lý, SGD tốn nhiều thời gian hơn để đạt được cùng giá trị mất mát như GD vì thuật toán này tính gradient descent trên từng mẫu một. Thuật toán SGD theo minibatch có thể cân bằng giữa tốc độ hội tụ và hiệu quả tính toán. Với kích thước minibatch bằng 10, thuật toán này hiệu quả hơn SGD; và với kích thước minibatch bằng 100, thời gian chạy của thuật toán này thậm chí nhanh hơn cả GD.

### Tóm tắt

| Tiêu chí                             | Gradient Descent (GD)            | Stochastic Gradient Descent (SGD) | Minibatch SGD                    |
| ------------------------------------ | -------------------------------- | --------------------------------- | --------------------------------- |
| **Kích thước dữ liệu dùng mỗi bước** | Toàn bộ tập dữ liệu              | 1 mẫu dữ liệu                     | Một nhóm nhỏ (batch)              |
| **Tần suất cập nhật tham số**        | 1 lần / epoch                    | N lần / epoch (với N = số mẫu)    | N/B lần / epoch (B = batch size)  |
| **Tốc độ tính toán mỗi bước**        | Chậm (phải quét toàn bộ dữ liệu) | Rất nhanh                         | Trung bình                        |
| **Độ ổn định gradient**              | Ổn định, ít dao động             | Dao động mạnh, nhiễu nhiều        | Dao động vừa phải                 |
| **Khả năng hội tụ**                  | Chậm nhưng mượt                  | Nhanh ban đầu, có thể dao động    | Cân bằng giữa tốc độ và ổn định   |
| **Khả năng thoát local minima**      | Thấp                             | Cao (nhờ nhiễu)                   | Tương đối tốt                     |
| **Yêu cầu bộ nhớ (RAM)**             | Cao (vì xử lý toàn bộ data)      | Rất thấp                          | Vừa phải                          |
| **Ứng dụng thực tế**                 | Hiếm dùng với dữ liệu lớn        | Dùng nhiều cho online learning    | Phổ biến nhất trong deep learning |


## Concise Implementation

Trong Gluon, chúng ta có thể sử dụng lớp `Trainer` để gọi các thuật toán tối ưu. Cách này được sử dụng để có thể hiện thực một hàm huấn luyện tổng quát. Chúng ta sẽ sử dụng hàm này xuyên suốt các phần tiếp theo của chương.

In [None]:
#@save
def train_concise_ch11(trainer_fn, hyperparams, data_iter, num_epochs=4):
    # Initialization
    net = nn.Sequential(nn.Linear(5, 1))
    def init_weights(module):
        if type(module) == nn.Linear:
            torch.nn.init.normal_(module.weight, std=0.01)
    net.apply(init_weights)

    optimizer = trainer_fn(net.parameters(), **hyperparams)
    loss = nn.MSELoss(reduction='none')
    animator = d2l.Animator(xlabel='epoch', ylabel='loss',
                            xlim=[0, num_epochs], ylim=[0.22, 0.35])
    n, timer = 0, d2l.Timer()
    for _ in range(num_epochs):
        for X, y in data_iter:
            optimizer.zero_grad()
            out = net(X)
            y = y.reshape(out.shape)
            l = loss(out, y)
            l.mean().backward()
            optimizer.step()
            n += X.shape[0]
            if n % 200 == 0:
                timer.stop()
                # `MSELoss` computes squared error without the 1/2 factor
                animator.add(n/X.shape[0]/len(data_iter),
                             (d2l.evaluate_loss(net, data_iter, loss) / 2,))
                timer.start()
    print(f'loss: {animator.Y[0][-1]:.3f}, {timer.sum()/num_epochs:.3f} sec/epoch')

In [None]:
data_iter, _ = get_data_ch11(10)
trainer = torch.optim.SGD
train_concise_ch11(trainer, {'lr': 0.01}, data_iter)

## Excercises

### Exercise 1.
Sửa đổi kích thước batch và tốc độ học, quan sát tốc độ suy giảm giá trị của hàm mục tiêu và thời gian cho mỗi epoch.

In [None]:
# Thử nghiệm với các giá trị khác nhau của tốc độ học và kích thước batch
# Tốc độ học lớn hơn và kích thước batch nhỏ hơn
experiment_1 = train_sgd(lr=0.1, batch_size=5, num_epochs=5)


In [None]:
# Tốc độ học nhỏ hơn và kích thước batch lớn hơn
experiment_2 = train_sgd(lr=0.01, batch_size=50, num_epochs=5)


In [None]:
# Tốc độ học trung bình và kích thước batch trung bình
experiment_3 = train_sgd(lr=0.05, batch_size=20, num_epochs=5)

1. **Tốc độ học lớn hơn và kích thước batch nhỏ hơn**:
    - Với tốc độ học lớn và kích thước batch nhỏ, mô hình có thể hội tụ nhanh hơn nhưng dễ gặp phải dao động lớn trong quá trình tối ưu hóa do phương sai cao của gradient.

2. **Tốc độ học nhỏ hơn và kích thước batch lớn hơn**:
    - Với tốc độ học nhỏ và kích thước batch lớn, mô hình hội tụ ổn định hơn nhưng tốc độ hội tụ có thể chậm hơn do các bước cập nhật nhỏ.

3. **Tốc độ học trung bình và kích thước batch trung bình**:
    - Với tốc độ học và kích thước batch trung bình, mô hình đạt được sự cân bằng giữa tốc độ hội tụ và độ ổn định, thường mang lại kết quả tốt nhất.

Kích thước batch và tốc độ học là các siêu tham số quan trọng, cần được điều chỉnh phù hợp với bài toán cụ thể để đạt hiệu quả tối ưu.

### Exercise 2.
Đọc thêm tài liệu MXNet và sử dụng hàm set_learning_rate của lớp Trainer để giảm tốc độ học của SGD theo minibatch bằng 1/10 giá trị trước đó sau mỗi epoch.

In [None]:
import mxnet as mx
from mxnet import gluon, nd

# Define a simple model
net = gluon.nn.Sequential()
net.add(gluon.nn.Dense(10))
net.initialize(mx.init.Xavier())

# Initialize Trainer with SGD optimizer
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': 0.1})

# Simulate training loop
num_epochs = 5
for epoch in range(num_epochs):
    # Reduce learning rate by a factor of 10 after each epoch
    new_lr = trainer.learning_rate * 0.1
    trainer.set_learning_rate(new_lr)
    print(f'Epoch {epoch+1}: Learning rate = {new_lr}')


### Exercise 3.
Hãy so sánh SGD theo minibatch sử dụng một biến thể lấy mẫu có hoàn lại từ tập huấn luyện. Điều gì sẽ xảy ra?






Khi huấn luyện mô hình sử dụng phương pháp SGD theo minibatch thông thường, ta có:
- Cách hoạt động:
    + Với mỗi vòng lặp huấn luyện, tập dữ liệu sẽ được chia nhỏ thành các minibatch.
    + Mỗi minibatch chứa các mẫu dữ liệu độc nhất cho đến khi vòng lặp được hoàn thành.
    + Mỗi điểm dữ liệu chỉ được dùng 1 lần mỗi vòng lặp.
- Đặc điểm:
    + Ước lượng gradient hiệu quả: phương sai cho mỗi minibatch tương đối nhỏ.
    + Hội tụ nhanh và mượt mà hơn.
    + Đảm bảo các mẫu đều được xem xét mỗi vòng lặp huấn luyện.

So sánh với biến thể minibatch cho phép lấy mẫu hoàn lại từ tập dữ liệu, ta có:
- Cách hoạt động:
    + Với mỗi vòng lặp huấn luyện, các minibatch sẽ được tạo ra bằng cách lấy ngẫu nhiên từ tập dữ liệu.
    + Một vài mẫu sẽ được chọn nhiều lần, một vài mẫu thì không bao giờ được chọn.
    + Không đảm bảo rằng tất cả các điểm dữ liệu được dùng 1 lần mỗi vòng lặp.
- Đặc điểm:
    + Ước lượng gradient kém hiệu quả: có nhiều nhiễu do bị trùng hoặc thiếu một phần mẫu.
    + Hội tụ chậm hoặc kém ổn định
    + Thiếu tính khái quát hóa do bị overfit với các mẫu dữ liệu được lựa chọn nhiều và underfit với các mẫu dữ liệu không được lựa chọn. 

### Exercise 4.
Một ác thần đã sao chép tập dữ liệu của bạn mà không nói cho bạn biết (cụ thể, mỗi quan sát bị lặp lại hai lần và kích thước tập dữ liệu tăng gấp đôi so với ban đầu). Cách hoạt động của các thuật toán hạ gradient, SGD và SGD theo minibatch sẽ thay đổi như thế nào?



Nếu tập dữ liệu bị lặp lại, ta đang có kích thước của mẫu quan sát tăng lên nhưng không có thêm thông tin mới. Điều này ảnh hưởng khác nhau đến các phương pháp tối ưu theo các cách khác nhau:
1. Gradient Descent (GD) - Sử dụng toàn bộ mẫu dữ liệu
- Gradient Descent sử dụng toàn bộ mẫu dữ liệu, nên sẽ làm tăng giá trị hàm mất mát và độ dốc theo tỉ lệ thuận. Tuy nhiên, hướng của gradient sẽ không đổi, do ta chỉ cộng các thành phần lặp lại.
- Ảnh hưởng:
    + Hướng của gradient được giữ nguyên, nhưng được tăng lên.
    + Tốc độ học cần phải được điều chỉnh để duy trì được độ ổn định.
    + Chi phí tính toán tăng lên (lâu hơn mỗi vòng lặp nhưng không có thêm thông tin gì)
2. Stochastic Gradient Descent (SGD) – Sử dụng 1 mẫu
- Mỗi mẫu sẽ có khả năng cao hơn được chọn nhiều lần, nhưng không có sự thay đổi về chất lượng gradient và tính đa dạng của tập dữ liệu
- Ảnh hưởng:
    + Không có sự khác biệt cơ bản về quá trình huấn luyện.
    + Phương sai không đổi.
    + Hội tụ chậm hơn do trùng lặp dữ liệu.
3. Minibatch Stochastic Gradient Descent (Minibatch SGD) - Sử dụng tập con
- Các minibatch sẽ chứa nhiều mẫu trùng lặp hơn giữa các vòng lặp huấn luyện.
- Tốc độ học có thể chậm lại do liên tục thấy các mẫu trùng lặp
- Ảnh hưởng:
    + Hướng của gradient được giữ nguyên, nhưng tính khái quát lâu được cải thiện.
    + Có thể tốn các vòng lặp để huấn luyện các mẫu trùng lặp.