In [7]:
import sys
print(sys.executable)

c:\Users\Admin\AppData\Local\Programs\Python\Python312\python.exe


# **Giai đoạn 1: Nền tảng cơ bản**

### 1.Tensor là gì và tại sao cần học về tensor: ###
- Tensor là cấu trúc dữ liệu cơ bản trong PyTorch, tương tự như NumPy array nhưng được tối ưu cho deep learning
- Tensor có thể chạy trên GPU để tăng tốc độ tính toán
- Tensor tự động tính được đạo hàm (gradient) - rất quan trọng trong quá trình huấn luyện neural network

### 2.Các cách tạo tensor cơ bản: ###

In [3]:
import torch
import numpy as np

# Tạo tensor từ list
x = torch.tensor([1, 2, 3, 4])

# Tạo tensor với giá trị ngẫu nhiên
random_tensor = torch.rand(size=(3, 4))
print(random_tensor)

# Tạo tensor toàn số 0 hoặc 1
zeros = torch.zeros(size=(3, 4))
ones = torch.ones(size=(3, 4))
eye = torch.eye(3)
print(zeros)
print(ones)
print(eye)

# Tạo tensor với giá trị tuần tự
range_tensor = torch.arange(start=0, end=10, step=2)
linspace_tensor = torch.linspace(start=0.1, end=1, steps=10)
print(range_tensor)
print(linspace_tensor)

# Tạo tensor với shape giống tensor khác
x_ones = torch.ones_like(x)
x_zeros = torch.zeros_like(x)
print(x_ones)
print(x_zeros)


tensor([[0.5293, 0.5100, 0.8884, 0.5631],
        [0.8076, 0.6140, 0.0794, 0.1053],
        [0.7795, 0.0860, 0.1649, 0.8359]])
tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])
tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])
tensor([[1., 0., 0.],
        [0., 1., 0.],
        [0., 0., 1.]])
tensor([0, 2, 4, 6, 8])
tensor([0.1000, 0.2000, 0.3000, 0.4000, 0.5000, 0.6000, 0.7000, 0.8000, 0.9000,
        1.0000])
tensor([1, 1, 1, 1])
tensor([0, 0, 0, 0])


### 3.Các thuộc tính quan trọng của tensor: ###
- shape: kích thước của tensor
- dtype: kiểu dữ liệu (float32, int64,...)
- device: tensor được lưu ở đâu (CPU hay GPU)

In [4]:
# Ví dụ kiểm tra thuộc tính
print(x.shape)      # Kích thước
print(x.dtype)      # Kiểu dữ liệu
print(x.device)     # Thiết bị lưu tensor

torch.Size([4])
torch.int64
cpu


### 4.Các phép toán tensor cơ bản: ###

In [9]:
tensor = torch.tensor([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])

tensor1 = torch.tensor([[1, 2], [3, 4]])
tensor2 = torch.tensor([[5, 6], [7, 8]])

new_shape = (2, 5)

# Phép cộng
result = tensor1 + tensor2
# hoặc
result = torch.add(tensor1, tensor2)

# Phép nhân ma trận
result = torch.matmul(tensor1, tensor2)
# hoặc
result = tensor1 @ tensor2

# Reshape tensor
reshaped = tensor.reshape(new_shape)
# hoặc
reshaped = tensor.view(new_shape)

print(reshaped)

tensor([[ 1,  2,  3,  4,  5],
        [ 6,  7,  8,  9, 10]])


### 5.Các thao tác tensor nâng cao: ###

In [21]:
# Indexing
print(tensor[0])          # Phần tử đầu tiên
print(tensor[1:4])       # Slice tensor
print(tensor[4])        # Phần tử thứ 5

# Concatenate tensors
concat = torch.cat([tensor1, tensor2], dim=0)
print(concat)

# Stack tensors
stacked = torch.stack([tensor1, tensor2], dim=0)
print(stacked)

tensor([1, 2])
tensor([[3, 4],
        [5, 6],
        [7, 8]])
tensor([ 9, 10])
tensor([[1, 2],
        [3, 4],
        [5, 6],
        [7, 8]])
tensor([[[1, 2],
         [3, 4]],

        [[5, 6],
         [7, 8]]])


### 6.Chuyển đổi giữa các kiểu dữ liệu: ###

In [None]:
# Chuyển từ NumPy sang PyTorch
numpy_array = np.array([1, 2, 3])
torch_tensor = torch.from_numpy(numpy_array)

# Chuyển từ PyTorch sang NumPy
numpy_array = torch_tensor.numpy()

### 7.Chuyển đổi CPU và GPU: ###

In [6]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")
if torch.cuda.is_available():
    print("CUDA available:", torch.cuda.is_available())
    print("GPU Name:", torch.cuda.get_device_name(0))

Using device: cpu


# Các lớp Layer trong Neural Network

## 1. Fully Connected Layer (Linear Layer)

### Công thức
- **Input**: $X \in \mathbb{R}^{n \times d_{in}}$ (n là số lượng mẫu, $d_{in}$ là số chiều đầu vào)
- **Output**: $Y = XW + b \in \mathbb{R}^{n \times d_{out}}$ ($d_{out}$ là số chiều đầu ra)

### Tham số
- **Weights** ($W \in \mathbb{R}^{d_{in} \times d_{out}}$): Ma trận trọng số
- **Bias** ($b \in \mathbb{R}^{d_{out}}$): Vector độ lệch
- Tổng số tham số: $d_{in} \times d_{out} + d_{out}$

### Cơ chế hoạt động
- Thực hiện phép biến đổi tuyến tính từ không gian đầu vào sang không gian đầu ra
- Mỗi neuron ở lớp đầu ra kết nối với tất cả các neuron ở lớp đầu vào
- Không có chia sẻ tham số

### Nên dùng khi nào
- Nên dùng khi cần mô hình hóa mối quan hệ phức tạp giữa tất cả các đặc trưng đầu vào
- Thường dùng ở lớp cuối cùng để ánh xạ đặc trưng sang không gian output (phân loại, hồi quy)

### Hạn chế
- Số lượng tham số lớn, dễ bị overfitting với dữ liệu lớn
- Không có tính chất bất biến với vị trí (không phù hợp cho dữ liệu có cấu trúc như ảnh, văn bản)
- Mất thông tin không gian/thứ tự của dữ liệu đầu vào

### Ứng dụng mạnh mẽ
- Trong MLP (Multilayer Perceptron) cho các bài toán phân loại đơn giản
- Kết hợp với các layer khác trong các kiến trúc mạng phức tạp
- Lớp cuối cùng trong hầu hết các mô hình deep learning

## 2. Convolutional Layer (Conv2D)

### Công thức
- **Input**: $X \in \mathbb{R}^{n \times c_{in} \times h_{in} \times w_{in}}$ (n: batch size, $c_{in}$: số kênh đầu vào, $h_{in}, w_{in}$: chiều cao, rộng)
- **Output**: $Y \in \mathbb{R}^{n \times c_{out} \times h_{out} \times w_{out}}$
- Với:
  - $h_{out} = \lfloor \frac{h_{in} + 2p - k}{s} + 1 \rfloor$
  - $w_{out} = \lfloor \frac{w_{in} + 2p - k}{s} + 1 \rfloor$
  - (p: padding, k: kernel size, s: stride)

### Tham số
- **Kernels/Filters** ($W \in \mathbb{R}^{c_{out} \times c_{in} \times k \times k}$): Bộ lọc tích chập
- **Bias** ($b \in \mathbb{R}^{c_{out}}$): Vector độ lệch cho mỗi kênh đầu ra
- Tổng số tham số: $c_{out} \times c_{in} \times k \times k + c_{out}$

### Cơ chế hoạt động
- Thực hiện tích chập giữa kernel và vùng cục bộ của dữ liệu đầu vào
- Di chuyển kernel theo stride, tính tổng tích chập tại mỗi vị trí
- Chia sẻ trọng số: cùng một kernel được sử dụng trên toàn bộ ảnh đầu vào

### Nên dùng khi nào
- Với dữ liệu có tính chất không gian như ảnh, video
- Khi cần trích xuất đặc trưng cục bộ và giữ lại thông tin không gian
- Khi muốn giảm số lượng tham số so với Fully Connected

### Hạn chế
- Có thể mất thông tin tổng thể/toàn cục trong dữ liệu
- Khó mô hình hóa mối quan hệ giữa các vùng xa nhau trong ảnh
- Không hiệu quả với dữ liệu không có tính chất không gian

### Ứng dụng mạnh mẽ
- Computer Vision: phân loại ảnh, phát hiện đối tượng, phân đoạn ảnh
- Xử lý tín hiệu thời gian 1D (Conv1D cho dữ liệu âm thanh, EEG)
- NLP: tích chập trong văn bản để trích xuất n-grams

## 3. Recurrent Neural Network (RNN Layer)

### Công thức
- **Input**: $X = (x_1, x_2, ..., x_T) \in \mathbb{R}^{T \times d_{in}}$ (T: độ dài chuỗi, $d_{in}$: chiều đầu vào)
- **Output**: $H = (h_1, h_2, ..., h_T) \in \mathbb{R}^{T \times d_{hidden}}$
- Công thức cập nhật: $h_t = \tanh(W_{ih} x_t + W_{hh} h_{t-1} + b_h)$

### Tham số
- **Input weights** ($W_{ih} \in \mathbb{R}^{d_{in} \times d_{hidden}}$): Trọng số đầu vào
- **Hidden weights** ($W_{hh} \in \mathbb{R}^{d_{hidden} \times d_{hidden}}$): Trọng số trạng thái ẩn
- **Bias** ($b_h \in \mathbb{R}^{d_{hidden}}$): Độ lệch
- Tổng số tham số: $d_{in} \times d_{hidden} + d_{hidden} \times d_{hidden} + d_{hidden}$

### Cơ chế hoạt động
- Xử lý dữ liệu tuần tự, một phần tử một thời điểm
- Duy trì trạng thái ẩn chứa thông tin từ các phần tử trước đó
- Chia sẻ tham số theo thời gian: cùng một bộ tham số được áp dụng tại mỗi bước thời gian

### Nên dùng khi nào
- Với dữ liệu tuần tự như văn bản, chuỗi thời gian, âm thanh
- Khi cần mô hình hóa phụ thuộc thời gian và ngữ cảnh

### Hạn chế
- Vấn đề gradient biến mất/bùng nổ khi chuỗi dài
- Khó nắm bắt phụ thuộc dài hạn
- Tính toán tuần tự không tận dụng được tính song song

### Ứng dụng mạnh mẽ
- NLP: phân tích cảm xúc, sinh văn bản (trước khi Transformer phổ biến)
- Phân tích chuỗi thời gian: dự báo, phát hiện bất thường
- Nhận dạng giọng nói, máy dịch tuần tự

## 4. LSTM Layer (Long Short-Term Memory)

### Công thức
- **Input**: $X = (x_1, x_2, ..., x_T) \in \mathbb{R}^{T \times d_{in}}$
- **Output**: $H = (h_1, h_2, ..., h_T) \in \mathbb{R}^{T \times d_{hidden}}$
- **Công thức cập nhật**:
  - Forget gate: $f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$
  - Input gate: $i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)$
  - Cell candidate: $\tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)$
  - Cell state: $C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$
  - Output gate: $o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)$
  - Hidden state: $h_t = o_t \odot \tanh(C_t)$

### Tham số
- Weights cho 4 cổng: $W_f, W_i, W_C, W_o \in \mathbb{R}^{(d_{in} + d_{hidden}) \times d_{hidden}}$
- Bias cho 4 cổng: $b_f, b_i, b_C, b_o \in \mathbb{R}^{d_{hidden}}$
- Tổng số tham số: $4 \times [(d_{in} + d_{hidden}) \times d_{hidden} + d_{hidden}]$

### Cơ chế hoạt động
- Mở rộng RNN với cơ chế cổng (gates) để kiểm soát luồng thông tin
- Cell state hoạt động như một băng chuyền thông tin, cho phép thông tin chảy qua mạng không bị ảnh hưởng
- Các cổng quyết định thông tin nào nên được quên (forget), ghi nhớ (input), và xuất ra (output)

### Nên dùng khi nào
- Khi cần mô hình hóa phụ thuộc dài hạn trong dữ liệu tuần tự
- Thay thế RNN thông thường để tránh vấn đề gradient biến mất

### Hạn chế
- Tính toán phức tạp hơn RNN thông thường
- Vẫn có vấn đề với chuỗi rất dài
- Tính toán tuần tự khó song song hóa

### Ứng dụng mạnh mẽ
- Máy dịch, tóm tắt văn bản
- Dự báo chuỗi thời gian phức tạp
- Sinh nhạc, văn bản dài
- Mô hình hóa hành vi người dùng theo thời gian

## 5. Self-Attention Layer

### Công thức
- **Input**: $X \in \mathbb{R}^{n \times d_{model}}$ (n: số token, $d_{model}$: chiều của mỗi token)
- **Output**: $Y \in \mathbb{R}^{n \times d_{model}}$
- **Công thức**:
  - Queries: $Q = XW^Q \in \mathbb{R}^{n \times d_k}$
  - Keys: $K = XW^K \in \mathbb{R}^{n \times d_k}$
  - Values: $V = XW^V \in \mathbb{R}^{n \times d_v}$
  - Attention scores: $A = \text{softmax}(\frac{QK^T}{\sqrt{d_k}}) \in \mathbb{R}^{n \times n}$
  - Output: $Y = AV \in \mathbb{R}^{n \times d_v}$

### Tham số
- **Query weights**: $W^Q \in \mathbb{R}^{d_{model} \times d_k}$
- **Key weights**: $W^K \in \mathbb{R}^{d_{model} \times d_k}$
- **Value weights**: $W^V \in \mathbb{R}^{d_{model} \times d_v}$
- Tổng số tham số: $d_{model} \times d_k + d_{model} \times d_k + d_{model} \times d_v$

### Cơ chế hoạt động
- Mỗi phần tử tương tác với tất cả các phần tử khác để nắm bắt mối quan hệ toàn cục
- Ma trận attention scores thể hiện mức độ liên quan giữa các cặp phần tử
- Đầu ra của mỗi vị trí là tổng có trọng số của các giá trị value, với trọng số là attention score

### Nên dùng khi nào
- Khi cần mô hình hóa mối quan hệ toàn cục giữa các phần tử trong chuỗi
- Khi dữ liệu có cấu trúc phức tạp không tuần tự

### Hạn chế
- Độ phức tạp tính toán và bộ nhớ là O(n²) với n là độ dài chuỗi
- Không hiệu quả với chuỗi rất dài
- Cần kết hợp với positional encoding để nắm bắt thông tin vị trí

### Ứng dụng mạnh mẽ
- NLP: mô hình Transformer cho máy dịch, tóm tắt, Q&A
- Computer Vision: Vision Transformer (ViT) cho phân loại ảnh, phát hiện đối tượng
- Multimodal: kết hợp thông tin từ nhiều modalites (text-image trong CLIP)

## 6. Multi-Head Attention Layer

### Công thức
- **Input**: $X \in \mathbb{R}^{n \times d_{model}}$ (n: số token, $d_{model}$: chiều của mỗi token)
- **Output**: $Y \in \mathbb{R}^{n \times d_{model}}$
- **Công thức**:
  - Đối với mỗi head i từ 1 đến h:
    - $Q_i = XW_i^Q \in \mathbb{R}^{n \times d_k}$
    - $K_i = XW_i^K \in \mathbb{R}^{n \times d_k}$
    - $V_i = XW_i^V \in \mathbb{R}^{n \times d_v}$
    - $\text{head}_i = \text{Attention}(Q_i, K_i, V_i) \in \mathbb{R}^{n \times d_v}$
  - Nối các heads: $\text{MultiHead} = \text{Concat}(\text{head}_1, ..., \text{head}_h) \in \mathbb{R}^{n \times (h \times d_v)}$
  - Đầu ra cuối cùng: $Y = \text{MultiHead}W^O \in \mathbb{R}^{n \times d_{model}}$

### Tham số
- **Query weights** cho h heads: $W_i^Q \in \mathbb{R}^{d_{model} \times d_k}$ (i từ 1 đến h)
- **Key weights** cho h heads: $W_i^K \in \mathbb{R}^{d_{model} \times d_k}$ (i từ 1 đến h)
- **Value weights** cho h heads: $W_i^V \in \mathbb{R}^{d_{model} \times d_v}$ (i từ 1 đến h)
- **Output weights**: $W^O \in \mathbb{R}^{(h \times d_v) \times d_{model}}$
- Tổng số tham số: $h \times (d_{model} \times d_k + d_{model} \times d_k + d_{model} \times d_v) + (h \times d_v) \times d_{model}$

### Cơ chế hoạt động
- Chạy h cơ chế self-attention song song, mỗi cơ chế có các tham số riêng
- Mỗi head có thể tập trung vào các khía cạnh khác nhau của mối quan hệ (ngữ pháp, ngữ nghĩa, etc.)
- Kết quả từ tất cả các heads được kết hợp thông qua một phép chiếu tuyến tính

### Nên dùng khi nào
- Khi cần nắm bắt các loại mối quan hệ phức tạp trong dữ liệu
- Cốt lõi của các mô hình Transformer hiện đại

### Hạn chế
- Độ phức tạp tính toán và bộ nhớ cao (vẫn là O(n²))
- Số lượng tham số lớn
- Cần kỹ thuật như Sparse Attention để xử lý chuỗi dài

### Ứng dụng mạnh mẽ
- Các mô hình ngôn ngữ lớn (GPT, BERT, LLaMA)
- Vision Transformers đạt SOTA trong Computer Vision
- Mô hình đa phương thức (CLIP, Flamingo)

## 7. Embedding Layer

### Công thức
- **Input**: Chỉ số nguyên $i \in \{0, 1, 2, ..., V-1\}$ (V: kích thước từ điển)
- **Output**: Vector nhúng $e_i \in \mathbb{R}^d$ (d: chiều nhúng)

### Tham số
- **Embedding matrix**: $E \in \mathbb{R}^{V \times d}$ (V: kích thước từ điển, d: chiều nhúng)
- Tổng số tham số: $V \times d$

### Cơ chế hoạt động
- Ánh xạ các giá trị rời rạc (như token, từ, ký tự) sang không gian vector liên tục
- Hoạt động như một bảng tra cứu: chỉ số i tra cứu hàng thứ i trong ma trận embedding

### Nên dùng khi nào
- Với dữ liệu rời rạc, phân loại như từ, ký tự, ID người dùng, ID sản phẩm
- Khi muốn biểu diễn các đối tượng rời rạc trong không gian liên tục để xử lý bằng mạng neural

### Hạn chế
- Số lượng tham số lớn với từ điển lớn
- Không chia sẻ thông tin giữa các token hiếm
- Cần kỹ thuật như subword tokenization để xử lý OOV (out-of-vocabulary)

### Ứng dụng mạnh mẽ
- NLP: nhúng từ và token cho mọi mô hình ngôn ngữ
- Hệ thống gợi ý: nhúng ID người dùng và sản phẩm
- Knowledge Graph: nhúng thực thể và quan hệ

## 8. Layer Normalization

### Công thức
- **Input**: $x \in \mathbb{R}^{n \times d}$ (n: batch size, d: số chiều đặc trưng)
- **Output**: $y \in \mathbb{R}^{n \times d}$
- **Công thức**:
  - Tính mean và variance cho mỗi mẫu dọc theo chiều đặc trưng:
    - $\mu_i = \frac{1}{d}\sum_{j=1}^{d}x_{ij}$
    - $\sigma_i^2 = \frac{1}{d}\sum_{j=1}^{d}(x_{ij} - \mu_i)^2$
  - Chuẩn hóa: $\hat{x}_{ij} = \frac{x_{ij} - \mu_i}{\sqrt{\sigma_i^2 + \epsilon}}$
  - Scale và shift: $y_{ij} = \gamma \cdot \hat{x}_{ij} + \beta$

### Tham số
- **Scale** ($\gamma \in \mathbb{R}^d$): Hệ số tỷ lệ cho mỗi đặc trưng
- **Shift** ($\beta \in \mathbb{R}^d$): Hệ số dịch chuyển cho mỗi đặc trưng
- Tổng số tham số: $2 \times d$

### Cơ chế hoạt động
- Chuẩn hóa đặc trưng theo mỗi mẫu riêng lẻ (không phải theo batch như Batch Normalization)
- Giúp ổn định quá trình học trong các mạng sâu
- Giảm thiểu sự phụ thuộc vào kích thước batch

### Nên dùng khi nào
- Trong các mô hình Transformer và RNN
- Khi batch size nhỏ
- Khi muốn chuẩn hóa đặc trưng mà không bị ảnh hưởng bởi các mẫu khác trong batch

### Hạn chế
- Có thể kém hiệu quả hơn Batch Normalization trong một số trường hợp CNN
- Thêm chi phí tính toán
- Không cung cấp hiệu ứng regularization như Batch Normalization

### Ứng dụng mạnh mẽ
- Các mô hình Transformer trong NLP (GPT, BERT)
- Vision Transformer trong Computer Vision
- Mô hình RNN/LSTM khi train với chuỗi có độ dài khác nhau

## 9. Dropout Layer

### Công thức
- **Input**: $x \in \mathbb{R}^{n \times d}$ (n: batch size, d: số chiều đặc trưng)
- **Output**: $y \in \mathbb{R}^{n \times d}$
- **Công thức**:
  - Trong quá trình huấn luyện:
    - Generate mask: $m_{ij} \sim \text{Bernoulli}(p)$ (p: xác suất giữ lại)
    - Áp dụng mask và scale: $y_{ij} = \frac{m_{ij} \cdot x_{ij}}{p}$
  - Trong quá trình suy luận: $y_{ij} = x_{ij}$

### Tham số
- **Dropout rate** (1-p): Xác suất một neuron bị "drop"
- Tổng số tham số: 0 (không có tham số có thể học)

### Cơ chế hoạt động
- Trong quá trình huấn luyện, ngẫu nhiên "tắt" một tỷ lệ các neuron
- Scale các neuron còn lại để bảo toàn giá trị mong đợi của đầu ra
- Trong quá trình suy luận, sử dụng tất cả các neuron mà không áp dụng dropout

### Nên dùng khi nào
- Khi muốn ngăn overfitting trong mô hình lớn
- Giữa các lớp fully connected
- Trong các mô hình với nhiều tham số

### Hạn chế
- Có thể làm chậm quá trình hội tụ
- Yêu cầu model lớn hơn để đạt hiệu quả tốt
- Không hiệu quả trong một số kiến trúc hiện đại với normalization tốt

### Ứng dụng mạnh mẽ
- Regularization trong hầu hết các loại mạng neural
- MLP và fully connected layers
- Giữa các layer trong RNN/LSTM để tránh overfitting

## 10. Pooling Layers (Max Pooling, Average Pooling)

### Công thức
- **Input**: $X \in \mathbb{R}^{n \times c \times h \times w}$ (n: batch size, c: số kênh, h,w: chiều cao, rộng)
- **Output**: $Y \in \mathbb{R}^{n \times c \times h_{out} \times w_{out}}$
- **Công thức Max Pooling**:
  - $Y_{i,j,k,l} = \max_{0 \leq m < k_h, 0 \leq n < k_w} X_{i,j,k \times s_h + m, l \times s_w + n}$
- **Công thức Average Pooling**:
  - $Y_{i,j,k,l} = \frac{1}{k_h \times k_w}\sum_{m=0}^{k_h-1}\sum_{n=0}^{k_w-1} X_{i,j,k \times s_h + m, l \times s_w + n}$

### Tham số
- **Kernel size** ($k_h, k_w$): Kích thước cửa sổ pooling
- **Stride** ($s_h, s_w$): Bước nhảy giữa các cửa sổ pooling
- **Padding** (p): Đệm thêm xung quanh đầu vào
- Tổng số tham số: 0 (không có tham số có thể học)

### Cơ chế hoạt động
- **Max Pooling**: Chọn giá trị lớn nhất trong mỗi cửa sổ
- **Average Pooling**: Tính trung bình các giá trị trong mỗi cửa sổ
- Giảm kích thước không gian của đầu vào, giữ lại thông tin quan trọng

### Nên dùng khi nào
- **Max Pooling**: Khi muốn giữ lại các đặc trưng nổi bật (edges, textures)
- **Average Pooling**: Khi muốn giữ thông tin background và texture tổng thể
- Khi muốn giảm kích thước feature map và số lượng tham số trong mạng

### Hạn chế
- Mất thông tin không gian chính xác
- Không có tham số có thể học
- Các kiến trúc hiện đại (như ResNet) thường thay thế bằng convolution với stride>1

### Ứng dụng mạnh mẽ
- CNN truyền thống (LeNet, AlexNet, VGG)
- Max Pooling: phát hiện đối tượng, trích xuất đặc trưng cục bộ
- Average Pooling: phân loại toàn cục (Global Average Pooling trong NIN, ResNet)

## 11. Batch Normalization Layer

### Công thức
- **Input**: $X \in \mathbb{R}^{n \times d}$ (n: batch size, d: số chiều đặc trưng)
- **Output**: $Y \in \mathbb{R}^{n \times d}$
- **Công thức**:
  - Tính mean và variance theo batch cho mỗi đặc trưng:
    - $\mu_j = \frac{1}{n}\sum_{i=1}^{n}x_{ij}$
    - $\sigma_j^2 = \frac{1}{n}\sum_{i=1}^{n}(x_{ij} - \mu_j)^2$
  - Chuẩn hóa: $\hat{x}_{ij} = \frac{x_{ij} - \mu_j}{\sqrt{\sigma_j^2 + \epsilon}}$
  - Scale và shift: $y_{ij} = \gamma_j \cdot \hat{x}_{ij} + \beta_j$
  - Trong quá trình suy luận, sử dụng mean và variance running:
    - $\hat{x}_{ij} = \frac{x_{ij} - E[\mu_j]}{\sqrt{E[\sigma_j^2] + \epsilon}}$

### Tham số
- **Scale** ($\gamma \in \mathbb{R}^d$): Hệ số tỷ lệ cho mỗi đặc trưng
- **Shift** ($\beta \in \mathbb{R}^d$): Hệ số dịch chuyển cho mỗi đặc trưng
- **Running mean** và **Running variance** (được cập nhật trong quá trình huấn luyện)
- Tổng số tham số có thể học: $2 \times d$

### Cơ chế hoạt động
- Chuẩn hóa đầu vào của mỗi layer để có mean=0, variance=1 theo batch
- Giảm thiểu "internal covariate shift" - sự thay đổi phân phối đặc trưng trong quá trình huấn luyện
- Cho phép sử dụng learning rate lớn hơn và initialization ít nhạy cảm hơn

### Nên dùng khi nào
- Trong các mạng CNN sâu
- Khi batch size đủ lớn (thường ≥