# Singular Value Decomposition (SVD) - Phân rã giá trị suy biến

## 1. Giới thiệu

SVD (Singular Value Decomposition) là một kỹ thuật trong đại số tuyến tính được sử dụng rộng rãi trong học máy, khai phá dữ liệu và xử lý tín hiệu. Mục tiêu của SVD là phân rã một ma trận thành tích của ba ma trận khác nhau, qua đó giúp hiểu rõ cấu trúc dữ liệu, giảm chiều, và trích xuất đặc trưng hiệu quả.

## 2. Cách hoạt động của SVD

Cho một ma trận thực \( A \in \mathbb{R}^{m \times n} \), SVD phân rã \( A \) thành tích của ba ma trận:

$$
A = U \Sigma V^T
$$

- \( U \in \mathbb{R}^{m \times m} \): ma trận trực chuẩn cột (orthogonal), chứa **vector riêng** của \( AA^T \).
- \( \Sigma \in \mathbb{R}^{m \times n} \): ma trận đường chéo chứa **giá trị suy biến** (singular values), được sắp xếp giảm dần.
- \( V^T \in \mathbb{R}^{n \times n} \): chuyển vị của ma trận trực chuẩn, chứa **vector riêng** của \( A^T A \).

> Các giá trị suy biến trong \( \Sigma \) tương đương với căn bậc hai của các giá trị riêng của \( A^T A \) (hoặc \( AA^T \)).

## 3. Các bước thực hiện SVD

1. Tính ma trận \( A^T A \) và/hoặc \( AA^T \).
2. Tính các giá trị riêng và vector riêng tương ứng.
3. Sắp xếp các giá trị suy biến giảm dần trong ma trận \( \Sigma \).
4. Tạo các ma trận \( U \), \( \Sigma \), và \( V^T \) dựa trên các vector riêng đã chuẩn hóa.

## 4. Giảm chiều dữ liệu với SVD

Tương tự PCA, SVD cũng có thể dùng để giảm chiều bằng cách giữ lại \( k \) giá trị suy biến lớn nhất:

$$
A_k = U_k \Sigma_k V_k^T
$$

- \( U_k \): chứa \( k \) cột đầu tiên của \( U \)
- \( \Sigma_k \): ma trận \( k \times k \) chứa \( k \) giá trị suy biến lớn nhất
- \( V_k \): chứa \( k \) cột đầu tiên của \( V \)

## 5. Các công thức quan trọng

### 5.1 Ma trận SVD đầy đủ

$$
A = U \Sigma V^T
$$

### 5.2 Xấp xỉ bậc thấp của ma trận

$$
A_k = \sum_{i=1}^{k} \sigma_i u_i v_i^T
$$

- \( \sigma_i \): giá trị suy biến thứ \( i \)
- \( u_i \): vector cột thứ \( i \) trong \( U \)
- \( v_i \): vector cột thứ \( i \) trong \( V \)

### 5.3 Tỷ lệ phương sai giải thích (Explained Variance Ratio)

$$
\text{EVR}_k = \frac{\sum_{i=1}^{k} \sigma_i^2}{\sum_{i=1}^{r} \sigma_i^2}
$$

- $ r $: hạng của ma trận $ A $
- $ sigma_i$: giá trị suy biến thứ $ i $

## 6. Ứng dụng của SVD

- **Giảm chiều dữ liệu**: Lưu trữ dữ liệu hiệu quả hơn, giảm nhiễu.
- **Hệ thống gợi ý**: SVD là kỹ thuật phổ biến trong hệ thống gợi ý (recommendation systems), như trong Netflix hay Amazon.
- **Nén ảnh**: SVD giúp giữ lại thông tin chính của ảnh với số dữ liệu ít hơn.
- **Phân tích ngữ nghĩa tiềm ẩn (LSA)**: Dùng trong xử lý ngôn ngữ tự nhiên để tìm mối liên hệ giữa các từ và tài liệu.
- **Khử nhiễu tín hiệu**: Giữ lại các thành phần tín hiệu chính và loại bỏ nhiễu.