> PCA là “dao gọt dữ liệu” giúp **giảm chiều**, **tăng trực quan hóa**, và đôi khi giúp **tăng tốc mô hình**.


## 🧠 I. PCA là gì?

**Principal Component Analysis (PCA)** là một kỹ thuật **giảm chiều không giám sát**, biến đổi dữ liệu từ không gian ban đầu thành **tập tọa độ mới (các trục chính)** sao cho:

* **Trục đầu tiên (PC1)** chứa **nhiều phương sai nhất**
* **Trục thứ hai (PC2)** chứa phương sai **lớn thứ hai**, và **vuông góc** với trục đầu tiên
* …

Tóm lại:

> PCA tìm ra **tập trục tọa độ mới** mà trên đó dữ liệu **trải ra nhiều nhất**.


## 🧮 II. Toán học của PCA

Giả sử ta có dữ liệu $X \in \mathbb{R}^{n \times d}$ (n samples, d features):

1. **Chuẩn hóa dữ liệu**: trừ trung bình từng chiều → zero mean

2. **Tính ma trận hiệp phương sai (covariance)**:

   $$
   \Sigma = \frac{1}{n} X^T X
   $$

3. **Phân tích giá trị riêng (eigen decomposition)** hoặc **SVD**:

   * Tìm eigenvectors (v): các trục chính (principal components)
   * Tìm eigenvalues (λ): mức độ phương sai ứng với từng trục

4. **Giữ k trục đầu tiên** có eigenvalue lớn nhất → giảm chiều

5. **Biến đổi dữ liệu**:

   $$
   Z = X W_k
   $$

   Với $W_k \in \mathbb{R}^{d \times k}$: ma trận các vector riêng tương ứng với k giá trị riêng lớn nhất


## 📐 III. Mục tiêu của PCA

Tối đa hóa phương sai dữ liệu sau chiếu:

$$
\max_W \|XW\|^2 \quad \text{với } W^T W = I
$$

Hoặc:

> Tối thiểu hóa sai số phục hồi dữ liệu gốc từ không gian giảm chiều.


## 🧪 IV. Code ví dụ bằng `sklearn`

```python
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt

# Load data
X, y = load_iris(return_X_y=True)

# Giảm còn 2 chiều
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# Vẽ
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='Set1')
plt.xlabel("PC1")
plt.ylabel("PC2")
plt.title("PCA on Iris Dataset")
plt.show()

# Tỷ lệ phương sai giữ lại
print("Explained variance ratio:", pca.explained_variance_ratio_)
```


## 📊 V. Ưu & Nhược điểm

| Ưu điểm                     | Nhược điểm                          |
| --------------------------- | ----------------------------------- |
| Giảm chiều hiệu quả         | Không giữ nhãn (unsupervised)       |
| Dễ trực quan hóa dữ liệu    | Mất ý nghĩa ban đầu của đặc trưng   |
| Giảm nhiễu (noise)          | Không phù hợp với dữ liệu phi tuyến |
| Tăng tốc mô hình downstream | Dễ bị lạm dụng, mất thông tin       |


## 🧩 VI. Khi nào dùng PCA?

* Trực quan hóa dữ liệu cao chiều (d > 2)
* Trước khi huấn luyện mô hình: giảm chiều, loại nhiễu
* Tăng tốc độ huấn luyện / tránh overfitting
* Làm preprocessing cho các mô hình ML cổ điển


## 🌌 VII. PCA vs t-SNE vs UMAP

| Thuật toán | Bản chất   | Ưu điểm                      | Nhược điểm                              |
| ---------- | ---------- | ---------------------------- | --------------------------------------- |
| **PCA**    | Tuyến tính | Nhanh, dễ hiểu               | Không phát hiện được cấu trúc phi tuyến |
| **t-SNE**  | Phi tuyến  | Hiển thị cụm rất tốt         | Chậm, không tái sử dụng                 |
| **UMAP**   | Phi tuyến  | Nhanh hơn t-SNE, tốt hơn PCA | Cần chọn tham số cẩn thận               |


## 🎓 Tổng kết

| Mục           | Nội dung                                      |
| ------------- | --------------------------------------------- |
| Tên           | Principal Component Analysis                  |
| Loại          | Unsupervised – giảm chiều                     |
| Mục tiêu      | Giữ phương sai cao nhất trên ít chiều nhất    |
| Công cụ chính | Eigenvector / SVD                             |
| Ứng dụng      | Visualization, preprocessing, noise reduction |
