
## **5.1. Machine Learning là gì?**

### **5.1.1. Khái niệm cơ bản**

Machine Learning (ML) là phương pháp xây dựng mô hình toán học từ dữ liệu. Mô hình có khả năng tự điều chỉnh để thích nghi với dữ liệu đã quan sát, từ đó dự đoán hoặc phân tích dữ liệu mới. Không giống như các chương trình truyền thống, ML học từ dữ liệu thay vì được lập trình rõ ràng từng bước.

> 🌍 **Ứng dụng thực tế**:
> - Dự đoán nhu cầu thị trường từ dữ liệu bán hàng  
> - Nhận diện khuôn mặt, giọng nói  
> - Phân loại thư rác, gợi ý video, sản phẩm  

---

### **5.1.2. Các loại học máy**

- **Supervised Learning**: học từ dữ liệu có nhãn (ví dụ: dự đoán giá nhà, phân loại ảnh).
- **Unsupervised Learning**: học từ dữ liệu không nhãn (ví dụ: phân cụm khách hàng).
- **Semi-supervised Learning**: kết hợp cả hai khi nhãn bị thiếu hoặc không đầy đủ.

> ✔️ **Lợi ích**: ML mở ra khả năng tự động hóa, mở rộng phân tích dữ liệu với tốc độ vượt trội so với khả năng con người.

---

## **5.2. Giới thiệu Scikit-Learn**

### **5.2.1. Tổng quan về thư viện Scikit-Learn**

Scikit-Learn là một thư viện mã nguồn mở nổi bật trong Python dùng để triển khai thuật toán ML, cung cấp:
- Các mô hình học máy chuẩn hóa: classification, regression, clustering,...
- Giao diện API thống nhất, dễ học, dễ dùng
- Tích hợp với NumPy, Pandas, Matplotlib

---

### **5.2.2. Cách sử dụng Scikit-Learn theo 5 bước**

1. **Chọn lớp mô hình**: `LinearRegression`, `KNeighborsClassifier`, v.v.  
2. **Cài đặt siêu tham số**: như `n_neighbors=3`  
3. **Chuẩn bị dữ liệu**: tách `X` và `y`  
4. **Huấn luyện**: `.fit(X_train, y_train)`  
5. **Dự đoán**: `.predict(X_test)` hoặc `.transform()`

> 📌 **Ứng dụng thực tế**: nhanh chóng thử nghiệm nhiều mô hình để chọn mô hình tối ưu mà không viết lại nhiều code.

---

## **5.3. Siêu tham số và đánh giá mô hình**

### **5.3.1. Siêu tham số là gì?**

- Là các tham số được thiết lập trước khi huấn luyện, không học được từ dữ liệu.
- Ví dụ: số lá trong cây quyết định, số cụm trong KMeans,...

### **5.3.2. Xác thực mô hình – Tại sao cần?**

Nếu đánh giá mô hình trên chính dữ liệu huấn luyện, ta dễ bị “ảo tưởng” về độ chính xác (overfitting). Giải pháp:
- **Train/Test split**
- **Cross-validation**: chia tập dữ liệu nhiều lần và hoán đổi vai trò train/test
- **GridSearchCV**: thử nhiều bộ siêu tham số để tìm cái tốt nhất

---

### **5.3.3. Đánh đổi bias–variance**

- **Bias cao** → mô hình đơn giản, underfitting  
- **Variance cao** → mô hình quá phức tạp, overfitting  

> ⚙️ **Thực hành tốt**: Dùng biểu đồ learning curve để theo dõi chất lượng huấn luyện và dự đoán theo kích thước dữ liệu.

> 🌟 **Ứng dụng**: Tối ưu mô hình trong dự đoán tài chính, y tế, dự báo kinh doanh – nơi hiệu quả dự đoán quyết định lợi nhuận hoặc sinh mạng.

---

## **5.4. Kỹ thuật xây dựng đặc trưng (Feature Engineering)**

### **5.4.1. Tại sao cần kỹ thuật đặc trưng?**

Dữ liệu thực tế hiếm khi sẵn sàng đưa vào mô hình ML. Phải chuyển đổi về dạng số học được `[n_samples, n_features]` → quá trình đó gọi là feature engineering.

---

### **5.4.2. Một số kỹ thuật phổ biến**

- **Biến phân loại** → One-hot encoding  
- **Dữ liệu văn bản** → CountVectorizer, TF-IDF  
- **Dữ liệu ảnh** → Vector đặc trưng  
- **Dữ liệu thiếu** → Impute bằng trung bình, trung vị  
- **Dẫn xuất đặc trưng** → thêm `x²`, `log(x)`, v.v.  
- **Tự động hóa** → dùng `Pipeline` để gộp bước xử lý

```python
from sklearn.pipeline import make_pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

pipeline = make_pipeline(
    SimpleImputer(strategy="mean"),
    PolynomialFeatures(degree=3),
    LinearRegression()
)
```

> 🧠 **Ứng dụng**:  
> - Biến văn bản feedback khách hàng thành dữ liệu định lượng  
> - Tự động hóa xử lý dữ liệu trong hệ thống AI  

---



## **5.5. Phân loại với Naive Bayes**

### **5.5.1. Ý tưởng và công thức Bayes**

Naive Bayes là nhóm thuật toán phân loại cực kỳ đơn giản, nhanh và hiệu quả trong nhiều tình huống. Thuật toán này dựa trên định lý Bayes để tính toán xác suất một nhãn (label) xuất hiện dựa trên các đặc trưng quan sát được:

\[
P(L|X) = \frac{P(X|L) \cdot P(L)}{P(X)}
\]

Trong đó:
- \( P(L|X) \): xác suất có nhãn L khi biết X
- \( P(X|L) \): xác suất tạo ra X từ lớp L (mô hình sinh)
- \( P(L) \): xác suất tiên nghiệm của lớp
- \( P(X) \): xác suất quan sát X (hằng số trong mọi lớp)

> Điểm "naive" nằm ở giả định **các đặc trưng là độc lập** với nhau trong mỗi lớp – điều này không đúng trong thực tế nhưng giúp mô hình rất nhanh và vẫn khá hiệu quả.

---

### **5.5.2. Các biến thể Naive Bayes trong Scikit-Learn**

| Biến thể | Mô tả | Dùng khi... |
|----------|-------|-------------|
| `GaussianNB` | Đặc trưng liên tục, phân phối chuẩn | Dữ liệu dạng số (điểm số, giá trị cảm biến) |
| `MultinomialNB` | Đặc trưng rời rạc, là đếm số lượng | Phân loại văn bản, tần suất từ |
| `BernoulliNB` | Đặc trưng nhị phân (0/1) | Dữ liệu kiểu có/không: có email, có đường dẫn |

---

### **5.5.3. Ví dụ: Gaussian Naive Bayes với dữ liệu 2 chiều**

```python
from sklearn.datasets import make_blobs
from sklearn.naive_bayes import GaussianNB
import matplotlib.pyplot as plt
import numpy as np

# Tạo dữ liệu 2 cụm
X, y = make_blobs(n_samples=100, centers=2, random_state=2, cluster_std=1.5)

# Huấn luyện mô hình
model = GaussianNB()
model.fit(X, y)

# Dự đoán dữ liệu mới
rng = np.random.RandomState(0)
Xnew = [-6, -14] + [14, 18] * rng.rand(2000, 2)
ynew = model.predict(Xnew)

# Vẽ kết quả
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='RdBu')
plt.scatter(Xnew[:, 0], Xnew[:, 1], c=ynew, s=20, cmap='RdBu', alpha=0.1)
plt.title("Biên quyết định của GaussianNB")
plt.show()
```

---

### **5.5.4. Ví dụ: Phân loại văn bản với MultinomialNB**

```python
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

# Lấy dữ liệu
categories = ['sci.space', 'soc.religion.christian', 'comp.graphics']
train = fetch_20newsgroups(subset='train', categories=categories)
test = fetch_20newsgroups(subset='test', categories=categories)

# Pipeline
model = make_pipeline(TfidfVectorizer(), MultinomialNB())
model.fit(train.data, train.target)

# Dự đoán
labels = model.predict(test.data)
```

> Ứng dụng thực tế:
> - Phân loại email: spam / không spam
> - Gợi ý bài báo / phim / tin tức theo chủ đề
> - Nhận dạng ngữ nghĩa của đoạn văn bản

---

### **5.5.5. Ưu điểm & nhược điểm**

| Ưu điểm | Nhược điểm |
|--------|------------|
| Huấn luyện cực nhanh | Giả định độc lập không thực tế |
| Có xác suất dự đoán (predict_proba) | Không tốt khi dữ liệu có mối quan hệ phức tạp |
| Ít tham số cần điều chỉnh | Không học được tương quan giữa đặc trưng |

---

### **5.5.6. Các lỗi thường gặp**

| Lỗi | Nguyên nhân | Cách xử lý |
|-----|-------------|------------|
| `ValueError: Input contains NaN` | Dữ liệu thiếu | Dùng `SimpleImputer` để thay thế |
| Dự đoán sai toàn bộ | Không khớp định dạng đặc trưng | Kiểm tra `vectorizer`, xử lý trước dữ liệu |

---

## **5.5.7. Bài tập thực hành có lời giải**

---

### **Bài 1: Phân loại loài hoa Iris với GaussianNB**

**Yêu cầu**: Dự đoán loài hoa dựa trên 4 đặc trưng.  
**Dữ liệu**: `sklearn.datasets.load_iris()`

```python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

iris = load_iris()
Xtrain, Xtest, ytrain, ytest = train_test_split(iris.data, iris.target, random_state=0)

model = GaussianNB()
model.fit(Xtrain, ytrain)
y_pred = model.predict(Xtest)

print("Độ chính xác:", accuracy_score(ytest, y_pred))
```

---

### **Bài 2: Phân loại email là spam bằng MultinomialNB**

**Yêu cầu**: Dự đoán xem email là spam hay không  
**Dữ liệu**: file CSV gồm nội dung email + nhãn

**Cách làm**:
- Đọc file bằng Pandas
- Tách tập huấn luyện và kiểm tra
- Dùng `TfidfVectorizer()` + `MultinomialNB()`

---

### **Bài 3: Xây dựng hàm dự đoán văn bản theo chủ đề**

```python
def predict_category(s, train=train, model=model):
    pred = model.predict([s])
    return train.target_names[pred[0]]

print(predict_category("NASA launched a new satellite"))
```

---

### **Bài 4: So sánh GaussianNB và MultinomialNB trên tập Digits**

**Yêu cầu**: Phân loại chữ số viết tay bằng 2 mô hình

**Gợi ý**:
- Dùng `load_digits()` từ `sklearn.datasets`
- Chuẩn hóa dữ liệu: `StandardScaler()` hoặc `MinMaxScaler()`
- Đánh giá bằng `accuracy_score`

---



## 🧠 **5.6. Phân hồi tuyến tính (Linear Regression)**

### **5.6.1. Giới thiệu và nhu cầu**

Phân hồi tuyến tính là một kỹ thuật cơ bản và mạnh mẽ trong học máy dùng để mô hình hóa mối quan hệ giữa một biến đầu ra liên tục và một hoặc nhiều biến đầu vào. Mô hình có dạng:

\[
y = a_0 + a_1x_1 + a_2x_2 + \dots + a_nx_n
\]

> 🚀 **Nhu cầu và ứng dụng thực tế**:
> - Dự đoán giá nhà, giá cổ phiếu, nhu cầu tiêu dùng
> - Dự báo chỉ số kinh tế, chi phí vận hành
> - Phân tích tác động của các yếu tố đến doanh số/bệnh tật

### **5.6.2. Khi nào nên dùng Linear Regression**

✅ **Nên dùng khi**:
- Biến mục tiêu là **liên tục**  
- Có lý do để tin rằng **quan hệ giữa các biến là tuyến tính**  
- Cần mô hình đơn giản, dễ giải thích và triển khai

🚫 **Không nên dùng khi**:
- Dữ liệu có mối quan hệ phi tuyến phức tạp  
- Có nhiều ngoại lệ (outliers)  
- Số đặc trưng lớn hơn số mẫu (dễ gây overfitting)

---

### **5.6.3. Ưu điểm và nhược điểm**

| ✅ Ưu điểm                          | ⚠️ Nhược điểm                             |
|-----------------------------------|------------------------------------------|
| Đơn giản, dễ giải thích           | Không phù hợp với quan hệ phi tuyến      |
| Hiệu suất huấn luyện nhanh        | Nhạy cảm với ngoại lệ                    |
| Cung cấp hệ số → hiểu được ảnh hưởng | Không hoạt động tốt với dữ liệu rối rắm, tương quan cao |

---

### **5.6.4. Cài đặt đơn giản với Scikit-Learn**

```python
from sklearn.linear_model import LinearRegression
import numpy as np

# Tạo dữ liệu mô phỏng
x = np.random.rand(50) * 10
y = 3 * x + 7 + np.random.randn(50)

model = LinearRegression()
model.fit(x.reshape(-1, 1), y)

print("Hệ số góc:", model.coef_[0])
print("Hệ số chặn:", model.intercept_)
```

---

### **5.6.5. Mở rộng mô hình**

- **Hồi quy nhiều biến (Multivariate):** dự đoán dựa trên nhiều đặc trưng  
- **Hồi quy phi tuyến:** kết hợp với `PolynomialFeatures`, hoặc các hàm cơ sở  
- **Chính quy hóa (Regularization):** tránh overfitting  
  - Ridge Regression (L2)
  - Lasso Regression (L1)

---

## 🧪 **5.6.6. Bài tập thực hành với dữ liệu mở**

---

### 🎯 **Bài 1: Dự đoán giá nhà tại California**

**Nguồn dữ liệu**: [Kaggle - California Housing Prices](https://www.kaggle.com/datasets/camnugent/california-housing-prices)

#### **Yêu cầu**:
Dự đoán giá trung vị của nhà tại California từ các đặc trưng như: diện tích, mật độ dân cư, số phòng,…

#### **Các bước giải**:

1. Tải và đọc dữ liệu  
2. Tiền xử lý: bỏ giá trị thiếu  
3. Chia dữ liệu train/test  
4. Huấn luyện với `LinearRegression()`  
5. Đánh giá mô hình bằng R², RMSE  
6. Phân tích ý nghĩa hệ số

#### **Lời giải minh họa**:

```python
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Bước 1-2: Tải và xử lý
data = pd.read_csv("housing.csv")
data = data.dropna()
X = data.drop("median_house_value", axis=1)
y = data["median_house_value"]

# Bước 3: Tách tập dữ liệu
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Bước 4: Huấn luyện mô hình
model = LinearRegression()
model.fit(X_train, y_train)

# Bước 5: Đánh giá
y_pred = model.predict(X_test)
print("R²:", r2_score(y_test, y_pred))
print("RMSE:", mean_squared_error(y_test, y_pred, squared=False))

# Bước 6: Phân tích hệ số
print(pd.Series(model.coef_, index=X.columns))
```

---

### 🎯 **Bài 2: Dự đoán chất lượng rượu vang đỏ**

**Nguồn dữ liệu**: [Kaggle - Red Wine Quality Dataset](https://www.kaggle.com/datasets/uciml/red-wine-quality-cortez-et-al-2009)

#### **Yêu cầu**:
Dự đoán điểm chất lượng của rượu vang đỏ từ các chỉ số hóa học (pH, độ chua, cồn,...)

#### **Các bước giải**:

1. Tải dữ liệu `.csv` và đọc bằng Pandas  
2. Chia tập train/test  
3. Huấn luyện với `LinearRegression()`  
4. Đánh giá bằng R² và RMSE  
5. Diễn giải tác động của từng thông số hóa học

#### **Lời giải minh họa**:

```python
data = pd.read_csv("winequality-red.csv", sep=';')
X = data.drop("quality", axis=1)
y = data["quality"]

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print("R²:", r2_score(y_test, y_pred))
print("RMSE:", mean_squared_error(y_test, y_pred, squared=False))
print("Hệ số:", pd.Series(model.coef_, index=X.columns))
```

> 🧠 **Phân tích**: Những đặc trưng có hệ số dương lớn → đóng góp tích cực cho chất lượng rượu.

---

## 📌 Tổng kết

- Hồi quy tuyến tính là mô hình nền tảng, dễ tiếp cận và có khả năng diễn giải rõ ràng.
- Dù đơn giản, nhưng vẫn hiệu quả nếu dữ liệu phù hợp (tuyến tính, không nhiều ngoại lệ).
- Hai bài tập với dữ liệu thực tế giúp sinh viên vận dụng toàn bộ kiến thức để mô hình hóa, giải thích và đánh giá hiệu quả.




# **5.7. Support Vector Machines (SVM)**

---

## **5.7.1. Giới thiệu và ứng dụng**

SVM (Support Vector Machines) là một thuật toán học có giám sát rất mạnh cho **phân loại nhị phân** và **hồi quy**. Mục tiêu của SVM là tìm một **siêu phẳng (hyperplane)** để phân tách hai lớp dữ liệu sao cho **khoảng cách (margin)** đến các điểm gần nhất của mỗi lớp là **lớn nhất**.

> 🎯 **Ứng dụng thực tế:**
> - Nhận diện khuôn mặt  
> - Phân loại thư rác  
> - Phân tích tín dụng, y tế, gen học  
> - Dự đoán lỗi kỹ thuật hoặc hành vi bất thường  

---

## **5.7.2. Lý thuyết & công thức toán học**

### ❖ **Mục tiêu của SVM tuyến tính**

Với tập dữ liệu nhị phân \( y_i \in \{-1, +1\} \), bài toán SVM tìm \( \mathbf{w}, b \) sao cho:

\[
\min_{\mathbf{w}, b} \ \frac{1}{2} \|\mathbf{w}\|^2
\quad \text{với điều kiện:} \quad y_i (\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1
\]

- \( \mathbf{x}_i \): điểm dữ liệu đầu vào  
- \( y_i \): nhãn của mẫu thứ \( i \)  
- \( \mathbf{w} \): vector pháp tuyến của siêu phẳng  
- \( b \): độ lệch (bias)  
- \( \|\mathbf{w}\| \): độ dài vector → liên quan đến độ rộng của margin

### ❖ **Soft Margin – cho phép lỗi**

Trong thực tế, dữ liệu có thể không phân tách hoàn toàn → dùng biến slack \( \xi_i \) và tham số \( C \):

\[
\min_{\mathbf{w}, b, \xi} \ \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^n \xi_i
\quad \text{với} \quad y_i (\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1 - \xi_i
\]

- \( C \): điều khiển mức độ **chấp nhận lỗi**
  - \( C \) lớn → ít cho phép lỗi (overfitting)
  - \( C \) nhỏ → cho phép lỗi nhiều hơn (tổng quát tốt hơn)

---

### ❖ **Kernel Trick – phân lớp phi tuyến**

Khi dữ liệu không tuyến tính, ta ánh xạ vào không gian cao chiều thông qua hàm kernel:

\[
K(\mathbf{x}, \mathbf{x'}) = \phi(\mathbf{x}) \cdot \phi(\mathbf{x'})
\]

| Kernel        | Công thức                                           | Khi nên dùng                      |
|---------------|-----------------------------------------------------|-----------------------------------|
| `linear`      | \( \mathbf{x} \cdot \mathbf{x'} \)                  | Dữ liệu phân tách tuyến tính      |
| `poly`        | \( (\mathbf{x} \cdot \mathbf{x'} + 1)^d \)          | Quan hệ dạng đa thức              |
| `rbf`         | \( \exp(-\gamma \|\mathbf{x} - \mathbf{x'}\|^2) \)  | Phi tuyến, phổ biến nhất          |
| `sigmoid`     | \( \tanh(\alpha \mathbf{x} \cdot \mathbf{x'} + c) \)| Ít dùng, tương tự mạng thần kinh  |

---

### ❖ **Tham số quan trọng**

| Tham số | Ý nghĩa |
|---------|--------|
| `C`     | Điều chỉnh margin: C nhỏ → biên rộng, C lớn → phân loại chặt |
| `gamma` | Mức ảnh hưởng của từng điểm với kernel RBF (gamma lớn → mô hình phức tạp) |
| `kernel`| Loại kernel dùng để ánh xạ dữ liệu |
| `degree`| Bậc của đa thức nếu dùng kernel `poly` |

---

### ❖ **Gợi ý lựa chọn tham số**

```python
from sklearn.model_selection import GridSearchCV

params = {
    'svc__C': [0.1, 1, 10, 100],
    'svc__gamma': [0.001, 0.01, 0.1, 1]
}
grid = GridSearchCV(pipeline, params, cv=5)
```

---

## **5.7.3. Minh họa hoạt động của SVM tuyến tính**

```python
from sklearn.datasets import make_blobs
from sklearn.svm import SVC
import matplotlib.pyplot as plt
import numpy as np

X, y = make_blobs(n_samples=100, centers=2, cluster_std=0.8, random_state=0)
model = SVC(kernel='linear', C=1.0)
model.fit(X, y)

# Hàm vẽ biên phân tách
def plot_svm(model, X, y):
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap='autumn')
    ax = plt.gca()
    xlim = ax.get_xlim()
    ylim = ax.get_ylim()
    xx = np.linspace(xlim[0], xlim[1], 30)
    yy = np.linspace(ylim[0], ylim[1], 30)
    YY, XX = np.meshgrid(yy, xx)
    xy = np.vstack([XX.ravel(), YY.ravel()]).T
    Z = model.decision_function(xy).reshape(XX.shape)
    ax.contour(XX, YY, Z, colors='k', levels=[-1, 0, 1],
               linestyles=['--', '-', '--'])
    plt.scatter(model.support_vectors_[:, 0], model.support_vectors_[:, 1],
                s=100, linewidth=1, facecolors='none', edgecolors='k')
    plt.show()

plot_svm(model, X, y)
```

---

## 🧪 **5.7.4. Bài tập thực hành từ dữ liệu mở**

---

### 🎯 **Bài 1: Nhận diện khuôn mặt người nổi tiếng**

**Nguồn dữ liệu**: [scikit-learn LFW dataset](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_lfw_people.html)

#### Yêu cầu:
- Nhận diện người trong ảnh khuôn mặt (≥60 ảnh/mỗi người)

#### Các bước:
1. Dùng `fetch_lfw_people()`
2. PCA để giảm chiều ảnh
3. `SVC(kernel='rbf')` kết hợp `GridSearchCV`
4. Đánh giá bằng `classification_report`

#### Lời giải:

```python
from sklearn.datasets import fetch_lfw_people
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.decomposition import PCA
from sklearn.svm import SVC
from sklearn.pipeline import make_pipeline
from sklearn.metrics import classification_report

faces = fetch_lfw_people(min_faces_per_person=60)
X_train, X_test, y_train, y_test = train_test_split(faces.data, faces.target, random_state=42)

model = make_pipeline(PCA(n_components=150, whiten=True), SVC(kernel='rbf'))
params = {'svc__C': [1, 10, 100], 'svc__gamma': [0.001, 0.005, 0.01]}
grid = GridSearchCV(model, params)
grid.fit(X_train, y_train)

y_pred = grid.predict(X_test)
print(classification_report(y_test, y_pred, target_names=faces.target_names))
```

---

### 🎯 **Bài 2: Phân loại bệnh tiểu đường**

**Nguồn dữ liệu**: [Kaggle – Pima Indians Diabetes Dataset](https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database)

#### Yêu cầu:
- Dự đoán bệnh tiểu đường từ chỉ số y tế (glucose, BMI, huyết áp,...)

#### Các bước:
1. Tải file `.csv` từ Kaggle
2. Chuẩn hóa dữ liệu với `StandardScaler`
3. Dùng `SVC(kernel='rbf')` kết hợp `GridSearchCV`
4. Đánh giá bằng `classification_report`, `confusion_matrix`

#### Lời giải:

```python
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.pipeline import make_pipeline
from sklearn.metrics import classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv("diabetes.csv")
X = df.drop("Outcome", axis=1)
y = df["Outcome"]
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

pipeline = make_pipeline(StandardScaler(), SVC())
params = {'svc__C': [0.1, 1, 10], 'svc__gamma': [0.01, 0.1, 1]}
grid = GridSearchCV(pipeline, params)
grid.fit(X_train, y_train)

y_pred = grid.predict(X_test)
print(classification_report(y_test, y_pred))

sns.heatmap(confusion_matrix(y_test, y_pred), annot=True, fmt='d')
plt.xlabel("Predicted")
plt.ylabel("Actual")
plt.title("Confusion Matrix - Diabetes")
plt.show()
```

---

## ✅ **Tổng kết**

- SVM là thuật toán phân loại rất mạnh dựa trên nguyên lý **tối đa hóa margin**.
- Có thể xử lý cả dữ liệu **tuyến tính** và **phi tuyến** nhờ kỹ thuật **kernel trick**.
- Các tham số quan trọng (`C`, `gamma`, `kernel`) có thể tinh chỉnh bằng `GridSearchCV`.
- Phù hợp với bài toán yêu cầu **độ chính xác cao**, dữ liệu nhiễu ít và số lượng mẫu vừa phải.

---
