***notebook này tập trung vào việc áp dụng kĩ thuật Synthetic Minority Over-sampling Technique (SMOTE) để giải quyết vấn đề mất cân bằng dữ liệu***

***references:***
- https://www.analyticsvidhya.com/blog/2020/10/overcoming-class-imbalance-using-smote-techniques/
- https://www.geeksforgeeks.org/ml-handling-imbalanced-data-with-smote-and-near-miss-algorithm-in-python/
- https://machinelearningmastery.com/smote-oversampling-for-imbalanced-classification/
- https://www.youtube.com/results?search_query=smote+technique+in+machine+learning

***nội dung thực hiện:***


### Tổng quan về Kỹ thuật SMOTE (Synthetic Minority Over-sampling Technique)

**1. Giới thiệu về SMOTE:**

SMOTE (Synthetic Minority Over-sampling Technique) là một phương pháp phổ biến để xử lý vấn đề mất cân bằng lớp trong các bộ dữ liệu học máy. Mất cân bằng lớp xảy ra khi một hoặc nhiều lớp có số lượng mẫu ít hơn đáng kể so với các lớp khác, dẫn đến mô hình học máy có xu hướng thiên vị lớp chiếm đa số.

**2. Nguyên tắc hoạt động:**

SMOTE tạo ra các mẫu tổng hợp từ lớp thiểu số bằng cách sử dụng kỹ thuật nội suy giữa các mẫu hiện có. Thay vì sao chép trực tiếp các mẫu thiểu số, SMOTE tạo ra các mẫu mới dựa trên các điểm gần nhất trong không gian đặc trưng.

**3. Quy trình SMOTE:**

Quy trình SMOTE bao gồm các bước sau:

- **Bước 1: Chọn mẫu từ lớp thiểu số:**
  Chọn ngẫu nhiên một mẫu từ lớp thiểu số.

- **Bước 2: Tìm k hàng xóm gần nhất:**
  Sử dụng phương pháp k-nearest neighbors (k-NN) để tìm k hàng xóm gần nhất của mẫu đã chọn.

- **Bước 3: Tạo mẫu tổng hợp:**
  - Chọn ngẫu nhiên một trong các hàng xóm gần nhất.
  - Tạo một mẫu mới bằng cách lấy một điểm trên đoạn thẳng nối giữa mẫu đã chọn và hàng xóm đã chọn. Công thức như sau:
    \[
    x_{\text{new}} = x_1 + \delta \times (x_2 - x_1)
    \]
    \[
    y_{\text{new}} = y_1 + \delta \times (y_2 - y_1)
    \]
    trong đó \( \delta \) là một số ngẫu nhiên trong khoảng [0, 1].

**4. Ưu điểm của SMOTE:**

- **Cải thiện hiệu suất mô hình:** Bằng cách tăng số lượng mẫu thiểu số, SMOTE giúp mô hình học máy không bị thiên vị và cải thiện khả năng phân loại lớp thiểu số.
- **Giảm hiện tượng overfitting:** So với việc nhân bản các mẫu thiểu số, SMOTE tạo ra các mẫu tổng hợp mới, giúp mô hình không bị overfitting do các mẫu lặp lại.

**5. Nhược điểm của SMOTE:**

- **Giới thiệu nhiễu:** Nếu dữ liệu thiểu số có sự phân tán lớn hoặc có nhiễu, SMOTE có thể tạo ra các mẫu tổng hợp không chính xác hoặc không hữu ích.
- **Tăng kích thước dữ liệu:** SMOTE làm tăng số lượng mẫu, có thể dẫn đến tăng thời gian huấn luyện và yêu cầu bộ nhớ.

**6. Ứng dụng và triển khai:**

SMOTE thường được sử dụng trong các bài toán phân loại, đặc biệt là khi đối mặt với dữ liệu không cân bằng. Có nhiều thư viện hỗ trợ SMOTE, trong đó `imbalanced-learn` là một trong những thư viện phổ biến nhất trong Python.

Ví dụ triển khai SMOTE trong Python:

```python
import pandas as pd
from sklearn.datasets import make_classification
from imblearn.over_sampling import SMOTE
from collections import Counter
import matplotlib.pyplot as plt

# Tạo dữ liệu mẫu
X, y = make_classification(n_samples=1000, n_features=2, n_informative=2, n_redundant=0, n_clusters_per_class=1, weights=[0.9, 0.1], flip_y=0, random_state=42)

# Kiểm tra tỷ lệ lớp ban đầu
print('Original dataset shape %s' % Counter(y))

# Áp dụng SMOTE
smote = SMOTE(random_state=42)
X_res, y_res = smote.fit_resample(X, y)

# Kiểm tra tỷ lệ lớp sau khi áp dụng SMOTE
print('Resampled dataset shape %s' % Counter(y_res))

# Plot dữ liệu
plt.scatter(X_res[:, 0], X_res[:, 1], c=y_res, alpha=0.6, edgecolor='k')
plt.show()
```

**7. Các biến thể của SMOTE:**

Có nhiều biến thể của SMOTE nhằm cải thiện hiệu suất và giảm thiểu nhược điểm của SMOTE gốc:
- **Borderline-SMOTE:** Tạo mẫu tổng hợp chỉ từ các mẫu gần ranh giới giữa các lớp.
- **ADASYN (Adaptive Synthetic Sampling):** Tạo nhiều mẫu tổng hợp hơn cho các vùng có mật độ thấp trong lớp thiểu số.
- **SMOTE-ENN:** Kết hợp SMOTE với kỹ thuật loại bỏ mẫu bằng phương pháp Edited Nearest Neighbors (ENN) để loại bỏ các mẫu nhiễu sau khi áp dụng SMOTE.

### Tổng kết:
SMOTE là một kỹ thuật mạnh mẽ và phổ biến để xử lý vấn đề mất cân bằng lớp trong học máy. Bằng cách tạo ra các mẫu tổng hợp từ lớp thiểu số, SMOTE giúp cải thiện hiệu suất của các mô hình phân loại, đặc biệt là trong các bài toán mà lớp thiểu số rất ít so với lớp đa số. Tuy nhiên, việc áp dụng SMOTE cần được thực hiện cẩn thận để tránh việc giới thiệu nhiễu và tăng kích thước dữ liệu không cần thiết.

In [1]:
import pandas as pd
import numpy as np
from imblearn.over_sampling import SMOTE
from collections import Counter
import matplotlib.pyplot as plt

In [2]:
df = pd.read_csv("E:/IAD/INTERN/01_diabetes/data/diabetes.csv")
print(f"SL mau moi nhan: {df['Outcome'].value_counts()}")
# => nhìn vào kết quả ta thấy dữ liệu chưa cân bằng cho mỗi nhãn, cần thực hiện cân bằng dữ liệu bằng kĩ thuật SMOTE

SL mau moi nhan: Outcome
0    500
1    268
Name: count, dtype: int64


In [3]:
x = df.iloc[:, :-1].values
y = df.iloc[:, -1].values
# print(x.shape, y.shape)

smote = SMOTE(random_state=42)
x_res, y_res = smote.fit_resample(x, y)
print(Counter(y_res))

Counter({1: 500, 0: 500})


In [4]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import classification_report

In [5]:
x_train, x_test, y_train, y_test = train_test_split(x_res, y_res, test_size=0.2, random_state=42)

sc = StandardScaler()
x_train = sc.fit_transform(x_train)
x_test = sc.transform(x_test)

In [6]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
model.fit(x_train, y_train)

pred = model.predict(x_test)
accuracy = accuracy_score(y_test, pred)
print(f'accuracy = {accuracy}')
precision = precision_score(y_test, pred)
print(f'precision = {precision}')
recall = recall_score(y_test, pred)
print(f'recall = {accuracy}')
f1 = f1_score(y_test, pred)
print(f'f1 = {f1}')

accuracy = 0.75
precision = 0.7428571428571429
recall = 0.75
f1 = 0.7572815533980582
