# Bài 3: Chia dữ liệu Train/Test theo tỷ lệ cho trước

## Yêu cầu:
- Chia dữ liệu theo tỷ lệ train/test
- Đảm bảo phân bố cân bằng giữa các lớp (stratified split)
- Random state để tái tạo kết quả

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris, load_wine, make_classification
from collections import Counter

## 1. Chia dữ liệu cơ bản

In [None]:
# Load dữ liệu Iris
iris = load_iris()
X = iris.data
y = iris.target

print(f"Tổng số mẫu: {len(X)}")
print(f"Phân bố các lớp: {Counter(y)}")

### 1.1. Chia theo tỷ lệ 80-20

In [None]:
# Chia dữ liệu 80% train, 20% test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2, 
    random_state=42
)

print(f"\nChia dữ liệu 80-20:")
print(f"Train set: {len(X_train)} mẫu ({len(X_train)/len(X)*100:.1f}%)")
print(f"Test set: {len(X_test)} mẫu ({len(X_test)/len(X)*100:.1f}%)")
print(f"\nPhân bố train: {Counter(y_train)}")
print(f"Phân bố test: {Counter(y_test)}")

### 1.2. Chia theo tỷ lệ 70-30

In [None]:
# Chia dữ liệu 70% train, 30% test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.3, 
    random_state=42
)

print(f"\nChia dữ liệu 70-30:")
print(f"Train set: {len(X_train)} mẫu ({len(X_train)/len(X)*100:.1f}%)")
print(f"Test set: {len(X_test)} mẫu ({len(X_test)/len(X)*100:.1f}%)")
print(f"\nPhân bố train: {Counter(y_train)}")
print(f"Phân bố test: {Counter(y_test)}")

## 2. Stratified Split (Chia cân bằng theo lớp)

In [None]:
# Tạo dữ liệu không cân bằng
X_imb, y_imb = make_classification(
    n_samples=1000,
    n_features=20,
    n_informative=15,
    n_redundant=5,
    n_classes=3,
    weights=[0.6, 0.3, 0.1],  # Phân bố không cân bằng
    random_state=42
)

print(f"\nDữ liệu không cân bằng:")
print(f"Tổng số mẫu: {len(X_imb)}")
print(f"Phân bố các lớp: {Counter(y_imb)}")

### 2.1. Chia không stratified

In [None]:
# Chia KHÔNG stratified
X_train, X_test, y_train, y_test = train_test_split(
    X_imb, y_imb,
    test_size=0.2,
    random_state=42,
    stratify=None  # Không stratified
)

print(f"\nChia KHÔNG stratified:")
print(f"Phân bố train: {Counter(y_train)}")
print(f"Tỷ lệ train: {[f'{v/len(y_train)*100:.1f}%' for v in Counter(y_train).values()]}")
print(f"\nPhân bố test: {Counter(y_test)}")
print(f"Tỷ lệ test: {[f'{v/len(y_test)*100:.1f}%' for v in Counter(y_test).values()]}")

### 2.2. Chia có stratified

In [None]:
# Chia CÓ stratified
X_train, X_test, y_train, y_test = train_test_split(
    X_imb, y_imb,
    test_size=0.2,
    random_state=42,
    stratify=y_imb  # Stratified theo y
)

print(f"\nChia CÓ stratified:")
print(f"Phân bố train: {Counter(y_train)}")
print(f"Tỷ lệ train: {[f'{v/len(y_train)*100:.1f}%' for v in Counter(y_train).values()]}")
print(f"\nPhân bố test: {Counter(y_test)}")
print(f"Tỷ lệ test: {[f'{v/len(y_test)*100:.1f}%' for v in Counter(y_test).values()]}")

## 3. Chia dữ liệu Train/Validation/Test

In [None]:
# Chia thành 3 tập: Train (60%), Validation (20%), Test (20%)
X_train, X_temp, y_train, y_temp = train_test_split(
    X, y,
    test_size=0.4,  # 40% cho val + test
    random_state=42,
    stratify=y
)

# Chia 40% còn lại thành val và test (mỗi cái 20%)
X_val, X_test, y_val, y_test = train_test_split(
    X_temp, y_temp,
    test_size=0.5,  # 50% của 40% = 20% tổng
    random_state=42,
    stratify=y_temp
)

print(f"\nChia Train/Val/Test (60/20/20):")
print(f"Train: {len(X_train)} mẫu ({len(X_train)/len(X)*100:.1f}%)")
print(f"Validation: {len(X_val)} mẫu ({len(X_val)/len(X)*100:.1f}%)")
print(f"Test: {len(X_test)} mẫu ({len(X_test)/len(X)*100:.1f}%)")

print(f"\nPhân bố train: {Counter(y_train)}")
print(f"Phân bố val: {Counter(y_val)}")
print(f"Phân bố test: {Counter(y_test)}")

## 4. Visualize phân bố dữ liệu

In [None]:
# Vẽ biểu đồ phân bố
fig, axes = plt.subplots(1, 3, figsize=(15, 4))

datasets = [
    ('Train', y_train),
    ('Validation', y_val),
    ('Test', y_test)
]

for idx, (name, data) in enumerate(datasets):
    counter = Counter(data)
    classes = list(counter.keys())
    counts = list(counter.values())
    
    axes[idx].bar(classes, counts, color=['blue', 'green', 'red'])
    axes[idx].set_title(f'{name} Set Distribution')
    axes[idx].set_xlabel('Class')
    axes[idx].set_ylabel('Count')
    axes[idx].set_xticks(classes)
    
    # Thêm số lượng trên mỗi cột
    for i, (c, count) in enumerate(zip(classes, counts)):
        axes[idx].text(c, count, str(count), ha='center', va='bottom')

plt.tight_layout()
plt.show()

## 5. Hàm tiện ích để chia dữ liệu

In [None]:
def split_data(X, y, train_ratio=0.6, val_ratio=0.2, test_ratio=0.2, 
               random_state=42, stratify=True):
    """
    Chia dữ liệu thành train/val/test với tỷ lệ cho trước
    
    Parameters:
    -----------
    X : array-like
        Features
    y : array-like
        Labels
    train_ratio : float
        Tỷ lệ train (default: 0.6)
    val_ratio : float
        Tỷ lệ validation (default: 0.2)
    test_ratio : float
        Tỷ lệ test (default: 0.2)
    random_state : int
        Random seed
    stratify : bool
        Có stratify hay không
    
    Returns:
    --------
    X_train, X_val, X_test, y_train, y_val, y_test
    """
    assert abs(train_ratio + val_ratio + test_ratio - 1.0) < 1e-6, \
        "Tổng các tỷ lệ phải bằng 1.0"
    
    # Chia train và temp (val + test)
    X_train, X_temp, y_train, y_temp = train_test_split(
        X, y,
        test_size=(1 - train_ratio),
        random_state=random_state,
        stratify=y if stratify else None
    )
    
    # Chia temp thành val và test
    val_ratio_adjusted = val_ratio / (val_ratio + test_ratio)
    X_val, X_test, y_val, y_test = train_test_split(
        X_temp, y_temp,
        test_size=(1 - val_ratio_adjusted),
        random_state=random_state,
        stratify=y_temp if stratify else None
    )
    
    return X_train, X_val, X_test, y_train, y_val, y_test

# Test hàm
X_train, X_val, X_test, y_train, y_val, y_test = split_data(
    X, y, 
    train_ratio=0.7, 
    val_ratio=0.15, 
    test_ratio=0.15
)

print(f"\nKết quả chia 70/15/15:")
print(f"Train: {len(X_train)} ({len(X_train)/len(X)*100:.1f}%)")
print(f"Val: {len(X_val)} ({len(X_val)/len(X)*100:.1f}%)")
print(f"Test: {len(X_test)} ({len(X_test)/len(X)*100:.1f}%)")

## Bài tập thực hành

1. Thử nghiệm với các tỷ lệ chia khác nhau: 50/25/25, 80/10/10, 60/20/20
2. So sánh kết quả khi chia có và không có stratified
3. Tạo một dataset không cân bằng và thử chia dữ liệu
4. Giải thích khi nào nên dùng stratified split
5. Tại sao cần random_state và nó ảnh hưởng như thế nào?