# Bài 1: Chuẩn hóa và Số hóa dữ liệu

## Yêu cầu:
- Chuẩn hóa dữ liệu (Normalization/Standardization)
- Số hóa dữ liệu categorical (Label Encoding, One-Hot Encoding)

In [None]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder, OneHotEncoder
from sklearn.model_selection import train_test_split

## 1. Tạo dữ liệu mẫu

In [None]:
# Tạo dữ liệu mẫu
data = {
    'Age': [25, 30, 35, 40, 45, 50, 55, 60],
    'Salary': [30000, 45000, 50000, 60000, 70000, 80000, 90000, 100000],
    'City': ['HN', 'HCM', 'HN', 'DN', 'HCM', 'HN', 'DN', 'HCM'],
    'Gender': ['M', 'F', 'M', 'F', 'M', 'F', 'M', 'F']
}

df = pd.DataFrame(data)
print("Dữ liệu gốc:")
print(df)

## 2. Chuẩn hóa dữ liệu số

### 2.1. StandardScaler (Z-score normalization)

In [None]:
# StandardScaler: (x - mean) / std
scaler_standard = StandardScaler()
df_standard = df.copy()
df_standard[['Age', 'Salary']] = scaler_standard.fit_transform(df[['Age', 'Salary']])

print("\nDữ liệu sau khi chuẩn hóa StandardScaler:")
print(df_standard)

### 2.2. MinMaxScaler (Normalization to [0,1])

In [None]:
# MinMaxScaler: (x - min) / (max - min)
scaler_minmax = MinMaxScaler()
df_minmax = df.copy()
df_minmax[['Age', 'Salary']] = scaler_minmax.fit_transform(df[['Age', 'Salary']])

print("\nDữ liệu sau khi chuẩn hóa MinMaxScaler:")
print(df_minmax)

## 3. Số hóa dữ liệu categorical

### 3.1. Label Encoding

In [None]:
# Label Encoding cho cột City
le_city = LabelEncoder()
df['City_Encoded'] = le_city.fit_transform(df['City'])

# Label Encoding cho cột Gender
le_gender = LabelEncoder()
df['Gender_Encoded'] = le_gender.fit_transform(df['Gender'])

print("\nDữ liệu sau Label Encoding:")
print(df)

### 3.2. One-Hot Encoding

In [None]:
# One-Hot Encoding cho cột City
df_onehot = pd.get_dummies(df, columns=['City', 'Gender'], prefix=['City', 'Gender'])

print("\nDữ liệu sau One-Hot Encoding:")
print(df_onehot)

## 4. Kết hợp chuẩn hóa và số hóa

In [None]:
# Tạo dataset hoàn chỉnh
df_final = df_onehot.copy()

# Chuẩn hóa các cột số
scaler = StandardScaler()
df_final[['Age', 'Salary']] = scaler.fit_transform(df_final[['Age', 'Salary']])

print("\nDữ liệu cuối cùng (đã chuẩn hóa và số hóa):")
print(df_final)

## Bài tập thực hành

1. Tạo một dataset mới với ít nhất 100 mẫu
2. Áp dụng cả StandardScaler và MinMaxScaler, so sánh kết quả
3. Sử dụng Label Encoding và One-Hot Encoding cho các biến categorical
4. Giải thích khi nào nên dùng StandardScaler, khi nào nên dùng MinMaxScaler
5. Giải thích khi nào nên dùng Label Encoding, khi nào nên dùng One-Hot Encoding