# Làm sạch và chuẩn bị dữ liệu trong Khoa học Dữ liệu

## Xử lý dữ liệu thiếu (Missing Data)

### Hiểu về dữ liệu thiếu

**🔍 Dữ liệu thiếu là gì?**

Dữ liệu thiếu (*missing data*) xuất hiện khi **không có giá trị dữ liệu** được lưu trữ cho một biến trong một quan sát. Trong `pandas`, dữ liệu thiếu được biểu diễn bằng:

- `NaN` (*Not a Number*) - cho dữ liệu số
- `None` - cho dữ liệu đối tượng  
- `NaT` (*Not a Time*) - cho dữ liệu thời gian

**📋 Các nguyên nhân gây ra dữ liệu thiếu**

- **Lỗi thu thập dữ liệu**: Thiết bị ghi nhận bị lỗi, kết nối mạng bị gián đoạn
- **Người dùng không cung cấp**: Bỏ qua câu hỏi trong survey, không điền thông tin cá nhân
- **Dữ liệu không tồn tại**: Một số thông tin chưa được sinh ra tại thời điểm thu thập
- **Lỗi xử lý dữ liệu**: Trong quá trình nhập liệu, chuyển đổi định dạng

**⚠️ Tác động của dữ liệu thiếu**

- **Giảm kích thước mẫu**: Loại bỏ các hàng có dữ liệu thiếu làm giảm số lượng quan sát
- **Thiên lệch kết quả**: Nếu dữ liệu thiếu không ngẫu nhiên, có thể dẫn đến kết luận sai lệch
- **Giảm hiệu quả phân tích**: Một số thuật toán machine learning không thể xử lý dữ liệu thiếu

In [None]:
# Import các thư viện cần thiết
import pandas as pd
import numpy as np

# Tạo DataFrame mẫu với dữ liệu thiếu
data_missing = {
    'Tên': ['An', 'Bình', 'Chi', 'Dũng', 'Eva'],
    'Tuổi': [25, None, 30, 28, None],
    'Lương': [15000000, 18000000, None, 22000000, 16000000],
    'Phòng ban': ['IT', 'Marketing', None, 'IT', 'Marketing']
}

df_missing = pd.DataFrame(data_missing)
print("DataFrame với dữ liệu thiếu:")
print(df_missing)

### Các phương thức phát hiện dữ liệu thiếu trong pandas

Pandas cung cấp các phương thức chuyên dụng để **phát hiện và kiểm tra dữ liệu thiếu**:

| Phương thức | Mô tả | Trả về |
|-------------|-------|--------|
| `isna()` / `isnull()` | Kiểm tra từng phần tử có thiếu không | Boolean DataFrame/Series |
| `notna()` / `notnull()` | Kiểm tra từng phần tử có dữ liệu không | Boolean DataFrame/Series |
| `isna().sum()` | Đếm số lượng dữ liệu thiếu theo cột | Series với số lượng |
| `isna().any()` | Kiểm tra có cột nào thiếu dữ liệu không | Boolean Series |

**📊 Hãy xem cách sử dụng các phương thức này:**

In [None]:
# Import các thư viện cần thiết
import pandas as pd
import numpy as np

# Tạo DataFrame mẫu với dữ liệu thiếu
data_missing = {
    'Tên': ['An', 'Bình', 'Chi', 'Dũng', 'Eva'],
    'Tuổi': [25, None, 30, 28, None],
    'Lương': [15000000, 18000000, None, 22000000, 16000000],
    'Phòng ban': ['IT', 'Marketing', None, 'IT', 'Marketing']
}

df_missing = pd.DataFrame(data_missing)
print("DataFrame với dữ liệu thiếu:")
print(df_missing)

# 1. Kiểm tra dữ liệu thiếu - trả về Boolean DataFrame
print("1. Kiểm tra từng phần tử có thiếu dữ liệu không:")
print(df_missing.isna())

# 2. Đếm số lượng dữ liệu thiếu theo từng cột
print("2. Số lượng dữ liệu thiếu theo cột:")
print(df_missing.isna().sum())

# 3. Kiểm tra cột nào có dữ liệu thiếu
print("3. Các cột có dữ liệu thiếu:")
print(df_missing.isna().any())

# 4. Tổng số dữ liệu thiếu trong toàn bộ DataFrame
print("4. Tổng số dữ liệu thiếu:")
print(df_missing.isna().sum().sum())

### Các phương pháp xử lý dữ liệu thiếu

**🛠️ Có 3 cách chính để xử lý dữ liệu thiếu:**

1. **Loại bỏ** (*Deletion*): Xóa các hàng/cột có dữ liệu thiếu
2. **Thay thế** (*Imputation*): Điền các giá trị phù hợp vào chỗ thiếu
3. **Dự đoán** (*Prediction*): Sử dụng thuật toán để dự đoán giá trị thiếu

**⚖️ Lựa chọn phương pháp phù hợp:**

- **Tỷ lệ dữ liệu thiếu nhỏ (<5%)**: Có thể loại bỏ
- **Dữ liệu thiếu ngẫu nhiên**: Thay thế bằng mean/median/mode
- **Dữ liệu thiếu có pattern**: Cần phân tích nguyên nhân và xử lý cẩn thận
- **Dữ liệu quan trọng**: Sử dụng kỹ thuật dự đoán phức tạp hơn

#### **Phương pháp 1: Loại bỏ dữ liệu thiếu (`dropna`)**

Phương thức `dropna()` cho phép loại bỏ các hàng hoặc cột có dữ liệu thiếu:

**📋 Các tham số quan trọng của `dropna()`:**

| Tham số | Giá trị | Mô tả |
|---------|---------|-------|
| `axis` | 0 (default) / 1 | 0: loại bỏ hàng, 1: loại bỏ cột |
| `how` | 'any' (default) / 'all' | 'any': có ít nhất 1 NaN, 'all': toàn bộ là NaN |
| `subset` | list | Chỉ xét dữ liệu thiếu trong các cột được chỉ định |
| `thresh` | int | Số lượng giá trị không null tối thiểu cần có |

In [None]:
# Import các thư viện cần thiết
import pandas as pd
import numpy as np

# Tạo DataFrame mẫu với dữ liệu thiếu
data_missing = {
    'Tên': ['An', 'Bình', 'Chi', 'Dũng', 'Eva'],
    'Tuổi': [25, None, 30, 28, None],
    'Lương': [15000000, 18000000, None, 22000000, 16000000],
    'Phòng ban': ['IT', 'Marketing', None, 'IT', 'Marketing']
}

df_missing = pd.DataFrame(data_missing)
print("DataFrame với dữ liệu thiếu:")
print(df_missing)

# 1. Loại bỏ tất cả hàng có ít nhất 1 giá trị thiếu
print("1. Loại bỏ hàng có dữ liệu thiếu (how='any'):")
df_drop_any = df_missing.dropna()
print(df_drop_any)
print(f"Số hàng còn lại: {len(df_drop_any)}")

# 2. Loại bỏ hàng chỉ khi TẤT CẢ giá trị đều thiếu
print("2. Loại bỏ hàng khi tất cả giá trị đều thiếu (how='all'):")
df_drop_all = df_missing.dropna(how='all')
print(df_drop_all)
print(f"Số hàng còn lại: {len(df_drop_all)}")

# 3. Loại bỏ cột có dữ liệu thiếu
print("3. Loại bỏ cột có dữ liệu thiếu (axis=1):")
df_drop_cols = df_missing.dropna(axis=1)
print(df_drop_cols)
print(f"Số cột còn lại: {len(df_drop_cols.columns)}")

#### **Phương pháp 2: Thay thế dữ liệu thiếu (`fillna`)**

Phương thức `fillna()` cho phép **thay thế dữ liệu thiếu** bằng các giá trị cụ thể:

**🔧 Các chiến lược thay thế phổ biến:**

| Chiến lược | Ứng dụng | Ví dụ |
|------------|----------|-------|
| **Giá trị cố định** | Thay thế bằng một giá trị nhất định | `fillna(0)`, `fillna('Unknown')` |
| **Giá trị trung bình** | Dữ liệu số, phân phối chuẩn | `fillna(df['col'].mean())` |
| **Giá trị trung vị** | Dữ liệu số, có outliers | `fillna(df['col'].median())` |
| **Giá trị phổ biến nhất** | Dữ liệu phân loại | `fillna(df['col'].mode()[0])` |
| **Forward fill** | Dữ liệu chuỗi thời gian | `fillna(method='ffill')` |
| **Backward fill** | Dữ liệu chuỗi thời gian | `fillna(method='bfill')` |

**📊 Hãy xem các ví dụ cụ thể:**

In [None]:
# Import các thư viện cần thiết
import pandas as pd
import numpy as np

# Tạo DataFrame mẫu với dữ liệu thiếu
data_missing = {
    'Tên': ['An', 'Bình', 'Chi', 'Dũng', 'Eva'],
    'Tuổi': [25, None, 30, 28, None],
    'Lương': [15000000, 18000000, None, 22000000, 16000000],
    'Phòng ban': ['IT', 'Marketing', None, 'IT', 'Marketing']
}

df_missing = pd.DataFrame(data_missing)
print("DataFrame với dữ liệu thiếu:")
print(df_missing)

# 1. Thay thế bằng giá trị cố định
print("\n1. Thay thế bằng giá trị cố định:")
df_fill_fixed = df_missing.fillna({'Tuổi': 0, 'Lương': 0, 'Phòng ban': 'Chưa xác định'})
print(df_fill_fixed)

# 2. Thay thế bằng giá trị trung bình (cho dữ liệu số)
print("\n2. Thay thế bằng giá trị trung bình:")
df_fill_mean = df_missing.copy()
df_fill_mean['Tuổi'] = df_fill_mean['Tuổi'].fillna(df_fill_mean['Tuổi'].mean())
df_fill_mean['Lương'] = df_fill_mean['Lương'].fillna(df_fill_mean['Lương'].mean())
print(df_fill_mean)
print(f"Tuổi trung bình: {df_missing['Tuổi'].mean():.1f}")
print(f"Lương trung bình: {df_missing['Lương'].mean():,.0f}")

# 3. Thay thế bằng giá trị trung vị (bền vững với outliers)
print("\n3. Thay thế bằng giá trị trung vị:")
df_fill_median = df_missing.copy()
df_fill_median['Tuổi'] = df_fill_median['Tuổi'].fillna(df_fill_median['Tuổi'].median())
df_fill_median['Lương'] = df_fill_median['Lương'].fillna(df_fill_median['Lương'].median())
print(df_fill_median)

# 4. Thay thế bằng giá trị phổ biến nhất (mode) - cho dữ liệu phân loại
print("\n4. Thay thế bằng giá trị phổ biến nhất (mode):")
df_fill_mode = df_missing.copy()
df_fill_mode['Phòng ban'] = df_fill_mode['Phòng ban'].fillna(df_fill_mode['Phòng ban'].mode()[0])
print(df_fill_mode)
print(f"Phòng ban phổ biến nhất: {df_missing['Phòng ban'].mode()[0]}")

#### Phương pháp 3: Sử dụng mô hình dự đoán

Sử dụng các mô hình **dự đoán** để ước lượng giá trị thiếu.

**🔧 Các chiến lược thay thế phổ biến:**

| Chiến lược | Ứng dụng | Ví dụ |
|------------|----------|-------|
| **Hồi quy** | Dữ liệu số | Sử dụng hồi quy tuyến tính để dự đoán giá trị |
| **Phân loại** | Dữ liệu phân loại | Sử dụng cây quyết định để phân loại giá trị |
| **Phân tích thống kê** | Dữ liệu số | Sử dụng thống kê để dự đoán giá trị |

**📊 Hãy xem các ví dụ cụ thể:**

In [None]:
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.impute import KNNImputer

# Import các thư viện cần thiết
import pandas as pd
import numpy as np

# Tạo DataFrame mẫu với dữ liệu thiếu
data_missing = {
    'Tên': ['An', 'Bình', 'Chi', 'Dũng', 'Eva'],
    'Tuổi': [25, None, 30, 28, None],
    'Lương': [15000000, 18000000, None, 22000000, 16000000],
    'Phòng ban': ['IT', 'Marketing', None, 'IT', 'Marketing']
}

df_missing = pd.DataFrame(data_missing)
print("DataFrame với dữ liệu thiếu:")
print(df_missing)

# Chuẩn bị dữ liệu cho mô hình dự đoán
print("\n1. Dự đoán Tuổi dựa trên Lương và Phòng ban:")

# Tạo bản sao để xử lý
df_predict = df_missing.copy()

# Encode categorical data
le = LabelEncoder()
df_predict['Phòng ban_encoded'] = le.fit_transform(df_predict['Phòng ban'].fillna('Unknown'))

# Dự đoán Tuổi
# Lấy dữ liệu không thiếu để train
train_data_age = df_predict[df_predict['Tuổi'].notna()]
missing_data_age = df_predict[df_predict['Tuổi'].isna()]

if len(train_data_age) > 0 and len(missing_data_age) > 0:
    # Train model
    X_train_age = train_data_age[['Lương', 'Phòng ban_encoded']].fillna(0)
    y_train_age = train_data_age['Tuổi']
    
    model_age = RandomForestRegressor(n_estimators=10, random_state=42)
    model_age.fit(X_train_age, y_train_age)
    
    # Predict
    X_missing_age = missing_data_age[['Lương', 'Phòng ban_encoded']].fillna(0)
    predicted_ages = model_age.predict(X_missing_age)
    
    # Fill predicted values
    df_predict.loc[df_predict['Tuổi'].isna(), 'Tuổi'] = predicted_ages
    
    print("Dữ liệu sau khi dự đoán Tuổi:")
    print(df_predict[['Tên', 'Tuổi', 'Lương', 'Phòng ban']])

print("\n2. Dự đoán Lương dựa trên Tuổi và Phòng ban:")

# Reset df_predict
df_predict = df_missing.copy()
df_predict['Phòng ban_encoded'] = le.fit_transform(df_predict['Phòng ban'].fillna('Unknown'))

# Dự đoán Lương
train_data_salary = df_predict[df_predict['Lương'].notna()]
missing_data_salary = df_predict[df_predict['Lương'].isna()]

if len(train_data_salary) > 0 and len(missing_data_salary) > 0:
    X_train_salary = train_data_salary[['Tuổi', 'Phòng ban_encoded']].fillna(0)
    y_train_salary = train_data_salary['Lương']
    
    model_salary = RandomForestRegressor(n_estimators=10, random_state=42)
    model_salary.fit(X_train_salary, y_train_salary)
    
    X_missing_salary = missing_data_salary[['Tuổi', 'Phòng ban_encoded']].fillna(0)
    predicted_salaries = model_salary.predict(X_missing_salary)
    
    df_predict.loc[df_predict['Lương'].isna(), 'Lương'] = predicted_salaries
    
    print("Dữ liệu sau khi dự đoán Lương:")
    print(df_predict[['Tên', 'Tuổi', 'Lương', 'Phòng ban']])

print("\n3. Sử dụng KNN Imputation (phương pháp nâng cao):")

# Chuẩn bị dữ liệu số cho KNN
df_knn = df_missing.copy()
df_knn['Phòng ban_encoded'] = le.fit_transform(df_knn['Phòng ban'].fillna('Unknown'))

# Chỉ lấy các cột số
numerical_cols = ['Tuổi', 'Lương', 'Phòng ban_encoded']
df_numerical = df_knn[numerical_cols]

# Áp dụng KNN Imputation
knn_imputer = KNNImputer(n_neighbors=2)
df_knn_filled = knn_imputer.fit_transform(df_numerical)

# Tạo DataFrame kết quả
df_knn_result = df_missing.copy()
df_knn_result['Tuổi'] = df_knn_filled[:, 0]
df_knn_result['Lương'] = df_knn_filled[:, 1]

print("Dữ liệu sau KNN Imputation:")
print(df_knn_result)

## Xử lý dữ liệu trùng lặp (Duplicate Data)

### Hiểu về dữ liệu trùng lặp

**🔄 Dữ liệu trùng lặp là gì?**

Dữ liệu trùng lặp (*duplicate data*) là những **hàng có giá trị giống hệt nhau** trên tất cả hoặc một số cột nhất định. Dữ liệu trùng lặp có thể xuất hiện do:

- **Lỗi nhập liệu**: Người dùng vô tình nhập cùng một thông tin nhiều lần
- **Lỗi hệ thống**: Hệ thống ghi nhận cùng một sự kiện nhiều lần  
- **Gộp dữ liệu**: Khi kết hợp nhiều nguồn dữ liệu có thông tin chồng chéo
- **Lỗi thu thập**: Cảm biến hoặc thiết bị ghi nhận dữ liệu bị lặp

**⚠️ Tác động của dữ liệu trùng lặp**

- **Thiên lệch phân tích**: Một quan sát được tính nhiều lần, làm méo mó kết quả
- **Giảm hiệu quả tính toán**: Xử lý dữ liệu thừa làm chậm thuật toán
- **Tăng kích thước dữ liệu**: Lãng phí bộ nhớ và không gian lưu trữ
- **Ảnh hưởng mô hình**: Machine learning có thể học sai từ dữ liệu lặp

In [None]:
import pandas as pd
import numpy as np

# Khởi tạo dữ liệu mẫu
duplicate_data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice'],
    'age': [25, 30, 35, 25],
    'city': ['New York', 'Los Angeles', 'Chicago', 'New York']
}

duplicate_data = pd.DataFrame(duplicate_data)

# In dữ liệu mẫu
print(duplicate_data)

### Các phương pháp phát hiện và xử lý dữ liệu trùng lặp trong pandas

Pandas cung cấp các phương thức để phát hiện và xử lý dữ liệu trùng lặp:

| Phương thức | Mô tả | Trả về |
|-------------|-------|--------|
| `duplicated()` | Kiểm tra từng hàng có bị trùng lặp không | Boolean Series |
| `drop_duplicates()` | Loại bỏ các hàng trùng lặp | DataFrame không trùng lặp |

**📊 Hãy xem cách sử dụng các phương thức này:**"

In [None]:
import pandas as pd
import numpy as np

# Khởi tạo dữ liệu mẫu
duplicate_data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice'],
    'age': [25, 30, 35, 25],
    'city': ['New York', 'Los Angeles', 'Chicago', 'New York']
}

duplicate_data = pd.DataFrame(duplicate_data)

# In dữ liệu mẫu
print(duplicate_data)

# Phát hiện duplicate rows
print("Phát hiện duplicate rows:")
print(duplicate_data.duplicated())

print("\nCác hàng bị duplicate:")
print(duplicate_data[duplicate_data.duplicated()])

print("\nĐếm số lượng duplicate:")
print(f"Tổng số duplicate: {duplicate_data.duplicated().sum()}")

print("\n Xử lý duplicate bằng cách loại bỏ:")
print(duplicate_data.drop_duplicates())

## Biến đổi và chuẩn hóa dữ liệu (Data Transformation)

### Tổng quan về biến đổi dữ liệu

**🔄 Biến đổi dữ liệu là gì?**

Biến đổi dữ liệu (*data transformation*) là quá trình **chuyển đổi dữ liệu** từ định dạng này sang định dạng khác để:

- **Cải thiện chất lượng dữ liệu**: Làm cho dữ liệu phù hợp hơn cho phân tích
- **Chuẩn hóa thang đo**: Đưa các biến về cùng một thang đo
- **Giảm nhiễu**: Loại bỏ các biến động không mong muốn
- **Tạo biến mới**: Kết hợp hoặc biến đổi biến hiện có để tạo thông tin mới

**🎯 Các mục tiêu chính:**

1. **Normalization**: Đưa dữ liệu về khoảng [0,1]
2. **Standardization**: Đưa dữ liệu về phân phối chuẩn (mean=0, std=1) 
3. **Scaling**: Điều chỉnh thang đo cho phù hợp
4. **Encoding**: Chuyển đổi dữ liệu phân loại thành số

**📋 Khi nào cần biến đổi dữ liệu:**

- Các biến có **đơn vị đo khác nhau** (VND, USD, kg, cm)
- Dữ liệu có **phạm vi giá trị chênh lệch lớn** (1-10 vs 1000-10000)
- Sử dụng **thuật toán nhạy cảm với thang đo** (KNN, SVM, Neural Networks)
- **Cải thiện hiệu suất** của mô hình machine learning

### Min-Max Normalization (Chuẩn hóa Min-Max)

**📐 Công thức Min-Max Normalization:**

$$X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}}$$

**🎯 Đặc điểm:**
- Đưa dữ liệu về khoảng **[0, 1]**
- **Bảo toàn phân phối** gốc của dữ liệu
- **Nhạy cảm với outliers** (giá trị ngoại lai)
- Phù hợp khi biết **giới hạn trên và dưới** của dữ liệu

**🔧 Sử dụng `MinMaxScaler` từ scikit-learn:**

In [None]:
# Import thư viện cần thiết cho chuẩn hóa
from sklearn.preprocessing import MinMaxScaler, StandardScaler
import pandas as pd
import numpy as np

# Tạo dữ liệu mẫu với các thang đo khác nhau
data_transform = {
    'Lương': [15000000, 25000000, 30000000, 18000000, 22000000],
    'Tuổi': [25, 35, 40, 28, 32],
    'Kinh nghiệm': [2, 8, 12, 3, 6]
}

df_transform = pd.DataFrame(data_transform)
print("Dữ liệu gốc:")
print(df_transform)

scaler = MinMaxScaler()
norm_data_scaled = df_transform.copy()
norm_data_scaled[['Lương', 'Tuổi', 'Kinh nghiệm']] = scaler.fit_transform(df_transform[['Lương', 'Tuổi', 'Kinh nghiệm']])

print("Min-Max Normalization (0-1):")
print(norm_data_scaled)

### Standard Scaler (Z-score Standardization)

**📊 Công thức Z-score Standardization:**

$$Z = \frac{X - \mu}{\sigma}$$

Trong đó:
- $X$ = giá trị gốc
- $\mu$ = giá trị trung bình (mean)
- $\sigma$ = độ lệch chuẩn (standard deviation)

**🎯 Đặc điểm:**
- Đưa dữ liệu về **phân phối chuẩn** với mean=0, std=1
- **Không bị ảnh hưởng** bởi outliers nhiều như Min-Max
- **Bảo toàn thông tin** về phân phối gốc
- Phù hợp với **các thuật toán giả định phân phối chuẩn** (Linear Regression, Logistic Regression)

**🔧 Sử dụng `StandardScaler` từ scikit-learn:**

In [None]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler
import pandas as pd
import numpy as np

# Tạo dữ liệu mẫu với các thang đo khác nhau
data_transform = {
    'Lương': [15000000, 25000000, 30000000, 18000000, 22000000],
    'Tuổi': [25, 35, 40, 28, 32],
    'Kinh nghiệm': [2, 8, 12, 3, 6]
}

# Áp dụng Standard Scaler
scaler_std = StandardScaler()

# Fit và transform dữ liệu
df_standard = df_transform.copy()
df_standard[['Lương', 'Tuổi', 'Kinh nghiệm']] = scaler_std.fit_transform(
    df_transform[['Lương', 'Tuổi', 'Kinh nghiệm']]
)

print("Dữ liệu sau Standard Scaling:")
print(df_standard)
print(f"\nMô tả thống kê sau standardization:")
print(df_standard.describe().round(4))

# Kiểm tra mean ≈ 0 và std ≈ 1
print(f"\nMean của các cột: {df_standard[['Lương', 'Tuổi', 'Kinh nghiệm']].mean().round(4).values}")
print(f"Std của các cột: {df_standard[['Lương', 'Tuổi', 'Kinh nghiệm']].std().round(4).values}")

### Robust Scaler (Sử dụng Median và IQR)

**📈 Công thức Robust Scaling:**

$$X_{robust} = \frac{X - X_{median}}{IQR}$$

Trong đó:
- $X_{median}$ = giá trị trung vị (median)
- $IQR$ = Interquartile Range = Q3 - Q1

**🛡️ Đặc điểm:**
- **Rất bền vững** (*robust*) trước outliers
- Sử dụng **median thay vì mean**, **IQR thay vì std**
- **Không bị méo** bởi các giá trị ngoại lai
- Phù hợp khi dữ liệu có **nhiều outliers**

**🎯 Khi nào sử dụng Robust Scaler:**
- **Dữ liệu có nhiều outliers** 
- **Không muốn loại bỏ outliers** nhưng vẫn cần chuẩn hóa
- **Dữ liệu không tuân theo phân phối chuẩn**

**🔧 Sử dụng `RobustScaler` từ scikit-learn:**

In [None]:
# Import RobustScaler
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler
import pandas as pd
import numpy as np


# Tạo dữ liệu có outliers
data_with_outliers = {
    'Lương': [15000000, 25000000, 30000000, 18000000, 22000000, 200000000],  # outlier: 200M
    'Tuổi': [25, 35, 40, 28, 32, 22],
    'Kinh nghiệm': [2, 8, 12, 3, 6, 1]
}

df_outliers = pd.DataFrame(data_with_outliers)
print("Dữ liệu có outliers:")
print(df_outliers)
print(f"\nMô tả thống kê:")
print(df_outliers.describe())

# So sánh 3 phương pháp scaling
print("\n" + "="*60)
print("SO SÁNH CÁC PHƯƠNG PHÁP SCALING VỚI OUTLIERS")
print("="*60)

# MinMax Scaler (bị ảnh hưởng mạnh bởi outliers)
scaler_minmax = MinMaxScaler()
scaled_minmax = scaler_minmax.fit_transform(df_outliers[['Lương', 'Tuổi', 'Kinh nghiệm']])
print("\n1. MinMax Scaler (bị ảnh hưởng bởi outliers):")
print(pd.DataFrame(scaled_minmax, columns=['Lương', 'Tuổi', 'Kinh nghiệm']))

# Standard Scaler (bị ảnh hưởng một phần bởi outliers)
scaler_std = StandardScaler()
scaled_std = scaler_std.fit_transform(df_outliers[['Lương', 'Tuổi', 'Kinh nghiệm']])
print("\n2. Standard Scaler (bị ảnh hưởng một phần):")
print(pd.DataFrame(scaled_std, columns=['Lương', 'Tuổi', 'Kinh nghiệm']))

# Robust Scaler (ít bị ảnh hưởng bởi outliers)
scaler_robust = RobustScaler()
scaled_robust = scaler_robust.fit_transform(df_outliers[['Lương', 'Tuổi', 'Kinh nghiệm']])
print("\n3. Robust Scaler (bền vững trước outliers):")
print(pd.DataFrame(scaled_robust, columns=['Lương', 'Tuổi', 'Kinh nghiệm']))

## Xử lý chuỗi ký tự (String Processing)

### Tầm quan trọng của việc xử lý chuỗi ký tự

**📝 Dữ liệu chuỗi ký tự trong thực tế**

Dữ liệu chuỗi ký tự (*string data*) chiếm một phần lớn trong các bộ dữ liệu thực tế:

- **Tên người, địa chỉ**: Thông tin cá nhân
- **Mô tả sản phẩm**: Trong thương mại điện tử
- **Bình luận, đánh giá**: Trong phân tích sentiment
- **Danh mục, nhãn**: Dữ liệu phân loại

**🧹 Các vấn đề thường gặp với dữ liệu chuỗi:**

1. **Không nhất quán về định dạng**: "iPhone", "iphone", "IPHONE"
2. **Khoảng trắng thừa**: "  Apple  ", "Apple "
3. **Ký tự đặc biệt**: "email@domain.com", "phone: +84-123-456-789"
4. **Viết tắt khác nhau**: "Dr.", "Doctor", "BS"
5. **Lỗi chính tả**: "Compnay" thay vì "Company"

**🔧 Pandas String Accessor (`.str`)**

Pandas cung cấp **accessor `.str`** cho phép áp dụng các phương thức xử lý chuỗi lên toàn bộ Series:

```python
# Thay vì làm thủ công từng phần tử
for i in range(len(df)):
    df.loc[i, 'column'] = df.loc[i, 'column'].upper()

# Sử dụng .str accessor
df['column'] = df['column'].str.upper()
```

### Các phương thức cơ bản xử lý chuỗi

**📋 Bảng tổng hợp các phương thức quan trọng:**

| Phương thức | Mô tả | Ví dụ |
|-------------|-------|-------|
| `.str.lower()` | Chuyển về chữ thường | `"HELLO"` → `"hello"` |
| `.str.upper()` | Chuyển về chữ hoa | `"hello"` → `"HELLO"` |
| `.str.title()` | Viết hoa chữ cái đầu | `"hello world"` → `"Hello World"` |
| `.str.strip()` | Loại bỏ khoảng trắng đầu/cuối | `"  hello  "` → `"hello"` |
| `.str.replace()` | Thay thế chuỗi con | `"hello"` → `"hi"` |
| `.str.contains()` | Kiểm tra chứa chuỗi con | `"hello world"` contains `"world"` → `True` |
| `.str.startswith()` | Kiểm tra bắt đầu bằng | `"hello"` startswith `"he"` → `True` |
| `.str.endswith()` | Kiểm tra kết thúc bằng | `"hello"` endswith `"lo"` → `True` |
| `.str.len()` | Độ dài chuỗi | `"hello"` → `5` |
| `.str.split()` | Tách chuỗi | `"a,b,c"` → `["a", "b", "c"]` |

**🔥 Hãy xem các ví dụ thực tế:**

In [None]:
import pandas as pd

# Chuyển đổi kiểu dữ liệu
sample_data = pd.DataFrame({
    'id': ['1', '2', '3', '4', '5'],
    'score': ['85.5', '90.0', '78.5', '92.0', '88.5'],
    'date': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05'],
    'category': ['A', 'B', 'A', 'C', 'B']
})

print("Dữ liệu gốc và kiểu dữ liệu:")
print(sample_data.dtypes)
print()
print(sample_data)

# Chuyển đổi kiểu dữ liệu
sample_data['id'] = sample_data['id'].astype('int64')
sample_data['score'] = sample_data['score'].astype('float64')
sample_data['date'] = pd.to_datetime(sample_data['date'])
sample_data['category'] = sample_data['category'].astype('category')

print("\nSau khi chuyển đổi kiểu dữ liệu:")
print(sample_data.dtypes)
print()
print(sample_data)

### Normalization và Standardization

Normalization và standardization là các kỹ thuật quan trọng để đưa dữ liệu về cùng một thang đo, đặc biệt hữu ích cho machine learning:

In [None]:
import pandas as pd
# Tạo dữ liệu mẫu cho normalization
norm_data = pd.DataFrame({
    'height': [150, 160, 170, 180, 190],  # cm
    'weight': [50, 60, 70, 80, 90],       # kg  
    'income': [30000, 45000, 60000, 75000, 90000]  # VND/month
})

print("Dữ liệu gốc:")
print(norm_data)
print("\nMô tả thống kê:")
print(norm_data.describe())

### Regular Expressions (Regex) cho xử lý chuỗi nâng cao

**🔍 Regular Expressions là gì?**

Regular Expressions (*regex*) là **ngôn ngữ pattern matching** mạnh mẽ để tìm kiếm và thao tác với chuỗi ký tự:

**📋 Các ký tự đặc biệt thường dùng:**

| Pattern | Mô tả | Ví dụ |
|---------|-------|-------|
| `\d` | Số (0-9) | `"abc123"` → tìm thấy `"123"` |
| `\w` | Ký tự từ (a-z, A-Z, 0-9, _) | `"hello_123"` → tìm thấy tất cả |
| `\s` | Khoảng trắng | `"a b c"` → tìm thấy 2 spaces |
| `+` | 1 hoặc nhiều lần | `\d+` → `"123"` (nhiều số liên tiếp) |
| `*` | 0 hoặc nhiều lần | `\d*` → có thể không có số |
| `?` | 0 hoặc 1 lần | `\d?` → tối đa 1 số |
| `[]` | Nhóm ký tự | `[0-9]` tương đương `\d` |
| `^` | Bắt đầu chuỗi | `^Hello` → chuỗi bắt đầu bằng "Hello" |
| `$` | Kết thúc chuỗi | `world$` → chuỗi kết thúc bằng "world" |

**🔧 Sử dụng regex với pandas `.str` accessor:**

- `.str.contains(pattern)` - kiểm tra chứa pattern
- `.str.extract(pattern)` - trích xuất groups từ pattern  
- `.str.replace(pattern, replacement, regex=True)` - thay thế với regex
- `.str.findall(pattern)` - tìm tất cả matches

**📱 Ví dụ thực tế: Xử lý số điện thoại, email, mã zip**

In [None]:
import pandas as pd

# Tạo dữ liệu mẫu với các patterns phức tạp
data_regex = {
    'text': [
        'Liên hệ: 0123-456-789 hoặc email: john@gmail.com',
        'SDT: +84 98 765 4321, địa chỉ: 123 Lê Lợi, Q1, TP.HCM', 
        'Phone: (024) 3825-7863, email: info@company.vn',
        'Mobile: 0987654321, website: https://example.com',
        'Hotline: 1900-1234, fax: (028) 3829-5678'
    ]
}

df_regex = pd.DataFrame(data_regex)
print("Dữ liệu gốc:")
print(df_regex)

# 1. Trích xuất số điện thoại
print("\n1. Trích xuất số điện thoại:")
phone_pattern = r'(\+?\d{1,3}[\s\-]?)?\(?0?\d{2,3}\)?[\s\-]?\d{3,4}[\s\-]?\d{3,4}'
df_regex['phone'] = df_regex['text'].str.extract(phone_pattern, expand=False)
print(df_regex[['text', 'phone']])

# 2. Trích xuất email
print("\n2. Trích xuất email:")
email_pattern = r'([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})'
df_regex['email'] = df_regex['text'].str.extract(email_pattern, expand=False)
print(df_regex[['text', 'email']])

# 3. Kiểm tra chứa website
print("\n3. Kiểm tra chứa website/URL:")
url_pattern = r'https?://[^\s]+'
df_regex['has_url'] = df_regex['text'].str.contains(url_pattern, regex=True)
print(df_regex[['text', 'has_url']])

# 4. Làm sạch và chuẩn hóa số điện thoại
print("\n4. Chuẩn hóa số điện thoại:")
def clean_phone(text):
    # Tìm tất cả số điện thoại
    phones = str(text).replace('nan', '')
    # Chỉ giữ lại số
    cleaned = ''.join(filter(str.isdigit, phones))
    # Format lại nếu có đủ số
    if len(cleaned) >= 10:
        if cleaned.startswith('84'):
            return f"+84-{cleaned[2:5]}-{cleaned[5:8]}-{cleaned[8:]}"
        elif cleaned.startswith('0'):
            return f"{cleaned[:4]}-{cleaned[4:7]}-{cleaned[7:]}"
    return cleaned if cleaned else None

df_regex['phone_clean'] = df_regex['phone'].apply(clean_phone)
print(df_regex[['phone', 'phone_clean']])

## Xử lý dữ liệu phân loại (Categorical Data)

### Hiểu về dữ liệu phân loại

**🏷️ Dữ liệu phân loại là gì?**

Dữ liệu phân loại (*categorical data*) là loại dữ liệu có **số lượng giá trị hữu hạn** và thường được biểu diễn bằng **nhãn hoặc tên**:

**📊 Các loại dữ liệu phân loại:**

1. **Nominal** (Danh nghĩa): Không có thứ tự
   - Giới tính: Nam, Nữ, Khác
   - Màu sắc: Đỏ, Xanh, Vàng
   - Quốc gia: Việt Nam, Mỹ, Nhật Bản

2. **Ordinal** (Thứ tự): Có thứ tự ý nghĩa
   - Học vị: Cử nhân < Thạc sĩ < Tiến sĩ
   - Đánh giá: Kém < Trung bình < Tốt < Xuất sắc
   - Kích cỡ: S < M < L < XL

**🔧 Xử lý dữ liệu phân loại trong pandas:**

- **Kiểu `category`**: Pandas có kiểu dữ liệu chuyên dụng cho categorical data
- **Memory efficient**: Tiết kiệm bộ nhớ khi có nhiều giá trị lặp lại
- **Performance**: Tăng tốc các phép toán groupby và merge
- **Validation**: Kiểm soát các giá trị hợp lệ

**⚙️ Khi nào sử dụng kiểu `category`:**

- Cột có **ít giá trị duy nhất** so với tổng số hàng
- **Nhiều giá trị lặp lại** (high cardinality)
- Muốn **kiểm soát các giá trị** có thể xuất hiện
- Cần **tối ưu hóa bộ nhớ** và hiệu suất

### Label Encoding - Mã hóa nhãn

**🔢 Label Encoding là gì?**

Label Encoding là kỹ thuật chuyển đổi dữ liệu phân loại thành **số nguyên tuần tự**:

- `"Apple"` → `0`
- `"Banana"` → `1` 
- `"Cherry"` → `2`

**✅ Ưu điểm:**
- **Đơn giản**: Dễ hiểu và triển khai
- **Tiết kiệm bộ nhớ**: Chỉ cần 1 cột
- **Phù hợp với dữ liệu ordinal**: Bảo toàn thứ tự

**❌ Nhược điểm:**
- **Tạo thứ tự giả tạo**: Apple < Banana < Cherry (không đúng)
- **Không phù hợp với nominal data**: Các thuật toán có thể hiểu sai quan hệ
- **Bias trong mô hình**: Giá trị lớn hơn có thể được coi là "quan trọng" hơn

**🎯 Khi nào sử dụng Label Encoding:**
- **Dữ liệu ordinal** có thứ tự tự nhiên
- **Tree-based algorithms** (Decision Tree, Random Forest) - ít bị ảnh hưởng bởi thứ tự
- **Target variable** trong classification tasks

In [None]:
import pandas as pd 

# Tạo dữ liệu categorical để demo One-Hot Encoding
data_categorical = {
    'Tên': ['An', 'Bình', 'Chi', 'Dũng', 'Eva'],
    'Phòng ban': ['IT', 'Marketing', 'IT', 'HR', 'Marketing'],
    'Trình độ': ['Cử nhân', 'Thạc sĩ', 'Cử nhân', 'Tiến sĩ', 'Thạc sĩ'],
    'Thành phố': ['Hà Nội', 'TP.HCM', 'Hà Nội', 'Đà Nẵng', 'TP.HCM']
}

df_categorical = pd.DataFrame(data_categorical)
print("Dữ liệu categorical gốc:")
print(df_categorical)

print("Sử dụng Label Encoding đối với dữ liệu categorical:")

from sklearn.preprocessing import LabelEncoder

# Khởi tạo LabelEncoder
label_encoder = LabelEncoder()

# Áp dụng Label Encoding cho từng cột categorical
for col in ['Phòng ban', 'Trình độ', 'Thành phố']:
    df_categorical[col] = label_encoder.fit_transform(df_categorical[col])
    print(f"Các categoricals đã được mã hóa đối với {col}: {label_encoder.classes_}")

print("Kết quả Label Encoding:")
print(df_categorical)

### **One-Hot Encoding - Mã hóa One-Hot**

**🔥 One-Hot Encoding là gì?**

One-Hot Encoding tạo ra **binary columns** cho mỗi category:

**Ví dụ:** `["Apple", "Banana", "Cherry"]` → 

| Apple | Banana | Cherry |
|-------|--------|--------|
| 1     | 0      | 0      |
| 0     | 1      | 0      |
| 0     | 0      | 1      |

**✅ Ưu điểm:**
- **Không tạo thứ tự giả tạo**: Tất cả categories đều bình đẳng
- **Phù hợp với nominal data**: Apple ≠ Banana ≠ Cherry
- **Hoạt động tốt** với hầu hết machine learning algorithms
- **Tránh bias**: Không có category nào được coi là "quan trọng" hơn

**❌ Nhược điểm:**
- **Curse of dimensionality**: Tăng số lượng features đáng kể  
- **Sparse matrix**: Nhiều giá trị 0, tốn bộ nhớ
- **Multicollinearity**: Các cột có correlation với nhau

**🎯 Khi nào sử dụng One-Hot Encoding:**
- **Dữ liệu nominal** không có thứ tự tự nhiên
- **Ít categories** (< 10-15 giá trị duy nhất)
- **Linear algorithms** (Linear/Logistic Regression, SVM)
- **Neural Networks**

In [None]:
import pandas as pd 

# Tạo dữ liệu categorical để demo One-Hot Encoding
data_categorical = {
    'Tên': ['An', 'Bình', 'Chi', 'Dũng', 'Eva'],
    'Phòng ban': ['IT', 'Marketing', 'IT', 'HR', 'Marketing'],
    'Trình độ': ['Cử nhân', 'Thạc sĩ', 'Cử nhân', 'Tiến sĩ', 'Thạc sĩ'],
    'Thành phố': ['Hà Nội', 'TP.HCM', 'Hà Nội', 'Đà Nẵng', 'TP.HCM']
}

df_categorical = pd.DataFrame(data_categorical)
print("Dữ liệu categorical gốc:")
print(df_categorical)

print("PHƯƠNG PHÁP 1: SỬ DỤNG pandas.get_dummies()")

# Phương pháp 1: Sử dụng pandas.get_dummies()
df_onehot_pandas = pd.get_dummies(df_categorical, 
                                  columns=['Phòng ban', 'Trình độ', 'Thành phố'],
                                  prefix=['PB', 'TD', 'TP'])

print("Kết quả One-Hot Encoding với pandas:")
print(df_onehot_pandas)

print(f"\nSố cột trước: {len(df_categorical.columns)}")
print(f"Số cột sau: {len(df_onehot_pandas.columns)}")

print("PHƯƠNG PHÁP 2: SỬ DỤNG sklearn.OneHotEncoder")

from sklearn.preprocessing import OneHotEncoder

# Phương pháp 2: Sử dụng sklearn OneHotEncoder
encoder = OneHotEncoder(sparse_output=False, drop='first')  # drop='first' để tránh multicollinearity

# Chỉ encode các cột categorical (bỏ qua cột 'Tên')
categorical_cols = ['Phòng ban', 'Trình độ', 'Thành phố']
encoded_data = encoder.fit_transform(df_categorical[categorical_cols])

# Tạo tên cột cho kết quả
feature_names = encoder.get_feature_names_out(categorical_cols)

# Tạo DataFrame mới
df_onehot_sklearn = pd.DataFrame(encoded_data, columns=feature_names)
df_onehot_sklearn = pd.concat([df_categorical[['Tên']], df_onehot_sklearn], axis=1)

print("Kết quả One-Hot Encoding với sklearn:")
print(df_onehot_sklearn)

print(f"\nLưu ý: sklearn với drop='first' giảm số cột để tránh multicollinearity")

## Câu hỏi ôn tập

**📝 Hãy trả lời các câu hỏi sau để kiểm tra hiểu biết của bạn:**

| **Phương thức nào dùng để phát hiện dữ liệu thiếu trong pandas?** | |
|---|---|
| `isna()` hoặc `isnull()` | |
| `missing()` | |
| `empty()` | |
| `nan_check()` | |

| **Phương thức `fillna()` được sử dụng để làm gì?** | |
|---|---|
| Loại bỏ dữ liệu thiếu | |
| Thay thế dữ liệu thiếu | |
| Phát hiện dữ liệu thiếu | |
| Đếm dữ liệu thiếu | |

| **MinMaxScaler đưa dữ liệu về khoảng giá trị nào?** | |
|---|---|
| [-1, 1] | |
| [0, 1] | |
| [0, 100] | |
| [-100, 100] | |

| **Phương thức nào dùng để loại bỏ hàng trùng lặp?** | |
|---|---|
| `remove_duplicates()` | |
| `drop_duplicates()` | |
| `delete_duplicates()` | |
| `unique()` | |

| **Trong pandas, để chuyển chuỗi về chữ thường ta sử dụng?** | |
|---|---|
| `.str.lowercase()` | |
| `.str.lower()` | |
| `.str.downcase()` | |
| `.str.small()` | |

| **Label Encoding phù hợp nhất với loại dữ liệu nào?** | |
|---|---|
| Dữ liệu số liên tục | |
| Dữ liệu nominal | |
| Dữ liệu ordinal | |
| Dữ liệu thời gian | |

| **StandardScaler chuẩn hóa dữ liệu có Mean và Standard Deviation là bao nhiêu?** | |
|---|---|
| Mean=1, Std=0 | |
| Mean=0, Std=1 | |
| Mean=0.5, Std=0.5 | |
| Mean=100, Std=10 | |

| **Khi nào nên sử dụng RobustScaler thay vì MinMaxScaler?** | |
|---|---|
| Khi dữ liệu có nhiều outliers | |
| Khi dữ liệu đã chuẩn hóa | |
| Khi dữ liệu là categorical | |
| Khi dữ liệu có kích thước nhỏ | |