# 📊 Làm sạch và chuẩn bị dữ liệu trong Khoa học Dữ liệu

---

## 🎯 Mục tiêu học tập

Sau khi hoàn thành bài học này, bạn sẽ có thể:

✅ **Hiểu và xử lý dữ liệu thiếu** trong các bộ dữ liệu kinh tế  
✅ **Phát hiện và loại bỏ dữ liệu trùng lặp** trong khảo sát khách hàng  
✅ **Chuẩn hóa và biến đổi dữ liệu** để phù hợp với phân tích  
✅ **Xử lý dữ liệu chuỗi ký tự** từ các nguồn khác nhau  
✅ **Mã hóa dữ liệu phân loại** cho machine learning  

---

## 📍 Lộ trình bài giảng

```
Phần 1: Xử lý dữ liệu thiếu                    ⭐⭐ Trung bình
    ├── Phát hiện dữ liệu thiếu
    ├── Loại bỏ (dropna)
    ├── Thay thế (fillna)
    └── Dự đoán (ML methods)
    
Phần 2: Xử lý dữ liệu trùng lặp                ⭐ Dễ
    ├── Phát hiện (duplicated)
    └── Loại bỏ (drop_duplicates)
    
Phần 3: Chuẩn hóa dữ liệu                      ⭐⭐ Trung bình
    ├── MinMaxScaler
    ├── StandardScaler
    └── RobustScaler
    
Phần 4: Xử lý chuỗi ký tự                       ⭐⭐⭐ Khó
    ├── String methods cơ bản
    └── Regular Expressions (Regex)
    
Phần 5: Dữ liệu phân loại                      ⭐⭐ Trung bình
    ├── Label Encoding
    └── One-Hot Encoding
```

> **💡 Khuyến nghị:** Học tuần tự từ Phần 1 → Phần 5. Mỗi phần xây dựng dựa trên kiến thức của phần trước.

---

## ⚠️ Lưu ý quan trọng

> **💡 Cho sinh viên Kinh tế:** Bài học này tập trung vào các kỹ thuật thực tế mà bạn sẽ sử dụng khi phân tích dữ liệu kinh tế, khảo sát khách hàng, và nghiên cứu thị trường.

> **🔧 Tương thích:** Notebook này hoạt động tốt trên cả **Jupyter Notebook**, **JupyterLab**, và **Google Colab**.

---

## 🚀 Bắt đầu học tập

Hãy bắt đầu với **Phần 1: Xử lý dữ liệu thiếu** 👇

> **💡 Cho sinh viên Kinh tế:** Bài học này tập trung vào các kỹ thuật thực tế mà bạn sẽ sử dụng khi phân tích dữ liệu kinh tế, khảo sát khách hàng, và nghiên cứu thị trường.

> **🔧 Tương thích:** Notebook này hoạt động tốt trên cả **Jupyter Notebook**, **JupyterLab**, và **Google Colab**.

---

## 🔧 Thiết lập môi trường

> **💡 MỤC TIÊU:** Đảm bảo notebook hoạt động tốt trên cả môi trường local và Google Colab

### **Cài đặt thư viện cần thiết:**

```python
# Chạy cell này nếu bạn đang sử dụng Google Colab
# Hoặc nếu gặp lỗi ImportError khi chạy các cell khác

import subprocess
import sys

def install_package(package):
    """Cài đặt package nếu chưa có"""
    try:
        __import__(package)
        print(f"✅ {package} đã được cài đặt")
    except ImportError:
        print(f"📦 Đang cài đặt {package}...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", package])
        print(f"✅ Đã cài đặt {package} thành công")

# Cài đặt các thư viện cần thiết
packages = [
    "pandas",
    "numpy", 
    "scikit-learn",
    "matplotlib",
    "seaborn"
]

for package in packages:
    install_package(package)

print("🎉 Thiết lập hoàn tất! Bạn có thể tiếp tục với bài học.")
```

### **Import thư viện:**

```python
# Import các thư viện cần thiết
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler, LabelEncoder
from sklearn.impute import KNNImputer
import warnings
warnings.filterwarnings('ignore')

# Thiết lập hiển thị
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
plt.style.use('default')

print("✅ Đã import tất cả thư viện cần thiết!")
print("📊 Sẵn sàng bắt đầu bài học Data Cleaning!")
```

---


## 🛠️ Thiết lập môi trường

Trước khi bắt đầu, hãy đảm bảo bạn đã cài đặt các thư viện cần thiết:

**📦 Cài đặt thư viện (chạy cell này nếu bạn đang sử dụng Google Colab):**


In [1]:
# Cài đặt thư viện cho Google Colab (bỏ qua nếu đã cài đặt)
try:
    import pandas as pd
    import numpy as np
    from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler, LabelEncoder, OneHotEncoder, KNNImputer
    from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
    print("✅ Tất cả thư viện đã sẵn sàng!")
except ImportError as e:
    print(f"❌ Thiếu thư viện: {e}")
    print("🔧 Đang cài đặt...")
    import subprocess
    import sys
    
    # Cài đặt các thư viện cần thiết
    packages = ['pandas', 'numpy', 'scikit-learn']
    for package in packages:
        subprocess.check_call([sys.executable, '-m', 'pip', 'install', package])
    
    print("✅ Cài đặt hoàn tất! Vui lòng restart kernel và chạy lại cell này.")


❌ Thiếu thư viện: cannot import name 'KNNImputer' from 'sklearn.preprocessing' (/Users/nguyennghia/miniconda3/envs/ehr-datasets/lib/python3.9/site-packages/sklearn/preprocessing/__init__.py)
🔧 Đang cài đặt...
✅ Cài đặt hoàn tất! Vui lòng restart kernel và chạy lại cell này.


# 🔍 Phần 1: Xử lý dữ liệu thiếu (Missing Data)

## 🎯 Mục tiêu phần này
- Hiểu tại sao dữ liệu thiếu là vấn đề trong kinh tế
- Phát hiện missing data trong dữ liệu
- Áp dụng các phương pháp xử lý phù hợp

---

## 📊 Ví dụ thực tế: Tại sao dữ liệu thiếu quan trọng?

Trong thực tế kinh doanh và nghiên cứu kinh tế, **dữ liệu thiếu** là vấn đề rất phổ biến:

### 🏢 Ví dụ thực tế từ doanh nghiệp:
- **Khảo sát khách hàng**: Một số khách hàng không trả lời câu hỏi về thu nhập
- **Báo cáo tài chính**: Một số công ty không công bố đầy đủ thông tin
- **Dữ liệu thị trường**: Giá cổ phiếu có thể bị thiếu trong ngày nghỉ lễ
- **Nghiên cứu kinh tế**: Một số hộ gia đình từ chối cung cấp thông tin chi tiêu

### ⚠️ Tác động của dữ liệu thiếu:
- **Giảm độ tin cậy** của phân tích
- **Thiên lệch kết quả** nghiên cứu
- **Khó khăn trong dự báo** kinh tế
- **Ảnh hưởng đến quyết định** đầu tư

## 🎯 DEMO: Dữ liệu nhân viên có missing values

Trước khi học lý thuyết, hãy xem một ví dụ thực tế về dữ liệu thiếu:

In [2]:
# 📊 Ví dụ thực tế: Dữ liệu nhân viên công ty có missing values
import pandas as pd
import numpy as np

# Tạo DataFrame mẫu về nhân viên công ty (tình huống thực tế)
print("🏢 VÍ DỤ: Dữ liệu nhân viên công ty có missing values")
print("=" * 60)

data_nhanvien = {
    'TenNV': ['Nguyễn Văn A', 'Trần Thị B', 'Lê Văn C', 'Phạm Thị D', 'Hoàng Văn E'],
    'Tuoi': [25, None, 30, 28, None],  # Một số nhân viên không cung cấp tuổi
    'Luong': [15000000, 18000000, None, 22000000, 16000000],  # Lương bị thiếu
    'PhongBan': ['IT', 'Marketing', None, 'IT', 'Marketing'],  # Phòng ban không rõ
    'KinhNghiem': [2, 5, None, 7, 1]  # Kinh nghiệm chưa được cập nhật
}

df_nhanvien = pd.DataFrame(data_nhanvien)
print("📋 DataFrame nhân viên với dữ liệu thiếu:")
print(df_nhanvien)

print(f"\n📊 Thông tin tổng quan:")
print(f"   - Tổng số nhân viên: {len(df_nhanvien)}")
print(f"   - Số cột: {len(df_nhanvien.columns)}")
print(f"   - Kiểu dữ liệu:")
print(df_nhanvien.dtypes)


🏢 VÍ DỤ: Dữ liệu nhân viên công ty có missing values
📋 DataFrame nhân viên với dữ liệu thiếu:
          TenNV  Tuoi       Luong   PhongBan  KinhNghiem
0  Nguyễn Văn A  25.0  15000000.0         IT         2.0
1    Trần Thị B   NaN  18000000.0  Marketing         5.0
2      Lê Văn C  30.0         NaN       None         NaN
3    Phạm Thị D  28.0  22000000.0         IT         7.0
4   Hoàng Văn E   NaN  16000000.0  Marketing         1.0

📊 Thông tin tổng quan:
   - Tổng số nhân viên: 5
   - Số cột: 5
   - Kiểu dữ liệu:
TenNV          object
Tuoi          float64
Luong         float64
PhongBan       object
KinhNghiem    float64
dtype: object


## 📚 Lý thuyết: Hiểu về dữ liệu thiếu

Sau khi thấy ví dụ thực tế, hãy tìm hiểu lý thuyết về dữ liệu thiếu:

* Trong thực tế, khi thu thập và lưu trữ dữ liệu, không phải lúc nào mọi giá trị cũng được ghi nhận đầy đủ.
* Một số ô có thể bị trống hoặc mang các ký hiệu đặc biệt như NA, NaN, NULL, hoặc chuỗi rỗng "". Đây chính là dữ liệu thiếu (missing data).

### 🔍 Các dạng thiếu dữ liệu trong kinh tế

Trong nghiên cứu kinh tế, chúng ta phân loại dữ liệu thiếu thành 3 loại chính:

#### 1️⃣ **MCAR (Missing Completely At Random)** - Thiếu hoàn toàn ngẫu nhiên
- **Ví dụ**: Máy tính bị lỗi khi thu thập dữ liệu giá cổ phiếu
- **Đặc điểm**: Không liên quan đến bất kỳ yếu tố nào
- **Xử lý**: Có thể loại bỏ an toàn

#### 2️⃣ **MAR (Missing At Random)** - Thiếu có điều kiện
- **Ví dụ**: Người có thu nhập cao thường không trả lời câu hỏi về thu nhập
- **Đặc điểm**: Phụ thuộc vào các biến khác có thể quan sát được
- **Xử lý**: Cần phân tích cẩn thận

#### 3️⃣ **MNAR (Missing Not At Random)** - Thiếu có hệ thống
- **Ví dụ**: Công ty có lợi nhuận thấp thường không công bố báo cáo tài chính
- **Đặc điểm**: Liên quan trực tiếp đến giá trị bị thiếu
- **Xử lý**: Cần kỹ thuật phức tạp để xử lý

### 📋 Biểu diễn dữ liệu thiếu trong Python:
- `NaN` (*Not a Number*) - cho dữ liệu số
- `None` - cho dữ liệu đối tượng  
- `NaT` (*Not a Time*) - cho dữ liệu thời gian

### 🎯 Nguyên nhân gây ra dữ liệu thiếu trong kinh tế

#### 📊 **Lỗi thu thập dữ liệu**
- **Ví dụ**: Hệ thống giao dịch chứng khoán bị sập trong giờ cao điểm
- **Tác động**: Mất dữ liệu giá cổ phiếu quan trọng

#### 👥 **Người dùng không cung cấp**
- **Ví dụ**: Khách hàng bỏ qua câu hỏi về thu nhập trong khảo sát
- **Tác động**: Thiếu thông tin để phân tích hành vi tiêu dùng

#### 📈 **Dữ liệu không tồn tại**
- **Ví dụ**: Công ty mới thành lập chưa có báo cáo tài chính năm trước
- **Tác động**: Khó so sánh hiệu suất với các công ty khác

#### 🔄 **Lỗi xử lý dữ liệu**
- **Ví dụ**: Lỗi khi chuyển đổi định dạng từ Excel sang CSV
- **Tác động**: Mất thông tin quan trọng trong quá trình chuyển đổi

### ⚠️ Tác động của dữ liệu thiếu đến phân tích kinh tế

#### 📉 **Giảm kích thước mẫu**
- **Ví dụ**: Khảo sát 1000 khách hàng, nhưng chỉ có 800 người trả lời đầy đủ
- **Tác động**: Giảm độ tin cậy của kết quả nghiên cứu

#### 🎯 **Thiên lệch kết quả**
- **Ví dụ**: Chỉ những người có thu nhập cao mới trả lời câu hỏi về thu nhập
- **Tác động**: Kết quả phân tích không đại diện cho toàn bộ dân số

#### 🤖 **Giảm hiệu quả phân tích**
- **Ví dụ**: Thuật toán machine learning không thể xử lý dữ liệu thiếu
- **Tác động**: Không thể dự báo xu hướng thị trường chính xác

#### 💼 **Ảnh hưởng quyết định kinh doanh**
- **Ví dụ**: Thiếu dữ liệu về đối thủ cạnh tranh
- **Tác động**: Ra quyết định đầu tư không chính xác

In [3]:
# 📊 Ví dụ thực tế: Dữ liệu nhân viên công ty có missing values
import pandas as pd
import numpy as np

# Tạo DataFrame mẫu về nhân viên công ty (tình huống thực tế)
print("🏢 VÍ DỤ: Dữ liệu nhân viên công ty có missing values")
print("=" * 60)

data_nhanvien = {
    'TenNV': ['Nguyễn Văn A', 'Trần Thị B', 'Lê Văn C', 'Phạm Thị D', 'Hoàng Văn E'],
    'Tuoi': [25, None, 30, 28, None],  # Một số nhân viên không cung cấp tuổi
    'Luong': [15000000, 18000000, None, 22000000, 16000000],  # Lương bị thiếu
    'PhongBan': ['IT', 'Marketing', None, 'IT', 'Marketing'],  # Phòng ban không rõ
    'KinhNghiem': [2, 5, None, 7, 1]  # Kinh nghiệm chưa được cập nhật
}

df_nhanvien = pd.DataFrame(data_nhanvien)
print("📋 DataFrame nhân viên với dữ liệu thiếu:")
print(df_nhanvien)

print(f"\n📊 Thông tin tổng quan:")
print(f"   - Tổng số nhân viên: {len(df_nhanvien)}")
print(f"   - Số cột: {len(df_nhanvien.columns)}")
print(f"   - Kiểu dữ liệu:")
print(df_nhanvien.dtypes)

🏢 VÍ DỤ: Dữ liệu nhân viên công ty có missing values
📋 DataFrame nhân viên với dữ liệu thiếu:
          TenNV  Tuoi       Luong   PhongBan  KinhNghiem
0  Nguyễn Văn A  25.0  15000000.0         IT         2.0
1    Trần Thị B   NaN  18000000.0  Marketing         5.0
2      Lê Văn C  30.0         NaN       None         NaN
3    Phạm Thị D  28.0  22000000.0         IT         7.0
4   Hoàng Văn E   NaN  16000000.0  Marketing         1.0

📊 Thông tin tổng quan:
   - Tổng số nhân viên: 5
   - Số cột: 5
   - Kiểu dữ liệu:
TenNV          object
Tuoi          float64
Luong         float64
PhongBan       object
KinhNghiem    float64
dtype: object


### 🔍 Các phương thức phát hiện dữ liệu thiếu trong pandas

Pandas cung cấp các phương thức chuyên dụng để **phát hiện và kiểm tra dữ liệu thiếu**:

| Phương thức | Mô tả | Trả về | Ví dụ sử dụng |
|-------------|-------|--------|---------------|
| `isna()` / `isnull()` | Kiểm tra từng phần tử có thiếu không | Boolean DataFrame/Series | `df.isna()` |
| `notna()` / `notnull()` | Kiểm tra từng phần tử có dữ liệu không | Boolean DataFrame/Series | `df.notna()` |
| `isna().sum()` | Đếm số lượng dữ liệu thiếu theo cột | Series với số lượng | `df.isna().sum()` |
| `isna().any()` | Kiểm tra có cột nào thiếu dữ liệu không | Boolean Series | `df.isna().any()` |

**📊 Hãy xem cách sử dụng các phương thức này với dữ liệu nhân viên:**

In [4]:
# 🔍 DEMO: Phát hiện dữ liệu thiếu trong DataFrame nhân viên
print("🔍 DEMO: Các phương thức phát hiện dữ liệu thiếu")
print("=" * 60)

# Sử dụng DataFrame từ cell trước
print("📋 DataFrame gốc:")
print(df_nhanvien)

print("\n" + "="*60)
print("1️⃣ KIỂM TRA TỪNG PHẦN TỬ CÓ THIẾU KHÔNG")
print("="*60)

# 1. Kiểm tra dữ liệu thiếu - trả về Boolean DataFrame
print("🔍 df_nhanvien.isna() - Kiểm tra từng ô có thiếu không:")
print(df_nhanvien.isna())

print("\n🔍 df_nhanvien.notna() - Kiểm tra từng ô có dữ liệu không:")
print(df_nhanvien.notna())

print("\n" + "="*60)
print("2️⃣ ĐẾM SỐ LƯỢNG DỮ LIỆU THIẾU THEO CỘT")
print("="*60)

# 2. Đếm số lượng dữ liệu thiếu theo từng cột
print("📊 df_nhanvien.isna().sum() - Số lượng missing values theo cột:")
missing_count = df_nhanvien.isna().sum()
print(missing_count)

# Tính phần trăm missing
print("\n📈 Tỷ lệ missing values (%):")
missing_percent = (missing_count / len(df_nhanvien)) * 100
print(missing_percent.round(2))

print("\n" + "="*60)
print("3️⃣ KIỂM TRA CỘT NÀO CÓ DỮ LIỆU THIẾU")
print("="*60)

# 3. Kiểm tra cột nào có dữ liệu thiếu
print("🔍 df_nhanvien.isna().any() - Cột nào có missing values:")
print(df_nhanvien.isna().any())

print("\n" + "="*60)
print("4️⃣ TỔNG SỐ DỮ LIỆU THIẾU")
print("="*60)

# 4. Tổng số dữ liệu thiếu trong toàn bộ DataFrame
total_missing = df_nhanvien.isna().sum().sum()
total_cells = df_nhanvien.shape[0] * df_nhanvien.shape[1]
missing_percentage = (total_missing / total_cells) * 100

print(f"📊 Tổng số missing values: {total_missing}")
print(f"📊 Tổng số ô dữ liệu: {total_cells}")
print(f"📊 Tỷ lệ missing: {missing_percentage:.1f}%")

🔍 DEMO: Các phương thức phát hiện dữ liệu thiếu
📋 DataFrame gốc:
          TenNV  Tuoi       Luong   PhongBan  KinhNghiem
0  Nguyễn Văn A  25.0  15000000.0         IT         2.0
1    Trần Thị B   NaN  18000000.0  Marketing         5.0
2      Lê Văn C  30.0         NaN       None         NaN
3    Phạm Thị D  28.0  22000000.0         IT         7.0
4   Hoàng Văn E   NaN  16000000.0  Marketing         1.0

1️⃣ KIỂM TRA TỪNG PHẦN TỬ CÓ THIẾU KHÔNG
🔍 df_nhanvien.isna() - Kiểm tra từng ô có thiếu không:
   TenNV   Tuoi  Luong  PhongBan  KinhNghiem
0  False  False  False     False       False
1  False   True  False     False       False
2  False  False   True      True        True
3  False  False  False     False       False
4  False   True  False     False       False

🔍 df_nhanvien.notna() - Kiểm tra từng ô có dữ liệu không:
   TenNV   Tuoi  Luong  PhongBan  KinhNghiem
0   True   True   True      True        True
1   True  False   True      True        True
2   True   True  False     False

### 🛠️ Các phương pháp xử lý dữ liệu thiếu trong kinh tế

**🎯 Có 3 cách chính để xử lý dữ liệu thiếu:**

#### 1️⃣ **Loại bỏ** (*Deletion*) 
- **Khi nào dùng**: Dữ liệu thiếu < 5%, thiếu ngẫu nhiên
- **Ví dụ**: Loại bỏ khách hàng không trả lời đầy đủ khảo sát
- **Ưu điểm**: Đơn giản, không tạo bias
- **Nhược điểm**: Giảm kích thước mẫu

#### 2️⃣ **Thay thế** (*Imputation*)
- **Khi nào dùng**: Dữ liệu thiếu 5-20%, có pattern
- **Ví dụ**: Thay thế lương thiếu bằng lương trung bình của phòng ban
- **Ưu điểm**: Giữ nguyên kích thước mẫu
- **Nhược điểm**: Có thể tạo bias

#### 3️⃣ **Dự đoán** (*Prediction*)
- **Khi nào dùng**: Dữ liệu thiếu > 20%, có mối quan hệ phức tạp
- **Ví dụ**: Dùng machine learning để dự đoán thu nhập dựa trên các yếu tố khác
- **Ưu điểm**: Chính xác cao
- **Nhược điểm**: Phức tạp, cần hiểu biết về ML

**⚖️ Hướng dẫn lựa chọn phương pháp:**

| Tỷ lệ thiếu | Loại dữ liệu | Phương pháp khuyến nghị |
|-------------|--------------|------------------------|
| < 5% | Bất kỳ | Loại bỏ |
| 5-20% | Số | Mean/Median |
| 5-20% | Phân loại | Mode |
| > 20% | Có quan hệ | Machine Learning |

---

## 📊 **So sánh các phương pháp xử lý Missing Values**

Đã học xong các phương pháp xử lý missing values, hãy so sánh để hiểu rõ hơn:

| Phương pháp | Khi nào dùng | Ưu điểm | Nhược điểm | Ví dụ |
|-------------|--------------|---------|------------|-------|
| **Drop (Loại bỏ)** | Missing < 5% tổng dữ liệu | Đơn giản, không làm méo dữ liệu | Mất thông tin, giảm kích thước dataset | Khảo sát có 2% không trả lời |
| **Fill Mean/Median** | Dữ liệu số, phân phối chuẩn | Giữ nguyên kích thước dataset | Có thể tạo bias, không phù hợp với categorical | Thu nhập, tuổi tác |
| **Fill Mode** | Dữ liệu phân loại | Phù hợp với categorical data | Có thể tạo bias | Giới tính, nghề nghiệp |
| **Forward Fill** | Dữ liệu thời gian | Giữ nguyên xu hướng | Có thể tạo bias nếu missing nhiều | Giá cổ phiếu, doanh thu |
| **ML Imputation** | Missing > 10%, có mối quan hệ giữa các cột | Chính xác, sử dụng thông tin từ các cột khác | Phức tạp, tốn thời gian | KNN, Random Forest |

### **🤔 Khi nào dùng gì?**

**Dùng Drop khi:**
- ✅ Missing values < 5% tổng dữ liệu
- ✅ Không có mối quan hệ giữa các cột
- ✅ Cần dữ liệu hoàn toàn chính xác

**Dùng Fill khi:**
- ✅ Missing values 5-15%
- ✅ Có thể ước lượng được giá trị thiếu
- ✅ Cần giữ nguyên kích thước dataset

**Dùng ML Imputation khi:**
- ✅ Missing values > 10%
- ✅ Có mối quan hệ mạnh giữa các cột
- ✅ Cần độ chính xác cao

---

## 📊 **So sánh các Scaler**

| Scaler | Khoảng giá trị | Khi nào dùng | Ưu điểm | Nhược điểm |
|--------|----------------|--------------|---------|------------|
| **MinMaxScaler** | [0, 1] | Dữ liệu không có outliers | Dễ hiểu, giữ nguyên phân phối | Nhạy cảm với outliers |
| **StandardScaler** | Mean=0, Std=1 | Dữ liệu có phân phối chuẩn | Chuẩn hóa theo phân phối chuẩn | Nhạy cảm với outliers |
| **RobustScaler** | Median=0, IQR=1 | Dữ liệu có outliers | Không bị ảnh hưởng bởi outliers | Khó hiểu hơn |

### **🎯 Chọn Scaler phù hợp:**

**MinMaxScaler:**
- ✅ Dữ liệu không có outliers
- ✅ Cần khoảng giá trị [0,1]
- ✅ Neural networks

**StandardScaler:**
- ✅ Dữ liệu có phân phối chuẩn
- ✅ Machine learning algorithms
- ✅ Cần mean=0, std=1

**RobustScaler:**
- ✅ Dữ liệu có outliers
- ✅ Cần tính robust
- ✅ Dữ liệu không chuẩn

---


#### **Phương pháp 1: Loại bỏ dữ liệu thiếu (`dropna`)**

Phương thức `dropna()` cho phép loại bỏ các hàng hoặc cột có dữ liệu thiếu:

**📋 Các tham số quan trọng của `dropna()`:**

| Tham số | Giá trị | Mô tả |
|---------|---------|-------|
| `axis` | 0 (default) / 1 | 0: loại bỏ hàng, 1: loại bỏ cột |
| `how` | 'any' (default) / 'all' | 'any': có ít nhất 1 NaN, 'all': toàn bộ là NaN |
| `subset` | list | Chỉ xét dữ liệu thiếu trong các cột được chỉ định |
| `thresh` | int | Số lượng giá trị không null tối thiểu cần có |

In [5]:
# Import các thư viện cần thiết
import pandas as pd
import numpy as np

# Tạo DataFrame mẫu với dữ liệu thiếu
data_missing = {
    'Tên': ['An', 'Bình', 'Chi', 'Dũng', 'Eva'],
    'Tuổi': [25, None, 30, 28, None],
    'Lương': [15000000, 18000000, None, 22000000, 16000000],
    'Phòng ban': ['IT', 'Marketing', None, 'IT', 'Marketing']
}

df_missing = pd.DataFrame(data_missing)
print("DataFrame với dữ liệu thiếu:")
print(df_missing)

# 1. Loại bỏ tất cả hàng có ít nhất 1 giá trị thiếu
print("1. Loại bỏ hàng có dữ liệu thiếu (how='any'):")
df_drop_any = df_missing.dropna()
print(df_drop_any)
print(f"Số hàng còn lại: {len(df_drop_any)}")

# 2. Loại bỏ hàng chỉ khi TẤT CẢ giá trị đều thiếu
print("2. Loại bỏ hàng khi tất cả giá trị đều thiếu (how='all'):")
df_drop_all = df_missing.dropna(how='all')
print(df_drop_all)
print(f"Số hàng còn lại: {len(df_drop_all)}")

# 3. Loại bỏ cột có dữ liệu thiếu
print("3. Loại bỏ cột có dữ liệu thiếu (axis=1):")
df_drop_cols = df_missing.dropna(axis=1)
print(df_drop_cols)
print(f"Số cột còn lại: {len(df_drop_cols.columns)}")

DataFrame với dữ liệu thiếu:
    Tên  Tuổi       Lương  Phòng ban
0    An  25.0  15000000.0         IT
1  Bình   NaN  18000000.0  Marketing
2   Chi  30.0         NaN       None
3  Dũng  28.0  22000000.0         IT
4   Eva   NaN  16000000.0  Marketing
1. Loại bỏ hàng có dữ liệu thiếu (how='any'):
    Tên  Tuổi       Lương Phòng ban
0    An  25.0  15000000.0        IT
3  Dũng  28.0  22000000.0        IT
Số hàng còn lại: 2
2. Loại bỏ hàng khi tất cả giá trị đều thiếu (how='all'):
    Tên  Tuổi       Lương  Phòng ban
0    An  25.0  15000000.0         IT
1  Bình   NaN  18000000.0  Marketing
2   Chi  30.0         NaN       None
3  Dũng  28.0  22000000.0         IT
4   Eva   NaN  16000000.0  Marketing
Số hàng còn lại: 5
3. Loại bỏ cột có dữ liệu thiếu (axis=1):
    Tên
0    An
1  Bình
2   Chi
3  Dũng
4   Eva
Số cột còn lại: 1


#### **Phương pháp 2: Thay thế dữ liệu thiếu (`fillna`)**

Phương thức `fillna()` cho phép **thay thế dữ liệu thiếu** bằng các giá trị cụ thể:

**🔧 Các chiến lược thay thế phổ biến:**

| Chiến lược | Ứng dụng | Ví dụ |
|------------|----------|-------|
| **Giá trị cố định** | Thay thế bằng một giá trị nhất định | `fillna(0)`, `fillna('Unknown')` |
| **Giá trị trung bình** | Dữ liệu số, phân phối chuẩn | `fillna(df['col'].mean())` |
| **Giá trị trung vị** | Dữ liệu số, có outliers | `fillna(df['col'].median())` |
| **Giá trị phổ biến nhất** | Dữ liệu phân loại | `fillna(df['col'].mode()[0])` |
| **Forward fill** | Dữ liệu chuỗi thời gian | `fillna(method='ffill')` |
| **Backward fill** | Dữ liệu chuỗi thời gian | `fillna(method='bfill')` |

**📊 Hãy xem các ví dụ cụ thể:**

In [6]:
# Import các thư viện cần thiết
import pandas as pd
import numpy as np

# Tạo DataFrame mẫu với dữ liệu thiếu
data_missing = {
    'Tên': ['An', 'Bình', 'Chi', 'Dũng', 'Eva'],
    'Tuổi': [25, None, 30, 28, None],
    'Lương': [15000000, 18000000, None, 22000000, 16000000],
    'Phòng ban': ['IT', 'Marketing', None, 'IT', 'Marketing']
}

df_missing = pd.DataFrame(data_missing)
print("DataFrame với dữ liệu thiếu:")
print(df_missing)

# 1. Thay thế bằng giá trị cố định
print("\n1. Thay thế bằng giá trị cố định:")
df_fill_fixed = df_missing.fillna({'Tuổi': 0, 'Lương': 0, 'Phòng ban': 'Chưa xác định'})
print(df_fill_fixed)

# 2. Thay thế bằng giá trị trung bình (cho dữ liệu số)
print("\n2. Thay thế bằng giá trị trung bình:")
df_fill_mean = df_missing.copy()
df_fill_mean['Tuổi'] = df_fill_mean['Tuổi'].fillna(df_fill_mean['Tuổi'].mean())
df_fill_mean['Lương'] = df_fill_mean['Lương'].fillna(df_fill_mean['Lương'].mean())
print(df_fill_mean)
print(f"Tuổi trung bình: {df_missing['Tuổi'].mean():.1f}")
print(f"Lương trung bình: {df_missing['Lương'].mean():,.0f}")

# 3. Thay thế bằng giá trị trung vị (bền vững với outliers)
print("\n3. Thay thế bằng giá trị trung vị:")
df_fill_median = df_missing.copy()
df_fill_median['Tuổi'] = df_fill_median['Tuổi'].fillna(df_fill_median['Tuổi'].median())
df_fill_median['Lương'] = df_fill_median['Lương'].fillna(df_fill_median['Lương'].median())
print(df_fill_median)

# 4. Thay thế bằng giá trị phổ biến nhất (mode) - cho dữ liệu phân loại
print("\n4. Thay thế bằng giá trị phổ biến nhất (mode):")
df_fill_mode = df_missing.copy()
df_fill_mode['Phòng ban'] = df_fill_mode['Phòng ban'].fillna(df_fill_mode['Phòng ban'].mode()[0])
print(df_fill_mode)
print(f"Phòng ban phổ biến nhất: {df_missing['Phòng ban'].mode()[0]}")

DataFrame với dữ liệu thiếu:
    Tên  Tuổi       Lương  Phòng ban
0    An  25.0  15000000.0         IT
1  Bình   NaN  18000000.0  Marketing
2   Chi  30.0         NaN       None
3  Dũng  28.0  22000000.0         IT
4   Eva   NaN  16000000.0  Marketing

1. Thay thế bằng giá trị cố định:
    Tên  Tuổi       Lương      Phòng ban
0    An  25.0  15000000.0             IT
1  Bình   0.0  18000000.0      Marketing
2   Chi  30.0         0.0  Chưa xác định
3  Dũng  28.0  22000000.0             IT
4   Eva   0.0  16000000.0      Marketing

2. Thay thế bằng giá trị trung bình:
    Tên       Tuổi       Lương  Phòng ban
0    An  25.000000  15000000.0         IT
1  Bình  27.666667  18000000.0  Marketing
2   Chi  30.000000  17750000.0       None
3  Dũng  28.000000  22000000.0         IT
4   Eva  27.666667  16000000.0  Marketing
Tuổi trung bình: 27.7
Lương trung bình: 17,750,000

3. Thay thế bằng giá trị trung vị:
    Tên  Tuổi       Lương  Phòng ban
0    An  25.0  15000000.0         IT
1  Bình  28.0  18

#### Phương pháp 3: Sử dụng mô hình dự đoán

Sử dụng các mô hình **dự đoán** để ước lượng giá trị thiếu.

**🔧 Các chiến lược thay thế phổ biến:**

| Chiến lược | Ứng dụng | Ví dụ |
|------------|----------|-------|
| **Hồi quy** | Dữ liệu số | Sử dụng hồi quy tuyến tính để dự đoán giá trị |
| **Phân loại** | Dữ liệu phân loại | Sử dụng cây quyết định để phân loại giá trị |
| **Phân tích thống kê** | Dữ liệu số | Sử dụng thống kê để dự đoán giá trị |

**📊 Hãy xem các ví dụ cụ thể:**

**🤖 Khi nào sử dụng Machine Learning cho Missing Values:**

- **Dữ liệu có mối quan hệ phức tạp**: Các biến có correlation cao với nhau
- **Dữ liệu missing không ngẫu nhiên**: Missing data có pattern đặc biệt
- **Dữ liệu quan trọng**: Không muốn mất thông tin bằng cách loại bỏ
- **Yêu cầu độ chính xác cao**: Muốn dự đoán chính xác nhất có thể

**⚡ Các kỹ thuật Machine Learning phổ biến:**

- **Regression**: Dự đoán giá trị số (Linear, Random Forest, XGBoost)
- **Classification**: Dự đoán giá trị phân loại (Decision Tree, SVM)
- **Clustering**: Nhóm các quan sát tương tự (K-Means, DBSCAN)
- **Deep Learning**: Neural Networks cho dữ liệu phức tạp

**🎯 Ưu điểm và nhược điểm:**

✅ **Ưu điểm:**
- Độ chính xác cao hơn mean/median/mode
- Tận dụng được mối quan hệ giữa các biến
- Linh hoạt với nhiều loại dữ liệu

❌ **Nhược điểm:**
- Phức tạp, cần hiểu biết về ML
- Tốn thời gian training
- Có thể overfitting nếu không cẩn thận

In [7]:
# Import các thư viện cần thiết cho machine learning
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.impute import KNNImputer
import pandas as pd
import numpy as np

# Tạo DataFrame mẫu với dữ liệu thiếu phức tạp hơn
print("📊 Tạo dữ liệu mẫu cho các ví dụ Machine Learning:")

data_advanced = {
    'Tên': ['An', 'Bình', 'Chi', 'Dũng', 'Eva', 'Phong', 'Giang', 'Hoa'],
    'Tuổi': [25, None, 30, 28, None, 35, None, 32],
    'Lương': [15000000, 18000000, None, 22000000, 16000000, None, 25000000, None],
    'Phòng ban': ['IT', 'Marketing', None, 'IT', 'Marketing', 'IT', 'HR', 'HR'],
    'Kinh nghiệm': [2, 5, 7, 3, 1, 10, 8, 6]
}

df_advanced = pd.DataFrame(data_advanced)
print("Dữ liệu gốc:")
print(df_advanced)
print(f"\n📈 Tỷ lệ missing data:")
missing_percent = (df_advanced.isnull().sum() / len(df_advanced)) * 100
print(missing_percent[missing_percent > 0])

📊 Tạo dữ liệu mẫu cho các ví dụ Machine Learning:
Dữ liệu gốc:
     Tên  Tuổi       Lương  Phòng ban  Kinh nghiệm
0     An  25.0  15000000.0         IT            2
1   Bình   NaN  18000000.0  Marketing            5
2    Chi  30.0         NaN       None            7
3   Dũng  28.0  22000000.0         IT            3
4    Eva   NaN  16000000.0  Marketing            1
5  Phong  35.0         NaN         IT           10
6  Giang   NaN  25000000.0         HR            8
7    Hoa  32.0         NaN         HR            6

📈 Tỷ lệ missing data:
Tuổi         37.5
Lương        37.5
Phòng ban    12.5
dtype: float64


#### **A. Random Forest Regression - Dự đoán giá trị số**

**🌲 Random Forest là gì?**

Random Forest là thuật toán **ensemble learning** kết hợp nhiều **Decision Trees**:

- **Ensemble**: Kết hợp nhiều mô hình yếu thành một mô hình mạnh
- **Bootstrap Aggregating**: Mỗi tree được train trên một subset ngẫu nhiên của dữ liệu
- **Feature Randomness**: Mỗi split chỉ xét một subset ngẫu nhiên của features
- **Voting**: Kết quả cuối cùng là trung bình của tất cả trees (regression) hoặc vote đa số (classification)

**🎯 Ưu điểm của Random Forest:**
- **Robust**: Ít bị overfitting nhờ averaging nhiều trees
- **Handle Missing Values**: Có thể xử lý missing values trong quá trình training
- **Feature Importance**: Cung cấp thông tin về tầm quan trọng của từng feature
- **Non-linear**: Có thể học được các mối quan hệ phi tuyến phức tạp

**⚙️ Các tham số quan trọng:**
- `n_estimators`: Số lượng trees (default=100)
- `max_depth`: Độ sâu tối đa của tree
- `min_samples_split`: Số sample tối thiểu để split node
- `random_state`: Seed cho reproducibility

In [8]:
print("🎯 DEMO 1: Dự đoán Tuổi dựa trên Lương, Phòng ban và Kinh nghiệm")
print("="*70)

# Bước 1: Chuẩn bị dữ liệu
df_predict_age = df_advanced.copy()

# Encode categorical data (Phòng ban)
le_dept = LabelEncoder()
df_predict_age['Phòng ban_encoded'] = le_dept.fit_transform(df_predict_age['Phòng ban'].fillna('Unknown'))

print("📋 Mapping Phòng ban:")
dept_mapping = dict(zip(le_dept.classes_, le_dept.transform(le_dept.classes_)))
print(dept_mapping)

# Bước 2: Tách dữ liệu train và missing
train_data = df_predict_age[df_predict_age['Tuổi'].notna()]
missing_data = df_predict_age[df_predict_age['Tuổi'].isna()]

print(f"\n📊 Dữ liệu train: {len(train_data)} samples")
print(f"📊 Dữ liệu cần dự đoán: {len(missing_data)} samples")

if len(train_data) > 0 and len(missing_data) > 0:
    # Bước 3: Chuẩn bị features và target
    features = ['Lương', 'Phòng ban_encoded', 'Kinh nghiệm']
    X_train = train_data[features].fillna(0)  # Fillna tạm thời cho missing features
    y_train = train_data['Tuổi']
    
    print(f"\n🔧 Features sử dụng: {features}")
    print("📈 Training data:")
    print(X_train)
    print(f"\n🎯 Target (Tuổi):")
    print(y_train.values)
    
    # Bước 4: Training model
    model_age = RandomForestRegressor(n_estimators=10, random_state=42, max_depth=3)
    model_age.fit(X_train, y_train)
    
    # Bước 5: Dự đoán
    X_missing = missing_data[features].fillna(0)
    predicted_ages = model_age.predict(X_missing)
    
    print(f"\n🔮 Dự đoán cho {len(missing_data)} samples:")
    for i, (idx, row) in enumerate(missing_data.iterrows()):
        print(f"   {row['Tên']}: {predicted_ages[i]:.1f} tuổi")
    
    # Bước 6: Cập nhật dữ liệu
    df_predict_age.loc[df_predict_age['Tuổi'].isna(), 'Tuổi'] = predicted_ages
    
    print(f"\n✅ Kết quả cuối cùng:")
    print(df_predict_age[['Tên', 'Tuổi', 'Lương', 'Phòng ban', 'Kinh nghiệm']])

🎯 DEMO 1: Dự đoán Tuổi dựa trên Lương, Phòng ban và Kinh nghiệm
📋 Mapping Phòng ban:
{'HR': 0, 'IT': 1, 'Marketing': 2, 'Unknown': 3}

📊 Dữ liệu train: 5 samples
📊 Dữ liệu cần dự đoán: 3 samples

🔧 Features sử dụng: ['Lương', 'Phòng ban_encoded', 'Kinh nghiệm']
📈 Training data:
        Lương  Phòng ban_encoded  Kinh nghiệm
0  15000000.0                  1            2
2         0.0                  3            7
3  22000000.0                  1            3
5         0.0                  1           10
7         0.0                  0            6

🎯 Target (Tuổi):
[25. 30. 28. 35. 32.]

🔮 Dự đoán cho 3 samples:
   Bình: 28.9 tuổi
   Eva: 26.2 tuổi
   Giang: 29.3 tuổi

✅ Kết quả cuối cùng:
     Tên  Tuổi       Lương  Phòng ban  Kinh nghiệm
0     An  25.0  15000000.0         IT            2
1   Bình  28.9  18000000.0  Marketing            5
2    Chi  30.0         NaN       None            7
3   Dũng  28.0  22000000.0         IT            3
4    Eva  26.2  16000000.0  Marketing        

In [9]:
print("\n🎯 DEMO 2: Dự đoán Lương dựa trên Tuổi, Phòng ban và Kinh nghiệm") 
print("="*70)

# Sử dụng dữ liệu gốc (chưa có Tuổi được dự đoán)
df_predict_salary = df_advanced.copy()
df_predict_salary['Phòng ban_encoded'] = le_dept.fit_transform(df_predict_salary['Phòng ban'].fillna('Unknown'))

# Tách dữ liệu train và missing cho Lương
train_salary = df_predict_salary[df_predict_salary['Lương'].notna()]
missing_salary = df_predict_salary[df_predict_salary['Lương'].isna()]

print(f"📊 Dữ liệu train: {len(train_salary)} samples")
print(f"📊 Dữ liệu cần dự đoán: {len(missing_salary)} samples")

if len(train_salary) > 0 and len(missing_salary) > 0:
    # Features cho dự đoán lương
    salary_features = ['Tuổi', 'Phòng ban_encoded', 'Kinh nghiệm'] 
    X_train_salary = train_salary[salary_features].fillna(0)
    y_train_salary = train_salary['Lương']
    
    print(f"\n🔧 Features sử dụng: {salary_features}")
    print("📈 Training data:")
    combined_train = pd.concat([X_train_salary, y_train_salary], axis=1)
    print(combined_train)
    
    # Training model cho lương
    model_salary = RandomForestRegressor(n_estimators=10, random_state=42, max_depth=3)
    model_salary.fit(X_train_salary, y_train_salary)
    
    # Feature importance
    importance = model_salary.feature_importances_
    print(f"\n📊 Feature Importance:")
    for feature, imp in zip(salary_features, importance):
        print(f"   {feature}: {imp:.3f}")
    
    # Dự đoán lương
    X_missing_salary = missing_salary[salary_features].fillna(0)
    predicted_salaries = model_salary.predict(X_missing_salary)
    
    print(f"\n🔮 Dự đoán lương:")
    for i, (idx, row) in enumerate(missing_salary.iterrows()):
        print(f"   {row['Tên']}: {predicted_salaries[i]:,.0f} VND")
    
    # Cập nhật dữ liệu
    df_predict_salary.loc[df_predict_salary['Lương'].isna(), 'Lương'] = predicted_salaries
    
    print(f"\n✅ Kết quả cuối cùng:")
    print(df_predict_salary[['Tên', 'Tuổi', 'Lương', 'Phòng ban', 'Kinh nghiệm']])


🎯 DEMO 2: Dự đoán Lương dựa trên Tuổi, Phòng ban và Kinh nghiệm
📊 Dữ liệu train: 5 samples
📊 Dữ liệu cần dự đoán: 3 samples

🔧 Features sử dụng: ['Tuổi', 'Phòng ban_encoded', 'Kinh nghiệm']
📈 Training data:
   Tuổi  Phòng ban_encoded  Kinh nghiệm       Lương
0  25.0                  1            2  15000000.0
1   0.0                  2            5  18000000.0
3  28.0                  1            3  22000000.0
4   0.0                  2            1  16000000.0
6   0.0                  0            8  25000000.0

📊 Feature Importance:
   Tuổi: 0.140
   Phòng ban_encoded: 0.380
   Kinh nghiệm: 0.480

🔮 Dự đoán lương:
   Chi: 20,300,000 VND
   Phong: 23,100,000 VND
   Hoa: 21,800,000 VND

✅ Kết quả cuối cùng:
     Tên  Tuổi       Lương  Phòng ban  Kinh nghiệm
0     An  25.0  15000000.0         IT            2
1   Bình   NaN  18000000.0  Marketing            5
2    Chi  30.0  20300000.0       None            7
3   Dũng  28.0  22000000.0         IT            3
4    Eva   NaN  16000000.0

---

## 📌 TÓM TẮT PHẦN 1: XỬ LÝ DỮ LIỆU THIẾU

### ✅ Kiến thức đã học:
1. ✅ Phát hiện missing data với `.isna()` và `.isnull()`
2. ✅ Loại bỏ với `.dropna(how='any'/'all', axis=0/1)`
3. ✅ Thay thế với `.fillna(value/method/dict)`
4. ✅ Dự đoán với Random Forest và KNN Imputer

### 🔑 Hàm quan trọng:
| Hàm | Mục đích | Ví dụ |
|-----|----------|-------|
| `.isna().sum()` | Đếm missing | `df.isna().sum()` |
| `.dropna()` | Loại bỏ | `df.dropna(how='any')` |
| `.fillna()` | Thay thế | `df.fillna(0)` |

### ⚠️ Lỗi thường gặp:
❌ Quên kiểm tra tỷ lệ missing trước khi dropna  
❌ Dùng mean cho dữ liệu có outliers  
❌ Fillna không specify `inplace=True`

### 💡 Tips:
- Luôn kiểm tra `df.isna().sum()` trước
- Dùng median cho dữ liệu có outliers
- Save a copy trước khi drop data

---


#### **B. KNN Imputation - K-Nearest Neighbors**

**🔍 KNN Imputation là gì?**

KNN Imputation sử dụng thuật toán **K-Nearest Neighbors** để điền missing values:

1. **Tìm K neighbors gần nhất**: Dựa trên khoảng cách Euclidean trong không gian features
2. **Tính giá trị trung bình**: Lấy trung bình của K neighbors (cho số) hoặc mode (cho categorical)
3. **Điền vào missing values**: Thay thế missing value bằng giá trị được tính

**📏 Công thức khoảng cách Euclidean:**

$$d(x_i, x_j) = \sqrt{\sum_{k=1}^{n} (x_{ik} - x_{jk})^2}$$

**🎯 Ưu điểm của KNN Imputation:**
- **Preserve relationships**: Giữ nguyên mối quan hệ giữa các features
- **Non-parametric**: Không giả định về phân phối dữ liệu
- **Local patterns**: Tận dụng patterns cục bộ trong dữ liệu
- **Multivariate**: Xem xét tất cả features cùng lúc

**⚙️ Các tham số quan trọng:**
- `n_neighbors`: Số lượng neighbors (default=5)
- `weights`: 'uniform' hoặc 'distance' weighted
- `metric`: Phương pháp tính distance ('nan_euclidean' cho missing data)

In [10]:
print("🎯 DEMO 3: KNN Imputation - Điền tất cả missing values cùng lúc")
print("="*70)

# Chuẩn bị dữ liệu cho KNN
df_knn = df_advanced.copy()
print("📊 Dữ liệu trước KNN Imputation:")
print(df_knn)

# Encode categorical data
df_knn['Phòng ban_encoded'] = le_dept.fit_transform(df_knn['Phòng ban'].fillna('Unknown'))

# Chỉ lấy các cột số cho KNN Imputation
numerical_cols = ['Tuổi', 'Lương', 'Kinh nghiệm', 'Phòng ban_encoded']
df_numerical = df_knn[numerical_cols].copy()

print(f"\n🔧 Các cột số được sử dụng: {numerical_cols}")
print("📈 Ma trận dữ liệu số (có missing values):")
print(df_numerical)

# Hiển thị missing pattern
print(f"\n📊 Missing Data Pattern:")
missing_pattern = df_numerical.isnull()
print(missing_pattern)

# Áp dụng KNN Imputation
print(f"\n🤖 Áp dụng KNN Imputation với k=2 neighbors:")
knn_imputer = KNNImputer(n_neighbors=2, weights='uniform')
df_knn_filled = knn_imputer.fit_transform(df_numerical)

# Chuyển đổi lại thành DataFrame  
df_knn_result = df_knn.copy()
df_knn_result['Tuổi'] = df_knn_filled[:, 0]
df_knn_result['Lương'] = df_knn_filled[:, 1] 
df_knn_result['Kinh nghiệm'] = df_knn_filled[:, 2]

print(f"\n✅ Kết quả sau KNN Imputation:")
result_display = df_knn_result[['Tên', 'Tuổi', 'Lương', 'Phòng ban', 'Kinh nghiệm']].copy()
result_display['Tuổi'] = result_display['Tuổi'].round(1)
result_display['Lương'] = result_display['Lương'].round(0)
print(result_display)

# So sánh missing values trước và sau
print(f"\n📊 So sánh Missing Values:")
print(f"Trước: {df_knn[numerical_cols[:-1]].isnull().sum().sum()} missing values")
print(f"Sau: {pd.DataFrame(df_knn_filled[:, :-1]).isnull().sum().sum()} missing values")

🎯 DEMO 3: KNN Imputation - Điền tất cả missing values cùng lúc
📊 Dữ liệu trước KNN Imputation:
     Tên  Tuổi       Lương  Phòng ban  Kinh nghiệm
0     An  25.0  15000000.0         IT            2
1   Bình   NaN  18000000.0  Marketing            5
2    Chi  30.0         NaN       None            7
3   Dũng  28.0  22000000.0         IT            3
4    Eva   NaN  16000000.0  Marketing            1
5  Phong  35.0         NaN         IT           10
6  Giang   NaN  25000000.0         HR            8
7    Hoa  32.0         NaN         HR            6

🔧 Các cột số được sử dụng: ['Tuổi', 'Lương', 'Kinh nghiệm', 'Phòng ban_encoded']
📈 Ma trận dữ liệu số (có missing values):
   Tuổi       Lương  Kinh nghiệm  Phòng ban_encoded
0  25.0  15000000.0            2                  1
1   NaN  18000000.0            5                  2
2  30.0         NaN            7                  3
3  28.0  22000000.0            3                  1
4   NaN  16000000.0            1                  2
5  35.0   

#### **C. So sánh các phương pháp xử lý Missing Values**

**📊 Bảng tổng hợp so sánh:**

| Phương pháp | Độ phức tạp | Thời gian | Độ chính xác | Phù hợp với |
|-------------|-------------|-----------|--------------|-------------|
| **Mean/Median** | Thấp ⭐ | Nhanh ⚡⚡⚡ | Thấp 📊 | Dữ liệu đơn giản, missing ngẫu nhiên |
| **Mode** | Thấp ⭐ | Nhanh ⚡⚡⚡ | Thấp 📊 | Categorical data với ít categories |
| **Forward/Backward Fill** | Thấp ⭐ | Nhanh ⚡⚡⚡ | Trung bình 📊📊 | Time series data |
| **Random Forest** | Cao ⭐⭐⭐ | Chậm ⚡ | Cao 📊📊📊 | Dữ liệu có quan hệ phức tạp |
| **KNN Imputation** | Trung bình ⭐⭐ | Trung bình ⚡⚡ | Cao 📊📊📊 | Dữ liệu có local patterns |

**🎯 Hướng dẫn lựa chọn phương pháp:**

**📈 Dữ liệu số (Numerical):**
- **< 5% missing**: Mean/Median
- **5-20% missing + có correlation**: KNN hoặc Random Forest  
- **> 20% missing**: Cân nhắc loại bỏ cột hoặc thu thập thêm dữ liệu

**🏷️ Dữ liệu phân loại (Categorical):**
- **< 10% missing**: Mode
- **> 10% missing + có relationship**: Random Forest Classification
- **High cardinality**: Tạo category "Unknown"

**⏰ Dữ liệu thời gian (Time Series):**
- **Forward fill**: Cho dữ liệu stable (giá cổ phiếu)
- **Backward fill**: Cho dữ liệu có trend  
- **Interpolation**: Cho dữ liệu smooth

## Xử lý dữ liệu trùng lặp (Duplicate Data)

### Hiểu về dữ liệu trùng lặp

**🔄 Dữ liệu trùng lặp là gì?**

Dữ liệu trùng lặp (*duplicate data*) là những **hàng có giá trị giống hệt nhau** trên tất cả hoặc một số cột nhất định. Dữ liệu trùng lặp có thể xuất hiện do:

- **Lỗi nhập liệu**: Người dùng vô tình nhập cùng một thông tin nhiều lần
- **Lỗi hệ thống**: Hệ thống ghi nhận cùng một sự kiện nhiều lần  
- **Gộp dữ liệu**: Khi kết hợp nhiều nguồn dữ liệu có thông tin chồng chéo
- **Lỗi thu thập**: Cảm biến hoặc thiết bị ghi nhận dữ liệu bị lặp

**⚠️ Tác động của dữ liệu trùng lặp**

- **Thiên lệch phân tích**: Một quan sát được tính nhiều lần, làm méo mó kết quả
- **Giảm hiệu quả tính toán**: Xử lý dữ liệu thừa làm chậm thuật toán
- **Tăng kích thước dữ liệu**: Lãng phí bộ nhớ và không gian lưu trữ
- **Ảnh hưởng mô hình**: Machine learning có thể học sai từ dữ liệu lặp

In [11]:
import pandas as pd
import numpy as np

# Khởi tạo dữ liệu mẫu
duplicate_data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice'],
    'age': [25, 30, 35, 25],
    'city': ['New York', 'Los Angeles', 'Chicago', 'New York']
}

duplicate_data = pd.DataFrame(duplicate_data)

# In dữ liệu mẫu
print(duplicate_data)

      name  age         city
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3    Alice   25     New York


### Các phương pháp phát hiện và xử lý dữ liệu trùng lặp trong pandas

Pandas cung cấp các phương thức để phát hiện và xử lý dữ liệu trùng lặp:

| Phương thức | Mô tả | Trả về |
|-------------|-------|--------|
| `duplicated()` | Kiểm tra từng hàng có bị trùng lặp không | Boolean Series |
| `drop_duplicates()` | Loại bỏ các hàng trùng lặp | DataFrame không trùng lặp |

**📊 Hãy xem cách sử dụng các phương thức này:**"

In [12]:
import pandas as pd
import numpy as np

# Khởi tạo dữ liệu mẫu
duplicate_data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice'],
    'age': [25, 30, 35, 25],
    'city': ['New York', 'Los Angeles', 'Chicago', 'New York']
}

duplicate_data = pd.DataFrame(duplicate_data)

# In dữ liệu mẫu
print(duplicate_data)

# Phát hiện duplicate rows
print("Phát hiện duplicate rows:")
print(duplicate_data.duplicated())

print("\nCác hàng bị duplicate:")
print(duplicate_data[duplicate_data.duplicated()])

print("\nĐếm số lượng duplicate:")
print(f"Tổng số duplicate: {duplicate_data.duplicated().sum()}")

print("\n Xử lý duplicate bằng cách loại bỏ:")
print(duplicate_data.drop_duplicates())

      name  age         city
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3    Alice   25     New York
Phát hiện duplicate rows:
0    False
1    False
2    False
3     True
dtype: bool

Các hàng bị duplicate:
    name  age      city
3  Alice   25  New York

Đếm số lượng duplicate:
Tổng số duplicate: 1

 Xử lý duplicate bằng cách loại bỏ:
      name  age         city
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago


## Biến đổi và chuẩn hóa dữ liệu (Data Transformation)

### Tổng quan về biến đổi dữ liệu

**🔄 Biến đổi dữ liệu là gì?**

Biến đổi dữ liệu (*data transformation*) là quá trình **chuyển đổi dữ liệu** từ định dạng này sang định dạng khác để:

- **Cải thiện chất lượng dữ liệu**: Làm cho dữ liệu phù hợp hơn cho phân tích
- **Chuẩn hóa thang đo**: Đưa các biến về cùng một thang đo
- **Giảm nhiễu**: Loại bỏ các biến động không mong muốn
- **Tạo biến mới**: Kết hợp hoặc biến đổi biến hiện có để tạo thông tin mới

**🎯 Các mục tiêu chính:**

1. **Normalization**: Đưa dữ liệu về khoảng [0,1]
2. **Standardization**: Đưa dữ liệu về phân phối chuẩn (mean=0, std=1) 
3. **Scaling**: Điều chỉnh thang đo cho phù hợp
4. **Encoding**: Chuyển đổi dữ liệu phân loại thành số

**📋 Khi nào cần biến đổi dữ liệu:**

- Các biến có **đơn vị đo khác nhau** (VND, USD, kg, cm)
- Dữ liệu có **phạm vi giá trị chênh lệch lớn** (1-10 vs 1000-10000)
- Sử dụng **thuật toán nhạy cảm với thang đo** (KNN, SVM, Neural Networks)
- **Cải thiện hiệu suất** của mô hình machine learning

## 📊 DEMO: Tại sao cần chuẩn hóa dữ liệu?

Trước khi học các phương pháp, hãy xem ví dụ thực tế:

### 🏢 Ví dụ: Dữ liệu nhân viên công ty
```
Nhân viên A: Lương 15,000,000 VND, Tuổi 25, Kinh nghiệm 2 năm
Nhân viên B: Lương 25,000,000 VND, Tuổi 35, Kinh nghiệm 8 năm
```

**❌ Vấn đề:** Thuật toán sẽ coi Lương quan trọng hơn vì giá trị lớn!

**✅ Giải pháp:** Chuẩn hóa để đưa về cùng thang đo [0,1]

---

### Min-Max Normalization (Chuẩn hóa Min-Max)

**📐 Công thức đơn giản:**
```
Giá trị mới = (Giá trị cũ - Min) / (Max - Min)
```

**🎯 Kết quả:** Tất cả giá trị nằm trong khoảng [0, 1]

**✅ Ưu điểm:**
- Dễ hiểu và tính toán
- Bảo toàn phân phối gốc
- Phù hợp với dữ liệu không có outliers

**❌ Nhược điểm:**
- Nhạy cảm với outliers (giá trị ngoại lai)
- Nếu có giá trị rất lớn, các giá trị khác sẽ bị "nén" về gần 0

**📐 Công thức chi tiết:**

$$X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}}$$

**🔍 Giải thích từng phần:**
- $X$ = giá trị gốc
- $X_{min}$ = giá trị nhỏ nhất trong cột
- $X_{max}$ = giá trị lớn nhất trong cột
- Kết quả luôn nằm trong khoảng [0, 1]

**📊 Ví dụ minh họa:**
```
Dữ liệu gốc: [10, 20, 30, 40, 50]
Min = 10, Max = 50

Giá trị 20 → (20-10)/(50-10) = 10/40 = 0.25
Giá trị 40 → (40-10)/(50-10) = 30/40 = 0.75
```

In [13]:
# 📊 DEMO: Min-Max Normalization với dữ liệu thực tế
from sklearn.preprocessing import MinMaxScaler
import pandas as pd
import numpy as np

# Tạo dữ liệu nhân viên với các thang đo khác nhau
print("🏢 VÍ DỤ: Dữ liệu nhân viên công ty")
print("=" * 50)

data_nhanvien = {
    'Ten': ['An', 'Bình', 'Chi', 'Dũng', 'Eva'],
    'Luong': [15000000, 25000000, 30000000, 18000000, 22000000],  # VND/tháng
    'Tuoi': [25, 35, 40, 28, 32],  # năm
    'KinhNghiem': [2, 8, 12, 3, 6]  # năm
}

df_nhanvien = pd.DataFrame(data_nhanvien)
print("📋 Dữ liệu gốc:")
print(df_nhanvien)

print(f"\n📊 Thống kê mô tả:")
print(df_nhanvien[['Luong', 'Tuoi', 'KinhNghiem']].describe())

# Áp dụng Min-Max Normalization
print(f"\n🔧 Áp dụng Min-Max Normalization:")
scaler = MinMaxScaler()

# Chuẩn hóa các cột số
df_normalized = df_nhanvien.copy()
df_normalized[['Luong', 'Tuoi', 'KinhNghiem']] = scaler.fit_transform(
    df_nhanvien[['Luong', 'Tuoi', 'KinhNghiem']]
)

print("✅ Kết quả sau chuẩn hóa:")
print(df_normalized)

print(f"\n📈 So sánh trước và sau:")
print("Trước: Lương có giá trị từ 15M-30M, Tuổi từ 25-40")
print("Sau: Tất cả giá trị từ 0.0-1.0")

🏢 VÍ DỤ: Dữ liệu nhân viên công ty
📋 Dữ liệu gốc:
    Ten     Luong  Tuoi  KinhNghiem
0    An  15000000    25           2
1  Bình  25000000    35           8
2   Chi  30000000    40          12
3  Dũng  18000000    28           3
4   Eva  22000000    32           6

📊 Thống kê mô tả:
              Luong      Tuoi  KinhNghiem
count  5.000000e+00   5.00000    5.000000
mean   2.200000e+07  32.00000    6.200000
std    5.873670e+06   5.87367    4.024922
min    1.500000e+07  25.00000    2.000000
25%    1.800000e+07  28.00000    3.000000
50%    2.200000e+07  32.00000    6.000000
75%    2.500000e+07  35.00000    8.000000
max    3.000000e+07  40.00000   12.000000

🔧 Áp dụng Min-Max Normalization:
✅ Kết quả sau chuẩn hóa:
    Ten     Luong      Tuoi  KinhNghiem
0    An  0.000000  0.000000         0.0
1  Bình  0.666667  0.666667         0.6
2   Chi  1.000000  1.000000         1.0
3  Dũng  0.200000  0.200000         0.1
4   Eva  0.466667  0.466667         0.4

📈 So sánh trước và sau:
Trước: Lương 

---

## 📌 TÓM TẮT PHẦN 3: CHUẨN HÓA DỮ LIỆU

### ✅ Kiến thức đã học:
1. ✅ MinMaxScaler: Đưa dữ liệu về [0,1]
2. ✅ StandardScaler: Mean=0, Std=1
3. ✅ RobustScaler: Sử dụng median và IQR

### 📊 So sánh các phương pháp Scaling:

| Phương pháp | Khoảng giá trị | Ưu điểm | Nhược điểm | Khi nào dùng |
|-------------|----------------|---------|------------|--------------|
| **MinMaxScaler** | [0, 1] | Đơn giản, bảo toàn phân phối | Nhạy cảm với outliers | Dữ liệu không có outliers |
| **StandardScaler** | Mean=0, Std=1 | Phù hợp với thuật toán tuyến tính | Vẫn bị ảnh hưởng bởi outliers | Dữ liệu có phân phối chuẩn |
| **RobustScaler** | Median=0, IQR=1 | Bền vững với outliers | Phức tạp hơn | Dữ liệu có nhiều outliers |

### ⚠️ Lỗi thường gặp:
❌ Quên fit scaler trên training data trước khi transform  
❌ Dùng MinMaxScaler cho dữ liệu có outliers  
❌ Transform cả training và test data cùng lúc

### 💡 Tips:
- Luôn fit scaler trên training data
- Dùng RobustScaler khi có outliers
- Save scaler để transform test data sau

---


### Standard Scaler (Z-score Standardization)

**📐 Công thức đơn giản:**
```
Giá trị mới = (Giá trị cũ - Trung bình) / Độ lệch chuẩn
```

**🎯 Kết quả:** Mean = 0, Standard Deviation = 1

**✅ Ưu điểm:**
- Không bị ảnh hưởng nhiều bởi outliers
- Phù hợp với thuật toán tuyến tính (Linear Regression, Logistic Regression)
- Bảo toàn thông tin về phân phối gốc

**❌ Nhược điểm:**
- Vẫn bị ảnh hưởng một phần bởi outliers
- Phức tạp hơn Min-Max

**📊 Ví dụ minh họa:**
```
Dữ liệu gốc: [10, 20, 30, 40, 50]
Mean = 30, Std = 15.81

Giá trị 20 → (20-30)/15.81 = -0.63
Giá trị 40 → (40-30)/15.81 = 0.63
```

**📊 Công thức Z-score Standardization:**

$$Z = \frac{X - \mu}{\sigma}$$

Trong đó:
- $X$ = giá trị gốc
- $\mu$ = giá trị trung bình (mean)
- $\sigma$ = độ lệch chuẩn (standard deviation)

**🎯 Đặc điểm:**
- Đưa dữ liệu về **phân phối chuẩn** với mean=0, std=1
- **Không bị ảnh hưởng** bởi outliers nhiều như Min-Max
- **Bảo toàn thông tin** về phân phối gốc
- Phù hợp với **các thuật toán giả định phân phối chuẩn** (Linear Regression, Logistic Regression)

**🔧 Sử dụng `StandardScaler` từ scikit-learn:**

In [14]:
# 📊 DEMO: Standard Scaler với dữ liệu thực tế
from sklearn.preprocessing import StandardScaler
import pandas as pd
import numpy as np

# Sử dụng dữ liệu nhân viên từ ví dụ trước
print("🏢 VÍ DỤ: Standard Scaler với dữ liệu nhân viên")
print("=" * 55)

data_nhanvien = {
    'Ten': ['An', 'Bình', 'Chi', 'Dũng', 'Eva'],
    'Luong': [15000000, 25000000, 30000000, 18000000, 22000000],
    'Tuoi': [25, 35, 40, 28, 32],
    'KinhNghiem': [2, 8, 12, 3, 6]
}

df_nhanvien = pd.DataFrame(data_nhanvien)
print("📋 Dữ liệu gốc:")
print(df_nhanvien)

# Áp dụng Standard Scaler
print(f"\n🔧 Áp dụng Standard Scaler:")
scaler_std = StandardScaler()

df_standardized = df_nhanvien.copy()
df_standardized[['Luong', 'Tuoi', 'KinhNghiem']] = scaler_std.fit_transform(
    df_nhanvien[['Luong', 'Tuoi', 'KinhNghiem']]
)

print("✅ Kết quả sau standardization:")
print(df_standardized)

# Kiểm tra mean ≈ 0 và std ≈ 1
print(f"\n📊 Kiểm tra Mean và Std:")
print("Mean của các cột:", df_standardized[['Luong', 'Tuoi', 'KinhNghiem']].mean().round(4).values)
print("Std của các cột:", df_standardized[['Luong', 'Tuoi', 'KinhNghiem']].std().round(4).values)
print("✅ Mean ≈ 0, Std ≈ 1 (như mong đợi!)")

🏢 VÍ DỤ: Standard Scaler với dữ liệu nhân viên
📋 Dữ liệu gốc:
    Ten     Luong  Tuoi  KinhNghiem
0    An  15000000    25           2
1  Bình  25000000    35           8
2   Chi  30000000    40          12
3  Dũng  18000000    28           3
4   Eva  22000000    32           6

🔧 Áp dụng Standard Scaler:
✅ Kết quả sau standardization:
    Ten     Luong      Tuoi  KinhNghiem
0    An -1.332427 -1.332427   -1.166667
1  Bình  0.571040  0.571040    0.500000
2   Chi  1.522774  1.522774    1.611111
3  Dũng -0.761387 -0.761387   -0.888889
4   Eva  0.000000  0.000000   -0.055556

📊 Kiểm tra Mean và Std:
Mean của các cột: [ 0. -0. -0.]
Std của các cột: [1.118 1.118 1.118]
✅ Mean ≈ 0, Std ≈ 1 (như mong đợi!)


### Robust Scaler (Sử dụng Median và IQR)

**📈 Công thức Robust Scaling:**

$$X_{robust} = \frac{X - X_{median}}{IQR}$$

Trong đó:
- $X_{median}$ = giá trị trung vị (median)
- $IQR$ = Interquartile Range = Q3 - Q1

**🛡️ Đặc điểm:**
- **Rất bền vững** (*robust*) trước outliers
- Sử dụng **median thay vì mean**, **IQR thay vì std**
- **Không bị méo** bởi các giá trị ngoại lai
- Phù hợp khi dữ liệu có **nhiều outliers**

**🎯 Khi nào sử dụng Robust Scaler:**
- **Dữ liệu có nhiều outliers** 
- **Không muốn loại bỏ outliers** nhưng vẫn cần chuẩn hóa
- **Dữ liệu không tuân theo phân phối chuẩn**

**🔧 Sử dụng `RobustScaler` từ scikit-learn:**

In [15]:
# Import RobustScaler
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler
import pandas as pd
import numpy as np


# Tạo dữ liệu có outliers
data_with_outliers = {
    'Lương': [15000000, 25000000, 30000000, 18000000, 22000000, 200000000],  # outlier: 200M
    'Tuổi': [25, 35, 40, 28, 32, 22],
    'Kinh nghiệm': [2, 8, 12, 3, 6, 1]
}

df_outliers = pd.DataFrame(data_with_outliers)
print("Dữ liệu có outliers:")
print(df_outliers)
print(f"\nMô tả thống kê:")
print(df_outliers.describe())

# So sánh 3 phương pháp scaling
print("\n" + "="*60)
print("SO SÁNH CÁC PHƯƠNG PHÁP SCALING VỚI OUTLIERS")
print("="*60)

# MinMax Scaler (bị ảnh hưởng mạnh bởi outliers)
scaler_minmax = MinMaxScaler()
scaled_minmax = scaler_minmax.fit_transform(df_outliers[['Lương', 'Tuổi', 'Kinh nghiệm']])
print("\n1. MinMax Scaler (bị ảnh hưởng bởi outliers):")
print(pd.DataFrame(scaled_minmax, columns=['Lương', 'Tuổi', 'Kinh nghiệm']))

# Standard Scaler (bị ảnh hưởng một phần bởi outliers)
scaler_std = StandardScaler()
scaled_std = scaler_std.fit_transform(df_outliers[['Lương', 'Tuổi', 'Kinh nghiệm']])
print("\n2. Standard Scaler (bị ảnh hưởng một phần):")
print(pd.DataFrame(scaled_std, columns=['Lương', 'Tuổi', 'Kinh nghiệm']))

# Robust Scaler (ít bị ảnh hưởng bởi outliers)
scaler_robust = RobustScaler()
scaled_robust = scaler_robust.fit_transform(df_outliers[['Lương', 'Tuổi', 'Kinh nghiệm']])
print("\n3. Robust Scaler (bền vững trước outliers):")
print(pd.DataFrame(scaled_robust, columns=['Lương', 'Tuổi', 'Kinh nghiệm']))

Dữ liệu có outliers:
       Lương  Tuổi  Kinh nghiệm
0   15000000    25            2
1   25000000    35            8
2   30000000    40           12
3   18000000    28            3
4   22000000    32            6
5  200000000    22            1

Mô tả thống kê:
              Lương       Tuổi  Kinh nghiệm
count  6.000000e+00   6.000000     6.000000
mean   5.166667e+07  30.333333     5.333333
std    7.285785e+07   6.653320     4.179314
min    1.500000e+07  22.000000     1.000000
25%    1.900000e+07  25.750000     2.250000
50%    2.350000e+07  30.000000     4.500000
75%    2.875000e+07  34.250000     7.500000
max    2.000000e+08  40.000000    12.000000

SO SÁNH CÁC PHƯƠNG PHÁP SCALING VỚI OUTLIERS

1. MinMax Scaler (bị ảnh hưởng bởi outliers):
      Lương      Tuổi  Kinh nghiệm
0  0.000000  0.166667     0.090909
1  0.054054  0.722222     0.636364
2  0.081081  1.000000     1.000000
3  0.016216  0.333333     0.181818
4  0.037838  0.555556     0.454545
5  1.000000  0.000000     0.000000

2. 

## Xử lý chuỗi ký tự (String Processing)

### Tầm quan trọng của việc xử lý chuỗi ký tự

**📝 Dữ liệu chuỗi ký tự trong thực tế**

Dữ liệu chuỗi ký tự (*string data*) chiếm một phần lớn trong các bộ dữ liệu thực tế:

- **Tên người, địa chỉ**: Thông tin cá nhân
- **Mô tả sản phẩm**: Trong thương mại điện tử
- **Bình luận, đánh giá**: Trong phân tích sentiment
- **Danh mục, nhãn**: Dữ liệu phân loại

**🧹 Các vấn đề thường gặp với dữ liệu chuỗi:**

1. **Không nhất quán về định dạng**: "iPhone", "iphone", "IPHONE"
2. **Khoảng trắng thừa**: "  Apple  ", "Apple "
3. **Ký tự đặc biệt**: "email@domain.com", "phone: +84-123-456-789"
4. **Viết tắt khác nhau**: "Dr.", "Doctor", "BS"
5. **Lỗi chính tả**: "Compnay" thay vì "Company"

**🔧 Pandas String Accessor (`.str`)**

Pandas cung cấp **accessor `.str`** cho phép áp dụng các phương thức xử lý chuỗi lên toàn bộ Series:

```python
# Thay vì làm thủ công từng phần tử
for i in range(len(df)):
    df.loc[i, 'column'] = df.loc[i, 'column'].upper()

# Sử dụng .str accessor
df['column'] = df['column'].str.upper()
```

### Các phương thức cơ bản xử lý chuỗi

**📋 Bảng tổng hợp các phương thức quan trọng:**

| Phương thức | Mô tả | Ví dụ |
|-------------|-------|-------|
| `.str.lower()` | Chuyển về chữ thường | `"HELLO"` → `"hello"` |
| `.str.upper()` | Chuyển về chữ hoa | `"hello"` → `"HELLO"` |
| `.str.title()` | Viết hoa chữ cái đầu | `"hello world"` → `"Hello World"` |
| `.str.strip()` | Loại bỏ khoảng trắng đầu/cuối | `"  hello  "` → `"hello"` |
| `.str.replace()` | Thay thế chuỗi con | `"hello"` → `"hi"` |
| `.str.contains()` | Kiểm tra chứa chuỗi con | `"hello world"` contains `"world"` → `True` |
| `.str.startswith()` | Kiểm tra bắt đầu bằng | `"hello"` startswith `"he"` → `True` |
| `.str.endswith()` | Kiểm tra kết thúc bằng | `"hello"` endswith `"lo"` → `True` |
| `.str.len()` | Độ dài chuỗi | `"hello"` → `5` |
| `.str.split()` | Tách chuỗi | `"a,b,c"` → `["a", "b", "c"]` |

**🔥 Hãy xem các ví dụ thực tế:**

In [16]:
import pandas as pd

# Chuyển đổi kiểu dữ liệu
sample_data = pd.DataFrame({
    'id': ['1', '2', '3', '4', '5'],
    'score': ['85.5', '90.0', '78.5', '92.0', '88.5'],
    'date': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05'],
    'category': ['A', 'B', 'A', 'C', 'B']
})

print("Dữ liệu gốc và kiểu dữ liệu:")
print(sample_data.dtypes)
print()
print(sample_data)

# Chuyển đổi kiểu dữ liệu
sample_data['id'] = sample_data['id'].astype('int64')
sample_data['score'] = sample_data['score'].astype('float64')
sample_data['date'] = pd.to_datetime(sample_data['date'])
sample_data['category'] = sample_data['category'].astype('category')

print("\nSau khi chuyển đổi kiểu dữ liệu:")
print(sample_data.dtypes)
print()
print(sample_data)

Dữ liệu gốc và kiểu dữ liệu:
id          object
score       object
date        object
category    object
dtype: object

  id score        date category
0  1  85.5  2023-01-01        A
1  2  90.0  2023-01-02        B
2  3  78.5  2023-01-03        A
3  4  92.0  2023-01-04        C
4  5  88.5  2023-01-05        B

Sau khi chuyển đổi kiểu dữ liệu:
id                   int64
score              float64
date        datetime64[ns]
category          category
dtype: object

   id  score       date category
0   1   85.5 2023-01-01        A
1   2   90.0 2023-01-02        B
2   3   78.5 2023-01-03        A
3   4   92.0 2023-01-04        C
4   5   88.5 2023-01-05        B


### Normalization và Standardization

Normalization và standardization là các kỹ thuật quan trọng để đưa dữ liệu về cùng một thang đo, đặc biệt hữu ích cho machine learning:

In [17]:
import pandas as pd
# Tạo dữ liệu mẫu cho normalization
norm_data = pd.DataFrame({
    'height': [150, 160, 170, 180, 190],  # cm
    'weight': [50, 60, 70, 80, 90],       # kg  
    'income': [30000, 45000, 60000, 75000, 90000]  # VND/month
})

print("Dữ liệu gốc:")
print(norm_data)
print("\nMô tả thống kê:")
print(norm_data.describe())

Dữ liệu gốc:
   height  weight  income
0     150      50   30000
1     160      60   45000
2     170      70   60000
3     180      80   75000
4     190      90   90000

Mô tả thống kê:
           height     weight        income
count    5.000000   5.000000      5.000000
mean   170.000000  70.000000  60000.000000
std     15.811388  15.811388  23717.082451
min    150.000000  50.000000  30000.000000
25%    160.000000  60.000000  45000.000000
50%    170.000000  70.000000  60000.000000
75%    180.000000  80.000000  75000.000000
max    190.000000  90.000000  90000.000000


### 🔍 Regular Expressions (Regex) - Tìm kiếm thông minh trong văn bản

## 📚 Regex là gì và tại sao cần thiết?

**🔍 Regular Expressions (Regex)** là một **công cụ tìm kiếm thông minh** giúp bạn tìm và xử lý các mẫu văn bản một cách tự động.

### 🏢 Ví dụ thực tế trong kinh doanh:

**Tình huống:** Bạn có 1000 email khách hàng và cần:
- ✅ Tìm tất cả số điện thoại trong email
- ✅ Kiểm tra email có hợp lệ không  
- ✅ Tách tên và địa chỉ từ chuỗi văn bản
- ✅ Tìm các từ khóa quan trọng

**❌ Làm thủ công:** Mất hàng giờ, dễ sai sót  
**✅ Dùng Regex:** Chỉ vài dòng code, chính xác 100%

---

## 🎯 Hiểu Regex qua ví dụ đơn giản

### Ví dụ 1: Tìm số điện thoại
```
Văn bản: "Liên hệ tôi qua 0123-456-789 hoặc 0987654321"
Regex: \d{3,4}[-.]?\d{3,4}[-.]?\d{3,4}
Kết quả: "0123-456-789", "0987654321"
```

### Ví dụ 2: Tìm email
```
Văn bản: "Email: john@gmail.com hoặc contact@company.vn"
Regex: [a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}
Kết quả: "john@gmail.com", "contact@company.vn"
```

---

## 📋 Các ký hiệu Regex cơ bản (Dễ hiểu)

| Ký hiệu | Ý nghĩa | Ví dụ thực tế |
|---------|---------|---------------|
| `\d` | **Số** (0-9) | `\d\d\d` → tìm "123", "456" |
| `\w` | **Chữ cái và số** | `\w+` → tìm "hello", "abc123" |
| `\s` | **Khoảng trắng** | `\s+` → tìm spaces, tabs |
| `+` | **1 hoặc nhiều** | `\d+` → "1", "123", "12345" |
| `*` | **0 hoặc nhiều** | `\d*` → "", "1", "123" |
| `?` | **0 hoặc 1** | `\d?` → "", "1" |
| `[]` | **Chọn một trong** | `[0-9]` → số từ 0-9 |
| `^` | **Bắt đầu** | `^Hello` → chuỗi bắt đầu "Hello" |
| `$` | **Kết thúc** | `world$` → chuỗi kết thúc "world" |

---

## 🛠️ Cách sử dụng Regex với Pandas

Pandas có 4 phương thức chính để làm việc với Regex:

| Phương thức | Mục đích | Ví dụ |
|-------------|----------|-------|
| `.str.contains()` | **Kiểm tra** có chứa pattern không | Có email hợp lệ không? |
| `.str.extract()` | **Trích xuất** thông tin | Lấy số điện thoại ra |
| `.str.replace()` | **Thay thế** text | Đổi format số điện thoại |
| `.str.findall()` | **Tìm tất cả** matches | Tìm tất cả email |

---

## 💡 Mẹo học Regex hiệu quả

1. **Bắt đầu đơn giản**: Học từng ký hiệu một
2. **Thực hành nhiều**: Dùng các ví dụ thực tế
3. **Test online**: Dùng regex101.com để test
4. **Copy-paste**: Sử dụng patterns có sẵn
5. **Không cần nhớ hết**: Chỉ cần hiểu cơ bản

## 🎯 DEMO: Regex từ cơ bản đến nâng cao

### 📱 Tình huống thực tế: Xử lý dữ liệu khách hàng

Bạn là nhân viên marketing và nhận được danh sách liên hệ khách hàng từ nhiều nguồn khác nhau. Dữ liệu rất lộn xộn và cần được làm sạch.

**🎯 Mục tiêu:**
1. **Trích xuất số điện thoại** từ các định dạng khác nhau
2. **Tìm email hợp lệ** 
3. **Kiểm tra website/URL**
4. **Chuẩn hóa số điện thoại** về định dạng thống nhất

---

## 📋 Dữ liệu mẫu (Tình huống thực tế)

Chúng ta có 5 dòng dữ liệu khách hàng với thông tin liên hệ lộn xộn:

```
1. "Liên hệ: 0123-456-789 hoặc email: john@gmail.com"
2. "SDT: +84 98 765 4321, địa chỉ: 123 Lê Lợi, Q1, TP.HCM"  
3. "Phone: (024) 3825-7863, email: info@company.vn"
4. "Mobile: 0987654321, website: https://example.com"
5. "Hotline: 1900-1234, fax: (028) 3829-5678"
```

**❓ Câu hỏi:** Làm sao để tự động trích xuất thông tin từ những chuỗi văn bản phức tạp này?

**✅ Trả lời:** Sử dụng Regex!

In [18]:
# 🎯 DEMO: Regex từ cơ bản đến nâng cao
# Tình huống: Xử lý dữ liệu liên hệ khách hàng

import pandas as pd
import re

print("🏢 DEMO: Xử lý dữ liệu liên hệ khách hàng với Regex")
print("=" * 70)

# 📋 Bước 1: Tạo dữ liệu mẫu (thực tế từ nhiều nguồn khác nhau)
print("📋 BƯỚC 1: Dữ liệu khách hàng gốc (lộn xộn)")
print("-" * 50)

data_khachhang = {
    'KhachHang': ['Công ty A', 'Khách hàng B', 'Doanh nghiệp C', 'Cá nhân D', 'Tổ chức E'],
    'ThongTin': [
        'Liên hệ: 0123-456-789 hoặc email: john@gmail.com',
        'SDT: +84 98 765 4321, địa chỉ: 123 Lê Lợi, Q1, TP.HCM', 
        'Phone: (024) 3825-7863, email: info@company.vn',
        'Mobile: 0987654321, website: https://example.com',
        'Hotline: 1900-1234, fax: (028) 3829-5678'
    ]
}

df_khachhang = pd.DataFrame(data_khachhang)
print("📊 DataFrame khách hàng:")
print(df_khachhang)

print("\n" + "="*70)
print("🔍 BƯỚC 2: HỌC REGEX QUA VÍ DỤ ĐƠN GIẢN")
print("="*70)

# 📚 Giải thích Regex cơ bản
print("📚 HIỂU REGEX QUA VÍ DỤ:")
print()

print("1️⃣ Tìm số điện thoại:")
print("   Văn bản: '0123-456-789'")
print("   Regex: r'\\d{3,4}[-.]?\\d{3,4}[-.]?\\d{3,4}'")
print("   Giải thích:")
print("   - \\d{3,4} = 3 hoặc 4 số")
print("   - [-.]? = có thể có dấu - hoặc . (hoặc không)")
print("   - Kết quả: '0123-456-789'")
print()

print("2️⃣ Tìm email:")
print("   Văn bản: 'john@gmail.com'")
print("   Regex: r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}'")
print("   Giải thích:")
print("   - [a-zA-Z0-9._%+-]+ = tên email (chữ, số, ký tự đặc biệt)")
print("   - @ = ký tự @")
print("   - [a-zA-Z0-9.-]+ = tên domain")
print("   - \\. = dấu chấm")
print("   - [a-zA-Z]{2,} = đuôi domain (ít nhất 2 chữ)")
print("   - Kết quả: 'john@gmail.com'")
print()

print("\n" + "="*70)
print("🛠️ BƯỚC 3: ÁP DỤNG REGEX VÀO DỮ LIỆU THỰC TẾ")
print("="*70)

# 🔍 Bước 3.1: Trích xuất số điện thoại
print("🔍 3.1: Trích xuất số điện thoại")
print("-" * 40)

# Regex đơn giản hơn để dễ hiểu
phone_pattern = r'(\+?84[\s\-]?)?\(?0?\d{2,3}\)?[\s\-]?\d{3,4}[\s\-]?\d{3,4}'

print(f"📱 Pattern: {phone_pattern}")
print("📝 Giải thích:")
print("   - (\\+?84[\\s\\-]?)? = mã quốc gia +84 (có thể có hoặc không)")
print("   - \\(?0?\\d{2,3}\\)? = mã vùng (có thể có dấu ngoặc)")
print("   - [\\s\\-]?\\d{3,4}[\\s\\-]?\\d{3,4} = số điện thoại")

df_khachhang['SoDienThoai'] = df_khachhang['ThongTin'].str.extract(phone_pattern, expand=False)
print("\n📊 Kết quả:")
print(df_khachhang[['KhachHang', 'ThongTin', 'SoDienThoai']])

# 🔍 Bước 3.2: Trích xuất email
print("\n🔍 3.2: Trích xuất email")
print("-" * 40)

# Regex email đơn giản hơn
email_pattern = r'([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})'

print(f"📧 Pattern: {email_pattern}")
print("📝 Giải thích:")
print("   - [a-zA-Z0-9._%+-]+ = tên email")
print("   - @ = ký tự @")
print("   - [a-zA-Z0-9.-]+ = domain")
print("   - \\. = dấu chấm")
print("   - [a-zA-Z]{2,} = đuôi domain")

df_khachhang['Email'] = df_khachhang['ThongTin'].str.extract(email_pattern, expand=False)
print("\n📊 Kết quả:")
print(df_khachhang[['KhachHang', 'ThongTin', 'Email']])

# 🔍 Bước 3.3: Kiểm tra có website không
print("\n🔍 3.3: Kiểm tra có website/URL")
print("-" * 40)

# Regex URL đơn giản
url_pattern = r'https?://[^\s]+'

print(f"🌐 Pattern: {url_pattern}")
print("📝 Giải thích:")
print("   - https? = http hoặc https")
print("   - :// = ký tự ://")
print("   - [^\\s]+ = mọi ký tự không phải khoảng trắng")

df_khachhang['CoWebsite'] = df_khachhang['ThongTin'].str.contains(url_pattern, regex=True)
print("\n📊 Kết quả:")
print(df_khachhang[['KhachHang', 'ThongTin', 'CoWebsite']])

print("\n" + "="*70)
print("✨ BƯỚC 4: CHUẨN HÓA SỐ ĐIỆN THOẠI")
print("="*70)

# 🔧 Chuẩn hóa số điện thoại
def chuan_hoa_so_dien_thoai(so_dt):
    """
    Chuẩn hóa số điện thoại về định dạng: 0xxx-xxx-xxxx
    """
    if pd.isna(so_dt) or so_dt is None:
        return None
    
    # Chỉ giữ lại số
    so_clean = ''.join(filter(str.isdigit, str(so_dt)))
    
    # Chuẩn hóa theo định dạng Việt Nam
    if len(so_clean) >= 10:
        if so_clean.startswith('84'):
            # +84-xxx-xxx-xxxx
            return f"+84-{so_clean[2:5]}-{so_clean[5:8]}-{so_clean[8:]}"
        elif so_clean.startswith('0'):
            # 0xxx-xxx-xxxx
            return f"{so_clean[:4]}-{so_clean[4:7]}-{so_clean[7:]}"
    
    return so_clean if so_clean else None

print("🔧 Chuẩn hóa số điện thoại:")
df_khachhang['SoDienThoaiChuan'] = df_khachhang['SoDienThoai'].apply(chuan_hoa_so_dien_thoai)

print("\n📊 Kết quả cuối cùng:")
result_columns = ['KhachHang', 'SoDienThoai', 'SoDienThoaiChuan', 'Email', 'CoWebsite']
print(df_khachhang[result_columns])

print("\n" + "="*70)
print("🎉 TỔNG KẾT: REGEX ĐÃ GIÚP CHÚNG TA")
print("="*70)
print("✅ Trích xuất số điện thoại từ 5 định dạng khác nhau")
print("✅ Tìm email hợp lệ")
print("✅ Kiểm tra có website không")
print("✅ Chuẩn hóa số điện thoại về định dạng thống nhất")
print("✅ Tất cả chỉ trong vài dòng code!")
print("\n💡 Regex giúp xử lý dữ liệu văn bản phức tạp một cách tự động và chính xác!")

🏢 DEMO: Xử lý dữ liệu liên hệ khách hàng với Regex
📋 BƯỚC 1: Dữ liệu khách hàng gốc (lộn xộn)
--------------------------------------------------
📊 DataFrame khách hàng:
        KhachHang                                           ThongTin
0       Công ty A   Liên hệ: 0123-456-789 hoặc email: john@gmail.com
1    Khách hàng B  SDT: +84 98 765 4321, địa chỉ: 123 Lê Lợi, Q1,...
2  Doanh nghiệp C     Phone: (024) 3825-7863, email: info@company.vn
3       Cá nhân D   Mobile: 0987654321, website: https://example.com
4       Tổ chức E           Hotline: 1900-1234, fax: (028) 3829-5678

🔍 BƯỚC 2: HỌC REGEX QUA VÍ DỤ ĐƠN GIẢN
📚 HIỂU REGEX QUA VÍ DỤ:

1️⃣ Tìm số điện thoại:
   Văn bản: '0123-456-789'
   Regex: r'\d{3,4}[-.]?\d{3,4}[-.]?\d{3,4}'
   Giải thích:
   - \d{3,4} = 3 hoặc 4 số
   - [-.]? = có thể có dấu - hoặc . (hoặc không)
   - Kết quả: '0123-456-789'

2️⃣ Tìm email:
   Văn bản: 'john@gmail.com'
   Regex: r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
   Giải thích:
   - [a-zA-Z0-9._

## Xử lý dữ liệu phân loại (Categorical Data)

### Hiểu về dữ liệu phân loại

**🏷️ Dữ liệu phân loại là gì?**

Dữ liệu phân loại (*categorical data*) là loại dữ liệu có **số lượng giá trị hữu hạn** và thường được biểu diễn bằng **nhãn hoặc tên**:

**📊 Các loại dữ liệu phân loại:**

1. **Nominal** (Danh nghĩa): Không có thứ tự
   - Giới tính: Nam, Nữ, Khác
   - Màu sắc: Đỏ, Xanh, Vàng
   - Quốc gia: Việt Nam, Mỹ, Nhật Bản

2. **Ordinal** (Thứ tự): Có thứ tự ý nghĩa
   - Học vị: Cử nhân < Thạc sĩ < Tiến sĩ
   - Đánh giá: Kém < Trung bình < Tốt < Xuất sắc
   - Kích cỡ: S < M < L < XL

**🔧 Xử lý dữ liệu phân loại trong pandas:**

- **Kiểu `category`**: Pandas có kiểu dữ liệu chuyên dụng cho categorical data
- **Memory efficient**: Tiết kiệm bộ nhớ khi có nhiều giá trị lặp lại
- **Performance**: Tăng tốc các phép toán groupby và merge
- **Validation**: Kiểm soát các giá trị hợp lệ

**⚙️ Khi nào sử dụng kiểu `category`:**

- Cột có **ít giá trị duy nhất** so với tổng số hàng
- **Nhiều giá trị lặp lại** (high cardinality)
- Muốn **kiểm soát các giá trị** có thể xuất hiện
- Cần **tối ưu hóa bộ nhớ** và hiệu suất

### Label Encoding - Mã hóa nhãn

**🔢 Label Encoding là gì?**

Label Encoding là kỹ thuật chuyển đổi dữ liệu phân loại thành **số nguyên tuần tự**:

- `"Apple"` → `0`
- `"Banana"` → `1` 
- `"Cherry"` → `2`

**✅ Ưu điểm:**
- **Đơn giản**: Dễ hiểu và triển khai
- **Tiết kiệm bộ nhớ**: Chỉ cần 1 cột
- **Phù hợp với dữ liệu ordinal**: Bảo toàn thứ tự

**❌ Nhược điểm:**
- **Tạo thứ tự giả tạo**: Apple < Banana < Cherry (không đúng)
- **Không phù hợp với nominal data**: Các thuật toán có thể hiểu sai quan hệ
- **Bias trong mô hình**: Giá trị lớn hơn có thể được coi là "quan trọng" hơn

**🎯 Khi nào sử dụng Label Encoding:**
- **Dữ liệu ordinal** có thứ tự tự nhiên
- **Tree-based algorithms** (Decision Tree, Random Forest) - ít bị ảnh hưởng bởi thứ tự
- **Target variable** trong classification tasks

In [19]:
import pandas as pd 

# Tạo dữ liệu categorical để demo One-Hot Encoding
data_categorical = {
    'Tên': ['An', 'Bình', 'Chi', 'Dũng', 'Eva'],
    'Phòng ban': ['IT', 'Marketing', 'IT', 'HR', 'Marketing'],
    'Trình độ': ['Cử nhân', 'Thạc sĩ', 'Cử nhân', 'Tiến sĩ', 'Thạc sĩ'],
    'Thành phố': ['Hà Nội', 'TP.HCM', 'Hà Nội', 'Đà Nẵng', 'TP.HCM']
}

df_categorical = pd.DataFrame(data_categorical)
print("Dữ liệu categorical gốc:")
print(df_categorical)

print("Sử dụng Label Encoding đối với dữ liệu categorical:")

from sklearn.preprocessing import LabelEncoder

# Khởi tạo LabelEncoder
label_encoder = LabelEncoder()

# Áp dụng Label Encoding cho từng cột categorical
for col in ['Phòng ban', 'Trình độ', 'Thành phố']:
    df_categorical[col] = label_encoder.fit_transform(df_categorical[col])
    print(f"Các categoricals đã được mã hóa đối với {col}: {label_encoder.classes_}")

print("Kết quả Label Encoding:")
print(df_categorical)

Dữ liệu categorical gốc:
    Tên  Phòng ban Trình độ Thành phố
0    An         IT  Cử nhân    Hà Nội
1  Bình  Marketing  Thạc sĩ    TP.HCM
2   Chi         IT  Cử nhân    Hà Nội
3  Dũng         HR  Tiến sĩ   Đà Nẵng
4   Eva  Marketing  Thạc sĩ    TP.HCM
Sử dụng Label Encoding đối với dữ liệu categorical:
Các categoricals đã được mã hóa đối với Phòng ban: ['HR' 'IT' 'Marketing']
Các categoricals đã được mã hóa đối với Trình độ: ['Cử nhân' 'Thạc sĩ' 'Tiến sĩ']
Các categoricals đã được mã hóa đối với Thành phố: ['Hà Nội' 'TP.HCM' 'Đà Nẵng']
Kết quả Label Encoding:
    Tên  Phòng ban  Trình độ  Thành phố
0    An          1         0          0
1  Bình          2         1          1
2   Chi          1         0          0
3  Dũng          0         2          2
4   Eva          2         1          1


### **One-Hot Encoding - Mã hóa One-Hot**

**🔥 One-Hot Encoding là gì?**

One-Hot Encoding tạo ra **binary columns** cho mỗi category:

**Ví dụ:** `["Apple", "Banana", "Cherry"]` → 

| Apple | Banana | Cherry |
|-------|--------|--------|
| 1     | 0      | 0      |
| 0     | 1      | 0      |
| 0     | 0      | 1      |

**✅ Ưu điểm:**
- **Không tạo thứ tự giả tạo**: Tất cả categories đều bình đẳng
- **Phù hợp với nominal data**: Apple ≠ Banana ≠ Cherry
- **Hoạt động tốt** với hầu hết machine learning algorithms
- **Tránh bias**: Không có category nào được coi là "quan trọng" hơn

**❌ Nhược điểm:**
- **Curse of dimensionality**: Tăng số lượng features đáng kể  
- **Sparse matrix**: Nhiều giá trị 0, tốn bộ nhớ
- **Multicollinearity**: Các cột có correlation với nhau

**🎯 Khi nào sử dụng One-Hot Encoding:**
- **Dữ liệu nominal** không có thứ tự tự nhiên
- **Ít categories** (< 10-15 giá trị duy nhất)
- **Linear algorithms** (Linear/Logistic Regression, SVM)
- **Neural Networks**

In [20]:
import pandas as pd 

# Tạo dữ liệu categorical để demo One-Hot Encoding
data_categorical = {
    'Tên': ['An', 'Bình', 'Chi', 'Dũng', 'Eva'],
    'Phòng ban': ['IT', 'Marketing', 'IT', 'HR', 'Marketing'],
    'Trình độ': ['Cử nhân', 'Thạc sĩ', 'Cử nhân', 'Tiến sĩ', 'Thạc sĩ'],
    'Thành phố': ['Hà Nội', 'TP.HCM', 'Hà Nội', 'Đà Nẵng', 'TP.HCM']
}

df_categorical = pd.DataFrame(data_categorical)
print("Dữ liệu categorical gốc:")
print(df_categorical)

print("PHƯƠNG PHÁP 1: SỬ DỤNG pandas.get_dummies()")

# Phương pháp 1: Sử dụng pandas.get_dummies()
df_onehot_pandas = pd.get_dummies(df_categorical, 
                                  columns=['Phòng ban', 'Trình độ', 'Thành phố'],
                                  prefix=['PB', 'TD', 'TP'])

print("Kết quả One-Hot Encoding với pandas:")
print(df_onehot_pandas)

print(f"\nSố cột trước: {len(df_categorical.columns)}")
print(f"Số cột sau: {len(df_onehot_pandas.columns)}")

print("PHƯƠNG PHÁP 2: SỬ DỤNG sklearn.OneHotEncoder")

from sklearn.preprocessing import OneHotEncoder

# Phương pháp 2: Sử dụng sklearn OneHotEncoder
encoder = OneHotEncoder(sparse_output=False, drop='first')  # drop='first' để tránh multicollinearity

# Chỉ encode các cột categorical (bỏ qua cột 'Tên')
categorical_cols = ['Phòng ban', 'Trình độ', 'Thành phố']
encoded_data = encoder.fit_transform(df_categorical[categorical_cols])

# Tạo tên cột cho kết quả
feature_names = encoder.get_feature_names_out(categorical_cols)

# Tạo DataFrame mới
df_onehot_sklearn = pd.DataFrame(encoded_data, columns=feature_names)
df_onehot_sklearn = pd.concat([df_categorical[['Tên']], df_onehot_sklearn], axis=1)

print("Kết quả One-Hot Encoding với sklearn:")
print(df_onehot_sklearn)

print(f"\nLưu ý: sklearn với drop='first' giảm số cột để tránh multicollinearity")

Dữ liệu categorical gốc:
    Tên  Phòng ban Trình độ Thành phố
0    An         IT  Cử nhân    Hà Nội
1  Bình  Marketing  Thạc sĩ    TP.HCM
2   Chi         IT  Cử nhân    Hà Nội
3  Dũng         HR  Tiến sĩ   Đà Nẵng
4   Eva  Marketing  Thạc sĩ    TP.HCM
PHƯƠNG PHÁP 1: SỬ DỤNG pandas.get_dummies()
Kết quả One-Hot Encoding với pandas:
    Tên  PB_HR  PB_IT  PB_Marketing  TD_Cử nhân  TD_Thạc sĩ  TD_Tiến sĩ  \
0    An  False   True         False        True       False       False   
1  Bình  False  False          True       False        True       False   
2   Chi  False   True         False        True       False       False   
3  Dũng   True  False         False       False       False        True   
4   Eva  False  False          True       False        True       False   

   TP_Hà Nội  TP_TP.HCM  TP_Đà Nẵng  
0       True      False       False  
1      False       True       False  
2       True      False       False  
3      False      False        True  
4      False       True  

## Câu hỏi ôn tập

**📝 Hãy trả lời các câu hỏi sau để kiểm tra hiểu biết của bạn:**

| **Phương thức nào dùng để phát hiện dữ liệu thiếu trong pandas?** | |
|---|---|
| `isna()` hoặc `isnull()` | |
| `missing()` | |
| `empty()` | |
| `nan_check()` | |

| **Phương thức `fillna()` được sử dụng để làm gì?** | |
|---|---|
| Loại bỏ dữ liệu thiếu | |
| Thay thế dữ liệu thiếu | |
| Phát hiện dữ liệu thiếu | |
| Đếm dữ liệu thiếu | |

| **MinMaxScaler đưa dữ liệu về khoảng giá trị nào?** | |
|---|---|
| [-1, 1] | |
| [0, 1] | |
| [0, 100] | |
| [-100, 100] | |

| **Phương thức nào dùng để loại bỏ hàng trùng lặp?** | |
|---|---|
| `remove_duplicates()` | |
| `drop_duplicates()` | |
| `delete_duplicates()` | |
| `unique()` | |

| **Trong pandas, để chuyển chuỗi về chữ thường ta sử dụng?** | |
|---|---|
| `.str.lowercase()` | |
| `.str.lower()` | |
| `.str.downcase()` | |
| `.str.small()` | |

| **Label Encoding phù hợp nhất với loại dữ liệu nào?** | |
|---|---|
| Dữ liệu số liên tục | |
| Dữ liệu nominal | |
| Dữ liệu ordinal | |
| Dữ liệu thời gian | |

| **StandardScaler chuẩn hóa dữ liệu có Mean và Standard Deviation là bao nhiêu?** | |
|---|---|
| Mean=1, Std=0 | |
| Mean=0, Std=1 | |
| Mean=0.5, Std=0.5 | |
| Mean=100, Std=10 | |

| **Khi nào nên sử dụng RobustScaler thay vì MinMaxScaler?** | |
|---|---|
| Khi dữ liệu có nhiều outliers | |
| Khi dữ liệu đã chuẩn hóa | |
| Khi dữ liệu là categorical | |
| Khi dữ liệu có kích thước nhỏ | |

---

# 🏋️ **BÀI TẬP THỰC HÀNH**

> **📝 LƯU Ý:** Bài giảng này có **2 hình thức thực hành:**
> 1. **🎯 Quiz trắc nghiệm trực tuyến** (30 câu hỏi) - Tự động chấm điểm
> 2. **💻 Bài tập code tự do** (9 bài tập) - Thực hành sâu hơn

---

## **📱 Phần A: QUIZ TRẮC NGHIỆM (30 câu)**

> **🎮 Làm quiz online tại:**  
> **[Quiz Lecture 5 - Data Cleaning & Preprocessing](../../quiz/Lec05_quiz/index.html)**

**Cấu trúc quiz:**
- ✅ 30 câu hỏi trắc nghiệm
- ✅ Tự động chấm điểm
- ✅ Có gợi ý cho từng câu
- ✅ Có thể xem đáp án ngay

**Nội dung quiz bao gồm:**
1. **Missing Data** (6 câu): Detection, Drop, Fill, ML Imputation
2. **Duplicate Data** (3 câu): Detection, Removal, Subset handling
3. **Data Normalization** (6 câu): MinMax, Standard, Robust Scaler
4. **String Processing** (6 câu): Basic methods, Regex, Cleaning
5. **Categorical Encoding** (6 câu): Label, One-Hot, Ordinal
6. **Advanced** (3 câu): Pipeline, Feature Engineering, Best Practices

**💡 Khuyến nghị:** Làm quiz TRƯỚC KHI làm bài tập code để kiểm tra hiểu biết cơ bản!

---

## **💻 Phần B: BÀI TẬP CODE TỰ DO (9 bài)**

### **Nhóm 1: Bài tập cơ bản (⭐) - Tương ứng Quiz câu 1-10**

### **Bài 1.1: Xử lý dữ liệu thiếu cơ bản**
**Liên quan đến:** Quiz câu 1, 2, 3, 4

**Đề bài:** Phân tích dữ liệu khảo sát khách hàng có nhiều giá trị thiếu

```python
# Dữ liệu khảo sát khách hàng (có missing values)
data = {
    'Customer_ID': [1, 2, 3, 4, 5, 6, 7, 8],
    'Age': [25, None, 30, 28, None, 35, 32, 29],
    'Income': [50000000, 60000000, None, 70000000, 55000000, None, 80000000, 65000000],
    'Education': ['Bachelor', 'Master', 'Bachelor', None, 'PhD', 'Master', None, 'Bachelor'],
    'Satisfaction': [4, 5, None, 3, 4, 5, 4, None]
}
df = pd.DataFrame(data)
```

**Yêu cầu:**
1. Kiểm tra số lượng missing values trong mỗi cột
2. Tính tỷ lệ phần trăm missing values
3. Tạo 3 phiên bản xử lý:
   - Version 1: Loại bỏ tất cả dòng có missing values
   - Version 2: Điền missing values bằng giá trị trung bình/median
   - Version 3: Điền missing values bằng forward fill
4. So sánh số dòng của 3 phiên bản

**Gợi ý:** `.isnull().sum()`, `.dropna()`, `.fillna()`, `.ffill()`

---

### **Bài 1.2: Phát hiện và xử lý dữ liệu trùng lặp**
**Liên quan đến:** Quiz câu 5, 6, 7

**Đề bài:** Làm sạch database khách hàng có nhiều bản ghi trùng lặp

```python
# Dữ liệu khách hàng có duplicates
data = {
    'Customer_ID': [1, 2, 3, 1, 4, 2, 5, 3, 6],
    'Name': ['An', 'Bình', 'Chi', 'An', 'Dũng', 'Bình', 'Eva', 'Chi', 'Giang'],
    'Email': ['an@email.com', 'binh@email.com', 'chi@email.com', 
              'an@email.com', 'dung@email.com', 'binh@email.com', 
              'eva@email.com', 'chi@email.com', 'giang@email.com'],
    'Phone': ['0123456789', '0987654321', '0111222333', 
              '0123456789', '0444555666', '0987654321', 
              '0777888999', '0111222333', '0555666777']
}
df = pd.DataFrame(data)
```

**Yêu cầu:**
1. Phát hiện các dòng trùng lặp hoàn toàn
2. Phát hiện các dòng trùng lặp theo Email
3. Phát hiện các dòng trùng lặp theo Phone
4. Loại bỏ duplicates và giữ lại bản ghi đầu tiên
5. Tạo báo cáo số lượng duplicates đã loại bỏ

**Gợi ý:** `.duplicated()`, `.drop_duplicates()`, `subset` parameter

---

### **Nhóm 2: Bài tập trung bình (⭐⭐) - Tương ứng Quiz câu 11-20**

### **Bài 2.1: Chuẩn hóa dữ liệu tài chính**
**Liên quan đến:** Quiz câu 11, 12, 13, 14

**Đề bài:** Chuẩn hóa dữ liệu tài chính của các công ty để so sánh

```python
# Dữ liệu tài chính các công ty (đơn vị: triệu VND)
data = {
    'Company': ['VinGroup', 'Viettel', 'FPT', 'Masan', 'VNM'],
    'Revenue': [500000, 200000, 50000, 30000, 80000],
    'Profit': [50000, 30000, 8000, 2000, 10000],
    'Assets': [2000000, 800000, 200000, 100000, 300000],
    'Employees': [50000, 20000, 10000, 5000, 15000]
}
df = pd.DataFrame(data)
```

**Yêu cầu:**
1. Áp dụng MinMaxScaler cho tất cả cột số
2. Áp dụng StandardScaler cho tất cả cột số
3. Áp dụng RobustScaler cho tất cả cột số
4. So sánh kết quả của 3 phương pháp
5. Tạo biểu đồ so sánh (boxplot) trước và sau chuẩn hóa

**Gợi ý:** `MinMaxScaler()`, `StandardScaler()`, `RobustScaler()`, `.fit_transform()`

---

### **Bài 2.2: Xử lý chuỗi ký tự trong dữ liệu khách hàng**
**Liên quan đến:** Quiz câu 15, 16, 17, 18

**Đề bài:** Làm sạch dữ liệu khách hàng có nhiều lỗi định dạng

```python
# Dữ liệu khách hàng cần làm sạch
data = {
    'Name': ['  NGUYỄN VĂN A  ', 'trần thị b', 'LÊ VĂN C', '  Phạm Thị D  '],
    'Email': ['A@GMAIL.COM', 'b@yahoo.com', 'C@HOTMAIL.COM', 'd@gmail.com'],
    'Phone': ['0123-456-789', '0987654321', '+84-987-654-321', '0911-222-333'],
    'Address': ['Hà Nội', 'TP.HCM', 'Đà Nẵng', 'Cần Thơ']
}
df = pd.DataFrame(data)
```

**Yêu cầu:**
1. Chuẩn hóa tên: loại bỏ khoảng trắng thừa, viết hoa chữ cái đầu
2. Chuẩn hóa email: chuyển về chữ thường
3. Chuẩn hóa số điện thoại: loại bỏ ký tự đặc biệt, chỉ giữ số
4. Trích xuất domain từ email
5. Tạo cột "Region" dựa trên địa chỉ

**Gợi ý:** `.str.strip()`, `.str.title()`, `.str.lower()`, `.str.replace()`, `.str.extract()`

---

### **Bài 2.3: Mã hóa dữ liệu phân loại**
**Liên quan đến:** Quiz câu 19, 20

**Đề bài:** Chuẩn bị dữ liệu sản phẩm cho machine learning

```python
# Dữ liệu sản phẩm
data = {
    'Product': ['iPhone 14', 'Samsung Galaxy', 'iPhone 13', 'Xiaomi Redmi', 'Oppo Reno'],
    'Brand': ['Apple', 'Samsung', 'Apple', 'Xiaomi', 'Oppo'],
    'Category': ['Smartphone', 'Smartphone', 'Smartphone', 'Smartphone', 'Smartphone'],
    'Price': [25000000, 20000000, 20000000, 8000000, 12000000],
    'Rating': ['Excellent', 'Good', 'Good', 'Average', 'Good']
}
df = pd.DataFrame(data)
```

**Yêu cầu:**
1. Label Encoding cho cột 'Brand'
2. One-Hot Encoding cho cột 'Rating'
3. Chuẩn hóa cột 'Price' với StandardScaler
4. Tạo DataFrame cuối cùng sẵn sàng cho ML
5. So sánh kích thước DataFrame trước và sau encoding

**Gợi ý:** `LabelEncoder()`, `pd.get_dummies()`, `StandardScaler()`

---

### **Nhóm 3: Bài tập nâng cao (⭐⭐⭐) - Tương ứng Quiz câu 21-30**

### **Bài 3.1: Pipeline xử lý dữ liệu hoàn chỉnh**
**Liên quan đến:** Quiz câu 21, 22, 23

**Đề bài:** Xây dựng pipeline xử lý dữ liệu khảo sát thị trường

```python
# Dữ liệu khảo sát thị trường (có nhiều vấn đề)
data = {
    'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'Name': ['An', 'Bình', 'Chi', 'Dũng', 'Eva', 'An', 'Bình', 'Giang', 'Hùng', 'Lan'],
    'Age': [25, None, 30, 28, None, 25, 35, 32, 29, 27],
    'Income': [50000000, 60000000, None, 70000000, 55000000, 50000000, 80000000, 65000000, 45000000, 75000000],
    'City': ['Hà Nội', 'TP.HCM', 'Hà Nội', 'Đà Nẵng', 'TP.HCM', 'Hà Nội', 'TP.HCM', 'Hà Nội', 'Cần Thơ', 'Hải Phòng'],
    'Satisfaction': ['Rất hài lòng', 'Hài lòng', 'Bình thường', 'Hài lòng', 'Rất hài lòng', 'Hài lòng', 'Bình thường', 'Hài lòng', 'Không hài lòng', 'Hài lòng']
}
df = pd.DataFrame(data)
```

**Yêu cầu:**
1. **Bước 1:** Phân tích dữ liệu (info, describe, missing values)
2. **Bước 2:** Xử lý missing values (quyết định phương pháp phù hợp)
3. **Bước 3:** Xử lý duplicates (loại bỏ theo ID)
4. **Bước 4:** Chuẩn hóa dữ liệu số (Income)
5. **Bước 5:** Encoding dữ liệu phân loại (City, Satisfaction)
6. **Bước 6:** Tạo báo cáo tổng kết
7. **Bước 7:** Lưu kết quả ra file CSV

**Gợi ý:** Pipeline approach, `.info()`, `.describe()`, `.isnull().sum()`

---

### **Bài 3.2: Feature Engineering nâng cao**
**Liên quan đến:** Quiz câu 24, 25, 26

**Đề bài:** Tạo features mới từ dữ liệu gốc

```python
# Dữ liệu bán hàng
data = {
    'Date': ['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04', '2024-01-05'],
    'Product': ['Laptop', 'Phone', 'Tablet', 'Laptop', 'Phone'],
    'Price': [15000000, 8000000, 5000000, 16000000, 8500000],
    'Quantity': [2, 5, 3, 1, 4],
    'Customer_Age': [25, 30, 35, 28, 32],
    'Customer_City': ['Hà Nội', 'TP.HCM', 'Đà Nẵng', 'Hà Nội', 'TP.HCM']
}
df = pd.DataFrame(data)
```

**Yêu cầu:**
1. Tạo cột 'Total_Revenue' = Price × Quantity
2. Tạo cột 'Price_Category' (High/Medium/Low) dựa trên Price
3. Tạo cột 'Age_Group' (Young/Adult/Senior) dựa trên Customer_Age
4. Tạo cột 'Region' (North/South/Central) dựa trên Customer_City
5. Tạo cột 'Day_of_Week' từ Date
6. Tạo cột 'Is_Weekend' (True/False)
7. Chuẩn hóa tất cả cột số
8. One-Hot encoding cho tất cả cột phân loại

**Gợi ý:** `pd.to_datetime()`, `.dt.day_name()`, `pd.cut()`, `.map()`

---

### **Bài 3.3: Mini Project - Phân tích dữ liệu khảo sát khách hàng**
**Liên quan đến:** Quiz câu 27-30 (Best practices, Pipeline, Advanced techniques)

**Đề bài:** Xây dựng hệ thống phân tích và làm sạch dữ liệu khảo sát khách hàng

**Yêu cầu chi tiết:**

**Bước 1: Thu thập và phân tích dữ liệu**
- Tạo dataset khảo sát khách hàng (100+ records) với các vấn đề:
  - Missing values (5-15% mỗi cột)
  - Duplicates (10-20%)
  - Inconsistent formatting (names, emails, phones)
  - Outliers trong dữ liệu số
  - Categorical data cần encoding

**Bước 2: Xây dựng Data Cleaning Pipeline**
- Tạo class `DataCleaner` với các methods:
  - `detect_missing()`: Phát hiện và báo cáo missing values
  - `handle_missing()`: Xử lý missing values với nhiều phương pháp
  - `detect_duplicates()`: Phát hiện duplicates
  - `handle_duplicates()`: Xử lý duplicates
  - `clean_strings()`: Làm sạch dữ liệu chuỗi
  - `normalize_data()`: Chuẩn hóa dữ liệu số
  - `encode_categorical()`: Mã hóa dữ liệu phân loại

**Bước 3: Áp dụng Pipeline**
- Áp dụng pipeline lên dataset
- Tạo báo cáo chi tiết về:
  - Số lượng records trước/sau cleaning
  - Các thay đổi được thực hiện
  - Chất lượng dữ liệu cuối cùng

**Bước 4: Validation và Testing**
- Tạo unit tests cho các methods
- Validate kết quả cuối cùng
- So sánh performance trước/sau cleaning

**Bước 5: Visualization và Reporting**
- Tạo visualizations:
  - Missing values heatmap
  - Before/after comparison charts
  - Data quality metrics dashboard
- Tạo báo cáo tổng kết (PDF/HTML)

**Đánh giá:**
- Correctness: 40%
- Code quality & documentation: 30%
- Pipeline design: 20%
- Visualization & reporting: 10%

---


---

# 💡 **TIPS & TRICKS CHO SINH VIÊN**

## **📖 Cách học hiệu quả:**

### **1. Học theo thứ tự độ khó tăng dần**
```
Missing Data → Duplicates → Normalization → String Processing → Categorical Encoding
⭐⭐           ⭐           ⭐⭐            ⭐⭐⭐              ⭐⭐
```

### **2. Thực hành thường xuyên**
- ✅ Chạy lại từng ví dụ trong bài giảng
- ✅ Thay đổi tham số để xem kết quả khác nhau
- ✅ Áp dụng vào dữ liệu thực tế (khảo sát khách hàng, dữ liệu tài chính, v.v.)

### **3. Xử lý lỗi đúng cách**
```python
# Luôn kiểm tra dữ liệu trước khi xử lý
print("Missing values:", df.isnull().sum())
print("Data types:", df.dtypes)
print("Shape:", df.shape)

# Xử lý exception
try:
    df_clean = df.dropna()
except Exception as e:
    print(f"Lỗi: {e}")
```

---

## **⚠️ Những sai lầm thường gặp:**

### **Top 5 lỗi phổ biến:**

**1. Không kiểm tra dữ liệu trước khi xử lý**
```python
# ❌ SAI - Trực tiếp xử lý
df['normalized'] = scaler.fit_transform(df[['price']])

# ✅ ĐÚNG - Kiểm tra trước
print(df.isnull().sum())
df_clean = df.dropna()
df['normalized'] = scaler.fit_transform(df_clean[['price']])
```

**2. Quên lưu lại DataFrame gốc**
```python
# ❌ SAI - Mất dữ liệu gốc
df = df.dropna()  # Không thể quay lại

# ✅ ĐÚNG - Giữ bản gốc
df_original = df.copy()
df_clean = df.dropna()
```

**3. Không hiểu sự khác biệt giữa các scaler**
```python
# ❌ SAI - Dùng sai scaler
# MinMaxScaler cho dữ liệu có outliers

# ✅ ĐÚNG - Chọn scaler phù hợp
# MinMaxScaler: Dữ liệu không có outliers
# StandardScaler: Dữ liệu có phân phối chuẩn
# RobustScaler: Dữ liệu có outliers
```

**4. Encoding không phù hợp với loại dữ liệu**
```python
# ❌ SAI - Label encoding cho nominal data
df['city_encoded'] = LabelEncoder().fit_transform(df['city'])

# ✅ ĐÚNG - One-hot cho nominal, Label cho ordinal
df_encoded = pd.get_dummies(df, columns=['city'])  # Nominal
df['rating_encoded'] = LabelEncoder().fit_transform(df['rating'])  # Ordinal
```

**5. Không validate kết quả sau khi xử lý**
```python
# ❌ SAI - Không kiểm tra kết quả
df_clean = df.dropna()

# ✅ ĐÚNG - Validate kết quả
df_clean = df.dropna()
print(f"Trước: {df.shape[0]} dòng, Sau: {df_clean.shape[0]} dòng")
print("Missing values còn lại:", df_clean.isnull().sum().sum())
```

---

## **🔧 Best Practices:**

### **1. Data Cleaning Pipeline**
```python
def clean_data(df):
    """Pipeline làm sạch dữ liệu"""
    # Bước 1: Phân tích
    print("=== PHÂN TÍCH DỮ LIỆU ===")
    print(f"Shape: {df.shape}")
    print(f"Missing values:\n{df.isnull().sum()}")
    
    # Bước 2: Xử lý missing values
    print("\n=== XỬ LÝ MISSING VALUES ===")
    df_clean = df.dropna()  # hoặc fillna()
    
    # Bước 3: Xử lý duplicates
    print("\n=== XỬ LÝ DUPLICATES ===")
    df_clean = df_clean.drop_duplicates()
    
    # Bước 4: Chuẩn hóa
    print("\n=== CHUẨN HÓA DỮ LIỆU ===")
    scaler = StandardScaler()
    numeric_cols = df_clean.select_dtypes(include=[np.number]).columns
    df_clean[numeric_cols] = scaler.fit_transform(df_clean[numeric_cols])
    
    return df_clean
```

### **2. Validation Functions**
```python
def validate_cleaning(df_original, df_cleaned):
    """Validate kết quả làm sạch"""
    print("=== VALIDATION REPORT ===")
    print(f"Records: {df_original.shape[0]} → {df_cleaned.shape[0]}")
    print(f"Columns: {df_original.shape[1]} → {df_cleaned.shape[1]}")
    print(f"Missing values: {df_original.isnull().sum().sum()} → {df_cleaned.isnull().sum().sum()}")
    print(f"Duplicates: {df_original.duplicated().sum()} → {df_cleaned.duplicated().sum()}")
```

### **3. Visualization cho Data Quality**
```python
def plot_data_quality(df):
    """Vẽ biểu đồ chất lượng dữ liệu"""
    fig, axes = plt.subplots(2, 2, figsize=(15, 10))
    
    # Missing values heatmap
    sns.heatmap(df.isnull(), ax=axes[0,0], cbar=True)
    axes[0,0].set_title('Missing Values Heatmap')
    
    # Missing values bar chart
    missing_counts = df.isnull().sum()
    missing_counts[missing_counts > 0].plot(kind='bar', ax=axes[0,1])
    axes[0,1].set_title('Missing Values Count')
    
    # Data types distribution
    df.dtypes.value_counts().plot(kind='pie', ax=axes[1,0])
    axes[1,0].set_title('Data Types Distribution')
    
    # Duplicates
    duplicate_count = df.duplicated().sum()
    axes[1,1].pie([duplicate_count, len(df)-duplicate_count], 
                   labels=['Duplicates', 'Unique'], autopct='%1.1f%%')
    axes[1,1].set_title('Duplicate Records')
    
    plt.tight_layout()
    plt.show()
```

---

## **🚀 Lộ trình học tiếp:**

### **Bước tiếp theo:**
1. **Bài 6: Data Visualization** - Trực quan hóa dữ liệu
2. **Bài 7: Statistical Analysis** - Phân tích thống kê
3. **Bài 8: Machine Learning** - Xây dựng mô hình dự đoán
4. **Bài 9: Model Evaluation** - Đánh giá mô hình

### **Tài liệu tham khảo:**
- 📚 Pandas Documentation: https://pandas.pydata.org/docs/
- 📚 Scikit-learn Preprocessing: https://scikit-learn.org/stable/modules/preprocessing.html
- 📚 Data Cleaning Best Practices: https://realpython.com/python-data-cleaning-numpy-pandas/

---

## ✅ **Checklist trước khi kết thúc:**

- [ ] Đã chạy thử tất cả code cells
- [ ] Hiểu rõ sự khác biệt giữa các phương pháp xử lý missing values
- [ ] Biết cách chọn scaler phù hợp
- [ ] Biết cách encoding dữ liệu phân loại đúng cách
- [ ] Đã thử làm ít nhất 2 bài tập
- [ ] Đã lưu notebook và kết quả

---

# 🎓 **KẾT THÚC BÀI GIẢNG**

> **Chúc các bạn học tốt và thành công trong việc làm sạch dữ liệu!** 🚀
> 
> **Câu hỏi?** Liên hệ giảng viên qua email hoặc trong giờ học.

**Bài giảng tiếp theo:** Trực quan hóa dữ liệu (Data Visualization)
