# 📊 Làm sạch và chuẩn bị dữ liệu trong Khoa học Dữ liệu

## 🎯 Mục tiêu học tập

Sau khi hoàn thành bài học này, bạn sẽ có thể:

✅ **Hiểu và xử lý dữ liệu thiếu** trong các bộ dữ liệu kinh tế  
✅ **Phát hiện và loại bỏ dữ liệu trùng lặp** trong khảo sát khách hàng  
✅ **Chuẩn hóa và biến đổi dữ liệu** để phù hợp với phân tích  
✅ **Xử lý dữ liệu chuỗi ký tự** từ các nguồn khác nhau  
✅ **Mã hóa dữ liệu phân loại** cho machine learning  

---

## 📋 Lộ trình học tập

1. **🔍 Xử lý dữ liệu thiếu** - Tại sao dữ liệu bị thiếu và cách xử lý
2. **🔄 Xử lý dữ liệu trùng lặp** - Phát hiện và loại bỏ duplicates  
3. **📐 Biến đổi và chuẩn hóa** - Đưa dữ liệu về cùng thang đo
4. **📝 Xử lý chuỗi ký tự** - Làm sạch text data
5. **🏷️ Xử lý dữ liệu phân loại** - Encoding cho ML algorithms

---

## ⚠️ Lưu ý quan trọng

> **💡 Cho sinh viên Kinh tế:** Bài học này tập trung vào các kỹ thuật thực tế mà bạn sẽ sử dụng khi phân tích dữ liệu kinh tế, khảo sát khách hàng, và nghiên cứu thị trường.

> **🔧 Tương thích:** Notebook này hoạt động tốt trên cả **Jupyter Notebook**, **JupyterLab**, và **Google Colab**.

## 🛠️ Thiết lập môi trường

Trước khi bắt đầu, hãy đảm bảo bạn đã cài đặt các thư viện cần thiết:

**📦 Cài đặt thư viện (chạy cell này nếu bạn đang sử dụng Google Colab):**


In [None]:
# Cài đặt thư viện cho Google Colab (bỏ qua nếu đã cài đặt)
try:
    import pandas as pd
    import numpy as np
    from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler, LabelEncoder, OneHotEncoder, KNNImputer
    from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
    print("✅ Tất cả thư viện đã sẵn sàng!")
except ImportError as e:
    print(f"❌ Thiếu thư viện: {e}")
    print("🔧 Đang cài đặt...")
    import subprocess
    import sys
    
    # Cài đặt các thư viện cần thiết
    packages = ['pandas', 'numpy', 'scikit-learn']
    for package in packages:
        subprocess.check_call([sys.executable, '-m', 'pip', 'install', package])
    
    print("✅ Cài đặt hoàn tất! Vui lòng restart kernel và chạy lại cell này.")


# 🔍 Phần 1: Xử lý dữ liệu thiếu (Missing Data)

## 📊 Tại sao dữ liệu thiếu quan trọng trong kinh tế?

Trong thực tế kinh doanh và nghiên cứu kinh tế, **dữ liệu thiếu** là vấn đề rất phổ biến:

### 🏢 Ví dụ thực tế từ doanh nghiệp:
- **Khảo sát khách hàng**: Một số khách hàng không trả lời câu hỏi về thu nhập
- **Báo cáo tài chính**: Một số công ty không công bố đầy đủ thông tin
- **Dữ liệu thị trường**: Giá cổ phiếu có thể bị thiếu trong ngày nghỉ lễ
- **Nghiên cứu kinh tế**: Một số hộ gia đình từ chối cung cấp thông tin chi tiêu

### ⚠️ Tác động của dữ liệu thiếu:
- **Giảm độ tin cậy** của phân tích
- **Thiên lệch kết quả** nghiên cứu
- **Khó khăn trong dự báo** kinh tế
- **Ảnh hưởng đến quyết định** đầu tư

### Hiểu về dữ liệu thiếu

* Trong thực tế, khi thu thập và lưu trữ dữ liệu, không phải lúc nào mọi giá trị cũng được ghi nhận đầy đủ.
* Một số ô có thể bị trống hoặc mang các ký hiệu đặc biệt như NA, NaN, NULL, hoặc chuỗi rỗng "". Đây chính là dữ liệu thiếu (missing data).

### 🔍 Các dạng thiếu dữ liệu trong kinh tế

Trong nghiên cứu kinh tế, chúng ta phân loại dữ liệu thiếu thành 3 loại chính:

#### 1️⃣ **MCAR (Missing Completely At Random)** - Thiếu hoàn toàn ngẫu nhiên
- **Ví dụ**: Máy tính bị lỗi khi thu thập dữ liệu giá cổ phiếu
- **Đặc điểm**: Không liên quan đến bất kỳ yếu tố nào
- **Xử lý**: Có thể loại bỏ an toàn

#### 2️⃣ **MAR (Missing At Random)** - Thiếu có điều kiện
- **Ví dụ**: Người có thu nhập cao thường không trả lời câu hỏi về thu nhập
- **Đặc điểm**: Phụ thuộc vào các biến khác có thể quan sát được
- **Xử lý**: Cần phân tích cẩn thận

#### 3️⃣ **MNAR (Missing Not At Random)** - Thiếu có hệ thống
- **Ví dụ**: Công ty có lợi nhuận thấp thường không công bố báo cáo tài chính
- **Đặc điểm**: Liên quan trực tiếp đến giá trị bị thiếu
- **Xử lý**: Cần kỹ thuật phức tạp để xử lý

### 📋 Biểu diễn dữ liệu thiếu trong Python:
- `NaN` (*Not a Number*) - cho dữ liệu số
- `None` - cho dữ liệu đối tượng  
- `NaT` (*Not a Time*) - cho dữ liệu thời gian

### 🎯 Nguyên nhân gây ra dữ liệu thiếu trong kinh tế

#### 📊 **Lỗi thu thập dữ liệu**
- **Ví dụ**: Hệ thống giao dịch chứng khoán bị sập trong giờ cao điểm
- **Tác động**: Mất dữ liệu giá cổ phiếu quan trọng

#### 👥 **Người dùng không cung cấp**
- **Ví dụ**: Khách hàng bỏ qua câu hỏi về thu nhập trong khảo sát
- **Tác động**: Thiếu thông tin để phân tích hành vi tiêu dùng

#### 📈 **Dữ liệu không tồn tại**
- **Ví dụ**: Công ty mới thành lập chưa có báo cáo tài chính năm trước
- **Tác động**: Khó so sánh hiệu suất với các công ty khác

#### 🔄 **Lỗi xử lý dữ liệu**
- **Ví dụ**: Lỗi khi chuyển đổi định dạng từ Excel sang CSV
- **Tác động**: Mất thông tin quan trọng trong quá trình chuyển đổi

### ⚠️ Tác động của dữ liệu thiếu đến phân tích kinh tế

#### 📉 **Giảm kích thước mẫu**
- **Ví dụ**: Khảo sát 1000 khách hàng, nhưng chỉ có 800 người trả lời đầy đủ
- **Tác động**: Giảm độ tin cậy của kết quả nghiên cứu

#### 🎯 **Thiên lệch kết quả**
- **Ví dụ**: Chỉ những người có thu nhập cao mới trả lời câu hỏi về thu nhập
- **Tác động**: Kết quả phân tích không đại diện cho toàn bộ dân số

#### 🤖 **Giảm hiệu quả phân tích**
- **Ví dụ**: Thuật toán machine learning không thể xử lý dữ liệu thiếu
- **Tác động**: Không thể dự báo xu hướng thị trường chính xác

#### 💼 **Ảnh hưởng quyết định kinh doanh**
- **Ví dụ**: Thiếu dữ liệu về đối thủ cạnh tranh
- **Tác động**: Ra quyết định đầu tư không chính xác

In [None]:
# 📊 Ví dụ thực tế: Dữ liệu nhân viên công ty có missing values
import pandas as pd
import numpy as np

# Tạo DataFrame mẫu về nhân viên công ty (tình huống thực tế)
print("🏢 VÍ DỤ: Dữ liệu nhân viên công ty có missing values")
print("=" * 60)

data_nhanvien = {
    'TenNV': ['Nguyễn Văn A', 'Trần Thị B', 'Lê Văn C', 'Phạm Thị D', 'Hoàng Văn E'],
    'Tuoi': [25, None, 30, 28, None],  # Một số nhân viên không cung cấp tuổi
    'Luong': [15000000, 18000000, None, 22000000, 16000000],  # Lương bị thiếu
    'PhongBan': ['IT', 'Marketing', None, 'IT', 'Marketing'],  # Phòng ban không rõ
    'KinhNghiem': [2, 5, None, 7, 1]  # Kinh nghiệm chưa được cập nhật
}

df_nhanvien = pd.DataFrame(data_nhanvien)
print("📋 DataFrame nhân viên với dữ liệu thiếu:")
print(df_nhanvien)

print(f"\n📊 Thông tin tổng quan:")
print(f"   - Tổng số nhân viên: {len(df_nhanvien)}")
print(f"   - Số cột: {len(df_nhanvien.columns)}")
print(f"   - Kiểu dữ liệu:")
print(df_nhanvien.dtypes)

### 🔍 Các phương thức phát hiện dữ liệu thiếu trong pandas

Pandas cung cấp các phương thức chuyên dụng để **phát hiện và kiểm tra dữ liệu thiếu**:

| Phương thức | Mô tả | Trả về | Ví dụ sử dụng |
|-------------|-------|--------|---------------|
| `isna()` / `isnull()` | Kiểm tra từng phần tử có thiếu không | Boolean DataFrame/Series | `df.isna()` |
| `notna()` / `notnull()` | Kiểm tra từng phần tử có dữ liệu không | Boolean DataFrame/Series | `df.notna()` |
| `isna().sum()` | Đếm số lượng dữ liệu thiếu theo cột | Series với số lượng | `df.isna().sum()` |
| `isna().any()` | Kiểm tra có cột nào thiếu dữ liệu không | Boolean Series | `df.isna().any()` |

**📊 Hãy xem cách sử dụng các phương thức này với dữ liệu nhân viên:**

In [None]:
# 🔍 DEMO: Phát hiện dữ liệu thiếu trong DataFrame nhân viên
print("🔍 DEMO: Các phương thức phát hiện dữ liệu thiếu")
print("=" * 60)

# Sử dụng DataFrame từ cell trước
print("📋 DataFrame gốc:")
print(df_nhanvien)

print("\n" + "="*60)
print("1️⃣ KIỂM TRA TỪNG PHẦN TỬ CÓ THIẾU KHÔNG")
print("="*60)

# 1. Kiểm tra dữ liệu thiếu - trả về Boolean DataFrame
print("🔍 df_nhanvien.isna() - Kiểm tra từng ô có thiếu không:")
print(df_nhanvien.isna())

print("\n🔍 df_nhanvien.notna() - Kiểm tra từng ô có dữ liệu không:")
print(df_nhanvien.notna())

print("\n" + "="*60)
print("2️⃣ ĐẾM SỐ LƯỢNG DỮ LIỆU THIẾU THEO CỘT")
print("="*60)

# 2. Đếm số lượng dữ liệu thiếu theo từng cột
print("📊 df_nhanvien.isna().sum() - Số lượng missing values theo cột:")
missing_count = df_nhanvien.isna().sum()
print(missing_count)

# Tính phần trăm missing
print("\n📈 Tỷ lệ missing values (%):")
missing_percent = (missing_count / len(df_nhanvien)) * 100
print(missing_percent.round(2))

print("\n" + "="*60)
print("3️⃣ KIỂM TRA CỘT NÀO CÓ DỮ LIỆU THIẾU")
print("="*60)

# 3. Kiểm tra cột nào có dữ liệu thiếu
print("🔍 df_nhanvien.isna().any() - Cột nào có missing values:")
print(df_nhanvien.isna().any())

print("\n" + "="*60)
print("4️⃣ TỔNG SỐ DỮ LIỆU THIẾU")
print("="*60)

# 4. Tổng số dữ liệu thiếu trong toàn bộ DataFrame
total_missing = df_nhanvien.isna().sum().sum()
total_cells = df_nhanvien.shape[0] * df_nhanvien.shape[1]
missing_percentage = (total_missing / total_cells) * 100

print(f"📊 Tổng số missing values: {total_missing}")
print(f"📊 Tổng số ô dữ liệu: {total_cells}")
print(f"📊 Tỷ lệ missing: {missing_percentage:.1f}%")

### 🛠️ Các phương pháp xử lý dữ liệu thiếu trong kinh tế

**🎯 Có 3 cách chính để xử lý dữ liệu thiếu:**

#### 1️⃣ **Loại bỏ** (*Deletion*) 
- **Khi nào dùng**: Dữ liệu thiếu < 5%, thiếu ngẫu nhiên
- **Ví dụ**: Loại bỏ khách hàng không trả lời đầy đủ khảo sát
- **Ưu điểm**: Đơn giản, không tạo bias
- **Nhược điểm**: Giảm kích thước mẫu

#### 2️⃣ **Thay thế** (*Imputation*)
- **Khi nào dùng**: Dữ liệu thiếu 5-20%, có pattern
- **Ví dụ**: Thay thế lương thiếu bằng lương trung bình của phòng ban
- **Ưu điểm**: Giữ nguyên kích thước mẫu
- **Nhược điểm**: Có thể tạo bias

#### 3️⃣ **Dự đoán** (*Prediction*)
- **Khi nào dùng**: Dữ liệu thiếu > 20%, có mối quan hệ phức tạp
- **Ví dụ**: Dùng machine learning để dự đoán thu nhập dựa trên các yếu tố khác
- **Ưu điểm**: Chính xác cao
- **Nhược điểm**: Phức tạp, cần hiểu biết về ML

**⚖️ Hướng dẫn lựa chọn phương pháp:**

| Tỷ lệ thiếu | Loại dữ liệu | Phương pháp khuyến nghị |
|-------------|--------------|------------------------|
| < 5% | Bất kỳ | Loại bỏ |
| 5-20% | Số | Mean/Median |
| 5-20% | Phân loại | Mode |
| > 20% | Có quan hệ | Machine Learning |

#### **Phương pháp 1: Loại bỏ dữ liệu thiếu (`dropna`)**

Phương thức `dropna()` cho phép loại bỏ các hàng hoặc cột có dữ liệu thiếu:

**📋 Các tham số quan trọng của `dropna()`:**

| Tham số | Giá trị | Mô tả |
|---------|---------|-------|
| `axis` | 0 (default) / 1 | 0: loại bỏ hàng, 1: loại bỏ cột |
| `how` | 'any' (default) / 'all' | 'any': có ít nhất 1 NaN, 'all': toàn bộ là NaN |
| `subset` | list | Chỉ xét dữ liệu thiếu trong các cột được chỉ định |
| `thresh` | int | Số lượng giá trị không null tối thiểu cần có |

In [None]:
# Import các thư viện cần thiết
import pandas as pd
import numpy as np

# Tạo DataFrame mẫu với dữ liệu thiếu
data_missing = {
    'Tên': ['An', 'Bình', 'Chi', 'Dũng', 'Eva'],
    'Tuổi': [25, None, 30, 28, None],
    'Lương': [15000000, 18000000, None, 22000000, 16000000],
    'Phòng ban': ['IT', 'Marketing', None, 'IT', 'Marketing']
}

df_missing = pd.DataFrame(data_missing)
print("DataFrame với dữ liệu thiếu:")
print(df_missing)

# 1. Loại bỏ tất cả hàng có ít nhất 1 giá trị thiếu
print("1. Loại bỏ hàng có dữ liệu thiếu (how='any'):")
df_drop_any = df_missing.dropna()
print(df_drop_any)
print(f"Số hàng còn lại: {len(df_drop_any)}")

# 2. Loại bỏ hàng chỉ khi TẤT CẢ giá trị đều thiếu
print("2. Loại bỏ hàng khi tất cả giá trị đều thiếu (how='all'):")
df_drop_all = df_missing.dropna(how='all')
print(df_drop_all)
print(f"Số hàng còn lại: {len(df_drop_all)}")

# 3. Loại bỏ cột có dữ liệu thiếu
print("3. Loại bỏ cột có dữ liệu thiếu (axis=1):")
df_drop_cols = df_missing.dropna(axis=1)
print(df_drop_cols)
print(f"Số cột còn lại: {len(df_drop_cols.columns)}")

#### **Phương pháp 2: Thay thế dữ liệu thiếu (`fillna`)**

Phương thức `fillna()` cho phép **thay thế dữ liệu thiếu** bằng các giá trị cụ thể:

**🔧 Các chiến lược thay thế phổ biến:**

| Chiến lược | Ứng dụng | Ví dụ |
|------------|----------|-------|
| **Giá trị cố định** | Thay thế bằng một giá trị nhất định | `fillna(0)`, `fillna('Unknown')` |
| **Giá trị trung bình** | Dữ liệu số, phân phối chuẩn | `fillna(df['col'].mean())` |
| **Giá trị trung vị** | Dữ liệu số, có outliers | `fillna(df['col'].median())` |
| **Giá trị phổ biến nhất** | Dữ liệu phân loại | `fillna(df['col'].mode()[0])` |
| **Forward fill** | Dữ liệu chuỗi thời gian | `fillna(method='ffill')` |
| **Backward fill** | Dữ liệu chuỗi thời gian | `fillna(method='bfill')` |

**📊 Hãy xem các ví dụ cụ thể:**

In [None]:
# Import các thư viện cần thiết
import pandas as pd
import numpy as np

# Tạo DataFrame mẫu với dữ liệu thiếu
data_missing = {
    'Tên': ['An', 'Bình', 'Chi', 'Dũng', 'Eva'],
    'Tuổi': [25, None, 30, 28, None],
    'Lương': [15000000, 18000000, None, 22000000, 16000000],
    'Phòng ban': ['IT', 'Marketing', None, 'IT', 'Marketing']
}

df_missing = pd.DataFrame(data_missing)
print("DataFrame với dữ liệu thiếu:")
print(df_missing)

# 1. Thay thế bằng giá trị cố định
print("\n1. Thay thế bằng giá trị cố định:")
df_fill_fixed = df_missing.fillna({'Tuổi': 0, 'Lương': 0, 'Phòng ban': 'Chưa xác định'})
print(df_fill_fixed)

# 2. Thay thế bằng giá trị trung bình (cho dữ liệu số)
print("\n2. Thay thế bằng giá trị trung bình:")
df_fill_mean = df_missing.copy()
df_fill_mean['Tuổi'] = df_fill_mean['Tuổi'].fillna(df_fill_mean['Tuổi'].mean())
df_fill_mean['Lương'] = df_fill_mean['Lương'].fillna(df_fill_mean['Lương'].mean())
print(df_fill_mean)
print(f"Tuổi trung bình: {df_missing['Tuổi'].mean():.1f}")
print(f"Lương trung bình: {df_missing['Lương'].mean():,.0f}")

# 3. Thay thế bằng giá trị trung vị (bền vững với outliers)
print("\n3. Thay thế bằng giá trị trung vị:")
df_fill_median = df_missing.copy()
df_fill_median['Tuổi'] = df_fill_median['Tuổi'].fillna(df_fill_median['Tuổi'].median())
df_fill_median['Lương'] = df_fill_median['Lương'].fillna(df_fill_median['Lương'].median())
print(df_fill_median)

# 4. Thay thế bằng giá trị phổ biến nhất (mode) - cho dữ liệu phân loại
print("\n4. Thay thế bằng giá trị phổ biến nhất (mode):")
df_fill_mode = df_missing.copy()
df_fill_mode['Phòng ban'] = df_fill_mode['Phòng ban'].fillna(df_fill_mode['Phòng ban'].mode()[0])
print(df_fill_mode)
print(f"Phòng ban phổ biến nhất: {df_missing['Phòng ban'].mode()[0]}")

#### Phương pháp 3: Sử dụng mô hình dự đoán

Sử dụng các mô hình **dự đoán** để ước lượng giá trị thiếu.

**🔧 Các chiến lược thay thế phổ biến:**

| Chiến lược | Ứng dụng | Ví dụ |
|------------|----------|-------|
| **Hồi quy** | Dữ liệu số | Sử dụng hồi quy tuyến tính để dự đoán giá trị |
| **Phân loại** | Dữ liệu phân loại | Sử dụng cây quyết định để phân loại giá trị |
| **Phân tích thống kê** | Dữ liệu số | Sử dụng thống kê để dự đoán giá trị |

**📊 Hãy xem các ví dụ cụ thể:**

**🤖 Khi nào sử dụng Machine Learning cho Missing Values:**

- **Dữ liệu có mối quan hệ phức tạp**: Các biến có correlation cao với nhau
- **Dữ liệu missing không ngẫu nhiên**: Missing data có pattern đặc biệt
- **Dữ liệu quan trọng**: Không muốn mất thông tin bằng cách loại bỏ
- **Yêu cầu độ chính xác cao**: Muốn dự đoán chính xác nhất có thể

**⚡ Các kỹ thuật Machine Learning phổ biến:**

- **Regression**: Dự đoán giá trị số (Linear, Random Forest, XGBoost)
- **Classification**: Dự đoán giá trị phân loại (Decision Tree, SVM)
- **Clustering**: Nhóm các quan sát tương tự (K-Means, DBSCAN)
- **Deep Learning**: Neural Networks cho dữ liệu phức tạp

**🎯 Ưu điểm và nhược điểm:**

✅ **Ưu điểm:**
- Độ chính xác cao hơn mean/median/mode
- Tận dụng được mối quan hệ giữa các biến
- Linh hoạt với nhiều loại dữ liệu

❌ **Nhược điểm:**
- Phức tạp, cần hiểu biết về ML
- Tốn thời gian training
- Có thể overfitting nếu không cẩn thận

In [None]:
# Import các thư viện cần thiết cho machine learning
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.impute import KNNImputer
import pandas as pd
import numpy as np

# Tạo DataFrame mẫu với dữ liệu thiếu phức tạp hơn
print("📊 Tạo dữ liệu mẫu cho các ví dụ Machine Learning:")

data_advanced = {
    'Tên': ['An', 'Bình', 'Chi', 'Dũng', 'Eva', 'Phong', 'Giang', 'Hoa'],
    'Tuổi': [25, None, 30, 28, None, 35, None, 32],
    'Lương': [15000000, 18000000, None, 22000000, 16000000, None, 25000000, None],
    'Phòng ban': ['IT', 'Marketing', None, 'IT', 'Marketing', 'IT', 'HR', 'HR'],
    'Kinh nghiệm': [2, 5, 7, 3, 1, 10, 8, 6]
}

df_advanced = pd.DataFrame(data_advanced)
print("Dữ liệu gốc:")
print(df_advanced)
print(f"\n📈 Tỷ lệ missing data:")
missing_percent = (df_advanced.isnull().sum() / len(df_advanced)) * 100
print(missing_percent[missing_percent > 0])

#### **A. Random Forest Regression - Dự đoán giá trị số**

**🌲 Random Forest là gì?**

Random Forest là thuật toán **ensemble learning** kết hợp nhiều **Decision Trees**:

- **Ensemble**: Kết hợp nhiều mô hình yếu thành một mô hình mạnh
- **Bootstrap Aggregating**: Mỗi tree được train trên một subset ngẫu nhiên của dữ liệu
- **Feature Randomness**: Mỗi split chỉ xét một subset ngẫu nhiên của features
- **Voting**: Kết quả cuối cùng là trung bình của tất cả trees (regression) hoặc vote đa số (classification)

**🎯 Ưu điểm của Random Forest:**
- **Robust**: Ít bị overfitting nhờ averaging nhiều trees
- **Handle Missing Values**: Có thể xử lý missing values trong quá trình training
- **Feature Importance**: Cung cấp thông tin về tầm quan trọng của từng feature
- **Non-linear**: Có thể học được các mối quan hệ phi tuyến phức tạp

**⚙️ Các tham số quan trọng:**
- `n_estimators`: Số lượng trees (default=100)
- `max_depth`: Độ sâu tối đa của tree
- `min_samples_split`: Số sample tối thiểu để split node
- `random_state`: Seed cho reproducibility

In [None]:
print("🎯 DEMO 1: Dự đoán Tuổi dựa trên Lương, Phòng ban và Kinh nghiệm")
print("="*70)

# Bước 1: Chuẩn bị dữ liệu
df_predict_age = df_advanced.copy()

# Encode categorical data (Phòng ban)
le_dept = LabelEncoder()
df_predict_age['Phòng ban_encoded'] = le_dept.fit_transform(df_predict_age['Phòng ban'].fillna('Unknown'))

print("📋 Mapping Phòng ban:")
dept_mapping = dict(zip(le_dept.classes_, le_dept.transform(le_dept.classes_)))
print(dept_mapping)

# Bước 2: Tách dữ liệu train và missing
train_data = df_predict_age[df_predict_age['Tuổi'].notna()]
missing_data = df_predict_age[df_predict_age['Tuổi'].isna()]

print(f"\n📊 Dữ liệu train: {len(train_data)} samples")
print(f"📊 Dữ liệu cần dự đoán: {len(missing_data)} samples")

if len(train_data) > 0 and len(missing_data) > 0:
    # Bước 3: Chuẩn bị features và target
    features = ['Lương', 'Phòng ban_encoded', 'Kinh nghiệm']
    X_train = train_data[features].fillna(0)  # Fillna tạm thời cho missing features
    y_train = train_data['Tuổi']
    
    print(f"\n🔧 Features sử dụng: {features}")
    print("📈 Training data:")
    print(X_train)
    print(f"\n🎯 Target (Tuổi):")
    print(y_train.values)
    
    # Bước 4: Training model
    model_age = RandomForestRegressor(n_estimators=10, random_state=42, max_depth=3)
    model_age.fit(X_train, y_train)
    
    # Bước 5: Dự đoán
    X_missing = missing_data[features].fillna(0)
    predicted_ages = model_age.predict(X_missing)
    
    print(f"\n🔮 Dự đoán cho {len(missing_data)} samples:")
    for i, (idx, row) in enumerate(missing_data.iterrows()):
        print(f"   {row['Tên']}: {predicted_ages[i]:.1f} tuổi")
    
    # Bước 6: Cập nhật dữ liệu
    df_predict_age.loc[df_predict_age['Tuổi'].isna(), 'Tuổi'] = predicted_ages
    
    print(f"\n✅ Kết quả cuối cùng:")
    print(df_predict_age[['Tên', 'Tuổi', 'Lương', 'Phòng ban', 'Kinh nghiệm']])

In [None]:
print("\n🎯 DEMO 2: Dự đoán Lương dựa trên Tuổi, Phòng ban và Kinh nghiệm") 
print("="*70)

# Sử dụng dữ liệu gốc (chưa có Tuổi được dự đoán)
df_predict_salary = df_advanced.copy()
df_predict_salary['Phòng ban_encoded'] = le_dept.fit_transform(df_predict_salary['Phòng ban'].fillna('Unknown'))

# Tách dữ liệu train và missing cho Lương
train_salary = df_predict_salary[df_predict_salary['Lương'].notna()]
missing_salary = df_predict_salary[df_predict_salary['Lương'].isna()]

print(f"📊 Dữ liệu train: {len(train_salary)} samples")
print(f"📊 Dữ liệu cần dự đoán: {len(missing_salary)} samples")

if len(train_salary) > 0 and len(missing_salary) > 0:
    # Features cho dự đoán lương
    salary_features = ['Tuổi', 'Phòng ban_encoded', 'Kinh nghiệm'] 
    X_train_salary = train_salary[salary_features].fillna(0)
    y_train_salary = train_salary['Lương']
    
    print(f"\n🔧 Features sử dụng: {salary_features}")
    print("📈 Training data:")
    combined_train = pd.concat([X_train_salary, y_train_salary], axis=1)
    print(combined_train)
    
    # Training model cho lương
    model_salary = RandomForestRegressor(n_estimators=10, random_state=42, max_depth=3)
    model_salary.fit(X_train_salary, y_train_salary)
    
    # Feature importance
    importance = model_salary.feature_importances_
    print(f"\n📊 Feature Importance:")
    for feature, imp in zip(salary_features, importance):
        print(f"   {feature}: {imp:.3f}")
    
    # Dự đoán lương
    X_missing_salary = missing_salary[salary_features].fillna(0)
    predicted_salaries = model_salary.predict(X_missing_salary)
    
    print(f"\n🔮 Dự đoán lương:")
    for i, (idx, row) in enumerate(missing_salary.iterrows()):
        print(f"   {row['Tên']}: {predicted_salaries[i]:,.0f} VND")
    
    # Cập nhật dữ liệu
    df_predict_salary.loc[df_predict_salary['Lương'].isna(), 'Lương'] = predicted_salaries
    
    print(f"\n✅ Kết quả cuối cùng:")
    print(df_predict_salary[['Tên', 'Tuổi', 'Lương', 'Phòng ban', 'Kinh nghiệm']])

#### **B. KNN Imputation - K-Nearest Neighbors**

**🔍 KNN Imputation là gì?**

KNN Imputation sử dụng thuật toán **K-Nearest Neighbors** để điền missing values:

1. **Tìm K neighbors gần nhất**: Dựa trên khoảng cách Euclidean trong không gian features
2. **Tính giá trị trung bình**: Lấy trung bình của K neighbors (cho số) hoặc mode (cho categorical)
3. **Điền vào missing values**: Thay thế missing value bằng giá trị được tính

**📏 Công thức khoảng cách Euclidean:**

$$d(x_i, x_j) = \sqrt{\sum_{k=1}^{n} (x_{ik} - x_{jk})^2}$$

**🎯 Ưu điểm của KNN Imputation:**
- **Preserve relationships**: Giữ nguyên mối quan hệ giữa các features
- **Non-parametric**: Không giả định về phân phối dữ liệu
- **Local patterns**: Tận dụng patterns cục bộ trong dữ liệu
- **Multivariate**: Xem xét tất cả features cùng lúc

**⚙️ Các tham số quan trọng:**
- `n_neighbors`: Số lượng neighbors (default=5)
- `weights`: 'uniform' hoặc 'distance' weighted
- `metric`: Phương pháp tính distance ('nan_euclidean' cho missing data)

In [None]:
print("🎯 DEMO 3: KNN Imputation - Điền tất cả missing values cùng lúc")
print("="*70)

# Chuẩn bị dữ liệu cho KNN
df_knn = df_advanced.copy()
print("📊 Dữ liệu trước KNN Imputation:")
print(df_knn)

# Encode categorical data
df_knn['Phòng ban_encoded'] = le_dept.fit_transform(df_knn['Phòng ban'].fillna('Unknown'))

# Chỉ lấy các cột số cho KNN Imputation
numerical_cols = ['Tuổi', 'Lương', 'Kinh nghiệm', 'Phòng ban_encoded']
df_numerical = df_knn[numerical_cols].copy()

print(f"\n🔧 Các cột số được sử dụng: {numerical_cols}")
print("📈 Ma trận dữ liệu số (có missing values):")
print(df_numerical)

# Hiển thị missing pattern
print(f"\n📊 Missing Data Pattern:")
missing_pattern = df_numerical.isnull()
print(missing_pattern)

# Áp dụng KNN Imputation
print(f"\n🤖 Áp dụng KNN Imputation với k=2 neighbors:")
knn_imputer = KNNImputer(n_neighbors=2, weights='uniform')
df_knn_filled = knn_imputer.fit_transform(df_numerical)

# Chuyển đổi lại thành DataFrame  
df_knn_result = df_knn.copy()
df_knn_result['Tuổi'] = df_knn_filled[:, 0]
df_knn_result['Lương'] = df_knn_filled[:, 1] 
df_knn_result['Kinh nghiệm'] = df_knn_filled[:, 2]

print(f"\n✅ Kết quả sau KNN Imputation:")
result_display = df_knn_result[['Tên', 'Tuổi', 'Lương', 'Phòng ban', 'Kinh nghiệm']].copy()
result_display['Tuổi'] = result_display['Tuổi'].round(1)
result_display['Lương'] = result_display['Lương'].round(0)
print(result_display)

# So sánh missing values trước và sau
print(f"\n📊 So sánh Missing Values:")
print(f"Trước: {df_knn[numerical_cols[:-1]].isnull().sum().sum()} missing values")
print(f"Sau: {pd.DataFrame(df_knn_filled[:, :-1]).isnull().sum().sum()} missing values")

#### **C. So sánh các phương pháp xử lý Missing Values**

**📊 Bảng tổng hợp so sánh:**

| Phương pháp | Độ phức tạp | Thời gian | Độ chính xác | Phù hợp với |
|-------------|-------------|-----------|--------------|-------------|
| **Mean/Median** | Thấp ⭐ | Nhanh ⚡⚡⚡ | Thấp 📊 | Dữ liệu đơn giản, missing ngẫu nhiên |
| **Mode** | Thấp ⭐ | Nhanh ⚡⚡⚡ | Thấp 📊 | Categorical data với ít categories |
| **Forward/Backward Fill** | Thấp ⭐ | Nhanh ⚡⚡⚡ | Trung bình 📊📊 | Time series data |
| **Random Forest** | Cao ⭐⭐⭐ | Chậm ⚡ | Cao 📊📊📊 | Dữ liệu có quan hệ phức tạp |
| **KNN Imputation** | Trung bình ⭐⭐ | Trung bình ⚡⚡ | Cao 📊📊📊 | Dữ liệu có local patterns |

**🎯 Hướng dẫn lựa chọn phương pháp:**

**📈 Dữ liệu số (Numerical):**
- **< 5% missing**: Mean/Median
- **5-20% missing + có correlation**: KNN hoặc Random Forest  
- **> 20% missing**: Cân nhắc loại bỏ cột hoặc thu thập thêm dữ liệu

**🏷️ Dữ liệu phân loại (Categorical):**
- **< 10% missing**: Mode
- **> 10% missing + có relationship**: Random Forest Classification
- **High cardinality**: Tạo category "Unknown"

**⏰ Dữ liệu thời gian (Time Series):**
- **Forward fill**: Cho dữ liệu stable (giá cổ phiếu)
- **Backward fill**: Cho dữ liệu có trend  
- **Interpolation**: Cho dữ liệu smooth

## Xử lý dữ liệu trùng lặp (Duplicate Data)

### Hiểu về dữ liệu trùng lặp

**🔄 Dữ liệu trùng lặp là gì?**

Dữ liệu trùng lặp (*duplicate data*) là những **hàng có giá trị giống hệt nhau** trên tất cả hoặc một số cột nhất định. Dữ liệu trùng lặp có thể xuất hiện do:

- **Lỗi nhập liệu**: Người dùng vô tình nhập cùng một thông tin nhiều lần
- **Lỗi hệ thống**: Hệ thống ghi nhận cùng một sự kiện nhiều lần  
- **Gộp dữ liệu**: Khi kết hợp nhiều nguồn dữ liệu có thông tin chồng chéo
- **Lỗi thu thập**: Cảm biến hoặc thiết bị ghi nhận dữ liệu bị lặp

**⚠️ Tác động của dữ liệu trùng lặp**

- **Thiên lệch phân tích**: Một quan sát được tính nhiều lần, làm méo mó kết quả
- **Giảm hiệu quả tính toán**: Xử lý dữ liệu thừa làm chậm thuật toán
- **Tăng kích thước dữ liệu**: Lãng phí bộ nhớ và không gian lưu trữ
- **Ảnh hưởng mô hình**: Machine learning có thể học sai từ dữ liệu lặp

In [None]:
import pandas as pd
import numpy as np

# Khởi tạo dữ liệu mẫu
duplicate_data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice'],
    'age': [25, 30, 35, 25],
    'city': ['New York', 'Los Angeles', 'Chicago', 'New York']
}

duplicate_data = pd.DataFrame(duplicate_data)

# In dữ liệu mẫu
print(duplicate_data)

### Các phương pháp phát hiện và xử lý dữ liệu trùng lặp trong pandas

Pandas cung cấp các phương thức để phát hiện và xử lý dữ liệu trùng lặp:

| Phương thức | Mô tả | Trả về |
|-------------|-------|--------|
| `duplicated()` | Kiểm tra từng hàng có bị trùng lặp không | Boolean Series |
| `drop_duplicates()` | Loại bỏ các hàng trùng lặp | DataFrame không trùng lặp |

**📊 Hãy xem cách sử dụng các phương thức này:**"

In [None]:
import pandas as pd
import numpy as np

# Khởi tạo dữ liệu mẫu
duplicate_data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice'],
    'age': [25, 30, 35, 25],
    'city': ['New York', 'Los Angeles', 'Chicago', 'New York']
}

duplicate_data = pd.DataFrame(duplicate_data)

# In dữ liệu mẫu
print(duplicate_data)

# Phát hiện duplicate rows
print("Phát hiện duplicate rows:")
print(duplicate_data.duplicated())

print("\nCác hàng bị duplicate:")
print(duplicate_data[duplicate_data.duplicated()])

print("\nĐếm số lượng duplicate:")
print(f"Tổng số duplicate: {duplicate_data.duplicated().sum()}")

print("\n Xử lý duplicate bằng cách loại bỏ:")
print(duplicate_data.drop_duplicates())

## Biến đổi và chuẩn hóa dữ liệu (Data Transformation)

### Tổng quan về biến đổi dữ liệu

**🔄 Biến đổi dữ liệu là gì?**

Biến đổi dữ liệu (*data transformation*) là quá trình **chuyển đổi dữ liệu** từ định dạng này sang định dạng khác để:

- **Cải thiện chất lượng dữ liệu**: Làm cho dữ liệu phù hợp hơn cho phân tích
- **Chuẩn hóa thang đo**: Đưa các biến về cùng một thang đo
- **Giảm nhiễu**: Loại bỏ các biến động không mong muốn
- **Tạo biến mới**: Kết hợp hoặc biến đổi biến hiện có để tạo thông tin mới

**🎯 Các mục tiêu chính:**

1. **Normalization**: Đưa dữ liệu về khoảng [0,1]
2. **Standardization**: Đưa dữ liệu về phân phối chuẩn (mean=0, std=1) 
3. **Scaling**: Điều chỉnh thang đo cho phù hợp
4. **Encoding**: Chuyển đổi dữ liệu phân loại thành số

**📋 Khi nào cần biến đổi dữ liệu:**

- Các biến có **đơn vị đo khác nhau** (VND, USD, kg, cm)
- Dữ liệu có **phạm vi giá trị chênh lệch lớn** (1-10 vs 1000-10000)
- Sử dụng **thuật toán nhạy cảm với thang đo** (KNN, SVM, Neural Networks)
- **Cải thiện hiệu suất** của mô hình machine learning

### Min-Max Normalization (Chuẩn hóa Min-Max)

**📐 Công thức Min-Max Normalization:**

$$X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}}$$

**🎯 Đặc điểm:**
- Đưa dữ liệu về khoảng **[0, 1]**
- **Bảo toàn phân phối** gốc của dữ liệu
- **Nhạy cảm với outliers** (giá trị ngoại lai)
- Phù hợp khi biết **giới hạn trên và dưới** của dữ liệu

**🔧 Sử dụng `MinMaxScaler` từ scikit-learn:**

In [None]:
# Import thư viện cần thiết cho chuẩn hóa
from sklearn.preprocessing import MinMaxScaler, StandardScaler
import pandas as pd
import numpy as np

# Tạo dữ liệu mẫu với các thang đo khác nhau
data_transform = {
    'Lương': [15000000, 25000000, 30000000, 18000000, 22000000],
    'Tuổi': [25, 35, 40, 28, 32],
    'Kinh nghiệm': [2, 8, 12, 3, 6]
}

df_transform = pd.DataFrame(data_transform)
print("Dữ liệu gốc:")
print(df_transform)

scaler = MinMaxScaler()
norm_data_scaled = df_transform.copy()
norm_data_scaled[['Lương', 'Tuổi', 'Kinh nghiệm']] = scaler.fit_transform(df_transform[['Lương', 'Tuổi', 'Kinh nghiệm']])

print("Min-Max Normalization (0-1):")
print(norm_data_scaled)

### Standard Scaler (Z-score Standardization)

**📊 Công thức Z-score Standardization:**

$$Z = \frac{X - \mu}{\sigma}$$

Trong đó:
- $X$ = giá trị gốc
- $\mu$ = giá trị trung bình (mean)
- $\sigma$ = độ lệch chuẩn (standard deviation)

**🎯 Đặc điểm:**
- Đưa dữ liệu về **phân phối chuẩn** với mean=0, std=1
- **Không bị ảnh hưởng** bởi outliers nhiều như Min-Max
- **Bảo toàn thông tin** về phân phối gốc
- Phù hợp với **các thuật toán giả định phân phối chuẩn** (Linear Regression, Logistic Regression)

**🔧 Sử dụng `StandardScaler` từ scikit-learn:**

In [None]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler
import pandas as pd
import numpy as np

# Tạo dữ liệu mẫu với các thang đo khác nhau
data_transform = {
    'Lương': [15000000, 25000000, 30000000, 18000000, 22000000],
    'Tuổi': [25, 35, 40, 28, 32],
    'Kinh nghiệm': [2, 8, 12, 3, 6]
}

# Áp dụng Standard Scaler
scaler_std = StandardScaler()

# Fit và transform dữ liệu
df_standard = df_transform.copy()
df_standard[['Lương', 'Tuổi', 'Kinh nghiệm']] = scaler_std.fit_transform(
    df_transform[['Lương', 'Tuổi', 'Kinh nghiệm']]
)

print("Dữ liệu sau Standard Scaling:")
print(df_standard)
print(f"\nMô tả thống kê sau standardization:")
print(df_standard.describe().round(4))

# Kiểm tra mean ≈ 0 và std ≈ 1
print(f"\nMean của các cột: {df_standard[['Lương', 'Tuổi', 'Kinh nghiệm']].mean().round(4).values}")
print(f"Std của các cột: {df_standard[['Lương', 'Tuổi', 'Kinh nghiệm']].std().round(4).values}")

### Robust Scaler (Sử dụng Median và IQR)

**📈 Công thức Robust Scaling:**

$$X_{robust} = \frac{X - X_{median}}{IQR}$$

Trong đó:
- $X_{median}$ = giá trị trung vị (median)
- $IQR$ = Interquartile Range = Q3 - Q1

**🛡️ Đặc điểm:**
- **Rất bền vững** (*robust*) trước outliers
- Sử dụng **median thay vì mean**, **IQR thay vì std**
- **Không bị méo** bởi các giá trị ngoại lai
- Phù hợp khi dữ liệu có **nhiều outliers**

**🎯 Khi nào sử dụng Robust Scaler:**
- **Dữ liệu có nhiều outliers** 
- **Không muốn loại bỏ outliers** nhưng vẫn cần chuẩn hóa
- **Dữ liệu không tuân theo phân phối chuẩn**

**🔧 Sử dụng `RobustScaler` từ scikit-learn:**

In [None]:
# Import RobustScaler
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler
import pandas as pd
import numpy as np


# Tạo dữ liệu có outliers
data_with_outliers = {
    'Lương': [15000000, 25000000, 30000000, 18000000, 22000000, 200000000],  # outlier: 200M
    'Tuổi': [25, 35, 40, 28, 32, 22],
    'Kinh nghiệm': [2, 8, 12, 3, 6, 1]
}

df_outliers = pd.DataFrame(data_with_outliers)
print("Dữ liệu có outliers:")
print(df_outliers)
print(f"\nMô tả thống kê:")
print(df_outliers.describe())

# So sánh 3 phương pháp scaling
print("\n" + "="*60)
print("SO SÁNH CÁC PHƯƠNG PHÁP SCALING VỚI OUTLIERS")
print("="*60)

# MinMax Scaler (bị ảnh hưởng mạnh bởi outliers)
scaler_minmax = MinMaxScaler()
scaled_minmax = scaler_minmax.fit_transform(df_outliers[['Lương', 'Tuổi', 'Kinh nghiệm']])
print("\n1. MinMax Scaler (bị ảnh hưởng bởi outliers):")
print(pd.DataFrame(scaled_minmax, columns=['Lương', 'Tuổi', 'Kinh nghiệm']))

# Standard Scaler (bị ảnh hưởng một phần bởi outliers)
scaler_std = StandardScaler()
scaled_std = scaler_std.fit_transform(df_outliers[['Lương', 'Tuổi', 'Kinh nghiệm']])
print("\n2. Standard Scaler (bị ảnh hưởng một phần):")
print(pd.DataFrame(scaled_std, columns=['Lương', 'Tuổi', 'Kinh nghiệm']))

# Robust Scaler (ít bị ảnh hưởng bởi outliers)
scaler_robust = RobustScaler()
scaled_robust = scaler_robust.fit_transform(df_outliers[['Lương', 'Tuổi', 'Kinh nghiệm']])
print("\n3. Robust Scaler (bền vững trước outliers):")
print(pd.DataFrame(scaled_robust, columns=['Lương', 'Tuổi', 'Kinh nghiệm']))

## Xử lý chuỗi ký tự (String Processing)

### Tầm quan trọng của việc xử lý chuỗi ký tự

**📝 Dữ liệu chuỗi ký tự trong thực tế**

Dữ liệu chuỗi ký tự (*string data*) chiếm một phần lớn trong các bộ dữ liệu thực tế:

- **Tên người, địa chỉ**: Thông tin cá nhân
- **Mô tả sản phẩm**: Trong thương mại điện tử
- **Bình luận, đánh giá**: Trong phân tích sentiment
- **Danh mục, nhãn**: Dữ liệu phân loại

**🧹 Các vấn đề thường gặp với dữ liệu chuỗi:**

1. **Không nhất quán về định dạng**: "iPhone", "iphone", "IPHONE"
2. **Khoảng trắng thừa**: "  Apple  ", "Apple "
3. **Ký tự đặc biệt**: "email@domain.com", "phone: +84-123-456-789"
4. **Viết tắt khác nhau**: "Dr.", "Doctor", "BS"
5. **Lỗi chính tả**: "Compnay" thay vì "Company"

**🔧 Pandas String Accessor (`.str`)**

Pandas cung cấp **accessor `.str`** cho phép áp dụng các phương thức xử lý chuỗi lên toàn bộ Series:

```python
# Thay vì làm thủ công từng phần tử
for i in range(len(df)):
    df.loc[i, 'column'] = df.loc[i, 'column'].upper()

# Sử dụng .str accessor
df['column'] = df['column'].str.upper()
```

### Các phương thức cơ bản xử lý chuỗi

**📋 Bảng tổng hợp các phương thức quan trọng:**

| Phương thức | Mô tả | Ví dụ |
|-------------|-------|-------|
| `.str.lower()` | Chuyển về chữ thường | `"HELLO"` → `"hello"` |
| `.str.upper()` | Chuyển về chữ hoa | `"hello"` → `"HELLO"` |
| `.str.title()` | Viết hoa chữ cái đầu | `"hello world"` → `"Hello World"` |
| `.str.strip()` | Loại bỏ khoảng trắng đầu/cuối | `"  hello  "` → `"hello"` |
| `.str.replace()` | Thay thế chuỗi con | `"hello"` → `"hi"` |
| `.str.contains()` | Kiểm tra chứa chuỗi con | `"hello world"` contains `"world"` → `True` |
| `.str.startswith()` | Kiểm tra bắt đầu bằng | `"hello"` startswith `"he"` → `True` |
| `.str.endswith()` | Kiểm tra kết thúc bằng | `"hello"` endswith `"lo"` → `True` |
| `.str.len()` | Độ dài chuỗi | `"hello"` → `5` |
| `.str.split()` | Tách chuỗi | `"a,b,c"` → `["a", "b", "c"]` |

**🔥 Hãy xem các ví dụ thực tế:**

In [None]:
import pandas as pd

# Chuyển đổi kiểu dữ liệu
sample_data = pd.DataFrame({
    'id': ['1', '2', '3', '4', '5'],
    'score': ['85.5', '90.0', '78.5', '92.0', '88.5'],
    'date': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05'],
    'category': ['A', 'B', 'A', 'C', 'B']
})

print("Dữ liệu gốc và kiểu dữ liệu:")
print(sample_data.dtypes)
print()
print(sample_data)

# Chuyển đổi kiểu dữ liệu
sample_data['id'] = sample_data['id'].astype('int64')
sample_data['score'] = sample_data['score'].astype('float64')
sample_data['date'] = pd.to_datetime(sample_data['date'])
sample_data['category'] = sample_data['category'].astype('category')

print("\nSau khi chuyển đổi kiểu dữ liệu:")
print(sample_data.dtypes)
print()
print(sample_data)

### Normalization và Standardization

Normalization và standardization là các kỹ thuật quan trọng để đưa dữ liệu về cùng một thang đo, đặc biệt hữu ích cho machine learning:

In [None]:
import pandas as pd
# Tạo dữ liệu mẫu cho normalization
norm_data = pd.DataFrame({
    'height': [150, 160, 170, 180, 190],  # cm
    'weight': [50, 60, 70, 80, 90],       # kg  
    'income': [30000, 45000, 60000, 75000, 90000]  # VND/month
})

print("Dữ liệu gốc:")
print(norm_data)
print("\nMô tả thống kê:")
print(norm_data.describe())

### Regular Expressions (Regex) cho xử lý chuỗi nâng cao

**🔍 Regular Expressions là gì?**

Regular Expressions (*regex*) là **ngôn ngữ pattern matching** mạnh mẽ để tìm kiếm và thao tác với chuỗi ký tự:

**📋 Các ký tự đặc biệt thường dùng:**

| Pattern | Mô tả | Ví dụ |
|---------|-------|-------|
| `\d` | Số (0-9) | `"abc123"` → tìm thấy `"123"` |
| `\w` | Ký tự từ (a-z, A-Z, 0-9, _) | `"hello_123"` → tìm thấy tất cả |
| `\s` | Khoảng trắng | `"a b c"` → tìm thấy 2 spaces |
| `+` | 1 hoặc nhiều lần | `\d+` → `"123"` (nhiều số liên tiếp) |
| `*` | 0 hoặc nhiều lần | `\d*` → có thể không có số |
| `?` | 0 hoặc 1 lần | `\d?` → tối đa 1 số |
| `[]` | Nhóm ký tự | `[0-9]` tương đương `\d` |
| `^` | Bắt đầu chuỗi | `^Hello` → chuỗi bắt đầu bằng "Hello" |
| `$` | Kết thúc chuỗi | `world$` → chuỗi kết thúc bằng "world" |

**🔧 Sử dụng regex với pandas `.str` accessor:**

- `.str.contains(pattern)` - kiểm tra chứa pattern
- `.str.extract(pattern)` - trích xuất groups từ pattern  
- `.str.replace(pattern, replacement, regex=True)` - thay thế với regex
- `.str.findall(pattern)` - tìm tất cả matches

**📱 Ví dụ thực tế: Xử lý số điện thoại, email, mã zip**

In [None]:
import pandas as pd

# Tạo dữ liệu mẫu với các patterns phức tạp
data_regex = {
    'text': [
        'Liên hệ: 0123-456-789 hoặc email: john@gmail.com',
        'SDT: +84 98 765 4321, địa chỉ: 123 Lê Lợi, Q1, TP.HCM', 
        'Phone: (024) 3825-7863, email: info@company.vn',
        'Mobile: 0987654321, website: https://example.com',
        'Hotline: 1900-1234, fax: (028) 3829-5678'
    ]
}

df_regex = pd.DataFrame(data_regex)
print("Dữ liệu gốc:")
print(df_regex)

# 1. Trích xuất số điện thoại
print("\n1. Trích xuất số điện thoại:")
phone_pattern = r'(\+?\d{1,3}[\s\-]?)?\(?0?\d{2,3}\)?[\s\-]?\d{3,4}[\s\-]?\d{3,4}'
df_regex['phone'] = df_regex['text'].str.extract(phone_pattern, expand=False)
print(df_regex[['text', 'phone']])

# 2. Trích xuất email
print("\n2. Trích xuất email:")
email_pattern = r'([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})'
df_regex['email'] = df_regex['text'].str.extract(email_pattern, expand=False)
print(df_regex[['text', 'email']])

# 3. Kiểm tra chứa website
print("\n3. Kiểm tra chứa website/URL:")
url_pattern = r'https?://[^\s]+'
df_regex['has_url'] = df_regex['text'].str.contains(url_pattern, regex=True)
print(df_regex[['text', 'has_url']])

# 4. Làm sạch và chuẩn hóa số điện thoại
print("\n4. Chuẩn hóa số điện thoại:")
def clean_phone(text):
    # Tìm tất cả số điện thoại
    phones = str(text).replace('nan', '')
    # Chỉ giữ lại số
    cleaned = ''.join(filter(str.isdigit, phones))
    # Format lại nếu có đủ số
    if len(cleaned) >= 10:
        if cleaned.startswith('84'):
            return f"+84-{cleaned[2:5]}-{cleaned[5:8]}-{cleaned[8:]}"
        elif cleaned.startswith('0'):
            return f"{cleaned[:4]}-{cleaned[4:7]}-{cleaned[7:]}"
    return cleaned if cleaned else None

df_regex['phone_clean'] = df_regex['phone'].apply(clean_phone)
print(df_regex[['phone', 'phone_clean']])

## Xử lý dữ liệu phân loại (Categorical Data)

### Hiểu về dữ liệu phân loại

**🏷️ Dữ liệu phân loại là gì?**

Dữ liệu phân loại (*categorical data*) là loại dữ liệu có **số lượng giá trị hữu hạn** và thường được biểu diễn bằng **nhãn hoặc tên**:

**📊 Các loại dữ liệu phân loại:**

1. **Nominal** (Danh nghĩa): Không có thứ tự
   - Giới tính: Nam, Nữ, Khác
   - Màu sắc: Đỏ, Xanh, Vàng
   - Quốc gia: Việt Nam, Mỹ, Nhật Bản

2. **Ordinal** (Thứ tự): Có thứ tự ý nghĩa
   - Học vị: Cử nhân < Thạc sĩ < Tiến sĩ
   - Đánh giá: Kém < Trung bình < Tốt < Xuất sắc
   - Kích cỡ: S < M < L < XL

**🔧 Xử lý dữ liệu phân loại trong pandas:**

- **Kiểu `category`**: Pandas có kiểu dữ liệu chuyên dụng cho categorical data
- **Memory efficient**: Tiết kiệm bộ nhớ khi có nhiều giá trị lặp lại
- **Performance**: Tăng tốc các phép toán groupby và merge
- **Validation**: Kiểm soát các giá trị hợp lệ

**⚙️ Khi nào sử dụng kiểu `category`:**

- Cột có **ít giá trị duy nhất** so với tổng số hàng
- **Nhiều giá trị lặp lại** (high cardinality)
- Muốn **kiểm soát các giá trị** có thể xuất hiện
- Cần **tối ưu hóa bộ nhớ** và hiệu suất

### Label Encoding - Mã hóa nhãn

**🔢 Label Encoding là gì?**

Label Encoding là kỹ thuật chuyển đổi dữ liệu phân loại thành **số nguyên tuần tự**:

- `"Apple"` → `0`
- `"Banana"` → `1` 
- `"Cherry"` → `2`

**✅ Ưu điểm:**
- **Đơn giản**: Dễ hiểu và triển khai
- **Tiết kiệm bộ nhớ**: Chỉ cần 1 cột
- **Phù hợp với dữ liệu ordinal**: Bảo toàn thứ tự

**❌ Nhược điểm:**
- **Tạo thứ tự giả tạo**: Apple < Banana < Cherry (không đúng)
- **Không phù hợp với nominal data**: Các thuật toán có thể hiểu sai quan hệ
- **Bias trong mô hình**: Giá trị lớn hơn có thể được coi là "quan trọng" hơn

**🎯 Khi nào sử dụng Label Encoding:**
- **Dữ liệu ordinal** có thứ tự tự nhiên
- **Tree-based algorithms** (Decision Tree, Random Forest) - ít bị ảnh hưởng bởi thứ tự
- **Target variable** trong classification tasks

In [None]:
import pandas as pd 

# Tạo dữ liệu categorical để demo One-Hot Encoding
data_categorical = {
    'Tên': ['An', 'Bình', 'Chi', 'Dũng', 'Eva'],
    'Phòng ban': ['IT', 'Marketing', 'IT', 'HR', 'Marketing'],
    'Trình độ': ['Cử nhân', 'Thạc sĩ', 'Cử nhân', 'Tiến sĩ', 'Thạc sĩ'],
    'Thành phố': ['Hà Nội', 'TP.HCM', 'Hà Nội', 'Đà Nẵng', 'TP.HCM']
}

df_categorical = pd.DataFrame(data_categorical)
print("Dữ liệu categorical gốc:")
print(df_categorical)

print("Sử dụng Label Encoding đối với dữ liệu categorical:")

from sklearn.preprocessing import LabelEncoder

# Khởi tạo LabelEncoder
label_encoder = LabelEncoder()

# Áp dụng Label Encoding cho từng cột categorical
for col in ['Phòng ban', 'Trình độ', 'Thành phố']:
    df_categorical[col] = label_encoder.fit_transform(df_categorical[col])
    print(f"Các categoricals đã được mã hóa đối với {col}: {label_encoder.classes_}")

print("Kết quả Label Encoding:")
print(df_categorical)

### **One-Hot Encoding - Mã hóa One-Hot**

**🔥 One-Hot Encoding là gì?**

One-Hot Encoding tạo ra **binary columns** cho mỗi category:

**Ví dụ:** `["Apple", "Banana", "Cherry"]` → 

| Apple | Banana | Cherry |
|-------|--------|--------|
| 1     | 0      | 0      |
| 0     | 1      | 0      |
| 0     | 0      | 1      |

**✅ Ưu điểm:**
- **Không tạo thứ tự giả tạo**: Tất cả categories đều bình đẳng
- **Phù hợp với nominal data**: Apple ≠ Banana ≠ Cherry
- **Hoạt động tốt** với hầu hết machine learning algorithms
- **Tránh bias**: Không có category nào được coi là "quan trọng" hơn

**❌ Nhược điểm:**
- **Curse of dimensionality**: Tăng số lượng features đáng kể  
- **Sparse matrix**: Nhiều giá trị 0, tốn bộ nhớ
- **Multicollinearity**: Các cột có correlation với nhau

**🎯 Khi nào sử dụng One-Hot Encoding:**
- **Dữ liệu nominal** không có thứ tự tự nhiên
- **Ít categories** (< 10-15 giá trị duy nhất)
- **Linear algorithms** (Linear/Logistic Regression, SVM)
- **Neural Networks**

In [None]:
import pandas as pd 

# Tạo dữ liệu categorical để demo One-Hot Encoding
data_categorical = {
    'Tên': ['An', 'Bình', 'Chi', 'Dũng', 'Eva'],
    'Phòng ban': ['IT', 'Marketing', 'IT', 'HR', 'Marketing'],
    'Trình độ': ['Cử nhân', 'Thạc sĩ', 'Cử nhân', 'Tiến sĩ', 'Thạc sĩ'],
    'Thành phố': ['Hà Nội', 'TP.HCM', 'Hà Nội', 'Đà Nẵng', 'TP.HCM']
}

df_categorical = pd.DataFrame(data_categorical)
print("Dữ liệu categorical gốc:")
print(df_categorical)

print("PHƯƠNG PHÁP 1: SỬ DỤNG pandas.get_dummies()")

# Phương pháp 1: Sử dụng pandas.get_dummies()
df_onehot_pandas = pd.get_dummies(df_categorical, 
                                  columns=['Phòng ban', 'Trình độ', 'Thành phố'],
                                  prefix=['PB', 'TD', 'TP'])

print("Kết quả One-Hot Encoding với pandas:")
print(df_onehot_pandas)

print(f"\nSố cột trước: {len(df_categorical.columns)}")
print(f"Số cột sau: {len(df_onehot_pandas.columns)}")

print("PHƯƠNG PHÁP 2: SỬ DỤNG sklearn.OneHotEncoder")

from sklearn.preprocessing import OneHotEncoder

# Phương pháp 2: Sử dụng sklearn OneHotEncoder
encoder = OneHotEncoder(sparse_output=False, drop='first')  # drop='first' để tránh multicollinearity

# Chỉ encode các cột categorical (bỏ qua cột 'Tên')
categorical_cols = ['Phòng ban', 'Trình độ', 'Thành phố']
encoded_data = encoder.fit_transform(df_categorical[categorical_cols])

# Tạo tên cột cho kết quả
feature_names = encoder.get_feature_names_out(categorical_cols)

# Tạo DataFrame mới
df_onehot_sklearn = pd.DataFrame(encoded_data, columns=feature_names)
df_onehot_sklearn = pd.concat([df_categorical[['Tên']], df_onehot_sklearn], axis=1)

print("Kết quả One-Hot Encoding với sklearn:")
print(df_onehot_sklearn)

print(f"\nLưu ý: sklearn với drop='first' giảm số cột để tránh multicollinearity")

## Câu hỏi ôn tập

**📝 Hãy trả lời các câu hỏi sau để kiểm tra hiểu biết của bạn:**

| **Phương thức nào dùng để phát hiện dữ liệu thiếu trong pandas?** | |
|---|---|
| `isna()` hoặc `isnull()` | |
| `missing()` | |
| `empty()` | |
| `nan_check()` | |

| **Phương thức `fillna()` được sử dụng để làm gì?** | |
|---|---|
| Loại bỏ dữ liệu thiếu | |
| Thay thế dữ liệu thiếu | |
| Phát hiện dữ liệu thiếu | |
| Đếm dữ liệu thiếu | |

| **MinMaxScaler đưa dữ liệu về khoảng giá trị nào?** | |
|---|---|
| [-1, 1] | |
| [0, 1] | |
| [0, 100] | |
| [-100, 100] | |

| **Phương thức nào dùng để loại bỏ hàng trùng lặp?** | |
|---|---|
| `remove_duplicates()` | |
| `drop_duplicates()` | |
| `delete_duplicates()` | |
| `unique()` | |

| **Trong pandas, để chuyển chuỗi về chữ thường ta sử dụng?** | |
|---|---|
| `.str.lowercase()` | |
| `.str.lower()` | |
| `.str.downcase()` | |
| `.str.small()` | |

| **Label Encoding phù hợp nhất với loại dữ liệu nào?** | |
|---|---|
| Dữ liệu số liên tục | |
| Dữ liệu nominal | |
| Dữ liệu ordinal | |
| Dữ liệu thời gian | |

| **StandardScaler chuẩn hóa dữ liệu có Mean và Standard Deviation là bao nhiêu?** | |
|---|---|
| Mean=1, Std=0 | |
| Mean=0, Std=1 | |
| Mean=0.5, Std=0.5 | |
| Mean=100, Std=10 | |

| **Khi nào nên sử dụng RobustScaler thay vì MinMaxScaler?** | |
|---|---|
| Khi dữ liệu có nhiều outliers | |
| Khi dữ liệu đã chuẩn hóa | |
| Khi dữ liệu là categorical | |
| Khi dữ liệu có kích thước nhỏ | |