# 📊 Bài tập thực hành: Làm sạch và chuẩn bị dữ liệu

## 🎯 Mục tiêu bài tập

Sau khi hoàn thành các bài tập này, bạn sẽ có thể:

✅ **Thực hành phát hiện và xử lý dữ liệu thiếu** trong các tình huống kinh tế thực tế  
✅ **Làm sạch dữ liệu trùng lặp** từ khảo sát khách hàng  
✅ **Chuẩn hóa dữ liệu** để phù hợp với phân tích  
✅ **Xử lý dữ liệu chuỗi ký tự** từ nhiều nguồn khác nhau  
✅ **Mã hóa dữ liệu phân loại** cho machine learning  

---

## 📋 Cấu trúc bài tập

**Phần 1: Xử lý dữ liệu thiếu** (3 bài)
- Bài 1.1: Phát hiện dữ liệu thiếu
- Bài 1.2: Loại bỏ dữ liệu thiếu (dropna)
- Bài 1.3: Thay thế dữ liệu thiếu (fillna)

**Phần 2: Xử lý dữ liệu trùng lặp** (1 bài)
- Bài 2.1: Phát hiện và xử lý duplicates

**Phần 3: Biến đổi và chuẩn hóa** (3 bài)
- Bài 3.1: Min-Max Normalization
- Bài 3.2: Z-score Standardization  
- Bài 3.3: Robust Scaler và outliers

**Phần 4: Xử lý chuỗi ký tự** (2 bài)
- Bài 4.1: Xử lý chuỗi cơ bản
- Bài 4.2: Regular Expressions

**Phần 5: Xử lý dữ liệu phân loại** (2 bài)
- Bài 5.1: Label Encoding
- Bài 5.2: One-Hot Encoding

**Phần 6: Bài tập tổng hợp** (1 bài)
- Bài 6.1: Dự án làm sạch dữ liệu hoàn chỉnh

---

## ⚠️ Lưu ý quan trọng

> **💡 Cho sinh viên Kinh tế:** Các bài tập này được thiết kế dựa trên các tình huống thực tế trong kinh doanh và nghiên cứu kinh tế.

> **🔧 Tương thích:** Notebook này hoạt động tốt trên cả **Jupyter Notebook**, **JupyterLab**, và **Google Colab**.

> **📚 Tham khảo:** Hãy xem lại **Lecture 5** trước khi làm bài tập để hiểu rõ lý thuyết.

## 🛠️ Thiết lập môi trường

Trước khi bắt đầu làm bài tập, hãy đảm bảo bạn đã cài đặt các thư viện cần thiết:

**📦 Cài đặt thư viện (chạy cell này nếu bạn đang sử dụng Google Colab):**


In [None]:
# Cài đặt thư viện cho Google Colab (bỏ qua nếu đã cài đặt)
try:
    import pandas as pd
    import numpy as np
    from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler, LabelEncoder, OneHotEncoder
    print("✅ Tất cả thư viện đã sẵn sàng!")
    print("🚀 Bạn có thể bắt đầu làm bài tập!")
except ImportError as e:
    print(f"❌ Thiếu thư viện: {e}")
    print("🔧 Đang cài đặt...")
    import subprocess
    import sys
    
    # Cài đặt các thư viện cần thiết
    packages = ['pandas', 'numpy', 'scikit-learn']
    for package in packages:
        subprocess.check_call([sys.executable, '-m', 'pip', 'install', package])
    
    print("✅ Cài đặt hoàn tất! Vui lòng restart kernel và chạy lại cell này.")


# 🔍 Phần 1: Xử lý dữ liệu thiếu (Missing Data)

## Bài 1.1 - Phát hiện dữ liệu thiếu

### 📊 Tình huống thực tế
Bạn là nhân viên phân tích dữ liệu tại một công ty. Bộ phận HR cung cấp cho bạn dữ liệu nhân viên để phân tích về mức lương và hiệu suất làm việc. Tuy nhiên, dữ liệu có một số thông tin bị thiếu.

### 🎯 Nhiệm vụ của bạn:
1. **Tạo DataFrame** với dữ liệu nhân viên có missing values
2. **Phát hiện** dữ liệu thiếu bằng các phương thức pandas
3. **Đếm và phân tích** tỷ lệ dữ liệu thiếu
4. **Xác định** các hàng có nhiều giá trị thiếu

### 📋 Yêu cầu cụ thể:
- Tạo DataFrame với các cột: `TenNV`, `Tuoi`, `Luong`, `PhongBan`, `KinhNghiem`
- Sử dụng `isna()`, `isnull()`, `notna()` để phát hiện missing values
- Đếm số lượng missing theo từng cột và tổng số
- Tìm các hàng có ít nhất 2 giá trị thiếu


# 📊 BÀI TẬP 1.1: Phát hiện dữ liệu thiếu
# Hãy hoàn thành các yêu cầu dưới đây:

import pandas as pd
import numpy as np

# 1. Tạo DataFrame với dữ liệu nhân viên có missing values
print("🏢 Tạo DataFrame nhân viên với missing values...")

# TODO: Tạo DataFrame với các cột: TenNV, Tuoi, Luong, PhongBan, KinhNghiem
# Gợi ý: Sử dụng None hoặc np.nan cho missing values
data_nhanvien = {
    'TenNV': ['Nguyễn Văn A', 'Trần Thị B', 'Lê Văn C', 'Phạm Thị D', 'Hoàng Văn E'],
    'Tuoi': [25, None, 30, 28, None],  # TODO: Thêm missing values
    'Luong': [15000000, 18000000, None, 22000000, None],  # TODO: Thêm missing values
    'PhongBan': ['IT', None, 'Marketing', 'IT', 'HR'],  # TODO: Thêm missing values
    'KinhNghiem': [2, 5, None, 7, 1]  # TODO: Thêm missing values
}

df_nhanvien = pd.DataFrame(data_nhanvien)
print("📋 DataFrame nhân viên:")
print(df_nhanvien)

# 2. Phát hiện dữ liệu thiếu
print("\n🔍 Phát hiện dữ liệu thiếu...")

# TODO: Sử dụng isna() để kiểm tra missing values
print("Kiểm tra missing values với isna():")
# print(df_nhanvien.isna())

# TODO: Sử dụng notna() để kiểm tra dữ liệu có sẵn
print("\nKiểm tra dữ liệu có sẵn với notna():")
# print(df_nhanvien.notna())

# 3. Đếm số lượng dữ liệu thiếu
print("\n📊 Đếm số lượng missing values...")

# TODO: Đếm missing values theo từng cột
print("Số lượng missing theo cột:")
# missing_count = df_nhanvien.isna().sum()
# print(missing_count)

# TODO: Tính tỷ lệ missing (%)
print("\nTỷ lệ missing (%):")
# missing_percent = (missing_count / len(df_nhanvien)) * 100
# print(missing_percent.round(2))

# TODO: Tổng số missing values
print("\nTổng số missing values:")
# total_missing = df_nhanvien.isna().sum().sum()
# print(f"Tổng: {total_missing}")

# 4. Tìm các hàng có ít nhất 2 giá trị thiếu
print("\n🎯 Tìm hàng có ít nhất 2 missing values...")

# TODO: Tìm hàng có >= 2 missing values
# Gợi ý: Sử dụng df.isna().sum(axis=1) >= 2
# rows_with_multiple_missing = df_nhanvien[df_nhanvien.isna().sum(axis=1) >= 2]
# print("Các hàng có ít nhất 2 missing values:")
# print(rows_with_multiple_missing)

print("\n✅ Hoàn thành Bài tập 1.1!")
print("💡 Hãy bỏ comment (#) và chạy các dòng code để xem kết quả!")

In [None]:
import pandas as pd
import numpy as np

# 1. Tạo DataFrame với dữ liệu thiếu
data_nhanvien = {
    'TenNV': ['Nguyễn Văn A', 'Trần Thị B', 'Lê Văn C', 'Phạm Thị D', 'Hoàng Văn E'],
    'Tuoi': [25, None, 30, 28, None],
    'Luong': [15000000, 18000000, None, 22000000, None],
    'PhongBan': ['IT', None, 'Marketing', 'IT', 'HR'],
    'KinhNghiem': [2, 5, None, 7, 1]
}

df_nhanvien = pd.DataFrame(data_nhanvien)
print("DataFrame nhân viên với dữ liệu thiếu:")
print(df_nhanvien)

# 2. Phát hiện dữ liệu thiếu

# 3. Đếm số lượng dữ liệu thiếu

# 4. Tìm các hàng có ít nhất 2 giá trị thiếu

## Bài 1.2 - Xử lý dữ liệu thiếu bằng dropna

1. Sử dụng DataFrame từ bài 1.1, áp dụng phương thức `dropna()` với các tham số khác nhau:
   - Loại bỏ tất cả hàng có ít nhất 1 giá trị thiếu (`how='any'`)
   - Loại bỏ hàng chỉ khi tất cả giá trị đều thiếu (`how='all'`)
   - Loại bỏ cột có dữ liệu thiếu (`axis=1`)

2. Áp dụng `dropna()` chỉ trên một số cột cụ thể (`subset`).

3. So sánh kích thước DataFrame trước và sau khi áp dụng từng phương pháp.

In [None]:
import pandas as pd
import numpy as np

# 1. Tạo DataFrame với dữ liệu thiếu
data_nhanvien = {
    'TenNV': ['Nguyễn Văn A', 'Trần Thị B', 'Lê Văn C', 'Phạm Thị D', 'Hoàng Văn E'],
    'Tuoi': [25, None, 30, 28, None],
    'Luong': [15000000, 18000000, None, 22000000, None],
    'PhongBan': ['IT', None, 'Marketing', 'IT', 'HR'],
    'KinhNghiem': [2, 5, None, 7, 1]
}

df_nhanvien = pd.DataFrame(data_nhanvien)

# Sử dụng DataFrame từ bài 1.1
print("DataFrame gốc:")
print(df_nhanvien)
print(f"Kích thước gốc: {df_nhanvien.shape}")

# 1. Loại bỏ hàng có ít nhất 1 giá trị thiếu

# 2. Loại bỏ hàng chỉ khi tất cả giá trị đều thiếu

# 3. Loại bỏ cột có dữ liệu thiếu

# 4. Loại bỏ dựa trên subset của các cột

## Bài 1.3 - Thay thế dữ liệu thiếu bằng fillna

1. Sử dụng DataFrame từ bài 1.1, thay thế dữ liệu thiếu bằng các phương pháp khác nhau:
   - Thay thế bằng giá trị cố định (0 cho số, "Không xác định" cho chuỗi)
   - Thay thế bằng giá trị trung bình (mean) cho các cột số
   - Thay thế bằng giá trị trung vị (median) cho các cột số
   - Thay thế bằng giá trị phổ biến nhất (mode) cho các cột phân loại

2. Tạo một DataFrame khác có dữ liệu chuỗi thời gian và áp dụng forward fill và backward fill.

3. So sánh kết quả của các phương pháp thay thế khác nhau.

In [None]:
import pandas as pd
import numpy as np

# 1. Tạo DataFrame với dữ liệu thiếu
data_nhanvien = {
    'TenNV': ['Nguyễn Văn A', 'Trần Thị B', 'Lê Văn C', 'Phạm Thị D', 'Hoàng Văn E'],
    'Tuoi': [25, None, 30, 28, None],
    'Luong': [15000000, 18000000, None, 22000000, None],
    'PhongBan': ['IT', None, 'Marketing', 'IT', 'HR'],
    'KinhNghiem': [2, 5, None, 7, 1]
}

df_nhanvien = pd.DataFrame(data_nhanvien)

# 1. Thay thế bằng các phương pháp khác nhau
print("DataFrame gốc:")
print(df_nhanvien)

# Thay thế bằng giá trị cố định

# Thay thế bằng mean cho cột số

# Thay thế bằng median cho cột số

# Thay thế bằng mode cho cột phân loại

# 2. Tạo DataFrame chuỗi thời gian để demo forward/backward fill
data_timeseries = {
    'ngay': pd.date_range('2024-01-01', periods=7, freq='D'),
    'gia_co_phieu': [100, None, 105, None, None, 110, 115],
    'khoi_luong': [1000, 1200, None, 1500, None, None, 1800]
}

df_timeseries = pd.DataFrame(data_timeseries)
print("\nDataFrame chuỗi thời gian:")
print(df_timeseries)

# Forward fill và backward fill

# Phần 2: Xử lý dữ liệu trùng lặp (Duplicate Data)

## Bài 2.1 - Phát hiện và xử lý dữ liệu trùng lặp

1. Tạo một DataFrame về thông tin khách hàng có chứa dữ liệu trùng lặp với các cột: `TenKH`, `Tuoi`, `ThanhPho`, `SoDienThoai`.

2. Sử dụng phương thức `duplicated()` để phát hiện các hàng trùng lặp.

3. Đếm tổng số hàng trùng lặp và hiển thị các hàng bị trùng lặp.

4. Sử dụng `drop_duplicates()` để loại bỏ dữ liệu trùng lặp với các tham số khác nhau:
   - Giữ lại bản ghi đầu tiên (`keep='first'`)
   - Giữ lại bản ghi cuối cùng (`keep='last'`)
   - Loại bỏ tất cả bản ghi trùng lặp (`keep=False`)

5. Xử lý trùng lặp dựa trên một số cột cụ thể (`subset`).

In [None]:
import pandas as pd

# 1. Tạo DataFrame có dữ liệu trùng lặp
data_khachhang = {
    'TenKH': ['Nguyễn Văn A', 'Trần Thị B', 'Nguyễn Văn A', 'Lê Văn C', 'Trần Thị B', 'Phạm Thị D'],
    'Tuoi': [25, 30, 25, 35, 30, 28],
    'ThanhPho': ['Hà Nội', 'TP.HCM', 'Hà Nội', 'Đà Nẵng', 'TP.HCM', 'Hà Nội'],
    'SoDienThoai': ['0123456789', '0987654321', '0123456789', '0111222333', '0987654321', '0999888777']
}

df_khachhang = pd.DataFrame(data_khachhang)
print("DataFrame khách hàng có dữ liệu trùng lặp:")
print(df_khachhang)

# 2. Phát hiện dữ liệu trùng lặp

# 3. Đếm và hiển thị các hàng trùng lặp

# 4. Loại bỏ dữ liệu trùng lặp với các tham số khác nhau

# 5. Xử lý trùng lặp dựa trên subset

# Phần 3: Biến đổi và chuẩn hóa dữ liệu (Data Transformation)

## Bài 3.1 - Min-Max Normalization

1. Tạo một DataFrame về thông tin bất động sản với các cột: `DienTich` (m²), `Gia` (triệu VND), `SoPhong`, `TuoiNha` (năm).

2. Áp dụng Min-Max Normalization bằng công thức thủ công cho cột `Gia`.

3. Sử dụng `MinMaxScaler` từ scikit-learn để chuẩn hóa tất cả các cột số.

4. So sánh kết quả trước và sau khi chuẩn hóa bằng cách vẽ biểu đồ hoặc thống kê mô tả.

In [None]:
from sklearn.preprocessing import MinMaxScaler
import pandas as pd
import numpy as np

# 1. Tạo DataFrame về bất động sản
data_batdongsan = {
    'DienTich': [50, 80, 120, 200, 300],
    'Gia': [2000, 3500, 5000, 8000, 12000],  # triệu VND
    'SoPhong': [2, 3, 4, 5, 6],
    'TuoiNha': [5, 10, 15, 20, 25]  # năm
}

df_batdongsan = pd.DataFrame(data_batdongsan)
print("DataFrame bất động sản gốc:")
print(df_batdongsan)
print("\nThống kê mô tả:")
print(df_batdongsan.describe())

# 2. Min-Max Normalization thủ công cho cột Gia

# 3. Sử dụng MinMaxScaler cho tất cả cột số

# 4. So sánh kết quả

## Bài 3.2 - Z-score Standardization

1. Sử dụng DataFrame từ bài 3.1, áp dụng Z-score Standardization bằng công thức thủ công cho cột `DienTich`.

2. Sử dụng `StandardScaler` từ scikit-learn để chuẩn hóa tất cả các cột số.

3. Kiểm tra xem dữ liệu sau standardization có mean ≈ 0 và std ≈ 1 không.

4. So sánh kết quả giữa Min-Max Normalization và Z-score Standardization.

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
import pandas as pd
import numpy as np

# 1. Tạo DataFrame về bất động sản
data_batdongsan = {
    'DienTich': [50, 80, 120, 200, 300],
    'Gia': [2000, 3500, 5000, 8000, 12000],  # triệu VND
    'SoPhong': [2, 3, 4, 5, 6],
    'TuoiNha': [5, 10, 15, 20, 25]  # năm
}

df_batdongsan = pd.DataFrame(data_batdongsan)
# 1. Z-score Standardization thủ công cho cột DienTich
print("DataFrame gốc:")
print(df_batdongsan)

# Tính Z-score thủ công cho DienTich

# 2. Sử dụng StandardScaler cho tất cả cột

# 3. Kiểm tra mean và std

# 4. So sánh Min-Max vs Standardization

## Bài 3.3 - Robust Scaler và xử lý Outliers

1. Tạo một DataFrame mới có chứa outliers (giá trị ngoại lai) trong cột `Gia`.

2. So sánh hiệu quả của 3 phương pháp scaling khi có outliers:
   - MinMaxScaler
   - StandardScaler  
   - RobustScaler

3. Sử dụng `RobustScaler` để xử lý dữ liệu có outliers.

4. Vẽ biểu đồ hoặc thống kê để thấy rõ sự khác biệt giữa các phương pháp.

In [None]:
from sklearn.preprocessing import RobustScaler
import pandas as pd

# 1. Tạo DataFrame có outliers
data_outliers = {
    'DienTich': [50, 80, 120, 200, 300, 95],
    'Gia': [2000, 3500, 5000, 8000, 50000, 4200],  # 50000 là outlier
    'SoPhong': [2, 3, 4, 5, 8, 3],  # 8 là outlier
    'TuoiNha': [5, 10, 15, 20, 25, 12]
}

df_outliers = pd.DataFrame(data_outliers)
print("DataFrame có outliers:")
print(df_outliers)
print("\nThống kê mô tả:")
print(df_outliers.describe())

# 2. So sánh 3 phương pháp scaling

# 3. Sử dụng RobustScaler

# 4. Phân tích kết quả

# Phần 4: Xử lý chuỗi ký tự (String Processing)

## Bài 4.1 - Xử lý chuỗi ký tự cơ bản

1. Tạo một DataFrame về thông tin sản phẩm với các cột: `TenSP`, `MoTa`, `DanhMuc` có dữ liệu chuỗi không đồng nhất (có khoảng trắng thừa, chữ hoa/thường khác nhau).

2. Sử dụng các phương thức xử lý chuỗi cơ bản:
   - `.str.lower()`, `.str.upper()`, `.str.title()`
   - `.str.strip()` để loại bỏ khoảng trắng
   - `.str.replace()` để thay thế ký tự
   - `.str.len()` để tính độ dài chuỗi

3. Tìm kiếm và lọc dữ liệu bằng:
   - `.str.contains()` để tìm sản phẩm chứa từ khóa
   - `.str.startswith()` và `.str.endswith()`

4. Tách chuỗi bằng `.str.split()` để tách danh mục sản phẩm.

In [None]:
import pandas as pd

# 1. Tạo DataFrame với dữ liệu chuỗi không đồng nhất
data_sanpham = {
    'TenSP': ['  iPhone 15 Pro  ', 'samsung galaxy s23', 'XIAOMI Mi 13', '  MacBook Air M2  ', 'dell XPS 13'],
    'MoTa': ['Điện thoại thông minh cao cấp', '  Smartphone Android mới nhất  ', 'ĐIỆN THOẠI XIAOMI GIÁ RẺ', 'Laptop Apple siêu mỏng', '  máy tính xách tay Dell  '],
    'DanhMuc': ['Điện thoại/Apple', 'Điện thoại/Samsung', 'Điện thoại/Xiaomi', 'Laptop/Apple', 'Laptop/Dell']
}

df_sanpham = pd.DataFrame(data_sanpham)
print("DataFrame sản phẩm với dữ liệu chuỗi không đồng nhất:")
print(df_sanpham)

# 2. Xử lý chuỗi cơ bản

# 3. Tìm kiếm và lọc dữ liệu

# 4. Tách chuỗi

## Bài 4.2 - Regular Expressions (Regex)

1. Tạo một DataFrame chứa thông tin liên hệ khách hàng với cột `ThongTin` chứa địa chỉ email, số điện thoại, website.

2. Sử dụng regex để trích xuất:
   - Địa chỉ email bằng pattern cho email
   - Số điện thoại Việt Nam (các định dạng khác nhau)
   - Website/URL

3. Làm sạch và chuẩn hóa số điện thoại về định dạng thống nhất.

4. Tạo các cột riêng biệt cho email, số điện thoại, website đã được trích xuất.

In [None]:
import re
import pandas as pd

# 1. Tạo DataFrame với thông tin liên hệ
data_lienhe = {
    'KhachHang': ['Công ty A', 'Khách hàng B', 'Doanh nghiệp C', 'Cá nhân D', 'Tổ chức E'],
    'ThongTin': [
        'Email: info@congtyA.com, SĐT: 0123-456-789, Website: https://congtyA.com',
        'Liên hệ: khachhangB@gmail.com hoặc gọi +84 987 654 321',
        'Hotline: (028) 3825-7863, web: www.doanhnghiepC.vn, mail: contact@doanhnghiepC.vn',
        'Phone: 0987.654.321, email: canhanD@yahoo.com',
        'Tel: 1900-1234, site: https://tochucE.org.vn, email: admin@tochucE.org.vn'
    ]
}

df_lienhe = pd.DataFrame(data_lienhe)
print("DataFrame thông tin liên hệ:")
print(df_lienhe)

# 2. Trích xuất thông tin bằng regex

# 3. Chuẩn hóa số điện thoại

# 4. Tạo các cột riêng biệt

# Phần 5: Xử lý dữ liệu phân loại (Categorical Data)

## Bài 5.1 - Label Encoding

1. Tạo một DataFrame về đánh giá khóa học với các cột: `TenKhoaHoc`, `TrinhDo` (Cơ bản, Trung cấp, Nâng cao), `XepLoai` (Kém, Trung bình, Khá, Giỏi, Xuất sắc), `NgonNgu`.

2. Áp dụng Label Encoding cho:
   - Cột `TrinhDo` (có thứ tự tự nhiên)
   - Cột `XepLoai` (có thứ tự tự nhiên)
   - Cột `NgonNgu` (không có thứ tự tự nhiên)

3. So sánh kết quả Label Encoding với pandas Category và thứ tự tùy chỉnh cho dữ liệu ordinal.

4. Phân tích ưu/nhược điểm của Label Encoding cho từng loại dữ liệu.

In [None]:
from sklearn.preprocessing import LabelEncoder
import pandas 

# 1. Tạo DataFrame về đánh giá khóa học
data_khoahoc = {
    'TenKhoaHoc': ['Python cơ bản', 'Java nâng cao', 'SQL trung cấp', 'HTML cơ bản', 'React nâng cao'],
    'TrinhDo': ['Cơ bản', 'Nâng cao', 'Trung cấp', 'Cơ bản', 'Nâng cao'],
    'XepLoai': ['Khá', 'Xuất sắc', 'Giỏi', 'Trung bình', 'Giỏi'],
    'NgonNgu': ['Python', 'Java', 'SQL', 'HTML', 'JavaScript']
}

df_khoahoc = pd.DataFrame(data_khoahoc)
print("DataFrame đánh giá khóa học:")
print(df_khoahoc)

# 2. Áp dụng Label Encoding

# 3. Sử dụng pandas Category với thứ tự tùy chỉnh

# 4. Phân tích kết quả

## Bài 5.2 - One-Hot Encoding

1. Sử dụng DataFrame từ bài 5.1, áp dụng One-Hot Encoding cho các cột phân loại nominal (không có thứ tự tự nhiên).

2. So sánh hai phương pháp One-Hot Encoding:
   - Sử dụng `pd.get_dummies()`
   - Sử dụng `OneHotEncoder` từ scikit-learn

3. Xử lý tham số `drop_first=True` để tránh multicollinearity.

4. So sánh kích thước DataFrame trước và sau One-Hot Encoding và phân tích ưu/nhược điểm.

5. Kết hợp cả Label Encoding và One-Hot Encoding trong cùng một DataFrame.

In [None]:
from sklearn.preprocessing import OneHotEncoder
import pandas 

# 1. Tạo DataFrame về đánh giá khóa học
data_khoahoc = {
    'TenKhoaHoc': ['Python cơ bản', 'Java nâng cao', 'SQL trung cấp', 'HTML cơ bản', 'React nâng cao'],
    'TrinhDo': ['Cơ bản', 'Nâng cao', 'Trung cấp', 'Cơ bản', 'Nâng cao'],
    'XepLoai': ['Khá', 'Xuất sắc', 'Giỏi', 'Trung bình', 'Giỏi'],
    'NgonNgu': ['Python', 'Java', 'SQL', 'HTML', 'JavaScript']
}

df_khoahoc = pd.DataFrame(data_khoahoc)
print("DataFrame đánh giá khóa học:")
print(df_khoahoc)

# 2. One-Hot Encoding bằng pd.get_dummies()

# 3. One-Hot Encoding bằng sklearn OneHotEncoder

# 4. So sánh kích thước và phân tích

# 5. Kết hợp Label Encoding và One-Hot Encoding

# Phần 6: Bài tập tổng hợp

## Bài 6.1 - Dự án làm sạch dữ liệu hoàn chỉnh

**Mô tả:** Bạn được cung cấp dữ liệu khảo sát khách hàng của một cửa hàng online có nhiều vấn đề về chất lượng dữ liệu. Hãy áp dụng tất cả kiến thức đã học để làm sạch và chuẩn bị dữ liệu.

**Các bước thực hiện:**

1. **Tạo dữ liệu mẫu** có chứa tất cả các vấn đề:
   - Dữ liệu thiếu ở nhiều cột
   - Dữ liệu trùng lặp
   - Chuỗi ký tự không đồng nhất
   - Dữ liệu phân loại cần encoding
   - Dữ liệu số có outliers cần scaling

2. **Phân tích và báo cáo** tình trạng dữ liệu ban đầu

3. **Áp dụng các kỹ thuật làm sạch** đã học theo thứ tự phù hợp

4. **So sánh và đánh giá** kết quả trước/sau khi xử lý

5. **Xuất dữ liệu sạch** sẵn sàng cho phân tích/machine learning

In [None]:
# Bước 1: Tạo dữ liệu mẫu có nhiều vấn đề
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, StandardScaler, LabelEncoder, OneHotEncoder

# Tạo dữ liệu khảo sát khách hàng có vấn đề
data_khaosat = {
    'ho_ten': ['  Nguyễn Văn A  ', 'TRẦN THỊ B', 'nguyễn văn a', '  Lê Văn C  ', 'Phạm Thị D', 'TRẦN THỊ B', 'Hoàng Văn E', None],
    'tuoi': [25, None, 25, 35, None, 30, 28, 45],
    'gioi_tinh': ['Nam', 'Nữ', 'nam', 'Nam', 'Nữ', 'Nữ', None, 'Nam'],
    'thu_nhap': [15000000, 25000000, None, 35000000, 18000000, 25000000, 150000000, 22000000],  # 150M là outlier
    'muc_do_hai_long': ['Rất hài lòng', 'Hài lòng', None, 'Bình thường', 'Không hài lòng', 'Hài lòng', 'Rất hài lòng', 'Hài lòng'],
    'so_lan_mua_hang': [5, 3, 5, 12, None, 3, 20, 8],
    'email': ['  nguyena@gmail.com  ', 'tranthib@YAHOO.COM', None, 'levanc@outlook.com', '', 'tranthib@yahoo.com', 'hoange@company.vn', 'invalid-email'],
    'thanh_pho': ['Hà Nội', 'tp.hcm', 'Hà Nội', 'Đà Nẵng', 'TP.HCM', 'tp.hcm', None, 'Hải Phòng']
}

df_raw = pd.DataFrame(data_khaosat)
print("=== DỮ LIỆU KHẢO SÁT KHÁCH HÀNG (RAW) ===")
print(df_raw)

# Bước 2: Phân tích tình trạng dữ liệu ban đầu
print("\n=== PHÂN TÍCH DỮ LIỆU BAN ĐẦU ===")

# Bước 3: Áp dụng các kỹ thuật làm sạch

# Bước 4: So sánh kết quả

# Bước 5: Xuất dữ liệu sạch