## Chuẩn bị dữ liệu

In [1]:
# Import các thư viện cần thiết
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder

# Load dataset Titanic từ seaborn
df = sns.load_dataset('titanic')

# Hiển thị thông tin dataset
print("Kích thước dataset:", df.shape)
print("\nThông tin các cột:")
df.info()
print("\n5 dòng đầu tiên:")
df.head()

Kích thước dataset: (891, 15)

Thông tin các cột:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB

5 dòng đầu tiên:


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


## Bài 1: Label Encoding / Ordinal Encoding

**Đối tượng:** Cột `class` (Chứa các giá trị: 'First', 'Second', 'Third')

**Phân tích:** Cột này là dữ liệu chữ nhưng có thứ tự rõ ràng (Hạng 1 > Hạng 2 > Hạng 3)

**Yêu cầu:** Hãy chuyển đổi cột class thành dạng số sao cho giữ được tính thứ tự này.

**Gợi ý:**
- Có thể dùng `map` thủ công: `{'Third': 1, 'Second': 2, 'First': 3}`
- Hoặc dùng `OrdinalEncoder` của thư viện sklearn

**So sánh:** Nếu dùng `LabelEncoder` mặc định của sklearn, nó sẽ xếp theo vần Alpha B (First=0, Second=1, Third=2). Thứ tự này (0 < 1 < 2 hay First < Second < Third) có đúng với logic "Hạng vé" không?

**Lưu ý:** Đôi khi LabelEncoder tự động xếp sai thứ tự mong muốn.

In [12]:
# TODO: Kiểm tra các giá trị trong cột class
print("Các giá trị trong cột class:")
print(df['class'].value_counts())
print("\nCác giá trị duy nhất:")
print(df['class'].unique())

Các giá trị trong cột class:
class
Third     491
First     216
Second    184
Name: count, dtype: int64

Các giá trị duy nhất:
['Third', 'First', 'Second']
Categories (3, object): ['First', 'Second', 'Third']


### Phương pháp 1: Sử dụng map thủ công

In [None]:
# TODO: Tạo mapping dictionary để chuyển đổi
# First (Hạng 1) -> 3 (cao nhất)
# Second (Hạng 2) -> 2
# Third (Hạng 3) -> 1 (thấp nhất)

class_mapping = {
    'First': 3,
    'Second': 2,
    'Third': 1
}

df['new_class'] = df['class'].map(class_mapping)

# Hiển thị thông tin dataset
print("\n5 dòng đầu tiên:")
print(df[['class', 'new_class']].head())



5 dòng đầu tiên:
   class new_class
0  Third         1
1  First         3
2  Third         1
3  First         3
4  Third         1


### Phương pháp 2: Sử dụng OrdinalEncoder từ sklearn

In [None]:
# TODO: Sử dụng OrdinalEncoder với categories được định nghĩa theo thứ tự
# Lưu ý: OrdinalEncoder cần input là 2D array
ordinal_encoder = OrdinalEncoder(categories=[['Third', 'Second', 'First']])
df['ordinal_class'] = ordinal_encoder.fit_transform(df[['class']])

# Hiển thị thông tin dataset
print("\n5 dòng đầu tiên:")
print(df[['class', 'ordinal_class']].head())

df['ordinal_class'] += 1  # Chuyển từ 0,1,2 thành 1,2,3
print("\n5 dòng đầu tiên sau khi điều chỉnh:")
print(df[['class', 'ordinal_class']].head())


5 dòng đầu tiên:
   class  ordinal_class
0  Third            0.0
1  First            2.0
2  Third            0.0
3  First            2.0
4  Third            0.0

5 dòng đầu tiên sau khi điều chỉnh:
   class  ordinal_class
0  Third            1.0
1  First            3.0
2  Third            1.0
3  First            3.0
4  Third            1.0


### Phương pháp 3: Sử dụng LabelEncoder (Không khuyến khích cho dữ liệu có thứ tự)

In [None]:
# TODO: Thử dùng LabelEncoder và quan sát sự khác biệt
# So sánh thứ tự alphabet với logic hạng vé
label_encoder = LabelEncoder()
df['label_encoded_class'] = label_encoder.fit_transform(df['class'])

# Hiển thị thông tin dataset
print("\n5 dòng đầu tiên:")
print(df[['class', 'label_encoded_class']].head())


5 dòng đầu tiên:
   class  label_encoded_class
0  Third                    2
1  First                    0
2  Third                    2
3  First                    0
4  Third                    2


## Bài 2: One Hot Encoding

**Đối tượng:** Cột `who` (Chứa các giá trị: 'man', 'woman', 'child')

**Phân tích:** Đây là dữ liệu định danh (Nominal), không có thứ tự lớn bé. 'man' không lớn hơn 'woman'.

**Yêu cầu:**
1. Dùng `pd.get_dummies` để biến cột who thành 3 cột mới: `who_man`, `who_woman`, `who_child`
2. **Chống đa cộng tuyến (Dummy Trap):** Hãy thực hiện lại lệnh trên nhưng bỏ đi 1 cột (ví dụ bỏ cột `who_child`)

**Giải thích:** Tại sao chỉ cần 2 cột (`who_man`, `who_woman`) là đủ để biểu diễn thông tin cho cả 3 đối tượng? (Nếu cả 2 cột đều bằng 0, máy tính tự hiểu đó là child)

In [13]:
# TODO: Kiểm tra các giá trị trong cột who
print("Các giá trị trong cột who:")
print(df['who'].value_counts())
print("\nCác giá trị duy nhất:")
print(df['who'].unique())

Các giá trị trong cột who:
who
man      537
woman    271
child     83
Name: count, dtype: int64

Các giá trị duy nhất:
['man' 'woman' 'child']


### Yêu cầu 1: One-Hot Encoding đầy đủ (3 cột)

In [20]:
# TODO: Sử dụng pd.get_dummies để tạo 3 cột mới
pd_who = pd.get_dummies(df['who'], prefix='who')
print("One-Hot Encoding đầy đủ (3 cột):")
print(pd_who.head())

One-Hot Encoding đầy đủ (3 cột):
   who_child  who_man  who_woman
0      False     True      False
1      False    False       True
2      False    False       True
3      False    False       True
4      False     True      False


### Yêu cầu 2: One-Hot Encoding với Dummy Trap (Bỏ 1 cột)

In [22]:
# TODO: Sử dụng drop_first=True để tránh dummy trap (đa cộng tuyến)
who_encoded_drop = pd.get_dummies(df['who'], prefix='who', drop_first=True)
print("One-Hot Encoding với Dummy Trap (2 cột):")
print(who_encoded_drop.head())

One-Hot Encoding với Dummy Trap (2 cột):
   who_man  who_woman
0     True      False
1    False       True
2    False       True
3    False       True
4     True      False


In [27]:
# Giải thích
import math

for _ in range(5):
    i = math.floor(np.random.rand() * len(df))
    if who_encoded_drop['who_man'].iloc[i] == 1 and who_encoded_drop['who_woman'].iloc[i] == 0:
        print(f"Dòng {i} trong df nhận định là {df['who'].iloc[i]}")
        print(f"Dòng {i} trong who_encoded_drop nhận định là man")
    elif who_encoded_drop['who_man'].iloc[i] == 0 and who_encoded_drop['who_woman'].iloc[i] == 1:
        print(f"Dòng {i} trong df nhận định là {df['who'].iloc[i]}")
        print(f"Dòng {i} trong who_encoded_drop nhận định là woman")
    elif who_encoded_drop['who_man'].iloc[i] == 0 and who_encoded_drop['who_woman'].iloc[i] == 0:
        print(f"Dòng {i} trong df nhận định là {df['who'].iloc[i]}")
        print(f"Dòng {i} trong who_encoded_drop nhận định là child")
    else:
        print("M làm lỗi để nhận định họ lgbt hả!")

    print("="*30)

Dòng 640 trong df nhận định là man
Dòng 640 trong who_encoded_drop nhận định là man
Dòng 64 trong df nhận định là man
Dòng 64 trong who_encoded_drop nhận định là man
Dòng 473 trong df nhận định là woman
Dòng 473 trong who_encoded_drop nhận định là woman
Dòng 352 trong df nhận định là child
Dòng 352 trong who_encoded_drop nhận định là child
Dòng 45 trong df nhận định là man
Dòng 45 trong who_encoded_drop nhận định là man


## Bài 3: Frequency Encoding

**Đối tượng:** Cột `deck` (Boong tàu - A, B, C, D, E, F, G)

**Tình huống:** Giả sử tập dữ liệu này lớn hơn nhiều và cột deck có rất nhiều mã boong tàu khác nhau, việc One-Hot sẽ tạo ra quá nhiều cột.

**Yêu cầu:**
1. Đếm số lần xuất hiện của mỗi mã trong cột deck (Gợi ý: `value_counts()`)
2. Thay thế ký tự 'A', 'B', 'C'... bằng chính số lượng (tần suất) xuất hiện của nó

**Xử lý NaN:** Cột deck có nhiều giá trị rỗng (NaN). Bạn sẽ thay thế NaN bằng số 0 hay coi nó là một "loại boong tàu bí ẩn" và đếm tần suất của cả NaN?

In [28]:
# TODO: Kiểm tra cột deck
print("Thông tin về cột deck:")
print(f"Số lượng NaN: {df['deck'].isna().sum()}")
print(f"\nCác giá trị duy nhất (bao gồm NaN): {df['deck'].unique()}")
print(f"\nValue counts (không bao gồm NaN):")
print(df['deck'].value_counts())

Thông tin về cột deck:
Số lượng NaN: 688

Các giá trị duy nhất (bao gồm NaN): [NaN, 'C', 'E', 'G', 'D', 'A', 'B', 'F']
Categories (7, object): ['A', 'B', 'C', 'D', 'E', 'F', 'G']

Value counts (không bao gồm NaN):
deck
C    59
B    47
D    33
E    32
A    15
F    13
G     4
Name: count, dtype: int64


### Yêu cầu 1: Đếm tần suất xuất hiện

In [None]:
# TODO: Tính tần suất xuất hiện của mỗi deck
deck_frequency = df['deck'].value_counts()
print("Tần suất xuất hiện của mỗi deck:")
print(deck_frequency)

### Yêu cầu 2: Thay thế bằng tần suất

In [None]:
# TODO: Map tần suất vào cột mới
df['deck_frequency'] = df['deck'].map(deck_frequency)
print("Kết quả sau khi áp dụng Frequency Encoding:")
print(df[['deck', 'deck_frequency']].head(20))

### Yêu cầu 3: Xử lý NaN

In [None]:
# TODO: Xử lý NaN - có thể thử nhiều cách khác nhau
# Cách 1: Bỏ qua NaN (dropna=True)
# Cách 2: Coi NaN như một category (dropna=False)
# Cách 3: Fill NaN bằng 0

# Cách 2: Coi NaN như một category
deck_frequency_with_nan = df['deck'].value_counts(dropna=False)
df['deck_frequency_with_nan'] = df['deck'].map(deck_frequency_with_nan)
print("Cách 2 - Coi NaN như một category:")
print(df[['deck', 'deck_frequency_with_nan']].head(20))

# Cách 3: Fill NaN bằng 0
df['deck_frequency_fillna'] = df['deck_frequency'].fillna(0)
print("\nCách 3 - Fill NaN bằng 0:")
print(df[['deck', 'deck_frequency_fillna']].head(20))

## Bài 4: Target Encoding (Mean Encoding)

**Đối tượng:** Cột `embark_town` (Nơi lên tàu: Southampton, Cherbourg, Queenstown)

**Nhiệm vụ:** Chúng ta muốn biết "Thành phố nào có tỷ lệ sống sót cao nhất?" và đưa thông tin đó vào mô hình.

**Yêu cầu:**
1. Nhóm dữ liệu theo `embark_town` và tính trung bình cộng (mean) của cột `survived`
2. Map giá trị trung bình này ngược lại vào cột `embark_town`
3. Ví dụ: Nếu 70% người lên từ 'Cherbourg' sống sót, thay chữ 'Cherbourg' bằng số 0.7

In [None]:
# TODO: Kiểm tra cột embark_town và survived
print("Thông tin về cột embark_town:")
print(df['embark_town'].value_counts())
print(f"\nSố lượng NaN: {df['embark_town'].isna().sum()}")
print(f"\nThông tin về cột survived:")
print(df['survived'].value_counts())

### Yêu cầu 1: Phân tích tỷ lệ sống sót theo từng thành phố

In [None]:
# TODO: Tính tỷ lệ sống sót theo từng thành phố
# Gợi ý: Sử dụng groupby và mean
survival_rate = df.groupby('embark_town')['survived'].mean()
print("Tỷ lệ sống sót theo từng thành phố:")
print(survival_rate)
print(f"\nThành phố có tỷ lệ sống sót cao nhất: {survival_rate.idxmax()} ({survival_rate.max():.2%})")

### Yêu cầu 2: Áp dụng Target Encoding

In [None]:
# TODO: Tạo dictionary mapping từ thành phố sang tỷ lệ sống sót
# Sau đó map vào cột mới
embark_town_encoding = survival_rate.to_dict()
df['embark_town_target_encoded'] = df['embark_town'].map(embark_town_encoding)
print("Kết quả sau khi áp dụng Target Encoding:")
print(df[['embark_town', 'embark_town_target_encoded', 'survived']].head(20))

### Yêu cầu 3: Xử lý giá trị NaN

In [None]:
# TODO: Kiểm tra và xử lý NaN trong embark_town
# Có thể fill bằng tỷ lệ sống sót trung bình chung
print(f"Số lượng NaN trong embark_town_target_encoded: {df['embark_town_target_encoded'].isna().sum()}")
mean_survival_rate = df['survived'].mean()
df['embark_town_target_encoded_fillna'] = df['embark_town_target_encoded'].fillna(mean_survival_rate)
print(f"\nTỷ lệ sống sót trung bình chung: {mean_survival_rate:.4f}")
print(f"Đã fill NaN bằng tỷ lệ sống sót trung bình chung")
print("\nKiểm tra sau khi fill:")
print(df[['embark_town', 'embark_town_target_encoded_fillna']].head(20))

### ⚠️ Lưu ý về Target Encoding

**Ưu điểm:**
- Giữ được thông tin về mối quan hệ với target variable
- Không tạo ra nhiều cột như One-Hot Encoding
- Hiệu quả với categorical features có nhiều categories

**Nhược điểm:**
- **Nguy cơ overfitting:** Đặc biệt với categories có ít samples
- **Data leakage:** Không nên sử dụng trực tiếp trên toàn bộ dataset
- Cần áp dụng kỹ thuật **Cross-Validation** hoặc **Smoothing** để giảm overfitting

**Best practices:**
1. Tính target encoding chỉ trên training set
2. Áp dụng mapping đó lên validation/test set
3. Sử dụng K-Fold Cross-Validation
4. Áp dụng smoothing với các categories có ít samples

## Tổng kết

**Các phương pháp Encoding đã học:**

| Phương pháp | Khi nào dùng | Ưu điểm | Nhược điểm |
|------------|-------------|---------|------------|
| **Ordinal Encoding** | Categorical có thứ tự (First > Second > Third) | Đơn giản, giữ được thứ tự | Chỉ dùng cho dữ liệu có thứ tự rõ ràng |
| **One-Hot Encoding** | Categorical không có thứ tự (Nominal) | Không giả định thứ tự, phù hợp nhiều ML models | Tạo nhiều cột (high dimensionality) |
| **Frequency Encoding** | High cardinality features | Giảm số chiều, capture tần suất | Mất thông tin về category gốc |
| **Target Encoding** | Khi muốn encode dựa trên target | Hiệu quả, giữ thông tin quan trọng | Nguy cơ overfitting, data leakage |

## Câu hỏi thảo luận

1. **Khi nào nên sử dụng Ordinal Encoding thay vì One-Hot Encoding?**
   
2. **Tại sao One-Hot Encoding có thể gây ra "Curse of Dimensionality"?**
   
3. **Frequency Encoding có thể bị mất thông tin gì?**
   
4. **Làm thế nào để tránh data leakage khi sử dụng Target Encoding?**
   
5. **Nếu một categorical feature có 1000 unique values, bạn sẽ chọn phương pháp encoding nào? Tại sao?**