# Tiền xử lý dữ liệu

## Mục tiêu:
- Đọc dữ liệu World Bank đã tổng hợp (2000–2024)
- Khám phá, làm sạch, và chuẩn hóa dữ liệu
- Chia dữ liệu thành train/test để phục vụ các mô hình Machine Learning

Nguồn dữ liệu: `data/worldbank_2000_2024.csv`


## Bước 1 - Đọc dữ liệu

### 1.1. Import các thư viện cần thiết

In [15]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

### 1.2. Đọc dữ liệu từ file CSV


In [16]:
# Đọc dữ liệu
df = pd.read_csv("../data/worldbank_2000_2024.csv")
print("=== Dữ liệu gốc (5 dòng đầu) ===")
df.head()  

=== Dữ liệu gốc (5 dòng đầu) ===


Unnamed: 0,Country Name,Country Code,Year,"Population, total",Poverty headcount ratio at $3.00 a day (2021 PPP) (% of population),Population growth (annual %),"Life expectancy at birth, total (years)",GDP per capita (current US$),GDP growth (annual %),People using safely managed sanitation services (% of population),Access to electricity (% of population),People using at least basic drinking water services (% of population),Carbon dioxide (CO2) emissions excluding LULUCF per capita (t CO2e/capita),Population living in slums (% of urban population),"Labor force participation rate, total (% of total population ages 15+) (modeled ILO estimate)"
0,Aruba,ABW,2000,90588.0,,1.030817,72.939,20681.023027,7.622921,,91.7,95.233536,2.968384,0.0,
1,Aruba,ABW,2001,91439.0,,0.935033,73.044,20740.132583,4.182002,,100.0,95.359056,2.973567,,
2,Aruba,ABW,2002,92074.0,,0.692052,73.135,21307.248251,-0.944953,,100.0,95.484576,3.225666,0.0,
3,Aruba,ABW,2003,93128.0,,1.138229,73.236,21949.485996,1.110505,,100.0,95.610096,3.67666,,
4,Aruba,ABW,2004,95138.0,,2.135358,73.223,23700.63199,7.293728,,100.0,95.735616,3.67256,0.0,


## Bước 2 - Tổng quan dữ liệu

### Mục tiêu:
- Phân tích cấu trúc dữ liệu, kiểu dữ liệu và ý nghĩa của từng thuộc tính. 
- Rút ngắn tên các cột để dễ dàng trong việc phân tích và trực quan hóa.


### 2.1. Rút ngắn tên thuộc tính và phân tích ý nghĩa từng thuộc tính

In [17]:
# Rút ngắn tên các cột để dễ phân tích
df.columns = [
    'country_name', 'country_code', 'year', 'population', 'poverty_ratio',
    'pop_growth', 'life_expectancy', 'gdp_per_capita', 'gdp_growth',
    'sanitation', 'electricity', 'water_access', 'co2_emissions',
    'slum_population', 'labor_force'
]

print("THÔNG TIN TỔNG QUAN VỀ DỮ LIỆU:")
print(f"Kích thước dữ liệu: {df.shape}")
print(f"Số quốc gia: {df['country_name'].nunique()}")
print(f"Khoảng thời gian: {df['year'].min()}-{df['year'].max()}")

print("\nÝ NGHĨA CÁC THUỘC TÍNH:")
print("1. country_name: Tên quốc gia")
print("2. country_code: Mã quốc gia")
print("3. year: Năm")
print("4. population: Tổng dân số")
print("5. poverty_ratio: Tỷ lệ nghèo (% dân số)")
print("6. pop_growth: Tăng trưởng dân số hàng năm (%)")
print("7. life_expectancy: Tuổi thọ trung bình (năm) - TARGET")
print("8. gdp_per_capita: GDP bình quân đầu người (USD)")
print("9. gdp_growth: Tăng trưởng GDP hàng năm (%)")
print("10. sanitation: Tỷ lệ sử dụng dịch vụ vệ sinh an toàn (%)")
print("11. electricity: Tỷ lệ tiếp cận điện (%)")
print("12. water_access: Tỷ lệ sử dụng nước uống cơ bản (%)")
print("13. co2_emissions: Lượng khí thải CO2 bình quân đầu người (tấn)")
print("14. slum_population: Tỷ lệ dân số sống trong khu ổ chuột (%)")
print("15. labor_force: Tỷ lệ tham gia lực lượng lao động (%)")

THÔNG TIN TỔNG QUAN VỀ DỮ LIỆU:
Kích thước dữ liệu: (5425, 15)
Số quốc gia: 217
Khoảng thời gian: 2000-2024

Ý NGHĨA CÁC THUỘC TÍNH:
1. country_name: Tên quốc gia
2. country_code: Mã quốc gia
3. year: Năm
4. population: Tổng dân số
5. poverty_ratio: Tỷ lệ nghèo (% dân số)
6. pop_growth: Tăng trưởng dân số hàng năm (%)
7. life_expectancy: Tuổi thọ trung bình (năm) - TARGET
8. gdp_per_capita: GDP bình quân đầu người (USD)
9. gdp_growth: Tăng trưởng GDP hàng năm (%)
10. sanitation: Tỷ lệ sử dụng dịch vụ vệ sinh an toàn (%)
11. electricity: Tỷ lệ tiếp cận điện (%)
12. water_access: Tỷ lệ sử dụng nước uống cơ bản (%)
13. co2_emissions: Lượng khí thải CO2 bình quân đầu người (tấn)
14. slum_population: Tỷ lệ dân số sống trong khu ổ chuột (%)
15. labor_force: Tỷ lệ tham gia lực lượng lao động (%)


### 2.2. Thông tin về các thuộc tính dữ liệu

In [18]:
print("\nTHÔNG TIN DỮ LIỆU:")
df.info()


THÔNG TIN DỮ LIỆU:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5425 entries, 0 to 5424
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   country_name     5425 non-null   object 
 1   country_code     5425 non-null   object 
 2   year             5425 non-null   int64  
 3   population       5425 non-null   float64
 4   poverty_ratio    1834 non-null   float64
 5   pop_growth       5424 non-null   float64
 6   life_expectancy  5208 non-null   float64
 7   gdp_per_capita   5233 non-null   float64
 8   gdp_growth       5160 non-null   float64
 9   sanitation       3569 non-null   float64
 10  electricity      5135 non-null   float64
 11  water_access     5209 non-null   float64
 12  co2_emissions    5075 non-null   float64
 13  slum_population  2015 non-null   float64
 14  labor_force      4666 non-null   float64
dtypes: float64(12), int64(1), object(2)
memory usage: 635.9+ KB


## Bước 3 - Xử lý giá trị thiếu và giá trị trùng lặp
### Mục tiêu:
- Loại bỏ các giá trị trùng lặp
- Phân tích giá trị thiếu của từng biến
- Loại bỏ các dòng thiếu `life_expectancy` (biến mục tiêu)
- Loại bỏ các cột có tỷ lệ thiếu quá cao


### 3.1. Loại bỏ các hàng trùng lặp


In [19]:
print("Kích thước dữ liệu ban đầu:", df.shape)
rows_before = df.shape[0]
# Loại bỏ các hàng trùng lặp
df = df.drop_duplicates()
rows_after = df.shape[0]
removed = rows_before - rows_after

print("Kích thước sau khi loại bỏ trùng lặp:", df.shape)
print(f"Đã loại bỏ {removed} dòng trùng lặp.")

Kích thước dữ liệu ban đầu: (5425, 15)
Kích thước sau khi loại bỏ trùng lặp: (5425, 15)
Đã loại bỏ 0 dòng trùng lặp.


### 3.2. Loại bỏ các dòng thiếu `life_expectancy` (biến mục tiêu)
Các dòng thiếu biến mục tiêu sẽ không thể dùng để huấn luyện/đánh giá mô hình nên cần loại bỏ.


In [20]:
rows_before = df.shape[0]
# Loại bỏ các dòng thiếu life_expectancy
df = df.dropna(subset=["life_expectancy"])
rows_after = df.shape[0]

print(f"Đã loại bỏ {rows_before - rows_after} dòng thiếu life_expectancy.")


Đã loại bỏ 217 dòng thiếu life_expectancy.


### 3.3. Phân tích giá trị thiếu
- Tính tỷ lệ thiếu của từng cột để nhận diện biến rủi ro.
- Ghi chú rõ biến nào không được dùng làm predictor (ví dụ target `life_expectancy`).


In [21]:
# Tính tỷ lệ thiếu (%)
missing_percent = (df.isnull().sum() / len(df)) * 100
missing_percent = missing_percent.sort_values(ascending=False)

# Chỉ hiển thị các giá trị lớn hơn 0
missing_df = pd.DataFrame({
    'Thuộc tính': missing_percent[missing_percent > 0].index,
    'Tỷ lệ thiếu dữ liệu (%)': missing_percent[missing_percent > 0].values
})

print("PHÂN TÍCH GIÁ TRỊ THIẾU:")
print("=" * 90)
print()
print(missing_df.to_string(index=False))


PHÂN TÍCH GIÁ TRỊ THIẾU:

     Thuộc tính  Tỷ lệ thiếu dữ liệu (%)
  poverty_ratio                65.034562
slum_population                61.309524
     sanitation                34.178187
    labor_force                13.901690
  co2_emissions                 6.451613
     gdp_growth                 4.627496
   water_access                 3.859447
 gdp_per_capita                 3.206605
    electricity                 1.401690
     pop_growth                 0.019201


### 3.4. Loại bỏ các cột thiếu quá nhiều dữ liệu

Các thuộc tính `poverty_ratio` và `slum_population` có tỷ lệ thiếu dữ liệu rất lớn (> 60%)

Do đó việc dự đoán/điền sẽ rất rủi ro (dễ sai lệch và tạo nhiễu). Vì vậy, hai cột này được loại bỏ khỏi bộ dữ liệu.

In [22]:
# Loại bỏ các cột có tỷ lệ thiếu quá cao (> 60%) để giảm rủi ro sai lệch do dự đoán
HIGH_MISSING_COLS = ["poverty_ratio", "slum_population"]
df = df.drop(columns=HIGH_MISSING_COLS)
print(f"\nĐã loại bỏ các thuộc tính: {HIGH_MISSING_COLS}")

# Cập nhật numeric_cols SAU khi loại bỏ các cột HIGH_MISSING_COLS
numeric_cols = df.select_dtypes(include=[np.number]).columns


Đã loại bỏ các thuộc tính: ['poverty_ratio', 'slum_population']


## Bước 4 - Chia dữ liệu Train/Validation/Test 


### Mục tiêu:
- Chia dữ liệu thành 3 tập: train, validation và test.
- Chia theo tỷ lệ: 60% train/ 20% validation/ 20% test.

In [23]:
from sklearn.model_selection import train_test_split

train_df, temp_df = train_test_split(
    df, test_size=0.40, random_state=42, shuffle=True
)

val_df, test_df = train_test_split(
    temp_df, test_size=0.50, random_state=42, shuffle=True
)

print("Kích thước dữ liệu:")
print("Train:", train_df.shape)
print("Validation:", val_df.shape)
print("Test:", test_df.shape)


Kích thước dữ liệu:
Train: (3124, 13)
Validation: (1042, 13)
Test: (1042, 13)


## Bước 5 - Điền giá trị thiếu 


### Phân tích:
#### Biến `sanitation`:
- Có tỷ lệ thiếu cao (>30%). Do đó không thể dùng mean/median đơn thuần (dễ dẫn đến giá trị không đổi qua các năm).

- Giải pháp: Dùng MICE (Iterative Imputer) với Bayesian Ridge để:
  - Tận dụng mối quan hệ phi tuyến với các biến khác.
  - Giữ được tính biến động của dữ liệu qua các năm. 

#### Các biến còn lại (thiếu <14%):
- Tỷ lệ thiếu thấp, tiến hành điền bằng mean/median sử dụng tiêu chí skewness.

---

#### Lưu ý: 
Từ bước này trở đi, tất cả phép điền thiếu chỉ fit trên tập train rồi áp dụng cho validation/test để tránh rò rỉ dữ liệu.


### 5.1. Điền mean/median theo skewness cho các biến có tỷ lệ giá trị thiếu thấp (< 15%)

#### Công thức tính Skewness:

$$skewness = \frac{n}{(n-1)(n-2)} \sum_{i=1}^{n} \left(\frac{x_i - \bar{x}}{s}\right)^3$$

Trong đó:
- $n$: kích thước mẫu (số lượng giá trị)
- $x_i$: giá trị từng điểm dữ liệu
- $\bar{x}$: giá trị trung bình mẫu
- $s$: độ lệch chuẩn mẫu

---

#### Quy tắc lựa chọn:
- Nếu $|\text{skewness}| \leq 0.5$: dữ liệu gần như cân bằng → Dùng mean
- Nếu $|\text{skewness}| > 0.5$: dữ liệu lệch → Dùng median (do ít bị ảnh hưởng bởi outliers)

| Giá trị skewness | Phương pháp điền |
|---|---|
| \|skewness\| ≤ 0.5 | Mean |
| \|skewness\| > 0.5 | Median |

In [24]:
# Tính Skewness theo train và điền giá trị cho cả train/val/test
print("GIÁ TRỊ SKEWNESS VÀ PHƯƠNG PHÁP ĐIỀN GIÁ TRỊ THIẾU (FIT TRÊN TRAIN):\n")

exclude_cols = ["life_expectancy", "sanitation"]
cols_to_fill = [col for col in numeric_cols if col not in exclude_cols]

# Tạo bảng để hiển thị kết quả
imputation_results = []

for col in cols_to_fill:
    skew_val = train_df[col].skew()
    
    # Tính số dòng thiếu trước khi điền
    missing_count_train = train_df[col].isna().sum()
    
    if -0.5 <= skew_val <= 0.5:
        method = "Mean"
        fill_value = train_df[col].mean()
    else:
        method = "Median"
        fill_value = train_df[col].median()

    train_df[col] = train_df[col].fillna(fill_value)
    val_df[col] = val_df[col].fillna(fill_value)
    test_df[col] = test_df[col].fillna(fill_value)

    # Thêm kết quả vào danh sách
    imputation_results.append({
        'Thuộc tính': col,
        'Skewness': f"{skew_val:.4f}",
        'Phương pháp': method,
        'Số dòng đã điền': missing_count_train
    })

# Tạo DataFrame từ danh sách kết quả và in ra
results_df = pd.DataFrame(imputation_results)
print(results_df.to_string(index=False))
print(f"\nTổng cộng: {results_df['Số dòng đã điền'].sum()} dòng đã được điền giá trị thiếu")

GIÁ TRỊ SKEWNESS VÀ PHƯƠNG PHÁP ĐIỀN GIÁ TRỊ THIẾU (FIT TRÊN TRAIN):

    Thuộc tính Skewness Phương pháp  Số dòng đã điền
          year   0.0297        Mean                0
    population   8.6421      Median                0
    pop_growth   1.5557      Median                1
gdp_per_capita   3.3428      Median               97
    gdp_growth   1.0673      Median              145
   electricity  -1.3944      Median               35
  water_access  -1.4461      Median              118
 co2_emissions   8.1576      Median              191
   labor_force  -0.1862        Mean              415

Tổng cộng: 1002 dòng đã được điền giá trị thiếu


### 5.2. Điền giá trị thiếu cho `sanitation` bằng MICE (Bayesian Ridge)
Do `sanitation` có tỷ lệ thiếu cao (>40%), ta dùng MICE với Bayesian Ridge để dự đoán dựa vào các biến khác (ngoại trừ `life_expectancy`).

Phương pháp này tận dụng mối quan hệ phi tuyến giữa các biến để điền giá trị thiếu một cách chính xác hơn.

In [25]:
from sklearn.experimental import enable_iterative_imputer  # noqa: F401
from sklearn.impute import IterativeImputer
from sklearn.linear_model import BayesianRidge

# Tính số dòng thiếu trong sanitation trước khi điền
missing_sanitation_train = train_df["sanitation"].isna().sum()
missing_sanitation_val = val_df["sanitation"].isna().sum()
missing_sanitation_test = test_df["sanitation"].isna().sum()

# Chuẩn bị dữ liệu để MICE: sử dụng tất cả các biến số trừ life_expectancy và sanitation
mice_cols_for_sanitation = [c for c in numeric_cols if c not in ["life_expectancy", "sanitation"]]

# Tạo Imputer với Bayesian Ridge
mice_imputer = IterativeImputer(
    estimator=BayesianRidge(),
    random_state=42,
    max_iter=20,
    verbose=0
)

# Fit trên train, áp dụng cho val/test
# Kết hợp sanitation với các biến khác để MICE hoạt động
train_for_impute = train_df[mice_cols_for_sanitation + ["sanitation"]].copy()
val_for_impute = val_df[mice_cols_for_sanitation + ["sanitation"]].copy()
test_for_impute = test_df[mice_cols_for_sanitation + ["sanitation"]].copy()

# Fit trên train và transform
train_imputed = mice_imputer.fit_transform(train_for_impute)
val_imputed = mice_imputer.transform(val_for_impute)
test_imputed = mice_imputer.transform(test_for_impute)

# Lấy cột sanitation (cột cuối cùng)
sanitation_idx = len(mice_cols_for_sanitation)
train_df["sanitation"] = train_imputed[:, sanitation_idx]
val_df["sanitation"] = val_imputed[:, sanitation_idx]
test_df["sanitation"] = test_imputed[:, sanitation_idx]

# Clip giá trị sanitation vào khoảng [0, 100] (vì đây là tỷ lệ phần trăm)
# MICE có thể sinh ra giá trị ngoài khoảng do sử dụng BayesianRidge mà không ràng buộc giá trị
train_df["sanitation"] = train_df["sanitation"].clip(0, 100)
val_df["sanitation"] = val_df["sanitation"].clip(0, 100)
test_df["sanitation"] = test_df["sanitation"].clip(0, 100)

print("Đã điền sanitation bằng MICE (Bayesian Ridge)")
print(f"\nSố dòng đã điền bằng MICE:")
print(f"  Train: {missing_sanitation_train} dòng")
print(f"  Validation: {missing_sanitation_val} dòng")
print(f"  Test: {missing_sanitation_test} dòng")
print(f"  Tổng cộng: {missing_sanitation_train + missing_sanitation_val + missing_sanitation_test} dòng")

Đã điền sanitation bằng MICE (Bayesian Ridge)

Số dòng đã điền bằng MICE:
  Train: 1072 dòng
  Validation: 364 dòng
  Test: 344 dòng
  Tổng cộng: 1780 dòng


### 5.3. Kiểm tra dữ liệu sau khi điền

In [26]:
print("Tổng số giá trị NaN còn lại sau khi xử lý:")
print("Train:", train_df.isna().sum().sum())
print("Validation:", val_df.isna().sum().sum())
print("Test:", test_df.isna().sum().sum())


Tổng số giá trị NaN còn lại sau khi xử lý:
Train: 0
Validation: 0
Test: 0


### 5.4. Lưu dữ liệu trước khi chuẩn hóa

In [27]:
# Lưu dữ liệu sau xử lý (chưa chuẩn hóa)
import os

os.makedirs("../data/processed", exist_ok=True)

# Gộp lại để lưu dữ liệu chưa chuẩn hóa
imputed_df = pd.concat([train_df, val_df, test_df]).sort_index()
imputed_df.to_csv("../data/processed/processed_data.csv", index=False)

print("DỮ LIỆU SAU KHI ĐIỀN GIÁ TRỊ THIẾU (CHƯA CHUẨN HOÁ):")
imputed_df.head()


DỮ LIỆU SAU KHI ĐIỀN GIÁ TRỊ THIẾU (CHƯA CHUẨN HOÁ):


Unnamed: 0,country_name,country_code,year,population,pop_growth,life_expectancy,gdp_per_capita,gdp_growth,sanitation,electricity,water_access,co2_emissions,labor_force
0,Aruba,ABW,2000,90588.0,1.030817,72.939,20681.023027,7.622921,55.110376,91.7,95.233536,2.968384,61.135067
1,Aruba,ABW,2001,91439.0,0.935033,73.044,20740.132583,4.182002,57.806757,100.0,95.359056,2.973567,61.135067
2,Aruba,ABW,2002,92074.0,0.692052,73.135,21307.248251,-0.944953,59.471073,100.0,95.484576,3.225666,61.135067
3,Aruba,ABW,2003,93128.0,1.138229,73.236,21949.485996,1.110505,59.71503,100.0,95.610096,3.67666,61.135067
4,Aruba,ABW,2004,95138.0,2.135358,73.223,23700.63199,7.293728,58.680127,100.0,95.735616,3.67256,61.135067


## Bước 6 - Chuẩn hóa dữ liệu
### Mục tiêu:
- Chuẩn hóa dữ liệu số để đảm bảo các biến có cùng thang đo, giúp mô hình học hiệu quả hơn.
- Sử dụng StandardScaler (Z-score) cho các biến số.
- Không chuẩn hóa các biến phân loại như `country_name`, `country_code`.
- Không chuẩn hóa các cột `year` và `life_expectancy` vì:
  - `year` là chỉ số thời gian, mang ý nghĩa tuần tự, không cần chuẩn hóa.
  - `life_expectancy` là biến mục tiêu (target), việc chuẩn hóa hay không sẽ tùy thuộc vào thuật toán dự đoán sau này.

---

### Phương pháp chuẩn hóa: Z-score

$Z = \frac{X - \mu}{\sigma}$

Trong đó:
- $\mu$: giá trị trung bình của biến  
- $\sigma$ : độ lệch chuẩn của biến  
Sau chuẩn hóa, mỗi biến số có trung bình = 0 và độ lệch chuẩn = 1.


In [28]:
from sklearn.preprocessing import StandardScaler

# Chọnn các cột dạng số cần chuẩn hoá (trừ year và life_expectancy)
cols_to_scale = [
    c for c in train_df.select_dtypes(include=['float64', 'int64']).columns
    if c not in ['life_expectancy', 'year']
]

scaler = StandardScaler()
train_df[cols_to_scale] = scaler.fit_transform(train_df[cols_to_scale])
val_df[cols_to_scale] = scaler.transform(val_df[cols_to_scale])
test_df[cols_to_scale] = scaler.transform(test_df[cols_to_scale])

# Lưu lại dữ liệu sau chuẩn hóa
train_df.to_csv("../data/processed/train.csv", index=False)
val_df.to_csv("../data/processed/val.csv", index=False)
test_df.to_csv("../data/processed/test.csv", index=False)

# Hiển thị dữ liệu sau chuẩn hóa
print("DỮ LIỆU HUẤN LUYỆN SAU KHI CHUẨN HÓA:")
train_df.head()


DỮ LIỆU HUẤN LUYỆN SAU KHI CHUẨN HÓA:


Unnamed: 0,country_name,country_code,year,population,pop_growth,life_expectancy,gdp_per_capita,gdp_growth,sanitation,electricity,water_access,co2_emissions,labor_force
1342,Denmark,DNK,2017,-0.203264,-0.418953,81.102439,1.682694,-0.047741,1.67351,0.642797,0.754689,0.118599,0.069223
3967,"Korea, Dem. People's Rep.",PRK,2017,-0.056076,-0.530921,73.034,-0.412271,0.028651,-0.245951,-1.29473,0.439985,-0.216848,2.087276
3083,Madagascar,MDG,2008,-0.091998,1.00779,61.992,-0.60717,0.547296,-1.651029,-2.194047,-2.540432,-0.528445,2.542268
1918,Greece,GRC,2018,-0.166799,-0.945727,81.787805,0.170491,-0.209157,1.356075,0.642797,0.754689,0.161554,-1.033944
4444,South Sudan,SSD,2019,-0.169071,1.000983,58.129,-0.412271,0.028651,-1.37545,-2.593358,-2.691194,-0.278341,1.279234


## Kết luận

### Tổng kết:
- Dữ liệu đã được làm sạch: loại bỏ trùng lặp và các dòng thiếu `life_expectancy` (biến mục tiêu).
- Dữ liệu đã được chia thành train/validation/test trước khi điền giá trị thiếu và chuẩn hóa.
- Hoàn thành điền giá trị thiếu cho các thuộc tính.
- Các cột dạng số đã được chuẩn hóa Z-score (trừ `life_expectancy`, `year`).

---

### Kết quả cuối cùng:
| Tập dữ liệu | Tỉ lệ | Ghi chú |
|-----------|------|---------|
| Train | 60% mẫu | Dùng để huấn luyện mô hình |
| Validation | 20% mẫu | Dùng để điều chỉnh tham số, chọn mô hình tốt nhất |
| Test | 20% mẫu | Dùng để đánh giá mô hình cuối cùng |
