### Data Preparation

**Chuẩn bị dữ liệu** (Data preparation) là một bước quan trọng trong quá trình khai phá dữ liệu, chiếm khoảng **60-70%** thời gian của toàn bộ quá trình Data Mining. Nếu dữ liệu không được xử lý đúng cách, kết quả phân tích sẽ thiếu chính xác và không đáng tin cậy.

#### 1. Tổng quan về Data Preparation

Chuẩn bị dữ liệu bao gồm:
+ Làm sạch dữ liệu (data cleaning)
+ Tích hợp dữ liệu (data integration)
+ Biến đổi dữ liệu (data transformation)
+ Giảm chiều dữ liệu (dimensionality reduction)
+ Chia tách dữ liệu (Data splitting)

#### 2. Chi tiết các bước

##### 2.1 Làm sạch dữ liệu (data cleaning)
Dữ liệu thực tế thường có lỗi, dữ liệu trống hoặc dữ liệu nhiễu. Các bước phổ biến trong làm sạch dữ liệu gồm:
1. Xử lý giá trị thiếu (missing data)
    + Loại bỏ hàng hoặc cột: Nếu số lượng giá trị thiếu lớn
    + Điền giá trị thay thế:
        + Trung bình (`mean`) hoặc trung vị (`median`) cho dữ liệu số
        + Giá trị phổ biến nhất (`mode`) cho dữ liệu phân loại
    + Dự đoán giá trị thiếu bằng KNN hoặc Regression

In [1]:
import pandas as pd 
from sklearn.impute import SimpleImputer

In [2]:
data = {'age': [25, 30, None, 35], 'salary': [50000, None, 60000, 58000]}
df = pd.DataFrame(data)

In [3]:
imputer = SimpleImputer(strategy='mean')
df_filled = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
print(df_filled)

    age   salary
0  25.0  50000.0
1  30.0  56000.0
2  30.0  60000.0
3  35.0  58000.0


2. Xử lý dữ liệu nhiễu (Outliers)
    + Phương pháp loại bỏ: Loại bỏ các điểm nằm quá xa trung bình (ví dụ, 3 lần độ lệch chuẩn)
    + Phương pháp làm mịn dữ liệu: Áp dụng kỹ thuật như binning hoặc smoothing để giảm ảnh hưởng của nhiễu

3. Chuẩn hóa định dạng: Đảm bảo dữ liệu tuân theo cùng một định dạng (ví dụ ngày tháng `YYYY-MM-DD`)

##### 2.2 Tích hợp dữ liệu (Data Intergration)
Khi dữ liệu đến từ nhiều nguồn khác nhau (ví dụ: nhiều cơ sở dữ liệu hoặc tệp csv), cần:
+ Xử lý trùng lặp: loại bỏ hoặc hợp nhất dữ liệu trùng lặp
+ Kết hợp dữ liệu (Joins): dùng các kỹ thuật inner join, outer join để hợp nhất dữ liệu từ nhiều bảng

In [4]:
import pandas as pd 

df1 = pd.DataFrame({'ID': [1, 2, 3], 'Name': ['Alice', 'Bob', 'Charlie']})
df2 = pd.DataFrame({'ID': [1, 2, 4], 'Score': [85, 90, 88]})


In [5]:
merged_df = pd.merge(df1, df2, on='ID', how='inner')
print(merged_df)

   ID   Name  Score
0   1  Alice     85
1   2    Bob     90


##### 2.3 Biến đổi dữ liệu (data transformation)

Biến đổi dữ liệu giúp tăng hiệu quả của các thuật toán khai phá. Một số kỹ thuật phổ biến:
1. Chuẩn hóa dữ liệu (normaliaztion)
Đưa dữ liệu về cùng một thang đo để các biến có trọng số tương đương trong mô hình

**Ví dụ: Min-Max Scaling**

In [7]:
from sklearn.preprocessing import MinMaxScaler

data = [[200, 5000], [150, 7000], [300, 8000]]
scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)
print(normalized_data)

[[0.33333333 0.        ]
 [0.         0.66666667]
 [1.         1.        ]]


2. Mã hóa dữ liệu phân loại (Encoding)
Chuyển dữ liệu dạng phân loại thành số để mô hình có thể xử lý.
+ Label Encoding: chuyển từng nhãn thành số nguyên.
+ One-hot Encoding: biến mỗi nhãn thành một cột nhị phân

In [8]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np 

In [9]:
data = np.array([['Red'], ['Green'], ['Blue']])
encoder = OneHotEncoder(sparse_output=False)
one_hot = encoder.fit_transform(data)
print(one_hot)

[[0. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]]


3. Tạo đặc trưng mới (Feature Engineering)
+ Tạo ra các biến mới từ dữ liệu hiện có để cải thiện hiệu quả của mô hình
+ Ví dụ chuyển đổi dữ liệu thời gian thành các tính năng như từ trong tuần, giờ trong ngày

##### 2.4 Giảm chiều dữ liệu (Dimensionality Reduction)
Khi có quá nhiều biến (features), việc giảm chiều giúp: 
+ Tránh hiện tượng quá khớp (overfitting)
+ Tăng tốc độ xử lý
Các kỹ thuật phổ biến:
+ PCA: chuyển dữ liệu sang không gian mới với ít chiều hơn
+ Lọc đặc trưng (Feature Selection): loại bỏ những biến không quan trọng

##### 2.5 Chia tách dữ liệu (Data Splitting)
Để đánh giá mô hình, cần chia dữ liệu thành hai phần:
+ Tập huấn luyện (training set): dùng để huấn luyện mô hình (~70-80% dữ liệu)
+ Tập kiểm tra (test set): dùng để đánh giá độ chính xác của mô hình (~20-30%)

In [10]:
from sklearn.model_selection import train_test_split

X = [[1, 2], [2, 3], [3, 4], [4, 5]]
y = [0, 0, 1, 1]

In [11]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
print(f"Training Set: {X_train}, Test Set: {X_test}")

Training Set: [[1, 2], [4, 5], [2, 3]], Test Set: [[3, 4]]


#### 3. Thách thức trong chuẩn bị dữ liệu
+ Dữ liệu lớn: xử lý hàng triệu bản ghi đòi hỏi tài nguyên tính toán mạnh mẽ.
+ Dữ liệu nhiễu và thiếu nhiều: Phải cân nhắc giữa việc loại bỏ hoặc dự đoán.
+ chêch lệch phân phối dữ liệu: các tập huấn luyện và kiểm tra phải được phân phối đồng đều.

#### 4. Kết luận
Data Preparation là một bước cốt lõi trong quá trình khai phá dữ liệu. Dữ liệu chất lượng tốt là nền tảng của mô hình học máy hoặc phân tích dữ liệu cho ra kết quả chính xác.