Tiền xử lý dữ liệu là gì?

- Là bước đầu tiên quan trọng trong việc phân tích dữ liệu. Nó cho phép bạn chuyển đổi dữ liệu thô thành định dạng dễ hiểu và có thể sử dụng để phân tích. Đây là một quy trình toàn diện đảm bảo dữ liệu được chuẩn bị và sẵn sàng cho các giai đoạn khám phá, lập mô hình và diễn giải tiếp theo.

Tiền xử lý để làm gì?
- Dữ liệu thô thường không hoàn hảo: có thể chứa giá trị thiếu, nhiễu, hoặc không nhất quán
- Tăng độ chính xác: giúp mô hình học máy hoạt động tốt hơn
- Chuẩn hóa định dạng: dữ liệu có thể đến từ nguồn khác nhau với cấu trúc khác nhau
- Giảm độ phức tạp: làm sạch dữ liệu để tăng tốc quá trình xử lý và phân tích
- Các mô hình ML chỉ làm việc với dữ liệu ma trận hoặc vector
- Dễ lưu trữ/ truy vấn



Các bước tiền xử lý dữ liệu

1. Thu thập dữ liệu
- Tập hợp dữ liệu từ các nguồn khác nhau: cơ sở dữ liệu, API, tập tin CSV, logs, v.v
- Xác định các yếu tố ảnh hưởng đển chất lượng dữ liệu, ví dụ: độ đầy đủ, tính tin cậy

2. Xử lý giá trị thiếu
- Loại bỏ các hàng hoặc cột có nhiều giá trị thiếu
- Thay thế giá trị thiếu bằng:
    + Trung bình (Mean): thường dùng cho dữ liệu số
    + Trung vị (Median): Tốt hơn trong trường hợp dữ liệu bị lệch
    + Mode: áp dụng cho dữ liệu phân loại
    + Giá trị cố định hoặc dự đoán bằng các thuật toán




3. Xử lý dữ liệu không hợp lệ
- Loại bỏ các giá trị bất thường (outliers) hoặc nhiễu
- Chuyển đổi định dạng (ví dụ: đổi ngày tháng từ định dạng text sang datetime)

4. Chuẩn hóa
- Normalization
    + Đưa dữ liệu về khoảng giá trị [0, 1] hoặc [-1, 1]
    + Công thức phổ biến:
        $$
        X_\text{normalized} = \frac{X - X_\text{min}}{X_\text{max} - X_\text{min}}
        $$
- Standardization
    + Chuyển dữ liệu về phân phối chuẩn (mean = 0, standard deviation = 1)
    + Công thức:
    $$
        Z = \frac{X - \mu}{\sigma}
    $$
    Trong đó $\mu$ là giá trị trung bình, $\sigma$ là độ lệch chuẩn



In [16]:
import pandas as pd
import numpy as np

# Dữ liệu mẫu
data = {'Name': ['A', 'B', 'C', 'D', 'E'],
        'Age': [25, 30, 120, -5, 40],  # 120 và -5 là không hợp lệ
        'Score': [80, 95, np.nan, 70, 200]}  # np.nan và 200 là không hợp lệ
df = pd.DataFrame(data)

# 1. Xử lý giá trị không hợp lệ trong cột 'Age' (phạm vi hợp lệ: 0-100)
df['Age'] = df['Age'].apply(lambda x: np.nan if x < 0 or x > 100 else x)

# 2. Xử lý giá trị thiếu hoặc không hợp lệ trong cột 'Score' (giới hạn max = 100)
df['Score'] = df['Score'].apply(lambda x: np.nan if x > 100 else x)

# 3. Điền giá trị thiếu bằng trung bình
df['Age'] = df['Age'].fillna(df['Age'].mean())
df['Score'] = df['Score'].fillna(df['Score'].mean())

print(df)




  Name        Age      Score
0    A  25.000000  80.000000
1    B  30.000000  95.000000
2    C  31.666667  81.666667
3    D  31.666667  70.000000
4    E  40.000000  81.666667


 Normalization

In [17]:
from sklearn.preprocessing import MinMaxScaler

# Chuẩn hóa dữ liệu
scaler = MinMaxScaler(feature_range=(0, 1))
df[['Age', 'Score']] = scaler.fit_transform(df[['Age', 'Score']])

print(df)


  Name       Age     Score
0    A  0.000000  0.400000
1    B  0.333333  1.000000
2    C  0.444444  0.466667
3    D  0.444444  0.000000
4    E  1.000000  0.466667


Standardization

In [18]:
from sklearn.preprocessing import StandardScaler

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
df[['Age', 'Score']] = scaler.fit_transform(df[['Age', 'Score']])

print(df)


  Name           Age         Score
0    A -1.380131e+00 -2.094270e-01
1    B -3.450328e-01  1.675416e+00
2    C  1.723785e-16  3.487659e-16
3    D  1.723785e-16 -1.465989e+00
4    E  1.725164e+00  3.487659e-16


5. Biến đổi dữ liệu (Feature Transformation)
- Log Transformation: Dùng để giảm ảnh hưởng của dữ liệu lệch
- Square Root Transformation
- Power Transformation
- Scaling and Normalization: Đưa dữ liệu về một phạm vi cố định hoặc phân phối chuẩn.
- Encoding dữ liệu phân loại:
    + One-hot encoding: biến đổi dữ liệu phân loại thành dạng nhị phân
    + Label encoding: Gán nhãn số cho các giá trị phân loại.
    + Binary Encoding
        Mỗi giá trị phân loại được chuyển đổi thành một số nguyên duy nhất.
        Số nguyên này sau đó được chuyển thành dạng nhị phân.
        Các chữ số nhị phân được lưu trong các cột riêng biệt (mỗi chữ số là một cột).
    + BaseN Encoding: giống binary encoding nhưng với nhiều cơ số khác tùy ý
    


Log Transformation

In [19]:
import numpy as np
import pandas as pd

# Dữ liệu mẫu
data = {'Value': [1, 10, 100, 1000, 10000]}
df = pd.DataFrame(data)

# Biến đổi log
df['Log_Value'] = np.log1p(df['Value'])  # log(1 + X)
print(df)


   Value  Log_Value
0      1   0.693147
1     10   2.397895
2    100   4.615121
3   1000   6.908755
4  10000   9.210440


Square Root Transformation

In [20]:
# Biến đổi căn bậc hai
df['Sqrt_Value'] = np.sqrt(df['Value'])
print(df)


   Value  Log_Value  Sqrt_Value
0      1   0.693147    1.000000
1     10   2.397895    3.162278
2    100   4.615121   10.000000
3   1000   6.908755   31.622777
4  10000   9.210440  100.000000


Power Transformation

- Để khuếch đại ảnh hưởng của các giá trị lớn hơn
- Chuyển đổi dữ liệu về phân phối chuẩn khi sử dụng Box-Cox hoặc Yeo-Johnson.


In [21]:
# Biến đổi bình phương
df['Squared_Value'] = df['Value'] ** 2
print(df)


   Value  Log_Value  Sqrt_Value  Squared_Value
0      1   0.693147    1.000000              1
1     10   2.397895    3.162278            100
2    100   4.615121   10.000000          10000
3   1000   6.908755   31.622777        1000000
4  10000   9.210440  100.000000      100000000


Min-Max Scaling

In [22]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler(feature_range=(0, 1))
df['Min_Max_Scaled'] = scaler.fit_transform(df[['Value']])
print(df)


   Value  Log_Value  Sqrt_Value  Squared_Value  Min_Max_Scaled
0      1   0.693147    1.000000              1        0.000000
1     10   2.397895    3.162278            100        0.000900
2    100   4.615121   10.000000          10000        0.009901
3   1000   6.908755   31.622777        1000000        0.099910
4  10000   9.210440  100.000000      100000000        1.000000


Z-score Standardization

In [23]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df['Z_Score'] = scaler.fit_transform(df[['Value']])
print(df)


   Value  Log_Value  Sqrt_Value  Squared_Value  Min_Max_Scaled   Z_Score
0      1   0.693147    1.000000              1        0.000000 -0.568533
1     10   2.397895    3.162278            100        0.000900 -0.566229
2    100   4.615121   10.000000          10000        0.009901 -0.543193
3   1000   6.908755   31.622777        1000000        0.099910 -0.312831
4  10000   9.210440  100.000000      100000000        1.000000  1.990787


One-Hot Encoding và Label Encoding

In [26]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

categories = ['cat', 'dog', 'bird']
data = pd.DataFrame({'Category': ['cat', 'dog', 'bird', 'dog', 'cat']})
encoder = OneHotEncoder()
encoded = encoder.fit_transform(data[['Category']])
encoded_df = pd.DataFrame(encoded.toarray(), columns=encoder.get_feature_names_out(['Category']))
print(encoded_df)

   Category_bird  Category_cat  Category_dog
0            0.0           1.0           0.0
1            0.0           0.0           1.0
2            1.0           0.0           0.0
3            0.0           0.0           1.0
4            0.0           1.0           0.0


6. Rút gọn dữ liệu (Dimensionality Reduction)
- PCA (Principal Component Analysis): giảm số chiều nhưng vẫn giữ lại thông tin quan trọng
    - cách hoạt động:
        + Chuẩn hóa dữ liệu về trung bình = 0.
        + Tính ma trận hiệp phương sai (CovarianceMatrix).
        + Tính các giá trị riêng (eigenvalues) và vector riêng (eigenvectors).
        + Chọn các vector riêng tương ứng với các giá trị riêng lớn nhất để tạo thành không gian mới.


- Lựa chọn dặc trung (Feature Selection): loại bỏ các đặc trung ít quan trọng
    + Mục đích: Chọn một tập con các đặc trưng quan trọng nhất trong tập dữ liệu, thay vì sử dụng toàn bộ.

- Tác dụng:
    + Tăng hiệu quả tính toán: ít đặc trưng hơn giúp thuật toán chạy nhanh hơn
    + Giảm nhiễu: loại bỏ các đặc trưng không quan trọng hoặc dư thừa, giúp cải thiện hiệu suất của mô hình
    + Trực quan hóa: giảm dữ liệu xuống 2 hoặc 3 chiều để có thể trực quan hóa

7. Chia tách dữ liệu
Chia dữ liệu thành:
    - Tập huấn luyện: 70-80% dữ liệu
    - Tập kiểm tra: 20-30% dữ liệu
Đảm bảo tính ngẫu nhiên hoặc phân tầng khi tách dữ liệu

Các công cụ hỗ trợ tiền xử lý dữ liệu

- Python

- R

- SQL

- Excel/GG sheets


Lưu ý:
- Hiểu rõ dữ liệu trước khi xử lý: Kiểm tra phân phối, giá trị ngoại lệ, kiểu dữ liệu

- Luôn lưu trữ dữ liệu gốc để đối chiếu khi cần

- Tránh overfitting khi tiền xử lý: không áp dụng thông tin từ tập kiểm tra vào tập huấn luyện

- Ghi nhận các bước tiền xử lý để đảm bảo tái tạo dữ liệu khi cần


Tham khảo: https://neptune.ai/blog/data-preprocessing-guide
https://www.thienhang.com/2024/04/data-preprocessing.html
