**Tiền xử lý Dữ liệu**
* Trong AI và Machine Learning, chất lượng của dữ liệu ảnh hưởng trực tiếp đến hiệu quả của mô hình. Dữ liệu thực tế thường không sạch, chứa nhiều giá trị thiếu, dữ liệu không đồng nhất, nhiễu, hoặc chênh lệch đơn vị đo.

**Các bước tiền xử lý dữ liệu phổ biến**
* Xử lý giá trị thiếu (Missing values)

* Chuẩn hóa dữ liệu (Normalization/Standardization)

* Mã hóa dữ liệu phân loại (Label Encoding, One-hot encoding)

* Phát hiện và loại bỏ ngoại lệ (Outliers)

* Trích xuất đặc trưng (Feature engineering)

* Chia tập dữ liệu (Train/Test Split)

**Xử lý giá trị thiếu**
* Loại bỏ dòng/cột chứa giá trị thiếu
* Thay thế giá trị thiếu bằng giá trị trung bình, trung vị, hoặc mode :
*  df['column'].fillna(df['column'].mean(), inplace=True)
*  df['column'].fillna(df['column'].median(), inplace=True)
*  df['column'].fillna(df['column'].mode()[0], inplace=True)  #điền giá trị thiếu (NaN) trong cột column bằng giá trị xuất hiện nhiều nhất (mode) trong cột đó.

**Chuẩn hóa dữ liệu**
* Chuẩn hóa (Normalization): Đưa dữ liệu về khoảng [0, 1]
* Chuẩn hóa Z-score (Standardization): Biến đổi về phân phối chuẩn

In [34]:
import pandas as pd
df = pd.read_csv("titanic/train.csv")
df.head()



Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [35]:

print(df.isnull().sum())

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


In [36]:

df['Age'].fillna(df['Age'].mean(), inplace=True) # Điền tuổi thiếu bằng giá trị trung bình
df.drop(columns=['Cabin'], inplace=True) # Cột Cabin có quá nhiều giá trị thiếu => xóa luôn
df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True) # Cột Embarked có 2 giá trị thiếu => dùng mode để điền

In [37]:
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1}) # mã hóa giới tính label encoding
df = pd.get_dummies(df, columns=['Embarked']) # Mã hóa cột Embarked (C/Q/S) bằng one-hot encoding
print(df.head())

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name  Sex   Age  SibSp  Parch  \
0                            Braund, Mr. Owen Harris    0  22.0      1      0   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...    1  38.0      1      0   
2                             Heikkinen, Miss. Laina    1  26.0      0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)    1  35.0      1      0   
4                           Allen, Mr. William Henry    0  35.0      0      0   

             Ticket     Fare  Embarked_C  Embarked_Q  Embarked_S  
0         A/5 21171   7.2500       False       False        True  
1          PC 17599  71.2833        True       False       False  
2  STON/O2. 3101282   7.9250       False       False        True  
3            113803  53.1000

In [38]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
columns_to_scale = ['Age', 'Fare']

df[columns_to_scale] = scaler.fit_transform(df[columns_to_scale])
print(df.head())


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name  Sex       Age  SibSp  \
0                            Braund, Mr. Owen Harris    0  0.271174      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...    1  0.472229      1   
2                             Heikkinen, Miss. Laina    1  0.321438      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)    1  0.434531      1   
4                           Allen, Mr. William Henry    0  0.434531      0   

   Parch            Ticket      Fare  Embarked_C  Embarked_Q  Embarked_S  
0      0         A/5 21171  0.014151       False       False        True  
1      0          PC 17599  0.139136        True       False       False  
2      0  STON/O2. 3101282  0.015469       False       False        True  
3      0      