# <p style="text-align:center;">Preprocess</p>

In [5]:
import pandas as pd

In [None]:
df = pd.read_csv('../data/2425_QC.csv')

In [7]:
# Kiểm tra dữ liệu bị thiếu
missing_values = df.isnull().sum()
print("Số lượng missing values trong mỗi cột:")
print(missing_values)

Số lượng missing values trong mỗi cột:
Daily Time Spent on Site    0
Age                         1
Area Income                 0
Daily Internet Usage        0
Ad Topic Line               0
City                        0
Male                        0
Country                     0
Timestamp                   0
Clicked on Ad               0
dtype: int64


In [8]:
# Kiểm tra dòng bị trùng lặp
duplicates = df.duplicated()
print("Dòng bị trùng lặp:")
print(duplicates)

# Số lượng dòng bị trùng lặp
print("Số lượng dòng bị trùng lặp:", duplicates.sum())

Dòng bị trùng lặp:
0       False
1       False
2       False
3       False
4       False
        ...  
997     False
998     False
999     False
1000    False
1001     True
Length: 1002, dtype: bool
Số lượng dòng bị trùng lặp: 2


In [9]:
# Kiểm tra tỉ lệ của cột "Clicked on Ad"
label_balance = df['Clicked on Ad'].value_counts(normalize=True) * 100

label_balance

Clicked on Ad
0    50.0
1    50.0
Name: proportion, dtype: float64

In [10]:
# Bỏ dòng bị trùng lặp
df = df.drop_duplicates()

# Điền missing values bằng median
median_age = df['Age'].median()
df.loc[:, 'Age'] = df['Age'].fillna(median_age)

# Tính IQR
Q1 = df['Area Income'].quantile(0.25)
Q3 = df['Area Income'].quantile(0.75)
IQR = Q3 - Q1

# Xác định giới hạn
lower_limit = Q1 - 1.5 * IQR
upper_limit = Q3 + 1.5 * IQR

# Xóa outlier
df = df[(df['Area Income'] >= lower_limit) & (df['Area Income'] <= upper_limit)]

print("Dữ liệu sau khi xử lý outlier:")
print(df)

Dữ liệu sau khi xử lý outlier:
      Daily Time Spent on Site   Age  Area Income  Daily Internet Usage  \
0                        68.95  35.0     61833.90                256.09   
1                        80.23  31.0     68441.85                193.77   
2                        69.47  26.0     59785.94                236.50   
3                        74.15  29.0     54806.18                245.89   
4                        68.37  35.0     73889.99                225.58   
...                        ...   ...          ...                   ...   
996                      72.97  30.0     71384.57                208.58   
997                      51.30  45.0     67782.17                134.42   
998                      51.63  51.0     42415.72                120.37   
999                      55.55  19.0     41920.79                187.95   
1000                     45.01  35.0     29875.80                178.35   

                              Ad Topic Line            City  Male  \

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 991 entries, 0 to 1000
Data columns (total 10 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Daily Time Spent on Site  991 non-null    float64
 1   Age                       991 non-null    float64
 2   Area Income               991 non-null    float64
 3   Daily Internet Usage      991 non-null    float64
 4   Ad Topic Line             991 non-null    object 
 5   City                      991 non-null    object 
 6   Male                      991 non-null    int64  
 7   Country                   991 non-null    object 
 8   Timestamp                 991 non-null    object 
 9   Clicked on Ad             991 non-null    int64  
dtypes: float64(4), int64(2), object(4)
memory usage: 85.2+ KB


In [12]:
df['Timestamp'] = pd.to_datetime(df['Timestamp'], format='%d/%m/%Y %H:%M')

In [13]:
# Xuất ra file đã xử lý
df.to_csv('../data/2425_QC_processed.csv', index= False)