### Cho dữ liệu dirty_data.csv 
1. Kiểm tra dữ liệu bị thiếu :
    - Kiểm tra các cột có dữ liệu thiếu
    - Điền giá trị phù hợp hoặc bỏ các hàng có quá nhiều dữ liệu thiếu 
2. Phát hiện và sửa lỗi dữ liệu bất thường :
    - Tìm các giá trị bất thường trong cột tuổi (age) có thể là âm hoạc quá lớn 
    - Kiểm tra cột thu nhập (income) để phát hiện lỗi bị sai
3. Chuyển hóa dạng dữ liệu :
    - Chuyển đổi cột ngày sinh về dạng chuẩn yyyy-mm-dd
    - Chuyển hóa dữ liệu trong cột giới tính (gender) để chỉ có 2 giới tính phù hợp là "Female" và "Male"
4. Xóa bỏ dữ liệu trùng lặp 
    - Xác định và xóa các bản ghi trùng lặp dựa trên thông tin khách hàng
5. Xuất dữ liệu sạch:
Lưu tập dữ liệu đã làm sạch thành tệp mới clean_data.csv

In [None]:
# 1. Kiểm tra dữ liệu bị thiếu :
#     - Kiểm tra các cột có dữ liệu thiếu
#     - Điền giá trị phù hợp hoặc bỏ các hàng có quá nhiều dữ liệu thiếu

import pandas as pd

# Đọc dữ liệu
df = pd.read_csv('dirty_data.csv')

# Kiểm tra dữ liệu thiếu
print("Dữ liệu thiếu trong từng cột:")
print(df.isnull().sum())

# Làm sạch dữ liệu: Chuyển các giá trị không phải số thành NaN
df['income'] = pd.to_numeric(df['income'], errors='coerce')

# Điền giá trị trung bình cho cột age
df['age'] = df['age'].fillna(df['age'].median())

# Điền giá trị trung bình cho cột income
df['income'] = df['income'].fillna(df['income'].median())

# Điền giá trị phổ biến (mode) cho cột gender
df['gender'] = df['gender'].fillna(df['gender'].mode()[0])

# In kết quả sau khi xử lý
print("Dữ liệu sau khi xử lý:")
print(df)


Dữ liệu thiếu trong từng cột:
customer_id    0
name           0
age            1
gender         0
dob            0
income         1
email          0
dtype: int64
Dữ liệu sau khi xử lý:
    customer_id          name    age   gender         dob  income  \
0           101  Nguyen Van A   25.0     Male   5/22/1998  1200.0   
1           102    Tran Thi B   42.0   Female   7/14/1981  4500.0   
2           103      Le Van C   -5.0     male   12/3/1995  3200.0   
3           104  Hoang Minh D  150.0        F   8/25/1980  -500.0   
4           105    Pham Thi E   30.0      Fem   9/30/1993  3800.0   
5           106  Nguyen Van F   28.0        M   11/2/1996  2500.0   
6           107     Bui Thi G   29.0   Female   6/15/1994  3800.0   
7           108    Dang Van H   40.0        f   1/29/1990  4200.0   
8           109      Vo Thi I   27.0     Male   4/10/1995  3900.0   
9           110    Phan Van J   22.0  unknown  12/20/1999  3800.0   
10          110    Phan Van J   22.0     Male  12/20/199

In [15]:
# Câu 2: Phát hiện và sửa lỗi dữ liệu bất thường :
    # - Tìm các giá trị bất thường trong cột tuổi (age) có thể là âm hoạc quá lớn 
    # - Kiểm tra cột thu nhập (income) để phát hiện lỗi bị sai

# Loại bỏ giá trị bất thường trong cột age
df = df[(df['age'] >= 0) & (df['age'] <= 120)]

# Loại bỏ giá trị âm trong cột income
df = df[df['income'] >= 0]

# Chuẩn hóa cột gender
df['gender'] = df['gender'].apply(lambda x: 'Male' if x.lower() in ['male', 'm'] else 'Female')

print(df)

    customer_id          name   age  gender         dob  income          email
0           101  Nguyen Van A  25.0    Male   5/22/1998  1200.0  a@example.com
1           102    Tran Thi B  42.0  Female   7/14/1981  4500.0  b@example.com
4           105    Pham Thi E  30.0  Female   9/30/1993  3800.0  e@example.com
5           106  Nguyen Van F  28.0    Male   11/2/1996  2500.0  f@example.com
6           107     Bui Thi G  29.0  Female   6/15/1994  3800.0  g@example.com
7           108    Dang Van H  40.0  Female   1/29/1990  4200.0  h@example.com
8           109      Vo Thi I  27.0    Male   4/10/1995  3900.0  i@example.com
9           110    Phan Van J  22.0  Female  12/20/1999  3800.0  j@example.com
10          110    Phan Van J  22.0    Male  12/20/1999  3900.0  j@example.com


In [16]:
# Câu 3: Chuyển hóa dạng dữ liệu :
#     - Chuyển đổi cột ngày sinh về dạng chuẩn yyyy-mm-dd
#     - Chuyển hóa dữ liệu trong cột giới tính (gender) để chỉ có 2 giới tính phù hợp là "Female" và "Male"

# Chuyển đổi cột dob về định dạng chuẩn
df['dob'] = pd.to_datetime(df['dob'], format='%m/%d/%Y', errors='coerce')

# Đảm bảo cột gender chỉ có hai giá trị
df['gender'] = df['gender'].apply(lambda x: 'Male' if x.lower() in ['male', 'm'] else 'Female')

# Chuyển đổi cột income sang kiểu float
df['income'] = df['income'].astype(float)

print(df)

    customer_id          name   age  gender        dob  income          email
0           101  Nguyen Van A  25.0    Male 1998-05-22  1200.0  a@example.com
1           102    Tran Thi B  42.0  Female 1981-07-14  4500.0  b@example.com
4           105    Pham Thi E  30.0  Female 1993-09-30  3800.0  e@example.com
5           106  Nguyen Van F  28.0    Male 1996-11-02  2500.0  f@example.com
6           107     Bui Thi G  29.0  Female 1994-06-15  3800.0  g@example.com
7           108    Dang Van H  40.0  Female 1990-01-29  4200.0  h@example.com
8           109      Vo Thi I  27.0    Male 1995-04-10  3900.0  i@example.com
9           110    Phan Van J  22.0  Female 1999-12-20  3800.0  j@example.com
10          110    Phan Van J  22.0    Male 1999-12-20  3900.0  j@example.com


In [18]:
# Câu 4: 4. Xóa bỏ dữ liệu trùng lặp 
    # - Xác định và xóa các bản ghi trùng lặp dựa trên thông tin khách hàng

# Xóa các bản ghi trùng lặp
df.drop_duplicates(subset=['customer_id'], inplace=True)

print(df)   

   customer_id          name   age  gender        dob  income          email
0          101  Nguyen Van A  25.0    Male 1998-05-22  1200.0  a@example.com
1          102    Tran Thi B  42.0  Female 1981-07-14  4500.0  b@example.com
4          105    Pham Thi E  30.0  Female 1993-09-30  3800.0  e@example.com
5          106  Nguyen Van F  28.0    Male 1996-11-02  2500.0  f@example.com
6          107     Bui Thi G  29.0  Female 1994-06-15  3800.0  g@example.com
7          108    Dang Van H  40.0  Female 1990-01-29  4200.0  h@example.com
8          109      Vo Thi I  27.0    Male 1995-04-10  3900.0  i@example.com
9          110    Phan Van J  22.0  Female 1999-12-20  3800.0  j@example.com


In [19]:
# Câu 5: Xuất dữ liệu sạch:
    # - Lưu tập dữ liệu đã làm sạch thành tệp mới clean_data.csv

# Lưu dữ liệu đã làm sạch
df.to_csv('clean_data.csv', index=False)