In [8]:
import pandas as pd

# Đọc dữ liệu từ file
dirty_data = pd.read_csv('dirty_data.csv')

# Kiểm tra các cột có dữ liệu thiếu
missing_data = dirty_data.isnull().sum()

# In ra số lượng dữ liệu bị thiếu trong các cột
print("Dữ liệu bị thiếu trong các cột:\n", missing_data)

# Đảm bảo cột "income" là kiểu số, chuyển đổi các giá trị không hợp lệ thành NaN
dirty_data['income'] = pd.to_numeric(dirty_data['income'], errors='coerce')

# Điền giá trị trung bình cho các cột numeric bị thiếu
dirty_data['age'].fillna(dirty_data['age'].mean(), inplace=True)
dirty_data['income'].fillna(dirty_data['income'].median(), inplace=True)


# Loại bỏ các hàng có quá nhiều dữ liệu thiếu (số lượng missing > 2)
dirty_data.dropna(thresh=dirty_data.shape[1]-2, inplace=True)


Dữ liệu bị thiếu trong các cột:
 customer_id    0
name           0
age            1
gender         0
dob            0
income         1
email          0
dtype: int64


In [10]:
# Phát hiện và sửa lỗi dữ liệu bất thường trong cột "age"
dirty_data = dirty_data[dirty_data['age'] >= 0]  # Loại bỏ các giá trị âm trong cột "age"
dirty_data = dirty_data[dirty_data['age'] <= 120]  # Loại bỏ các giá trị quá lớn trong cột "age"

# Phát hiện và sửa lỗi dữ liệu bất thường trong cột "income"
dirty_data = dirty_data[dirty_data['income'] > 0]  # Loại bỏ các giá trị âm hoặc bằng 0 trong cột "income"
dirty_data 


Unnamed: 0,customer_id,name,age,gender,dob,income,email
0,101,Nguyen Van A,25.0,Male,1998-05-22,1200.0,a@example.com
1,102,Tran Thi B,42.0,Female,1981-07-14,4500.0,b@example.com
4,105,Pham Thi E,30.0,Fem,1993-09-30,3800.0,e@example.com
5,106,Nguyen Van F,38.2,M,1996-11-02,2500.0,f@example.com
6,107,Bui Thi G,29.0,Female,1994/06/15,3800.0,g@example.com
7,108,Dang Van H,40.0,f,1990-01-29,4200.0,h@example.com
8,109,Vo Thi I,27.0,Male,1995-04-10,3900.0,i@example.com
9,110,Phan Van J,22.0,unknown,1999-12-20,3800.0,j@example.com
10,110,Phan Van J,22.0,Male,1999-12-20,3900.0,j@example.com


In [13]:
# Chuyển đổi cột "dob" (ngày sinh) về dạng chuẩn yyyy-mm-dd
dirty_data['dob'] = pd.to_datetime(dirty_data['dob'], errors='coerce')

# Chuẩn hóa dữ liệu trong cột giới tính (gender) chỉ có 2 giá trị hợp lệ: "Male" và "Female"
dirty_data['gender'] = dirty_data['gender'].apply(lambda x: 'Male' if x.lower() in ['male', 'm'] else ('Female' if x.lower() in ['female', 'f'] else 'Unknown'))

# Loại bỏ các giá trị "Unknown" trong cột giới tính
dirty_data = dirty_data[dirty_data['gender'] != 'Unknown']


In [14]:
# Xác định và xóa các bản ghi trùng lặp dựa trên thông tin khách hàng
dirty_data.drop_duplicates(subset=['customer_id'], keep='first', inplace=True)


In [15]:
# Lưu tập dữ liệu đã làm sạch thành tệp mới clean_data.csv
dirty_data.to_csv('clean_data.csv', index=False)
