# Làm sạch dữ liệu cơ bản


## 1. Tạo dữ liệu

In [1]:
import pandas as pd

data = {
    "id" : [1, 2, 3, 4, 5],
    "name" : ["Anh", "Em", "Phong", "Phú", None],
    "age" : [20, 14, 28, 12, 50],
    "email" : ["anh@vlu.edu.vn", "em@gmail.com", "phong@vanlanguni.vn", "phu@yahoo.com", None],
    "salary" : [None, 70000, 10000, 25000, 15000]
}
df = pd.DataFrame(data)

print(df)

   id   name  age                email   salary
0   1    Anh   20       anh@vlu.edu.vn      NaN
1   2     Em   14         em@gmail.com  70000.0
2   3  Phong   28  phong@vanlanguni.vn  10000.0
3   4    Phú   12        phu@yahoo.com  25000.0
4   5   None   50                 None  15000.0


In [2]:
# Lấy 5 dòng đầu tiên

df.head()

Unnamed: 0,id,name,age,email,salary
0,1,Anh,20,anh@vlu.edu.vn,
1,2,Em,14,em@gmail.com,70000.0
2,3,Phong,28,phong@vanlanguni.vn,10000.0
3,4,Phú,12,phu@yahoo.com,25000.0
4,5,,50,,15000.0


In [3]:
# Kiểm tra dữ liệu thiếu

df.isnull().sum()

id        0
name      1
age       0
email     1
salary    1
dtype: int64

In [4]:
# Điền giá trị thiếu bằng giá trị trung bình cho cột salary

df["salary"].fillna(df["salary"].mean(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["salary"].fillna(df["salary"].mean(), inplace=True)


In [7]:
# Điền giá trị thiếu bằng Unknow cho cột "Name" và cột "email"

df["name"].fillna("Unknow", inplace=True)
df["email"].fillna("Unknow", inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["email"].fillna("Unknow", inplace=True)


In [5]:
# Kiểm tra lại dữ liệu thiếu

df.isnull().sum()

id        0
name      1
age       0
email     1
salary    0
dtype: int64

In [8]:
df.head()

Unnamed: 0,id,name,age,email,salary
0,1,Anh,20,anh@vlu.edu.vn,30000.0
1,2,Em,14,em@gmail.com,70000.0
2,3,Phong,28,phong@vanlanguni.vn,10000.0
3,4,Phú,12,phu@yahoo.com,25000.0
4,5,Unknow,50,Unknow,15000.0


In [11]:
# Loại bỏ dữ liệu trùng lập

df.drop_duplicates(inplace=True)
df

Unnamed: 0,id,name,age,email,salary
0,1,Anh,20,anh@vlu.edu.vn,30000.0
1,2,Em,14,em@gmail.com,70000.0
2,3,Phong,28,phong@vanlanguni.vn,10000.0
3,4,Phú,12,phu@yahoo.com,25000.0
4,5,Unknow,50,Unknow,15000.0


In [12]:
# Chuẩn hóa cột name bằng cách viết hoa chữ cái đầu

df["name"] = df["name"].str.title()


In [13]:
# Chuẩn hóa cột email bằng cách chuyển về chữ thường

df["email"] = df["email"].str.lower()

df

Unnamed: 0,id,name,age,email,salary
0,1,Anh,20,anh@vlu.edu.vn,30000.0
1,2,Em,14,em@gmail.com,70000.0
2,3,Phong,28,phong@vanlanguni.vn,10000.0
3,4,Phú,12,phu@yahoo.com,25000.0
4,5,Unknow,50,unknow,15000.0


In [14]:
# Lưu dữ liệu đã làm sạch

df.to_csv("Dulieulamsach.csv", index=False)

# Bài tập về nhà

### Cho dữ liệu dirty_data.csv
1. Kiểm tra dữ liệu bị thiếu:
    - Kiểm tra các cột có dữ liệu thiếu
    - Điền giá trị phù hợp hoặc loại bỏ các hàng có quá nhiều dữ liệu thiếu
2. Phát hiện và sửa lỗi dữ liệu bất thường:
    - Tìm các giá trị bất thường trong cột tuổi(age) có thể là âm hoặc quá lớn
    - Kiểm tra cột thu nhập(income) để phát hiện dữ liệu bị sai
3. Chuẩn hóa dạng dữ liệu:
    - Chuyển đổi cột ngày sinh và dạng chuẩn yyyy-mm-dd
    - Chuẩn hóa dữ liệu trong cột giới tính(gender) để chỉ có 2 giới tính hợp lệ là "Male" và "Female"
4. Xóa bỏ dữ liệu trùng lặp:
    - Xác định và xóa các bảng ghi trùng lặp dựa trên thông tin KH 
5. Xuất dữ liệu sạch:
    - Lưu tệp dữ liệu đã làm sạch thành tệp mới clean_data.csv

In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv("dirty_data.csv")

print("Số lượng giá trị thiếu trong từng cột:")
print(df.isnull().sum())

df = df.dropna(subset=["income"])

df["age"] = df["age"].apply(lambda x: np.nan if x < 0 or x > 120 else x)
df["age"] = df["age"].fillna(df["age"].median())  

df["income"] = pd.to_numeric(df["income"], errors="coerce")  
df["income"] = df["income"].apply(lambda x: np.nan if x < 0 else x)
df["income"] = df["income"].fillna(df["income"].median())  

df["dob"] = pd.to_datetime(df["dob"], errors="coerce").dt.strftime("%Y-%m-%d")

df["gender"] = df["gender"].str.lower().map({"male": "Male", "female": "Female", "m": "Male", "f": "Female", "fem": "Female"})
df["gender"] = df["gender"].fillna("Unknown")  

df = df.drop_duplicates(subset=["customer_id", "email"])

df.to_csv("clean_data.csv", index=False)

print("Dữ liệu đã được làm sạch và lưu vào clean_data.csv")


Số lượng giá trị thiếu trong từng cột:
customer_id    0
name           0
age            1
gender         0
dob            0
income         1
email          0
dtype: int64
Dữ liệu đã được làm sạch và lưu vào clean_data.csv
