## **Chapter 7: Data Cleaning and Preparation**

### **7.1 Handling Missing Data**

Trong quá trình phân tích dữ liệu thực tế, việc **dữ liệu bị thiếu** là điều không thể tránh khỏi. Bạn có thể gặp những cột bị bỏ trống, những ô không có thông tin do lỗi nhập liệu, hệ thống ghi nhận thiếu, hoặc đơn giản là dữ liệu chưa được thu thập.

Theo thống kê, **khoảng 80% thời gian làm phân tích dữ liệu được dành cho việc chuẩn bị dữ liệu**, trong đó có xử lý dữ liệu thiếu.

##### **🧠 Pandas hỗ trợ xử lý dữ liệu thiếu như thế nào?**

Một trong những mục tiêu của thư viện **pandas** là giúp việc xử lý dữ liệu thiếu trở nên **đơn giản, nhất quán** và **linh hoạt**.

**✅ Cách biểu diễn dữ liệu thiếu trong pandas:**
- Với dữ liệu dạng **số thực (float64)**, pandas sử dụng giá trị đặc biệt **NaN (Not a Number)**.
- Với dữ liệu dạng **chuỗi hoặc hỗn hợp (object)**, pandas chấp nhận cả NaN và None (giá trị rỗng trong Python).

In [2]:
import pandas as pd
import numpy as np

float_data = pd.Series([1.2, -3.5, np.nan, 0])
print(float_data)

0    1.2
1   -3.5
2    NaN
3    0.0
dtype: float64


##### **🔍 Phát hiện dữ liệu bị thiếu**

Bạn có thể sử dụng:
- `isna()` hoặc `pd.isna()`: trả về True nếu là giá trị bị thiếu.
- `notna()` hoặc `pd.notna()`: trả về True nếu là giá trị hợp lệ.

In [3]:
float_data.isna()

0    False
1    False
2     True
3    False
dtype: bool

Áp dụng cho chuỗi:

In [4]:
string_data = pd.Series(["aardvark", np.nan, None, "avocado"])
print(string_data.isna())

0    False
1     True
2     True
3    False
dtype: bool


##### **🧰 Các công cụ xử lý dữ liệu thiếu trong pandas**

![image.png](attachment:image.png)

##### **🧭 Tại sao xử lý dữ liệu thiếu lại quan trọng?**

- Tránh sai lệch khi tính toán thống kê (ví dụ: tính trung bình, tổng).
- Phát hiện lỗi thu thập dữ liệu hoặc xu hướng thiếu dữ liệu.
- Giúp mô hình học máy hoạt động chính xác hơn.

In [5]:
df = pd.DataFrame({
    "A": [1, 2, np.nan],
    "B": [4, np.nan, 6]
})

print(df.dropna())   # Xoá dòng nào có NaN
print(df.fillna(0))  # Thay thế NaN bằng 0

     A    B
0  1.0  4.0
     A    B
0  1.0  4.0
1  2.0  0.0
2  0.0  6.0


##### **🔎 Ghi nhớ**
- **NaN và None đều được coi là dữ liệu thiếu trong pandas.**
- Phân tích dữ liệu thiếu trước khi xử lý giúp bạn hiểu rõ hơn về chất lượng dữ liệu ban đầu.
- Pandas thiết kế nhất quán cho mọi kiểu dữ liệu để bạn dễ dàng làm việc mà không cần xử lý từng trường hợp đặc biệt.

#### **Filtering Out Missing Data**

Khi bạn làm việc với **dữ liệu thiếu**, bước đầu tiên phổ biến nhất chính là **lọc bỏ (filtering out)** những phần tử đó để đảm bảo dữ liệu sạch hơn.

##### **✂️ Cách 1: Lọc thủ công bằng Boolean Indexing**

Giả sử bạn có một Series chứa các giá trị thiếu:

In [6]:
data = pd.Series([1, np.nan, 3.5, np.nan, 7])
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

Bạn có thể lọc ra các phần tử **không bị thiếu** như sau:

In [7]:
data[data.notna()]

0    1.0
2    3.5
4    7.0
dtype: float64

Hoặc dùng `dropna()` – **ngắn gọn hơn** nhưng hiệu quả y hệt:

In [8]:
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

📌 Kết luận: `dropna()` trên Series **giữ lại những giá trị hợp lệ** (không bị thiếu).

##### **🧱 Làm việc với DataFrame**

**👇 Mặc định: dropna() loại bỏ các hàng chứa bất kỳ giá trị thiếu nào**

In [9]:
data = pd.DataFrame([
    [1.0, 6.5, 3.0],
    [1.0, np.nan, np.nan],
    [np.nan, np.nan, np.nan],
    [np.nan, 6.5, 3.0]
])
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [10]:
data.dropna()

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


👉 Chỉ giữ lại dòng **hoàn toàn không có giá trị thiếu**

**🧠 how="all": Chỉ loại các hàng mà toàn bộ giá trị đều bị thiếu**

In [11]:
data.dropna(how="all")

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


📌 Giữ lại cả những hàng có **ít nhất một giá trị hợp lệ**

**🔁 Loại bỏ cột bị thiếu hoàn toàn**

Bạn có thể loại bỏ **cột** thay vì hàng bằng cách truyền tham số `axis="columns"`.

In [12]:
data[4] = np.nan  # thêm cột toàn NaN
data.dropna(axis="columns", how="all")

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


##### **🎯 Lọc dữ liệu theo ngưỡng tối thiểu thresh**

Giả sử bạn chỉ muốn giữ lại những dòng có **ít nhất n giá trị hợp lệ** (không phải NaN).

In [13]:
df = pd.DataFrame(np.random.standard_normal((7, 3)))

df.iloc[:4, 1] = np.nan
df.iloc[:2, 2] = np.nan

df

Unnamed: 0,0,1,2
0,-0.109722,,
1,0.253009,,
2,0.636422,,0.123689
3,-1.052312,,0.217169
4,-0.138306,-0.760534,0.606219
5,-0.194847,-0.48108,-1.234267
6,-1.079453,-0.813604,0.15386


**💥 dropna(thresh=2) nghĩa là: chỉ giữ các dòng có ít nhất 2 giá trị hợp lệ**

In [14]:
df.dropna(thresh=2)

Unnamed: 0,0,1,2
2,0.636422,,0.123689
3,-1.052312,,0.217169
4,-0.138306,-0.760534,0.606219
5,-0.194847,-0.48108,-1.234267
6,-1.079453,-0.813604,0.15386


✅ Những dòng có quá nhiều giá trị thiếu (ít hơn 2 giá trị hợp lệ) sẽ bị loại bỏ.

##### **📌 Tóm lại: Các kỹ thuật lọc dữ liệu thiếu**
![image.png](attachment:image.png)

#### **Filling In Missing Data**

##### **🧠 Tại sao có dữ liệu bị thiếu (NaN)?**

Trong thực tế, dữ liệu rất hay bị thiếu! Ví dụ:
- Một khách hàng không điền địa chỉ email.
- Một cảm biến đo nhiệt độ bị lỗi và không ghi dữ liệu vào một số thời điểm.
- Một cột trong bảng Excel bị bỏ trống vài dòng.

Trong pandas, các giá trị bị thiếu thường được hiển thị là **NaN** (Not a Number). Trước khi phân tích hay huấn luyện mô hình học máy, **ta cần xử lý những giá trị này**!

##### **🎯 Các cách xử lý dữ liệu thiếu**

Có nhiều cách, nhưng hôm nay ta học cách **điền giá trị vào ô bị thiếu**, chứ **không xóa** dữ liệu:
![image.png](attachment:image.png)

##### **🔧 Hàm `fillna()` – công cụ “đa năng” xử lý NaN**

In [None]:
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None)

**✅ Điền tất cả NaN bằng một số cụ thể**

In [16]:
df.fillna(0)

Unnamed: 0,0,1,2
0,-0.109722,0.0,0.0
1,0.253009,0.0,0.0
2,0.636422,0.0,0.123689
3,-1.052312,0.0,0.217169
4,-0.138306,-0.760534,0.606219
5,-0.194847,-0.48108,-1.234267
6,-1.079453,-0.813604,0.15386


🔹 Đây là cách nhanh nhất để “lấp chỗ trống” bằng 0 – rất phù hợp khi giá trị thiếu không quan trọng hoặc có ý nghĩa là “chưa có”, “chưa đo được”…

**✅ Điền khác nhau cho từng cột**

In [17]:
df.fillna({1: 0.5, 2: 0})

Unnamed: 0,0,1,2
0,-0.109722,0.5,0.0
1,0.253009,0.5,0.0
2,0.636422,0.5,0.123689
3,-1.052312,0.5,0.217169
4,-0.138306,-0.760534,0.606219
5,-0.194847,-0.48108,-1.234267
6,-1.079453,-0.813604,0.15386


📌 Cột 1 sẽ được điền bằng 0.5, còn cột 2 bằng 0. Điều này cực kỳ hữu ích khi bạn biết rõ ý nghĩa của từng cột!

**✅ Điền theo dòng trước đó – `ffill` (forward fill)**

In [18]:
df.fillna(method='ffill')

  df.fillna(method='ffill')


Unnamed: 0,0,1,2
0,-0.109722,,
1,0.253009,,
2,0.636422,,0.123689
3,-1.052312,,0.217169
4,-0.138306,-0.760534,0.606219
5,-0.194847,-0.48108,-1.234267
6,-1.079453,-0.813604,0.15386


📌 Cách này sẽ dùng giá trị của dòng **trước đó** để lấp chỗ trống hiện tại.

![image.png](attachment:image.png)

**✅ `ffill` với giới hạn (limit)**

In [19]:
df.fillna(method='ffill', limit=2)

  df.fillna(method='ffill', limit=2)


Unnamed: 0,0,1,2
0,-0.109722,,
1,0.253009,,
2,0.636422,,0.123689
3,-1.052312,,0.217169
4,-0.138306,-0.760534,0.606219
5,-0.194847,-0.48108,-1.234267
6,-1.079453,-0.813604,0.15386


📌 Chỉ điền tối đa **2 ô liên tiếp**. Những ô thiếu tiếp theo sẽ vẫn là NaN.

**✅ Điền bằng giá trị thống kê – Trung bình**

In [20]:
data = pd.Series([1., np.nan, 3.5, np.nan, 7])
data.fillna(data.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

📌 Giá trị trung bình là (1 + 3.5 + 7) / 3 = **3.83**, sẽ được dùng để thay cho các NaN.

##### **🧰 Tổng kết bảng các tham số trong `fillna()`**
![image.png](attachment:image.png)

##### **💡 Mẹo thực hành**
🔸 Dữ liệu thời gian (time series)? → Ưu tiên dùng `ffill` hoặc `bfill`.  
🔸 Câu hỏi trắc nghiệm với câu trả lời trống? → Dùng trung bình hoặc mode.  
🔸 Mỗi cột có ý nghĩa khác nhau? → Dùng fillna({col1: val1, col2: val2}).  

### **7.2 Data Transformation**

#### **Removing Duplicates**

##### **🧠 Vì sao có dữ liệu trùng lặp?**

Trong thực tế, dữ liệu bị trùng là chuyện thường gặp, ví dụ:
- Nhập dữ liệu 2 lần do lỗi phần mềm.
- Người dùng gửi 2 lần cùng một form.
- Kết quả thu thập từ nhiều nguồn bị lặp.

**Dữ liệu trùng lặp gây sai lệch phân tích** → cần được xử lý!

##### **📊 Tạo ví dụ minh họa**

In [3]:
data = pd.DataFrame({
    "k1": ["one", "two"] * 3 + ["two"],
    "k2": [1, 1, 2, 3, 3, 4, 4]
})

print(data)

    k1  k2
0  one   1
1  two   1
2  one   2
3  two   3
4  one   3
5  two   4
6  two   4


-> Dòng 5 và dòng 6 trùng nhau

##### **🔍 Kiểm tra xem dòng nào bị trùng – dùng `duplicated()`**

In [4]:
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

📌 True nghĩa là **dòng này đã xuất hiện trước đó y chang** → trùng!

##### **✂️ Xoá dòng trùng lặp – dùng `drop_duplicates()`**

In [5]:
data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


✅ Dòng bị trùng (dòng 6) đã bị loại bỏ.

##### **🎯 Chỉ kiểm tra trùng theo 1 vài cột (subset)**

**📌 Thêm một cột v1:**

In [6]:
data["v1"] = range(7)

In [7]:
data

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
5,two,4,5
6,two,4,6


**👉 Giữ lại k1 duy nhất (xét trùng theo cột “k1”):**

In [8]:
data.drop_duplicates(subset=["k1"])

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1


💡 Dòng 2, 4, 3, 5, 6 bị xoá vì k1 đã xuất hiện trước rồi.

##### **🔁 Giữ dòng cuối cùng thay vì dòng đầu tiên**

**📌 Mặc định: keep="first" → giữ dòng đầu tiên**

**🆕 Thay đổi thành: keep="last" → giữ dòng cuối cùng**

In [9]:
data.drop_duplicates(subset=["k1", "k2"], keep="last")

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
6,two,4,6


-> Giữ lại dòng 6 thay vì dòng 5

##### **📚 Tổng hợp bảng kiến thức**
![image.png](attachment:image.png)

#### **Transforming Data Using a Function or Mapping**

##### **📌 Tình huống thực tế**

Giả sử bạn là một chuyên viên phân tích dữ liệu cho một công ty nghiên cứu thị trường thực phẩm. Bạn vừa nhận được một tập dữ liệu ghi lại các món ăn được khách hàng yêu thích và trọng lượng của chúng. Tuy nhiên, để phân tích sâu hơn, bạn muốn biết **món ăn đó xuất phát từ con vật nào** 🐷🐄🐟 để phục vụ mục tiêu như phân tích xu hướng ăn chay, sở thích người tiêu dùng, v.v.

##### **🧾 Bước 1: Tạo DataFrame giả lập**

Chúng ta bắt đầu với một bảng dữ liệu đơn giản gồm 2 cột: tên món ăn (food) và khối lượng (ounces):

In [10]:
data = pd.DataFrame({
    "food": ["bacon", "pulled pork", "bacon", "pastrami", 
             "corned beef", "bacon", "pastrami", "honey ham", "nova lox"],
    "ounces": [4, 3, 12, 6, 7.5, 8, 3, 5, 6]
})

print(data)

          food  ounces
0        bacon     4.0
1  pulled pork     3.0
2        bacon    12.0
3     pastrami     6.0
4  corned beef     7.5
5        bacon     8.0
6     pastrami     3.0
7    honey ham     5.0
8     nova lox     6.0


##### **🧭 Bước 2: Tạo ánh xạ (Mapping)**

Ta biết mỗi loại món ăn đến từ một loài động vật cụ thể:

In [11]:
meat_to_animal = {
    "bacon": "pig",
    "pulled pork": "pig",
    "pastrami": "cow",
    "corned beef": "cow",
    "honey ham": "pig",
    "nova lox": "salmon"
}

🧠 Ghi nhớ: map rất hữu ích khi bạn có một **mối quan hệ 1-1 giữa giá trị cũ và giá trị mới**. Ở đây, mỗi loại món ăn ứng với một loại động vật.

##### **🔄 Bước 3: Dùng `.map()` để biến đổi dữ liệu**

In [12]:
data["animal"] = data["food"].map(meat_to_animal)
print(data)

          food  ounces  animal
0        bacon     4.0     pig
1  pulled pork     3.0     pig
2        bacon    12.0     pig
3     pastrami     6.0     cow
4  corned beef     7.5     cow
5        bacon     8.0     pig
6     pastrami     3.0     cow
7    honey ham     5.0     pig
8     nova lox     6.0  salmon


##### **🧪 Giải thích thêm về .map()**

- `.map()` được dùng với **một Series** (tức là một cột).
- Nó **lặp qua từng phần tử** trong cột và áp dụng **ánh xạ** hoặc **hàm** lên từng phần tử đó.
- Nó trả về một **Series mới** chứa kết quả sau chuyển đổi.

##### **🧠 Nếu bạn cần linh hoạt hơn? Dùng hàm!**

Thay vì dùng dictionary, bạn có thể định nghĩa một hàm và truyền vào `.map()`:

In [13]:
def get_animal(food_name):
    return meat_to_animal[food_name]

data["animal"] = data["food"].map(get_animal)

Lợi ích của cách này:
- Có thể mở rộng hàm để xử lý lỗi.
- Dễ đọc hơn nếu logic phức tạp.

##### **🧯 Ví dụ nâng cao: Xử lý giá trị không tồn tại**

Giả sử có một món ăn chưa được định nghĩa trong `meat_to_animal`, bạn có thể xử lý bằng hàm:

In [14]:
def get_animal_safe(food_name):
    return meat_to_animal.get(food_name, "unknown")

data["animal"] = data["food"].map(get_animal_safe)

##### **🎁 Tổng kết bài học**
![image.png](attachment:image.png)

#### **Replacing Values**

Khi xử lý dữ liệu thực tế, bạn thường sẽ gặp những giá trị “lạ” như -999, 9999, "unknown" hay "?" đại diện cho dữ liệu thiếu (missing data) hoặc lỗi nhập liệu. Việc thay thế chúng bằng giá trị phù hợp như NaN là bước quan trọng trong quá trình làm sạch dữ liệu.

##### **🧾 Tình huống thực tế**

Bạn đang xử lý một bộ dữ liệu kết quả xét nghiệm từ một bệnh viện nhỏ vùng quê. Tuy nhiên, để tránh lộ dữ liệu bệnh nhân, thay vì để trống, hệ thống đã điền giá trị -999 hoặc -1000 mỗi khi **không lấy được mẫu xét nghiệm**. Nếu bạn không thay thế những giá trị này, các thống kê trung bình/số liệu phân tích sau này sẽ **bị méo mó** 😵

##### **🐍 Bước 1: Tạo dữ liệu minh họa**

In [15]:
data = pd.Series([1., -999., 2., -999., -1000., 3.])
print(data)

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64


🤔 Nhìn vào đây, rõ ràng -999 và -1000 **không phải là số đo thực**, mà là **giá trị đánh dấu đặc biệt**.

##### **🛠️ Bước 2: Dùng `.replace()` để thay thế giá trị**

✅ Trường hợp 1: Thay 1 giá trị