# Xử lý missing data trong Data analysis

Xử lý missing value là quá trình xử lý các giá trị bị thiếu trong một tập dữ liệu. 

Giá trị bị thiếu có thể xảy ra do nhiều lý do, chẳng hạn như lỗi nhập dữ liệu, lỗi cảm biến hoặc dữ liệu bị mất do các sự kiện bên ngoài.


## Những kiểu missing data
Có 3 loại missing data sẽ được trình bày ở dưới đây:

### Missing at Random - Dữ liệu bị khuyết ngẫu nhiên
Dữ liệu bị mất ngẫu nhiên, tuy nhiên vẫn có mối quan hệ giữa dữ liệu bị mất và dữ liệu còn. 

Ví dụ:

Những người trẻ tuổi (dưới 31t) bị khuyết dữ liệu về IQ, có nghĩa là có một mối quan hệ giữa biến IQ và biến tuổi.

![](https://images.viblo.asia/a622d3a1-120c-4e3a-a789-6974b7519080.png)

### Missing Completely at Random - Dữ liệu thiếu hoàn toàn ngẫu nhiên

Dữ liệu bị mất hoàn hoàn ngẫu nhiên, không có quy luật, và không có bất kỳ một mối quan hệ hay sự liên quan nào giữa dữ liệu mất và dữ liệu còn

![](https://images.viblo.asia/54c9503c-46e3-41e2-b211-97c1baf3addc.png)

### Missing Not at Random - Dữ liệu khuyết không ngẫu nhiên

Giống với Missing at random, nhưng quan hệ giữa dữ liệu mất và còn là quan hệ có xu hướng

ví dụ:

Những người có IQ thấp sẽ bị missing còn IQ cao thì không bị thiếu

![](https://images.viblo.asia/26dd1669-7576-4ce4-875b-5004505bf8ce.png)

## Phương pháp xử lý

Có một số phương pháp khác nhau để xử lý missing value, tùy thuộc vào bản chất của dữ liệu và mục đích của phân tích.

**Các phương pháp xử lý missing value**

* **Xóa bỏ các trường hợp có missing value:** Phương pháp này chỉ khả thi khi số lượng missing value nhỏ và dữ liệu còn lại vẫn đại diện cho tập dữ liệu ban đầu.
* **Thay thế missing value bằng giá trị trung bình, trung vị hoặc giá trị thường gặp nhất:** Phương pháp này có thể làm sai lệch dữ liệu nếu các missing value không được phân bố ngẫu nhiên.
* **Nội suy:** Sử dụng các giá trị lân cận để ước tính missing value. Các phương pháp nội suy phổ biến bao gồm nội suy tuyến tính, nội suy bậc hai và nội suy spline.
* **Mô hình hóa missing value:** Sử dụng các mô hình thống kê hoặc máy học để dự đoán missing value dựa trên các biến khác trong dữ liệu.

## Ví dụ

Giả sử chúng ta có một tập dữ liệu về doanh số bán hàng với một số missing value trong cột "doanh số".

```python
    # kiểm tra giá trị bị thiếu NaN
    df.isna().sum()
```
**1. Phương pháp xóa bỏ:**

Nếu chỉ có một số ít missing value và chúng được phân bố ngẫu nhiên, chúng ta có thể xóa bỏ các trường hợp có missing value.

```python
    # Xóa bỏ các trường hợp có missing value
    df = df.dropna()
```

**2. Phương pháp thay thế:**

Nếu missing value không được phân bố ngẫu nhiên, chúng ta có thể thay thế chúng bằng giá trị trung bình, trung vị hoặc giá trị thường gặp nhất.

```python
    # Thay thế missing value bằng giá trị trung bình
    df['doanh_so'].fillna(df['doanh_so'].mean(), inplace=True)

    # Thay thế missing value bằng giá trị thường gặp nhất
    df['doanh_so'].fillna(df['doanh_so'].mode()[0], inplace=True)
```

**3. Phương pháp nội suy:**

Nếu missing value nằm giữa các giá trị đã biết, chúng ta có thể sử dụng nội suy để ước tính chúng.

```python
    # Nội suy tuyến tính
    df['doanh_so'].interpolate(method='linear', inplace=True)

    # Nội suy bậc hai
    df['doanh_so'].interpolate(method='quadratic', inplace=True)
```

**4. Phương pháp mô hình hóa:**

Nếu missing value có liên quan đến các biến khác trong dữ liệu, chúng ta có thể sử dụng mô hình thống kê hoặc máy học để dự đoán chúng.

```python
    # Sử dụng mô hình hồi quy tuyến tính để dự đoán missing value
    from sklearn.linear_model import LinearRegression
    model = LinearRegression()
    model.fit(df[['bien_1', 'bien_2']], df['doanh_so'])
    df['doanh_so'].fillna(model.predict(df[['bien_1', 'bien_2']]), inplace=True)
```

Việc lựa chọn phương pháp xử lý missing value phù hợp phụ thuộc vào bản chất của dữ liệu, mục đích của phân tích và số lượng missing value.