# MỤC TIÊU BÀI HỌC

## 1. Tiền xử lý dữ liệu
- Trình bày được các vấn đề liên quan đến dữ liệu
- Gỉai thích được tại sao cần tiền xử lý dữ liệu
- Thực hiện được các thao tác xử lý dữ liệu <b>khuyết thiếu</b>
- Thực hiện được các thao tác xử lý dữ liệu <b>ngoại lai</b>

## 2. Chuẩn hóa dữ liệu
- Trình bày được ý nghĩa của chuẩn hóa dữ liệu
- Trình bày được các phương pháp chuẩn hóa
- Áp dụng được các phương pháp chuẩn hóa


### Các vấn đề với dữ liệu
Dữ liệu thu được từ thực tế có vấn đề:
- Không hoàn chỉnh: Thiếu thuộc tính
  - Do tại thời điểm thu thập không có.
  - Các vấn đề do sai sót từ phần mềm, ng thu thập dữ liệu
- Nhiều lỗi: Gía trị thuộc tính bị sai kiểu
  - Do việc nhập dữ liệu
  - Do việc truyền dữ liệu
- Không đồng nhất
  - Dữ liệu đến từ nhiều nguồn (tham khảo từ nhiều trang web, nhiều ng)
 

### Tại sao cần tiền xử lý dữ liệu?
- Nếu dữ liệu không sạch, không được chuẩn hóa, kết quả phân tích sẽ bị ảnh hưởng, không đáng tin cậy
- Các kết quả phân tích không chính xác dẫn đến kết quả sai số

### Làm sạch dữ liệu
- Xử lý dữ liệu <b>khuyết thiếu</b>
- Xử lý dữ liệu <b>ngoại lai</b>

### Xử lý dữ liệu khuyết thiếu
- Dữ liệu khuyết thiếu là những dữ liệu bị thiếu, được hiển thị như Nan, Null, N/A, None, NA, NaT...
- Nguyên nhân:
    - Người dùng quên điền
    - Dữ liệu bị mất
    - Không thu thập được thông tin
- Tại sao cần xử lý?
    - Hầu hết các thuật toán khoa học máy tính đều không thể hoạt động hoặc hoạt động không chính xác với dữ liệu khuyết thiếu

### Kiểu tra dữ liệu khuyết thiếu
- Kiển tra dữ liệu bị khuyết: isna(), isnull()
- Kiểm tra dữ liệu không bị khuyết: notna(), notnull()


# **I. XỬ LÝ DỮ LIỆU KHUYẾT THIẾU**

In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.DataFrame([[100, 6, np.nan], 
                  [9, 5, 12], 
                  [np.nan, np.nan, np.nan], 
                  [-3, 4, -200],
                  [2, 0, 7]])
df

Unnamed: 0,0,1,2
0,100.0,6.0,
1,9.0,5.0,12.0
2,,,
3,-3.0,4.0,-200.0
4,2.0,0.0,7.0


## 1. Kiểm tra dữ liệu khuyết thiếu

In [5]:
df.isna()

Unnamed: 0,0,1,2
0,False,False,True
1,False,False,False
2,True,True,True
3,False,False,False
4,False,False,False


In [12]:
df.isnull()

Unnamed: 0,0,1,2
0,False,False,True
1,False,False,False
2,True,True,True
3,False,False,False
4,False,False,False


In [6]:
df.notna()

Unnamed: 0,0,1,2
0,True,True,False
1,True,True,True
2,False,False,False
3,True,True,True
4,True,True,True


In [13]:
df.notnull()

Unnamed: 0,0,1,2
0,True,True,False
1,True,True,True
2,False,False,False
3,True,True,True
4,True,True,True


In [14]:
# Kiểm tra dữ liệu khuyết thiếu của một cột bất kì
df[df.columns[0]].isna()

0    False
1    False
2     True
3    False
4    False
Name: 0, dtype: bool

In [16]:
# Kiểm tra dữ liệu khuyết thiếu của một dòng bất kì
df.iloc[0].isna()

0    False
1    False
2     True
Name: 0, dtype: bool

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       4 non-null      float64
 1   1       4 non-null      float64
 2   2       3 non-null      float64
dtypes: float64(3)
memory usage: 248.0 bytes


## **2. Xử lý dữ liệu khuyết thiếu - Phương Pháp: Xóa**
- Xóa dòng, cột chứa giá trị khuyết thiếu <b> dropna() </b>
    - Đặt câu hỏi: xóa có ảnh hưởng đến tổng thể hay không, suy xét tùy vào tình huống
    - Xóa dòng chứa ít nhất 1 giá trị khuyết thiếu: <b> dropna() </b>
    - Mặc định xóa theo dòng, các dòng không giá trị khuyết thiếu

### Xóa dòng chứa ít nhất 1 giá trị khuyết thiếu: dropna()

In [18]:
# Xóa dòng chứa ít nhất 1 giá trị khuyết thiếu: dropna() 
df.dropna()

Unnamed: 0,0,1,2
1,9.0,5.0,12.0
3,-3.0,4.0,-200.0
4,2.0,0.0,7.0


### Xóa cột chứa ít nhất 1 giá trị bị khuyết thiếu: dropna(axis='columns') hoặc dropna(axis=1)

In [7]:
df = pd.DataFrame([[100, 6, np.nan], 
                  [9, 5, 12], 
                  [np.nan, np.nan, np.nan], 
                  [-3, 4, -200],
                  [2, 0, 7]])
df

Unnamed: 0,0,1,2
0,100.0,6.0,
1,9.0,5.0,12.0
2,,,
3,-3.0,4.0,-200.0
4,2.0,0.0,7.0


In [5]:
# Xóa cột chứa ít nhất 1 giá trị bị khuyết thiếu: dropna(axis='columns') hoặc dropna(axis=1)
df.dropna(axis=1)

0
1
2
3
4


### Xóa các dòng chứa toàn các giá trị bị khuyết: <b> dropna(how='all') </b>

In [22]:
df.dropna(how='all')

Unnamed: 0,0,1,2
0,100.0,6.0,
1,9.0,5.0,12.0
3,-3.0,4.0,-200.0
4,2.0,0.0,7.0


### Giữ lại những dòng có ít nhất n giá trị bị khuyết: <b> dropna(thresh=n) </b>

In [8]:
df = pd.DataFrame([[100, 6, np.nan], 
                  [9, 5, 12], 
                  [np.nan, np.nan, np.nan], 
                  [-3, 4, -200],
                  [2, 0, 7]])
df

Unnamed: 0,0,1,2
0,100.0,6.0,
1,9.0,5.0,12.0
2,,,
3,-3.0,4.0,-200.0
4,2.0,0.0,7.0


In [24]:
df.dropna(thresh=1)

Unnamed: 0,0,1,2
0,100.0,6.0,
1,9.0,5.0,12.0
3,-3.0,4.0,-200.0
4,2.0,0.0,7.0


### Xóa những dòng nếu có dữ liệu khuyết thiếu trên một số cột nhất định: <b> dropna(subset=[columns]) </b>

In [10]:
df = pd.DataFrame([[100, 6, np.nan], 
                  [9, 5, 12], 
                  [np.nan, np.nan, np.nan], 
                  [-3, 4, -200],
                  [2, 0, 7]])
df

Unnamed: 0,0,1,2
0,100.0,6.0,
1,9.0,5.0,12.0
2,,,
3,-3.0,4.0,-200.0
4,2.0,0.0,7.0


In [11]:
df.dropna(subset=[0,2])

Unnamed: 0,0,1,2
1,9.0,5.0,12.0
3,-3.0,4.0,-200.0
4,2.0,0.0,7.0


## **2. Xử lý dữ liệu khuyết thiếu - Phương Pháp: Thay Thế**

- Thay thế giá trị khuyết bằng 1 giá trị vô hướng: <b> fillna(value) </b>
    - Giá trị = 0 hoặc giá trị trung bình của cột/hàng/toàn bộ dữ liệu
    - Thay giá trị ít ảnh hưởng nhất đến các giá trị còn lại
    - Giam thiểu tác động đến toàn bộ dữ liệu còn lại, có thể tính toán tiếp được

In [29]:
df = pd.DataFrame([[100, 6, np.nan], 
                  [9, 5, 12], 
                  [np.nan, np.nan, np.nan], 
                  [-3, 4, -200],
                  [2, 0, 7]])
df

Unnamed: 0,0,1,2
0,100.0,6.0,
1,9.0,5.0,12.0
2,,,
3,-3.0,4.0,-200.0
4,2.0,0.0,7.0


In [30]:
df.fillna(0)

Unnamed: 0,0,1,2
0,100.0,6.0,0.0
1,9.0,5.0,12.0
2,0.0,0.0,0.0
3,-3.0,4.0,-200.0
4,2.0,0.0,7.0


### **Thay thế giá trị khuyết thiếu bằng giá trị trước: `fillna(method='ffill')`**

In [31]:
df

Unnamed: 0,0,1,2
0,100.0,6.0,
1,9.0,5.0,12.0
2,,,
3,-3.0,4.0,-200.0
4,2.0,0.0,7.0


In [32]:
# Áp dụng cho dữ liệu thời gian
df.fillna(method='ffill')

Unnamed: 0,0,1,2
0,100.0,6.0,
1,9.0,5.0,12.0
2,9.0,5.0,12.0
3,-3.0,4.0,-200.0
4,2.0,0.0,7.0


### **Thay thế giá trị khuyết bằng giá trị sau:** `fillna(method='bfill')`

In [33]:
df = pd.DataFrame([[100, 6, np.nan], 
                  [9, 5, 12], 
                  [np.nan, np.nan, np.nan], 
                  [-3, 4, -200],
                  [2, 0, 7]])
df

Unnamed: 0,0,1,2
0,100.0,6.0,
1,9.0,5.0,12.0
2,,,
3,-3.0,4.0,-200.0
4,2.0,0.0,7.0


In [34]:
df.fillna(method='bfill')

Unnamed: 0,0,1,2
0,100.0,6.0,12.0
1,9.0,5.0,12.0
2,-3.0,4.0,-200.0
3,-3.0,4.0,-200.0
4,2.0,0.0,7.0


### **Thay thế giá trị khuyết bằng các giá trị xác định trên mỗi cột:** `fillna(value={columns:value})`

In [43]:
df = pd.DataFrame([[100, 6, np.nan], 
                  [9, 5, 12], 
                  [np.nan, np.nan, np.nan], 
                  [-3, 4, -200],
                  [2, 0, 7]])
df

Unnamed: 0,0,1,2
0,100.0,6.0,
1,9.0,5.0,12.0
2,,,
3,-3.0,4.0,-200.0
4,2.0,0.0,7.0


In [42]:
# Lấy giá trị trung bình của 1 cột làm giá trị thay thế
df.fillna(value={0:100, 2:200})

Unnamed: 0,0,1,2
0,100.0,6.0,200.0
1,9.0,5.0,12.0
2,100.0,,200.0
3,-3.0,4.0,-200.0
4,2.0,0.0,7.0


In [45]:
round(df[df.columns[0]].mean())
round(df[df.columns[1]].mean())
round(df[df.columns[2]].mean())

-60

In [48]:
# Lấy giá trị trung bình của 1 cột làm giá trị thay thế
df.fillna(value={0:27, 1:4, 2:-60})

Unnamed: 0,0,1,2
0,100.0,6.0,-60.0
1,9.0,5.0,12.0
2,27.0,4.0,-60.0
3,-3.0,4.0,-200.0
4,2.0,0.0,7.0


# **II. XỬ LÝ DỮ LIỆU NGOẠI LAI**

### **Dữ liệu ngoại lai là gì?**
- Mẫu dữ liệu đặc biệt, cách xa khỏi phần lớn dữ liệu khác trong tập dữ liệu
- Chưa có một định nghĩa toán học cụ thể nào để xác định một điểm ngoại lai
- Ví dụ: 80, 71, 79, 73, 77, **160**, 72,74,75,**180**, **12** (3 điểm bất thường: quá cao hoặc quá thấp)
- Không đại diện cho toàn bộ dữ liệu
- Cách xử lý: xóa hay sửa?
    - Tùy thuộc bài toán, bộ dữ liệu

## **Xác định dữ liệu ngoại lai:**
Bộ dữ lớn, không thể xem bằng mắt được:
- Phương pháp trực quan hóa: Box plot, Scatter Plot
- Phương pháp toán học: Z-Score, IQR-Score

### **Phương pháp trực quan hóa: `Box plot, Scatter plot`**

In [20]:
points = pd.DataFrame([[100, 6], [9, 5], [3, 5], [1,-200],[2, 0], [3, -4], [-2, 5], [-1, -10]], columns = ['X', 'Y'])
points

Unnamed: 0,X,Y
0,100,6
1,9,5
2,3,5
3,1,-200
4,2,0
5,3,-4
6,-2,5
7,-1,-10


In [21]:
import matplotlib.pylot as plt
points.plot.scatter(x='X', y='Y', c='blue')

ModuleNotFoundError: No module named 'matplotlib.pylot'

In [22]:
pip install matplotlib

Defaulting to user installation because normal site-packages is not writeable
Looking in indexes: https://anu9rng:****@rb-artifactory.bosch.com/artifactory/api/pypi/python-virtual/simple
Note: you may need to restart the kernel to use updated packages.


In [23]:
import matplotlib.pylot as plt
points.plot.scatter(x='X', y='Y', c='blue')

ModuleNotFoundError: No module named 'matplotlib.pylot'

In [None]:
Gía trị ngoại lai thường là những giá trị lớn > làm sai lệch giá trị trung bình
Không phản ánh thực tế bộ dữ liệu, làm sai lệch tính toán

In [None]:
Xác định dữ liệu ngoại lai bằng Z-Score

In [None]:
from scipy import stats

z = np.abs

In [None]:
df = df.fillna()
df

In [None]:
z = stats.zscore(df)
z

In [None]:
Xác định ngoại lai theo ngưỡng np.where(z>threshold)

In [None]:
noisy = np.where(z> 1.2)
noisy