# XỬ LÝ DỮ LIỆU THIẾU (MISSING VALUE)

## 1. Tổng quát

Trong quá trình xử lý dữ liệu sẽ gặp phải những trường hợp dữ liệu bị thiếu hoặc bị bỏ trống. Nguyên nhân của những giá trị trống này có thể do người dùng cố tình không cung cấp, nhập liệu bị sót hoặc bị hư hỏng trong quá trình chuyển đổi dữ liệu.  
Một công việc không thể thiếu trong quá trình làm sạch dữ liệu đó là xử lý những giá trị thiếu này. Xử lý dữ liệu bị thiếu rất quan trọng vì nhiều thuật toán học máy không hỗ trợ dữ liệu bị thiếu.

Có 3 cách trong xử lý dữ liệu bị thiếu đó là:
- Cách 1: Tìm kiếm, trích lục lại để điền vào những giá trị thiếu (trường hợp này thường khó thực hiện).
- Cách 2: Loại bỏ những đối tượng có chứa giá trị thiếu.
- Cách 3: Thay thế giá trị thiếu bằng giá trị khác. Việc thay thế giá trị bị thiếu phụ thuộc vào bản chất của biến số. Dưới đây là một số trường hợp thay thế phổ biến:
    - Trường hợp giá trị thiếu là biến số định lượng (numeric) thì thay thế bằng: trung bình, trung vị, một giá trị ngẫu nhiên hoặc xây dựng một mô hình hồi quy để dự đoán giá trị thiếu từ những biến số khác.
    - Trường hợp giá trị thiếu giá biến số phân loại (category) thì thay thế bằng: nhóm có tần số xuất hiện cao nhất, nhóm với tên là "giá trị trống", nhóm ngẫu nhiên hoặc sử dụng một mô hình phân loại để dự đoán nhóm của những giá trị thiếu từ những biến số khác.

## 2. Xác định dữ liệu thiếu

Trong Pandas Data Frame giá trị thiếu được thể hiện bởi NaN hoặc None. Để xác định giá trị thiếu này có thể dùng 2 phương thức [isna()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isna.html) hoặc [isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isnull.html). Cả 2 phương thức này đều có chức năng như nhau, đều trả về True nếu giá trị là NaN hoặc None và trả về False nếu khác.  
Thực chất Pandas Data Frame được xây dựng trên thư viện Numpy mà thư viện Numpy chỉ tồn tại NaN và None chứ không có giá trị Null tuy nhiên để hỗ trợ người dùng R chuyển qua Python mà Pandas Data Frame tạo thêm phương thức isnull với cùng một tính năng (trong R NaN và Null và 2 giá trị khác nhau).  
Một số bộ dữ liệu hoặc một số phần mềm nhập liệu quy định giá trị thiếu có thể bằng một số ký hiệu khác với Pandas Data Frame (VD như: "", 99, NA. N/A, ?, ....) vì vậy nhà phân tích cần xem xét kỹ để xử lý phù hợp.
Các phương phương pháp dưới đây danh cho trường hợp giá trị trống đã được hiểu theo ký hiệu tiêu chuẩn của Pandas (NaN, None).

In [1]:
import pandas as pd
import numpy as np
path= 'data/titanic/train.csv'
data= pd.read_csv(path)

In [2]:
# Xác định giá trị bị thiếu trong một biến số
data['Cabin'].isna()

0       True
1      False
2       True
3      False
4       True
5       True
6      False
7       True
8       True
9       True
10     False
11     False
12      True
13      True
14      True
15      True
16      True
17      True
18      True
19      True
20      True
21     False
22      True
23     False
24      True
25      True
26      True
27     False
28      True
29      True
       ...  
861     True
862    False
863     True
864     True
865     True
866     True
867    False
868     True
869     True
870     True
871    False
872    False
873     True
874     True
875     True
876     True
877     True
878     True
879    False
880     True
881     True
882     True
883     True
884     True
885     True
886     True
887    False
888     True
889    False
890     True
Name: Cabin, Length: 891, dtype: bool

In [3]:
# Xác định giá trị bị thiếu bằng scikit-learn
from sklearn.impute import MissingIndicator
indicator = MissingIndicator(missing_values= np.nan, features= 'all')
indicator.fit_transform(data)

array([[False, False, False, ..., False,  True, False],
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False,  True, False],
       ...,
       [False, False, False, ..., False,  True, False],
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False,  True, False]])

In [4]:
# Đếm số lượng giá trị bị thiếu trong một biến số
data['Cabin'].isna().sum()

687

In [5]:
# Đếm giá trị bị thiếu trong mỗi biến
data.isna().sum(axis= 0)

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [6]:
# Đếm giá trị bị thiếu trong mỗi đối tượng (dòng)
data.isna().sum(axis= 1)

0      1
1      0
2      1
3      0
4      1
5      2
6      0
7      1
8      1
9      1
10     0
11     0
12     1
13     1
14     1
15     1
16     1
17     2
18     1
19     2
20     1
21     0
22     1
23     0
24     1
25     1
26     2
27     0
28     2
29     2
      ..
861    1
862    0
863    2
864    1
865    1
866    1
867    0
868    2
869    1
870    1
871    0
872    0
873    1
874    1
875    1
876    1
877    1
878    2
879    0
880    1
881    1
882    1
883    1
884    1
885    1
886    1
887    0
888    2
889    0
890    1
Length: 891, dtype: int64

Ví dụ trên sử dụng phương thức isna(). Phương thức isnull sẽ có kết quả tương đương.

## 3. Xử lý giá trị thiếu

### 3.1. Loại bỏ các giá trị thiếu

In [7]:
# Xóa dòng dữ liệu nếu có bất kỳ giá trị là NaN.
data.dropna(axis= 0, how= 'any')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
21,22,1,2,"Beesley, Mr. Lawrence",male,34.0,0,0,248698,13.0000,D56,S
23,24,1,1,"Sloper, Mr. William Thompson",male,28.0,0,0,113788,35.5000,A6,S
27,28,0,1,"Fortune, Mr. Charles Alexander",male,19.0,3,2,19950,263.0000,C23 C25 C27,S
52,53,1,1,"Harper, Mrs. Henry Sleeper (Myna Haxtun)",female,49.0,1,0,PC 17572,76.7292,D33,C
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C


In [8]:
# Xóa dòng dữ liệu nếu có bất kỳ giá trị của các cột Cabin, Embarked là NaN.
data.dropna(axis= 0, how= 'any', subset= ['Cabin', 'Embarked'])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
21,22,1,2,"Beesley, Mr. Lawrence",male,34.0,0,0,248698,13.0000,D56,S
23,24,1,1,"Sloper, Mr. William Thompson",male,28.0,0,0,113788,35.5000,A6,S
27,28,0,1,"Fortune, Mr. Charles Alexander",male,19.0,3,2,19950,263.0000,C23 C25 C27,S
31,32,1,1,"Spencer, Mrs. William Augustus (Marie Eugenie)",female,,1,0,PC 17569,146.5208,B78,C
52,53,1,1,"Harper, Mrs. Henry Sleeper (Myna Haxtun)",female,49.0,1,0,PC 17572,76.7292,D33,C


In [9]:
# Xóa dòng dữ liệu nếu giá trị của các cột Cabin, Embarked đều là NaN.
data.dropna(axis= 0, how= 'all', subset= ['Cabin', 'Embarked'])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


### 3.2. Điền giá trị thiếu

In [10]:
# Điền giá trị thiếu của biến Age bằng trung bình
data['Age'].fillna(data['Age'].mean())

# Hoặc
# data.loc[data['Age'].isna(), 'Age']= data['Age'].mean()

0      22.000000
1      38.000000
2      26.000000
3      35.000000
4      35.000000
5      29.699118
6      54.000000
7       2.000000
8      27.000000
9      14.000000
10      4.000000
11     58.000000
12     20.000000
13     39.000000
14     14.000000
15     55.000000
16      2.000000
17     29.699118
18     31.000000
19     29.699118
20     35.000000
21     34.000000
22     15.000000
23     28.000000
24      8.000000
25     38.000000
26     29.699118
27     19.000000
28     29.699118
29     29.699118
         ...    
861    21.000000
862    48.000000
863    29.699118
864    24.000000
865    42.000000
866    27.000000
867    31.000000
868    29.699118
869     4.000000
870    26.000000
871    47.000000
872    33.000000
873    47.000000
874    28.000000
875    15.000000
876    20.000000
877    19.000000
878    29.699118
879    56.000000
880    25.000000
881    33.000000
882    22.000000
883    28.000000
884    25.000000
885    39.000000
886    27.000000
887    19.000000
888    29.6991

In [11]:
# Điền giá trị thiếu của biến Age bằng trung vị
data['Age'].fillna(data['Age'].median())

# Hoặc
# data.loc[data['Age'].isna(), 'Age']= data['Age'].median()

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
5      28.0
6      54.0
7       2.0
8      27.0
9      14.0
10      4.0
11     58.0
12     20.0
13     39.0
14     14.0
15     55.0
16      2.0
17     28.0
18     31.0
19     28.0
20     35.0
21     34.0
22     15.0
23     28.0
24      8.0
25     38.0
26     28.0
27     19.0
28     28.0
29     28.0
       ... 
861    21.0
862    48.0
863    28.0
864    24.0
865    42.0
866    27.0
867    31.0
868    28.0
869     4.0
870    26.0
871    47.0
872    33.0
873    47.0
874    28.0
875    15.0
876    20.0
877    19.0
878    28.0
879    56.0
880    25.0
881    33.0
882    22.0
883    28.0
884    25.0
885    39.0
886    27.0
887    19.0
888    28.0
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

In [12]:
# Điền giá trị thiếu của biến Embarked bằng nhóm có tần suất lớn nhất
data['Embarked'].fillna(data['Embarked'].mode())
                        
# Hoặc
# data.loc[data['Embarked'].isna(), 'Embarked']= data['Embarked'].mode()

0      S
1      C
2      S
3      S
4      S
5      Q
6      S
7      S
8      S
9      C
10     S
11     S
12     S
13     S
14     S
15     S
16     Q
17     S
18     S
19     C
20     S
21     S
22     Q
23     S
24     S
25     S
26     C
27     S
28     Q
29     S
      ..
861    S
862    S
863    S
864    S
865    S
866    C
867    S
868    S
869    S
870    S
871    S
872    S
873    S
874    C
875    C
876    S
877    S
878    S
879    C
880    S
881    S
882    S
883    S
884    S
885    Q
886    S
887    S
888    S
889    C
890    Q
Name: Embarked, Length: 891, dtype: object

In [13]:
# Điền giá trị thiếu của biến Age bằng trung vị và Embarked bằng nhóm có tần suất lớn nhất
values= {'Age': data['Age'].median(), 'Embarked': data['Embarked'].mode()}
data.fillna(values)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,28.0,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [14]:
# Trường hợp giá trị trống được biểu diễn bởi giá trị khác (VD: 'N/A') thì xử lý như sau:
# data.loc[data['Embarked'] == 'N/A', 'Embarked']= data['Embarked'].mode()

### 3.3. Điền giá trị thiếu bằng scikit-learn

Các phương pháp xử lý dữ liệu thiếu ở trên là đang tương tác với tập dữ liệu huấn luyện. Tuy nhiên trong nhu cầu ứng dụng machine learning thực tế ngoài việc điền giá trị thiếu cho tập dữ liệu huấn luyện còn điền dữ liệu thiếu cho các tập dữ liệu dự đoán, thư viện scikit-learn hỗ trợ một số phương thức để điền dữ liệu thiếu.

In [15]:
y= data['Survived']
X= data.drop(columns= 'Survived')

In [16]:
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer

age_inputer= SimpleImputer(strategy= 'mean')
cabin_embarked_inputer= SimpleImputer(strategy= 'most_frequent')

transformer= ColumnTransformer(transformers=[
                                            ('Age', age_inputer, ['Age']),
                                            ('Cabin_Embarked', cabin_embarked_inputer, ['Cabin', 'Embarked'])
                                            ],
                              remainder='passthrough')

In [17]:
X_new= transformer.fit_transform(X, y)

In [18]:
X_new

array([[22.0, 'B96 B98', 'S', ..., 0, 'A/5 21171', 7.25],
       [38.0, 'C85', 'C', ..., 0, 'PC 17599', 71.2833],
       [26.0, 'B96 B98', 'S', ..., 0, 'STON/O2. 3101282', 7.925],
       ...,
       [29.69911764705882, 'B96 B98', 'S', ..., 2, 'W./C. 6607', 23.45],
       [26.0, 'C148', 'C', ..., 0, '111369', 30.0],
       [32.0, 'B96 B98', 'Q', ..., 0, '370376', 7.75]], dtype=object)

Scikit-learn còn hỗ trợ một số phương pháp điền dữ liệu trống khác như: [IterativeImputer](https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html#sklearn.impute.IterativeImputer), [KNNImputer](https://scikit-learn.org/stable/modules/generated/sklearn.impute.KNNImputer.html#sklearn.impute.KNNImputer)