# Dealing with missing data

Đây không phải là một vấn đề hiếm trong thực tế khi mà dữ liệu train của chúng ta bị mất một hoặc nhiều giá trị khác nhau do nhiều nguyên nhân. Có thể là do một lỗi trong qúa trình thu thập dữ liệu, một số phép đo không thể thực hiện được, hoặc một vài trường có thể bị bỏ trống, ví dụ như một phiếu khảo sát chẳng hạn. Ta thông thường thấy những dữ liệu bị mất đó phần lớn là những khoảng trống hoặc là những chuỗi ký hiệu như là NaN (Not a number), hoặc là NULL(biến chỉ giá trị không biết trong bảng dữ liệu quan hệ). Không may là phần lớn các tool tính toán không thể xử lý những điểm dữ liệu mất này được hoặc nó sẽ cho ra kết quả là không dự đón được kết quả nếu ta bỏ qua chúng. Do đó, điều cần thiết là phải để ý đến những giá trị khuyết này trước khi ta tiến hành những bước tiếp theo được.
Trong phần này, ta sẽ tìm hiểu một vài thao tác để đối phó với việc thiếu dữ liệu bằng cách loại bỏ những điểm trong dữ liệu hoặc là bỏ thêm những gía trị từ những mấu training example và features khác.

## Identifying missing values in tabular data

Trước khi thảo luận những kỹ thuật khác nhau đối phó với thiếu dữ liệu, giờ tạo một data frame đơn giản từ file **Comma-separated values (CSV)** để có được cái nhìn về vấn đề thiếu dữ liệu này:



In [2]:
import pandas as pd
from io import StringIO


csv_data = \
    '''A,B,C,D
    1.0,2.0,3.0,4.0
    5.0,6.0,,8.0
    10.0,11.0,12.0,'''

# Nếu như dùng Python 2.7 thì mình phải convert string sang unicode:
# csv_data = unicode(csv_data)
df = pd.read_csv(StringIO(csv_data))
print(df)

      A     B     C    D
0   1.0   2.0   3.0  4.0
1   5.0   6.0   NaN  8.0
2  10.0  11.0  12.0  NaN


Sử dụng phương thức read_csv để đọc dữ liệu CSV vào trong pandas DataFame và những ô bị trống sẽ được tự động điền giá trị NaN. Hàm StringIO cho phép ta đọc chuỗi string csv_data thành CSV file.

Đối với một bảng DataFrame lớn; ta có thể đếm số dữ liệu bị thiếu tại các cột của dữ liệu này. Ta sử dụng phương thức isnull để tham chiếu ra một bảng mới với dữ liệu có 2 kiểu là True, False. Với True tại các cells không rỗng và False tại cell rỗng hoặc NaN. Sau đó dùng phương thức sum() để đếm những điểm dị biệt tại các cột đó.

In [5]:
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

### Convenient data handling with pandas data frame 

Đôi khi là sẽ tiện hơn khi mình tiền xử lý dữ liệu với DataFrame. Hiện nay, mặc dù sklearn cũng hỗ trợ dữ liệu DataFrame làm đầu vào, nhưng mà NumPy vẫn là sử lý tốt nhất trong sklearn, và lời khuyên là nên sử dụng NumPy với sklearn. Chú ý là ta có thể lấy được dữ liệu của DataFrame dưới dạng mảng NumPy bằng thuộc tính values của nó: 


In [3]:
df.values

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

## Eliminating training examples or features with missing values

Một trong những cách đơn giản nhất để đối mặt với thiếu dữ liệu đó là xóa những features (xóa cột) hoặc là các training examples (xóa hàng) từ dữ liệu thông qua phương thức dropna trong DataFrame:

Ta có thể xóa hàng: set tham số axis = 0


In [4]:
df.dropna(axis=0)


Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [6]:
# Ta cũng có thể xóa cột bằng cách cho axis = 1
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [7]:
# Ngoài ra ta có thêm nhiều tham số khác để chọn kiểu xóa
# Xóa những hàng mà các thuộc tính của hàng đó là NaN
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [8]:
# Xóa hàng mà có ít hơn 4 giá trị thực
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [9]:
# Xoa hàng khi mà NaN xuất hiện tại cột cụ thể nào đó trong dữ liệu
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


Mặc dù xóa những điểm mất dữ liệu là phương pháp tiện lợi, nhưng nó vẫn dẫn đến những bất lợi; ví dụ, ta có thế xóa đi quá nhiều mẫu, làm cho việc phân tích dựa trên dữ liệu khó có thể đạt được. Hoặc là nếu ta bỏ đi quá nhiều features, sẽ dẫn đến việc mất đi những gía trị cần thiết để có thể phân biệt được giữa các lớp với nhau. Trong phần sau, sẽ nói về phương pháp khác để đối mặt với nó, gọi là kỹ thuật nội suy **interpolation techniques**.

## Imputing missing values

Thông thường xóa bỏ các mẫu hoặc các features là không khả dĩ, bởi vì ta có thể bỏ mất đi rất nhiều dữ liệu. Trong trường hợp này ta sử dụng các kỹ thuật nội suy khác nhau để ước lượng các giá trị bị mất từ các mẫu hiện có trong dữ liệu của mình. Một trong những phương pháp nội suy phổ biến nhất gọi là **mean imputation**, ta đơn giản là thay thế giá trị bị mất bằng giá trị trung bình của toàn bộ cột. Cách đơn giản để thực hiện là import SingleImputer class từ thư viên Sklearn, được thực hiện như sau: 



In [10]:
from sklearn.impute import SimpleImputer
import numpy as np

imr = SimpleImputer(missing_values=np.nan, strategy='mean')
imr = imr.fit(df.values)
imputed_data = imr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

Ta đã thay thế giá trị NaN bởi giá trị mean tương ứng của cột. Một options cho tham số strategy đó là median hoặc là most_frequent, khi mà giá trị thiếu sẽ đc thay thế bằng giá trị median hoặc là mode của cái cột thuộc tính. Những hàm này rất là hữu dụng khi mà điền vào nó những giá trị kiểu **categorical**, ví dụ như trong bảng có cột mang tên là **clolor** và trong cột đó chứa các thuộc tính là red, green, blue,... Ta sẽ bắt gặp kiểu dữ liệu này trong phần sau.

Cách khác, ta có thể điền giá trị thiếu vào bằng hàm **fillna** trong
và thêm vào đó một method imputation như là một tham số. Ta có thể làm như sau:


In [3]:
df.fillna(df.mean())

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.5,8.0
2,10.0,11.0,12.0,6.0


## Understanding the sklearn estimator API 

Trong phần trước, ta sử dụng class SimpleImputer từ thư viện sklearn để điền các giá trị thiếu vào trong dataset. Lớp SimpleImputer nó thuộc vào các lớp **transformer** trong sklearn, các lớp này được dùng cho việc biến đổi dữ liệu. Hai methods cần thiết cho các estimators là fit và transform. Fit method dùng để học ác tham số từ dữ liệu training data, và phương thức transform sử dụng những tham số này để biến đổi dữ liệu. Tất cả những dữ liệu nào cần được biến đổi cần phải có số features tương tự như dữ liệu mà ta dùng để fit vào trong model.

Hình bên dưới mô tả cách mà transformer fit vào dữ liệu training data, được dùng để biến đổi tập training dataset cũng như là tạo ra tập test dataset mới:

![](pic1.png)

Những cái phân loại được dùng trong chương 3 được gọi là **estimator** trong sklearn, với API tương tự như là class **transformer**. Estimators có phương thức predict cũng như là phương thức transform, ta có thể thấy điều đó tại phần sau của chương này. Ta cũng có thể sử dụng method fit để học các tham số cho model khi chúng ta train các estimators cho việc phân loại. Tuy nhiên, trong học giám sát **supervised learning** thì ta thêm vào các class labels cho việc fitting model, model có thể được sử dụng để dự đoán các dữ liệu mới, chưa được gán nhãn thông qua phương thức predict, được miêu tả trong hình bên dưới: 

![](pic2.png)

## Handling categorical data

Ta đã làm việc với những dữ liệu kiểu số. Tuy nhiên, nó không phải là kiểu dữ liệu phổ biến, thực tế thì nó có chứa một hoặc nhiều feature có kiểu dữ liệu categorical. Trong phần này, ta sẽ có một ví dụ đơn giản để tìm hiểu cách tiếp cận đối với những kiểu dữ liệu kiểu này trong các thư viện sử dụng tính toán số học.

Khi nói về dữ liệu phân loại, ta cần phải phân biệt được **ordinal** và **nominal** features. Các thuộc tính **ordinal** có thể được hiểu là các giá trị categorical có thể được sắp xếp theo thứ tự. Ví dụ, cỡ áo T-shirt là một **ordinal** feature, bởi vì chúng ta có thể sắp xếp chúng theo thứ tự: XL > L > M. Ngược lại, thuộc tính **nominal** không tồn tại thứ tự nào, và ví dụ là màu áo T-shirt là một ví dụ cho **nominal** feature bởi vì màu sắc thì đâu có thể so sánh được.



## Categorical data encoding with pandas

Trước khi tìm hiểu các kỹ thuật khác nhau cho dữ liệu categorical, ta tạo một DataFrame mới để minh hoạ cho vấn đề: 



In [1]:
import pandas as pd 
df = pd.DataFrame([
    ['green', 'M', 10.1, 'class2'],
    ['red', 'L', 13.5, 'class1'],
    ['blue', 'XL', 15.3, 'class2']])
df.columns = ['colors', 'size', 'price', 'classlabel']
df

Unnamed: 0,colors,size,price,classlabel
0,green,M,10.1,class2
1,red,L,13.5,class1
2,blue,XL,15.3,class2


Ta thấy trong output, dữ liệu DataFrame được tạo ra chưa dữ liệu **nominal feature** (color), một **ordinal feature**(size), và một thưộc tính **numerical feature**(price). Các nhãn classlabel (giả sử  chúng được sử dụng cho mục đích học có giám sát) được lưu trữ ở cột cuối cùng. Những thuật toán cho việc phân loại trong cuốn sách không sử dụng thông tin có thứ tự trong các lớp nhãn.


## Mapping ordinal features 

Để đám bảo rằng thuật toán có thể hiểu được các thuộc tính **ordinal feature** đúng, ta cần phải chuyển cái chuỗi phân loại (categorical string) kiểu string sang dạng số nguyên. Không may là ta không có được hàm nào có thể tự động suy diễn ra thứ tự chính xác của nhãn **labels** trong thuộc tính size của, do đó ta phải định nghĩa hàm ánh xạ (**mapping**) thủ công. Trong ví dụ dưới, giả sử ta biến được giá trị khác nhau giữa các thuộc tính, ví dụ như: XL = L + 1 = M + 2:


In [2]:
size_mapping = {'XL': 3,
               'L': 2,
               'M': 1}
df['size'] = df['size'].map(size_mapping)
df

Unnamed: 0,colors,size,price,classlabel
0,green,1,10.1,class2
1,red,2,13.5,class1
2,blue,3,15.3,class2


Nếu như ta muốn chuyển ngược lại từ giá trị nguyên về lại dạng biểu diễn trước của nó, ta đơn giản là định nghĩa một hàm reverse-mapping dictionary, inv_size_mapping = {v: k for k, v in size_mapping.items()}, và sau đó ta lại sử dụng dictionary này tương tự như với phần ở trên để chuyển từ giá trị nguyên về lại giá trị **ordinal feature**

In [3]:
inv_size_mapping = {v: k for k, v in size_mapping.items()}
print(inv_size_mapping)
print(df['size'].map(inv_size_mapping))

{3: 'XL', 2: 'L', 1: 'M'}
0     M
1     L
2    XL
Name: size, dtype: object


## Encoding class labels

Rất nhiều thư viện Machine Learning yêu cầu rằng các nhãn **class labels** được mã hóa dưới dạng các giá trị nguyên. Mặc dù phần lớn các bộ ước lượng (estimators) trong thư viện Sklearn chuyển đổi các class labels sang dạng số nguyên (tự nó thực hiện bên trong), nhưng mà tốt hơn là ta nên cung cấp các class labels dưới dạng mảng số nguyên để tránh các trục trặc kỹ thuật. Để có thể mã hóa các nhãn cho lớp, ta có thể sử dụng cách tiếp cận tương tự như đối với **mapping ordinal feature** mà mình đã trình bày ở trên. Ta nên chú ý rằng các class labels không phải dạng **ordinal**, và các số nguyên ta gán cho các nhãn không phải là vấn đề ở đây. Do đó, ta đơn giản là enumerate (liệt kê các lớp nhãn), bắt đầu từ 0: 



In [4]:
import numpy as np 
class_mapping = {label: idx for idx, label in enumerate(np.unique(df['classlabel']))}
print(class_mapping)

{'class1': 0, 'class2': 1}


Sau đó, ta có thể sử dụng cái mapping dictionary để chuyển class labels này sang dạng số nguyên, tương tự như cách ta làm với thuộc tính **ordinal** ở trên:


In [5]:
df['classlabel'] = df['classlabel'].map(class_mapping)
print(df)

  colors  size  price  classlabel
0  green     1   10.1           1
1    red     2   13.5           0
2   blue     3   15.3           1


Tương tự, ta có thể thay đổi thứ tự của thằng key-values để có thể map lại dưới dạng nhãn ban đầu: 


In [6]:
inv_class_mapping = {v: k for k, v in class_mapping.items()}
print(inv_class_mapping)
df['classlabel'] = df['classlabel'].map(inv_class_mapping)
df

{0: 'class1', 1: 'class2'}


Unnamed: 0,colors,size,price,classlabel
0,green,1,10.1,class2
1,red,2,13.5,class1
2,blue,3,15.3,class2


Một cách khác, ta sử dụng class LabelEncoder có trong sklearn để thực hiện việc này:


In [7]:
from sklearn.preprocessing import LabelEncoder

class_le = LabelEncoder()
y = class_le.fit_transform(df['classlabel'].values)
print(y)

[1 0 1]


**Câu hỏi đặt ra ở đây là làm sao để áp cái ni vô lại trong cái dataframe :v (Cái ni mình tìm hiểu rồi biểu diễn trong code của mình sau ^^)**

Chú ý rằng phương thức **fit_transform** chỉ là dạng gọi tắt của 2 cái phương thức tách biệt **fit** và **transform**, ta có thể tìm thấy cái ni tương tự trong class StandartScaler cho việc chuẩn hóa z dữ liệu. Ngược lại, ta có thể sử dụng phương thức inverse_transform để chuyển class kiểu nguyên trở về lại dạng string nguyên bản của nó:


In [8]:
z = class_le.inverse_transform(y)
print(z)

['class2' 'class1' 'class2']


## Performing One-hot encoding on nominal features 

Trong phần trước Mapping ordinal features, ta sử dụng phương thức dictionary mapping để chuyển đổi ordinal feature size sang dạng số nguyên. Sklearn estimator để phân loại xem các nhãn class labels như là dạng categorical data và nó không có thứ tự **nominal**, ta cũng đã sử dụng LabelEncoder để chuyển dạng string sang dạng số nguyên. Ta có thể nghĩ đến việc áp dụng phương thức tương tự để xử lý cho các thuộc tính **nominal features** trong data của ta ví dụ như là feature color trong dữ liệu: 



In [11]:
X = df[['colors', 'size', 'price']].values
color_le = LabelEncoder()
X[:, 0] = color_le.fit_transform(X[:, 0])
print(X)

[[1 1 10.1]
 [2 2 13.5]
 [0 3 15.3]]


Sau khi thực hiện đoạn code trên, cột đầu tiên trong mảng NumPy, x giữ gía trị mới của colors, được mã hóa như sau: 

* blue = 0
* green = 1
* red = 2


Nếu ta dừng tại đây và chuyển dữ liệu mới này vào lại trong bộ phân loại, ta sẽm mắc phải lỗi thông dụng khi đối mặt với dữ liệu phân loại. Vấn đề ở đây là mặc dù giá trị của màu sắc không phân cấp độ được, nhưng mà thuật toán của chúng ta sẽ hiểu rằng gía trị của green là lớn hơn gía trị của blue, và red là lớn hơn green. Và có thể là mặc dù giả định không chính xác, nhưng mà thuật toán vẫn có thể tạo ra kết qủa có ích, nhưng mà cái kết quả đó không phải là tối ưu.


Một phương thức thông dụng cho vấn đề này đó là sử dụng kỹ thuật có tên **one-hot encoding**. Ý tưởng cho hướng tiếp cận này đó là ta tạo một giá tính năng (dummy feature) cho mỗi giá trị riêng biệt trong cột **nominal** feature. Ở đây, ta sẽ chuyển cái thuộc tính color sang 3 thuộc tính mới: blue, green và red. Các giá trị nhị phân được sử dụng cho các phần của màu sắc trong ví dụ; ví dụ như mẫu blue có thể được biểu diễn là blue=1, green=0 và red=0. Để thực hiện việc biến đổi này, ta có thể sử dụng OneHotEncoder được cài đặt trong Sklearn preprocessing module: 


In [13]:
from sklearn.preprocessing import OneHotEncoder
X = df[['colors', 'size', 'price']].values
color_ohe = OneHotEncoder()
print(color_ohe.fit_transform(X[:, 0].reshape(-1, 1)).toarray())

[[0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]]


Chú ý rằng ta áp dụng OneHotEncoder với một cột đơn duy nhất (X[:, 0].reshape(-1, 1))), để tránh thay đổi 2 cột còn lại trong dữ liệu. Nếu chúng ta muốn chuyển đổi một cột thành ba feature nữa trong dữ liệu, ta có thể dùng ColumnTransformer, có tham số là danh sách list các tuple của (name, transformer, column(s)).


In [14]:
from sklearn.compose import ColumnTransformer
X = df[['colors', 'size', 'price']].values
c_transf = ColumnTransformer([
    ('onehot', OneHotEncoder(), [0]),
    ('nothing', 'passthrough', [1, 2])
])
print(c_transf.fit_transform(X).astype(float))

[[ 0.   1.   0.   1.  10.1]
 [ 0.   0.   1.   2.  13.5]
 [ 1.   0.   0.   3.  15.3]]


Trong đoạn code trên, ta chỉ ra rằng ta muốn biến đổi cột đầu tiên thôi và để các cột còn lại không đụng tới thông qua tham số 'passthrough'.

**Một cách khác tiện hơn** để tạo các dummy features thông qua One-hot encoding đó là sử dụng phương thức get_dummies được thiết đặt trong pandas. Áp vào DataFrame, phương thức get_dummies chỉ convert các cột thuộc tính chứa giá trị là các chuỗi và để các cột chứa giá trị số lại:


In [16]:
pd.get_dummies(df[['colors', 'price', 'size']])


Unnamed: 0,price,size,colors_blue,colors_green,colors_red
0,10.1,1,0,1,0
1,13.5,2,0,0,1
2,15.3,3,1,0,0


Khi ta sử dụng **one-hot encoding** cho dữ liệu, ta luôn nhớ rằng nó luôn luôn dẫn đến hiện tượng **[multicollinearity](https://www.statisticshowto.com/multicollinearity/)** , đó là vấn đề cho một số method(ví dụ như các method yêu cầu tính toán ma trận nghịch đảo (matrix inversion)). Nếu như các thuộc tính có độ tương quan quá cao (highly correlated), ma trận sẽ rất khó để tính nghịch đảo, dẫn đến những ước tính không ổn định. Để giảm thiểu tính tương quan giữa các biến, ta đơn giản là bỏ bớt đi 1 cột thuộc tính từ mảng one-hot encoding. Chú ý rằng ta sẽ không mất đi bất kỳ một thông tin quan trọng nào khi mà xóa đi một cột cả; ví dụ, nếu như chúng ta xóa đi cột color_blue, thì thuộc tính này vẫn tồn tại bởi vì nếu color_green và color_red đều bằng 0 thì điều đó có nghĩa là sample đó sẽ mang màu blue