# Missing Data

Thực tế việc chuẩn bị dữ liệu là phần tốn thời gian nhất của một dự án khoa học dữ liệu. Theo một nghiên cứu của IBM Data Analytsics thì 80% thời gian quý giá của một nhà khoa học dữ liệu được dành chỉ đơn giản là tìm kiếm, làm sạch và sắp xếp dữ liệu, chỉ còn lại 20% thời gian để thực sự làm phân tích.

Xử lý missing data là một phần quan trọng trong làm sạch dữ liệu. Việc xử lý missing data nhanh chóng, gọn gàng giúp tiết kiệm rất nhiều thời gian cho dự án. Có nhiều công cụ mạnh làm tốt công việc này và một trong số đó là pandas.

### 1. Định nghĩa Missing Data:

Missing data là dữ liệu bị thiếu, được hiển thị như NaN, Nat, Null, N/A, v.v. Missing data xuất hiện do nhiều nguyên nhân như:

* Người dùng quên điền.
* Dữ liệu bị mất trong quá trình chuyển thủ công từ cơ sở dữ liệu cũ.
* Lỗi của chương trình.
* Thiếu dữ liệu do trùng hợp v.v.

Missing data có thể được phân thành 3 loại: Missing at Random (dữ liệu khuyết ngẫu nhiên), Missing Completely at Random (dữ liệu thiếu hoàn toàn ngẫu nhiên) và Missing Not at Random (dữ liệu khuyết không ngẫu nhiên). 

Do dữ liệu có nhiều dạng và hình thức nên pandas rất linh hoạt trong việc xử lý missing data. Missing data được đánh dấu mặc định là NaN để tăng tốc độ tính toán và thuận tiện. Tuy nhiên pandas cũng có thể dễ dàng phân biệt missing data vào các loại khác nhau: dấu phẩy động, số nguyên, boolean và đối tượng chung. np.nan, None và NaT (cho loại datetime64[ns]) là các giá trị missing tiêu chuẩn trong Pandas. Loại missing data mới (<NA>), được giới thiệu trong Pandas 1.0, thể hiện cho missing data kiểu số nguyên.



### 2. Các loại Missing Data:

In [1]:
import pandas as pd
import numpy as np

**Missing data loại dấu phẩy động (floating point), None:**

In [2]:
d1= pd.DataFrame({'A':[0, 1, 3, 4, np.nan, 5, np.nan],
                  'B':[9.1, 3.0, np.nan, -5.1, None, 2, 11],
                  'C':['a', np.nan, 'ă', '!', '%', 'be be', 'o'],
                  'D':[True, False, True, None, False, np.nan, True]})
d1

Unnamed: 0,A,B,C,D
0,0.0,9.1,a,True
1,1.0,3.0,,False
2,3.0,,ă,True
3,4.0,-5.1,!,
4,,,%,False
5,5.0,2.0,be be,
6,,11.0,o,True


In [3]:
d2 = pd.DataFrame({'A':[1, 2, np.nan],
                   'B':[5, np.nan, np.nan],
                   'C':[1, 2, 3]})
d2

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


**Series chứa Missing Data dạng số nguyên:**

In [4]:
ser_1 = pd.Series([1, 2, np.nan, 4, np.nan, 5], dtype = pd.Int64Dtype())
ser_1

0       1
1       2
2    <NA>
3       4
4    <NA>
5       5
dtype: Int64

In [5]:
# Thêm Series 1 này vào như một cột DataFrame
d1['<NA>']= ser_1
d1

Unnamed: 0,A,B,C,D,<NA>
0,0.0,9.1,a,True,1.0
1,1.0,3.0,,False,2.0
2,3.0,,ă,True,
3,4.0,-5.1,!,,4.0
4,,,%,False,
5,5.0,2.0,be be,,5.0
6,,11.0,o,True,


**Series chứa Missing Data dạng datetime64[ns]:**

In [6]:
ser_2 = pd.Series([pd.Timestamp('20200101'), np.nan, '20200401', '20200501', '20200601'])
ser_2

0   2020-01-01
1          NaT
2   2020-04-01
3   2020-05-01
4   2020-06-01
dtype: datetime64[ns]

In [7]:
# Thêm Series 2 này vào như một cột DataFrame
d1['NaT']= ser_2
d1

Unnamed: 0,A,B,C,D,<NA>,NaT
0,0.0,9.1,a,True,1.0,2020-01-01
1,1.0,3.0,,False,2.0,NaT
2,3.0,,ă,True,,2020-04-01
3,4.0,-5.1,!,,4.0,2020-05-01
4,,,%,False,,2020-06-01
5,5.0,2.0,be be,,5.0,NaT
6,,11.0,o,True,,NaT


### 3. Xác định Missing Data trong pandas:
Pandas cho phép thao tác linh hoạt với missing data trong Series, DataFrame như tìm giá trị bị thiếu (missing value), xác định giá trị tồn tại (không bị thiếu), loại bỏ giá trị bị thiếu, chèn giá trị bị thiếu, điền vào giá trị bị thiếu, v.v.

**Xác định giá trị bị thiếu bằng *Series.isna* và *DataFrame.isna***

In [8]:
ser_1

0       1
1       2
2    <NA>
3       4
4    <NA>
5       5
dtype: Int64

In [9]:
# Kiểm tra isna cho Series
na_Ser = ser_1.isna()
na_Ser

0    False
1    False
2     True
3    False
4     True
5    False
dtype: bool

In [10]:
d1

Unnamed: 0,A,B,C,D,<NA>,NaT
0,0.0,9.1,a,True,1.0,2020-01-01
1,1.0,3.0,,False,2.0,NaT
2,3.0,,ă,True,,2020-04-01
3,4.0,-5.1,!,,4.0,2020-05-01
4,,,%,False,,2020-06-01
5,5.0,2.0,be be,,5.0,NaT
6,,11.0,o,True,,NaT


In [11]:
# Kiểm tra isna cho DataFrame
na_DF = d1.isna()
na_DF

Unnamed: 0,A,B,C,D,<NA>,NaT
0,False,False,False,False,False,False
1,False,False,True,False,False,True
2,False,True,False,False,True,False
3,False,False,False,True,False,False
4,True,True,False,False,True,False
5,False,False,False,True,False,True
6,True,False,False,False,True,True


**Xác định giá trị tồn tại (existing values) bằng *Series.notna* và *DataFrame.notna***

In [12]:
ser_1

0       1
1       2
2    <NA>
3       4
4    <NA>
5       5
dtype: Int64

In [13]:
# Kiểm tra notna cho Series
notna_Ser = ser_1.notna()
notna_Ser

0     True
1     True
2    False
3     True
4    False
5     True
dtype: bool

In [14]:
d1

Unnamed: 0,A,B,C,D,<NA>,NaT
0,0.0,9.1,a,True,1.0,2020-01-01
1,1.0,3.0,,False,2.0,NaT
2,3.0,,ă,True,,2020-04-01
3,4.0,-5.1,!,,4.0,2020-05-01
4,,,%,False,,2020-06-01
5,5.0,2.0,be be,,5.0,NaT
6,,11.0,o,True,,NaT


In [15]:
# Kiểm tra notna cho DataFrame
notna_DF = d1.notna()
notna_DF

Unnamed: 0,A,B,C,D,<NA>,NaT
0,True,True,True,True,True,True
1,True,True,False,True,True,False
2,True,False,True,True,False,True
3,True,True,True,False,True,True
4,False,False,True,True,False,True
5,True,True,True,False,True,False
6,False,True,True,True,False,False


### 4. Xử lý Missing Data trong pandas:


**Xóa giá trị thiếu bằng *Series.dropna* và *DataFrame.dropna***

In [16]:
ser_1

0       1
1       2
2    <NA>
3       4
4    <NA>
5       5
dtype: Int64

In [17]:
# Xóa missing data trong Series:
drop_Ser = ser_1.dropna()
drop_Ser

0    1
1    2
3    4
5    5
dtype: Int64

In [18]:
d1

Unnamed: 0,A,B,C,D,<NA>,NaT
0,0.0,9.1,a,True,1.0,2020-01-01
1,1.0,3.0,,False,2.0,NaT
2,3.0,,ă,True,,2020-04-01
3,4.0,-5.1,!,,4.0,2020-05-01
4,,,%,False,,2020-06-01
5,5.0,2.0,be be,,5.0,NaT
6,,11.0,o,True,,NaT


In [19]:
# Xóa missing data trong DataFrame:
drop_DF = d1.dropna()
drop_DF

Unnamed: 0,A,B,C,D,<NA>,NaT
0,0.0,9.1,a,True,1,2020-01-01


**Điền vào giá trị thiếu: *fillna()***

In [20]:
# Series chứa missing data:
ser_1

0       1
1       2
2    <NA>
3       4
4    <NA>
5       5
dtype: Int64

In [21]:
fill_Ser = ser_1.fillna(101010)
fill_Ser
# Series đã thay missing data bằng giá trị vô hướng "101010" 

0         1
1         2
2    101010
3         4
4    101010
5         5
dtype: Int64

In [22]:
# DataFrame chứa missing data:
d2 = pd.DataFrame({'A':[0, np.nan, 5, np.nan],
                   'B':[9.1, np.nan, None, 10]})
d2

Unnamed: 0,A,B
0,0.0,9.1
1,,
2,5.0,
3,,10.0


In [23]:
fill_DF = d2.fillna('err')
fill_DF
# DataFrame đã thay missing data bằng giá trị vô hướng "err"

Unnamed: 0,A,B
0,0,9.1
1,err,err
2,5,err
3,err,10


***fillna()* cũng có thể được sử dụng trên một cột cụ thể**

In [24]:
d3 = pd.DataFrame({'A':[0, 1, np.nan, 5],
                   'B':[pd.Timestamp('20200101'), '20190203', np.nan, '20190403']})
d3

Unnamed: 0,A,B
0,0.0,2020-01-01
1,1.0,2019-02-03
2,,NaT
3,5.0,2019-04-03


In [25]:
# Tính giá trị trung bình của cột A = (0 + 1 + 5) / 3
tb = d3['A'].mean()
tb

2.0

In [26]:
# Fill các missing value cột A bằng giá trị tb
d3['A'] = d3['A'].fillna(tb)
d3

Unnamed: 0,A,B
0,0.0,2020-01-01
1,1.0,2019-02-03
2,2.0,NaT
3,5.0,2019-04-03


Sử dụng tham số **method**, các giá trị bị thiếu có thể được thay thế bằng các giá trị trước **(pad/ffill)**  hoặc sau **(bfill/backfill)** chúng. Key **limit** sẽ giới hạn bao nhiêu giá trị trước/sau sẽ được lấy thay thế.

In [27]:
d4 = pd.DataFrame({'A':[0, 1, np.nan, 5, 6, np.nan, 12],
                   'B':[pd.Timestamp('20200101'), '20190203', np.nan, '20190403', np.nan, np.nan, '20090909']})
d4

Unnamed: 0,A,B
0,0.0,2020-01-01
1,1.0,2019-02-03
2,,NaT
3,5.0,2019-04-03
4,6.0,NaT
5,,NaT
6,12.0,2009-09-09


In [28]:
# Fill về trước
fw = d4.fillna(method='ffill')
fw

Unnamed: 0,A,B
0,0.0,2020-01-01
1,1.0,2019-02-03
2,1.0,2019-02-03
3,5.0,2019-04-03
4,6.0,2019-04-03
5,6.0,2019-04-03
6,12.0,2009-09-09


In [29]:
# Fill về sau
bw = d4.fillna(method='bfill', limit=1)
bw

Unnamed: 0,A,B
0,0.0,2020-01-01
1,1.0,2019-02-03
2,5.0,2019-04-03
3,5.0,2019-04-03
4,6.0,NaT
5,12.0,2009-09-09
6,12.0,2009-09-09


Pandas cho phép bạn chèn giá trị vào missing data bằng fillna() thì bạn cũng có thể làm ngược lại: chèn missing data vào vị trí đã có giá trị. Giá trị thiếu thực tế được sử dụng sẽ được chọn dựa trên dtype.

**Chèn missing data cho các container (Series, DataFrame) chứa con số**


In [30]:
# Series không có Missing Value:
ser_2 = pd.Series([1, 2, 4])
ser_2

0    1
1    2
2    4
dtype: int64

In [31]:
# Chèn None vào
ser_2.loc[0] = None
ser_2

0    NaN
1    2.0
2    4.0
dtype: float64

In [32]:
# DataFrame không có missing value:
d5 = pd.DataFrame({'A':[0, 1, 5],
                   'B':[pd.Timestamp('20200101'), '20190203', '20190403']})
d5

Unnamed: 0,A,B
0,0,2020-01-01
1,1,2019-02-03
2,5,2019-04-03


In [33]:
# Chèn missing data vào vị trí đầu của cột 1 và vị trí thứ 2 của cột 2:
d5['A'].loc[0] = None
d5['B'].loc[1] = np.nan
d5

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_with_indexer(indexer, value)


Unnamed: 0,A,B
0,,2020-01-01
1,1.0,NaT
2,5.0,2019-04-03
