In [43]:
import numpy as np
import pandas as pd

In [44]:
pd.isnull(np.nan) #Numpy, isnull = isna

True

In [45]:
pd.isnull(None) #Standard Python, isnull = isna

True

In [46]:
pd.notnull(np.nan) # notnull = notna

False

In [47]:
pd.notnull(None) #notnull = notna

False

In [48]:
a = pd.Series([2,3,np.nan,4,8,None,8,9])
a

Unnamed: 0,0
0,2.0
1,3.0
2,
3,4.0
4,8.0
5,
6,8.0
7,9.0


In [49]:
print(a.isnull().sum())
print(a.notnull().sum())

2
6


In [50]:
print(pd.DataFrame({'City':['Ho Chi Minh',None, 'Hai Phong']
                   ,'People':['10000','2000',np.nan]}).isnull())

    City  People
0  False   False
1   True   False
2  False    True


##FILTERING MISSING DATA

In [51]:
s = pd.Series([1,2,3,np.nan,np.nan,4])
s.isnull()

Unnamed: 0,0
0,False
1,False
2,False
3,True
4,True
5,False


In [52]:
s[s.notnull()]

Unnamed: 0,0
0,1.0
1,2.0
2,3.0
5,4.0


##DROPING NULL VALUE

In [53]:
s.dropna()

Unnamed: 0,0
0,1.0
1,2.0
2,3.0
5,4.0


##CLEANING DATA WITH DATAFRAME

In [54]:
df = pd.DataFrame({
    'Column A': [1, np.nan, 30, np.nan],
    'Column B': [2, 8, 31, np.nan],
    'Column C': [np.nan, 9, 32, 100],
    'Column D': [5, 8, 34, 110],
})
df

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,,5
1,,8.0,9.0,8
2,30.0,31.0,32.0,34
3,,,100.0,110


In [55]:
df.shape

(4, 4)

In [56]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Column A  2 non-null      float64
 1   Column B  3 non-null      float64
 2   Column C  3 non-null      float64
 3   Column D  4 non-null      int64  
dtypes: float64(3), int64(1)
memory usage: 260.0 bytes


In [57]:
df.describe()

Unnamed: 0,Column A,Column B,Column C,Column D
count,2.0,3.0,3.0,4.0
mean,15.5,13.666667,47.0,39.25
std,20.506097,15.30795,47.318073,48.931074
min,1.0,2.0,9.0,5.0
25%,8.25,5.0,20.5,7.25
50%,15.5,8.0,32.0,21.0
75%,22.75,19.5,66.0,53.0
max,30.0,31.0,100.0,110.0


In [58]:
df.isnull()

Unnamed: 0,Column A,Column B,Column C,Column D
0,False,False,True,False
1,True,False,False,False
2,False,False,False,False
3,True,True,False,False


In [59]:
df.isnull().sum()

Unnamed: 0,0
Column A,2
Column B,1
Column C,1
Column D,0


In [60]:
x = df.dropna() # xóa toàn bộ cột/dòng có chứa giá trị null
x

Unnamed: 0,Column A,Column B,Column C,Column D
2,30.0,31.0,32.0,34


In [61]:
y = df.dropna(axis='columns') # xóa cột có chứa null, hoặc axis = 1
y

Unnamed: 0,Column D
0,5
1,8
2,34
3,110


In [62]:
z = df.dropna(axis='rows') # xóa hàng có chứa null, hoặc axis=0
z

Unnamed: 0,Column A,Column B,Column C,Column D
2,30.0,31.0,32.0,34


In [63]:
m = df.dropna(how='all') #giữ nguyên
m

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,,5
1,,8.0,9.0,8
2,30.0,31.0,32.0,34
3,,,100.0,110


In [64]:
n = df.dropna(how='any') #xóa hết những cột và dòng có chứa giá trị null (default)
n

Unnamed: 0,Column A,Column B,Column C,Column D
2,30.0,31.0,32.0,34


In [65]:
o = df.dropna(thresh=3) # drop hết giá trị theo dòng (cột giữ nguyên số lượng) những để lại 3 hàng đầu tiên (0,1,2) cho dù có null hay ko
o

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,,5
1,,8.0,9.0,8
2,30.0,31.0,32.0,34


In [66]:
p = df.dropna(thresh = 3, axis=1)  # drop hết giá trị theo cột (hàng giữ nguyên số lượng) những để lại 3 cột đầu tiên (0,1,2) cho dù có null hay ko
p

Unnamed: 0,Column B,Column C,Column D
0,2.0,,5
1,8.0,9.0,8
2,31.0,32.0,34
3,,100.0,110


##FILLING NULL VALUES

In [67]:
s

Unnamed: 0,0
0,1.0
1,2.0
2,3.0
3,
4,
5,4.0


In [68]:
s.fillna(0) # fill tất cả giá trị null bằng 0

Unnamed: 0,0
0,1.0
1,2.0
2,3.0
3,0.0
4,0.0
5,4.0


In [69]:
s.fillna(s.mean()) # fill tất cả null bằng mean

Unnamed: 0,0
0,1.0
1,2.0
2,3.0
3,2.5
4,2.5
5,4.0


In [71]:
# fill bằng giá trị gần null phía trước: foward fill
s.fillna(method='ffill')

  s.fillna(method='ffill')


Unnamed: 0,0
0,1.0
1,2.0
2,3.0
3,3.0
4,3.0
5,4.0


In [72]:
# fill bằng giá trị gần null phía sau: back fill
s.fillna(method = 'bfill')

  s.fillna(method = 'bfill')


Unnamed: 0,0
0,1.0
1,2.0
2,3.0
3,4.0
4,4.0
5,4.0


##FILLING NULL VALUES WITH DATAFRAME

In [73]:
df

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,,5
1,,8.0,9.0,8
2,30.0,31.0,32.0,34
3,,,100.0,110


In [74]:
df.fillna({'Column A':0, 'Column B':99, 'Column C':df['Column C'].mean()}) # fill cột A = 0, B = 99, C = mean

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,47.0,5
1,0.0,8.0,9.0,8
2,30.0,31.0,32.0,34
3,0.0,99.0,100.0,110


In [75]:
df.fillna(method='ffill', axis=0)

  df.fillna(method='ffill', axis=0)


Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,,5
1,1.0,8.0,9.0,8
2,30.0,31.0,32.0,34
3,30.0,31.0,100.0,110


In [76]:
df.fillna(method='ffill', axis=1)

  df.fillna(method='ffill', axis=1)


Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,2.0,5.0
1,,8.0,9.0,8.0
2,30.0,31.0,32.0,34.0
3,,,100.0,110.0


In [77]:
df.fillna(method='bfill', axis=0)

  df.fillna(method='bfill', axis=0)


Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,9.0,5
1,30.0,8.0,9.0,8
2,30.0,31.0,32.0,34
3,,,100.0,110


In [78]:
df.fillna(method='bfill', axis=1)

  df.fillna(method='bfill', axis=1)


Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,5.0,5.0
1,8.0,8.0,9.0,8.0
2,30.0,31.0,32.0,34.0
3,100.0,100.0,100.0,110.0


##CHECKING IF THERE ARE NAs

In [79]:
s.dropna().count() #4 phần tử được loại bỏ do missing value

np.int64(4)

In [80]:
missing_value= len(s.dropna()) != len(s) #kiểm tra xem số phần tử bị drop có khác số lượng phần tử của s hay ko, điều này giúp kiểm tra xem s có bị drop toàn bộ do missing hay ko
missing_value

True