In [1]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pylab as plt
import scipy as sp

In [12]:
# pandas에서는 결측값을 'NaN' 으로 표기하며, 'None'도 결측값으로 인식
# making DataFrame with missing values
df1 = pd.DataFrame({'KEY': ['K0', 'K1', 'K2', 'K3'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': [0.5, 2.2, 3.6, 0.4]})

df2 = pd.DataFrame({'KEY': ['K2', 'K3', 'K4', 'K5'],
    'C': ['C2', 'C3', 'C4', 'C5'],
    'D': ['D2', 'D3', 'D4', 'D5']})
print(df1)
print(df2)


    A    B KEY
0  A0  0.5  K0
1  A1  2.2  K1
2  A2  3.6  K2
3  A3  0.4  K3
    C   D KEY
0  C2  D2  K2
1  C3  D3  K3
2  C4  D4  K4
3  C5  D5  K5


In [13]:
df12 = pd.merge(df1, df2, how="outer")
df12

Unnamed: 0,A,B,KEY,C,D
0,A0,0.5,K0,,
1,A1,2.2,K1,,
2,A2,3.6,K2,C2,D2
3,A3,0.4,K3,C3,D3
4,,,K4,C4,D4
5,,,K5,C5,D5


In [6]:
# DataFrame 전체의 결측값 여부 확인 
# df.isnull(), isnull(df), df.notnull(), notnull(df)
pd.isnull(df12) # 결측값이면 True


Unnamed: 0,A,B,KEY,C,D
0,False,False,False,True,True
1,False,False,False,True,True
2,False,False,False,False,False
3,False,False,False,False,False
4,True,True,False,False,False
5,True,True,False,False,False


In [7]:
df12.notnull() # 결측값이면 False

Unnamed: 0,A,B,KEY,C,D
0,True,True,True,False,False
1,True,True,True,False,False
2,True,True,True,True,True
3,True,True,True,True,True
4,False,False,True,True,True
5,False,False,True,True,True


In [17]:
# 특정 변수, 원소에 결측값 추가하기, 결측값 여부 확인하기 : indexing & None
# 0, 1 index의 A, B행 None으로 처리
df12.loc[0:1, 0:1] = None
df12

Unnamed: 0,A,B,KEY,C,D
0,,,K0,,
1,,,K1,,
2,A2,3.6,K2,C2,D2
3,A3,0.4,K3,C3,D3
4,,,K4,C4,D4
5,,,K5,C5,D5


In [18]:
# A, B컬럼의 결측치 확인
df12[["A", "B"]].isnull()

Unnamed: 0,A,B
0,True,True
1,True,True
2,False,False
3,False,False
4,True,True
5,True,True


In [23]:
# 칼럼별 결측값 개수 구하기 : df.isnull().sum()
df12.isnull().sum()

A      4
B      4
KEY    0
C      2
D      2
dtype: int64

In [29]:
# 컬럼별 결측값이 아닌 개수 구하기
# axis=0
print(df12.notnull().sum())
print(df12.count())

A      2
B      2
KEY    6
C      4
D      4
dtype: int64
A      2
B      2
KEY    6
C      4
D      4
dtype: int64


In [30]:
# 행(row) 단위로 결측값 개수 구하기 : df.isnull().sum(axis=1)
print(df12.isnull().sum(axis=1))

# 행(row) 단위로 실측값 개수 구하기 : df.notnull().sum(axis=1)
print(df12.notnull().sum(axis=1))
print(df12.count(axis=1))

0    4
1    4
2    0
3    0
4    2
5    2
dtype: int64
0    1
1    1
2    5
3    5
4    3
5    3
dtype: int64
0    1
1    1
2    5
3    5
4    3
5    3
dtype: int64


In [31]:
df12["NaN_cnt"] = df12.isnull().sum(axis=1)
df12["NotNull_cnt"] = df12.notnull().sum(axis=1)
df12.loc["NaN_cnt_col"] = df12.isnull().sum()
df12

Unnamed: 0,A,B,KEY,C,D,NaN_cnt,NotNull_cnt
0,,,K0,,,4,2
1,,,K1,,,4,2
2,A2,3.6,K2,C2,D2,0,6
3,A3,0.4,K3,C3,D3,0,6
4,,,K4,C4,D4,2,4
5,,,K5,C5,D5,2,4
NaN_cnt_col,4,4.0,0,2,2,0,0
