## 결측치 데이타 처리

- 결측치는 데이터 분석 결과에 엄청난 영향을 미치기에 존재여부 확인부터 중요

- None를 포함하며, 결측값은 ‘NaN’로 표시


- 결측값 확인 메소드 
    * isnull()
    * notnull()
    
    
- 결측값 처리 	
    (1) 제거 : dropna()      	
    (2) 대치 : fillna()


In [1]:
import pandas as pd
import numpy as np 

df = pd.DataFrame(np.ones((4,4)),index=['A','B','C','D'])
df

Unnamed: 0,0,1,2,3
A,1.0,1.0,1.0,1.0
B,1.0,1.0,1.0,1.0
C,1.0,1.0,1.0,1.0
D,1.0,1.0,1.0,1.0


In [5]:
# 결측치 만들기 ( NaN, nan)
df.loc['B',1] = np.NaN
df

df.loc['B':, 2] = np.nan
df

Unnamed: 0,0,1,2,3
A,1.0,1.0,1.0,1.0
B,1.0,,,1.0
C,1.0,1.0,,1.0
D,1.0,1.0,,1.0


In [6]:
# 누적합을 구할 때
df.cumsum()

Unnamed: 0,0,1,2,3
A,1.0,1.0,1.0,1.0
B,2.0,,,2.0
C,3.0,2.0,,3.0
D,4.0,3.0,,4.0


In [13]:
# 결측치 확인 - isnull() : 결측치가 있을 경우 true 반환

print( df.isnull() ) 
print('-'*8)

# notnull() : 결측치가 있을 경우 false 반환
print( df.notnull().sum() ) 

       0      1      2      3
A  False  False  False  False
B  False   True   True  False
C  False  False   True  False
D  False  False   True  False
--------
0    4
1    3
2    1
3    4
dtype: int64


In [15]:
# 결측치 해결 - dropna() : 결측치가 있는 행을 모두 지움
df.dropna()

Unnamed: 0,0,1,2,3
A,1.0,1.0,1.0,1.0


In [16]:
# 결측치 해결 -> 대체 - fillna() : 결측치 데이터를 다른 값으로 대체

df.fillna(0)

Unnamed: 0,0,1,2,3
A,1.0,1.0,1.0,1.0
B,1.0,0.0,0.0,1.0
C,1.0,1.0,0.0,1.0
D,1.0,1.0,0.0,1.0


In [23]:
unk = df.fillna('Unknown') # 잘 안쓰임, 보통 평균값을 많이 넣는다고 함.

print( unk )

mean = df.fillna(df.mean())

print( mean )

     0        1        2    3
A  1.0      1.0      1.0  1.0
B  1.0  Unknown  Unknown  1.0
C  1.0      1.0  Unknown  1.0
D  1.0      1.0  Unknown  1.0
     0    1    2    3
A  1.0  1.0  1.0  1.0
B  1.0  1.0  1.0  1.0
C  1.0  1.0  1.0  1.0
D  1.0  1.0  1.0  1.0


In [19]:
df.fillna( {1:'NULL', 2:-1} ) # 열마다 다르게 지정 가능

Unnamed: 0,0,1,2,3
A,1.0,1.0,1.0,1.0
B,1.0,,-1.0,1.0
C,1.0,1.0,-1.0,1.0
D,1.0,1.0,-1.0,1.0
