## 누락된 데이터 처리 방법
* 삭제    
* 대체 (최빈/평균/중간 값 or 이전 행/열 값으로)

In [41]:
import pandas as pd
import numpy as np

# 엑셀로 예제 데이터 생성
data=pd.read_excel('C:/Users/J-365/Documents/omission_data_example.xlsx')
data

Unnamed: 0,0,A,B,C,D
0,1,1,2,3.0,4.0
1,2,5,6,,7.0
2,3,10,11,12.0,


In [42]:
# 불필요한 [0]열 삭제
del data[0]
df=pd.DataFrame(data)
df

Unnamed: 0,A,B,C,D
0,1,2,3.0,4.0
1,5,6,,7.0
2,10,11,12.0,


## 1. 누락된 데이터 삭제

In [27]:
# isnull 메서드: 누락된 값을 참/거짓으로 반환
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

In [29]:
# 행 기준으로 누락된 값 있는 "행"삭제
df.dropna(axis=0)

Unnamed: 0,A,B,C,D
0,1,2,3.0,4.0


In [32]:
# 열 기준으로 누락된 값이 있는 "열"삭제
df.dropna(axis=1)

Unnamed: 0,A,B
0,1,2
1,5,6
2,10,11


In [33]:
# dropna 옵션 all: 모든 열이 NULL인 행만 삭제
# 아래 예제는 모든 열이 NULL인 행이 없어서 삭제 X
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1,2,3.0,4.0
1,5,6,,7.0
2,10,11,12.0,


In [35]:
# dropna 옵션 thresh=n: NULL이 "아닌"값이 n-1개 이하인 행을 삭제
df.dropna(thresh=1)

Unnamed: 0,A,B,C,D
0,1,2,3.0,4.0
1,5,6,,7.0
2,10,11,12.0,


In [39]:
# NULL이 아닌 값이 3개(n-1)인 행이 존재해서 삭제 
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1,2,3.0,4.0


## 2.1 최빈/평균/중간 값으로 누락 값 대체
최빈값인지, 평균값인지, 중간값인지 선택하는 것은 모두 strategy의 옵션으로 각각 아래와 같이 줄 수 있다.
* 최빈값: most_frequent
* 평균값: mean
* 중간값: median

+아래 예제에서 원래 NaN의 자리를 Notice !! 아래 예제에서는 중간값과 최빈값이 "우연히"같음

In [46]:
# SimpleImputer클래스 import
from sklearn.impute import SimpleImputer
import numpy as np

# 최빈값으로 대체
imr=SimpleImputer(missing_values=np.nan,strategy='most_frequent')
imr=imr.fit(df.values)
imputed_data=imr.transform(df.values)
imputed_data

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  3.,  7.],
       [10., 11., 12.,  4.]])

In [49]:
# 평균값으로 대체
imr=SimpleImputer(missing_values=np.nan,strategy='mean')
imr=imr.fit(df.values)
imputed_data=imr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  7. ],
       [10. , 11. , 12. ,  5.5]])

In [50]:
# 중간값으로 대체
imr=SimpleImputer(missing_values=np.nan,strategy='median')
imr=imr.fit(df.values)
imputed_data=imr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  7. ],
       [10. , 11. , 12. ,  5.5]])

## 2.2 주위 행/열 값으로 누락된 값 대체

* 다음 행: fillna(method='bfill/backfill') //다음 행 값으로 대체
* 이전 행: fillna(method='ffill/pad') //이전 행의 값으로 대체

+디폴트는 axis=0, 행이 기준이지만 axis=1을 추가하면 열을 기준으로 위 명령 사용 가능!

In [54]:
# 다음 행의 값으로 대체
# 12 12
# D의 2는 다음 행이 없어서 안 채워짐
df.fillna(method='bfill')

Unnamed: 0,A,B,C,D
0,1,2,3.0,4.0
1,5,6,12.0,7.0
2,10,11,12.0,


In [53]:
# 이전 행의 값으로 대체
# 3 3 ,7 7
df.fillna(method='ffill')

Unnamed: 0,A,B,C,D
0,1,2,3.0,4.0
1,5,6,3.0,7.0
2,10,11,12.0,7.0


In [56]:
# 다음 열의 값으로 대체
# 여기선 7 7
df.fillna(method='bfill',axis=1)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,7.0
2,10.0,11.0,12.0,


In [57]:
# 이전 열의 값으로 대체
# 6 6, 12 12
df.fillna(method='ffill',axis=1)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,6.0,7.0
2,10.0,11.0,12.0,12.0
