In [2]:
##누락된 값(NaN, NULL)은 단순히 무시하면 예상치 못한 결과를 초래. 따라서 누락된 값 처리가 중요하다.

##예제 데이터 만들기
import pandas as pd
from io import StringIO

csv_data = \
    '''A,B,C,D
    1.0,2.0,3.0,4.0
    5.0,6.0,,8.0
    10.0,11.0,12.0,'''
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [3]:
##isnull 메서드는 셀이 수치 값을 가지고 있는지(False), 누락되어있는지(True)를 나타낸 불리언 값이 채워지 DF를 반환.
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

In [4]:
#누락된 데이터 처리 방법 1
#누락된 데이터가 포함된 행(샘플)이나 열(특성)을 완전히 제거하는 방법.
#dropna 메서드 사용
df.dropna(axis=0) #axis가 0이면 행 삭제

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [5]:
#axis를 1로 설정하면 NaN이 하나라도 있는 열 삭제 가능
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [6]:
#모든 열이 NaN일 때만 행 삭제(해당 예시에는 그런 열이 없으므로 그대로 출력)
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [8]:
#실수 값이 표시된 값보다 적은 행을 삭제
df.dropna(thresh=4) #여기선 네 개보다 적은 행을 삭제

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [9]:
#특정 열에 NaN이 있는 행만 삭제
df.dropna(subset=['C']) #C열만 삭제


Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


In [10]:
##이렇게 무작정 제거하면 안정된 분석이 불가한 단점 존재.
#또한 분류기가 클래스를 구분하는 데 있어 중요한 정보를 잃을 수도 있다.

In [11]:
###누락된 데이터 처리 방법 2
#보간(interpolation) 기법
##쉽게 말해 대체하는 것이다.
#가장 흔한 보간 기법은 평균으로 대체하는 것

#사이킷런의 Imputer 메서드를 통해 간편하게 평균으로 대체하기
from sklearn.preprocessing import Imputer

imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
imr = imr.fit(df.values)
imputed_data = imr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])