In [6]:
import pandas as pd
from io import StringIO

csv_data = \
    '''A, B, C, D
    1.0,2.0,3.0,4.0
    5.0,6.0,,8.0
    10.0,11.0,12.0'''

df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [7]:
# NaN : 누락된 값

# 1. 누락된 값이 있는 샘플이나 특성 제외
'''dropna는 편리한 매개변수 제공

dropna(how='all')
-> 모든 열이 NaN일 때 행 삭제

dropna(thresh=4)
-> 실수 값이 특정 값보다 작은 행 삭제

dropna(subset=['C'])
-> 특정 열에 NaN이 있는 행만 삭제

'''
df.dropna(axis=0)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [16]:
# 2. 누락된 값 대체(여러 보간 기법 사용)

# from sklearn.Imputer import Imputer : 사이킷런 0.22 버전에서 삭제될 예정
from sklearn.impute import SimpleImputer
import numpy as np

# 누락된 값을 각 특성 열의 전체 평균으로 변경(가장 많이 사용됨)
imr = SimpleImputer(missing_values=np.nan, strategy='mean')
imr = imr.fit(df.values)

imputed_data = imr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])