# 누락된 데이터 다루기

### 누락된 값 식별

In [9]:
import pandas as pd
from io import StringIO
csv_data = \
'''A,B,C,D
1.0, 2.0, 3.0, 4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''

df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [10]:
#누락된 값의 갯수
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

In [11]:
#누락된 값이 있는 행 제거
df.dropna(axis=0)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [12]:
#누락된 값이 있는 열 제거
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [13]:
#모든 값이 NaN인 행 삭제
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [14]:
#실수 값이 4 개보다 작은 행 삭제
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [15]:
#특정 열에 NaN이 있는 행만 삭제
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


##### 누락된 값 대체 보간기법
디폴트 : NaN값을 열의 평균으로 만들어줌

In [23]:
import numpy as np
from sklearn.impute import SimpleImputer
simr = SimpleImputer(missing_values=np.nan, strategy='mean')
simr =simr.fit(df.values)
imputed_data = simr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

In [27]:
#NaNa값을 행의 평균으로 만들기
import numpy as np
from sklearn.preprocessing import FunctionTransformer
ftr_simr = FunctionTransformer(lambda X : simr.fit_transform(X.T).T,validate=False)
imputed_data = ftr_simr.fit_transform(df.values)
imputed_data

array([[ 1.        ,  2.        ,  3.        ,  4.        ],
       [ 5.        ,  6.        ,  6.33333333,  8.        ],
       [10.        , 11.        , 12.        , 11.        ]])