# 4.1 결측 데이터 다루기

보통 우리의 데이터 테이블에서 결측값은 빈 공간으로 보이거나 NaN와 같은 자리 표시자 문자열처럼 보인다.
결측값을 가진 행은 dropna 메서드를 사용하여 쉽게 제어할 수 있다.


In [1]:
from IPython.display import Image
%matplotlib inline

In [2]:
from distutils.version import LooseVersion as Version
from sklearn import __version__ as sklearn_version

In [3]:
import pandas as pd
from io import StringIO

csv_data = '''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''

# If you are using Python 2.7, you need
# to convert the string to unicode:
# csv_data = unicode(csv_data)

df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [4]:

df.dropna()

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [5]:
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [6]:
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [7]:
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [8]:
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


# 결측값 보정

가장 많이 사용되는 보정법 중 하나가 전체 피처열의 평균값으로 결측값을 간단히 대체하는 평균보정법이다. Imputer 클래스를 사용해서 쉽게 구현할 수 있다.

In [9]:
from sklearn.preprocessing import Imputer

imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
imr = imr.fit(df)
imputed_data = imr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

In [10]:
df.values

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

# 범주형 데이터 다루기

우리가 범주형 데이터에 대해 이야기하고자 할 때는 명목형 피처와 순위형 피처를 좀 더 구분해야 할 필요가 있다.
순위형 피처는 정렬하거나 순위화할 수 있는 범주형값으로 이해할 수 있다.
명목형 피처는 어떤 순서도 의미하지는 않는다.

# 의미 있는 피처 선택

오버피팅은 실제 데이터를 잘 일반화하지 못하는 것을 말한다.
오버피팅의 한 가지 이유는 우리의 모델이 주어진 훈련 데이터에 비해 지나치게 복잡하기 때문ㅇ며 일반화 에러를 줄일 수 있는 일반적인 해법은 다음과 같이 나열할 수 있다.
1. 더 많은 훈련데이터를 수집한다.
2. 정규화에 의한 복잡도에 벌점을 부과한다.
3. 더 적은 파라미터를 갖는 단순한 모델을 선택한다.
4. 데이터 차원을 축소한다.