# 좋은 훈련 데이터의 구성 - 데이터 전처리
* 결측 데이터를 제거하고 대체하기
* 범주형 데이터를 머신러닝 알고리즘을 위한 형태로 변환하기
* 모델 생성을 위해 연관성 있는 피처들을 선택하기

## 1. 결측 데이터 다루기

In [5]:
import pandas as pd
from io import StringIO

csv_data = '''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''

df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [2]:
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

### 결측값을 가진 샘플이나 피처 제거하기
결측값을 가진 행은 dropna 메서를 사용하여 쉽게 제거할 수 있다.

In [3]:
df.dropna()

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


### 결측값의 보정
가장 많이 사용되는 보정법 중 하나가 전체 피처열의 평균값으로 결측값을 간단히 대체하는 평균보정법이다. 이것은 사이컷런의 Imputer 클래스를 사용해서 쉽게 구현할 수 있다.

In [6]:
from sklearn.preprocessing import Imputer
imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
imr = imr.fit(df)
imputed_data = imr.transform(df.values)
imputed_data

array([[  1. ,   2. ,   3. ,   4. ],
       [  5. ,   6. ,   7.5,   8. ],
       [ 10. ,  11. ,  12. ,   6. ]])

### 사이킷런 에스티메이터 API 이해하기

## 2. 범주형 데이터 다루기

In [7]:
import pandas as pd
df = pd.DataFrame([
    ['green', 'M', 10.1, 'class1'],
    ['red', 'L', 13.5, 'class2'],
    ['blue', 'XL', 15.3, 'class1']
])
df.columns = ['color', 'size', 'price', 'classlabel']
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


### 순위형 피처 매핑

In [8]:
size_mapping = {
    'XL': 3,
     'L': 2,
     'M': 1
}
df['size'] = df['size'].map(size_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


### 분류 레이블 인코딩

In [9]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = le.fit_transform(df['classlabel'].values)
y

array([0, 1, 0])

### 명목형 피처에 원핫 인코딩 수행하기

## 3. 데이터 훈련용과 테스트용으로 분할하기

## 4. 피처들을 동일한 스케일로 가져오기

## 5. 의미 있는 피처 선택
* 더 많은 훈련 데이터를 수집한다.
* 정규화에 의한 복잡도에 벌점을 부과한다.
* 더 적은 파라미터를 갖는 단순한 모델을 선택한다.
* 데이터 차원을 축소한다.

### L1 정규화가 있는 희소 솔루션

### 연속형 피처 선택 알고리즘

## 6. 램던 포레스트를 활용한 피처 중요도의 평가