# 4. 좋은 훈련 세트 만들기: 데이터 전처리

- 데이터셋이서 누락된 값을 제거하거나 대체하기
- 머신 러닝 알고리즘을 위해 범주형 데이터 변환하기
- 모델과 관련이 높은 특성 선택하기

## 4.1 누락된 데이터 다루기

일반적으로 누락된 값은 데이터 테이블에 빈 공간이나 예약된 문자열로 채워진다  
숫자가 아니라는 의미(not a number)NaN이나 NULL(관계형 데이터베이스에서 모르는 값을 지칭하는데 주로 사용)과 같은 값을 사용한다  
안타깝게도 대부분의 수치 계산 라이브러리는 누락된 값을 다룰 수 없거나 단순히 이를 무시했을 때 예상치 못한 결과를 만든다  

### 4.1.1 테이블 형태 데이터에서 누락된 값 식별

In [1]:
import pandas as pd
from io import StringIO

csv_data = \
'''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


StringIO를 이용하면 하드 디스크에 있는 일반 CSV파일 처럼 data_csv에 저장된 문자열을 읽어 pandas DataFrame으로 변환할 수 있다  
아주 큰 DataFrame일 경우 수동으로 누락된 값을 찾는 것은 매우 번거롭다  
isnull method는 cell이 수치 값을 담고 있는지(False)또는 누락되어 있는지(True)를 나타내는 boolean 값이 채워진 DataFrame을 반환한다  

In [2]:
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

이런 식으로 열마다 누락된 값의 개수를 알 수 있다  

사이킷런의 추정기에 주입하기 전에 values 속성을 사용하여 언제나 numpy array를 얻을 수 있다

In [3]:
df.values

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

### 4.1.2 누락된 값이 있는 샘플이나 특성 제외

누락된 데이터를 다루는 가장 쉬운 방법 중 하나는 해당 샘플이나 특성을 완전히 삭제하는 것이다  

In [4]:
df.dropna(axis=0)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


axis 매개변수를 1로 지정해서 NaN이 하나라도 있는 열을 삭제할 수 있다

In [5]:
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


dropa method는 몇 가지 편리한 매개변수를 제공한다

In [6]:
# 모든 열이 NaN일 때만 행을 삭제한다
# (여기서는 모든 값이 NaN인 행이 없기 때문에 전체 배열이 반환된다)
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [7]:
#실수 값이 4개보다 작은 행을 삭제한다
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [8]:
#특정 열에 NaN이 있는 행만 삭제한다
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


너무 많은 데이터를 제거하면 안정된 분석이 불가능할 수 있다  
너무 많은 특성 열을 제거하면 분류기가 클래스를 구분하는 데 필요한 중요한 정보를 잃을 위험이 있다  

### 4.1.3 누락된 값 대체

보간 기법을 사용하여 데이터셋에 있는 다른 훈련샘플로부터 누락된 값을 추정할 수 있다  
가장 흔한 보간 기법 중 하나는 평균으로 대체하는 것이다  
각 특성 열의 전체 평균으로 누락된 값을 바꾸는 것이다  

In [9]:
from sklearn.preprocessing import Imputer
imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
imr = imr.fit(df.values)
imputed_data = imr.transform(df.values)
imputed_data



array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

axis = 0을 axis = 1로 바꾸면 행의 평균이 계산된다  
strategy 매개변수에 설정할 수 있는 다른 값은 median(데이터를 순서대로 나열했을 떄 중간에 위치한 값), most_frequent(가장 많이 나타난 값)으로 누락된 값을 대체한다

### 4.1.4 사이킷런 추정기 API 익히기

Imputer 클래스는 데이터 변환에 사용되는 사이킷런의 transform 클래스다  
이런 추정기의 주요 method 두개는 fit과 transform이다  
fit method를  사용하여 훈련 데이터에서 모델 parmeter을 학습한다  
transform method를 사용하여 학습한 parmeter로 데이터를 변환한다  
변환하려는 데이터의 배열은 모델 학습에 사용된 데이터의 특성 개수와 같아야한다  

<img src='https://thebook.io/img/007022/p141.jpg'>

<img src='https://thebook.io/img/007022/p142.jpg'>

## 4.2 범주형 데이터 다루기

실제 데이터셋은 하나 이상의 범주형 특성이 포함된 경우가 많다  

### 4.2.1 순서가 있는 특성과 순서가 없는 특성

순서가 있는 특성은 정렬하거나 차례대로 놓을 수 있으므로 범주형 특성이다. ex)티셔츠 사이즈  
순서가 없는 특성은 차례를 부여할 수 없다. ex)티셔츠 컬러  

$\boldsymbol{ 예제 데이터셋 만들기}$

In [10]:
import pandas as pd
df = pd.DataFrame([
                  ['green', 'M', 10.1, 'class1'],
                  ['red', 'L', 13.5, 'class2'], 
                  ['blue', 'XL', 15.3, 'class1']])
df.columns = ['color', 'size', 'price', 'classlabel']
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


### 4.2.2 순서 특성 매핑

학습 알고리즘이 순서 특성을 올바르게 인식하려면 범주형의 문자열 값을 정수로 바꾸어야 한다  
안타깝지만 size 특성의 순서를 올바르게 자동으로 바꾸어 주는 함수는 없기 때문에 매핑 함수를 직접 만들어야 한다  
여기서는 특성 간의 산술적인 차이를 이미 알고 있다 가정한다  
ex)
$$
XL=L + 1 = M + 2
$$

In [11]:
size_mapping = {
                'XL': 3,
                'L': 2,
                'M': 1}
df['size'] = df['size'].map(size_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


만약 나중에 정수 값을 다시 원래 문자열 표현으로 바꾸고 싶다면 간단히 거꾸로 매핑하는 딕셔너리 inv_size_mapping={v: k for k, v in size_mapping.items()}를 정의하면 된다  
size_mapping 딕셔너리와 비슷하게 pandas의 map method를 사용하여 변환된 특성 열에 적용할 수 있다

In [13]:
inv_size_mapping = {v: k for k, v in size_mapping.items()}
df['size'].map(inv_size_mapping)

0     M
1     L
2    XL
Name: size, dtype: object

### 4.2.3 클래스 레이블 인코딩

사이킷런의 분류 추정기 대부분은 자체적으로 클래스 레이블을 정수로 변환해 주지만 사소한 실수를 방지하기 위해 클래스 레이블을 정수 배열로 전달하는 것이 좋다  
특정 문자열 레이블에 할당한 정수는 아무런 의미가 없다  
emumerate를 사용하여 클래스 레이블을 0부터 할당한다

In [14]:
import numpy as np
class_mapping = {label: idx for idx, label in
                 enumerate(np.unique(df['classlabel']))}
class_mapping

{'class1': 0, 'class2': 1}

그 다음 매핑 딕셔너리를 사용하여 class label을 정수로 변환한다

In [15]:
df['classlabel'] = df['classlabel'].map(class_mappingapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,0
1,red,2,13.5,1
2,blue,3,15.3,0


매핑 딕셔너리의 키-값 쌍을 뒤집어서 변환된 class label을 다시 원본 문자열로 바꿀 수 있다  

In [18]:
inv_class_mapping = {v: k for k, v in class_mapping.items()}
df['classlabel'] = df['classlabel'].map(inv_class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


다른 방법으로 사이킷런에 구현된 LabelEncoder class를 사용하면 편리하다

In [19]:
from sklearn.preprocessing import LabelEncoder
class_le = LabelEncoder()
y = class_le.fit_transform(df['classlabel'].values)
y

array([0, 1, 0])

inverse_transform method를 사용하면 정수 클래스 레이블을 원본 문자열 형태로 되돌릴 수 있다  

In [20]:
class_le.inverse_transform(y)

array(['class1', 'class2', 'class1'], dtype=object)

### 4.2.4 순서가 없는 특성에 원-핫 인코딩 적용

In [21]:
X = df[['color', 'size', 'price']].values
color_le = LabelEncoder()
X[:, 0] = color_le.fit_transform(X[:, 0])
X

array([[1, 1, 10.1],
       [2, 2, 13.5],
       [0, 3, 15.3]], dtype=object)

Numpy 배열X의 첫번 째 열은 다음과 같은 color 값을 갖는다

- blue = 0  
- green = 1  
- red = 2  

