## 데이터 전처리 (Data Preprocessing)


데이터 전처리는 ML 알고리즘만큼 중요.
ML 알고리즘은 데이터에 기반하고 있기 때문에 어떤 데이터를 입력으로 가지느냐에 따라 결과도 크게 달라질 수 있음.
사이킷런의 ML 알고리즘을 적용하기 전에 데이터에 대해 미리 처리해야할 기본 사항이 있음.


사이킷런은 문자열 값을 입력 값으로 허용하지 않음. 그래서 모든 문자열 값은 인코딩돼서 숫자형으로 변환해야함.


### 데이터 인코딩 (Data Endcoding)

머신러닝을 위한 대표적인 인코딩 방식은 레이블 인코딩과 원-핫 인코딩이 있음. 

##### 1.레이블 인코딩 
래아블 인코딩은 카테고리 피처를 코드형 숫자 값으로 변환하는 것임.

예를들어, 냉장고 : 1, TV : 2, 세탁기 : 3 ......

레이블 인코딩은 LabelEncoder 클래스로 구현함

객체로 생성한 후 fit()과 transform()을 호출해 레이블 인코딩을 수행

In [10]:
from sklearn.preprocessing import LabelEncoder

items = ['TV', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# LabelEndcoder를 객체로 생성한 후, fit()과 transform()으로 레이블 인코딩 수행
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환값:', labels)

인코딩 변환값: [0 3 4 2 2 1 1]


 TV: 0, 냉장고: 1, 전자레이지: 4, 컴퓨터: 5, 선풍기:3, 믹서:2로 변환됨
 
 문자열 값이 어떤 숫자 값으로 인코딩됐는지 직관적으로 알 수 있지만, 많은 경우에는 이를 알지 못함, 
 이경우에는 LabelEncoder 객체의 classese_ 속성값으로 확인하면됨.
 

In [11]:
print('인코딩 변환값:', labels)
print('인코딩 클래스:', encoder.classes_)

인코딩 변환값: [0 3 4 2 2 1 1]
인코딩 클래스: ['TV' '믹서' '선풍기' '전자레인지' '컴퓨터']


classes_ 속성은 0번부터 순서대로 변환된 인코딩 값에 대한 원본 값을 가지고 있음.
따라서 TV 0, 냉장고 1, 맥서 2, 선풍기 3, 전자레인지 4, 컴퓨터 5로 인코딩 되었음을 알 수 있음
inverse_transform()을 통해 인코딩된 값을 다시 디코딩할 수 있음

![%E1%84%89%E1%85%A2%20%E1%84%91%E1%85%A1%E1%84%8B%E1%85%B5%E1%86%AF%202019-12-29%2000.12.10_1.jpg](attachment:%E1%84%89%E1%85%A2%20%E1%84%91%E1%85%A1%E1%84%8B%E1%85%B5%E1%86%AF%202019-12-29%2000.12.10_1.jpg)
레이블 인코딩은 간단하게 문자열 값을 숫자형 카테고리 값으로 변환합니다.
하지만 레이블 인코딩이 일괄적인 숫자 값으로 변환이 되면서 몇몇 ML 알고리즘에는 이를 적용할 경우 예측 성능이 떨어지는 경우가 발생할 수 있음

### 원-핫 인코딩 (One-Hot Encoding)

원-핫 인코딩은 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방식.

즉, 행 형태로 돼 있는 피처의 고유 값을 열 형태로 차원을 변환한 뒤, 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시함
![%E1%84%89%E1%85%A2%20%E1%84%91%E1%85%A1%E1%84%8B%E1%85%B5%E1%86%AF%202019-12-29%2000.12.10_2.jpg](attachment:%E1%84%89%E1%85%A2%20%E1%84%91%E1%85%A1%E1%84%8B%E1%85%B5%E1%86%AF%202019-12-29%2000.12.10_2.jpg)

In [17]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# 먼저 숫자 값으로 변환을 위해 LabelEncoder로 변환함
encoder = LabelEncoder()
encoder.fit(items)

# 2차원 데이터로 변환
labels = labels.reshape(-1, 1)

# One - Hot 인코딩을 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]
 [0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(7, 5)


In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


![KakaoTalk_Photo_2019-12-29-00-34-00.jpeg](attachment:KakaoTalk_Photo_2019-12-29-00-34-00.jpeg)

pandas에는 원-핫 인코딩을 더 쉽게 지원하는 API가 있음.
get_dummies()를 이용하면됨

사이킷런의 OneHotEncoder와 다르게 문자열 카테고리 값을 숫자 형으로 변환할 필요 없이 바로 변환할 수 있음


In [18]:
import pandas as pd

df = pd.DataFrame({'item':['TV', '냉장고','전자레인지', '컴퓨터', '선풍기', '선풍기','믹서','믹서']})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


### 피처 스케일링과 정규화

서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업을 피처 스케일링(feature scaling)이라고 합니다.
대표적인 방법으로 표준화(Standardization)와 정규화(Normalization)가 있음.

표준화는 데이터의 피처 각각이 평균이 0 이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것을 의미

표준화를 통해 변환될 피처 x의 시로운 i번째 데이터를 x^i_new라고 한다면 이 값은 원래 값에서 피처 x의 평균을 뺸 값을 피처 x의 표준편차로 나눈 값을 계산할 수 있음

![KakaoTalk_Photo_2019-12-29-00-42-50.jpeg](attachment:KakaoTalk_Photo_2019-12-29-00-42-50.jpeg)

일반적으로 정규화는 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념.

예를들어 피처 A는 거리를 나타내는 변수로서 값이 0 ~ 100KM로 주어지고 피처 B는 금액을 나타내는 속성으로 값이 0 ~ 100.000.000.000원으로 주어진다면 이 변수를 모두 동일한 크기 단위로 비교하기 위해 값을 모두 최소 0 ~ 최대 1의 값으로 변환하는 것.

즉, 개별 데이터의 크기를 모두 똑같은 단위로 변경하는 것임.

새로운 데이터 x^i_new는 원래 값에서 피처 x의 최솟값을 뺀 값을 피처 x의 최댓값과 최솟값의 차이로 나눈 값으로 변환할 수 있음.


![KakaoTalk_Photo_2019-12-29-00-50-53.jpeg](attachment:KakaoTalk_Photo_2019-12-29-00-50-53.jpeg)

그런데 사이킷런의 전처리에서 제공하는 Normalizer 모듈과 일반적인 정규화는 약간의 차이가 있음. 
사이킷런의 Normalizer 모듈은 선형대수에서의 정규화 개념이 적용도ㅒㅆ으며, 개별 백터의 크기를 맞추기 위해 변환하는 것을 의미.

즉, 개별 백터를 모든 피처 백터의 크기로 나눠 줍니다. 세개의 피처 x,y,z가 있다고 한다면 새로운 데이터 x^i_new는 원래 값에서 세개의 피처의 i번쨰
피처 값에 해당하는 크기를 합한 값으로 나눠 줌.



![KakaoTalk_Photo_2019-12-29-00-51-26.jpeg](attachment:KakaoTalk_Photo_2019-12-29-00-51-26.jpeg)
혼선을 방지하기 위해 일반적인 의미의 표준화 전규화를 피처 스케일링으로 통칭하고 선형대수 갸념의 정규화를 백터 정규화로 지칭하겠슴.
먼저 사이킷런에서 제공하는 대표적인 피처 스케일링 클래스인 StandardScaler와  MinMaxScaler을 알아보자.