# 데이터 인코딩
- 머신러닝을 위한 데표적 인코딩 방식

1. 레이블 인코딩(Label Encoding)
2. 원-핫 인코딩 (One Hot Encoding)

In [20]:
# Label Encoder 적용 -> 명목척도화
from sklearn.preprocessing import LabelEncoder
items = ['TV', '냉장고', '선풍기', '전자레인지', '컴퓨터', '선풍기', '믹서', '믹서']

# Label Encoder의 객체화
encoder = LabelEncoder()
# fit()
encoder.fit(items) # y값 없음 -> 비지도학습 :: 지도학습 아님.
# transform() 적용
labels = encoder.transform(items)

# print(f'인코딩 값 : {labels} ==> type : {type(labels)}')

# print(f'인코딩 클래스 : {encoder.classes_}')
labels = encoder.fit_transform(items)


In [19]:
print(f'디코딩 원본 값 : {encoder.inverse_transform(labels)}')

디코딩 원본 값 : ['TV' '냉장고' '선풍기' '전자레인지' '컴퓨터' '선풍기' '믹서' '믹서']


- 레이블 인코딩은 간단하게 문자열 값을 숫자형 카테고리 값으로 변환한다. 
- 하지만 레이블 인코딩이 일괄적인 숫자 값으로 변환이 되면서 몇몇 ML알고리즘에는 이를 적용할 경우 예측 성능이 떨어지는 경우가 발생할 수 있다.
- 이는 숫자 값의 경우 크고 작음에 대한 특성이 작용하기 때문이다. 
- 즉, 냉장고가 1, 믹서가 2로 변환되면, 1보다 2가 더 큰 값이므로 특정 ML알고리즘에서 가중치가 더 부여되거나 더 중요하게 인식할 가능성이 발생한다.
- 하지만 냉장고와 믹서의 숫자 변환 값은 단순코드이지 숫자 값에 따른 순서나 중요도로 인식돼서는 안된다.
- 이러한 특성 때문에 **레이블 인코딩은 선형회귀와 같은 ML 알고리즘에는 적용하지 않아야 한다.**
- 트리계열의 ML 알고리즘은 숫자의 이러한 특성을 반영하지 않으므로 레이블 인코딩도 별 문제가 없다.

# 원-핫 (One-Hot) 인코딩

In [21]:
# 1. 문자 -> 레이블 인코딩
# 2. 레이블 인코딩 -> 원-핫 인코딩

from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
import numpy as np
import pandas as pd

items = ['TV', '냉장고', '선풍기', '전자레인지', '컴퓨터', '선풍기', '믹서', '믹서']

In [39]:
# 1. 문자 -> 레이블 인코딩
encoder = LabelEncoder()
labels = encoder.fit_transform(items)
# 1차원의 labels -> 2차원의 행렬로 변환
labels_2d = labels.reshape(-1, 1)

# 원-핫 인코딩 적용
oh_encoder = OneHotEncoder()
oh_labels_2d = oh_encoder.fit_transform(labels_2d) # sparse matrix - 회소행렬 :: text-mining

print(f'원-핫 인코딩 인코딩 데이터 : \n {oh_labels_2d.toarray()}')


원-핫 인코딩 인코딩 데이터 : 
 [[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]


In [45]:
import pandas as pd
df = pd.DataFrame({'item':['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']})
pd.get_dummies(df) # 독립변수의 문자들을 원핫인코딩으로 적용한다.


Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


# 피쳐 스케일링(Feature Scaling)과 정규화(Normalization)

서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업을 피처 스케일링(feature scaling)이라고 한다. 대표적인 방법으로 
1. 표준화(Standardization)
2. 정규화(Normalization)가 있다.

표준화는 데이터의 피처(x) 각각의 평균이 0 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것을 의미한다. (z-score 표준화를 통해 변환될 피처 x의 새로운 i번째 데이터를 xi_new라고 한다면 이 값은 원래 값에서 피처 x의 평균을 뺀 값을 피처 x의 평균을 뺀 값을 피처 x의 표준편차로 나눈 값으로 계산할 수 있다.

일반적으로 정규화는 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념입니다. 예를 들어 피처 A는 거리를 나타내는 변수로서 값이 0 ~ 100KM로 주어지고 피처 B는 금액을 나타내는 속성으로 값이 0 ~ 100,000,000,000원으로 주어진다면 이 변수를 모두 동일한 크기 단위로 비교하기 위해 값을 모두 최소 0 ~ 최대 1의 값으로 변환하는 것이다. 즉, 개별 데이터의 크기를 모두 똑같은 단위로 변경하는 것이다.

새로운 데이터 xi_new는 원래 값에서 피처 x의 최솟값을 뺀 값을 피처 x의 최댓값과 최솟값의 차이로 나눈 값으로 변환할 수 있다.

그런데 사이킷런의 전처리에서 제공하는 Normalizer 모듈과 일반적인 정규화는 약간의 차이가 있다.(물론 큰 개념은 똑같다). 사이킷런의 Normalizer 모듈은 선형대수에서의 정규화 개념이 적용됐으며, 개별 벡터의 크기를 맞추기 위해 변환하는 것을 의미한다. 즉, 개별 벡터를 모든 피처 벡터의 크기로 나눠준다. 세 개의 피처 x,y,z가 있다고 하면 새로운 데이터 xi_new는 원래 값에서 세 개의 피처의 i번째 피처 값에 해당하는 크기를 합한 값으로 나눠준다.

혼선을 방지하기 위해 일반적인 의미의 표준화와 정규화를 피처 스케일링으로 통칭하고 선형대수 개념의 정규화를 벡터 정규화로 지칭하겠다. 먼저 사이킷런에서 제공하는 대표적인 피처 스케일링 클래스인 StandardScaler와 MinMaxScaler를 알아보자.

## StandardScaler
StandardScaler는 앞에서 설명한 표준화를 쉽게 지원하기 위한 클래스이다. 즉, 개별 피쳐를 평균이 0이고, 분산이 1인 값으로 변환해준다. 이렇게 가우시안 정규 분포를 가질 수 있도록 데이터를 변환하는 것은 몇몇 알고리즘에서 매우 중요하다. 특히 사이킷런에서 구현한 RBF 커널을 이용하는 서포트 벡터 머신(Support Vector Machine)이나 선형회귀(Linear Regression), 로지스틱 회귀(Logistic Regression)는 데이터가 가우시안 분포를 가지고 있다고 가정하고 구현됐기 때문에 사전에 표준화를 적용하는 것은 예측 성능 향상에 중요한 요소가 될 수 있다.
StandartdScaler가 어떻게 데이터 값을 변환하는지 데이터 세트로 확인해보자.

In [54]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
x_data = iris.data
iris_df = pd.DataFrame(x_data, columns=iris.feature_names)

print('features들의 평균')
print(iris_df.mean())
print('\n features들의 분산')
print(iris_df.var())



features들의 평균
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

 features들의 분산
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [59]:
from sklearn.preprocessing import StandardScaler # Z-scoring의 공식
# 객체 생성
scaler = StandardScaler()
# fit_transform으로 데이터 변환
iris_scaled = scaler.fit_transform(iris_df)
iris_df_scaled = pd.DataFrame(iris_scaled, columns=iris.feature_names)

print('features들의 평균')
print(iris_df_scaled.mean())
print('\n features들의 분산')
print(iris_df_scaled.var())

features들의 평균
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

 features들의 분산
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


# MinMaxScaler
데이터의 값을 0과 1사이의 값으로 변환해준다.

In [61]:
from sklearn.preprocessing import MinMaxScaler # 0-1로 변환

# 객체생성
mm_scaler = MinMaxScaler()

# 데이터 셋 변환
iris_scaled_mm = mm_scaler.fit_transform(iris_df)

# df을 재생성
iris_df_mm = pd.DataFrame(iris_scaled_mm, columns=iris.feature_names)


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.222222,0.625000,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.500000,0.050847,0.041667
3,0.083333,0.458333,0.084746,0.041667
4,0.194444,0.666667,0.067797,0.041667
...,...,...,...,...
145,0.666667,0.416667,0.711864,0.916667
146,0.555556,0.208333,0.677966,0.750000
147,0.611111,0.416667,0.711864,0.791667
148,0.527778,0.583333,0.745763,0.916667


In [63]:
# 최대최소값 확인
print('ftrs의 최소값')
print(iris_df_scaled.min())
print('ftrs의 최대값')
print(iris_df_scaled.max())

ftrs의 최소값
sepal length (cm)   -1.870024
sepal width (cm)    -2.433947
petal length (cm)   -1.567576
petal width (cm)    -1.447076
dtype: float64
ftrs의 최대값
sepal length (cm)    2.492019
sepal width (cm)     3.090775
petal length (cm)    1.785832
petal width (cm)     1.712096
dtype: float64


In [28]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder

# 테스트용 데이터
items = ['TV', '냉장고', '라디오', '자전거', '컴퓨터', '노트북', '자전거', '믹서기', '믹서기']


# 객체화 insternce
encoder = LabelEncoder()
eh_encoder = OneHotEncoder()


# Labelencoder
label_result = encoder.fit_transform(items)

# 1차원 ==> 2차원 변환
label_2d = label_result.reshape(-1, 1)

# One-Hot 인코딩 작업
result = eh_encoder.fit_transform(label_2d)

# print(f'인코딩 완료 : {result.toarray()}')

print(f'인코딩 완료 : \n {result.toarray()}')
print(f'인코딩 완료 : \n {result}')

인코딩 완료 : 
 [[1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0.]]


NameError: name 'one_hot_result' is not defined