# 데이터 인코딩

## 머신러닝을 위한 대표적 인코딩 방식

- 레이블 인코딩(Label Encoding)

- 원-핫 인코딩(One Hot Encoding)

In [2]:
# Laber Encoder 적용 (문자를 명목척도화)

from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '선풍기', '전자레인지', '컴퓨터', '선풍기', '믹서', '믹서']

# Label Encoder의 객체화
# fit()
# transform()적용

encoder = LabelEncoder()
encoder.fit(items) # y값 없으므로 지도학습이 아님
labels = encoder.transform(items)
print('인코딩값 :', labels)

encoder.fit_transform(items)

인코딩값 : [0 1 3 4 5 3 2 2]


array([0, 1, 3, 4, 5, 3, 2, 2], dtype=int64)

In [3]:
# 인코딩
print('인코딩 클래스 :', encoder.classes_)

인코딩 클래스 : ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


In [4]:
# 디코딩
print('디코딩 원본값 :', encoder.inverse_transform([0, 1, 3, 4, 5, 3, 2, 2]))

디코딩 원본값 : ['TV' '냉장고' '선풍기' '전자레인지' '컴퓨터' '선풍기' '믹서' '믹서']


In [5]:
수익 = -0.5*판매관리비(x1) + 2*영업사원수(x2)

# 판매관리비에 곱해진 회귀계수의 절대값보다 영업사원수에 곱해진 회귀계수의 절대값이 더욱 크기때문

NameError: name '판매관리비' is not defined

레이블 인코딩은 간단하게 문자열 값을 숫자형 카테고리 값으로 변환한다. 하지만 레이블 인코딩이 일괄적인 숫자 값으로 변환이 되면서 몇몇 ML알고리즘에는 이를 적용할 경우 예측 성능이 떨어지는 경우가 발생할 수 있다.

이는 숫자 값의 경우 크고 작음에 대한 특성이 작용하기 때문이다. 즉, 냉장고가 1, 믹서가 2로 변환되면, 1보다 2가 더 큰 값이므로 특정 ML알고리즘(선형회귀분석과 같은)에서 가중치가 더 부여되거나 더 중요하게 인식할 가능성이 발생한다. 하지만 냉장고와 믹서의 숫자 변환 값은 단순코드이지 숫자 값에 따른 순서나 중요도로 인식돼서는 안된다.

`이러한 특성 때문에 레이블 인코딩은 선형회귀와 같은 ML 알고리즘에는 적용하지 않아야 한다. 트리계열의 ML 알고리즘은 숫자의 이러한 특성을 반영하지 않으므로 레이블 인코딩도 별 문제가 없다.`

# 원-핫(One-Hot) 인코딩

In [6]:
## 문자 => 레이블 인코딩
## 레이블 인코딩 => 원-핫인코딩

from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
import numpy as np
items = ['TV', '냉장고', '선풍기', '전자레인지', '컴퓨터', '선풍기', '믹서', '믹서']


In [7]:
# 1. 문자 => 레이블 인코딩

encoder = LabelEncoder()
labels = encoder.fit_transform(items)

# 1차원의 labels를 2차원의 행렬로 변환
labels_2d = labels.reshape(-1 ,1)

# 원-핫 인코딩 적용
oh_encoder = OneHotEncoder()
oh_labels_2d = oh_encoder.fit_transform(labels_2d) # sparse matrix => 희소행렬 (text-mining)

print('원-핫 인코딩 데이터')
print(oh_labels_2d.toarray())


원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]


In [1]:
import pandas as pd
df = pd.DataFrame({'item':['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']})
pd.get_dummies(df) # 독립변수의 문자들을 원핫인코딩으로 적용

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


# Feature Scaling(피쳐스케일링) & Normalization(정규화)

In [9]:
from sklearn.datasets import load_iris
import pandas as pd

#붓꽃 데이터 세트를 로딩하고 DataFrame으로 변환한다.

iris=load_iris()
X_data=iris.data
iris_df=pd.DataFrame(X_data, columns=iris.feature_names)

print('features 들의 평균') # 이하 ftrs
print(iris_df.mean())

print('\nfeatures 들의 분산') # 이하 ftrs
print(iris_df.var())

features 들의 평균
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

features 들의 분산
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [10]:
from sklearn.preprocessing import StandardScaler # Z-scoring 의 공식
# 객체 생성
scaler = StandardScaler()
# fit_trasform으로 데이터 변환
iris_scaled = scaler.fit_transform(iris_df)


iris_df_scaled = pd.DataFrame(iris_scaled, columns = iris.feature_names)

print('features 들의 평균') # 이하 ftrs
print(iris_df_scaled.mean())

print('\nfeatures 들의 분산') # 이하 ftrs
print(iris_df_scaled.var())

features 들의 평균
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

features 들의 분산
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


# MinMaxScaler

In [11]:
# 데이터의 값을 0과 1사이의 값으로 변환해준다

In [12]:
from sklearn.preprocessing import MinMaxScaler # 0~1로 변환

# 객체 생성
mm_scaler = MinMaxScaler()

# 데이터 셋 변환
iris_scaled_mm = mm_scaler.fit_transform(iris_df)

# df 재생성
iris_df_mm = pd.DataFrame(iris_scaled_mm, columns=iris.feature_names)

In [13]:
# 최대 최소값 확인
print('ftrs의 최소값 :')
print(iris_df_mm.min())
print('ftrs의 최대값 :')
print(iris_df_mm.max())

ftrs의 최소값 :
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64
ftrs의 최대값 :
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64
