## 레이블 인코딩
- 문자형 --> 수치형
- 예측 성능이 떨어지는 경우가 발생할 수 있음
  - 숫자값의 크고 작음의 특성이 작용하여, 큰 숫자에 가중치가 더 부여되거나 더 중요하게 인식할 가능성이 있다.
- 따라서 레이블 인코딩은 선형회귀와 같은 ML 알고리즘에는 적용하지 않는다.
- 트리 계열 ML 알고리즘은 이러한 숫자의 특성이 반영되지 않아 레이블 인코딩을 사용해도 문제 없다.

In [1]:
from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 레이블 인코딩 수행
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print("인코딩 변환값: ", labels)

인코딩 변환값:  [0 1 4 5 3 3 2 2]


In [2]:
print("인코딩 클래스 : ", encoder.classes_)

인코딩 클래스 :  ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


In [4]:
print('디코딩 원본값: ', encoder.inverse_transform([4, 5, 3, 1, 0, 0, 2]))

디코딩 원본값:  ['전자레인지' '컴퓨터' '선풍기' '냉장고' 'TV' 'TV' '믹서']


## 원-핫 인코딩  
- 표현하고 싶은 인덱스 = 1, 그 외 = 0

In [7]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# 2차원 ndarray로 변환
items = np.array(items).reshape(-1, 1)

# 원-핫 인코딩 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(items)
oh_labels = oh_encoder.transform(items)

# OneHotEncoder로 변환한 결과를 toarray()로 밀집 행렬로 변환
print("원-핫 인코딩 데이터")
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


- 판다스에는 원-핫 인코딩을 더 쉽게 지원하는 get_dummies()가 있다.

In [8]:
import pandas as pd
df = pd.DataFrame({'items' : ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})
pd.get_dummies(df)

Unnamed: 0,items_TV,items_냉장고,items_믹서,items_선풍기,items_전자레인지,items_컴퓨터
0,True,False,False,False,False,False
1,False,True,False,False,False,False
2,False,False,False,False,True,False
3,False,False,False,False,False,True
4,False,False,False,True,False,False
5,False,False,False,True,False,False
6,False,False,True,False,False,False
7,False,False,True,False,False,False
