## Label Enconding

In [1]:
from sklearn.preprocessing import LabelEncoder

In [2]:
items = ["TV", "냉장고", "전자레인지", "컴퓨터", "선풍기", "선풍기", "믹서", "믹서"]

# LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 레이블 인코딩 수행.
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print("인코딩 변환값:", labels)

인코딩 변환값: [0 1 4 5 3 3 2 2]


In [3]:
# 문자열 값이 어떤 숫자 값으로 인코딩됐는지 확인하기 위함 -> encoder.classes_
print("인코딩 클래스:", encoder.classes_)

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


In [4]:
# 인코딩된 값을 다시 디코딩 하기 -> encoder.inverse_transform
print("디코딩 원본값:", encoder.inverse_transform([4, 5, 2, 0, 1, 3, 3, 1]))

디코딩 원본값: ['전자레인지' '컴퓨터' '믹서' 'TV' '냉장고' '선풍기' '선풍기' '냉장고']


## One-Hot Encoding

In [5]:
from sklearn.preprocessing import OneHotEncoder

In [6]:
import numpy as np

In [9]:
items = ["TV", "냉장고", "전자레인지", "컴퓨터", "선풍기", "선풍기", "믹서", "믹서"]

# 1. OneHotEncoder로 변환하기 전에 모든 문자열 값은 숫자형 값으로 변환 되어야 함!
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

# 2. 2차원 데이터로 변환
labels = labels.reshape(-1, 1)

# 3. 원-핫 인코딩을 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)

# 4. print로 확인
print("원-핫 인코딩 데이터")
print(oh_labels.toarray())
print("원-핫 인코딩 데이터 차원")
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


### Pandas에서는 원-핫 인코딩을 더 쉽게 지원하는 API가 존재! -> get_dummies( )
### OneHotEncoder와 다르게, 문자열 카테고리 값을 숫자 형으로 변환할 필요가 없음!!

In [10]:
import pandas as pd

In [11]:
df = pd.DataFrame({'item': ["TV", "냉장고", "전자레인지", "컴퓨터", "컴퓨터", "선풍기", "믹서", "믹서"]})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,0,0,1
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0
