# 사이킷런에서 지원하는 원핫인코딩 구현
---
## LabelEncoder : 문자형태의 데이터로 구성된 피쳐를 수치화 함

## OneHotEncoder : 숫자로 표현된 범주형 데이터를 인코딩 필요
###                희소행렬(Sparse Matrix)로 만들어지므로 array로 만들려면 .toarray() 필요

In [1]:
import pandas as pd

In [2]:
from sklearn.preprocessing import OneHotEncoder,LabelEncoder
import numpy as np

In [3]:
items=['TV', '냉장고', '전자레인지', '컴퓨터', 'TV', '선풍기', '선풍기', '믹서', '믹서']
# 먼저 숫자값으로 변환을 위해 LabelEncoder로 변환
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
# 2차원 데이터로 변환합니다. 
labels = labels.reshape(-1,1)

In [5]:
print(labels)
print(encoder.classes_)      

[[0]
 [1]
 [4]
 [5]
 [0]
 [3]
 [3]
 [2]
 [2]]
['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


In [6]:
# 원-핫 인코딩을 적용
oh_encoder = OneHotEncoder(sparse=False)
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('희소행렬로 만들지 않은 원-핫 인코딩 데이터')
print(oh_labels)
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

희소행렬로 만들지 않은 원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(9, 6)


In [7]:
# 원-핫 인코딩을 적용
oh_encoder = OneHotEncoder(sparse=True)
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('희소행렬로 만든 원-핫 인코딩 데이터')
print(oh_labels)
print('2차원 구조로 변환한 원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

희소행렬로 만든 원-핫 인코딩 데이터
  (0, 0)	1.0
  (1, 1)	1.0
  (2, 4)	1.0
  (3, 5)	1.0
  (4, 0)	1.0
  (5, 3)	1.0
  (6, 3)	1.0
  (7, 2)	1.0
  (8, 2)	1.0
2차원 구조로 변환한 원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(9, 6)


In [8]:
oh_encoder.get_feature_names()

array(['x0_0', 'x0_1', 'x0_2', 'x0_3', 'x0_4', 'x0_5'], dtype=object)

### LabelBinarizer 클래스를 사용해서 (텍스트 범주에서 숫자 범주로 바꾸고, 숫자 범주에서 원-핫 벡터로 바꾸는) 두개의 변환을 한번에 적용할 수 있음

In [9]:
import pandas as pd
from sklearn.preprocessing import LabelBinarizer
jobs_encoder = LabelBinarizer()

In [10]:
items=['TV', '냉장고', '전자레인지', '컴퓨터', 'TV', '선풍기', '선풍기', '믹서', '믹서']

In [11]:
jobs_encoder.fit(items)
transformed = jobs_encoder.transform(items)
transformed

array([[1, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 0],
       [0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0, 0],
       [0, 0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0, 0]])

In [12]:
jobs_encoder.classes_

array(['TV', '냉장고', '믹서', '선풍기', '전자레인지', '컴퓨터'], dtype='<U5')

In [13]:
ohe_df = pd.DataFrame(transformed, columns=jobs_encoder.classes_)
ohe_df

Unnamed: 0,TV,냉장고,믹서,선풍기,전자레인지,컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,1,0,0,0,0,0
5,0,0,0,1,0,0
6,0,0,0,1,0,0
7,0,0,1,0,0,0
8,0,0,1,0,0,0
