# 데이터 인코딩
    
    1) 레이블 인코딩 (Label Encoding)
    
    2) 원핫 인코딩 (One-Hot Encoding)

## Label Encoding

In [1]:
from sklearn.preprocessing import LabelEncoder

In [6]:
ysp = ['0식','일식','이식','삼식','빵식']

# LabelEncoder를 객체화
le = LabelEncoder()
le.fit(ysp)
labels = le.transform(ysp)
print('인코딩 변환값:', labels)

인코딩 변환값: [0 4 3 2 1]


In [8]:
print('인코딩 클래스:', le.classes_)

인코딩 클래스: ['0식' '빵식' '삼식' '이식' '일식']


In [10]:
print('디코딩 원본 값:', le.inverse_transform([0,4,3,2,1]))

### Label Encoding은 선형회귀 : y = a * x + b 및 SVM과 같이 가중치 개념의 함수에는 적용할 수 없다.

디코딩 원본 값: ['0식' '일식' '이식' '삼식' '빵식']


## 원-핫 인코딩(One-Hot Encoding)

1) 입력값으로 2차원 데이터(2차원 ndarray)가 필요

2) 따라서 원-핫 인코딩 전에는 Label Encoding 수행이 되어야 함

3) 결과는 해당 feature에만 1이 되고 나머지에는 0이 됨

In [11]:
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

import numpy as np 

In [12]:
items=['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

In [23]:
# 먼저 문자 -> 숫자 :: LabelEncoder를 수행
le = LabelEncoder()
labels = le.fit_transform(items)
print(labels)

## 위의 labels를 -> 2차원으로... 
labels_2d = labels.reshape(-1,1)

## 원핫 인코딩 수행
oh_e = OneHotEncoder()
labels_oh = oh_e.fit_transform(labels_2d)

print('\n oh_data:\n',labels_oh.toarray()) 
print('\n oh_shape:\n',labels_oh.toarray().shape) 

[0 1 4 5 3 3 2 2]

 oh_data:
 [[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]

 oh_shape:
 (8, 6)


pandas에는 원핫 인코딩을 쉽게 지원해주는 API가 있습니다. get_dummies()가 있습니다.

In [28]:
import pandas as pd

items = ['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']
test_df = pd.DataFrame(items, columns=['items'])
pd.get_dummies(test_df)

Unnamed: 0,items_TV,items_냉장고,items_믹서,items_선풍기,items_전자레인지,items_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


In [29]:
### end of file