<a href="https://colab.research.google.com/github/johyunkang/MLwithPythonCookbook/blob/main/5_1_encoding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 5.1 순서가 없는 범주형 특성 인코딩하기 

`LabelBinarizer`는 문자열 타깃 데이터를 원-핫 인코딩으로 변환할 때 사용

`LabelEncoder`는 문자열 타깃 데이터를 정수 레이블로 변환

특성 배열을 **원-핫 인코딩** 할 때는 `OneHotEncoder`를 사용하는게 좋음

`OneHotEncoder`는 기본적으로 **희소배열**을 반환. `sparse=False`로 지정 시 밀집배열을 얻을 수 있음

In [8]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelBinarizer, MultiLabelBinarizer

feature = np.array([["texas"], ["california"], ["texas"], ["delaware"], ["texas"]])

# 원핫 인코더
one_hot = LabelBinarizer()

# 특성 인코딩
encoding_result = one_hot.fit_transform(feature)
print('인코딩 결과:\n', encoding_result)

print('인코딩 결과 확인:', one_hot.classes_)

# help(one_hot)
# 인코딩 결과 디코딩
decoding_result = one_hot.inverse_transform(one_hot.transform(feature))
print('\n\n디코딩 결과:\n', decoding_result)

# 더미를 이용한 인코딩
display(pd.get_dummies(feature[:, 0]))

인코딩 결과:
 [[0 0 1]
 [1 0 0]
 [0 0 1]
 [0 1 0]
 [0 0 1]]
인코딩 결과 확인: ['california' 'delaware' 'texas']


디코딩 결과:
 ['texas' 'california' 'texas' 'delaware' 'texas']


Unnamed: 0,california,delaware,texas
0,0,0,1
1,1,0,0
2,0,0,1
3,0,1,0
4,0,0,1


In [11]:

# 다중 클래스 특성
multi_feature = [("texas", "florida"), ("california", "alabama"),
                 ("texas", "florida"), ("delware", "florida"),
                 ("texas", "alabama")]
# 다중 원핫 인코더
one_hot_multi = MultiLabelBinarizer()

multi_encod_result = one_hot_multi.fit_transform(multi_feature)
print('다중 멀티 인코딩 결과:\n', multi_encod_result)

print('\n\n클래스 확인:', one_hot_multi.classes_)

다중 멀티 인코딩 결과:
 [[0 0 0 1 1]
 [1 1 0 0 0]
 [0 0 0 1 1]
 [0 0 1 1 0]
 [1 0 0 0 1]]
클래스 확인: ['alabama' 'california' 'delware' 'florida' 'texas']


In [13]:
from sklearn.preprocessing import OneHotEncoder

# 여러 개의 열이 있는 특성 배열
feature = np.array( [ ["texas", 1],
                      ["california", 1],
                      ["texas", 3],
                      ["delaware", 1],
                      ["texas", 1] ] )
one_hot_enc = OneHotEncoder(sparse=False) # sparse=False : 밀집배열 리턴, True: 희소배열 리턴
print("One-Hot encoing 결과:")
print(one_hot_enc.fit_transform(feature))

# 카테고리 확인
print('\n카테고리 확인:', one_hot_enc.categories_)

One-Hot encoing 결과:
[[0. 0. 1. 1. 0.]
 [1. 0. 0. 1. 0.]
 [0. 0. 1. 0. 1.]
 [0. 1. 0. 1. 0.]
 [0. 0. 1. 1. 0.]]
카테고리 확인: [array(['california', 'delaware', 'texas'], dtype='<U21'), array(['1', '3'], dtype='<U21')]


## 5.2 순서가 있는 범주형 특성 인코딩하기
p.152