In [14]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, OrdinalEncoder

In [15]:
df = pd.DataFrame([{'color':'r'},{'color':'g'},{'color':'r'},{'color':'b'},{'color':'b'},{'color':'r'}])
df

Unnamed: 0,color
0,r
1,g
2,r
3,b
4,b
5,r


# One-Hot-Encoding & dummy 화

##  One-Hot-Encoding - scikit-learn

Label의 순서는 알파벳순으로 정렬된다. ( 기본 파이썬 오름차순 정렬 기준 )

#### Label Encoder

In [16]:
label_enc = LabelEncoder()
label_enc.fit(['g','r','b'])

LabelEncoder()

In [17]:
label_enc.classes_ # 카테고리 확인 b: 0, g: 1, r: 2

array(['b', 'g', 'r'], dtype='<U1')

In [18]:
category_to_num = label_enc.transform(df.color)
category_to_num

array([2, 1, 2, 0, 0, 2])

#### OrdianlEncoder - shape를 유지

In [19]:
ordinal_enc = OrdinalEncoder()
ordinal_enc.fit([['r'],['g'],['b']]) # 2차원 배열로 넣어주어야 한다.

OrdinalEncoder(categories='auto', dtype=<class 'numpy.float64'>)

In [20]:
ordinal_enc.categories_

[array(['b', 'g', 'r'], dtype=object)]

In [21]:
ordinal_enc.transform( df.color.values.reshape(-1,1) ) # 바꿀 값도 2차원 배열로 넣어주어야 한다.

array([[2.],
       [1.],
       [2.],
       [0.],
       [0.],
       [2.]])

#### OneHotEncoder

1. 정의하지 않은 방법을 처리하는 방법

In [22]:
onehot1 = OneHotEncoder(handle_unknown='ignore')
# handle_unknown : 정의하지 않은 value 처리방법 
## 'error'(default) : 오류 발생, 'ignore' : [0,0,...,0]으로 처리 

In [23]:
onehot1.fit([['r'],['g']])
onehot1.categories_ # 정의한 카테고리

[array(['g', 'r'], dtype=object)]

In [24]:
encoded1 = onehot1.transform(df.color.values.reshape(-1,1))
encoded1.toarray() # 결과가 matrix라서 확인하기 위해서는 array로 변환

# 정의하지 않은 b는 0으로 처리되고 'r'과 'g'만 존재한다.

array([[0., 1.],
       [1., 0.],
       [0., 1.],
       [0., 0.],
       [0., 0.],
       [0., 1.]])

2. 자동으로 카테고리 unique한 value를 판단해서 처리하는 방법

In [25]:
# categories : auto - 자동으로 unique한 값의 value를 지정
onehot2 = OneHotEncoder(categories='auto')
encoded2 = onehot2.fit_transform(df.color.values.reshape(-1,1)) # fit_transform 사용
encoded2.toarray()

array([[0., 0., 1.],
       [0., 1., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [1., 0., 0.],
       [0., 0., 1.]])

### dummy variable 만들기

#### regression에서 유용한 방법

In [13]:
pd.get_dummies(df.color, prefix='col')

Unnamed: 0,col_b,col_g,col_r
0,0,0,1
1,0,1,0
2,0,0,1
3,1,0,0
4,1,0,0
5,0,0,1
