## 순서가 없는 범주형 특성 인코딩

- from sklearn.preprocessing import LabelBinarizer, MultiLabelBinarizer, OneHotEncoder
- pandas.get_dummies()
- 원-핫 인코딩 후에는 선형 의존성을 피하기 위해 원-핫 인코딩된 특성 중 하나를 삭제하는 것이 좋음

In [8]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelBinarizer, MultiLabelBinarizer, OneHotEncoder

features = np.array([['Seoul'],
                     ['Busan'],
                     ['Incheon'],
                     ['Seoul'],
                     ['Seoul']])

### LabelBinarizer

In [13]:
one_hot_la = LabelBinarizer()
features_la = one_hot_la.fit_transform(features)
features_la

array([[0, 0, 1],
       [1, 0, 0],
       [0, 1, 0],
       [0, 0, 1],
       [0, 0, 1]])

In [11]:
# 클래스 확인
one_hot_la.classes_

array(['Busan', 'Incheon', 'Seoul'], dtype='<U7')

In [14]:
# 인코딩 되돌리기
one_hot_la.inverse_transform(features_la)

array(['Seoul', 'Busan', 'Incheon', 'Seoul', 'Seoul'], dtype='<U7')

### MultiLabelBinarizer

In [17]:
features = np.array([('Seoul', 'Incheon'),
                     ('Busan', 'Daejun'),
                     ('Incheon', 'Sejong'),
                     ('Seoul', 'Busan'),
                     ('Seoul', 'Daejun')])

In [18]:
one_hot_mul = MultiLabelBinarizer()
features_mul = one_hot_mul.fit_transform(features)
features_mul

array([[0, 0, 1, 0, 1],
       [1, 1, 0, 0, 0],
       [0, 0, 1, 1, 0],
       [1, 0, 0, 0, 1],
       [0, 1, 0, 0, 1]])

In [19]:
one_hot_mul.classes_

array(['Busan', 'Daejun', 'Incheon', 'Sejong', 'Seoul'], dtype=object)

### OneHotEncoder


In [23]:
oh = OneHotEncoder(sparse=False)
features_oh = oh.fit_transform(features)
features_oh

array([[0., 0., 1., 0., 0., 1., 0.],
       [1., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 1.],
       [0., 0., 1., 1., 0., 0., 0.],
       [0., 0., 1., 0., 1., 0., 0.]])

In [24]:
oh.categories_

[array(['Busan', 'Incheon', 'Seoul'], dtype='<U7'),
 array(['Busan', 'Daejun', 'Incheon', 'Sejong'], dtype='<U7')]

## 순서가 있는 범주형 특성 인코딩

- 가장 자주 사용하는 방법은 클래스 레이블 문자열을 정수로 매핑하는 딕셔너리를 만들고 이를 필요한 특성에 적용하는 것
- 클래스 간 간격에 주의

In [26]:
df = pd.DataFrame({'Score':['Low', 'Low', 'Medium', 'Medium', 'High']})

scale_mapper = {'Low':1,
                'Medium':2,
                'High':3}

df['Score'].replace(scale_mapper)

0    1
1    1
2    2
3    2
4    3
Name: Score, dtype: int64

## 딕셔너리를 행렬로 변환



In [28]:
from sklearn.feature_extraction import DictVectorizer

data_dict = [{'Red':2, 'Blue':4},
             {'Red':4, 'Blue':3},
             {'Red':1, 'Yellow':2},
             {'Red':2, 'Yellow':2}]

dv = DictVectorizer(sparse=False)
dv.fit_transform(data_dict)

array([[4., 2., 0.],
       [3., 4., 0.],
       [0., 1., 2.],
       [0., 2., 2.]])

In [29]:
dv.get_feature_names_out()

array(['Blue', 'Red', 'Yellow'], dtype=object)