In [1]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pylab as plt
import scipy as sp
import scipy.stats as stats
from sklearn.preprocessing import *

In [None]:
"""
sklearn.preprocessing.OneHotEncoder()를 사용한
범주형 변수를 이항변수화(binarization of categorical feature)

데이터가 해당컬럼 값이면 1 아니면 0으로 표기
ex) 고객1이 성별이 남자면
          성별
       남자  여자
고객1   1     0
"""

In [17]:
# making training data
data_train = np.array([[0, 0, 0],
                       [0, 1, 1],
                       [0, 2, 2],
                       [1, 0, 3],
                       [1, 1, 4]])
data_train

# 1열은 성별 : 0 남자, 1 여자
# 2열은 연령대 : 0 20대, 1 30대, 2 40대
# 3열은 등급 : 0~4 S, A, B, C, D

array([[0, 0, 0],
       [0, 1, 1],
       [0, 2, 2],
       [1, 0, 3],
       [1, 1, 4]])

In [20]:
# (1) OneHotEncoder() 로 범주형 변수의 이항변수화 적합시키기 
#     OneHotEncoder().fit(), enc.fit()

# making the utility class OneHotEncoder
enc = OneHotEncoder()

# fitting OneHotEncoder
enc.fit(data_train)

OneHotEncoder(categorical_features='all', dtype=<class 'numpy.float64'>,
       handle_unknown='error', n_values='auto', sparse=True)

In [30]:
# (2) 적합된(fitted) OneHotEncoder()의 Attributes 확인해보기
#     enc.active_features_ , enc.n_values_ , enc.feature_indices_

# active_features_ 
# : Indices for active features, actually occur in the training set
print(enc.active_features_)
# [0 1 2 3 4 5 6 7 8 9]
# [남, 녀, 20대, 30대, 40대, S, A, B, C, D]
#   성별      연령대             등급

# n_values_ : number of values per feature
print(enc.n_values_)
# [2 3 5] : 성별 2개 범주, 연령대 3개 범주, 등급 5개 범주

# feature_indices_ : indices to feature ranges
print(enc.feature_indices_)
# [ 0  2  5 10] : 성별 0이상 2미만, 연령대 2이상 5미만, 등급 5이상 10미만


[0 1 2 3 4 5 6 7 8 9]
[2 3 5]
[ 0  2  5 10]


In [45]:
# (3) 적합된 OneHotEncoder()로 새로운 범주형 데이터셋을 이항변수화 변환하기
# making new data : female(1), age 40s(2), d grade(4)
p1 = np.array([1, 2, 4]).reshape(1,-1)

# applying OneHotEncoder as enc to p1 (return array)
print(enc.transform(p1).toarray())

# p2  : male(0), age 30s(1), b grade(2)
p2 = np.array([0, 1, 2]).reshape(1, -1)
print(enc.transform(p2).toarray())

[[ 0.  1.  0.  0.  1.  0.  0.  0.  0.  1.]]
[[ 1.  0.  0.  1.  0.  0.  0.  1.  0.  0.]]
