# sklearnを用いたOneHotEncoding Data
### OneHotEncoderの挙動が良く分からない人向け

In [1]:
import numpy as np
from sklearn.preprocessing import OneHotEncoder
encoder=OneHotEncoder(handle_unknown='ignore')
X = np.array([[0,1,6,2], [1,5,3,5], [2,4,2,7], [1,0,4,2]])
print(X)
encoder.fit(X)

[[0 1 6 2]
 [1 5 3 5]
 [2 4 2 7]
 [1 0 4 2]]


OneHotEncoder(categorical_features=None, categories=None,
       dtype=<class 'numpy.float64'>, handle_unknown='ignore',
       n_values=None, sparse=True)

In [2]:
# indiciesは２次元行列なら何でもよい
indicies = [[2,1,2,7]]
encodedX = encoder.transform(indicies).toarray()
print('encodedX: {}'.format(encodedX))
print('encodedX.shape: {}'.format(encodedX.shape))

encodedX: [[0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 1.]]
encodedX.shape: (1, 14)


### ここでencodedXが良く分からないし、encodedX.shapeはなぜか(1,14)になる
## what?
### 以下、その説明

In [3]:
print('配列 X')
print(X)
print('')
print('encoderのfeature_names')
encoder_features = encoder.get_feature_names(input_features=['Xの1列目','Xの2列目','Xの3列目','Xの4列目'])
for t in encoder_features:
    print(t)

配列 X
[[0 1 6 2]
 [1 5 3 5]
 [2 4 2 7]
 [1 0 4 2]]

encoderのfeature_names
Xの1列目_0
Xの1列目_1
Xの1列目_2
Xの2列目_0
Xの2列目_1
Xの2列目_4
Xの2列目_5
Xの3列目_2
Xの3列目_3
Xの3列目_4
Xの3列目_6
Xの4列目_2
Xの4列目_5
Xの4列目_7


### OneHotEncoder(encoder)は配列Xのn列目を、重複していたら要素を削除し、残りをfeatureとするので、feature_namesは16要素(4×4配列の要素)ではなく14要素(列の重複している要素は削除)になった。具体的には、Xの1列目[0,1,2,1]は1が重複しているので[0,1,2]に、2列目は重複していないので[1,5,4,0]、3列目も[6,3,2,4]、4列目は重複分を消して[2,5,7]となる。

### 上で、encodeされた後の要素数(featureの数)について分かったので、XをOneHotEncodeする

In [4]:
# indiciesは２次元行列なら何でもよい
# ※featureにない数値を入れるとOneHotEncoderの引数handle_unknownがignoreであれば全て0, ignoreでなければエラーがでる
indicies = [[0,6,3,4]]
print('onehotベクトルで1にしたい値をindiciesに記入する')
encodedX = encoder.transform(indicies).toarray()
for i, encoder_transform in enumerate(encodedX[0]):
    print(encoder_features[i],'--onehot-->', int(encoder_transform))

onehotベクトルで1にしたい値をindiciesに記入する
Xの1列目_0 --onehot--> 1
Xの1列目_1 --onehot--> 0
Xの1列目_2 --onehot--> 0
Xの2列目_0 --onehot--> 0
Xの2列目_1 --onehot--> 0
Xの2列目_4 --onehot--> 0
Xの2列目_5 --onehot--> 0
Xの3列目_2 --onehot--> 0
Xの3列目_3 --onehot--> 1
Xの3列目_4 --onehot--> 0
Xの3列目_6 --onehot--> 0
Xの4列目_2 --onehot--> 0
Xの4列目_5 --onehot--> 0
Xの4列目_7 --onehot--> 0


### indiciesを変えるとonehotの結果も変わることが分かる!!!

## OneHotEncoderの他の例

In [5]:
enc = OneHotEncoder(handle_unknown='ignore')
MF = [['Male', 1], ['Female', 3], ['Female', 2]]
enc.fit(MF)

OneHotEncoder(categorical_features=None, categories=None,
       dtype=<class 'numpy.float64'>, handle_unknown='ignore',
       n_values=None, sparse=True)

In [6]:
for i in enc.categories_:
    print(i)

['Female' 'Male']
[1 2 3]


In [7]:
for i in enc.get_feature_names():
    print(i)

x0_Female
x0_Male
x1_1
x1_2
x1_3
