### ====================================
### BaseNEncoder
category_encoders.BaseNEncoder[▼DOC](
http://contrib.scikit-learn.org/category_encoders/binary.html
) 
>Base-Nエンコーダーは、カテゴリをBase-N表現の配列にエンコードします。  
ベース1はワンホットエンコーディング（実際にはベース1ではないが便利です）に相当し、  
ベース2はバイナリエンコーディングに相当します。  
N =実際のカテゴリーの数は、バニラ序数エンコーディングと同等です

In [30]:
import numpy as np
import pandas as pd
pd.options.display.float_format = '{:.2f}'.format 

In [31]:
# どこの所属？
try: 
    from sklearn.preprocessing import BaseNEncoder
    print("sklearn.preprocessingにある")
except ImportError:
    print("sklearn.preprocessingにはない")

try:
    from category_encoders import BaseNEncoder
    print("category_encodersにある")
except ImportError:
    print("category_encodersにはない")

sklearn.preprocessingにはない
category_encodersにある


In [33]:
from category_encoders import BaseNEncoder

In [34]:
df = pd.DataFrame({
        "COLOR" : ["Red", "Yellow", "Red", "Red", "Blue"],
        "SIZE" : ["S", "M", "L", "S", "S"],
        "WEIGHT" : [200, 100, 300, 300, 300],
        "HARDNESS" : ["hard", "soft", "medium", "hard", "soft"],
        "OUTCOME" : [1,2,0,0,0] })
df

Unnamed: 0,COLOR,SIZE,WEIGHT,HARDNESS,OUTCOME
0,Red,S,200,hard,1
1,Yellow,M,100,soft,2
2,Red,L,300,medium,0
3,Red,S,300,hard,0
4,Blue,S,300,soft,0


In [35]:
# 説明変数X と 目的変数Yに分ける
df_X = df[["COLOR", "SIZE", "WEIGHT","HARDNESS"]].copy()
df_Y = df[["OUTCOME"]].copy()

In [36]:
df_X_test = pd.DataFrame({
        "COLOR" : ["Red", "Yellow", "Red", "Green"],
        "SIZE" : ["S", "M", "L", "XL", ],
        "WEIGHT" : [200, 100, 300, 400],
        "HARDNESS" : ["hard", "soft", "medium", "maxhard"] })
df_X_test

Unnamed: 0,COLOR,SIZE,WEIGHT,HARDNESS
0,Red,S,200,hard
1,Yellow,M,100,soft
2,Red,L,300,medium
3,Green,XL,400,maxhard


・Encodeしてみる

In [40]:
print("エンコード前")
display(df_X)

print("エンコード後")
enc = BaseNEncoder()
enc.fit_transform( df_X )

エンコード前


Unnamed: 0,COLOR,SIZE,WEIGHT,HARDNESS
0,Red,S,200,hard
1,Yellow,M,100,soft
2,Red,L,300,medium
3,Red,S,300,hard
4,Blue,S,300,soft


エンコード後


Unnamed: 0,COLOR_0,COLOR_1,COLOR_2,SIZE_0,SIZE_1,SIZE_2,WEIGHT,HARDNESS_0,HARDNESS_1,HARDNESS_2
0,0,0,1,0,0,1,200,0,0,1
1,0,1,0,0,1,0,100,0,1,0
2,0,0,1,0,1,1,300,0,1,1
3,0,0,1,0,0,1,300,0,0,1
4,0,1,1,0,0,1,300,0,1,0


In [43]:
print("エンコード後")
enc = BaseNEncoder(base=3)
enc.fit_transform( df_X )

エンコード後


Unnamed: 0,COLOR_0,COLOR_1,SIZE_0,SIZE_1,WEIGHT,HARDNESS_0,HARDNESS_1
0,0,1,0,1,200,0,1
1,0,2,0,2,100,0,2
2,0,1,1,0,300,1,0
3,0,1,0,1,300,0,1
4,1,0,0,1,300,0,2


In [47]:
print("エンコード後")
enc = BaseNEncoder(base=10)
enc.fit_transform( df_X )

エンコード後


Unnamed: 0,COLOR_0,COLOR_1,SIZE_0,SIZE_1,WEIGHT,HARDNESS_0,HARDNESS_1
0,0,1,0,1,200,0,1
1,0,2,0,2,100,0,2
2,0,1,0,3,300,0,3
3,0,1,0,1,300,0,1
4,0,3,0,1,300,0,2


- fit時にはなかった値

In [44]:
print("エンコード前")
display(df_X_test[["COLOR"]])

print("エンコード後")

enc = BaseNEncoder(handle_unknown="ignore")
enc.fit(df_X[["COLOR"]])
enc.transform( df_X_test[["COLOR"]] )

エンコード前


Unnamed: 0,COLOR
0,Red
1,Yellow
2,Red
3,Green


エンコード後


Unnamed: 0,COLOR_0,COLOR_1,COLOR_2
0,0.0,0.0,1.0
1,0.0,1.0,0.0
2,0.0,0.0,1.0
3,,,


- nanがある場合

In [45]:
df_X_tmp = pd.DataFrame({
        "COLOR" : ["Red", "Yellow", "Red", np.nan, "Blue"]})

print("エンコード前")
display(df_X_tmp)

print("エンコード後")
enc = BaseNEncoder(handle_unknown="ignore")
enc.fit_transform( df_X_tmp[["COLOR"]] )


エンコード前


Unnamed: 0,COLOR
0,Red
1,Yellow
2,Red
3,
4,Blue


エンコード後


Unnamed: 0,COLOR_0,COLOR_1,COLOR_2
0,0,0,1
1,0,1,0
2,0,0,1
3,0,1,1
4,1,0,0
