### ====================================
### OrdinalEncoder (Ordinal=順序)
※このノートは sklearn.preprocessingのOrdinalEncoder。  
category_encodersのとの比較用。  
比較しながらみてね

In [1]:
import numpy as np
import pandas as pd
pd.options.display.float_format = '{:.2f}'.format 

In [2]:
# どこの所属？
try: 
    from sklearn.preprocessing import OrdinalEncoder
    print("sklearn.preprocessingにある")
except ImportError:
    print("sklearn.preprocessingにはない")

try:
    from category_encoders import OrdinalEncoder
    print("category_encodersにある")
except ImportError:
    print("category_encodersにはない")

sklearn.preprocessingにある
category_encodersにある


In [3]:
from sklearn.preprocessing import OrdinalEncoder

In [4]:
df = pd.DataFrame({
        "COLOR" : ["Red", "Yellow", "Red", "Red", "Blue"],
        "SIZE" : ["S", "M", "L", "S", "S"],
        "WEIGHT" : [200, 100, 300, 300, 300],
        "HARDNESS" : ["hard", "soft", "medium", "hard", "soft"],
        "OUTCOME" : [1,2,0,0,0] })
df

Unnamed: 0,COLOR,SIZE,WEIGHT,HARDNESS,OUTCOME
0,Red,S,200,hard,1
1,Yellow,M,100,soft,2
2,Red,L,300,medium,0
3,Red,S,300,hard,0
4,Blue,S,300,soft,0


In [5]:
# 説明変数X と 目的変数Yに分ける
df_X = df[["COLOR", "SIZE", "WEIGHT","HARDNESS"]].copy()
df_Y = df[["OUTCOME"]].copy()

In [6]:
df_X_test = pd.DataFrame({
        "COLOR" : ["Red", "Yellow", "Red", "Green"],
        "SIZE" : ["S", "M", "L", "XL", ],
        "WEIGHT" : [200, 100, 300, 400],
        "HARDNESS" : ["hard", "soft", "medium", "maxhard"] })
df_X_test

Unnamed: 0,COLOR,SIZE,WEIGHT,HARDNESS
0,Red,S,200,hard
1,Yellow,M,100,soft
2,Red,L,300,medium
3,Green,XL,400,maxhard


- エンコードしてみる

In [7]:
print("エンコード前")
display(df_X)

print("エンコード後")
oe = OrdinalEncoder()
df_X_oe = pd.DataFrame(oe.fit_transform(df_X))
display(df_X_oe)

エンコード前


Unnamed: 0,COLOR,SIZE,WEIGHT,HARDNESS
0,Red,S,200,hard
1,Yellow,M,100,soft
2,Red,L,300,medium
3,Red,S,300,hard
4,Blue,S,300,soft


エンコード後


Unnamed: 0,0,1,2,3
0,1.0,2.0,1.0,0.0
1,2.0,1.0,0.0,2.0
2,1.0,0.0,2.0,1.0
3,1.0,2.0,2.0,0.0
4,0.0,2.0,2.0,2.0


- 並び順の指定

In [8]:
# 数値のマッピング1,2,,,は、もとの値の登場順に振っているっぽい。
# ので、自分で指定したい場合は、順序のリストを渡すといい。
print("エンコード前")
display(df_X[["HARDNESS"]])

# 都度、新しくインスタンスを作成して
# 自分が指定した順序を覚えさせて、変換する。
# 複数列まとめて指定する方法もあるんだろうけどわからなかった。。。
oe = OrdinalEncoder()
order = [['soft'], ['medium'], ['hard']] # この順で、1,2,3,,を振る
oe.fit(order)
df_X_le = oe.transform(np.ravel(df_X[["HARDNESS"]]))

print("エンコード後")
df_X_le.columns = ["HARDNESS"]
display(df_X_le)

エンコード前


Unnamed: 0,HARDNESS
0,hard
1,soft
2,medium
3,hard
4,soft


ValueError: Expected 2D array, got 1D array instead:
array=['hard' 'soft' 'medium' 'hard' 'soft'].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

- Nanがあっても変更できる

In [9]:
# Nanがあっても変換できる
df_X_tmp = pd.DataFrame({
        "COLOR" : ["Red", "Yellow", "Red", np.nan, "Blue"],
        "HARDNESS" : ["hard", np.nan, "medium", "hard", "soft"] })

#print("エンコード前")
display(df_X_tmp)

print("エンコード後")
oe = OrdinalEncoder()
oe.fit_transform(df_X_tmp)

Unnamed: 0,COLOR,HARDNESS
0,Red,hard
1,Yellow,
2,Red,medium
3,,hard
4,Blue,soft


エンコード後


ValueError: Input contains NaN

- fit時にはなかった値があっても変換できる

In [10]:
# fit時にはなかった値があっても変換できる
print("エンコード前")
display(df_X_test)

print("エンコード後")
oe = OrdinalEncoder()
oe.fit(df_X)
oe.transform(df_X_test)

エンコード前


Unnamed: 0,COLOR,SIZE,WEIGHT,HARDNESS
0,Red,S,200,hard
1,Yellow,M,100,soft
2,Red,L,300,medium
3,Green,XL,400,maxhard


エンコード後


ValueError: Found unknown categories ['Green'] in column 0 during transform