# 名義特徴量を変換する - LabelEncoder

* 例えば色（赤、青、黄）はRGBなどで表さなければ、名義特徴量と言える。

In [1]:
import numpy as np
color = np.array([["red"],
             ["red"],
             ["blue"],
             ["yellow"],
             ["blue"]])

In [2]:
color

array([['red'],
       ['red'],
       ['blue'],
       ['yellow'],
       ['blue']],
      dtype='<U6')

* 機械学習ライブラリを用いる際には、文字列ではなく数値の方が扱いやすい。そこでLabelEncoderを用いて変換する。

In [3]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

color_num = le.fit_transform(color.reshape(-1)) # 1次元のデータでないとWarning
color_num = color_num.reshape(-1,1)
color_num

array([[1],
       [1],
       [0],
       [2],
       [0]])

* 名義特徴量を数値に変更することができた。
* しかしこのままだと、数値の大小の影響を受けてしまうことがある。そのため、OneHotEncodingを行う。
* なお、Kaggleで人気のXGBoostでは、OneHotEncodingをしない方が良い、ということもあるらしく、議論になっていた（[参考](https://www.kaggle.com/c/porto-seguro-safe-driver-prediction/discussion/40728)）

# OneHotEncoder
例えば0から2までの数値がある場合に
* 0 -> 1,0,0
* 1 -> 0,1,0
* 2 -> 0,0,1

のように変換すること。

ただし、左から3列目は1列目、2列目からわかる情報（1列目、2列目が共に0であれば1）なので、その列は削除することが多い。

In [4]:
from sklearn.preprocessing import OneHotEncoder

In [5]:
ohe = OneHotEncoder()
ohe.fit(color_num)

OneHotEncoder(categorical_features='all', dtype=<class 'numpy.float64'>,
       handle_unknown='error', n_values='auto', sparse=True)

In [6]:
ohe.transform(color_num).toarray()

array([[ 0.,  1.,  0.],
       [ 0.,  1.,  0.],
       [ 1.,  0.,  0.],
       [ 0.,  0.,  1.],
       [ 1.,  0.,  0.]])

* ただ個人的には、データのOneHotEncodingには、pandasのget_dummiesを用いることが多い

# pandas.get_dummies

In [7]:
import pandas as pd
color_df = pd.DataFrame(color,columns=["color"])
color_df

Unnamed: 0,color
0,red
1,red
2,blue
3,yellow
4,blue


In [8]:
pd.get_dummies(color_df)

Unnamed: 0,color_blue,color_red,color_yellow
0,0,1,0
1,0,1,0
2,1,0,0
3,0,0,1
4,1,0,0


* 上で紹介した1列削除もオプションで設定可能

In [9]:
pd.get_dummies(color_df,drop_first=True)

Unnamed: 0,color_red,color_yellow
0,1,0
1,1,0
2,0,0
3,0,1
4,0,0
