# カテゴリデータの処理

データの種類<br>

1. 名義特徴量…色や性別など順序のない特徴量
2. 順序特徴量…サイズやランキングなど並べ替えや順序付けが可能な特徴量

In [1]:
# サンプルデータ作成
import pandas as pd
df = pd.DataFrame([
        ['green', 'M', 10.1, 'class1'],
        ['red', 'L', 13.5, 'class2'],
        ['blue', 'XL', 15.3, 'class1']
    ])
# 列名を指定
df.columns = ['color', 'size', 'price', 'classlabel']
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


### 順序特徴量のマッピング

In [2]:
# XL = L + 1 = M + 2 のような差があるとする
# サイズと整数を対応させるディクショナリを生成
size_mapping = {'XL': 3, 'L': 2, 'M': 1}
# サイズを整数に変換
df['size'] = df['size'].map(size_mapping)
# 逆変換の時はこのマッピングを使う
{v: k for k , v in size_mapping.items()}

{1: 'M', 2: 'L', 3: 'XL'}

### クラスラベルのエンコーディング

In [3]:
# 上記と同様にディクショナリを利用する方法もあるが、便利なクラスがある
# LabelEncoderのfitメソッド、fit_transformメソッドは入力文字列がN種類のとき、それぞれの文字列を0〜N-1までの整数に置き換える
from sklearn.preprocessing import LabelEncoder
# ラベルエンコーダのインスタンス作成
class_le = LabelEncoder()
# クラスラベルから整数に変換
y = class_le.fit_transform(df['classlabel'].values)
y

array([0, 1, 0])

In [4]:
# クラスラベルを文字列に戻す
class_le.inverse_transform(y)

array(['class1', 'class2', 'class1'], dtype=object)

### 名義特徴量のone-hotエンコーディング

上記のようなエンコーディングを行ってしまうと、アルゴリズムが各変数の間に順序関係があると想定してしまう<br>
この問題を回避するために、各特徴量のパターン（ここでは色）ごとに新たな列（ダミー特徴量）を新たに作成するone-hotエンコーディングを行う<br>

In [9]:
from sklearn.preprocessing import OneHotEncoder
# 特徴量の部分を抽出
X = df[['color', 'size', 'price']].values
color_le = LabelEncoder()
X[:, 0]  = color_le.fit_transform(X[:, 0])
# one-:hotエンコーダの生成(categorical_featuresでエンコードしたい列を指定)
ohe = OneHotEncoder(categorical_features=[0])
# エンコーディング実行
ohe.fit_transform(X).toarray()

array([[  0. ,   1. ,   0. ,   1. ,  10.1],
       [  0. ,   0. ,   1. ,   2. ,  13.5],
       [  1. ,   0. ,   0. ,   3. ,  15.3]])

In [13]:
# pandasのget_dummiesがさらに便利
pd.get_dummies(df[['price', 'color', 'size']])
# get_dummies関数を使うと、文字列値を持つ列だけが変換され、それ以外の列はそのままとなる

Unnamed: 0,price,size,color_blue,color_green,color_red
0,10.1,1,0,1,0
1,13.5,2,0,0,1
2,15.3,3,1,0,0
