## カテゴリーデータの処理方法について学習

- 順序特徴量 : 
「XL, L, M, S」のような数字ではないが順序づけできるようなデータ
- 名義特徴量 : 
「赤, 青, 緑, 黄」のような順序をつけられないデータ

In [24]:
import pandas as pd

df = pd.read_csv('./data2.csv', index_col=0)
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,class1
1,L,blue,6000,class2
2,M,green,6000,class1
3,L,yellow,3000,class1
4,S,red,4000,class2
5,L,green,5000,class3
6,M,blue,7000,class1
7,XL,red,10000,class2
8,M,yellow,7000,class1
9,M,red,6000,class3


### 順序特徴量は数字にマッピング

In [25]:
size_mapping = {'XL':4, 'L':3, 'M':2, 'S':1}

df['size'] = df['size'].map(size_mapping)
df

Unnamed: 0,size,color,price,classlabel
0,4,red,1000,class1
1,3,blue,6000,class2
2,2,green,6000,class1
3,3,yellow,3000,class1
4,1,red,4000,class2
5,3,green,5000,class3
6,2,blue,7000,class1
7,4,red,10000,class2
8,2,yellow,7000,class1
9,2,red,6000,class3


### クラスラベルをエンコーディング

In [26]:
classlabels = list(set(df['classlabel']))

classlabels

['class1', 'class2', 'class3']

In [27]:
## マッピング辞書の作成
class_mapping = {}
for num, label in enumerate(sorted(classlabels)):
    class_mapping[label] = num
    
class_mapping

{'class1': 0, 'class2': 1, 'class3': 2}

In [28]:
df['classlabel'] = df['classlabel'].map(class_mapping)
df

Unnamed: 0,size,color,price,classlabel
0,4,red,1000,0
1,3,blue,6000,1
2,2,green,6000,0
3,3,yellow,3000,0
4,1,red,4000,1
5,3,green,5000,2
6,2,blue,7000,0
7,4,red,10000,1
8,2,yellow,7000,0
9,2,red,6000,2


In [29]:
## リバースマッピング
reverse_class_mapping = {}
for key, value in class_mapping.items():
    reverse_class_mapping[value] = key
    
reverse_class_mapping

{0: 'class1', 1: 'class2', 2: 'class3'}

In [30]:
df['classlabel'] = df['classlabel'].map(reverse_class_mapping)
df

Unnamed: 0,size,color,price,classlabel
0,4,red,1000,class1
1,3,blue,6000,class2
2,2,green,6000,class1
3,3,yellow,3000,class1
4,1,red,4000,class2
5,3,green,5000,class3
6,2,blue,7000,class1
7,4,red,10000,class2
8,2,yellow,7000,class1
9,2,red,6000,class3


### クラスラベルをエンコーディング２

In [31]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()

classlabel_encoder = encoder.fit(df['classlabel'])
df['classlabel'] = classlabel_encoder.transform(df['classlabel'])

df

Unnamed: 0,size,color,price,classlabel
0,4,red,1000,0
1,3,blue,6000,1
2,2,green,6000,0
3,3,yellow,3000,0
4,1,red,4000,1
5,3,green,5000,2
6,2,blue,7000,0
7,4,red,10000,1
8,2,yellow,7000,0
9,2,red,6000,2
