# ラベル・カテゴリのナンバリング

In [14]:
import pandas as pd

# データのセットを作成
df = pd.DataFrame([['green', 'M', 10.1, 'class1'],
                   ['red', 'L', 13.5, 'class2'],
                   ['blue', 'XL', 15.3, 'class1']])
# それぞれのデータのラベルを作成
df.columns = ['color', 'size', 'price', 'classlabel']

# 表を作成
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


#### サイズを整数に変換

In [15]:
# ラベル_mapping = で　変換　がわかりやすい
size_mapping = {'XL': 3,
                'L': 2,
                'M': 1}
# 表のsizeの欄を　マッピングした整数に変換して表示
df['size'] = df['size'].map(size_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


In [3]:
import numpy as np
# classlabel を整数に変換
class_mapping = {label: idx for idx, label in enumerate(np.unique(df['classlabel']))}
class_mapping

{'class1': 0, 'class2': 1}

In [16]:
# 表のclaaの欄を　マッピングした整数に変換して表示
df['classlabel'] = df['classlabel'].map(class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,0
1,red,2,13.5,1
2,blue,3,15.3,0


In [5]:
inv_class_mapping = {v: k for k, v in class_mapping.items()}
df['classlabel'] = df['classlabel'].map(inv_class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


### scikit learn で実装されている　Label Encoder を使用することで、クラスラベルを整数に変換できる

In [17]:
from sklearn.preprocessing import LabelEncoder
# fit_transform　で変換
class_le = LabelEncoder()
y = class_le.fit_transform(df['classlabel'].values)
y

array([0, 1, 0], dtype=int64)

In [18]:
# inverse_transform　で整数からクラスラベルに変換
class_le.inverse_transform(y)

array([0, 1, 0], dtype=int64)