### サンプルデータ準備

In [56]:
import pandas
from IPython.core.display import display

data = {'name': ['Ryo', 'Kaori', 'Hideyuki', 'Hayato', 'Miki', 'Saeko'],  # 名前
        'gender': ['M', 'F', 'M', 'M', 'F', 'F'],  # 性別
        'size': ['L', 'M', 'L', 'XL', 'M', 'S']  # 服のサイズ
       }

# DataFrameの作成
df = pandas.DataFrame(data, columns=['name', 'gender', 'size'])
display(df)
# データ・タイプを確認してみる
display(df.dtypes)

Unnamed: 0,name,gender,size
0,Ryo,M,L
1,Kaori,F,M
2,Hideyuki,M,L
3,Hayato,M,XL
4,Miki,F,M
5,Saeko,F,S


name      object
gender    object
size      object
dtype: object

### 順序尺度の処理

In [57]:
# size2int:size to int
# 順序尺度の中では、何かしらの大小関係のルールがある

# dict型で指定
size2int = {'S':1, 'M':2, 'L':3, 'XL':4}
display(type(size2int))

# DataFrameのmap()メソッドでdictに従ってルールを適用できる

df['size'] = df['size'].map(size2int)
df

dict

Unnamed: 0,name,gender,size
0,Ryo,M,3
1,Kaori,F,2
2,Hideyuki,M,3
3,Hayato,M,4
4,Miki,F,2
5,Saeko,F,1


### 順序尺度を戻す

In [61]:
# int2size:int to size
# size2intの逆をfor文で入力する
int2size = {v:k for k, v in size2int.items()}

# DataFrameのmap()メソッドでdictに従ってルールを適用できる
display(df['size'])
df['size'] = df['size'].map(int2size)
df

0     L
1     M
2     L
3    XL
4     M
5     S
Name: size, dtype: object

Unnamed: 0,name,size,gender_F
0,Ryo,,0
1,Kaori,,1
2,Hideyuki,,0
3,Hayato,,0
4,Miki,,1
5,Saeko,,1


### 名義尺度

In [59]:
# カテゴリカルデータに変更する
df['gender'] = pandas.Categorical(df['gender'], categories=['M', 'F'], ordered=False)
# dtypeを確認
display(df.dtypes)
# まだ変更されていない
display(df)
'''
DataFrameの該当する列のデータタイプをCategoricalにする。
categoriesに表れるカテゴリ（クラス、ラベル）を定義。
orderedをTrueにすると、順序尺度として扱い、categoriesの順序が保持る。
Falseのときは、名義尺度として扱われる。
'''

name        object
gender    category
size        object
dtype: object

Unnamed: 0,name,gender,size
0,Ryo,M,L
1,Kaori,F,M
2,Hideyuki,M,L
3,Hayato,M,XL
4,Miki,F,M
5,Saeko,F,S


'\nDataFrameの該当する列のデータタイプをCategoricalにする。\ncategoriesに表れるカテゴリ（クラス、ラベル）を定義。\norderedをTrueにすると、順序尺度として扱い、categoriesの順序が保持る。\nFalseのときは、名義尺度として扱われる。\n'

In [60]:
display(pandas.get_dummies(df, columns=['gender']))
'''
pandasに含まれるget_dummies()関数を利用して、ダミー化を適用する。
ダミー化は、カテゴリ毎に特徴量を新たに追加し、0/1の二値の組み合わせで、もとの特徴量を表現する。
'''
df = pandas.get_dummies(df, columns=['gender'], drop_first=True)
display(df)
'''
genderの場合、gender_Mかgender_Fのいずれかがわかれば、もう一方も自ずと決定される
（gender_Mが0ならば、gender_Fが1になっているはず）
片方の列を落としてダミー化する。
get_dummies()関数に、drop_first=Trueの引数を与える。
'''

Unnamed: 0,name,size,gender_M,gender_F
0,Ryo,L,1,0
1,Kaori,M,0,1
2,Hideyuki,L,1,0
3,Hayato,XL,1,0
4,Miki,M,0,1
5,Saeko,S,0,1


Unnamed: 0,name,size,gender_F
0,Ryo,L,0
1,Kaori,M,1
2,Hideyuki,L,0
3,Hayato,XL,0
4,Miki,M,1
5,Saeko,S,1


'\ngenderの場合、gender_Mかgender_Fのいずれかがわかれば、もう一方も自ずと決定される\n（gender_Mが0ならば、gender_Fが1になっているはず）\n片方の列を落としてダミー化する。\nget_dummies()関数に、drop_first=Trueの引数を与える。\n'