In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use("seaborn-whitegrid") # seabornの背景色を白に変更

### データ生成
3つの都市におけるアパートの家賃のデータセット
- Rent : 家賃
- City : 都市の名前

In [2]:
df = pd.DataFrame({
    'City': ['SF', 'SF', 'SF', 'NYC', 'NYC', 'NYC', 'Seattle', 'Seattle', 'Seattle'],
    'Rent': [3999, 4000, 4001, 3499, 3500, 3501, 2499, 2500, 2501]
})

## エンコーディング
質的データは通常数値で表されていないため, 数値データに変換する必要がある. この変換をエンコーディングという. ここではOne-Hotエンコーディング, ダミーエンコーディング, Effectエンコーディングの3つを行う.

### One-Hotエンコーディング
One-Hotエンコーディングはビットのグループを利用してエンコーディングを行う方法である. 質的変数が複数のカテゴリに属さない場合, グループ内の1つのビットのみを1, それ以外を0というふうに変換を行う.

In [3]:
# prefix : エンコーディングするカラムを指定
one_hot_df = pd.get_dummies(df,prefix=["city"])
one_hot_df

Unnamed: 0,Rent,city_NYC,city_SF,city_Seattle
0,3999,0,1,0
1,4000,0,1,0
2,4001,0,1,0
3,3499,1,0,0
4,3500,1,0,0
5,3501,1,0,0
6,2499,0,0,1
7,2500,0,0,1
8,2501,0,0,1


### ダミーエンコーディング
One-Hotエンコーディングはk個のカテゴリを割り当てているが,実際には最後の1カテゴリは「他全てのビットが0」という風に割り当てることができる. またOne-Hotエンコーディングで生成されたビット間には線形依存の関係があるため,モデルの係数が一意に定まらない(多重共線性)という問題がある. ダミーエンコーディングは最後の1カテゴリを「他全てのビットが0」という風に割り当てることで自由度をk-1にして,余分なビットを取り除いている.

In [4]:
# drop_first=Trueにすることでダミーエンコーディングが行われる
dummy_df = pd.get_dummies(df,prefix=["city"],drop_first=True)
dummy_df

Unnamed: 0,Rent,city_SF,city_Seattle
0,3999,1,0
1,4000,1,0
2,4001,1,0
3,3499,0,0
4,3500,0,0
5,3501,0,0
6,2499,0,1
7,2500,0,1
8,2501,0,1


### Effectエンコーディング
Effectエンコーディングは参照カテゴリに-1を割り当てるエンコーディング方法である. 参照カテゴリの説明はhttps://uribo.github.io/practical-ds/02/categorical.html がわかりやすい. Effectエンコーディングでは切片はターゲット全体の平均を表し, 各特徴量の回帰係数は各カテゴリの平均値と全体の差分を表す. 個の差分は各カテゴリの主成分(main effect)と呼ばれる.

In [9]:
effect_df = dummy_df.copy()
# ダミーエンコーディングで型がunsigned intになるためint64に変換
effect_df = effect_df[["city_SF","city_Seattle"]].astype("int64")
# 3,4,5レコードに-1を代入
effect_df.loc[3:5,["city_SF","city_Seattle"]] = -1
effect_df

Unnamed: 0,city_SF,city_Seattle
0,1,0
1,1,0
2,1,0
3,-1,-1
4,-1,-1
5,-1,-1
6,0,1
7,0,1
8,0,1


ダミーエンコーディングからEffectエンコーディングへの変換は,参照カテゴリのレコードを全て指定する必要があり膨大なデータの場合は面倒くさい. そこでOne-Hotエンコーディングから参照カテゴリのビットが立っている他のダミー変数の値を-1で上書きすることでレコードの指定を回避する.

In [20]:
drop_column = "city_NYC" # 参照カテゴリを選択

# One-Hotエンコーディング
one_hot_df = pd.get_dummies(df,prefix=["city"])
# 型変換
one_hot_df[["city_SF","city_Seattle"]] = one_hot_df[["city_SF","city_Seattle"]].astype("int64")
# 参照カテゴリのビットが立っている他のダミー変数の値を-1で上書き
one_hot_df.loc[one_hot_df[drop_column]==1,["city_SF","city_Seattle"]] = -1
# 参照カテゴリを除去
effect_df = one_hot_df.drop(columns=[drop_column])
effect_df

Unnamed: 0,Rent,city_SF,city_Seattle
0,3999,1,0
1,4000,1,0
2,4001,1,0
3,3499,-1,-1
4,3500,-1,-1
5,3501,-1,-1
6,2499,0,1
7,2500,0,1
8,2501,0,1
