01 カテゴリ変数のエンコーディング
============================

* カテゴリ変数のカテゴリは、通常数字では表現されていない

* カテゴリ変数を数値に変換するには、`エンコーディング`を行う必要がある

    * 単純なものとして、$k$種類の各カテゴリ値に、$1$から$k$までの数値を当てはめる方法がある
    
    * しかし、この方法はカテゴリ値を順序づけてしまう
    
* 他の方法を考える

## 1. One-Hotエンコーディング

* エンコーディングの方法の1つに、ビットのグループを利用する方法がある

* 各ビットは各カテゴリを表し、カテゴリ値の該当ビットが`on`(1)になり、それ以外は`off`(0)となる

    * カテゴリ変数が同時に複数のカテゴリに属さない場合、グループ内の1つのビットだけが`on`になる
    
    * この方法を、`One-Hotエンコーディング`と呼ぶ
    
    * scikit-learnの`sklearn.preprocessing.OneHotEncoder`として実装されている
    
* エンコーディングされた各ビットは、1つの特徴量となる

    * つまり、$k$個のカテゴリを持つカテゴリ変数は、長さ$k$の特徴量ベクトルとしてエンコーディングされる
    
|       city      |$e_1$|$e_2$|$e_3$|
|-----------------|--------|---------|---------|
|San Francisco|   1   |    0    |    0    |
|   New York   |   0   |    1    |    0    |
|     Seatle     |   0   |    0    |    1    |

* One-Hotエンコーディングは、シンプルで理解しやすい方法だが、厳密に必要なビット数よりも1ビット多く使用してしまう

    * $k$個のビットのうちの1つは、1つの値になる必要がある
    
    * もし$k-1$個のビットが$0$ならば、残った1つのビットは$1$でなくてはならない
    
* この制約は、「全てのビット数の和は$1$である」と言う次の式で表すことができる

\begin{eqnarray}
e_1 + e_2 + \cdot \cdot \cdot + e_k = 1
\end{eqnarray}

* この制約からわかるように、One-Hotエンコーディングで作成されたビット数には線形の依存関係がある

    * 線形の依存関係がある特徴量が含まれていると、線形モデルの係数が一意に定まらないという問題が生じる
    
    * その結果、特徴量が予測に与える影響を理解するのが難しくなる

## 2. ダミーエンコーディング

* `One-Hotエンコーディング`の問題点は、本来は自由度$k-1$で十分であるはずなのに、自由度$k$になっている点

* `ダミーエンコーディング`：$k-1$個のビット特徴量を利用して、余分な自由度を取り除いている

    * ある1つのカテゴリを選択し、$0$のみからなるベクトルを割り当てている
    
    * このようなカテゴリを、`参照カテゴリ`と呼ぶ

* 以下の例では、参照カテゴリは「New York」

* `ダミーエンコーディング`と`One-Hotエンコーディング`は、Pandasで実装されており、`pandas.get_dummies`から利用することができる

|city|$e_1$|$e_2$|
|-|-|-|
|San Francisco|1|0|
|New York|0|0|
|Seattle|0|1|

* `ダミーエンコーディング`を利用したモデリングの結果は、`One-Hotエンコーディング`を利用したモデリングの結果よりも解釈が容易

    * 例)一般的な線形回帰モデルへの適用
    
    * 以下のような、、サンフランシスコ、ニューヨーク、シアトルの3つの都市におけるアパートの賃貸価格についてのデータが得られたとする
    
| count | City    | Rent |
| ----- | ------- | ---- |
| 0     | SF      | 3999 |
| 1     | SF      | 4000 |
| 2     | SF      | 4001 |
| 3     | NYC     | 3499 |
| 4     | NYC     | 3500 |
| 5     | NYC     | 3501 |
| 6     | Seattle | 2499 |
| 7     | Seattle | 2500 |
| 8     | Seattle | 2501 |

* 都市の情報のみを使って、家賃を予測する線形回帰モデルを学習する

\begin{eqnarray}
y = w_1x_1 + \cdot \cdot \cdot + w_nx_n
\end{eqnarray}

* さらに、$x_1, \cdot \cdot \cdot, x_n$が全て$0$の場合でも、$y$が非ゼロの値になるように、定数項$b$を追加する

\begin{eqnarray}
y = w_1x_1 + \cdot \cdot \cdot + w_nx_n + b
\end{eqnarray}

In [1]:
import pandas as pd
from sklearn import linear_model

# 3つの都市におけるアパートの家賃のデータセットを設定
df = pd.DataFrame({
    'City': ['SF', 'SF', 'SF', 'NYC', 'NYC', 'NYC', 'Seattle', 'Seattle', 'Seattle'],
    'Rent': [3999, 4000, 4001, 3499, 3500, 3501, 2499, 2500, 2501]
})

df['Rent'].mean()

3333.3333333333335

In [2]:
# One-Hotエンコーディングをカテゴリ値であるcity列に適用
# 特徴量をOne-Hotエンコーディングで生成した列に、ターゲット変数を家賃に指定し、線形回帰モデルを学習
one_hot_df = pd.get_dummies(df, prefix=['city'])
one_hot_df

Unnamed: 0,Rent,city_NYC,city_SF,city_Seattle
0,3999,0,1,0
1,4000,0,1,0
2,4001,0,1,0
3,3499,1,0,0
4,3500,1,0,0
5,3501,1,0,0
6,2499,0,0,1
7,2500,0,0,1
8,2501,0,0,1


In [3]:
model = linear_model.LinearRegression()
model.fit(one_hot_df[['city_NYC', 'city_SF', 'city_Seattle']], one_hot_df['Rent'])
model.coef_

array([ 166.66666667,  666.66666667, -833.33333333])

In [4]:
model.intercept_

3333.3333333333335

In [5]:
# ダミーコーディングを利用して線形回帰モデルを学習
dummy_df = pd.get_dummies(df, prefix=['city'], drop_first=True)
dummy_df

Unnamed: 0,Rent,city_SF,city_Seattle
0,3999,1,0
1,4000,1,0
2,4001,1,0
3,3499,0,0
4,3500,0,0
5,3501,0,0
6,2499,0,1
7,2500,0,1
8,2501,0,1


In [6]:
model.fit(dummy_df[['city_SF', 'city_Seattle']], dummy_df['Rent'])
model.coef_

array([  500., -1000.])

In [7]:
model.intercept_

3500.0

* `One-Hotエンコーディング`では、切片はターゲット変数`Rent`の全体平均を表し、各特徴量の回帰係数は各カテゴリ(都市)の平均賃料と全体平均との差分を表す

* 一方、`ダミーコーディング`においては、切片は参照カテゴリのターゲット変数の平均値を表す

    * この例では、NYCの平均賃料となる

* $i$番目の特徴の係数は、$i$番目のカテゴリの平均値と参照カテゴリの平均値との差を意味する

* 以下の表では、エンコーディング方法による線形モデルの係数の違いを確認できる

| エンコーディング        | $x_1$  | $x_2$  | $x_3$   | $b$     |
| ----------------------- | ------ | ------ | ------- | ------- |
| One-Hotエンコーディング | 166.67 | 666.67 | -833.33 | 3333.33 |
| ダミーエンコーディング  | 0      | 500    | -1000   | 3500    |

## 3. Effectコーディング

* `Effectコーディング`：`ダミーコーディング`と非常によく似ているが、参照カテゴリは全て$-1$のベクトルとなる

| city          | $e_1$ | $e_2$ |
| ------------- | ----- | ----- |
| San Francisco | 1     | 0     |
| New York      | -1    | -1    |
| Seattle       | 0     | 1     |

* また、`Effectコーディング`は、`ダミーエンコーディング`よりも結果の解釈がずっと簡単

    * 以下の例では、`Effectコーディング`によって入力がどのように変化するのかを示している
    
    

* `Effectコーディング`では、

    * 切片：ターゲット変数の全体平均を表す
    
    * 各特徴量の回帰係数：カテゴリの平均値と全体平均との差分を表す
    
        * この差分は、各カテゴリの**主効果**と呼ばれるため、`Effectコーディング`と言う名前になっている
        
        

* `Effectコーディング`の結果は、`One-Hotエンコーディング`と切片と係数の値が同じだが、参照カテゴリの係数は存在しない

    * 参照カテゴリの係数を算出するには、参照カテゴリ以外の全カテゴリの係数を合計してマイナスを付ける

In [8]:
effect_df = dummy_df.copy()
effect_df.loc[3:5, ['city_SF', 'city_Seattle']] = -1.0
effect_df

Unnamed: 0,Rent,city_SF,city_Seattle
0,3999,1.0,0.0
1,4000,1.0,0.0
2,4001,1.0,0.0
3,3499,-1.0,-1.0
4,3500,-1.0,-1.0
5,3501,-1.0,-1.0
6,2499,0.0,1.0
7,2500,0.0,1.0
8,2501,0.0,1.0


In [9]:
model.fit(effect_df[['city_SF', 'city_Seattle']], effect_df['Rent'])
model.coef_

array([ 666.66666667, -833.33333333])

In [10]:
model.intercept_

3333.3333333333335

## 4. カテゴリ変数のエンコーディング方法の長所と短所

* カテゴリ変数の3種類のエンコーディング方法はとても似ているが、それぞれに長所と短所がある

### One-Hotエンコーディング

* 冗長な表現なので、同じ問題に対して妥当なモデルが複数存在して係数が一意に定まらない

* それが結果の解釈の妨げになることもあるが、各特徴量が各カテゴリに明確に対応しているという利点がある

* さらに、カテゴリが欠損しているデータを扱う際に便利

    * 例)欠損データを要素が全て0のベクトルとしてエンコーディングすることで、予測結果がターゲット変数の全体平均になる

### ダミーコーディング

* `ダミーコーディング`と`Effectコーディング`は、冗長な表現ではない

* そのため、ユニークで解釈が可能なモデルを得られる

* `ダミーコーディング`の欠点は、欠損データを簡単に処理できないこと

    * 要素が０のベクトルがすでに参照カテゴリに割り当てられているため
    
*　また、参照カテゴリに対する各カテゴリの相対的な影響をエンコードすることは、不自然に感じられる

### Effectコーディング

* `ダミーコーディング`の問題を、参照カテゴリに対して異なるコードを割り当てることで回避している

* しかし、要素が全て-1のベクトルは密なベクトルであり、記憶容量や計算コストがかかる

    * そのため、Pandasやscikit-learnのような機械学習のパッケージは、このエンコーディングを使っていない
    

* カテゴリ数が非常に大きくなると、これらのエンコーディング方法はいずれもうまく機能しなくなる

* そのため、他の種類を用いる必要がある

| 版   | 年/月/日   |
| ---- | ---------- |
| 初版 | 2019/05/04 |