02 数値でエンコードされているカテゴリ
===============================

* この`adult`データセットではカテゴリ変数は、文字列としてエンコードされている

    * この表現だと、スペルミスの可能性が発生する一方で、カテゴリ変数であることは明確である
    
    * しかし、カテゴリ変数が整数としてエンコードされている場合がある
    
    * これはストレージ容量を削減するための場合もあるし、データを収集する方法によって自然にそうなった場合もある
    
* 例)`adult`データセットの人口調査データはアンケートで集計される

    * `workclass`への返答は、0(最初のマスにチェック)、1(2つ目のマスにチェック)、2(3つ目のマスにチェック)、という風になる
    
    * そうすると、列には"Private"のような文字列ではなく、0から8の数字が入ることになる
    
    * こうなると、データセットを表すテーブルを見ただけでは、ある特徴量が連続値変数なのかカテゴリ変数なのかわからなくなってしまう
    
    * しかし、数字は雇用状態を示しているのだから、個々の数値は独立した状態を表していて、1つの連続値変数として扱ってはいけないことは明らか

> カテゴリ特徴量が整数でエンコードされていることは多い
>
> 数値で表されているからといって、連続値として扱ってはいけない
>
> 整数特徴量が連続値を表しているのか離散値やワンホットエンコーディングを表しているのか、明確でない場合も多い
>
> `workclass`の例のように、意味的に順番がない場合には離散値として扱うべきである
>
> 例)星5つによる評価などの場合には、取るべきエンコーディング方法は、個々のタスクや利用する機械学習アルゴリズムに依存する

* pandasの`get_dummies`関数では、全ての数値を連続値として扱い、ダミー変数を作らない

    * これを回避するためには、
    
        * 連続値と離散値を指定することができるscikit-learnの`OneHotEncoder`を用いる
    
        * `DataFrame`の列を数値から文字列に変換してしまえば良い

* ここでは、2つ列を持つ`DataFrame`を考えてみる

* 1列は文字列、もう1列は整数が格納されている

In [1]:
import pandas as pd
# create a DataFrame with an integer feature and a categorical string feature
demo_df = pd.DataFrame({'Integer Feature': [0, 1, 2, 1],
                        'Categorical Feature': ['socks', 'fox', 'socks', 'box']})
display(demo_df)

Unnamed: 0,Integer Feature,Categorical Feature
0,0,socks
1,1,fox
2,2,socks
3,1,box


* `get_dummies`を実行しても、整数特徴量は変化しない

In [2]:
display(pd.get_dummies(demo_df))

Unnamed: 0,Integer Feature,Categorical Feature_box,Categorical Feature_fox,Categorical Feature_socks
0,0,0,0,1
1,1,0,1,0
2,2,0,0,1
3,1,1,0,0


* 「Integer Feature」列に対してもダミー変数を作りたければ、`columns`パラメータで明示的に指定する

    * こうすると、両方ともカテゴリ特徴量として扱われる

In [3]:
demo_df['Integer Feature'] = demo_df['Integer Feature'].astype(str)
display(pd.get_dummies(demo_df, columns=['Integer Feature', 'Categorical Feature']))

Unnamed: 0,Integer Feature_0,Integer Feature_1,Integer Feature_2,Categorical Feature_box,Categorical Feature_fox,Categorical Feature_socks
0,1,0,0,0,0,1
1,0,1,0,0,1,0
2,0,0,1,0,0,1
3,0,1,0,1,0,0


| 版   | 年/月/日   |
| ---- | ---------- |
| 初版 | 2019/03/19|