## 欠測値の除去
---
機械学習ではアルゴリズムへ入力する前にデータセットを精査し、**前処理**をおこなうことでデータ品質を上げることが大切である。

### 進め方
---
* データセットにおける欠測値の除去と補完
* 機械学習のアルゴリズムに合わせたカテゴリーデータの整形

### 欠測値
---
現実世界のデータは、最初から分析に適しているデータセットを得られることはほぼない。様々な理由によりサンプルの値が欠けていたり、適切でなかったりします。このような値のことを欠測値と呼ぶ。

下記、例
* データ収集時の誤り
* 不適切な測定
* アンケートの空欄回答

### 欠測値の除去
---
もっともシンプルな方法は、サンプルとして不適だと思うデータを除去すること

#### 欠測値(NaN) を含む"行"を削除
df.dropna()

#### 欠測値(NaN) を含む"列"を削除
df.dropna(axis=1)

#### 欠測値(NaN)ではない値が4つ未満の"行"を削除
df.dropna(thresh=4) 

#### 特定の列(身長)に欠測値(NaN)を含む"行"を削除
df.dropna(subset=["身長(cm)"])

### 欠測値の補完
---
あまりにも欠測値の多いデータで除去ばかりしてしまうと解析の信頼性を損なう。

そのために、欠測値とともに有益な情報を失わないように対象する必要がある


#### 平均値補完(mean imputation)
---
欠測値を平均値に置き換える
sckit-learnのImputerクラスを利用すると簡単である

### 順序特徴量のマッピング
---
数値以外のデータ
* 順序特徴量
    - Tシャツのサイズ S<M<Lのようなもの
* 名義特徴量
    - 赤・青・緑

#### マッピング用の辞書データを用意
size_mapping = {'XL': 4,  'L': 3, 'M': 2, 'S': 1}

#### size列に対してマッピング用辞書の適用
values = df['size'].map(size_mapping)

In [3]:
import pandas as pd
df = pd.read_csv('data.csv')

# 全データの表示
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,class1
1,L,blue,6000,class2
2,M,green,6000,class1
3,L,yellow,3000,class1
4,S,red,4000,class2
5,L,green,5000,class3
6,M,blue,7000,class1
7,XL,red,10000,class2
8,M,yellow,7000,class1
9,M,red,6000,class3


In [4]:
# classlabel列にあるデータのリストをset()で重複のないユニークな集合データに変更

classlabels = list(set(df["classlabel"]))
classlabels

['class1', 'class3', 'class2']

番号をつけるためのラベルを取得することができた

In [5]:
# クラスラベルの集合からマッピング辞書を生成する

# 辞書型を作って
class_mapping = {}
# sort関数で順序を整えて、enumerate(数え上げる)関数で整数値(numberとして)を取得
for number, label in enumerate(sorted(classlabels)):
    # クラスラベルをキーに、numberを値としてセットする
    class_mapping[label] = number

class_mapping

{'class1': 0, 'class2': 1, 'class3': 2}

In [6]:
classlabels_data = df['classlabel'].map(class_mapping)
df['classlabel'] = classlabels_data
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,0
1,L,blue,6000,1
2,M,green,6000,0
3,L,yellow,3000,0
4,S,red,4000,1
5,L,green,5000,2
6,M,blue,7000,0
7,XL,red,10000,1
8,M,yellow,7000,0
9,M,red,6000,2


In [7]:
# クラスラベルを戻すために、class_mappingのキーと値を逆にした辞書を作る
reverse_class_mapping = {value: key for key, value in class_mapping.items()}
reverse_class_mapping

{0: 'class1', 1: 'class2', 2: 'class3'}

In [8]:
# 再びクラスラベルを文字列に変換する
df['classlabel'] = df['classlabel'].map(reverse_class_mapping)
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,class1
1,L,blue,6000,class2
2,M,green,6000,class1
3,L,yellow,3000,class1
4,S,red,4000,class2
5,L,green,5000,class3
6,M,blue,7000,class1
7,XL,red,10000,class2
8,M,yellow,7000,class1
9,M,red,6000,class3


### LabelEncoderを使って簡単に
---

In [9]:
import pandas as pd
df = pd.read_csv('data.csv')

# 全データの表示
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,class1
1,L,blue,6000,class2
2,M,green,6000,class1
3,L,yellow,3000,class1
4,S,red,4000,class2
5,L,green,5000,class3
6,M,blue,7000,class1
7,XL,red,10000,class2
8,M,yellow,7000,class1
9,M,red,6000,class3


In [10]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()

classlabels_data = encoder.fit_transform(df['classlabel'])
df['classlabel'] = classlabels_data
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,0
1,L,blue,6000,1
2,M,green,6000,0
3,L,yellow,3000,0
4,S,red,4000,1
5,L,green,5000,2
6,M,blue,7000,0
7,XL,red,10000,1
8,M,yellow,7000,0
9,M,red,6000,2


In [11]:
df['classlabel'] = encoder.inverse_transform(classlabels_data)
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,class1
1,L,blue,6000,class2
2,M,green,6000,class1
3,L,yellow,3000,class1
4,S,red,4000,class2
5,L,green,5000,class3
6,M,blue,7000,class1
7,XL,red,10000,class2
8,M,yellow,7000,class1
9,M,red,6000,class3


### one-hotエンコーディング
---
ここでは名義特徴量であるcolorも整数値にエンコーディングすることを考えます。

LabelEncoderを利用してエンコーディングすると下記のようになります。

blue -> 0
green -> 1
red -> 2
数値にエンコーディングできましたが、学習アルゴリズムによっては、本来順序がないデータにも関わらず、「red > green > blue」のような大小の関係が成り立ってしまいます。

このような状態のデータを学習アルゴリズムに入力すると、本来は順序関係がないにも関わらず誤った順序関係を想定してしまうことがあります。

このような問題を避けるためにone-hotエンコーディングという手法を用います。

#### 進め方
---
* LabelEncderオブジェクトを生成します
* fit_transformメソッドを使ってエンコーディングします
* OneHotEncoderオブジェクトを生成します
* fit_transformメソッドを使ってエンコーディングします
* エンコーディングした結果を元にDataFrameを生成します。


In [13]:
import pandas as pd
df = pd.read_csv('data.csv')

# 全データの表示
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,class1
1,L,blue,6000,class2
2,M,green,6000,class1
3,L,yellow,3000,class1
4,S,red,4000,class2
5,L,green,5000,class3
6,M,blue,7000,class1
7,XL,red,10000,class2
8,M,yellow,7000,class1
9,M,red,6000,class3


In [14]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()

# color列を整数値にエンコーディングしている
values = encoder.fit_transform(df['color'])
values

array([2, 0, 1, 3, 2, 1, 0, 2, 3, 2])

エンコーディングした結果は１次元の配列なので、要素が一つだけの2次元の配列に変換する

In [15]:
values.reshape(-1,1)

array([[2],
       [0],
       [1],
       [3],
       [2],
       [1],
       [0],
       [2],
       [3],
       [2]])

In [16]:
from sklearn.preprocessing import OneHotEncoder

# OneHotEncoder　で  それぞれの色が列になり、該当の色に1がセットされる
encoder = OneHotEncoder()
result = encoder.fit_transform(values.reshape(-1, 1))

# one-hotエンコーディングされたデータをDataFrameに変換
colors_df = pd.DataFrame(result.toarray(), columns=sorted(list(set(df['color']))))
colors_df

Unnamed: 0,blue,green,red,yellow
0,0.0,0.0,1.0,0.0
1,1.0,0.0,0.0,0.0
2,0.0,1.0,0.0,0.0
3,0.0,0.0,0.0,1.0
4,0.0,0.0,1.0,0.0
5,0.0,1.0,0.0,0.0
6,1.0,0.0,0.0,0.0
7,0.0,0.0,1.0,0.0
8,0.0,0.0,0.0,1.0
9,0.0,0.0,1.0,0.0


### pandasでもget_dummies関数を利用することで、one-hotエンコーディングができる

In [18]:
import pandas as pd
df = pd.read_csv('data.csv')

# 全データの表示
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,class1
1,L,blue,6000,class2
2,M,green,6000,class1
3,L,yellow,3000,class1
4,S,red,4000,class2
5,L,green,5000,class3
6,M,blue,7000,class1
7,XL,red,10000,class2
8,M,yellow,7000,class1
9,M,red,6000,class3


In [19]:
# one-hotエンコーディングされたDataFrameを取得
colors_df = pd.get_dummies(df['color'])

# 元のDataFrameと、変換されたDataFrameを結合
df = pd.merge(df, colors_df, left_index=True, right_index=True, how='outer')
df

Unnamed: 0,size,color,price,classlabel,blue,green,red,yellow
0,XL,red,1000,class1,0,0,1,0
1,L,blue,6000,class2,1,0,0,0
2,M,green,6000,class1,0,1,0,0
3,L,yellow,3000,class1,0,0,0,1
4,S,red,4000,class2,0,0,1,0
5,L,green,5000,class3,0,1,0,0
6,M,blue,7000,class1,1,0,0,0
7,XL,red,10000,class2,0,0,1,0
8,M,yellow,7000,class1,0,0,0,1
9,M,red,6000,class3,0,0,1,0
