## 欠損値に対処しよう

### 欠損値の除去

- dropna()

In [1]:
import pandas as pd
df = pd.read_csv('./dataset/missing_val.csv')

# 全データの表示
df

Unnamed: 0,名前,年齢,性別,身長(cm),体重(kg),視力
0,治夫,43,男,176.0,68.0,1.0
1,寛樹,27,男,170.0,58.0,0.7
2,亀子,20,女,,,
3,鞠子,27,女,148.0,40.0,0.6
4,光彦,36,男,164.0,60.0,0.1
5,知之,28,男,170.0,,1.0
6,貴教,45,男,,60.0,0.7
7,貴之,42,男,178.0,63.0,
8,夏子,32,女,163.0,50.0,0.2
9,鏡花,29,女,151.0,48.0,


In [3]:
# 欠損値（Nan）を含む行を削除
df1 = df.dropna()
df1

Unnamed: 0,名前,年齢,性別,身長(cm),体重(kg),視力
0,治夫,43,男,176.0,68.0,1.0
1,寛樹,27,男,170.0,58.0,0.7
3,鞠子,27,女,148.0,40.0,0.6
4,光彦,36,男,164.0,60.0,0.1
8,夏子,32,女,163.0,50.0,0.2


In [4]:
# 欠損値（Nan）を含む列を削除
df2 = df.dropna(axis=1)
df2

Unnamed: 0,名前,年齢,性別
0,治夫,43,男
1,寛樹,27,男
2,亀子,20,女
3,鞠子,27,女
4,光彦,36,男
5,知之,28,男
6,貴教,45,男
7,貴之,42,男
8,夏子,32,女
9,鏡花,29,女


In [5]:
# 欠損値ではない値が4つ未満の行を削除
df3 = df.dropna(thresh=4)
df3

Unnamed: 0,名前,年齢,性別,身長(cm),体重(kg),視力
0,治夫,43,男,176.0,68.0,1.0
1,寛樹,27,男,170.0,58.0,0.7
3,鞠子,27,女,148.0,40.0,0.6
4,光彦,36,男,164.0,60.0,0.1
5,知之,28,男,170.0,,1.0
6,貴教,45,男,,60.0,0.7
7,貴之,42,男,178.0,63.0,
8,夏子,32,女,163.0,50.0,0.2
9,鏡花,29,女,151.0,48.0,


In [6]:
#特定の列（身長）に欠損値を含む行を削除
df4 = df.dropna(subset=['身長(cm)'])
df4

Unnamed: 0,名前,年齢,性別,身長(cm),体重(kg),視力
0,治夫,43,男,176.0,68.0,1.0
1,寛樹,27,男,170.0,58.0,0.7
3,鞠子,27,女,148.0,40.0,0.6
4,光彦,36,男,164.0,60.0,0.1
5,知之,28,男,170.0,,1.0
7,貴之,42,男,178.0,63.0,
8,夏子,32,女,163.0,50.0,0.2
9,鏡花,29,女,151.0,48.0,


### 欠損値の補完

- 平均値補完（mean imputation）

In [8]:
import pandas as pd
df = pd.read_csv('./dataset/missing_val.csv')

# 全データの表示
df

Unnamed: 0,名前,年齢,性別,身長(cm),体重(kg),視力
0,治夫,43,男,176.0,68.0,1.0
1,寛樹,27,男,170.0,58.0,0.7
2,亀子,20,女,,,
3,鞠子,27,女,148.0,40.0,0.6
4,光彦,36,男,164.0,60.0,0.1
5,知之,28,男,170.0,,1.0
6,貴教,45,男,,60.0,0.7
7,貴之,42,男,178.0,63.0,
8,夏子,32,女,163.0,50.0,0.2
9,鏡花,29,女,151.0,48.0,


In [9]:
from sklearn.preprocessing import Imputer

# 欠損値に対して、平均値を割り当てるImputerオブジェクト
imp = Imputer(missing_values="NaN", strategy="mean")

# データセットの学習
imp.fit(df[["身長(cm)"]])

# strategy = "mean"に基づいて欠損値を平均値に置き換える
values = imp.transform(df[["身長(cm)"]])

# DataFrameに変換したデータを代入する
df[["身長(cm)"]] = values
df

Unnamed: 0,名前,年齢,性別,身長(cm),体重(kg),視力
0,治夫,43,男,176.0,68.0,1.0
1,寛樹,27,男,170.0,58.0,0.7
2,亀子,20,女,165.0,,
3,鞠子,27,女,148.0,40.0,0.6
4,光彦,36,男,164.0,60.0,0.1
5,知之,28,男,170.0,,1.0
6,貴教,45,男,165.0,60.0,0.7
7,貴之,42,男,178.0,63.0,
8,夏子,32,女,163.0,50.0,0.2
9,鏡花,29,女,151.0,48.0,


In [10]:
#  欠損値に対して 中央値(median) を割り当てるImputerオブジェクトを生成
imp = Imputer(missing_values="NaN", strategy="median")

# データセットの学習 + strategy="median"に基づいて欠損値を中央値に置き換える
values = imp.fit_transform(df[["体重(kg)"]])

# DataFrameに変換したデータを代入する
df[["体重(kg)"]] = values
df

Unnamed: 0,名前,年齢,性別,身長(cm),体重(kg),視力
0,治夫,43,男,176.0,68.0,1.0
1,寛樹,27,男,170.0,58.0,0.7
2,亀子,20,女,165.0,59.0,
3,鞠子,27,女,148.0,40.0,0.6
4,光彦,36,男,164.0,60.0,0.1
5,知之,28,男,170.0,59.0,1.0
6,貴教,45,男,165.0,60.0,0.7
7,貴之,42,男,178.0,63.0,
8,夏子,32,女,163.0,50.0,0.2
9,鏡花,29,女,151.0,48.0,


In [11]:
#  欠損値(NaN) に対して 最頻値(most_frequent) を割り当てるImputerオブジェクトを生成
imp = Imputer(missing_values="NaN", strategy="most_frequent")

# データセットの学習 + strategy="most_frequent"に基づいて欠損値(NaN)を最頻値に置き換える
values = imp.fit_transform(df[["視力"]])

# DataFrameに変換したデータを代入する
df[["視力"]] = values
df

Unnamed: 0,名前,年齢,性別,身長(cm),体重(kg),視力
0,治夫,43,男,176.0,68.0,1.0
1,寛樹,27,男,170.0,58.0,0.7
2,亀子,20,女,165.0,59.0,0.7
3,鞠子,27,女,148.0,40.0,0.6
4,光彦,36,男,164.0,60.0,0.1
5,知之,28,男,170.0,59.0,1.0
6,貴教,45,男,165.0,60.0,0.7
7,貴之,42,男,178.0,63.0,0.7
8,夏子,32,女,163.0,50.0,0.2
9,鏡花,29,女,151.0,48.0,0.7


### 順序特徴量のマッピング

- カテゴリーデータは主に２種類に分類される
    - 順序特徴量
    - 名義特徴量
    
順序特徴量はTシャツのサイズの「XL > L > M > S」のように数値ではないが順序付けできるうようなデータのことを指す

In [12]:
import pandas as pd
df = pd.read_csv('./dataset/ordered_val.csv')

# 全データの表示
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,class1
1,L,blue,6000,class2
2,M,green,6000,class1
3,L,yellow,3000,class1
4,S,red,4000,class2
5,L,green,5000,class3
6,M,blue,7000,class1
7,XL,red,10000,class2
8,M,yellow,7000,class1
9,M,red,6000,class3


In [13]:
# マッピング用の辞書データを用意
size_mapping = {'XL': 4,  'L': 3, 'M': 2, 'S': 1}
                
# size列に対してマッピング用辞書の適用
values = df['size'].map(size_mapping)
                
# size列に対して変換ごのデータを代入
df['size'] = values
df

Unnamed: 0,size,color,price,classlabel
0,4,red,1000,class1
1,3,blue,6000,class2
2,2,green,6000,class1
3,3,yellow,3000,class1
4,1,red,4000,class2
5,3,green,5000,class3
6,2,blue,7000,class1
7,4,red,10000,class2
8,2,yellow,7000,class1
9,2,red,6000,class3


### df['column'].map(dictionary)について

- 対象の列に対して、マッピング用の辞書を指定することで、データの変換処理をしてくれる
- 以下のコードとほぼ同じ処理をしている

```
values = []
for size in df['size']:
    if size in size_mapping:
        values.append(size_mapping[size])
```

## クラスラベルのエンコーディング

- 機械学習ライブラリーの多くは、クラスラベルを整数値としてエンコードされてることを期待している
- エンコードして、クラスラベルの文字列が区別できるように何らかの数値としてユニークなものに変換されていれば良い
- 順序特徴量とは違い大小の比較をする必要はないので、クラスラベルの列の中に登場した文字列を順番に採番する

In [14]:
import pandas as pd
df = pd.read_csv('./dataset/ordered_val.csv')

# 全データの表示
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,class1
1,L,blue,6000,class2
2,M,green,6000,class1
3,L,yellow,3000,class1
4,S,red,4000,class2
5,L,green,5000,class3
6,M,blue,7000,class1
7,XL,red,10000,class2
8,M,yellow,7000,class1
9,M,red,6000,class3


In [15]:
# クラスラベルのユニークな集合を抽出
classlabels = list(set(df["classlabel"]))
classlabels

['class1', 'class2', 'class3']

In [16]:
# クラスラベルの集合からマッピング辞書を生成する
class_mapping = {}
for number, label in enumerate(sorted(classlabels)):
    # クラスラベルをキーに、numberを値としてセットする
    class_mapping[label] = number
    
class_mapping

{'class1': 0, 'class2': 1, 'class3': 2}

In [17]:
#　マッピングする
classlabels_data = df['classlabel'].map(class_mapping)
df['classlabel'] = classlabels_data
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,0
1,L,blue,6000,1
2,M,green,6000,0
3,L,yellow,3000,0
4,S,red,4000,1
5,L,green,5000,2
6,M,blue,7000,0
7,XL,red,10000,1
8,M,yellow,7000,0
9,M,red,6000,2


In [18]:
#クラスラベルを戻すために、class_mappingのキーと値を逆にした辞書を作る
reverse_class_mapping = {value: key for key, value in class_mapping.items()}
reverse_class_mapping

{0: 'class1', 1: 'class2', 2: 'class3'}

In [19]:
# 再びクラスラベルを文字列に変換する
df['classlabel'] = df['classlabel'].map(reverse_class_mapping)
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,class1
1,L,blue,6000,class2
2,M,green,6000,class1
3,L,yellow,3000,class1
4,S,red,4000,class2
5,L,green,5000,class3
6,M,blue,7000,class1
7,XL,red,10000,class2
8,M,yellow,7000,class1
9,M,red,6000,class3


## クラスラベルのエンコーディング（２）

In [21]:
import pandas as pd
df = pd.read_csv('./dataset/ordered_val.csv')

# 全データの表示
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,class1
1,L,blue,6000,class2
2,M,green,6000,class1
3,L,yellow,3000,class1
4,S,red,4000,class2
5,L,green,5000,class3
6,M,blue,7000,class1
7,XL,red,10000,class2
8,M,yellow,7000,class1
9,M,red,6000,class3


In [22]:
from sklearn.preprocessing import LabelEncoder

# LabelEncoderオブジェクトを生成
encoder = LabelEncoder()

# fit_transformメソッドで、クラスラベルを整数値にエンコーディング
classlabels_data = encoder.fit_transform(df['classlabel'])
df['classlabel'] = classlabels_data
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,0
1,L,blue,6000,1
2,M,green,6000,0
3,L,yellow,3000,0
4,S,red,4000,1
5,L,green,5000,2
6,M,blue,7000,0
7,XL,red,10000,1
8,M,yellow,7000,0
9,M,red,6000,2


In [23]:
df['classlabel'] = encoder.classes_[classlabels_data]
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,class1
1,L,blue,6000,class2
2,M,green,6000,class1
3,L,yellow,3000,class1
4,S,red,4000,class2
5,L,green,5000,class3
6,M,blue,7000,class1
7,XL,red,10000,class2
8,M,yellow,7000,class1
9,M,red,6000,class3


## one-hotエンコーディング

- 数値にエンコーディングできたが、学習アルゴリズムによっては、本来順序がないデータにも関わらず、「red > green > blue」のような大小の関係が成り立ってしまう
- これを避けるために使うのが、one-hotエンコーディング

In [29]:
import pandas as pd
df = pd.read_csv('./dataset/ordered_val.csv')

# 全データの表示
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,class1
1,L,blue,6000,class2
2,M,green,6000,class1
3,L,yellow,3000,class1
4,S,red,4000,class2
5,L,green,5000,class3
6,M,blue,7000,class1
7,XL,red,10000,class2
8,M,yellow,7000,class1
9,M,red,6000,class3


In [30]:
from sklearn.preprocessing import LabelEncoder

# LabelEncoderオブジェクトを生成
encoder = LabelEncoder()

# fit_transformメソッドで、color列を整数値にエンコーディング
values = encoder.fit_transform(df['color'])
values

array([2, 0, 1, 3, 2, 1, 0, 2, 3, 2])

In [31]:
# 1次元配列を2次元配列に変換
values.reshape(-1, 1)

array([[2],
       [0],
       [1],
       [3],
       [2],
       [1],
       [0],
       [2],
       [3],
       [2]])

In [32]:
values

array([2, 0, 1, 3, 2, 1, 0, 2, 3, 2])

In [33]:
from sklearn.preprocessing import OneHotEncoder

# OneHotEncoderで、それぞれの色が列になり、該当の色に1がセットされる
encoder = OneHotEncoder()
result = encoder.fit_transform(values.reshape(-1, 1))

#one-hotエンコーディングされたデータをDataFrameに変換
colors_df = pd.DataFrame(result.toarray(), columns=sorted(list(set(df['color']))))
colors_df

Unnamed: 0,blue,green,red,yellow
0,0.0,0.0,1.0,0.0
1,1.0,0.0,0.0,0.0
2,0.0,1.0,0.0,0.0
3,0.0,0.0,0.0,1.0
4,0.0,0.0,1.0,0.0
5,0.0,1.0,0.0,0.0
6,1.0,0.0,0.0,0.0
7,0.0,0.0,1.0,0.0
8,0.0,0.0,0.0,1.0
9,0.0,0.0,1.0,0.0


## Pandasでone-hotエンコーディング

- pd.get_dummies()

In [35]:
import pandas as pd
df = pd.read_csv('./dataset/ordered_val.csv')

# 全データの表示
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,class1
1,L,blue,6000,class2
2,M,green,6000,class1
3,L,yellow,3000,class1
4,S,red,4000,class2
5,L,green,5000,class3
6,M,blue,7000,class1
7,XL,red,10000,class2
8,M,yellow,7000,class1
9,M,red,6000,class3


In [34]:
# one-hotエンコーディングされたDataFrameを取得
colors_df = pd.get_dummies(df['color'])

# 元のDataFrameと、変換されたDataFrameを結合
df = pd.merge(df, colors_df, left_index=True, right_index=True, how='outer')
df

Unnamed: 0,size,color,price,classlabel,blue,green,red,yellow
0,XL,red,1000,class1,0,0,1,0
1,L,blue,6000,class2,1,0,0,0
2,M,green,6000,class1,0,1,0,0
3,L,yellow,3000,class1,0,0,0,1
4,S,red,4000,class2,0,0,1,0
5,L,green,5000,class3,0,1,0,0
6,M,blue,7000,class1,1,0,0,0
7,XL,red,10000,class2,0,0,1,0
8,M,yellow,7000,class1,0,0,0,1
9,M,red,6000,class3,0,0,1,0
