# 前処理

## 欠損値処理
scikit-learnライブラリのImputerクラスを使うと便利

In [1]:
from sklearn.preprocessing import Imputer

df = pd.read_csv('./input/data1.csv')

#  欠損値(NaN) に対して 平均値(mean) を割り当てるImputerオブジェクトを生成
imp = Imputer(missing_values="NaN", strategy="mean")

#  欠損値(NaN) に対して 中央値(median) を割り当てるImputerオブジェクトを生成
#  imp = Imputer(missing_values="NaN", strategy="median")

#  欠損値(NaN) に対して 最頻値(most_frequent) を割り当てるImputerオブジェクトを生成
# imp = Imputer(missing_values="NaN", strategy="most_frequent")


# データセットの学習
imp.fit(df[["身長(cm)"]])

# strategy="mean"に基づいて欠損値(NaN)を平均値に置き換える
values = imp.transform(df[["身長(cm)"]])

# DataFrameに変換したデータを代入する
df[["身長(cm)"]] = values
df

Unnamed: 0,名前,年齢,性別,身長(cm),体重(kg),視力
0,治夫,43,男,176.0,68.0,1.0
1,寛樹,27,男,170.0,58.0,0.7
2,亀子,20,女,165.0,,
3,鞠子,27,女,148.0,40.0,0.6
4,光彦,36,男,164.0,60.0,0.1
5,知之,28,男,170.0,,1.0
6,貴教,45,男,165.0,60.0,0.7
7,貴之,42,男,178.0,63.0,
8,夏子,32,女,163.0,50.0,0.2
9,鏡花,29,女,151.0,48.0,


## クラスラベルのエンコーディング
LabelEncoderを利用すると便利

In [2]:
df = pd.read_csv('./input/data2.csv')

# 全データの表示
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,class1
1,L,blue,6000,class2
2,M,green,6000,class1
3,L,yellow,3000,class1
4,S,red,4000,class2
5,L,green,5000,class3
6,M,blue,7000,class1
7,XL,red,10000,class2
8,M,yellow,7000,class1
9,M,red,6000,class3


In [3]:
"""
1. LabelEncoderオブジェクトを生成
2. fit_transformメソッドを使ってクラスラベルをエンコーディング
"""

from sklearn.preprocessing import LabelEncoder

# LabelEncoderオブジェクト生成
encoder = LabelEncoder()

# fit_transformメソッドで、クラスラベルを整数値にエンコーディング
classlabels_data = encoder.fit_transform(df['classlabel'])
df['classlabel'] = classlabels_data
df

Unnamed: 0,size,color,price,classlabel
0,XL,red,1000,0
1,L,blue,6000,1
2,M,green,6000,0
3,L,yellow,3000,0
4,S,red,4000,1
5,L,green,5000,2
6,M,blue,7000,0
7,XL,red,10000,1
8,M,yellow,7000,0
9,M,red,6000,2


## one-hotエンコーディング
- 名義特徴量を整数値にエンコードする場合、LabelEncoderを利用すると勝手に順序がついてしまい、正しい学習ができない
- 名義特徴量の場合はone-hotエンコーディングを利用する

In [5]:
from sklearn.preprocessing import LabelEncoder

# LabelEncoderオブジェクトを生成
encoder = LabelEncoder()

# fit_transformメソッドで、color列を整数値にエンコーディング
values = encoder.fit_transform(df['color'])
values


from sklearn.preprocessing import OneHotEncoder

# OneHotEncoder　で  それぞれの色が列になり、該当の色に1がセットされる
encoder = OneHotEncoder()
result = encoder.fit_transform(values.reshape(-1,1))

# one-hotエンコーディングされたデータをDataFrameに変換
colors_df = pd.DataFrame(result.toarray(),
                        columns=sorted(list(set(df['color']))))

colors_df

Unnamed: 0,blue,green,red,yellow
0,0.0,0.0,1.0,0.0
1,1.0,0.0,0.0,0.0
2,0.0,1.0,0.0,0.0
3,0.0,0.0,0.0,1.0
4,0.0,0.0,1.0,0.0
5,0.0,1.0,0.0,0.0
6,1.0,0.0,0.0,0.0
7,0.0,0.0,1.0,0.0
8,0.0,0.0,0.0,1.0
9,0.0,0.0,1.0,0.0


## one-hotエンコーディング -- get_dummies関数を利用する--

In [6]:
# one-hotエンコーディングされたDataFrameを取得
colors_df = pd.get_dummies(df['color'])

# 元のDataFrameと、変換されたDataFrameを結合
df = pd.merge(df, colors_df, left_index=True, right_index=True, how='outer')
df

Unnamed: 0,size,color,price,classlabel,blue,green,red,yellow
0,XL,red,1000,0,0,0,1,0
1,L,blue,6000,1,1,0,0,0
2,M,green,6000,0,0,1,0,0
3,L,yellow,3000,0,0,0,0,1
4,S,red,4000,1,0,0,1,0
5,L,green,5000,2,0,1,0,0
6,M,blue,7000,0,1,0,0,0
7,XL,red,10000,1,0,0,1,0
8,M,yellow,7000,0,0,0,0,1
9,M,red,6000,2,0,0,1,0
