In [1]:
import numpy as np
import pandas as pd

# 前処理

    機械学習のアルゴリズムを適用する前にデータの特性を理解して前処理を行う
    データ解析の8割から9割をしめる重要な工程
    内容としては以下の3つ
    ・欠損値への対応
    ・カテゴリ変数のエンコーディング
    ・特徴量の正規化

欠損値

    対応方法
    ・欠損値を補完する
    ・欠損値を除去する

In [4]:
#サンプルのデータセット
df = pd.DataFrame({
    'A':[1,np.nan,3,4,5],
    'B':[6,7,8,np.nan,10],
    'C':[11,12,13,14,15]
})
df

Unnamed: 0,A,B,C
0,1.0,6.0,11
1,,7.0,12
2,3.0,8.0,13
3,4.0,,14
4,5.0,10.0,15


In [9]:
#isnull() 欠損値かどうかを確認する
df.isnull()

#欠損値を除去する場合はdropna()を使用する
#dropna() →行を削除
#dropna(axis = 1) →列を削除

Unnamed: 0,A,B,C
0,False,False,False
1,True,False,False
2,False,False,False
3,False,True,False
4,False,False,False


In [14]:
#欠損値の補完
#方法1
#fillna()を使用

#方法2
#preprocessingのImputerを使用

from sklearn.preprocessing import Imputer
#平均値で欠損値を補完するインスタンスを作成する
imp = Imputer(strategy = "mean",axis = 0)
#欠損値を補完
imp.fit(df)
imp.transform(df) #返却値はnumpy



array([[ 1.  ,  6.  , 11.  ],
       [ 3.25,  7.  , 12.  ],
       [ 3.  ,  8.  , 13.  ],
       [ 4.  ,  7.75, 14.  ],
       [ 5.  , 10.  , 15.  ]])

カテゴリ変数のエンコード

In [15]:
df = pd.DataFrame({
    'A':[1,2,3,4,5],
    'B':['a','b','a','b','c']
})
df

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,a
3,4,b
4,5,c


In [16]:
#方法1
#カテゴリ変数のエンコーディング

#方法2
#One-Hotエンコーディング


In [18]:
from sklearn.preprocessing import LabelEncoder
#ラベルエンコーダのインスタンス生成
le = LabelEncoder()
#ラベルのエンコーディング
le.fit(df["B"])
le.transform(df["B"])


array([0, 1, 0, 1, 2])

In [19]:
#元の値
le.classes_

array(['a', 'b', 'c'], dtype=object)

In [20]:
#One-Hotエンコーディングの方法は2つ
#方法1
#scikit-learnを使用する場合はpreprocessingのOneHotEncoderクラスを使用

#方法2
#pandasを使用する場合はget_dummies関数を使用する


In [22]:
#OneHotEncoderを使用する場合
from sklearn.preprocessing import LabelEncoder,OneHotEncoder

#DataFrameコピー
df_ohe = df.copy()

#ラベルエンコーダのインスタンス化
le = LabelEncoder()

#英語のa,b,cを1,2,3に変換
df_ohe['B'] = le.fit_transform(df_ohe['B'])

#One-hotエンコーダのインスタンス化
ohe = OneHotEncoder(categorical_features=[1])
#One-Hotエンコーディング
ohe.fit_transform(df_ohe).toarray()

In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


array([[1., 0., 0., 1.],
       [0., 1., 0., 2.],
       [1., 0., 0., 3.],
       [0., 1., 0., 4.],
       [0., 0., 1., 5.]])

特徴量の正規化

    特徴量の大きさを揃える処理
    ・分散正規化
    　特徴量の平均が0、標準偏差が1になるように変換する処理(標準化)
    ・最小最大正規化
    　特徴量の最小値が0、最大値が1になるように正規化する処理

In [24]:
df = pd.DataFrame({
    'A':[1,2,3,4,5],
    'B':[100,200,300,400,500]
})

df

Unnamed: 0,A,B
0,1,100
1,2,200
2,3,300
3,4,400
4,5,500


In [25]:
#分散正規化
from sklearn.preprocessing import StandardScaler
#分散正規化のインスタンス生成
stdsc = StandardScaler()

#分散正規化を実行
stdsc.fit(df)
stdsc.transform(df)

  return self.partial_fit(X, y)
  


array([[-1.41421356, -1.41421356],
       [-0.70710678, -0.70710678],
       [ 0.        ,  0.        ],
       [ 0.70710678,  0.70710678],
       [ 1.41421356,  1.41421356]])

In [26]:
from sklearn.preprocessing import MinMaxScaler
#最小最大正規化のインスタンス生成
mmsc = MinMaxScaler()
#最小最大正規化を実行
mmsc.fit(df)
mmsc.transform(df)

  return self.partial_fit(X, y)


array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [0.75, 0.75],
       [1.  , 1.  ]])