# 4.4 scikit-learn

## 4.4.1 前処理

### 欠損値への対応

In [1]:
import numpy as np
import pandas as pd

# サンプルデータセットを作成
df = pd.DataFrame(
    {
        'A': [1, np.nan, 3, 4, 5],
        'B': [6, 7, 8, np.nan, 10],
        'C': [11, 12, 13, 14, 15]
    }
)
df

Unnamed: 0,A,B,C
0,1.0,6.0,11
1,,7.0,12
2,3.0,8.0,13
3,4.0,,14
4,5.0,10.0,15


In [2]:
# 各要素が欠損値かどうかを確める
df.isnull()

Unnamed: 0,A,B,C
0,False,False,False
1,True,False,False
2,False,False,False
3,False,True,False
4,False,False,False


In [3]:
from sklearn.preprocessing import Imputer
# 平均値で欠損値を補完するインスタンスを作成する
imp = Imputer(strategy='mean', axis=0)
# 欠損値を補完
imp.fit(df)
imp.transform(df)



array([[ 1.  ,  6.  , 11.  ],
       [ 3.25,  7.  , 12.  ],
       [ 3.  ,  8.  , 13.  ],
       [ 4.  ,  7.75, 14.  ],
       [ 5.  , 10.  , 15.  ]])

> 欠損値の補完は
1. pandas.DataFrame.fillna
2. scikit-learn.preprocessing.Imputer

引数|説明　(Imputer引数)
:--|:--
strategy|欠損値を補完する方法を文字列で指定する、'mean'[平均値],'median'[中央値],'most_frequent'[最頻値]
axis|補完する値を計算する時の使用する軸を指定する、axis=0は列に対して、axis=1は行に対して計算を行う

### カテゴリ変数のエンコーディング

In [4]:
import pandas as pd
df = pd.DataFrame(
    {
        'A': [1, 2, 3, 4, 5],
        'B': ['a', 'b', 'a', 'b', 'c']
    }
)
df

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,a
3,4,b
4,5,c


In [5]:
# カテゴリ変数のエンコーディング
from sklearn.preprocessing import LabelEncoder
#　ラベルエンコーダのインスタンスを生成
le = LabelEncoder()
# ラベルのエンコーディング
le.fit(df['B'])
le.transform(df['B'])

array([0, 1, 0, 1, 2])

In [6]:
# 元の値を確認
le.classes_

array(['a', 'b', 'c'], dtype=object)

In [7]:
# One-hotエンコーディング
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
# DataFrameをコピー
df_ohe = df.copy()
#　ラベルエンコーダのインスタンス化
le = LabelEncoder()
# 英語のa, b, cを１，２，３に変換
df_ohe['B'] = le.fit_transform(df_ohe['B'])
# One-hotエンコーダのインスタンス化
ohe = OneHotEncoder(categorical_features=[1])
# One-hoエンコーディング
ohe.fit_transform(df_ohe).toarray()

In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


array([[1., 0., 0., 1.],
       [0., 1., 0., 2.],
       [1., 0., 0., 3.],
       [0., 1., 0., 4.],
       [0., 0., 1., 5.]])

### 特徴量の正規化