## 前処理

- 欠損値への対応

In [1]:
import numpy as np
import pandas as pd
# サンプルのデータセットを作成
df = pd.DataFrame(
    {
        'A': [1, np.nan, 3, 4, 5],
        'B': [6, 7, 8, np.nan, 10],
        'C': [11, 12, 13, 14, 15]
    }
)
df

Unnamed: 0,A,B,C
0,1.0,6.0,11
1,,7.0,12
2,3.0,8.0,13
3,4.0,,14
4,5.0,10.0,15


In [2]:
# 各要素が欠損値かどうかを確かめる
df.isnull()

Unnamed: 0,A,B,C
0,False,False,False
1,True,False,False
2,False,False,False
3,False,True,False
4,False,False,False


In [3]:
from sklearn.impute import SimpleImputer
# 平均値で欠損値を補完するインスタンスを作成する
imp = SimpleImputer(strategy='mean')
# 欠損値を補完
imp.fit(df)
imp.transform(df)

array([[ 1.  ,  6.  , 11.  ],
       [ 3.25,  7.  , 12.  ],
       [ 3.  ,  8.  , 13.  ],
       [ 4.  ,  7.75, 14.  ],
       [ 5.  , 10.  , 15.  ]])

- カテゴリ変数のエンコーディング

In [4]:
import pandas as pd
df = pd.DataFrame(
    {
        'A':[1, 2, 3, 4, 5],
        'B':['a', 'b', 'a', 'b', 'c']
    }
)
df

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,a
3,4,b
4,5,c


In [5]:
from sklearn.preprocessing import LabelEncoder
# ラベルエンコーダのインスタンスを生成
le = LabelEncoder()
# ラベルのエンコーディング
le.fit(df['B'])
le.transform(df['B'])

array([0, 1, 0, 1, 2])

In [6]:
# 元の値を確認
le.classes_

array(['a', 'b', 'c'], dtype=object)

In [14]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
# DataFrameをコピー
df_ohe = df.copy()
# ラベルエンコーダのインスタンス化
le = LabelEncoder()
# 英語のa, b, cを1, 2, 3に変換
df_ohe['B'] = le.fit_transform(df_ohe['B'])
# One-hotエンコーダのインスタンス化
ohe = OneHotEncoder(categories=[1])
# One-hotエンコーディング
ohe.fit_transform(df_ohe).toarray()

ValueError: Shape mismatch: if categories is an array, it has to be of shape (n_features,).