**P214 scikit-learn による 欠損値処理の体験**

In [1]:
import numpy as np
import pandas as pd
# サンプルのデータセットを作成
df = pd.DataFrame(
    {
        'A': [1, np.nan, 3, 4, 5],
        'B': [6, 7, 8, np.nan, 10],
        'C': [11, 12, 13, 14, 15]
    }
)
df

Unnamed: 0,A,B,C
0,1.0,6.0,11
1,,7.0,12
2,3.0,8.0,13
3,4.0,,14
4,5.0,10.0,15


In [2]:
# scikit-learn の import
import sklearn

In [3]:
# colab環境上の scikit-learn のバージョンを確認
sklearn.__version__

'1.0.2'

In [4]:
# sklearn.impute の中の SimpleImputer を import する
from sklearn.impute import SimpleImputer

# 平均値で欠損値を補完するインスタンス(SimpleImputer)を作成する
imp = SimpleImputer(strategy = "mean")

# 欠損値を補完(fit = 内部でデータを保持)
imp.fit(df)

# transform = データを実際に書き換える／結果を返す
result = imp.transform(df)

In [5]:
# 結果はNumpyのarray型となる
result

array([[ 1.  ,  6.  , 11.  ],
       [ 3.25,  7.  , 12.  ],
       [ 3.  ,  8.  , 13.  ],
       [ 4.  ,  7.75, 14.  ],
       [ 5.  , 10.  , 15.  ]])

**P215 カテゴリ変数のエンコーディング**

※**ラベルエンコーディング**とも言う



In [6]:
# テキストのデータを作成する
import pandas as pd
df = pd.DataFrame(
    {
        'A': [1, 2, 3, 4, 5],
        'B': ['a', 'b', 'a', 'b', 'c']
    }
)
df

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,a
3,4,b
4,5,c


In [8]:
# sklearn.preprocessing の中の LabelEncoder を import する
from sklearn.preprocessing import  LabelEncoder

# ラベルエンコーダのインスタンスを生成
le = LabelEncoder()

# ラベルのエンコーディング(fit = 内部でデータを保持)
le.fit(df["B"])

# transform = データを実際に書き換える／結果を返す
newcolB = le.transform(df["B"])

In [9]:
# ラベルエンコーディング化された結果の値
newcolB
# le.transform(df['B']) とした場合、df['B'] が書き換わるわけではないので注意！

array([0, 1, 0, 1, 2])

**P217 One-Hotエンコーディング**

とても複雑…。

そして結果も Numpy の array で出力される。pandasのDataFrame型に変換して、元のdfに戻さないといけない。

In [10]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

# DataFrameをコピー
df_ohe = df.copy()
# ラベルエンコーダのインスタンス化
le = LabelEncoder()
# 英語のa、b、cを1、2、3に変換
df_ohe['B'] = le.fit_transform(df_ohe['B'])
# One-hotエンコーダのインスタンス化
ohe = ColumnTransformer(
        [
            ('OneHotEncoder', OneHotEncoder(), [1])
        ],
        remainder = 'passthrough'
    )
# One-hotエンコーディング
ohe.fit_transform(df_ohe)

array([[1., 0., 0., 1.],
       [0., 1., 0., 2.],
       [1., 0., 0., 3.],
       [0., 1., 0., 4.],
       [0., 0., 1., 5.]])

**P220 分散正規化**

**正規化**とは、データのスケール（尺度）を扱いやすく整えること。

分散正規化は、特徴量（列の値）の平均が「　①　」、標準偏差が「　②　」となるように特徴量（列の値）を変換する処理のこと。


In [11]:
# 分散正規化の例
# なぜ正規化が必要なのかを考える

import pandas as pd
# DataFrameを作成する
df = pd.DataFrame(
    {
        '年齢': [10,19, 25, 32, 46, 54],
        '月収': [0,190000, 260000, 315000, 490000, 670000]
    }
)
df

Unnamed: 0,年齢,月収
0,10,0
1,19,190000
2,25,260000
3,32,315000
4,46,490000
5,54,670000


In [20]:
# 上のデータを分散正規化するために、以下をしらべてみよう
# 年齢列の平均値をprintで出力
print("年齢の平均", df.loc[:, "年齢"].mean())
# 月収列の平均値をprintで出力
print("月収の平均", df.loc[:, "月収"].mean())

年齢の平均 31.0
月収の平均 320833.3333333333


In [22]:
# テキストどおりにやってみる。
from sklearn.preprocessing import StandardScaler
# 分散正規化のインスタンスを生成
stdsc = StandardScaler()

# 分散正規化を実行
stdsc.fit(df)
stdsc.transform(df)

# 平均に近い値→ゼロに近い値
# 結果を見れば、同じ尺度でデータのばらつきを観察できる。

array([[-1.38671018, -1.50046446],
       [-0.79240582, -0.61187771],
       [-0.39620291, -0.28450365],
       [ 0.06603382, -0.02728117],
       [ 0.99050727,  0.79115399],
       [ 1.51877781,  1.63297301]])

In [24]:
# 最小最大正規化を上の年齢、月収の例で実行してみよう

from sklearn.preprocessing import MinMaxScaler
# 最小最大正規化のインスタンスを生成
# 以降実装
mmsc = MinMaxScaler()

mmsc.
；；」fit(df)
mmsc.transform(df)

array([[0.        , 0.        ],
       [0.20454545, 0.28358209],
       [0.34090909, 0.3880597 ],
       [0.5       , 0.47014925],
       [0.81818182, 0.73134328],
       [1.        , 1.        ]])