# データの前処理

### 欠損値処理

In [None]:
import numpy as np
import pandas as pd
# サンプルのデータセットを作成

df = pd.DataFrame(
    {
        'A':[1, np.nan, 3, 4, 5],
        'B':[2, 4, 6, np.nan, 10],
        'C':[10, 20, 30, 40, 50]
    }
)
df

Unnamed: 0,A,B,C
0,1.0,2.0,10
1,,4.0,20
2,3.0,6.0,30
3,4.0,,40
4,5.0,10.0,50


In [None]:
# DataFrameの各要素が欠損値か確かめる

df.isnull()

Unnamed: 0,A,B,C
0,False,False,False
1,True,False,False
2,False,False,False
3,False,True,False
4,False,False,False


In [None]:
# 欠損値削除（DataFrameのdropnaメソッド）

df_drop = df.dropna()
df_drop

Unnamed: 0,A,B,C
0,1.0,2.0,10
2,3.0,6.0,30
4,5.0,10.0,50


In [None]:
# 欠損値補完1(Dataframeのfillnaメソッド)

df_fillna = df.fillna(df.mean())
df_fillna

Unnamed: 0,A,B,C
0,1.0,2.0,10
1,3.25,4.0,20
2,3.0,6.0,30
3,4.0,5.5,40
4,5.0,10.0,50


In [None]:
df_fill5 = df.fillna(5)
df_fill5

Unnamed: 0,A,B,C
0,1.0,2.0,10
1,5.0,4.0,20
2,3.0,6.0,30
3,4.0,5.0,40
4,5.0,10.0,50


In [None]:
# 欠損値補完2（ｓcikit-learnのimputeモジュールのSimpleImputerクラス）

from sklearn.impute import SimpleImputer

# 平均値で欠損値を補完するためのインスタンスを作成する
imp = SimpleImputer(strategy = 'mean')

# 欠損値を補完
imp.fit(df)
imp.transform(df)

array([[ 1.  ,  2.  , 10.  ],
       [ 3.25,  4.  , 20.  ],
       [ 3.  ,  6.  , 30.  ],
       [ 4.  ,  5.5 , 40.  ],
       [ 5.  , 10.  , 50.  ]])

### 正規化・標準化

In [None]:
# DataFrameを作成する
df = pd.DataFrame(
    {
        'A':[1, 2, 3, 4, 5],
        'B':[100, 200, 400, 550, 800]
    }
)
df

Unnamed: 0,A,B
0,1,100
1,2,200
2,3,400
3,4,550
4,5,800


#### 正規化（最大最小正規化）と標準化（分散正規化）について

In [None]:
# 最小最大正規化（=正規化）
from sklearn.preprocessing import MinMaxScaler

# 最小最大正規化のインスタンスを作成
mmsc = MinMaxScaler()

# 最小最大正規化を実行
mmsc.fit(df)
mmsc.transform(df)

array([[0.        , 0.        ],
       [0.25      , 0.14285714],
       [0.5       , 0.42857143],
       [0.75      , 0.64285714],
       [1.        , 1.        ]])

In [None]:
a = mmsc.transform(df)
df_a = pd.DataFrame(a, columns=['a', 'b'])
df_a

Unnamed: 0,a,b
0,0.0,0.0
1,0.25,0.142857
2,0.5,0.428571
3,0.75,0.642857
4,1.0,1.0


In [None]:
# 分散正規化（=標準化）
from sklearn.preprocessing import StandardScaler

# 分散正規化のインスタンスを作成
stdsc = StandardScaler()

# 分散正規化を実行
stdsc.fit(df)
stdsc.transform(df)

array([[-1.41421356, -1.24099319],
       [-0.70710678, -0.84067281],
       [ 0.        , -0.04003204],
       [ 0.70710678,  0.56044854],
       [ 1.41421356,  1.5612495 ]])

In [None]:
b = stdsc.transform(df)
df_b = pd.DataFrame(b, columns=['a', 'b'])
df_b

Unnamed: 0,a,b
0,-1.414214,-1.240993
1,-0.707107,-0.840673
2,0.0,-0.040032
3,0.707107,0.560449
4,1.414214,1.561249
