## scikit-learn
scikit-learnは、Pythonで機械学習を行うためのライブラリです。
scikit-learnを使用することで、データマイニング（統計学や人工知能などの分析手法を駆使して、データからパターンを見出すための分析手法）やデータ解析といった処理を簡単に実行できます。

代表的な前処理
*   欠損値への対応
*   カテゴリ変数の数値化
*   特徴量の正規化



In [None]:
# 準備
import numpy as np
import pandas as pd
df = pd.DataFrame(
  {
    'A': [1, 2, 3, 4, np.nan],
    'B': [10, np.nan, 30, 40, 50],
    'C': [np.nan, 200, 300, 400, 500]
  }
)
df

Unnamed: 0,A,B,C
0,1.0,10.0,
1,2.0,,200.0
2,3.0,30.0,300.0
3,4.0,40.0,400.0
4,,50.0,500.0


In [None]:
# 欠損値の確認
df.isnull()

Unnamed: 0,A,B,C
0,False,False,True
1,False,True,False
2,False,False,False
3,False,False,False
4,True,False,False


In [None]:
# 欠損値削除
df.dropna()

Unnamed: 0,A,B,C
2,3.0,30.0,300.0
3,4.0,40.0,400.0


In [None]:
# 欠損値への対応
from sklearn.impute import SimpleImputer
imp = SimpleImputer(strategy='mean')
imp.fit(df)
imp.transform(df)

array([[  1. ,  10. , 350. ],
       [  2. ,  32.5, 200. ],
       [  3. ,  30. , 300. ],
       [  4. ,  40. , 400. ],
       [  2.5,  50. , 500. ]])

In [None]:
# 準備
df = pd.DataFrame([[23, 'male'],
                   [43, 'female'],
                   [31, 'male'],
                   [35, 'female'],
                   [40, 'male']],
                   columns=['age', 'sex'])
df

Unnamed: 0,age,sex
0,23,male
1,43,female
2,31,male
3,35,female
4,40,male


In [None]:
# ラベルエンコーディング
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit(df['sex'])
le.transform(df['sex'])

array([1, 0, 1, 0, 1])

In [None]:
# 準備
df = pd.DataFrame([[23, 'male'],
                   [43, 'female'],
                   [31, 'male'],
                   [35, 'female'],
                   [40, 'male']],
                   columns=['age', 'sex'])
df

Unnamed: 0,age,sex
0,23,male
1,43,female
2,31,male
3,35,female
4,40,male


In [None]:
# One-hotエンコーディング
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
ohe = ColumnTransformer([("OneHotEncoder", OneHotEncoder(), [1])], remainder = 'passthrough')
df_ohe = df.copy()
ohe.fit_transform(df_ohe)

array([[ 0.,  1., 23.],
       [ 1.,  0., 43.],
       [ 0.,  1., 31.],
       [ 1.,  0., 35.],
       [ 0.,  1., 40.]])

In [None]:
# 準備
import pandas as pd
df = pd.DataFrame({
  'data1': [1, 2, 3, 4, 5],
  'data2': [1000, 3000, 3500, 5000, 7000]
})
df

Unnamed: 0,data1,data2
0,1,1000
1,2,3000
2,3,3500
3,4,5000
4,5,7000


In [None]:
# 分散正規化：特徴量の平均値が0、標準偏差が1になるよう特徴量を変換する
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit_transform(df)

array([[-1.41421356, -1.44280393],
       [-0.70710678, -0.44776674],
       [ 0.        , -0.19900744],
       [ 0.70710678,  0.54727045],
       [ 1.41421356,  1.54230764]])

In [None]:
# 最小最大正規化：特徴量の最大値が1、最小値が0になるように特徴量を変換する
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit_transform(df)

array([[0.        , 0.        ],
       [0.25      , 0.33333333],
       [0.5       , 0.41666667],
       [0.75      , 0.66666667],
       [1.        , 1.        ]])