# 4.4 scilit-learn

### `前処理のライブラリ、モジュールまとめ`

| No. | ライブラリ | モジュール | クラス | 関数 | import  | 処理区分 | 説明 |
| ----- | ----------- | ------------ | ------- | -------- | : ---- | -----------| ------|
| 1| - | - | - | dropna() |-  | DataFrame、２節で確認 | 欠損値の削除|
| 2| sklearn | preprocessing | Imputer | fit()<br>transform() | from sklearn.preprocessing import Imputer | 前処理-欠損値の補完 | 欠損値の補完|
| 3| sklearn | preprocessing | LabelEncoder | fit()<br>transform() | from sklearn.preprocessing import LabelEncoder | 前処理-ラベルエンコーディング | カテゴリ変数のエンコーディング実行|
| 4| sklearn | preprocessing | OneHotEncoder | fit_transform() | from sklearn.preprocessing import OneHotEncoder | 前処理-One-hotエンコーディング | One-hotエンコーディングを実行|
| 5| sklearn | preprocessing | StandardScaler | fit()<br>transform()  | from sklearn.preprocessing import StandardScaler | 前処理-特徴量正規化-分散正規化 | fit:平均と標準偏差求める<br>transform:分散正規化を実行|
| 6| sklearn | preprocessing | MinMaxScaler | fit()<br>transform() | from sklearn.preprocessing import MinMaxScaler | 前処理-特徴量正規化-最小最大正規化 | fit:正規化した値を求める<br>transform:最小最大正規化を実行|

## 4.4.1 前処理

### 欠損値への対応
- 欠損値への対応
- カテゴリ変数のエンコーディング
- 特徴量の正規化

In [1]:
import numpy as np
import pandas as pd

# サンプルのデータセットを作成
df = pd.DataFrame(
        {
            'A':[1,np.nan,3,4,5],
            'B':[6,7,8,np.nan,10],
            'C':[11,12,13,14,15]
        }
)
df

Unnamed: 0,A,B,C
0,1.0,6.0,11
1,,7.0,12
2,3.0,8.0,13
3,4.0,,14
4,5.0,10.0,15


In [2]:
# 各要素が欠損かどうかを確かめる
df.isnull()

Unnamed: 0,A,B,C
0,False,False,False
1,True,False,False
2,False,False,False
3,False,True,False
4,False,False,False


In [3]:
# 欠損値の場合削除する
df1=df.dropna()
df1

Unnamed: 0,A,B,C
0,1.0,6.0,11
2,3.0,8.0,13
4,5.0,10.0,15


In [7]:
pip install scikit-learn

Collecting scikit-learn
  Downloading scikit_learn-1.3.0-cp311-cp311-win_amd64.whl (9.2 MB)
                                              0.0/9.2 MB ? eta -:--:--
     -                                        0.3/9.2 MB 5.2 MB/s eta 0:00:02
     --                                       0.5/9.2 MB 4.9 MB/s eta 0:00:02
     ---                                      0.9/9.2 MB 7.2 MB/s eta 0:00:02
     -----                                    1.3/9.2 MB 6.6 MB/s eta 0:00:02
     ------                                   1.4/9.2 MB 6.1 MB/s eta 0:00:02
     -------                                  1.8/9.2 MB 6.2 MB/s eta 0:00:02
     --------                                 2.0/9.2 MB 6.0 MB/s eta 0:00:02
     ----------                               2.3/9.2 MB 6.5 MB/s eta 0:00:02
     ----------                               2.4/9.2 MB 5.9 MB/s eta 0:00:02
     -----------                              2.7/9.2 MB 5.7 MB/s eta 0:00:02
     ------------                             2.9/9.2 MB 

In [14]:
from sklearn.impute import SimpleImputer

# 平均値で欠損値を補完するインスタンスを作成する
# strategy : 欠損値を補完する方法を文字列で指定　,axis :補完する値を計算するときに使用する軸を指定、　１：行、0：列（デフォルト） 
imp = SimpleImputer(strategy ='mean')
 # 欠損値を補完する
imp.fit(df)
imp.transform(df)

array([[ 1.  ,  6.  , 11.  ],
       [ 3.25,  7.  , 12.  ],
       [ 3.  ,  8.  , 13.  ],
       [ 4.  ,  7.75, 14.  ],
       [ 5.  , 10.  , 15.  ]])

### カテゴリ変数のエンコーディング
- One-hotエンコーディング

 - カテゴリ変数に対して行う符号化処理

 - 各行の該当する値の列のみ1,それ以外０

In [15]:
df = pd.DataFrame({
    'A':[1,2,3,4,5],
    'B':['a','b','a','b','c']
})
df

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,a
3,4,b
4,5,c


In [6]:
from sklearn.preprocessing import LabelEncoder

# ラベルエンコーディングのインスタンスを生成
le =LabelEncoder()

# ラベルのエンコーディング
le.fit(df['B'])
le.transform(df['B'])

array([0, 1, 0, 1, 2])

In [7]:
# 元の値を確認する
le.classes_

array(['a', 'b', 'c'], dtype=object)

In [8]:
from sklearn.preprocessing import LabelEncoder,OneHotEncoder

# DataFrameをコピー
df_one = df.copy()
# ラベルエンコーダのインスタンス化
le =LabelEncoder()

# 英語のabcを１２３に変更
df_one['B'] = le.fit_transform(df['B'])

# One-hotエンコーディングのインスタンス化
# categorical_features ： 変換する列の番号（リスト型）
one = OneHotEncoder(categorical_features=[1])
# One-hotエンコーディング
# fit_transformの返した疎行列をNumｐｙ配列に変換するのは toarray()
one.fit_transform(df_one).toarray()


array([[1., 0., 0., 1.],
       [0., 1., 0., 2.],
       [1., 0., 0., 3.],
       [0., 1., 0., 4.],
       [0., 0., 1., 5.]])

### 特徴量の正規化
- 特徴量の大きさを揃える処理
- 分散正規化
 - 特徴量の平均は０、標準偏差が1となるように特徴量を変換する処理<span style="color: red; ">←模擬試験1_4-4 ①</span>
- 最小最大正規化
 - 特徴量の最小値が０、最大値が１をとるように特徴量を正規化する処理

In [9]:
# DataFrameデータを生成
df = pd.DataFrame({
    'A':[1,2,3,4,5],
    'B':[100,200,400,500,800]
})
df

Unnamed: 0,A,B
0,1,100
1,2,200
2,3,400
3,4,500
4,5,800


In [11]:
from sklearn.preprocessing import StandardScaler

# 分散正規化のインスタンスを生成
stdsc =StandardScaler()

# 分散正規化を実行
stdsc.fit(df)
stdsc.transform(df)

array([[-1.41421356, -1.22474487],
       [-0.70710678, -0.81649658],
       [ 0.        ,  0.        ],
       [ 0.70710678,  0.40824829],
       [ 1.41421356,  1.63299316]])

In [12]:
from sklearn.preprocessing import MinMaxScaler

# 最小最大正規化のインスタンスを生成
mmsc = MinMaxScaler()

# 最小最大正規化を実行
mmsc.fit(df)
mmsc.transform(df)

array([[0.        , 0.        ],
       [0.25      , 0.14285714],
       [0.5       , 0.42857143],
       [0.75      , 0.57142857],
       [1.        , 1.        ]])