# データの前処理

In [1]:
from sklearn import preprocessing
import numpy as np

In [2]:
X = np.array([[1., -2., 2.], 
             [3., 0., 0.], 
             [0., 1., -1.,]])

#### 特徴量の標準化

標準化:平均が0かつ単位分散になるようにデータを縮尺変換する処理

In [4]:
X_scaled = preprocessing.scale(X)
X_scaled

array([[-0.26726124, -1.33630621,  1.33630621],
       [ 1.33630621,  0.26726124, -0.26726124],
       [-1.06904497,  1.06904497, -1.06904497]])

In [5]:
X_scaled.mean(axis=0)

array([7.40148683e-17, 0.00000000e+00, 0.00000000e+00])

In [6]:
X_scaled.std(axis=0)

array([1., 1., 1.])

#### 特徴量の正規化

正規化:各標本を単位長に縮尺変換する処理

In [8]:
X_normalized_l1 = preprocessing.normalize(X, norm='l1')
X_normalized_l1

array([[ 0.2, -0.4,  0.4],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  0.5, -0.5]])

In [10]:
X_normalized_l2 = preprocessing.normalize(X, norm='l2')
X_normalized_l2

array([[ 0.33333333, -0.66666667,  0.66666667],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

#### 特徴量を範囲内に縮尺変換する

In [14]:
min_max_scaler = preprocessing.MinMaxScaler()
X_min_max = min_max_scaler.fit_transform(X)
X_min_max

array([[0.33333333, 0.        , 1.        ],
       [1.        , 0.66666667, 0.33333333],
       [0.        , 1.        , 0.        ]])

In [19]:
min_max_scaler = preprocessing.MinMaxScaler(feature_range = (-10, 10))
X_min_max2 = min_max_scaler.fit_transform(X)
X_min_max2

array([[ -3.33333333, -10.        ,  10.        ],
       [ 10.        ,   3.33333333,  -3.33333333],
       [-10.        ,  10.        , -10.        ]])

#### 特徴量の二値化

In [20]:
X

array([[ 1., -2.,  2.],
       [ 3.,  0.,  0.],
       [ 0.,  1., -1.]])

In [23]:
binarizer = preprocessing.Binarizer(threshold=0.5)
X_binarized = binarizer.transform(X)
X_binarized

array([[1., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.]])

#### 欠損データを扱う

In [25]:
from numpy import nan
X = np.array([[nan, 0, 3],
              [2, 9, -8],
              [1, nan, 1],
              [5, 2, 4], 
              [7, 6, -3]])

欠損値を転嫁するための方法\
・'mean':行列の指定された軸に沿って、全てのnan値を平均的に置き換える\
・'median':行列の指定された軸にそって、全てのnan値を中央値に置き換える\
・'most_frequent':行列の指定された軸に沿って、全てのnan値を最頻値に置き換える

In [31]:
from sklearn.impute import SimpleImputer
imp = SimpleImputer(strategy='mean')
X2 = imp.fit_transform(X)
X2

array([[ 3.75,  0.  ,  3.  ],
       [ 2.  ,  9.  , -8.  ],
       [ 1.  ,  4.25,  1.  ],
       [ 5.  ,  2.  ,  4.  ],
       [ 7.  ,  6.  , -3.  ]])

In [33]:
imp = SimpleImputer(strategy='median')
X3 = imp.fit_transform(X)
X3

array([[ 3.5,  0. ,  3. ],
       [ 2. ,  9. , -8. ],
       [ 1. ,  4. ,  1. ],
       [ 5. ,  2. ,  4. ],
       [ 7. ,  6. , -3. ]])

In [34]:
np.median(X[1:, 0]), X3[0, 0]

(3.5, 3.5)