# データの前処理

## StandardScaler

各特徴量ごとに平均0, 分散1になるよう標準化をする。

[公式文書](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html)

In [27]:
# データの用意
import numpy as np 
X = [[-3, -2, -1, 0, 1, 2, 3], 
     [-30, -20, -10, 0, 10, 20, 30]]

In [28]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X)
print(scaler.mean_) # 各特徴量(列)の平均
print(scaler.var_) # 各特徴量(列)の分散

[-16.5 -11.   -5.5   0.    5.5  11.   16.5]
[182.25  81.    20.25   0.    20.25  81.   182.25]


In [29]:
# 変換

scaled_data = scaler.transform(X)

scaled_data # ちょっと違和感のある結果

array([[ 1.,  1.,  1.,  0., -1., -1., -1.],
       [-1., -1., -1.,  0.,  1.,  1.,  1.]])

In [20]:
# 1列目でちゃんと標準化できてるか見てみる
print((-3 + 16.5)/np.sqrt(182.25))
print((-30 + 16.5)/np.sqrt(182.25))

1.0
-1.0


## RobustScaler

各列に対して、中央値を引いてIQRで割る。

[公式文書](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.RobustScaler.html)

In [21]:
# データの用意
import numpy as np 
X = [[ 1., -2.,  2.],
     [-2.,  1.,  3.],
     [ 4.,  1., -2.]]

In [23]:
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()
scaler.fit(X)

RobustScaler(copy=True, quantile_range=(25.0, 75.0), with_centering=True,
             with_scaling=True)

In [24]:
scaled_X = scaler.transform(X)

scaled_X

array([[ 0. , -2. ,  0. ],
       [-1. ,  0. ,  0.4],
       [ 1. ,  0. , -1.6]])

## MinMaxScaler

各列ごとに最大が1, 最小が0になるように変換する。どんな演算をしているのかは公式文書がわかりやすい。

[公式文書](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html?highlight=minmax#sklearn.preprocessing.MinMaxScaler)

In [34]:
# データの用意
X = [[-1, 2],
     [-0.5, 6],
     [0, 10], 
     [1, 18]]

In [35]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

scaler.fit(X)

MinMaxScaler(copy=True, feature_range=(0, 1))

In [36]:
scaler.transform(X)

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [1.  , 1.  ]])

## Normalizer

各データごとに規格化を行う。各特徴量ごとではなく、各データごとという点に注意。

[公式文書](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Normalizer.html?highlight=normalizer#sklearn.preprocessing.Normalizer)

In [39]:
# データの用意

X = [[4, 1, 2, 2],
     [1, 3, 9, 3],
     [5, 7, 5, 1]]
     

In [40]:
from sklearn.preprocessing import Normalizer

scaler = Normalizer()

scaler.fit(X)

Normalizer(copy=True, norm='l2')

In [41]:
scaler.transform(X)

array([[0.8, 0.2, 0.4, 0.4],
       [0.1, 0.3, 0.9, 0.3],
       [0.5, 0.7, 0.5, 0.1]])

In [50]:
# 各データごとの規格化とはどういうことか
import numpy as np 

X = np.array([[4, 1, 2, 2],
              [1, 3, 9, 3],
              [5, 7, 5, 1]])

norm = np.zeros((X.shape[0], 1))

for i in range(X.shape[0]):
    sq_sum = 0
    for j in range(X.shape[1]):
        norm[i] += X[i, j]**2

norm = np.sqrt(norm)

X / norm

array([[0.8, 0.2, 0.4, 0.4],
       [0.1, 0.3, 0.9, 0.3],
       [0.5, 0.7, 0.5, 0.1]])

$$\frac{1}{N} \Sigma^{N}_{n=1}{(u^T_1x_n - u^T_1x_n)}^2$$

In [60]:

# u = np.array([1, 5, 3, 8, 2, 3, 6])

# x = np.array([3, 6, 2, 3, 5, 6, 9])

# av = np.array([2, 4, 7, 2, 4, 3, 1])

# (u.T.dot(x) - u.T.dot(av)).T * (u.T.dot(x) - u.T.dot(av))

3969

In [61]:
# (u.T.dot(x) - u.T.dot(av)) * (u.T.dot(x) - u.T.dot(av)).T

3969