# Preprocessing

In [1]:
import numpy as np
from sklearn import preprocessing

In [2]:
# サンプルデータの定義
input_data = np.array(
    [[5.1, -2.9, 3.3],
     [-1.2, 7.8, -6.1],
     [3.9, 0.4, 2.1],
     [7.3, -9.9, -4.5]]
)

---
#### 二値化
閾値を基準に0か1にする。

In [3]:
# 二値化
data_binarized = preprocessing.Binarizer(threshold=2.1).transform(input_data)
print('Binarized data:')
print(data_binarized)

Binarized data:
[[1. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]]


---
#### 平均値を引く
`scale()`で平均値を引いてから、標準偏差が1になるようにスケーリングする。

その他のメソッド
* `mean()` arrayの平均値を表示。x行y列 → 1行y列
* `std()` arrayの標準偏差を表示

In [4]:
# 平均値を引く
print('BEFORE:')
print('Mean', input_data.mean(axis=0))
print('Std deviation:', input_data.std(axis=0))

data_scaled = preprocessing.scale(input_data)

print()  # empty line
print('AFTER:')
print('Mean', data_scaled.mean(axis=0))
print('Std deviation:', data_scaled.std(axis=0))

BEFORE:
Mean [ 3.775 -1.15  -1.3  ]
Std deviation: [3.12039661 6.36651396 4.0620192 ]

AFTER:
Mean [1.11022302e-16 0.00000000e+00 2.77555756e-17]
Std deviation: [1. 1. 1.]


In [5]:
# 平均値を引くだけの場合
data_centered = preprocessing.scale(input_data, with_std=False)
print('Mean', data_centered.mean(axis=0))
print('Std deviation:', data_centered.std(axis=0))

Mean [ 3.33066907e-16  0.00000000e+00 -1.11022302e-16]
Std deviation: [3.12039661 6.36651396 4.0620192 ]


---
#### スケーリング
特徴ベクトルの各特徴量の値は、様々な値を取り得るため、
**機械学習アルゴリズムの訓練に使える水準に合うように**、**特徴量の値をスケーリングすること**
が重要になる。

1. `MinMaxScaler`オブジェクトを生成

    `frature_range=(0, 1)`はデフォルトなので、以下のコードでは省略する

1. `fit_transform()`で、最大値と最小値に収まるようにデータをスケーリング


In [6]:
data_scaler_minmax = preprocessing.MinMaxScaler()
data_scaled_minmax = data_scaler_minmax.fit_transform(input_data)
print('Min max scaled data:')
print(data_scaled_minmax)

Min max scaled data:
[[0.74117647 0.39548023 1.        ]
 [0.         1.         0.        ]
 [0.6        0.5819209  0.87234043]
 [1.         0.         0.17021277]]


---
#### 正規化
* L1正規化
    ベクトルの要素の絶対値の和が1になるようにする。

* L2正規化
    各行の要素の自乗の和が1になるようにする。

L1正規化はL2正規化よりも、**ロバスト** = **頑丈** = データの外れ値の影響を受けにくい。

In [7]:
data_normalized_l1 = preprocessing.normalize(input_data, norm='l1')
data_normalized_l2 = preprocessing.normalize(input_data, norm='l2')
print('L1 normalized data:')
print(data_normalized_l1)
print('L2 normalized data:')
print(data_normalized_l2)

L1 normalized data:
[[ 0.45132743 -0.25663717  0.2920354 ]
 [-0.0794702   0.51655629 -0.40397351]
 [ 0.609375    0.0625      0.328125  ]
 [ 0.33640553 -0.4562212  -0.20737327]]
L2 normalized data:
[[ 0.75765788 -0.43082507  0.49024922]
 [-0.12030718  0.78199664 -0.61156148]
 [ 0.87690281  0.08993875  0.47217844]
 [ 0.55734935 -0.75585734 -0.34357152]]
