## 教師あり学習の際、データ分類を行うための方法

### 二値化
**値を2.1を閾値にして0 or 1で正規化する**  
**preprocessingは前処理用のライブラリとして用意されている**

In [7]:
import numpy as np
from sklearn import preprocessing

input_data = np.array([[5.1, -2.9, 3.3],
                     [-1.2, 7.8, -6.1],
                     [3.9, 0.4, 2.1],
                     [7.3, -9.9, -4.5]])

data_binarized = preprocessing.Binarizer(threshold=2.1).transform(input_data)
print("Binarized data:\n", data_binarized)

Binarized data:
 [[1. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]]


### 平均値を引く

値から平均値を引くと、特徴量の中心が原点になり平均からの偏りを表すことができる

In [3]:
print("BEFORE:")
print("Mean（平均）=", input_data.mean(axis=0))
print("Std deviation（標準偏差）=", input_data.std(axis=0))

BEFORE:
Mean（平均）= [ 3.775 -1.15  -1.3  ]
Std deviation（標準偏差）= [3.12039661 6.36651396 4.0620192 ]


In [4]:
data_scaled = preprocessing.scale(input_data)
print("AFTER:")
print("Mean（平均）=", data_scaled.mean(axis=0))
print("Std deviation（標準偏差）=", data_scaled.std(axis=0))

AFTER:
Mean（平均）= [1.11022302e-16 0.00000000e+00 2.77555756e-17]
Std deviation（標準偏差）= [1. 1. 1.]


### スケーリング  
今回であれば**各列の値**が0-1の間になるように量を変換する


In [5]:
data_scaler_minmax = preprocessing.MinMaxScaler(feature_range=(0,1))
data_scaled_minmax = data_scaler_minmax.fit_transform(input_data)
print("Min max scaled data:\n", data_scaled_minmax)

Min max scaled data:
 [[0.74117647 0.39548023 1.        ]
 [0.         1.         0.        ]
 [0.6        0.5819209  0.87234043]
 [1.         0.         0.17021277]]


### 正規化
- L1正規化
  - 各行の要素の絶対値の和が1となるようの調整したもの

- L2正規化
  - 各行の要素値の二乗の和が1となるように調整したもの

- L1正規化の方がL2正規化より外れ値の影響を受けにくい。逆に外れ値が重要な場合はL2正規化を利用すると良い。

In [8]:
data_normalized_l1 = preprocessing.normalize(input_data, norm="l1")
data_normalized_l2 = preprocessing.normalize(input_data, norm="l2")

print("L1 normalized data:\n", data_normalized_l1)
print("L2 normalized data:\n", data_normalized_l2)

L1 normalized data:
 [[ 0.45132743 -0.25663717  0.2920354 ]
 [-0.0794702   0.51655629 -0.40397351]
 [ 0.609375    0.0625      0.328125  ]
 [ 0.33640553 -0.4562212  -0.20737327]]
L2 normalized data:
 [[ 0.75765788 -0.43082507  0.49024922]
 [-0.12030718  0.78199664 -0.61156148]
 [ 0.87690281  0.08993875  0.47217844]
 [ 0.55734935 -0.75585734 -0.34357152]]
