In [None]:
# データの前処理
#  機械学習のアルゴリズムが訓練を始める前にデータを所定の方法で成形しておく

In [2]:
import numpy as np
from sklearn import preprocessing
# scikit-laarn から前処理用のpreprocessingパッケージをインポート

In [13]:
input_data = np.array([[5.1, -2.9, 3.3],
                      [-1.2, 7.8, -6.1],
                      [3.9, 0.4, 2.1],
                      [7.3, -9.9, -4.5]])
print("input data:\n", input_data)
#\nは段落

input data:
 [[ 5.1 -2.9  3.3]
 [-1.2  7.8 -6.1]
 [ 3.9  0.4  2.1]
 [ 7.3 -9.9 -4.5]]


In [None]:
# 前処理法1 二値化
# 数値を0か1に変更すること

In [14]:
# (例) パッケージに定義されてる関数Binarizer() を使用し threshold=2.1 と閾値を設定
data_binarized = preprocessing.Binarizer(threshold=2.1).transform(input_data)
print("Binarized data:\n", data_binarized)

Binarized data:
 [[1. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]]


In [None]:
# 前処理法2 平均線を引く
# 機械学習で最も多く使用される前処理法
# 特徴ベクトル から 平均を引く と 特徴量の中心が原点になる。 特徴ベクトル から バイアス を除去する為に平均線を引く

In [22]:
print("BEFORE:")
print("Mean =", input_data.mean(axis=0))
print("Stb deviation =", input_data.std(axis=0))
# axis=0 colで計算
# stb 標準偏差を求める

BEFORE:
Mean = [ 3.775 -1.15  -1.3  ]
Stb deviation = [3.12039661 6.36651396 4.0620192 ]


In [None]:
# scale()を使うと平均値を引いてから、標準偏差が1となるようにスケーリングする

In [25]:
data_scaled = preprocessing.scale(input_data)
print(data_scaled)

print("AFTER:")
print("Mean =", data_scaled.mean(axis=0))
print("Stb deviation =", data_scaled.std(axis=0))

[[ 0.42462551 -0.2748757   1.13244172]
 [-1.59434861  1.40579288 -1.18167831]
 [ 0.04005901  0.24346134  0.83702214]
 [ 1.12966409 -1.37437851 -0.78778554]]
AFTER:
Mean = [1.11022302e-16 0.00000000e+00 2.77555756e-17]
Stb deviation = [1. 1. 1.]


In [None]:
# スケーリング
# 特徴ベクトルの各特徴量の値はさまざまな値を取り扱える
# 機械学習アルゴリズムの訓練に使える水準に合うように、特徴量の値をスケールさせる必要がある

In [26]:
# 値域[0,1] の指定 MiniMaxScalerオブジェクト を生成 fit_transform()メソッドを呼び出して最大値・最小値に収まるようデータｐをスケーリング
data_scaler_minmax = preprocessing.MinMaxScaler(feature_range=(0,1))
data_scaled_minmax = data_scaler_minmax.fit_transform(input_data)
print("Min max scaled data:\n", data_scaled_minmax)

Min max scaled data:
 [[0.74117647 0.39548023 1.        ]
 [0.         1.         0.        ]
 [0.6        0.5819209  0.87234043]
 [1.         0.         0.17021277]]


In [None]:
# 各列がスケールされ最小値が0、最大値が1になり、ほかの値が相対値になっている

In [None]:
# 正規化
# 特徴ベクトルの値を共通的な尺度にそろえること
# L1正規化 ベクトルの要素の絶対値の和が１になるようにする
# L2正規化 各行の要素の自乗の和が１になるようにする

In [30]:
data_normalized_l1 = preprocessing.normalize(input_data, norm='l1')
data_normalized_l2 = preprocessing.normalize(input_data, norm='l2')
print("BERFORE:\n", input_data)
print("L1 normalized data:\n", data_normalized_l1)
print("L2 normalized data:\n", data_normalized_l2)
#normalize() はnorm で指定した値で正規化をする

BERFORE:
 [[ 5.1 -2.9  3.3]
 [-1.2  7.8 -6.1]
 [ 3.9  0.4  2.1]
 [ 7.3 -9.9 -4.5]]
L1 normalized data:
 [[ 0.45132743 -0.25663717  0.2920354 ]
 [-0.0794702   0.51655629 -0.40397351]
 [ 0.609375    0.0625      0.328125  ]
 [ 0.33640553 -0.4562212  -0.20737327]]
L2 normalized data:
 [[ 0.75765788 -0.43082507  0.49024922]
 [-0.12030718  0.78199664 -0.61156148]
 [ 0.87690281  0.08993875  0.47217844]
 [ 0.55734935 -0.75585734 -0.34357152]]
