In [1]:
import numpy as np 
from sklearn import preprocessing

input_data = np.array([[5.1, -2.9, 3.3], 
                       [-1.2, 7.8, -6.1], 
                       [3.9, 0.4, 2.1], 
                       [7.3, -9.9, -4.5]])

# 二値化
data_binarized = preprocessing.Binarizer(threshold=2.1).transform(input_data) 
print("Binarized data:\n", data_binarized) 

Binarized data:
 [[1. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]]


In [2]:
# 平均値を引く 
## 特徴ベクトルから平均を引くと、特徴量の中心が原点になる
## 特徴ベクトルからバイアスを除去するために平均値を引く。
print("BEFORE:") 
print("Mean =", input_data.mean(axis=0))  # 平均
print("Std deviation =", input_data.std(axis=0)) # 標準偏差

data_scaled = preprocessing.scale(input_data) # 平均値を引いて、標準偏差が1になるようにスケーリング
print("AFTER:") 
print("Mean =", data_scaled.mean(axis=0)) # 平均は0に近い
print("Std deviation =", data_scaled.std(axis=0)) # 標準偏差は1

BEFORE:
Mean = [ 3.775 -1.15  -1.3  ]
Std deviation = [3.12039661 6.36651396 4.0620192 ]
AFTER:
Mean = [1.11022302e-16 0.00000000e+00 2.77555756e-17]
Std deviation = [1. 1. 1.]


In [3]:
data_centered = preprocessing.scale(input_data, with_std=False) # 平均値を引くだけの場合
print("AFTER:") 
print("Mean =", data_centered.mean(axis=0)) 
print("Std deviation =", data_centered.std(axis=0)) 

AFTER:
Mean = [ 3.33066907e-16  0.00000000e+00 -1.11022302e-16]
Std deviation = [3.12039661 6.36651396 4.0620192 ]


In [4]:
# スケーリング
## 閾値[0,1]を指定してMiniMaxScalerオブジェクトを生成
## fit_transform()オブジェクトを呼び出して最大値、最小値に収まるようにデータをスケーリングする。(各列毎)
data_scaler_minmax = preprocessing.MinMaxScaler(feature_range=(0, 1)) 
data_scaled_minmax = data_scaler_minmax.fit_transform(input_data) 
print("Min max scaled data:\n", data_scaled_minmax) 

Min max scaled data:
 [[0.74117647 0.39548023 1.        ]
 [0.         1.         0.        ]
 [0.6        0.5819209  0.87234043]
 [1.         0.         0.17021277]]


In [7]:
# 正規化
## 特徴ベクトルの値を共通的な尺度にそろえること
## L1正規化: ベクトルの要素の絶対値の和が1になる
## L2正規化: 自乗の和が1になる
data_normalized_l1 = preprocessing.normalize(input_data, norm='l1') 
data_normalized_l2 = preprocessing.normalize(input_data, norm='l2') 
print("L1 normalized data:\n", data_normalized_l1) 
print("各行の絶対値が1になる:")
for row in data_normalized_l1:
  print('\t', np.sum(np.abs(row)))
print("\nL2 normalized data:\n", data_normalized_l2)
print("各行の自乗の和が1になる:")
for row in data_normalized_l2:
  print('\t', np.sum(row*row))

L1 normalized data:
 [[ 0.45132743 -0.25663717  0.2920354 ]
 [-0.0794702   0.51655629 -0.40397351]
 [ 0.609375    0.0625      0.328125  ]
 [ 0.33640553 -0.4562212  -0.20737327]]
各行の絶対値が1になる:
	 0.9999999999999998
	 1.0
	 1.0
	 1.0

L2 normalized data:
 [[ 0.75765788 -0.43082507  0.49024922]
 [-0.12030718  0.78199664 -0.61156148]
 [ 0.87690281  0.08993875  0.47217844]
 [ 0.55734935 -0.75585734 -0.34357152]]
各行の自乗の和が1になる:
	 1.0
	 1.0000000000000002
	 1.0
	 1.0000000000000002
