# 概要

機械学習と最適化のアルゴリズムの大半は、特徴量の尺度が同じである場合に、<br>
はるかにうまく動作する<br>
複数の特徴量の尺度を揃える一般的な手法として正規化と標準化となる。<br>
正規化は、特徴量を[0,1]の範囲にスケーリングしなおすことを意味し、式にすると下のようになる<br>
$x^{(i)}_{norm}=\frac{x^{i} - x_{min}}{x_{max}-x_{min}}$<br>
$x_{min}$:特徴量の列において最も小さい値<br>
$x_{max}$:特徴量の列において最も大きい値<br>
標準化は、返金値0,標準誤差1となるように変換することを意味し、式にすると下のようになる<br>
$x^{(i)}_{std}=\frac{x^{(i)}-\mu_{x}}{\sigma_{x}}$<br>
$\mu_{x}:特徴量の列の平均$<br>
$\sigma_{x}:特徴量の列の標準偏差$<br>
一般に標準化の方が正規分布に従うため重みを学習しやすくなり、外れ値の有効な情報を保持したまま受ける影響が少なくなる


In [7]:
#min-maxスケーリングのインスタンスを生成し、正規化を行う
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
X_train_norm = mms.fit_transform(X_train)
X_test_norm = mms.fit_transform(X_test)

#StandardScatterクラスを利用し、標準化を行う
from sklearn.preprocessing import StandardScaler
stdsc = StandardScaler()

X_train_std = stdsc.fit_transform(X_train)
X_test_std = stdsc.fit_transform(X_test)

# その他の関数

In [6]:
#テストデータとトレインデータの分類
#sklearnで用意されている関数を使って分類する
from sklearn import datasets
import numpy as np
from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import StandardScaler

#Irisデータセットをロード
iris = datasets.load_iris()

#3列目4列目の特徴量を抽出
X = iris.data[:,[2,3]]
#クラスラベルを取得
y = iris.target

#トレーニングデータとテストデータに分類
#sklearnで用意されている関数を使って分離する
#全体の30%をテストデータにする
X_train,X_test,y_train,y_test = train_test_split(\
                                                X,y,test_size=0.3,random_state=0)

#StandardScalerをつかって、トレーニングデータを標準化
sc = StandardScaler()
#トレーニングデータの平均と標準偏差を計算
sc.fit(X_train)
#平均と標準偏差を用いて標準化
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

#トレーニングデータとテストデータの特徴量を行報告に結合
X_combined_std = np.vstack((X_train_std,X_test_std))
#トレーニングデータとテストデータのクラスラベルを結合
y_combined = np.hstack((y_train,y_test))
