前処理を行う。

In [1]:
import numpy as np
import pandas as pd
import sys

from sklearn.datasets import load_iris
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.preprocessing import MinMaxScaler, scale, StandardScaler


print(sys.version_info)

sys.version_info(major=3, minor=6, micro=2, releaselevel='final', serial=0)


### 1. 解析するデータの読み込み

iris (機械学習でよく使われるあやめのデータセット) を読み込む。

In [2]:
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = iris.target

サンプルサイズは150である。   
そして説明変数としてとして`sepal length` (がくの長さ), `sepal width` (がくの幅), `petal length` (花びらの長さ), `petal width` (花びらの幅)がある。

In [3]:
X.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


目的変数はあやめの種類である。0: setosa, 1: versicolor, 2: virginica

In [4]:
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

サンプルサイズと説明変数の数は`shape`に保存されている。

In [5]:
X.shape

(150, 4)

### 2. StandardScaler

Scikit-learnには前処理をするためのクラスや関数として[StandardScaler](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html)クラスや[scale](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.scale.html#sklearn.preprocessing.scale)関数が用意されている。  
まずはStandardScalerを使ってみる。

#### 2.1 センタリング

`StandardScaler`クラスの引数を`with_mean=True`, `with_std=False`とすることでセンタリングを行うことができる。

In [6]:
scaler = StandardScaler(with_mean=True, with_std=False)
scaler.fit(X)

StandardScaler(copy=True, with_mean=True, with_std=False)

`transform`メソッドを用いることで与えた`X`の平均値を考慮してセンタリングを行うことができる。

In [7]:
X_scaled = scaler.transform(X)
X_scaled[:5]

array([[-0.74333333,  0.446     , -2.35866667, -0.99866667],
       [-0.94333333, -0.054     , -2.35866667, -0.99866667],
       [-1.14333333,  0.146     , -2.45866667, -0.99866667],
       [-1.24333333,  0.046     , -2.25866667, -0.99866667],
       [-0.84333333,  0.546     , -2.35866667, -0.99866667]])

各説明変数の平均を求めてみる。

In [8]:
X_scaled.mean(axis=0)

array([ -1.12502600e-15,  -6.75015599e-16,  -3.23889064e-15,
        -6.06921920e-16])

ほぼ0になっているのがわかる。

次に各説明変数の分散を求めてみる。

In [9]:
X_scaled.std(axis=0)

array([ 0.82530129,  0.43214658,  1.75852918,  0.76061262])

スケーリングは行っていないのでこちらは1になっていない。

#### 2.2 スケーリング

`StandardScaler`クラスの引数を`with_mean=False`, `with_std=True`とすることでスケーリングを行うことができる。

In [10]:
scaler = StandardScaler(with_mean=False, with_std=True)
scaler.fit(X)

StandardScaler(copy=True, with_mean=False, with_std=True)

`transform`メソッドを用いることで与えた`X`の分散を考慮してスケーリングを行うことができる。

In [11]:
X_scaled = scaler.transform(X)
X_scaled[:5]

array([[ 6.17956139,  8.09910378,  0.79611986,  0.26294594],
       [ 5.93722565,  6.94208895,  0.79611986,  0.26294594],
       [ 5.69488991,  7.40489488,  0.73925415,  0.26294594],
       [ 5.57372204,  7.17349192,  0.85298556,  0.26294594],
       [ 6.05839352,  8.33050674,  0.79611986,  0.26294594]])

各説明変数の平均を求めてみる。

In [12]:
X_scaled.mean(axis=0)

array([ 7.08024256,  7.06704656,  2.13739226,  1.57592267])

センタリングは行っていないので0になっていない。

次に各説明変数の分散を求めてみる。

In [13]:
X_scaled.std(axis=0)

array([ 1.,  1.,  1.,  1.])

すべて1になっているのがわかる。

オートスケーリング、すなわちセンタリング、スケーリングどちらもしたい場合は`with_mean=True`, `with_std=True`として行えば良い。

### 3. scale

続いてscale関数を使ってみる。

#### 3.1 センタリング

`scale`関数の引数を`with_mean=True`, `with_std=False`とすることでセンタリングを行うことができる。

In [14]:
X_scaled = scale(X, with_mean=True, with_std=False)
X_scaled[:5]

array([[-0.74333333,  0.446     , -2.35866667, -0.99866667],
       [-0.94333333, -0.054     , -2.35866667, -0.99866667],
       [-1.14333333,  0.146     , -2.45866667, -0.99866667],
       [-1.24333333,  0.046     , -2.25866667, -0.99866667],
       [-0.84333333,  0.546     , -2.35866667, -0.99866667]])

各説明変数の平均を求めてみる。

In [15]:
X_scaled.mean(axis=0)

array([ -1.12502600e-15,  -6.75015599e-16,  -3.23889064e-15,
        -6.06921920e-16])

ほぼ0になっているのがわかる。

次に各説明変数の分散を求めてみる。

In [16]:
X_scaled.std(axis=0)

array([ 0.82530129,  0.43214658,  1.75852918,  0.76061262])

スケーリングは行っていないのでこちらは1になっていない。

#### 3.2 スケーリング

`scale`関数の引数を`width_mean=False`, `widh_std=True`とすることでセンタリングを行うことができる。

In [17]:
X_scaled = scale(X, with_mean=False, with_std=True)
X_scaled[:5]

array([[ 6.17956139,  8.09910378,  0.79611986,  0.26294594],
       [ 5.93722565,  6.94208895,  0.79611986,  0.26294594],
       [ 5.69488991,  7.40489488,  0.73925415,  0.26294594],
       [ 5.57372204,  7.17349192,  0.85298556,  0.26294594],
       [ 6.05839352,  8.33050674,  0.79611986,  0.26294594]])

各説明変数の平均を求めてみる。

In [18]:
X_scaled.mean(axis=0)

array([ 7.08024256,  7.06704656,  2.13739226,  1.57592267])

センタリングは行っていないので0になっていない。

次に各説明変数の分散を求めてみる。

In [19]:
X_scaled.std(axis=0)

array([ 1.,  1.,  1.,  1.])

すべて1になっているのがわかる。

オートスケーリング、すなわちセンタリング、スケーリングどちらもしたい場合は`width_mean=True`, `widh_std=True`として行えば良い。

---

### 4. Test setに対するオートスケーリング

2, 3の説明を読むと`StandardScaler`, `scale`はほぼ同様の使い方で用いることができ、しかも`scale`関数は簡単に前処理ができる。  
しかし`StandardScaler`には`scale`にない利点が一つあり、それはTest setに対してTraining setやValidation setの情報で  
オートスケーリングができることである。

機械学習ではまずTraining setやValidation setのデータセットをオートスケーリングし、続けてモデルを作成し、  
最後にそのモデルをTest setに対して適用し性能を評価すると言ったことがしばしば行われる。  
この最後にモデルを適用する時Test setをオートスケーリングする必要があるが、   
その場合平均値や分散はTraining setやValidation setの値を考慮するのが一般的であり、この時`StandardScaler`を使うと非常に便利である。

#### 4.1 Training setとTest setにデータを分割

今回は前処理の話がメインのためValidation setは用意せず、データの50%をTraining set, 残り50%をTest setとする。  

In [20]:
X_training, y_training = X[:75], y[:75]
X_test, y_test = X[75:], y[75:]

#### 4.2 X_trainingをオートスケーリング

In [21]:
scaler = StandardScaler(with_mean=True, with_std=True)
scaler.fit(X_training)

StandardScaler(copy=True, with_mean=True, with_std=True)

In [22]:
X_training_scaled = scaler.transform(X_training)

X_training_scaledはNumpyのArray型なので再びデータフレームに変換しておく。

In [23]:
X_training_scaled = pd.DataFrame(X_training_scaled)
X_training_scaled.head()

Unnamed: 0,0,1,2,3
0,-0.380556,0.622296,-0.738038,-0.762563
1,-0.695934,-0.428879,-0.738038,-0.762563
2,-1.011312,-0.008409,-0.810871,-0.762563
3,-1.169001,-0.218644,-0.665205,-0.762563
4,-0.538245,0.832531,-0.738038,-0.762563


#### 4.3 モデルを作成

線形判別分析と呼ばれるクラス分類の機械学習を行う[LinearDiscriminantAnalysis](http://scikit-learn.org/stable/modules/generated/sklearn.discriminant_analysis.LinearDiscriminantAnalysis.html#sklearn.discriminant_analysis.LinearDiscriminantAnalysis)クラスを用いてモデルを作成してみる。

In [24]:
clf = LinearDiscriminantAnalysis()
clf.fit(X_training_scaled, y_training)

LinearDiscriminantAnalysis(n_components=None, priors=None, shrinkage=None,
              solver='svd', store_covariance=False, tol=0.0001)

正答率を`score`メソッドを用いて求めてみる。

In [25]:
clf.score(X_training_scaled, y_training) * 100

100.0

正答率は100%であった。

#### 4.4 X_testをオートスケーリング

X_trainingをオートスケーリングするために使った`scaler`オブジェクトを使うことで  
X_trainingの平均値や分散を考慮してオートスケーリングができる。

In [26]:
X_test_scaled = scaler.transform(X_test)
X_test_scaled = pd.DataFrame(X_test_scaled)
X_test_scaled.head()

Unnamed: 0,0,1,2,3
0,1.984779,-0.428879,1.446943,1.465706
1,2.300158,-0.849349,1.738274,1.465706
2,2.142468,-0.428879,1.883939,2.022773
3,1.038645,-0.639114,1.519776,1.651395
4,0.565578,-1.26982,0.791449,0.722949


各説明変数の平均を求めてみる。

In [27]:
X_test_scaled.mean(axis=0)

0    1.583198
1   -0.630705
2    1.959685
3    2.183704
dtype: float64

次に各説明変数の分散を求めてみる。

In [28]:
X_test_scaled.std(axis=0)

0    1.072102
1    0.676788
2    0.604572
3    0.783264
dtype: float64

X_trainingの平均値や分散を考慮してオートスケーリングを行ったので、平均値は0、分散は1になっていない。

#### 4.5 X_testにモデルを適用

最後にX_trainingを用いて作成したモデルをX_testに適用してみる。

正答率を`score`メソッドを用いて求めてみる。

In [29]:
clf.score(X_test_scaled, y_test) * 100

33.333333333333329

正答率は33.3%であった。

今回のようにデータを分割し、片方の平均値や分散を考慮してもう片方もオートスケーリングする必要がある場合は  
`StandardScaler`が適していると言える。