## 代表的な前処理（正規化・標準化）

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from IPython.display import display
from sklearn.preprocessing import StandardScaler, MinMaxScaler

## 正規化、標準化の重要性

* 尺度の異なる変数が混在している場合(例えば1~10と1~1,000,000など)、尺度の大きな変数ほどモデルへの影響度が大きくなることがある。
* これを回避するために、あらかじめ尺度を揃えておくことがよく行われる。
* 尺度を揃える方法として、正規化や標準化がある。
* 尺度の影響を受けるかどうかはアルゴリズムによる。  
    * 影響を受けるアルゴリズムの例:k近傍法、ニューラルネットワーク
    * 影響を受けないアルゴリズムの例：決定木、ランダムフォレスト

## 正規化と標準化の計算

In [None]:
df = pd.DataFrame({"input":[0,1,2,3,4,5]},dtype=float)

# 正規化
df["normalized"] = (df["input"] - df["input"].min()) / (df["input"].max() - df["input"].min())

#標準化
df["standardized"] = (df["input"] - df["input"].mean()) / df["input"].std(ddof=0)

display(df)

## Scikit-learnを用いて正規化と標準化を行う方法

In [None]:
# 正規化の例
# 正規化とは、全データを0-1の範囲におさめる操作
from sklearn.preprocessing import MinMaxScaler
df = pd.DataFrame({"input":[0,1,2,3,4,5]},dtype=float)
mms = MinMaxScaler()
mms.fit_transform(df[["input"]].values)

In [None]:
# 標準化の例
# 標準化とは、平均を引いて、標準偏差で割る操作
from sklearn.preprocessing import StandardScaler
df = pd.DataFrame({"input":[0,1,2,3,4,5]},dtype=float)
stdsc = StandardScaler()
stdsc.fit_transform(df[["input"]].values)

## 正規化と標準化の違いを理解するためのシミュレーション

In [None]:
np.random.seed(1234)
df = pd.DataFrame({"a":np.random.normal(loc=0,scale=1,size=1000),
                                   "b":np.random.normal(loc=100,scale=1,size=1000)})
display(df.head(10))
df.hist()
plt.show()

In [None]:
# 異常値をまぜる
df.loc[0,"a"] = 10
df.hist()
plt.show()

In [None]:
# 正規化
df["a_norm"] = (df["a"] - df["a"].min()) / (df["a"].max() - df["a"].min())
df["b_norm"] = (df["b"] - df["b"].min()) / (df["b"].max() - df["b"].min())

#標準化
df["a_stand"] = (df["a"] - df["a"].mean()) / df["a"].std(ddof=0)
df["b_stand"] = (df["b"] - df["b"].mean()) / df["b"].std(ddof=0)

df.head()

#正規化の結果
df.iloc[:,2:4].hist(bins=np.arange(0,1,.05))
print("正規化の結果")
plt.show()

#標準化の結果
df.iloc[:,4:].hist(bins=np.arange(-5,5,0.5))
print("標準化の結果")
plt.show()

### まとめ
* 0付近にスケーリングしたいのであれば、標準化
* 0-1にスケーリングしたいのであれば、正規化
* 正規化は外れ値の影響を受けやすい

## [演習] ワインデータセットを用いた標準化の練習
* https://archive.ics.uci.edu/ml/datasets/wine
* Class label: イタリアのある地域で栽培されているブドウ品種の種類
* Class label以外：化学的性質
* 化学的性質からブドウ品種を識別する問題

In [None]:
## データを読む
df_wine = pd.read_csv("..//1_data/wine.csv",index_col=[0])
print("")
print("カラム名の確認")
print(df_wine.columns)

print("")
print("データセットの頭出し")
display(df_wine.head())

print("")
print("目的変数となるクラスラベルの内訳")
display(df_wine.groupby(["Class label"])["Class label"].count())

print("")
print("説明変数の要約")
display(df_wine.iloc[:,1:].describe())

### 散布図の作成
クラスラベルと化学成分の関係を把握するために、グラフを描いてみる

In [None]:
import itertools
li_combi = list(itertools.combinations(df_wine.columns[1:], 2))
for X,Y in li_combi:
    print("X=%s"%X,"Y=%s"%Y)
    df_wine.plot(kind="scatter",x=X,y=Y,alpha=0.7,s=10,c="Class label",colormap="winter")#散布図の作成
    plt.xlabel(X)
    plt.ylabel(Y)
    plt.tight_layout()
    plt.show()#グラフをここで描画させるための行

### 学習用データとテストデータに分ける

In [None]:
from sklearn.model_selection import train_test_split
X, y = df_wine.iloc[:,1:].values, df_wine["Class label"].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
display(X_train)
display(X_test)
display(y_train)
display(y_test)

In [None]:
# まずは正規化・標準化する前の1つ目の特徴に関するヒストグラムを出してみる
plt.hist(X_train[:, 0]) # 学習用データ

In [None]:
plt.hist(X_test[:, 0]) # テスト用データ

### [演習] 正規化・標準化
* 以下の*をtrainまたはtestに置き換えましょう

正規化または標準化を行うときは、まず学習用データだけでfitさせ、その係数を使ってテストデータの正規化または標準化を行うこと

In [None]:
#ワインデータの正規化
normsc = MinMaxScaler()
X_train_norm = normsc.fit_transform(X_*)
plt.hist(X_train_norm[:, 0]) #正規化後の1つ目の特徴に関するヒストグラム（学習用データ）

In [None]:
X_test_norm = normsc.transform(X_*)
plt.hist(X_test_norm[:, 0]) #正規化後の1つ目の特徴に関するヒストグラム（テストデータ）

In [None]:
#ワインデータの標準化
stdsc = StandardScaler()
X_train_stand = stdsc.fit_transform(X_*)
plt.hist(X_train_stand[:, 0]) #標準化後の1つ目の特徴に関するヒストグラム（学習用データ）

In [None]:
X_test_stand = stdsc.transform(X_*)
plt.hist(X_test_stand[:, 0]) #標準化後の1つ目の特徴に関するヒストグラム（テストデータ）