#### Attention

そもそも決定木を使用する際は，特徴量に対する対数化や，0から1の範囲に正規化するような大小関係が保存される変換の影響はほとんどありません．数値の大小関係で学習するモデルであるため，基本的にスケーリングを行う必要がありません．


一方で，線形回帰などはスケールの大きい変数ほど回帰係数が小さくなり，正則化がかかりにくいといった問題が生じてしまうので，NN含めスケーリングを行ったほうがいいことが多いです．(後述しますが二値変数や疎ベクトルに対してはスケーリングをしないほうが良い場合もあります．)

#### StandardScaler

各変数をその平均の差をとり，標準偏差で割ることで平均0，分散1の変数に変換します．疎ベクトルの場合は，平均値で差をとることで密ベクトルに変換してしまうため，モデルによっては疎ベクトルを前提に最適化していることもあり不適な場合があります．また，二値変数で偏りがあるときは標準偏差が小さな値になるため，変換後の値が非常に大きくなってしまう場合があり，注意が必要です．

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(train[num_cols])
train[num_cols] = scaler.transform(train[num_cols])
test[num_cols] = scaler.transform(test[num_cols])

#### MinMaxScaler

各変数をその最小値で差をとり，最大値と最小値の差で割ることで各変数の最小値を0，最大値を1に変換します．極端に大きな・小さな値があると，その値に引っ張られたスケーリングをしてしまい悪影響を及ぼす可能性があるため注意が必要です．

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(train[num_cols])
train[num_cols] = scaler.transform(train[num_cols])
test[num_cols] = scaler.transform(test[num_cols])

#### RobustScaler

極端に大きな・小さな値がある場合に使えるスケーリングです。標準では，各変数をその中央値で差をとり，75パーセンタイル値と25パーセンタイル値の差で割ることで各変数の中央値を0に変換します．

In [None]:
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler(quantile_range=(25.0, 75.0))
scaler.fit(train[num_cols])
train[num_cols] = scaler.transform(train[num_cols])
test[num_cols] = scaler.transform(test[num_cols])

#### RankGauss

各変数を順位に変換して正規分布になるように変換します．NNモデルにおいて他のスケーリングよりも良い性能を示すことがあるとのことで，QuantileTransformerを使い，n_quantilesの値を十分に大きくしてoutput_distributionを'normal'に指定することで，実装することができます．

In [None]:
from sklearn.preprocessing import QuantileTransformer

scaler = QuantileTransformer(
    n_quantiles=100,
    random_state=42,
    output_distribution='normal'
)
scaler.fit(train[num_cols])
train[num_cols] = scaler.transform(train[num_cols])
test[num_cols] = scaler.transform(test[num_cols])