# （Min-Max）正規化

#### 正規化（Normalization）:
最小値を０、最大値を１にするスケーリング手法

$$
Xnormalized = \frac{max(X)−min(X)}{X−min(X)}
$$

In [1]:
from sklearn.preprocessing import MinMaxScaler

# データの例
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]

# MinMaxScalerのインスタンスを作成
scaler = MinMaxScaler()

# データを正規化
normalized_data = scaler.fit_transform(data)

print(normalized_data)

[[0.   0.  ]
 [0.25 0.25]
 [0.5  0.5 ]
 [1.   1.  ]]


# 標準化

#### 標準化（Standardization）：
平均を０、標準偏差を１とするスケーリング手法

$$
Xstandadization = \frac{X−μ}{σ}
$$

In [2]:
from sklearn.preprocessing import StandardScaler

# Data example
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]

# StandardScaler instance
scaler = StandardScaler()

# Standardize the data
standardized_data = scaler.fit_transform(data)

print(standardized_data)

[[-1.18321596 -1.18321596]
 [-0.50709255 -0.50709255]
 [ 0.16903085  0.16903085]
 [ 1.52127766  1.52127766]]


### 正規化と標準化の使い分け

#### 標準化を用いる場合

* 最大値及び最小値が決まっていない場合\
* 外れ値が存在する場合（外れ値が存在するデータに対して正規化を行うとスケーリングが外れ値に大きく影響されてしまいます\
* 機械学習で回帰モデルを構築する際は一般的に用いられる

#### 正規化を用いる場合

* 最大値が決まっている場合
* 画像処理におけるRGBの強さを扱う場合（学習コストを下げる事ができるため）

### 特徴量によって異なるデータスケールを統一するためよりも深い理由
* 機械学習や回帰では特徴量の係数を算出するが、スケールが統一されていないと、スケールが大きい特徴量の重要度が必要以上に高くなってしまうから

### Min-Max正規化と最大値で割るだけの正規化の違い
Max-Min正規化がデータを0と1の間に収めるのに対し、最大値で除算する正規化では最小値が0になるとは限らない点です。\
Max-Min正規化はデータの相対的な位置関係（例えば、中央値や四分位数など）を保ちつつ、一定の範囲にデータを収めるのに適しています。\
一方、最大値で除算する正規化は、データのスケールを変更するだけで、元のデータの形状をより保持します。