<a href="https://colab.research.google.com/github/sssanghn/Machinelearning-Problem-Solve/blob/main/Feature_Scailing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 피처 스케일링

> 피처 스케일링이란 서로 다른 피처 값의 범위(최댓값 - 최솟값)가 일치하도록 조정하는 작업을 말한다.

단, 트리 기반 모델(랜덤 포레스트, XGBoost, LightGBM 등)은 피처 스케일링이 필요 없다.</br>
트리 기반 모델은 데이터의 크기보다는 대소 관계에 영향을 받기 때문이다. </br>
피처 스케일링을 하더라도 데이터의 대소 관계에는 변함이 없다.

> 피처 스케일링에는 다양한 방법이 있으며, 그 중 가장 많이 쓰이는 **min_max 정규화**와 **표준화**를 살펴보자.

**min-max 정규화**
> min-max 정규화는 피처 값의 범위를 0~1로 조정하는 기법이다. </br>
조정 후 최솟값은 0, 최댓값은 1이 된다.
$$ X_{scaled} = \frac{x-x_{min}}{x_{max} - x_{min}} $$

min-max 정규화는 사이킷런의 MinMaxScaler로 구현할 수 있다.

In [None]:
import pandas as pd

height_weight_dict = {'키': [1.7, 1.5, 1.8], '몸무게': [75, 55, 60]}
df = pd.DataFrame(height_weight_dict, index=['광일', '혜성', '덕수'])

print(df)

      키  몸무게
광일  1.7   75
혜성  1.5   55
덕수  1.8   60


In [None]:
from sklearn.preprocessing import MinMaxScaler

# min-max 정규화 객체 생성
scaler = MinMaxScaler()

# min-max 정규화 적용
scaler.fit(df)
df_scaled = scaler.transform(df)

print(df_scaled)

[[0.66666667 1.        ]
 [0.         0.        ]
 [1.         0.25      ]]


> **fit()과 transform() vs. fit_transform()** </br> </br>
fit()과 transform()은 fit_transform()으로 한 번에 실행할 수 있다. </br>
데이터 하나에만 min-max 정규화를 적용하려면 fit_transform()을 쓰는 게 당연히 더 편리하다. </br>
<mark>하지만 한 데이터에 맞춰 놓은 스케일링 범위를 다른 데이터에도 적용하려면 fit()과 transform()을 따로 써야 한다.</mark>



**표준화**
> 표준화는 평균이 0, 분산이 1이 되도록 피처 값을 조정하는 기법이다. </br>
min-max 정규화와 다르게 표준화는 상한과 하한이 없다.
$$ x_{scaled} = \frac {x-x^̅}{σ}$$

In [3]:
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
scaler = StandardScaler()

# 표준화 적용
df_scaled = scaler.fit_transform(df)

print(df_scaled)

[[ 0.26726124  1.37281295]
 [-1.33630621 -0.98058068]
 [ 1.06904497 -0.39223227]]
