# 데이터 스케일링 
- 대부분 데이터 분석 알고리즘은 컬럼 간 데이터의 범위가 크게 차이가 나는 경우에는 작동이 잘 되지 않는다. ( 성능 떨어진다. )
- 값의 범위가 작은 컬럼에 비해서 값의 범위가 큰 컬럼이 타깃를 예측하는데 큰 영향을 준다. 
- 스케일링 작업은 모든 컬럼의 값의 범위를 같게 만들어주는 작업 
- 스케일링 순서 
    - 주의할 점 : train, test 데이터를 스케일링 할때는 같은 Scaler 객체로 스케일링 작업을 한다. 
    1. Scaler 선택 및 import 
    2. Scaler class 생성(객체 생성)
    3. train 데이터의 분포를 저장 
    4. train 데이터를 스케일링
    5. test 데이터를 스케일링
    6. 스케일링 데이터를 원본 데이터로 복원 

1. Standard Scaler 
    - 표준화 방식으로 컬럼들의 평균이 0 분산이 1인 정규 분포로 스케일링 
    - 최소값과 최대값의 크기를 제한하지 않기 때문에 이상치에 민감하여 이상치에 대한 확인 및 정제를 한 뒤 사용 
    - 회귀보다는 분류 분석에서 유용

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import pandas as pd

In [None]:
iris_load = load_iris()
iris = pd.DataFrame(iris_load['data'], 
                    columns=iris_load['feature_names'])
iris['class'] = iris_load['target']

In [None]:
iris.head()

In [None]:
# train과 test 데이터로 나눠준다 (7:3)
x_train, x_test, y_train, y_test = train_test_split(
    iris.drop('class', axis=1),
    iris['class'], 
    test_size=0.3, 
    stratify=iris['class'], 
    random_state=42 
)

In [None]:
x_test

In [None]:
# Scaler 선택 및 import 
from sklearn.preprocessing import StandardScaler

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
# 객체 생성 -> class 생성 
StdScaler = StandardScaler()

In [None]:
# 데이터의 분포 저장 -> train 데이터 
StdScaler.fit(x_train)

In [None]:
# 스케일링 -> 데이터의 변화 
x_train_sc = StdScaler.fit_transform(x_train)
x_test_sc = StdScaler.fit_transform(x_test)

In [None]:
print(
    f"""
        x_train 
        mean : {x_train_sc.mean()}
        min : {x_train_sc.min()}
        max : {x_train_sc.max()}
        std : {x_train_sc.std()}
    """
)

In [None]:
print(
    f"""
        x_test 
        mean : {x_test_sc.mean()}
        min : {x_test_sc.min()}
        max : {x_test_sc.max()}
        std : {x_test_sc.std()}
    """
)

In [None]:
x_train.head()

In [None]:
x_train_sc

2. Min-Max Scaler
    - 정규화 방식으로 컬럼들의 데이터를 0과 1사이의 값으로 스케일링 하는 방식 
    - 최소값 : 0, 최대값 : 1
    - 이상치에 매우 민감함으로 이상치에 대한 정제 필요
    - 분류보다는 회귀에서 유용

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
MmScaler = MinMaxScaler()

In [None]:
MmScaler.fit(x_train)

In [None]:
x_train_sc = MmScaler.fit_transform(x_train)
x_test_sc = MmScaler.fit_transform(x_test)

In [None]:
def sc_print(train_data, test_data):
    print(
        f"""
            x_train
                min : {train_data.min()}
                max : {train_data.max()}
                mean : {train_data.mean()}
                std : {train_data.std()}
            x_test
                min : {test_data.min()}
                max : {test_data.max()}
                mean : {test_data.mean()}
                std : {test_data.std()}
        """
    )

In [None]:
sc_print(x_train_sc, x_test_sc)

3. Max Abs Scaler 
    - 최대절댓값과 0이 각각 1, 0이 되도록 스케일링하는 정규화 방식으로 모든 값은 -1과 1 사이의 값으로 표현 
    - 스케일링 대상 데이터가 양수로만 존재하면 MinMaxScaler와 동일
    - 이상치에 민감
    - 분류보다는 회귀 유용

In [None]:
from sklearn.preprocessing import MaxAbsScaler
MaScaler = MaxAbsScaler()
MaScaler.fit(x_train)
x_train_sc = MaScaler.fit_transform(x_train)
x_test_sc = MaScaler.fit_transform(x_test)
sc_print(x_train_sc, x_test_sc)

4. Robust Scaler
    - 평균과 분산 대신에 중앙값과 사분수위수 활용하는 방식
    - 중앙값을 0으로 설정하고 IQR을 사용하여 이상치의 영향을 최소화 하는 방식 
    - quantile_range 매개변수(기본값(0.25, 0.75))를 변경하여 더 넓거나 좁은 범위의 값을 이상치로 설정하여 정제 가능

In [None]:
from sklearn.preprocessing import RobustScaler

In [None]:
RuScaler = RobustScaler()

In [None]:
RuScaler.fit(x_train)

In [None]:
x_train_sc = RuScaler.fit_transform(x_train)
x_test_sc = RuScaler.fit_transform(x_test)

In [None]:
sc_print(x_train_sc, x_test_sc)

In [49]:
import numpy as np

In [50]:
np.median(x_train_sc)

0.0

In [61]:
RuScaler2 = RobustScaler(quantile_range=(30, 70))

In [62]:
RuScaler2.fit(x_train)

In [63]:
x_train_sc2 = RuScaler2.fit_transform(x_train)
x_test_sc2 = RuScaler2.fit_transform(x_test)

In [64]:
sc_print(x_train_sc, x_test_sc)


            x_train
                min : -2.0
                max : 2.8000000000000007
                mean : -0.0026703950811093505
                std : 0.6687268311539591
            x_test
                min : -1.7500000000000009
                max : 2.5000000000000004
                mean : -0.05925925925925922
                std : 0.6610379296415965
        


In [65]:
sc_print(x_train_sc2, x_test_sc2)


            x_train
                min : -2.499999999999998
                max : 3.499999999999998
                mean : 0.005681680956406234
                std : 0.8197027489285289
            x_test
                min : -1.8421052631578958
                max : 2.6315789473684217
                mean : -0.07505206212958837
                std : 0.7549928289627681
        
