# 데이터 스케일링 
- 대부분 데이터 분석 알고리즘은 컬럼 간 데이터의 범위가 크게 차이가 나는 경우에는 작동이 잘 되지 않는다. ( 성능 떨어진다. )
- 값의 범위가 작은 컬럼에 비해서 값의 범위가 큰 컬럼이 타깃를 예측하는데 큰 영향을 준다. 
- 스케일링 작업은 모든 컬럼의 값의 범위를 같게 만들어주는 작업 
- 스케일링 순서 
    - 주의할 점 : train, test 데이터를 스케일링 할때는 같은 Scaler 객체로 스케일링 작업을 한다. 
    1. Scaler 선택 및 import 
    2. Scaler class 생성(객체 생성)
    3. train 데이터의 분포를 저장 
    4. train 데이터를 스케일링
    5. test 데이터를 스케일링
    6. 스케일링 데이터를 원본 데이터로 복원 

1. Standard Scaler 
    - 표준화 방식으로 컬럼들의 평균이 0 분산이 1인 정규 분포로 스케일링 
    - 최소값과 최대값의 크기를 제한하지 않기 때문에 이상치에 민감하여 이상치에 대한 확인 및 정제를 한 뒤 사용 
    - 회귀보다는 분류 분석에서 유용

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import pandas as pd

In [None]:
iris_load = load_iris()
iris = pd.DataFrame(iris_load['data'], 
                    columns=iris_load['feature_names'])
iris['class'] = iris_load['target']

In [None]:
iris.head()

In [24]:
# train과 test 데이터로 나눠준다 (7:3)
x_train, x_test, y_train, y_test = train_test_split(
    iris.drop('class', axis=1),
    iris['class'], 
    test_size=0.3, 
    stratify=iris['class'], 
    random_state=42 
)

In [25]:
x_test

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
107,7.3,2.9,6.3,1.8
63,6.1,2.9,4.7,1.4
133,6.3,2.8,5.1,1.5
56,6.3,3.3,4.7,1.6
127,6.1,3.0,4.9,1.8
140,6.7,3.1,5.6,2.4
53,5.5,2.3,4.0,1.3
69,5.6,2.5,3.9,1.1
20,5.4,3.4,1.7,0.2
141,6.9,3.1,5.1,2.3


In [26]:
# Scaler 선택 및 import 
from sklearn.preprocessing import StandardScaler

In [27]:
import warnings
warnings.filterwarnings('ignore')

In [28]:
# 객체 생성 -> class 생성 
StdScaler = StandardScaler()

In [29]:
# 데이터의 분포 저장 -> train 데이터 
StdScaler.fit(x_train)

In [30]:
# 스케일링 -> 데이터의 변화 
x_train_sc = StdScaler.fit_transform(x_train)
x_test_sc = StdScaler.fit_transform(x_test)

In [31]:
print(
    f"""
        x_train 
        mean : {x_train_sc.mean()}
        min : {x_train_sc.min()}
        max : {x_train_sc.max()}
        std : {x_train_sc.std()}
    """
)


        x_train 
        mean : 2.7068294695622867e-16
        min : -2.3190982389687296
        max : 2.9553851204186317
        std : 1.0
    


In [32]:
print(
    f"""
        x_test 
        mean : {x_test_sc.mean()}
        min : {x_test_sc.min()}
        max : {x_test_sc.max()}
        std : {x_test_sc.std()}
    """
)


        x_test 
        mean : -4.884981308350689e-16
        min : -1.9954680257979585
        max : 2.45506561774559
        std : 1.0
    


In [33]:
x_train.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
98,5.1,2.5,3.0,1.1
68,6.2,2.2,4.5,1.5
19,5.1,3.8,1.5,0.3
143,6.8,3.2,5.9,2.3
99,5.7,2.8,4.1,1.3


In [None]:
x_train_sc

2. Min-Max Scaler
    - 정규화 방식으로 컬럼들의 데이터를 0과 1사이의 값으로 스케일링 하는 방식 
    - 최소값 : 0, 최대값 : 1
    - 이상치에 매우 민감함으로 이상치에 대한 정제 필요
    - 분류보다는 회귀에서 유용

In [36]:
from sklearn.preprocessing import MinMaxScaler

In [38]:
MmScaler = MinMaxScaler()

In [39]:
MmScaler.fit(x_train)

In [40]:
x_train_sc = MmScaler.fit_transform(x_train)
x_test_sc = MmScaler.fit_transform(x_test)

In [41]:
def sc_print(train_data, test_data):
    print(
        f"""
            x_train
                min : {train_data.min()}
                max : {train_data.max()}
                mean : {train_data.mean()}
                std : {train_data.std()}
            x_test
                min : {test_data.min()}
                max : {test_data.max()}
                mean : {test_data.mean()}
                std : {test_data.std()}
        """
    )

In [42]:
sc_print(x_train_sc, x_test_sc)


            x_train
                min : 0.0
                max : 1.0
                mean : 0.45008096150337534
                std : 0.26976308013847655
            x_test
                min : 0.0
                max : 1.0000000000000002
                mean : 0.4694998416945297
                std : 0.28785481108726363
        
