### 데이터 스케일링
- 대부분 분석알고리즘은 컬럼 간 데이터의 범위가 크게 차이나는 경우에는 작동이 잘 되지 않는다. 
- 값의 범위가 작은 컬럼에 비해서 값의 범위가 큰 컬럼이 타겟 범수를 예측하는데 큰 영향을 준다. 
- 스케일링 작업은 모든 컬럼의 값의 범위를 같게 만들어주는 작업
- 스케일링 순서 
    - 데이터 스케일링의 주의할 점 train데이터와 test데이터를 같은 scaler 객체로 스케일링 해야한다. 
    1. Scaler 선택 및 import 
    2. Scaler 객체 생성 (Class)
    3. train 데이터 분포를 저장
    4. train 데이터 스케일링 
    5. test 데이터 스케일링
    6. 원래의 데이터로 변경

#### Standard Scaler
- 표준화 방식으로 기본 스케일링으로 컬럼들을 평균이 0, 분산이 1인 정규분포로 스케일링
- 최솟값과 최댓값의 크기를 제한하지 않아 이상치에 민감하기 때문에 이상치에 대한 확인 및 정제를 한 후 사용 
- 회귀보다는 분류분석에서 유용

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import pandas as pd

In [None]:
iris_data = load_iris()
iris = pd.DataFrame(iris_data['data'], columns = iris_data['feature_names'])
iris['Class'] = iris_data['target']

iris['Class'] = iris['Class'].map(
    {
        0 : 'Setosa', 
        1 : 'Versicolour', 
        2 : 'Virginaca'
    }
)

In [None]:
iris.head()

In [5]:
X_train, X_test, Y_train, Y_test = train_test_split(
    iris.drop('Class', axis=1), 
    iris['Class'], 
    test_size= 0.3, 
    random_state= 1000, 
    stratify= iris['Class']
)

  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):


In [None]:
Y_test

In [8]:
# Scaler 선택 : Standard
from sklearn.preprocessing import StandardScaler

In [9]:
# scaler 객체 생성 -> Class 생성
StdScaler = StandardScaler()

In [None]:
# Train 데이터의 분포를 저장
StdScaler.fit(X_train)

In [None]:
# train 데이터 스케일링
X_train_sc = StdScaler.transform(X_train)
# test 데이터 스케일링 
X_test_sc = StdScaler.transform(X_test)

In [14]:
# Standaer Scaler는 평균이 0 분산 1
print(f"""X_Train min : {X_train_sc.min()}, 
      max : {X_train_sc.max()}, 
      mean : {X_train_sc.mean()}, 
      std : {X_train_sc.std()}""")

X_Train min : -1.8148176152734814, 
      max : 2.9247930249692984, 
      mean : -1.3005469717037547e-15, 
      std : 1.0


In [16]:
print(f"""X_Test min : {X_test_sc.min()}, 
      max : {X_test_sc.max()}, 
      mean : {X_test_sc.mean()}, 
      std : {X_test_sc.std()}""")

X_Test min : -2.3777094375649708, 
      max : 2.257400415227029, 
      mean : 0.007383725095262762, 
      std : 0.9554677587702913


#### Min-Max Scaler
- 정규화 방식으로 컬럼들의 데이터를 0과 1사이의 값으로 스케일링하는 방식
- 최솟값 0, 최댓값1
- 이상치에 매우 민감함으로 이상치를 미리 정제 
- 분류보다는 회귀에서 유용

In [18]:
import warnings
warnings.filterwarnings('ignore')

In [19]:
from sklearn.preprocessing import MinMaxScaler

MmScaler = MinMaxScaler()

MmScaler.fit(X_train)

X_train_sc = MmScaler.transform(X_train)
X_test_sc = MmScaler.transform(X_test)

In [20]:
print(f"""X train min : {X_train_sc.min()}
        max : {X_train_sc.max()}, 
        mean : {X_train_sc.mean()}, 
        std : {X_train_sc.std()}""")

X train min : 0.0
        max : 1.0, 
        mean : 0.42773341916804386, 
        std : 0.27177729343402823


In [23]:
print(f"""X test min : {X_test_sc.min()}
        max : {X_test_sc.max()}, 
        mean : {X_test_sc.mean()}, 
        std : {X_test_sc.std()}""")

X test min : -0.1428571428571428
        max : 0.9583333333333334, 
        mean : 0.43099852778525105, 
        std : 0.2655839625136389


#### Max Abs Scaler
- 최대절대값과 0이 각각 1, 0이 되도록 스케일링 하는 정규화 방식으로 모든 값은 -1과 1 사이로 표현
- 스케일링의 데이터가 양수라면 MinMaxScaler와 동일
- 이상치에 매우 민감
- 분류보단 회귀에서 유용

In [24]:
from sklearn.preprocessing import MaxAbsScaler

MaScaler = MaxAbsScaler()

MaScaler.fit(X_train)

X_train_sc = MaScaler.transform(X_train)
X_test_sc = MaScaler.transform(X_test)

In [25]:
print(f"""X train min : {X_train_sc.min()}
        max : {X_train_sc.max()}, 
        mean : {X_train_sc.mean()}, 
        std : {X_train_sc.std()}""")

X train min : 0.04
        max : 1.0, 
        mean : 0.6137900579821328, 
        std : 0.23731657060779845


In [26]:
print(f"""X test min : {X_test_sc.min()}
        max : {X_test_sc.max()}, 
        mean : {X_test_sc.mean()}, 
        std : {X_test_sc.std()}""")

X test min : 0.08
        max : 0.9746835443037974, 
        mean : 0.6168914868738754, 
        std : 0.23360011644218148


#### Robust Scaler
- 평균과 분산 대신 중앙값과 사분위 값을 활용하는 방식
- 중앙값을 0으로 설정하고  IQR을 사용하여 이상치의 영향을 최소화하는 방식 
- quantile_range 매개변수(기본값[0.25, 0.75])를 조정하여 더 넓거나 좁은 범위의 값을 이상치로 설정하여 정제할수 있다.

In [27]:
# 스케일러 로드 
from sklearn.preprocessing import RobustScaler
# 객체 생성
RuScaler = RobustScaler()
# 범위 지정
RuScaler.fit(X_train)
# 변경
X_train_sc = RuScaler.transform(X_train)
X_test_sc = RuScaler.transform(X_test)

In [30]:
import numpy as np

In [31]:
np.median(X_train_sc)

0.0

In [32]:
np.median(X_test_sc)

0.08333333333333329

In [33]:
print(f"""X train min : {X_train_sc.min()}
        max : {X_train_sc.max()}, 
        mean : {X_train_sc.mean()}, 
        std : {X_train_sc.std()}""")

X train min : -1.1666666666666667
        max : 2.3333333333333335, 
        mean : 0.00435693935693929, 
        std : 0.6171960849999448


In [34]:
print(f"""X test min : {X_test_sc.min()}
        max : {X_test_sc.max()}, 
        mean : {X_test_sc.mean()}, 
        std : {X_test_sc.std()}""")

X test min : -1.6666666666666665
        max : 1.5384615384615377, 
        mean : 0.0031030389363722044, 
        std : 0.5750228163861976


In [35]:
# Robust Scaler에 quantile_range [0.20, 0.80]를 설정
RuScaler2 = RobustScaler(
    quantile_range= (0.2, 0.8)
)

In [36]:
RuScaler2.fit(X_train)

In [37]:
X_train_sc2 = RuScaler2.transform(X_train)
X_test_sc2 = RuScaler2.transform(X_test)

In [38]:
np.median(X_train_sc2)

0.0

In [39]:
print(f"""X train min : {X_train_sc2.min()}
        max : {X_train_sc2.max()}, 
        mean : {X_train_sc2.mean()}, 
        std : {X_train_sc2.std()}""")

X train min : -51.28205128205109
        max : 43.26923076923061, 
        mean : -1.4146336996336961, 
        std : 16.041356384801144


In [40]:
print(f"""X test min : {X_test_sc2.min()}
        max : {X_test_sc2.max()}, 
        mean : {X_test_sc2.mean()}, 
        std : {X_test_sc2.std()}""")

X test min : -46.47435897435881
        max : 32.05128205128193, 
        mean : -0.7239031339031325, 
        std : 15.79567076654151
