### 데이터 스케일링
- 대부분 분석 알고리즘은 컬럼 간 데이터의 범위가 크게 차이나는 경우에는 작동이 잘 되지 않아요.
- 값의 범위가 작은 컬럼에 비해 값으 ㅣ범위가 큰 컬럼이 타겟 변수를 예측하는데 큰 영향을 줘요.
- 스케일링 작업은 모든 컬럼의 값의 범위를 같게 만들어줘요.
- 스케일링 순서
    - 데이터 스케일링의 주의할 점 train 데이터와 test데이터를 같은 scaler객체로 스케일링 해야한다.
    1. Scaler 선택 및 import
    2. Scaler 객체 생성(Class)
    3. train 데이터 분포 저장
    4. train 데이터를 스케일링
    5. test 데이터 스케일링
    6. 기존 데이터로 다시 변경


#### Standard Scaler
- 표준화 방식으로 기본 스케일링으로 컬럼들을 평균이 0, 분산이 1인 정규분포로 스케일링
- 최솟값과 최댓값의 크기를 제한하지 않아 이상치에 민감하기 때문에 이상치에 대한 확인 및 정제를 한 후 사용
- 회귀보다는 분류분석에서 유용

In [1]:
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [2]:
iris_data = load_iris()
iris = pd.DataFrame(iris_data['data'], columns = iris_data['feature_names'])
iris['Class'] = iris_data['target']

iris['Class'] = iris['Class'].map(
    {
        0:'Setosa',
        1: 'Versicolour',
        2: 'Virginaca'
    }
)

In [3]:
iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Class
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [4]:
X_train, X_test, Y_train, Y_test = train_test_split(
    iris.drop('Class',axis = 1),
    iris['Class'],
    test_size= 0.3,
    random_state=1000,
    stratify=iris['Class']
)

In [5]:
Y_train

79     Versicolour
24          Setosa
11          Setosa
131      Virginaca
31          Setosa
          ...     
114      Virginaca
149      Virginaca
77     Versicolour
118      Virginaca
18          Setosa
Name: Class, Length: 105, dtype: object

In [6]:
# Scaler 선택 : Standard
from sklearn.preprocessing import StandardScaler

In [7]:
# scaler 객체 생성 -> Class 생성
StdScaler = StandardScaler()

In [8]:
# train 데이터의 분포를 저장
StdScaler.fit(X_train)

In [9]:
# 분포 저장 이후 train 데이터 스케일링
X_train_sc = StdScaler.transform(X_train)

# X_test 데이터도 스케일링
X_test_sc = StdScaler.transform(X_test)

In [10]:
# Standard Scaler 는 평균이 0 분산 1
print(f'''X_train_sc min : {X_train_sc.min()}, 
      max : {X_train_sc.max()}, 
      mean : {X_train_sc.mean()}, 
      std : {X_train_sc.std()}''')

X_train_sc min : -1.8148176152734814, 
      max : 2.9247930249692984, 
      mean : -1.3005469717037547e-15, 
      std : 1.0


#### Min-Max Scaler
- 정규화 방식으로 컬럼들의 데이터를 0과 1사이의 값으로 스케일링하는 방식
- 최소값 0 최대값 1
- 이상치에 매우 민감하므로, 이상치를 미리 정제해주어야 함.
- 분류보다는 회귀에서 유용하게 사용.

In [11]:
import warnings
warnings.filterwarnings('ignore')

In [12]:
from sklearn.preprocessing import MinMaxScaler

MmScaler = MinMaxScaler()

MmScaler.fit(X_train)

X_train_sc = MmScaler.transform(X_train)
X_test_sc = MmScaler.transform(X_test)

In [13]:
print(f''' X_train min : {X_train_sc.min()}
      max : {X_train_sc.max()}
      mean : {X_train_sc.mean()}
      std : {X_train_sc.std()}
      ''')

 X_train min : 0.0
      max : 1.0
      mean : 0.42773341916804386
      std : 0.27177729343402823
      


In [14]:
X_train

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
79,5.7,2.6,3.5,1.0
24,4.8,3.4,1.9,0.2
11,4.8,3.4,1.6,0.2
131,7.9,3.8,6.4,2.0
31,5.4,3.4,1.5,0.4
...,...,...,...,...
114,5.8,2.8,5.1,2.4
149,5.9,3.0,5.1,1.8
77,6.7,3.0,5.0,1.7
118,7.7,2.6,6.9,2.3


In [15]:
X_train_sc

array([[0.38888889, 0.14285714, 0.42372881, 0.375     ],
       [0.13888889, 0.52380952, 0.15254237, 0.04166667],
       [0.13888889, 0.52380952, 0.10169492, 0.04166667],
       [1.        , 0.71428571, 0.91525424, 0.79166667],
       [0.30555556, 0.52380952, 0.08474576, 0.125     ],
       [0.16666667, 0.0952381 , 0.59322034, 0.66666667],
       [0.61111111, 0.33333333, 0.81355932, 0.875     ],
       [0.63888889, 0.33333333, 0.57627119, 0.54166667],
       [0.55555556, 0.28571429, 0.77966102, 0.70833333],
       [0.72222222, 0.38095238, 0.69491525, 0.91666667],
       [0.5       , 0.33333333, 0.66101695, 0.70833333],
       [0.38888889, 1.        , 0.08474576, 0.125     ],
       [0.94444444, 0.71428571, 0.96610169, 0.875     ],
       [0.58333333, 0.38095238, 0.76271186, 0.70833333],
       [0.58333333, 0.42857143, 0.72881356, 0.91666667],
       [0.30555556, 0.76190476, 0.11864407, 0.125     ],
       [0.36111111, 0.33333333, 0.52542373, 0.5       ],
       [0.05555556, 0.        ,

In [16]:
print(f''' X_test_min : {X_test_sc.min()}
      max : {X_test_sc.max()}
      mean : {X_test_sc.mean()}
      std : {X_test_sc.std()}
      ''')

 X_test_min : -0.1428571428571428
      max : 0.9583333333333334
      mean : 0.43099852778525105
      std : 0.2655839625136389
      


#### Max Abs Scaler (최대 절댓값 스케일러)
- 최대절대값과 0이 각각 1, 0이 되도록 스케일링 하는 정규화 방식
- 모든 값은 -1 과 1 사이에서 표현.
- 스케일링 하는 데이터가 양수라면 MinMaxScaler와 동일하게 만들어질거임.
- 분류보다는 회귀에서 사용됨.

In [17]:
from sklearn.preprocessing import MaxAbsScaler

MaScaler = MaxAbsScaler()

MaScaler.fit(X_train)

X_train_sc = MaScaler.transform(X_train)
X_test_sc = MaScaler.transform(X_test)

In [18]:
print(f''' X_train min : {X_train_sc.min()}
      max : {X_train_sc.max()}
      mean : {X_train_sc.mean()}
      std : {X_train_sc.std()}
      ''')

 X_train min : 0.04
      max : 1.0
      mean : 0.6137900579821328
      std : 0.23731657060779845
      


In [19]:
print(f''' X_test_min : {X_test_sc.min()}
      max : {X_test_sc.max()}
      mean : {X_test_sc.mean()}
      std : {X_test_sc.std()}
      ''')

 X_test_min : 0.08
      max : 0.9746835443037974
      mean : 0.6168914868738754
      std : 0.23360011644218148
      


#### Robust Scaler
- 평균과 분산 대신 중앙값과 사분위 값을 활용하는 방식
- 중앙값을 0으로 설정하고 IQR을 사용하여 이상치의 영향을 최소화하는 방식
- quantile_range 매개변수(기본값[0.25,0.75])를 조정하여 더 넓거나 좁은 범위의 값을 이상치로 설정하여 정제

In [20]:
from sklearn.preprocessing import RobustScaler
import numpy as np

RoScaler = RobustScaler()

RoScaler.fit(X_train)

X_train_sc = RoScaler.transform(X_train)
X_test_sc = RoScaler.transform(X_test)

In [21]:
print(f''' X_train min : {X_train_sc.min()}
      max : {X_train_sc.max()}
      mean : {X_train_sc.mean()}
      median : {np.median(X_train_sc)}
      std : {X_train_sc.std()}
      ''')

 X_train min : -1.1666666666666667
      max : 2.3333333333333335
      mean : 0.00435693935693929
      median : 0.0
      std : 0.6171960849999448
      


In [22]:
print(f''' X_test_min : {X_test_sc.min()}
      max : {X_test_sc.max()}
      mean : {X_test_sc.mean()}
      median : {np.median(X_test_sc)}
      std : {X_test_sc.std()}
      ''')

 X_test_min : -1.6666666666666665
      max : 1.5384615384615377
      mean : 0.0031030389363722044
      median : 0.08333333333333329
      std : 0.5750228163861976
      


In [23]:
# Robust Scaler에 quantile_range([0.25,0.75])를 설정
RoScaler2 = RobustScaler(
    quantile_range=(0.2,0.8)
)

In [24]:
RoScaler2.fit(X_train)

In [25]:
X_train_sc2 = RoScaler2.transform(X_train)
X_test_sc2 = RoScaler2.transform(X_test)

In [26]:
np.median(X_train_sc2)

np.float64(0.0)

In [27]:
print(f''' X_train min : {X_train_sc2.min()}
      max : {X_train_sc2.max()}
      mean : {X_train_sc2.mean()}
      median : {np.median(X_train_sc2)}
      std : {X_train_sc2.std()}
      ''')

 X_train min : -51.28205128205109
      max : 43.26923076923061
      mean : -1.4146336996336961
      median : 0.0
      std : 16.041356384801144
      


In [28]:
print(f''' X_test_min : {X_test_sc2.min()}
      max : {X_test_sc2.max()}
      mean : {X_test_sc2.mean()}
      median : {np.median(X_test_sc2)}
      std : {X_test_sc2.std()}
      ''')

 X_test_min : -46.47435897435881
      max : 32.05128205128193
      mean : -0.7239031339031325
      median : 0.19999999999999996
      std : 15.79567076654151
      
