#### 스케일 조정
- 분석시에 변수들이 너무 스케일이 다를 경우
- 변수들의 단위 차이로 인해 숫자의 스케일이 크게 달라지는 경우

- 신경망 학습시에 데이터셋의 값이 들쑥날쑥하거나, 매우 큰 경우에는 cost의 값이 발산하여 정상적인 학습이 이루어지지 않음.

#### 스케일 종류
1. Standard Scaler
- 평균 0 , 분산 1로 조정합니다
- 보통의 싸이킷런 함수들과 비슷하게 fit, transform, fit_transform 다 지원합니다.

2. Robust Scaler
- 평균과 분산 대신 중간값(median)과 사분위값을 사용합니다
- (X - Q2) / (Q3-Q1)
[Q2 = 중간값, Q3 = 3분위값, Q1 = 1분위값]
- 이상치에 강하게 만들수 있습니다.
(1,2,3,4,5,1,3,5,1000 이런 극단저긴 데이터로 한번 생각해보세요)

3. MinMax Scaler
- (X-Xmin)/(Xmax-Xmin)
- 모든 값이 0~1사이에 존재
- 정규화 방법중 원데이터 분포를 유지하면서 정규화하는 방법(ADsP)

4. Normalizer
- 특성벡터의 모든 길이가 1이 되도록 조정 합니다(반지름 1인 원에 투영하는 느낌)
- 특성벡터의 길이는 상관없고, 데이터의 방향이나 각도가 중요할 경우 사용합니다.

#### sklearn.preprocessing.StandardScaler
* class sklearn.preprocessing.StandardScaler(*, copy=True, with_mean=True, with_std=True)
from sklearn.datasets imp

In [1]:
from sklearn.datasets import load_iris
import pandas as pd
# 붓꽃 데이터 셋을 로딩하고 DataFrame으로 변환
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data = iris_data, columns = iris.feature_names)
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [2]:
from sklearn.preprocessing import StandardScaler
# StandardScaler 객체 생성
scaler = StandardScaler()
# StandardScaler 로 데이터셋 변환, fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
# transform() 할 때 scale 변환된 데이터 셋이 numpy ndarray로 반환되어 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)
iris_df_scaled.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,-1.468455e-15,-1.823726e-15,-1.610564e-15,-9.473903e-16
std,1.00335,1.00335,1.00335,1.00335
min,-1.870024,-2.433947,-1.567576,-1.447076
25%,-0.9006812,-0.592373,-1.226552,-1.183812
50%,-0.05250608,-0.1319795,0.3364776,0.1325097
75%,0.6745011,0.5586108,0.7627583,0.7906707
max,2.492019,3.090775,1.785832,1.712096


#### sklearn.preprocessing.MinMaxScaler
* class sklearn.preprocessing.MinMaxScaler(feature_range=(0, 1), *, copy=True, clip=False)

In [3]:
from sklearn.preprocessing import MinMaxScaler
# MinMaxScaler 객체 생성
scaler = MinMaxScaler()
# MinMaxScaler로 데이터셋 변환, fit()과 transfom() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
#transform()시 scale 변환된 데이터셋이 numpy ndarry로 반환되어 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)
iris_df_scaled.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,0.428704,0.440556,0.467458,0.458056
std,0.230018,0.181611,0.299203,0.317599
min,0.0,0.0,0.0,0.0
25%,0.222222,0.333333,0.101695,0.083333
50%,0.416667,0.416667,0.567797,0.5
75%,0.583333,0.541667,0.694915,0.708333
max,1.0,1.0,1.0,1.0
