## 스케일 정리(스케일러)
- 너무 작은 숫자 너무 큰 숫자의 영향을 받지 않도록 일정한 범위 안에서 정리해주는 기법
- X1 0~1
- X2 0~1000000
 - 1. min-max sclaer(최소-최대)
 - 2. standard scaler(표준 정규분포)
 - 3. robust scaler(중앙값, 사분위수)

In [1]:
#데이터를 특정범위로 변환함
#데이터의 최소값과 최대값을 이미 알고 있거나, 데이터를 특정 범위 내로 변환할 때 유용
from sklearn.preprocessing import MinMaxScaler
#데이터의 평균을 제거하고 분산을 1로 만들어서 표준 정규 분포(평균 0, 표준편차 1)로 변함
#데이터가 정규분포(가우시안 분포)모양을 따른다고 가정할 때 유용
from sklearn.preprocessing import StandardScaler
#중앙값과 IQR(사분위수 범위)를 사용하여 데이터를 변환
#데이터에 이상치가 포함된 경우에 유용(중앙값을 사용하므로 이상치 영향을 최소화함)
from sklearn.preprocessing import RobustScaler

In [2]:
from sklearn.datasets import load_wine
import pandas as pd
import numpy as np

raw = load_wine()
X = pd.DataFrame(raw.data, columns=raw.feature_names)
Y = pd.DataFrame(raw.target, columns=['target'])

In [3]:
X.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


In [6]:
#스탠다드 스케일러
#정의
s_scaler = StandardScaler()
#핏_트랜스폼
result = s_scaler.fit_transform(X[['alcohol', 'magnesium']])
#새로운 df
print(result)

[[ 1.51861254  1.91390522]
 [ 0.24628963  0.01814502]
 [ 0.19687903  0.08835836]
 [ 1.69154964  0.93091845]
 [ 0.29570023  1.28198515]
 [ 1.48155459  0.86070511]
 [ 1.71625494 -0.26270834]
 [ 1.3086175   1.49262517]
 [ 2.25977152 -0.192495  ]
 [ 1.0615645  -0.12228166]
 [ 1.3580281   0.36921172]
 [ 1.38273339 -0.33292168]
 [ 0.92568536 -0.75420173]
 [ 2.16095032 -0.61377505]
 [ 1.70390229  0.1585717 ]
 [ 0.77745356  0.86070511]
 [ 1.60508109  1.42241183]
 [ 1.02450655  1.07134513]
 [ 1.46920194  0.57985175]
 [ 0.78980621  1.14155847]
 [ 1.3086175   1.84369188]
 [-0.08723191  0.1585717 ]
 [ 0.87627476  0.08835836]
 [-0.18605311 -0.33292168]
 [ 0.61686912 -0.26270834]
 [ 0.06099988  1.7032652 ]
 [ 0.48098997 -0.47334836]
 [ 0.36981612 -0.40313502]
 [ 1.07391715  0.50963841]
 [ 1.2592069  -0.26270834]
 [ 0.90098006  0.08835836]
 [ 0.71569031  0.43942506]
 [ 0.83921681  0.29899838]
 [ 0.93803801  2.26497192]
 [ 0.62922177  0.72027843]
 [ 0.59216382  0.01814502]
 [ 0.34511082  0.72027843]
 

In [8]:
mScaler = MinMaxScaler(feature_range=(0,10))
result = mScaler.fit_transform(X)
print(result)

[[8.42105263 1.91699605 5.72192513 ... 4.55284553 9.70695971 5.61340942]
 [5.71052632 2.05533597 4.17112299 ... 4.63414634 7.8021978  5.5064194 ]
 [5.60526316 3.20158103 7.00534759 ... 4.47154472 6.95970696 6.46932953]
 ...
 [5.89473684 6.99604743 4.81283422 ... 0.89430894 1.06227106 3.97289586]
 [5.63157895 3.65612648 5.40106952 ... 0.97560976 1.28205128 4.0085592 ]
 [8.15789474 6.64031621 7.37967914 ... 1.05691057 1.20879121 2.01141227]]


1 [3=Q1] 4 [5=Q2] 6 [7=Q3] 9
- IQR = 7-3 = 4
- 낮은 이상치 = 3-1.5*IQR
- 높은 이상치 = 7+1.5*IQR

In [9]:
rscaler = RobustScaler()

result = rscaler.fit_transform(X)
print(result)

[[ 0.8973384  -0.10472973  0.20143885 ...  0.22222222  0.92494929
   0.80804954]
 [ 0.11406844 -0.05743243 -0.63309353 ...  0.25185185  0.5030426
   0.77708978]
 [ 0.08365019  0.33445946  0.89208633 ...  0.19259259  0.31643002
   1.05572755]
 ...
 [ 0.16730038  1.63175676 -0.28776978 ... -1.11111111 -0.98985801
   0.33333333]
 [ 0.09125475  0.48986486  0.02877698 ... -1.08148148 -0.94117647
   0.34365325]
 [ 0.82129278  1.51013514  1.09352518 ... -1.05185185 -0.95740365
  -0.23426213]]
