# 4.4 특성 스케일 맞추기

**특성 스케일 조정**은 잊어버리기 쉽지만 매우 중요하다.<br>

대부분의 머신 러닝과 최적화 알고리즘은 **특성의 스케일이 같을 때 성능이 훨씬 좋다**.<br><br>

특성 스케일 조정에 대해 걱정할 필요 없는 알고리즘에는 **결정 트리(decision tree)**와 **랜덤 포레스트(random forest)**가 있다.

<br>

스케일을 조정하는 대표적인 방법
- 정규화(normalization)
- 표준화(standardization)

---
<br>

### **정규화** - ```MinMaxScaler```
대부분 정규화는 **최소-최대 스케일 변환(min-max scaling)**의 특별한 경우로 특성의 **스케일을 [0, 1] 범위에 맞추는 것**을 의미한다.

<br>
공식은 다음과 같다.

$$x_{norm}^{(i)} = \frac{x^{(i)}-x_{min}}{x_{max}-x_{min}}$$
<br>
$$특정샘플: x^{(i)}, 최솟값: x_{min}, 최댓값: x_{max}$$

In [6]:
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
X_train_norm = mms.fit_transform(X_train)
X_test_norm = mms.transform(X_test)

**min-max scaling**을 통한 정규화는 **정해진 범위의 값이 필요할 때** 유용하게 사용할 수 있다.<br>

반면에 **표준화**는 **최적화 알고리즘**에서 널리 사용한다.

---

<br>


### **표준화** - ```StandardScaler```
표준화는 특성의 **평균을 0**에 맞추고 **표준 편차를 1**로 만들어 **정규분포와 같은 특징**을 가지도록 만든다.<br>

- **가중치를 더 쉽게 학습**할 수 있도록 만든다.
- min-max scaling에 비해 **이상치에 덜 민감**하다.

<br>
공식은 다음과 같다.
$$x_{std}^{(i)} = \frac{x^{(i)}-\mu_{x}}{\sigma_{x}}$$
<br>
$$샘플평균: \mu_{x}, 표준편차: \sigma_{x}$$



In [None]:
from sklearn.preprocessing import StandardScaler
stdsc = StandardScaler()
X_train_std = stdsc.fit_transform(X_train)
X_test_std = stdsc.transform(X_test)

**사이킷런**은 ```MinMaxScaler``` 클래스와 비슷하게 **표준화를 위한 함수**로 **```StandardScaler```를 제공**한다.

---

<br>

#### 0에서 5까지 숫자로 이루어진 데이터셋의 표준화와 정규화 특성 스케일 변환 기법 비교

In [22]:
import pandas as pd
ex = np.array([0, 1, 2, 3, 4, 5])
standardazation = (ex-ex.mean()) / ex.std()
normalization = (ex - ex.min()) / (ex.max() - ex.min())

raw_data = {'Input': ex,
        'Standardization': standardazation,
        'Normalization': normalization}

data = pd.DataFrame(raw_data)
data

Unnamed: 0,Input,Standardization,Normalization
0,0,-1.46385,0.0
1,1,-0.87831,0.2
2,2,-0.29277,0.4
3,3,0.29277,0.6
4,4,0.87831,0.8
5,5,1.46385,1.0


---
<br>

### **```RobustScaler```**

**```RobustScaler```를 추천하는 경우**<br> 

- **이상치가 많이** 포함된 **작은** 데이터셋을 다루는 경우
- 데이터셋에 적용된 머신 러닝 알고리즘이 **과대적합되기 쉬운** 경우

<br>

```RobustScaler```는 **특성 열마다 독립적으로 작용**한다.<br>
중간 값을 뺀 값에 **1사분위수**(25백분위수)와 **3사분위수**(75백분위수)차이를 나누어 **데이터셋의 스케일을 조정**한다.<br>
따라서 **극단적인 값과 이상치에 영향을 덜 받는다**.<br>

<br>
공식은 다음과 같다.
$$x^{(i)}_{robust} = \frac {x^{(i)} - q_{2}}{q_{3} - q_{1}}$$

<br>

사용법은 StandardScaler와 동일하다.



In [14]:
from sklearn.preprocessing import RobustScaler
rbs = RobustScaler()
X_train_robust = rbs.fit_transform(X_train)
X_test_robus = rbs.fit_transform(X_test)

In [15]:
(ex - np.percentile(ex, 50)) / (np.percentile(ex, 75) - np.percentile(ex, 25))

array([-1. , -0.6, -0.2,  0.2,  0.6,  1. ])

---

<br>

### **```MaxAbsScaler```**

```MaxAbsScaler```는 각 **특성별로** 데이터를 **최대 절댓값으로 나눈다**.<br>

따라서 각 특성의 **최댓값은 1**이 되고, **전체 특성은 [-1, 1] 범위**가 된다.

In [16]:
from sklearn.preprocessing import MaxAbsScaler
mas = MaxAbsScaler()
X_train_maxabs = mas.fit_transform(X_train)
X_test_maxabs = mas.fit_transform(X_test)

In [17]:
ex / np.max(np.abs(ex))

array([0. , 0.2, 0.4, 0.6, 0.8, 1. ])

---

<br>

### **함수**

```StandardScaler, MinMaxScaler, RobustScaler, MaxAbsScaler```에 대응하는 ```scale(), minmax_scale(), robust_scale(), maxabs_scale()``` 함수가 있다.<br>

이 함수들은 1차원 배열도 입력받을 수 있다.

In [19]:
from sklearn.preprocessing import scale, minmax_scale, robust_scale, maxabs_scale

raw_data = {'Input': ex,
        'StandardScaler': scale(ex),
        'MinMaxScaler': minmax_scale(ex),
        'RobustScaler': robust_scale(ex),
        'MaxAbsScaler': maxabs_scale(ex)}

data = pd.DataFrame(raw_data)
data

Unnamed: 0,Input,StandardScaler,MinMaxScaler,RobustScaler,MaxAbsScaler
0,0,-1.46385,0.0,-1.0,0.0
1,1,-0.87831,0.2,-0.6,0.2
2,2,-0.29277,0.4,-0.2,0.4
3,3,0.29277,0.6,0.2,0.6
4,4,0.87831,0.8,0.6,0.8
5,5,1.46385,1.0,1.0,1.0


**```MaxAbsScaler, maxabs_scale()```**은 데이터를 중앙에 맞추지 않기 때문에 **희소 행렬을 사용할 수 있다**.

        >>> from scipy import sparse
        >>> X_train_sparse = sparse.csr_matrix(X_train)
        >>> X_train_maxabs = mas.fit_transform(X_train_sparse)


**```RobustScaler```**는 ```fit()``` 메소드에 희소 행렬을 사용할 수 없지만 **```transform()``` 메소드에서 변환은 가능**하다.

        >>> X_train_robust = rbs.transform(X_train_sparse)

**```StandardScaler```**는 **```with_mean=False```**로 지정하면 **희소 행렬을 사용할 수 있다.**<br><br>

- *희소 행렬: 행렬 값이 대부분 0인 경우*

---

<br>

### **```Normalizer``` & ```normalize()```**

**```Normalizer``` 클래스**와 **```normalize()``` 메소드**는 
- 특성이 아니라 **샘플별로 정규화**를 수행한다.
- **희소 행렬 처리**도 가능하다.
- 기본적으로 각 샘플의 **L2노름이 1이 되도록 정규화**한다.

In [24]:
from sklearn.preprocessing import Normalizer
nrm = Normalizer()
X_train_l2 = nrm.fit_transform(X_train)

        def __init__(norm='l2', copy=True)

```Normalizer``` 클래스는 ```norm``` 매개변수에 ```'l1', 'l2', 'max'```를 지정할 수 있다.<br>

**기본값은 ```'l2'```**이다.<br>
<br>
**0을 제외한 ```'l1'```과 ```'l2'```의 차이점**

In [25]:
ex_2f = np.vstack((ex[1:], ex[1:]**2))
ex_2f

array([[ 1,  2,  3,  4,  5],
       [ 1,  4,  9, 16, 25]])

##### **n2 norm**
L2 노름 공식
$$\left \| x \right \| = \sqrt{x^{2}_{1} + x^{2}_{2} + \cdot \cdot \cdot + x^{2}_{n}}$$

<br>

샘플별로 특성의 제곱을 더하기 위해 **```sum()``` 함수에서 ```axis=1```을 사용**한다.<br>

이 값의 **제곱근**을 구하면 L2 노름이 된다.<br>

그 다음 각 샘플의 특성을 해당 **L2 노름으로 나눈다**.

In [30]:
l2_norm = np.sqrt(np.sum(ex_2f ** 2, axis=1))
print(l2_norm)

[ 7.41619849 31.28897569]


In [28]:
ex_2f / l2_norm.reshape(-1, 1)

array([[0.13483997, 0.26967994, 0.40451992, 0.53935989, 0.67419986],
       [0.03196014, 0.12784055, 0.28764125, 0.51136222, 0.79900347]])

##### **l1 norm**
```Normalizer``` 클래스에 **```norm='l1'```**으로 지정하면 **절댓값인 L1 노름을 사용**한다.<br>

L1 노름 공식

$$\left \| x \right \| _{1}= |x_{1}| + |x_{2}| + \cdot \cdot \cdot + |x_{n}|$$



In [32]:
l1_norm = np.sum(np.abs(ex_2f), axis=1)
print(l1_norm)

[15 55]


In [34]:
ex_2f / l1_norm.reshape(-1, 1)

array([[0.06666667, 0.13333333, 0.2       , 0.26666667, 0.33333333],
       [0.01818182, 0.07272727, 0.16363636, 0.29090909, 0.45454545]])

##### **max norm**

샘플의 **최대 절댓값을 사용**한다.

In [37]:
max_norm = np.max(np.abs(ex_2f), axis=1)
print(max_norm)

[ 5 25]


In [38]:
ex_2f / max_norm.reshape(-1, 1)

array([[0.2 , 0.4 , 0.6 , 0.8 , 1.  ],
       [0.04, 0.16, 0.36, 0.64, 1.  ]])