# 전처리 | ```MinMaxScalar```

> ```MinMaxScalar```를 통해 자료를 전처리해보자.


## 1. 라이브러리 import

In [2]:
import numpy as np
import pandas as pd
import sklearn.preprocessing

> 오늘 사용할 라이브러리 : sklearn.preprocessing

## 2. ```MinMaxScalar```

### **A. 모티브**

---

\- 예제자료 로드(학점, 토익 등이 취업에 미치는 정도)

In [3]:
df = pd.read_csv('https://raw.githubusercontent.com/guebin/MP2023/main/posts/employment.csv').loc[:7,['toeic','gpa']]
df

Unnamed: 0,toeic,gpa
0,135,0.051535
1,935,0.355496
2,485,2.228435
3,65,1.179701
4,445,3.962356
5,65,1.846885
6,290,0.309928
7,730,0.336081


\- 모형을 돌려보고 해석한 결과(```sklearn.linear_model.Linear_Regression()```)

```
u = X.toeic*0.00571598 + X.gpa*2.46520018 -8.45433334
v = 1/(1+np.exp(-u))
v # 확률같은것임
```

**그래서...**
* 토익이 중요해? 아니면 학점이 중요해?
* 무엇이 얼만큼 중요해?

\- 모티브 : 토익과 gpa 모두 0~1 사이의 척도로 바꾸면 해석이 쉽지 않을까?

### **B. 사용방법**
---

* class를 이용, object를 생성한 방법(이전과 유사한 방법)

In [8]:
sclr = sklearn.preprocessing.MinMaxScaler()

sclr.fit(df)

In [10]:
sclr.transform(df)

##또는 한번에 sclr.fit_transform(df)

array([[0.08045977, 0.        ],
       [1.        , 0.07772319],
       [0.48275862, 0.55663499],
       [0.        , 0.28847292],
       [0.43678161, 1.        ],
       [0.        , 0.45907256],
       [0.25862069, 0.06607128],
       [0.76436782, 0.07275881]])

> ```sclr.fit()```과 ```sclr.transform()```은 입력으로 2차원 자료구조를 기대한다. 따라서 내부 입력 자료가 ```Series```일 경우 제대로 작동하지 않는다.

## 3. ```minmax_scale()``` | 실제 쓰진 않는 방법

### **A. 사용방법**
---

\- scaler를 오브젝트로 따로 만들지 않고 함수형으로 구현

In [12]:
sklearn.preprocessing.minmax_scale(df)

array([[0.08045977, 0.        ],
       [1.        , 0.07772319],
       [0.48275862, 0.55663499],
       [0.        , 0.28847292],
       [0.43678161, 1.        ],
       [0.        , 0.45907256],
       [0.25862069, 0.06607128],
       [0.76436782, 0.07275881]])

> 해당 방법은 1차원 자료구조인 ```Series```도 input이 가능하다.

### **B. discussions**
---
\- 언뜻 보기에는 `MinMaxScaler`보다 `minmaxscale`이 더 좋아보이는데, 일반적으로 ```minmax_scale()```을 사용하지는 않는다. 오브젝트를 생성하여 전처리하는 것이 유리하다.

> train데이터와 test데이터의 스케일링 시 **동일한 변환**을 유지하는 상황에서는 `MinMaxScaler`가 유리하다.
>
> `inverse_transform`과 같은 부가기능을 제공한다.

In [20]:
arr = sclr.fit_transform(df)
sclr.inverse_transform(arr)  ## 원래의 값으로 재변환한다.

array([[1.35000000e+02, 5.15345769e-02],
       [9.35000000e+02, 3.55496117e-01],
       [4.85000000e+02, 2.22843475e+00],
       [6.50000000e+01, 1.17970071e+00],
       [4.45000000e+02, 3.96235620e+00],
       [6.50000000e+01, 1.84688548e+00],
       [2.90000000e+02, 3.09927561e-01],
       [7.30000000e+02, 3.36081305e-01]])

## 4. (tr.test)의 스케일링 | 잘못된 스케일링 방법
\- 주어진 자료가 아래와 같이 train/test로 나누어져 있다고 가정해보자.

In [21]:
X = np.array([1.0, 2.0, 3.0, 4.0, 5.0]).reshape(-1,1)
XX = np.array([1.5, 2.5, 3.5]).reshape(-1,1)

In [22]:
X, XX

(array([[1.],
        [2.],
        [3.],
        [4.],
        [5.]]),
 array([[1.5],
        [2.5],
        [3.5]]))

### **A. 잘못된 스케일링 방법 - 비효율의 문제**
---

In [23]:
sklearn.preprocessing.minmax_scale(X), sklearn.preprocessing.minmax_scale(XX)

(array([[0.  ],
        [0.25],
        [0.5 ],
        [0.75],
        [1.  ]]),
 array([[0. ],
        [0.5],
        [1. ]]))

> 같은 값이어도 다르게 스케일을 변환시킨다...

\- 보통은 1.5가 0과 0.25 사이의 값으로 변환되어야 함.

### **B. 올바른 스케일링 방법**
---

In [24]:
sclr = sklearn.preprocessing.MinMaxScaler()
sclr.fit(X)  ##sclr.fit_transform(X)

In [25]:
sclr.transform(X), sclr.transform(XX)

(array([[0.  ],
        [0.25],
        [0.5 ],
        [0.75],
        [1.  ]]),
 array([[0.125],
        [0.375],
        [0.625]]))

> 중간값으로 잘 들어갔다. 더 합리적임.

### **C. scaled_value ∈ [0, 1]?**
---
\- 주어진 자료가 아래와 같다고 하자.

In [26]:
X = np.array([1.0, 2.0, 3.0, 4.0, 3.5]).reshape(-1,1)
XX = np.array([1.5, 2.5, 5.0]).reshape(-1,1)

> train data(X)의 범위는 1에서 3.5인데 반해, test data(XX)의 특정 값은 그 범위를 넘어갔다.

In [27]:
sclr = sklearn.preprocessing.MinMaxScaler()
sclr.fit(X)
sclr.transform(XX)

array([[0.16666667],
       [0.5       ],
       [1.33333333]])

이에 따라 스케일링된 값이 1보다 커질 수 있다.

### **D. <span style=background-color:pink>아주아주 잘못된 스케일링 방법 - <span style=color:red>정보누수</span></span>**
---
\- 주어진 자료가 아래와 같다고 하자.

In [28]:
X = np.array([1.0, 2.0, 3.0, 4.0, 3.5]).reshape(-1,1)
XX = np.array([1.5, 2.5, 5.0]).reshape(-1,1)

\- train data와 test data를 합친다......?!

In [30]:
np.concatenate([X,XX])

array([[1. ],
       [2. ],
       [3. ],
       [4. ],
       [3.5],
       [1.5],
       [2.5],
       [5. ]])

\- 합친 데이터에서 스케일링

In [31]:
sklearn.preprocessing.minmax_scale(np.concatenate([X,XX]))

array([[0.   ],
       [0.25 ],
       [0.5  ],
       [0.75 ],
       [0.625],
       [0.125],
       [0.375],
       [1.   ]])

> 이렇게 전저리하는 것은 **정보누수**에 해당한다. 본래 test dataset은 알지 못한 상태인데 그것을 합칠 순 없다!
>
> <span style=color:red>대회에서 이런 일이 발생하면 cheating으로 간주되어 탈락된다.</span>

* 위에서 ```minmax_scale()```로 처리하는 것은 전략적으로 비효율적인 문제이지 치팅과 관련된 치명적인 문제가 아니다. (만약 어떠한 경우에 ```minmax_scale``` 전처리 방식이 유리하다는 생각이 들면 사용해도 무방함)