# 데이터 정규화
- 데이터를 특정 범위나 척도로 변환하여 처리하거나 분석할 때 사용되는 기술
- 데이터 정규화의 목표는 서로 다른 단위나 범위를 가진 데이터를 `동일한 기준으로 맞춤`으로써 데이터 분석이나 머신러닝 모델의 성능을 향상시키는 것

## 1. 작업준비
#### 패키지 참조

In [2]:
from pandas import read_excel
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler

#### 데이터 가져오기

In [3]:
df = read_excel('https://data.hossam.kr/D05/gradeuate.xlsx')
df

Unnamed: 0,합격여부,필기점수,학부성적,병원경력
0,0,380,3.61,3
1,1,660,3.67,3
2,1,800,4.00,1
3,1,640,3.19,4
4,0,520,2.93,4
...,...,...,...,...
395,0,620,4.00,2
396,0,560,3.04,3
397,0,460,2.63,2
398,0,700,3.65,2


## 2. Min-Max Scaler (Normalization, 정규화)
- 모든 데이터의 범위를 `0~1`로 변환하는 것
- 데이터에서 `최솟값 = 0`으로, `최댓값 = 1`로 매핑
- `$(정규화된값) = (X - Xmin)/(Xmax - Xmin)$`
- 이 방법은 `데이터의 분포를 유지`하면서 `데이터를 특정 범위로 축소`시키는 데 유용
- 학습할 때, `MinMaxScaler`로 얻은 값들을 학습하는 것이 StandardScaler로 얻은 값들을 학습하는 것보다 `속도가 더 빠르다`

#### 직접 계산

In [5]:
Xmin = df['필기점수'].min()
Xmax = df['필기점수'].max()
df['필기점수_MinMax(1)'] = (df['필기점수'] - Xmin)/(Xmax - Xmin)
df

Unnamed: 0,합격여부,필기점수,학부성적,병원경력,필기점수_MinMax(1)
0,0,380,3.61,3,0.275862
1,1,660,3.67,3,0.758621
2,1,800,4.00,1,1.000000
3,1,640,3.19,4,0.724138
4,0,520,2.93,4,0.517241
...,...,...,...,...,...
395,0,620,4.00,2,0.689655
396,0,560,3.04,3,0.586207
397,0,460,2.63,2,0.413793
398,0,700,3.65,2,0.827586


#### 파이썬 활용

In [6]:
# 표준화 기능을 제공하는 객체 생성
scaler = MinMaxScaler()

# 표준화를 적용할 필드를 scaler 객체에게 알려줌
scaler.fit(df[['필기점수']])

# 표준화 적용
df['필기점수_MinMax(2)'] = scaler.transform(df[['필기점수']])

df

Unnamed: 0,합격여부,필기점수,학부성적,병원경력,필기점수_MinMax(1),필기점수_MinMax(2)
0,0,380,3.61,3,0.275862,0.275862
1,1,660,3.67,3,0.758621,0.758621
2,1,800,4.00,1,1.000000,1.000000
3,1,640,3.19,4,0.724138,0.724138
4,0,520,2.93,4,0.517241,0.517241
...,...,...,...,...,...,...
395,0,620,4.00,2,0.689655,0.689655
396,0,560,3.04,3,0.586207,0.586207
397,0,460,2.63,2,0.413793,0.413793
398,0,700,3.65,2,0.827586,0.827586


## 3. 표준화 (StandaradScaler), z-score
- 데이터를 `평균 = 0`, `표준편차 = 1`인 `표준정규분포`를 따르도록 변환
- $(정규화된값) = (X - 평균)/표준편차$
- 데이터를 정규분포에 근사시켜서 이상치에 덜 민감하게 만들어 줌

#### 사용 분류
- 값들의 단위가 비슷 -> MinMax 사용
- 값들의 단위가 상이 -> Standard 사용
- 잘 모르겠으면 -> Standard 사용
> 분류 문제에서는 종속변수가 범주형(0, 1)이므로 종속변수는 표준화를 적용하지 않는다

#### 직접 계산

In [8]:
평균 = df['학부성적'].mean()
표준편차 = df['학부성적'].std()
df['학부성적_Standard(1)'] = (df['학부성적'] - 평균) / 표준편차
df

Unnamed: 0,합격여부,필기점수,학부성적,병원경력,필기점수_MinMax(1),필기점수_MinMax(2),학부성적_Standard(1)
0,0,380,3.61,3,0.275862,0.275862,0.578348
1,1,660,3.67,3,0.758621,0.758621,0.736008
2,1,800,4.00,1,1.000000,1.000000,1.603135
3,1,640,3.19,4,0.724138,0.724138,-0.525269
4,0,520,2.93,4,0.517241,0.517241,-1.208461
...,...,...,...,...,...,...,...
395,0,620,4.00,2,0.689655,0.689655,1.603135
396,0,560,3.04,3,0.586207,0.586207,-0.919418
397,0,460,2.63,2,0.413793,0.413793,-1.996758
398,0,700,3.65,2,0.827586,0.827586,0.683455


#### 파이썬 스타일

In [9]:
scaler = StandardScaler()
# scaler.fit(df[['학부성적']])
# df['학부성적_Standard(2)'] = scaler.transform(df[['학부성적]])
df['학부성적_Standard(2)'] = scaler.fit_transform(df[['학부성적']])
df

Unnamed: 0,합격여부,필기점수,학부성적,병원경력,필기점수_MinMax(1),필기점수_MinMax(2),학부성적_Standard(1),학부성적_Standard(2)
0,0,380,3.61,3,0.275862,0.275862,0.578348,0.579072
1,1,660,3.67,3,0.758621,0.758621,0.736008,0.736929
2,1,800,4.00,1,1.000000,1.000000,1.603135,1.605143
3,1,640,3.19,4,0.724138,0.724138,-0.525269,-0.525927
4,0,520,2.93,4,0.517241,0.517241,-1.208461,-1.209974
...,...,...,...,...,...,...,...,...
395,0,620,4.00,2,0.689655,0.689655,1.603135,1.605143
396,0,560,3.04,3,0.586207,0.586207,-0.919418,-0.920570
397,0,460,2.63,2,0.413793,0.413793,-1.996758,-1.999259
398,0,700,3.65,2,0.827586,0.827586,0.683455,0.684310


## 4. RobustScaler
- `이상치(Outliers)`가 존재할 경우 사용
- 이상치에 영향을 최소화하여 데이터를 스케일링하는 방법
- 예) 이상치가 포함된 데이터를 표준화(Standardization)하거나 정규화(Normalization)할 때, 이상치의 영향으로 전체 데이터의 분포가 왜곡돼었을 때,
    - Robust Scaler는 이 문제를 해결하기 위해 중앙값과 사분위수를 사용하여 데이터를 스케일링 함
- $(X - median) / iqr$
#### 직접계산

In [10]:
중앙값 = df['병원경력'].median()
iqr = df['병원경력'].quantile(0.75) - df['병원경력'].quantile(0.25)
df['병원경력_robust(1)'] = (df['병원경력'] - 중앙값) / iqr
df

Unnamed: 0,합격여부,필기점수,학부성적,병원경력,필기점수_MinMax(1),필기점수_MinMax(2),학부성적_Standard(1),학부성적_Standard(2),병원경력_robust(1)
0,0,380,3.61,3,0.275862,0.275862,0.578348,0.579072,1.0
1,1,660,3.67,3,0.758621,0.758621,0.736008,0.736929,1.0
2,1,800,4.00,1,1.000000,1.000000,1.603135,1.605143,-1.0
3,1,640,3.19,4,0.724138,0.724138,-0.525269,-0.525927,2.0
4,0,520,2.93,4,0.517241,0.517241,-1.208461,-1.209974,2.0
...,...,...,...,...,...,...,...,...,...
395,0,620,4.00,2,0.689655,0.689655,1.603135,1.605143,0.0
396,0,560,3.04,3,0.586207,0.586207,-0.919418,-0.920570,1.0
397,0,460,2.63,2,0.413793,0.413793,-1.996758,-1.999259,0.0
398,0,700,3.65,2,0.827586,0.827586,0.683455,0.684310,0.0


#### 파이썬 스타일

In [11]:
scaler = RobustScaler()
scaler.fit(df[['병원경력']])
df['병원경력_Robust(2)'] = scaler.transform(df[['병원경력']])
df

Unnamed: 0,합격여부,필기점수,학부성적,병원경력,필기점수_MinMax(1),필기점수_MinMax(2),학부성적_Standard(1),학부성적_Standard(2),병원경력_robust(1),병원경력_Robust(2)
0,0,380,3.61,3,0.275862,0.275862,0.578348,0.579072,1.0,1.0
1,1,660,3.67,3,0.758621,0.758621,0.736008,0.736929,1.0,1.0
2,1,800,4.00,1,1.000000,1.000000,1.603135,1.605143,-1.0,-1.0
3,1,640,3.19,4,0.724138,0.724138,-0.525269,-0.525927,2.0,2.0
4,0,520,2.93,4,0.517241,0.517241,-1.208461,-1.209974,2.0,2.0
...,...,...,...,...,...,...,...,...,...,...
395,0,620,4.00,2,0.689655,0.689655,1.603135,1.605143,0.0,0.0
396,0,560,3.04,3,0.586207,0.586207,-0.919418,-0.920570,1.0,1.0
397,0,460,2.63,2,0.413793,0.413793,-1.996758,-1.999259,0.0,0.0
398,0,700,3.65,2,0.827586,0.827586,0.683455,0.684310,0.0,0.0


## (다윤추가)
### `fit()`, `transform()`, `fit_transform()`의 차이
#### 1. `.fit()`
- 주어진 데이터들로 `학습 모델을 구축`하는 것이 `.fit()`
- 예)
```python
scaler = MinMaxScaler()
my_fit = scaler.fit(df[['필기점수']])
my_fit
```

In [5]:
scaler = MinMaxScaler()
my_fit = scaler.fit(df[['필기점수']])
my_fit

> MinMaxScaler라는 my_fit 객체가 나온 것
- 이것은 df[['필기점수']]의 데이터를 분석을 해서 '0 ~ 1 사이의 값들로 바꾸려면 주어진 데이터를 어떻게 처리하면 되겠다'라는 학습을 수행한 것 
- 즉, MinMax정규화를 수행하기 위한 `규칙을 발견한 것` - 최솟값을 0으로 보고 최댓값을 1로 봤을 때 나머지 데이터들은 몇 %씩 곱해주면 되겠다 등)이지 그 값들에 실제 정규화가 일어난 것이 아니다
- 이 my_fit에 다른 데이터값들 .transform()으로 주면 학습한 대로 그 데이터값들을 MinMax정규화 시킨다

#### 2. `.transform()`
- 실제로 학습을 처리하는 것이 `.transform()`
- 예) 
```python
my_fit = MinMaxScaler().fit(df[['필기점수']])
minmax = my_fit.transform(df[['필기점수']])
```

In [8]:
my_fit = MinMaxScaler().fit(df[['필기점수']])
minmax = my_fit.transform(df[['필기점수']])
minmax

array([[0.27586207],
       [0.75862069],
       [1.        ],
       [0.72413793],
       [0.51724138],
       [0.93103448],
       [0.5862069 ],
       [0.31034483],
       [0.55172414],
       [0.82758621],
       [1.        ],
       [0.37931034],
       [0.93103448],
       [0.82758621],
       [0.82758621],
       [0.44827586],
       [0.96551724],
       [0.24137931],
       [1.        ],
       [0.55172414],
       [0.48275862],
       [0.75862069],
       [0.65517241],
       [0.79310345],
       [0.93103448],
       [1.        ],
       [0.68965517],
       [0.51724138],
       [0.96551724],
       [0.51724138],
       [0.55172414],
       [0.93103448],
       [0.65517241],
       [1.        ],
       [0.24137931],
       [0.31034483],
       [0.62068966],
       [0.51724138],
       [0.48275862],
       [0.51724138],
       [0.5862069 ],
       [0.62068966],
       [0.65517241],
       [0.48275862],
       [0.82758621],
       [0.4137931 ],
       [0.62068966],
       [0.482

> my_fit 객체를 통해서 .transform()을 통해 df[['필기점수']] 데이터에 학습을 수행한 것
- 즉, 앞에서 학습한 과정(df[['필기점수']]으로 MinMaxScaler() 학습을 수행한 과정)을 가지고 주어진 데이터에 학습을 수행하는 것
- `새로운 값`들을 my_fit에 .transform()으로 주면 `my_fit의 학습결과에 맞춰서` 새로운 값들을 MinMax정규화 해준다

#### 3. `.fit_transform()`
- 앞의 둘 (`.fit()`, `.transform()`)을 한번에 수행하는 함수
- `.fit_transform()`은 학습과 직접 적용하는 것까지 한꺼번에 한다
- 예)
```python
scaler = MinMaxScaler()
minmax = scaler.fit_transform(df[['필기점수']])
minmax
```
- 이 때, 앞에서 만든 정규화 규칙을 그대로 사용하려면 scaler에 `.transform()`으로 새로운 데이터값을 적용해야 됨
    - 만약 `.fit_transform()`으로 하면 .fit_transform()안에 주어진 데이터들로 `새롭게 학습`을 하여 발견한 규칙을 적용하기 때문에 `.transform()`으로 전에 주어진 데이터들을 토대로 학습을 실행한 `my_fit` 객체에 새로운 데이터값을 적용해야 된다.
- 예)

```python
my_fit = MinMaxScaler().fit(df[['필기점수']])
new_value = [[565], [567], [625]] # 이 값은 사용하려하는 객체가 학습한 값의 형태(차원)와 동일해야 된다
my_input = my_fit.transform(new_value)
my_input
```


In [22]:
scaler = MinMaxScaler()
minmax = scaler.fit_transform(df[['필기점수']])
minmax      # df[['필기점수']] 데이터를 df[['필기점수']] 데이터를 토대로 MinMaxScaler() 학습한 
            # df[['필기점수']]의 MinMaxScaler()된 결과값

my_fit = MinMaxScaler().fit(df[['필기점수']])
new_value = [[565], [567], [625]] # 이 값은 사용하려하는 객체가 학습한 값의 형태(차원)와 동일해야 된다
my_input = my_fit.transform(new_value)
my_input    # 새로운 값들을 기존의 학습모델에 적용한 결과값 (즉, 이 예제에서는 MinMaxScaler(정규화)된 값)



array([[0.59482759],
       [0.59827586],
       [0.69827586]])