### 스케일링 작업 : 이상치 데이터로 분류의 정밀도가 낮아짐을 개선하기 위한 이유
1. MinMaxScaler
    - 0~1로 작업 -> 데이터 축소 작업이 되는것
    - 이상치 값이 존재 할 경우 판단할 수 있는 값의 폭이 좁기 떄문에 판단이 모호하다. -> 그럴때 2번으로
2. 표준화
    - 평균을 0으로, 분산은 1로 만들어줌
    - 특징량이 정규 분포인 경우 표준화된 특징량은 표준 정규 분포가 된다.
3. 정규화
    - 특징량을 정규화 (분산된 데이터를 어떤 일정한 범위에 가두는 것) 0~1, -1 ~1 사이로 가룬다.
    
- 머신러닝은 3단계 모두, 딥러닝은 바로 정규화로 넘어가는 경우가 많다.

## Min-Max Scaling

$$
{\tilde{x} = \frac{x - min(x)}{max(x) - min(x)}
}
$$

In [1]:
import numpy as np
import pandas as pd444444444
from sklearn.preprocessing import MinMaxScaler


# 1. 데이터 생성
np.random.seed(100)
data_array = []

for i in range(1, 100):
  s = np.random.randint(0, i * 10, 10)
  data_array.extend(s)

data_array.extend(np.zeros(100))

# 2. 데이터 프레임으로 생성
data = pd.DataFrame({'Listen Count': data_array})

# 3. 최대값과 최소값을 리턴받자
print("max : ",data.max()) # 977.0
print("min : ",data.min()) # 0


max :  Listen Count    977.0
dtype: float64
min :  Listen Count    0.0
dtype: float64


In [2]:
scaler = MinMaxScaler() # 데이터를 줄인다. 0 ~ 1
data_n = scaler.fit_transform(data) # 실행 후 배열의 객체로 리턴
data_n = pd.DataFrame(data_n) # 프레임 생성

print(data_n.max(),' ~', data_n.min()) ## 1.0 ~ 0으로 출력

0    1.0
dtype: float64  ~ 0    0.0
dtype: float64


## 표준화 작업

$$
{\tilde{x} = \frac{x - mean(x)}{sqrt(var(x))}
}
$$

In [5]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler # 표준화 작업 -> 너 이상치가 있어서 판단이 모호하구나? 그래서 표준화작업을 하는구나!

# 데이터 생성

np.random.seed(100)
data_array = []
for i in range(1, 100):
  s = np.random.randint(0, i * 10, 10)
  data_array.extend(s)

data_array.extend(np.zeros(100))

# 프레임 생성
data = pd.DataFrame({'Listen Count': data_array})

# 표준화 작업
scaler = StandardScaler()

# 표준화 실행 후 배열로 리턴
data_n = scaler.fit_transform(data)

# 데이터 프레임으로 재 생성
data_n = pd.DataFrame({'Listen Count': data_n.ravel()})

print(data_n.var()) ##1.000918
print(data_n.mean()) ##6.518741e-17


Listen Count    1.000918
dtype: float64
Listen Count    6.518741e-17
dtype: float64


$$
{\tilde{x} = \frac{x}{||x||_2} \\
||x||_2 = \sqrt{x_1^2 + x_2^2+ ...+x_m^2 }
}
$$

In [6]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import normalize


np.random.seed(100)
data_array = []

for i in range(1, 100):
  s = np.random.randint(0, i * 10, 10)
  data_array.extend(s)
    
data_array.extend(np.zeros(100))
data = pd.DataFrame({'Listen Count': data_array})

data_l2_normalized = normalize([data['Listen Count']],norm='l2')
data_l2 = pd.DataFrame({'Listen Count': data_l2_normalized.ravel()})

print(np.linalg.norm(data_l2_normalized,ord=2)) ## 0.999999999


0.9999999999999999
