### 스케일링 작업 : 이상치 데이터로 분류의 정밀도가 낮아짐을 개선하기 위한 이유
1. MinMaxScaler
    - 0~1로 작업 
    - 이상치 값이 존재하면 값의 폭이 좁기 때문에 판단이 모호하다 ->표준화작업
2. 표준화
    - 평균은 0으로 분산은1
    - 특정량이 정규분포면 표준화된 특정량은 표준 정규분포가 된다
3. 정규화
    - 특징량을 정규화한다(분산된 데이터를 일정 범위로 가두는 것)
    - 보통 범위를 (0 ~ 1) 또는 (-1 ~ 1) 사이로 한다        

$$
{\tilde{x} = \frac{x - min(x)}{max(x) - min(x)}
}
$$

In [8]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

#1 데이터 생성
np.random.seed(100)
data_array = []

for i in range(1, 100):
  s = np.random.randint(0, i * 10, 10)
  data_array.extend(s)

data_array.extend(np.zeros(100))

# 2 데이터프레임으로 변환
data = pd.DataFrame({'Listen Count': data_array})

data

# 3 최대 최소 리턴
print("max : ",data.max()) # 977.0
print("min : ",data.min()) # 0


max :  Listen Count    977.0
dtype: float64
min :  Listen Count    0.0
dtype: float64


In [9]:
scaler = MinMaxScaler()
data_n = scaler.fit_transform(data)
data_n = pd.DataFrame(data_n)

print(data_n.max(),' ~', data_n.min()) ## 0

0    1.0
dtype: float64  ~ 0    0.0
dtype: float64


$$
{\tilde{x} = \frac{x - mean(x)}{sqrt(var(x))}
}
$$

In [12]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
# 표준화작업 : 이상치가 있어서 판단이 모호해지기 때문에

#데이터 생성
np.random.seed(100)
data_array = []
for i in range(1, 100):
  s = np.random.randint(0, i * 10, 10)
  data_array.extend(s)

data_array.extend(np.zeros(100))

# 프레임 생성
data = pd.DataFrame({'Listen Count': data_array})

# 표준화 작업
scaler = StandardScaler()
# 표준화 실행후 배열로 리턴
data_n = scaler.fit_transform(data)
# 데이터프레임으로 다시 바꾸기
data_n = pd.DataFrame({'Listen Count': data_n.ravel()})

data_n.head()

print(data_n.var()) ##1.000918
print(data_n.mean()) ##6.518741e-17


Listen Count    1.000918
dtype: float64
Listen Count    6.518741e-17
dtype: float64


$$
{\tilde{x} = \frac{x}{||x||_2} \\
||x||_2 = \sqrt{x_1^2 + x_2^2+ ...+x_m^2 }
}
$$

In [11]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import normalize


np.random.seed(100)
data_array = []

for i in range(1, 100):
  s = np.random.randint(0, i * 10, 10)
  data_array.extend(s)
    
data_array.extend(np.zeros(100))
data = pd.DataFrame({'Listen Count': data_array})

data_l2_normalized = normalize([data['Listen Count']],norm='l2')
data_l2 = pd.DataFrame({'Listen Count': data_l2_normalized.ravel()})

print(np.linalg.norm(data_l2_normalized,ord=2)) ## 0.999999999


0.9999999999999999
