Feature Scaling  : Feature들의 척도를 통일하여 모델 학습 시 특정 특성이 다른 특성보다 과도하게 영향을 미치는 것을 방지

- 표준화 (standardization) : 평균은 0, 분산은 1이 되도록 변환 (StandardScaler)
    -> 정규분포가 된다. => 만일, 특성의 값이 정규분포를 따르면, 표준 정규분포가 된다.

- 정규화 (normalization) : 특성값을 정규화 ( 분산된 데이터를 어떤 일정한 범위로 가두는것)
    - MinMaxScaler : 0~ 1 사이의 값으로 변환
      -> 만일, 이상치 값이 존재하면 값의 폭이 좁기 때문에 판단이 모호해진다. (이상치에 민감)

In [1]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

In [6]:
np.random.seed(100)
data_array = []

for i in range(1, 100):
    s = np.random.randint(0, i * 10, 10)
    data_array.extend(s)

data_array.extend(np.zeros(100))

In [7]:
data = pd.DataFrame({"scalling_data": data_array})
data

Unnamed: 0,scalling_data
0,8.0
1,8.0
2,3.0
3,7.0
4,7.0
...,...
1085,0.0
1086,0.0
1087,0.0
1088,0.0


In [8]:
data.max(), data.min()

(scalling_data    977.0
 dtype: float64,
 scalling_data    0.0
 dtype: float64)

In [10]:
# 0 ~ 1사이의 값으로 변환
scaler = MinMaxScaler()

In [11]:
data_n = scaler.fit_transform(data)
data_n

array([[0.00818833],
       [0.00818833],
       [0.00307062],
       ...,
       [0.        ],
       [0.        ],
       [0.        ]], shape=(1090, 1))

In [12]:
from sklearn.preprocessing import StandardScaler

In [14]:
np.random.seed(100)
data_array = []

for i in range(1, 100):
    s = np.random.randint(0, i * 10, 10)
    data_array.extend(s)

data_array.extend(np.zeros(100))

data = pd.DataFrame({"scaling_data": data_array})

In [15]:
scaler = StandardScaler()

In [19]:
data_n = scaler.fit_transform(data)
data_n

array([[-0.98416062],
       [-0.98416062],
       [-1.00595372],
       ...,
       [-1.01902959],
       [-1.01902959],
       [-1.01902959]], shape=(1090, 1))

In [20]:
data_n = pd.DataFrame({"scaling_data" : data_n.ravel()})
data_n

Unnamed: 0,scaling_data
0,-0.984161
1,-0.984161
2,-1.005954
3,-0.988519
4,-0.988519
...,...
1085,-1.019030
1086,-1.019030
1087,-1.019030
1088,-1.019030


In [21]:
print(data_n.mean())
print(data_n.var())

scaling_data   -5.214993e-17
dtype: float64
scaling_data    1.000918
dtype: float64


In [22]:
np.random.seed(100)
data_array = []

for i in range(1, 100):
    s = np.random.randint(0, i * 10, 10)
    data_array.extend(s)

data_array.extend(np.zeros(100))

data = pd.DataFrame({"scaling_data": data_array})

In [23]:
from sklearn.preprocessing import normalize

In [None]:
# 원점으로부터 1만큼 떨어져 있는 범위(유클리드 거리) 로 치환 (-1, 1) - 딥러닝에서 많이 사용
data_l2_normalized = normalize([data["scaling_data"]], norm="l2")
data_l2 = pd.DataFrame({"scaling_data": data_l2_normalized.ravel()})

print(np.linalg.norm(data_l2_normalized, ord=2))

0.9999999999999999
