# Mean Normalization

머신러닝 및 데이터 분석에서는 데이터 노멀라이징(정규화)을 합니다. 
정규화는 데이터의 범위를 0과 1로 변환하여 데이터 분포를 조정하는 방법입니다.
예를 들어 여러개의 feature가 있는데 어떤거는 100 ~ 200사이의 값이고, 어떤거는 -10 ~ 10 사이의 값이고, 어떤거는 -100 ~ 300 사이의 값이라고 해보면, 이 값들을 분석하기 쉽지가 않습니다. 따라서 이런 불편을 줄이기 위해 범주를 일치시키는 작업을 normalization 이라 합니다. 보통은 0 ~ 1 사이의 값으로 범주를 일치시킵니다.



In [2]:
#인공지능 쪽에서는 column을 feature라고 부름
# 데이터는 row로 쌓이는데, 컬럼은 같은 type을 가지고 있음
# 그러나 feature(컬럼)은 range(범위)가 다를 수가 있음
# 예를 들어 회원정보에 자녀수 라는 컬럼이 있다고 하면
# 자녀는 수는 모두 다를 수 있는데, 이 데이터의 range(범위)가 크고 다르면 좋은 결과가 안나온다고 함
# 최소값 최대값을 정해주게 된다: range를 비슷하게 맞춰주는 게 바로 
# mean normalization

In [4]:
# import NumPy  
import numpy as np

In [None]:
# 1000 x 20 ndarray 배열을, 0이상 5001미만(0 ~ 5000) 의 random integers 로 만드세요.

In [30]:
np.random.seed(10) #seed값 설정  / 랜덤 값이 동일하게 나옴

In [31]:
#np.random.randint(0, 5001, 5000).reshape(1000, 20)
X = np.random.randint(0, 5000, (1000,20))

In [32]:
# print the shape of X
X.shape

(1000, 20)

In [33]:
X

array([[1289, 4623, 1344, ..., 2102, 3416, 3435],
       [ 574,  974, 3126, ..., 4173, 2454, 2654],
       [2808, 4491, 3602, ..., 2338,  360, 2703],
       ...,
       [2678,  283, 1409, ...,  536, 2808, 2529],
       [4488,  745, 1264, ..., 2016, 3056, 4862],
       [ 567, 4783, 1978, ..., 3303, 3567, 2661]])

다음의 mean normalization 식을 이용해서 정규화 하세요.

$\mbox{Norm_Col}_i = \frac{\mbox{Col}_i - \mu_i}{\sigma_i}$

평균과 표준편차를 이용하면, 위의 정규화 식을 사용할 수 있습니다.



In [35]:
# 열을 고정하고 각 행에 대한 평균, 즉 모든 열별 평균값을 얻어온다.

ave_cols = X.mean(axis = 0)

In [43]:
# 열을 고정하고 각 행에 대한 표준편차, 즉 모든 열별 표준편차값을 얻어온다.
#표준편차 구하는 메소드는 std()
std_cols = X.std(axis = 0)

In [None]:
std_cols

각 벡터의 shape 을 확인하세요.

In [None]:
# Print the shape of ave_cols

# Print the shape of std_cols

In [44]:
print(ave_cols.shape, std_cols.shape)

(20,) (20,)


위 공식대로 노멀라이제이션 하세요.

In [42]:
# Mean normalize X


In [None]:
#공식 적용   

In [50]:
X_norm = (X - ave_cols) / std_cols

제대로 수행했으면 아마 $X_{\tiny{\mbox{norm}}}$ 배열은 값들이 0 근처의 값들로 나올겁니다.아래를 통해 확인하세요.

In [46]:
# X_norm 을 출력(프린트) 하세요.

print(X_norm)

[[-0.48846527  0.87780727 -0.46460241 ... -0.17433413  0.34236416
   0.34595461]
 [-0.77221029 -0.60437286  0.24527743 ...  0.63915495 -0.03566696
   0.03993116]
 [ 0.11434408  0.82419045  0.43489741 ... -0.08163329 -0.85853305
   0.0591311 ]
 ...
 [ 0.06275408 -0.88504879 -0.43870893 ... -0.78945913  0.10344221
  -0.00904826]
 [ 0.78104567 -0.69738992 -0.49647132 ... -0.20811494  0.20089721
   0.90510373]
 [-0.77498821  0.94279735 -0.21204135 ...  0.29741883  0.40170169
   0.04267401]]


In [None]:
# 각 컬럼(열)별 minimum value 를 출력하세요.

In [51]:
X_norm.min()

-1.8047892677277204

In [54]:
X_norm.min(axis = 0)

array([-1.77996876, -1.71943429, -1.74461579, -1.78988609, -1.7318517 ,
       -1.73915293, -1.72559797, -1.7917883 , -1.73291546, -1.72858224,
       -1.71930753, -1.67201786, -1.70979226, -1.80478927, -1.7578556 ,
       -1.6720557 , -1.69119446, -1.78621411, -1.72150924, -1.78426887])

In [52]:
# 각 컬럼(열)별 maximum value 를 출력하세요.


In [53]:
#전체 max
X_norm.max()


1.7649513023101544

In [55]:
# row에서 최대값
X_norm.max(axis = 0)

array([1.75118249, 1.7649513 , 1.72823633, 1.65900792, 1.70432241,
       1.72592717, 1.72648834, 1.74631779, 1.69677701, 1.74231158,
       1.65688049, 1.74731441, 1.72474323, 1.68487737, 1.7309732 ,
       1.64620442, 1.64779561, 1.71762098, 1.66026789, 1.71070174])