# Mean Normalization

머신러닝 및 데이터 분석에서는 데이터 노멀라이징(정규화)을 합니다. 
정규화는 데이터의 범위를 0과 1로 변환하여 데이터 분포를 조정하는 방법입니다.
예를 들어 여러개의 feature가 있는데 어떤거는 100 ~ 200사이의 값이고, 어떤거는 -10 ~ 10 사이의 값이고, 어떤거는 -100 ~ 300 사이의 값이라고 해보면, 이 값들을 분석하기 쉽지가 않습니다. 따라서 이런 불편을 줄이기 위해 범주를 일치시키는 작업을 normalization 이라 합니다. 보통은 0 ~ 1 사이의 값으로 범주를 일치시킵니다.



In [1]:
# import NumPy  
import numpy as np

In [2]:
# 1000 x 20 ndarray 배열을, 0이상 5001미만(0 ~ 5000) 의 random integers 로 만드세요.
# X = np.random.randint(0, 5001, 1000*20).reshape(1000,20)
X = np.random.randint(0, 50001, 1000*20).reshape(1000,20)

In [3]:
# print the shape of X
print(X)


[[32565 30574 14777 ... 34552 32344 43850]
 [18294 12446 10230 ... 47589   548  2244]
 [20852 37221  8662 ... 17699 10107 24661]
 ...
 [ 8118 34965 34746 ... 23866  3462 18933]
 [46394 16583 23305 ... 30507 16455 43512]
 [15543 27248 38978 ... 18822  1309 21992]]


In [None]:
X

다음의 mean normalization 식을 이용해서 정규화 하세요.

$\mbox{Norm_Col}_i = \frac{\mbox{Col}_i - \mu_i}{\sigma_i}$

평균과 표준편차를 이용하면, 위의 정규화 식을 사용할 수 있습니다.



In [4]:
# 열을 고정하고 각 행에 대한 평균, 즉 모든 열별 평균값을 얻어온다.
ave_cols =  X.mean(axis = 0)

In [5]:
# 열을 고정하고 각 행에 대한 표준편차, 즉 모든 열별 표준편차값을 얻어온다.
std_cols = X.std(axis = 0)

각 벡터의 shape 을 확인하세요.

In [6]:
# Print the shape of ave_cols
print(ave_cols.shape)
# Print the shape of std_cols
print(std_cols.shape)


(20,)
(20,)


위 공식대로 노멀라이제이션 하세요.

In [7]:
# Mean normalize X
X_norm = (X - ave_cols) / std_cols


제대로 수행했으면 아마 $X_{\tiny{\mbox{norm}}}$ 배열은 값들이 0 근처의 값들로 나올겁니다.아래를 통해 확인하세요.

In [8]:
# X_norm 을 출력(프린트) 하세요.
print(X_norm)


[[ 0.58017785  0.39234978 -0.68238356 ...  0.71961372  0.49678033
   1.33005744]
 [-0.3838793  -0.86834091 -1.00001758 ...  1.6349519  -1.68326921
  -1.59053951]
 [-0.21107724  0.85460767 -1.10955137 ... -0.46364888 -1.02786936
  -0.01694383]
 ...
 [-1.07130454  0.69771677  0.71256557 ... -0.03065888 -1.48347476
  -0.41902957]
 [ 1.51437632 -0.58063805 -0.08665387 ...  0.43561104 -0.59262737
   1.30633101]
 [-0.56971921  0.16104698  1.00819503 ... -0.38480215 -1.63109228
  -0.20429837]]


In [9]:
# 각 컬럼(열)별 minimum value 를 출력하세요.
print(X_norm.min(axis = 0))

[-1.614638   -1.73325761 -1.71212692 -1.67122259 -1.7274941  -1.75921686
 -1.74927941 -1.74391023 -1.76184152 -1.69224934 -1.77613998 -1.79437938
 -1.73203403 -1.7958605  -1.79409839 -1.70648853 -1.74712476 -1.70518643
 -1.71000903 -1.74497188]


In [10]:
# 각 컬럼(열)별 maximum value 를 출력하세요.
print(X_norm.max(axis = 0))

[1.75581282 1.74226521 1.77772579 1.72926362 1.70428638 1.70891841
 1.74871461 1.74173519 1.69676002 1.75207564 1.68031084 1.75481573
 1.77838883 1.72578624 1.71788818 1.6673858  1.71650785 1.80163234
 1.70569446 1.75881786]
