# Mean Normalization

머신러닝 및 데이터 분석에서는 데이터 노멀라이징(정규화)을 합니다. 
정규화는 데이터의 범위를 0과 1로 변환하여 데이터 분포를 조정하는 방법입니다.
예를 들어 여러개의 feature가 있는데 어떤거는 100 ~ 200사이의 값이고, 어떤거는 -10 ~ 10 사이의 값이고, 어떤거는 -100 ~ 300 사이의 값이라고 해보면, 이 값들을 분석하기 쉽지가 않습니다. 따라서 이런 불편을 줄이기 위해 범주를 일치시키는 작업을 normalization 이라 합니다. 보통은 0 ~ 1 사이의 값으로 범주를 일치시킵니다.



In [None]:
#참고 :
#인공지능 쪽에서는 column을 feature라고 부름
# 데이터는 row로 쌓이는데, 컬럼은 같은 type을 가지고 있음
# 그러나 feature(컬럼)은 range(범위)가 다를 수가 있음
# 예를 들어 회원정보에 자녀수 라는 컬럼이 있다고 하면
# 자녀는 수는 모두 다를 수 있는데, 이 데이터의 range(범위)가 크고 다르면 좋은 결과가 안나온다고 함
# 최소값 최대값을 정해주게 된다: range를 비슷하게 맞춰주는 게 바로 
# mean normalization

In [1]:
# import NumPy  
import numpy as np

In [5]:
# 1000 x 20 ndarray 배열을, 0이상 5001미만(0 ~ 5000) 의 random integers 로 만드세요.

X = np.random.randint(0, 5000, (1000, 20))

In [8]:
# print the shape of X
X


array([[ 624, 1101, 3344, ..., 1897, 2135, 2487],
       [ 997, 1547, 3744, ...,  453,  817,  495],
       [4220, 2853, 4569, ..., 1877, 4060, 4242],
       ...,
       [2364, 1246, 4888, ..., 2188,  758, 2986],
       [ 124, 4142, 3979, ..., 1058,  559, 3530],
       [2108, 2128, 2081, ..., 2771, 4724,  732]])

다음의 mean normalization 식을 이용해서 정규화 하세요.

$\mbox{Norm_Col}_i = \frac{\mbox{Col}_i - \mu_i}{\sigma_i}$

평균과 표준편차를 이용하면, 위의 정규화 식을 사용할 수 있습니다.



In [17]:
# 열을 고정하고 각 행에 대한 평균, 즉 모든 열별 평균값을 얻어온다.
ave_cols = X.mean(axis = 0)
 

In [13]:
#std() 표준편차 메서드

In [18]:
# 열을 고정하고 각 행에 대한 표준편차, 즉 모든 열별 표준편차값을 얻어온다.
X.std(axis = 0)


array([1463.54347032, 1439.40200406, 1480.65211862, 1465.13576929,
       1444.48984668, 1459.89383556, 1465.75907122, 1426.71258341,
       1411.76419358, 1485.9316314 , 1450.0592294 , 1461.54302622,
       1462.39680904, 1456.14768552, 1448.79115648, 1432.8007554 ,
       1425.90661798, 1429.13779451, 1437.92291844, 1444.26624587])

In [19]:
std_cols = X.std(axis = 0)

In [21]:
ave_cols.shape
std_cols.shape

(20,)

각 벡터의 shape 을 확인하세요.

In [22]:
# Print the shape of ave_cols
print(ave_cols.shape)


(20,)


In [23]:
# Print the shape of std_cols
print(std_cols.shape)

(20,)


위 공식대로 노멀라이제이션 하세요.

In [24]:
# Mean normalize X
(X - ave_cols) / std_cols



array([[-1.24653899, -0.99837363,  0.55787919, ..., -0.44498998,
        -0.23121893,  0.04154843],
       [-0.99167809, -0.68852273,  0.82803042, ..., -1.4553894 ,
        -1.14781883, -1.33769864],
       [ 1.21051136,  0.2187985 ,  1.38521735, ..., -0.45898443,
         1.10751764,  1.25669834],
       ...,
       [-0.05764366, -0.89763735,  1.60066296, ..., -0.24137071,
        -1.18885024,  0.3870526 ],
       [-1.58817558,  1.11430927,  0.98674427, ..., -1.03205723,
        -1.3272443 ,  0.76371445],
       [-0.23256159, -0.28488289, -0.29512334, ...,  0.16656756,
         1.56929483, -1.17360148]])

In [25]:
X_norm = (X - ave_cols) / std_cols

제대로 수행했으면 아마 $X_{\tiny{\mbox{norm}}}$ 배열은 값들이 0 근처의 값들로 나올겁니다.아래를 통해 확인하세요.

In [26]:
# X_norm 을 출력(프린트) 하세요.
print(X_norm)



[[-1.24653899 -0.99837363  0.55787919 ... -0.44498998 -0.23121893
   0.04154843]
 [-0.99167809 -0.68852273  0.82803042 ... -1.4553894  -1.14781883
  -1.33769864]
 [ 1.21051136  0.2187985   1.38521735 ... -0.45898443  1.10751764
   1.25669834]
 ...
 [-0.05764366 -0.89763735  1.60066296 ... -0.24137071 -1.18885024
   0.3870526 ]
 [-1.58817558  1.11430927  0.98674427 ... -1.03205723 -1.3272443
   0.76371445]
 [-0.23256159 -0.28488289 -0.29512334 ...  0.16656756  1.56929483
  -1.17360148]]


In [27]:
# 각 컬럼(열)별 minimum value 를 출력하세요.
X_norm.min(axis = 0)

array([-1.66265236, -1.76188514, -1.70058515, -1.63818879, -1.6992809 ,
       -1.73857163, -1.66713824, -1.7324134 , -1.75334593, -1.67685844,
       -1.73929378, -1.66442996, -1.70374688, -1.6914706 , -1.72980763,
       -1.82743762, -1.7903704 , -1.75627012, -1.70417688, -1.67974084])

In [28]:
# 각 컬럼(열)별 maximum value 를 출력하세요.
X_norm.max(axis = 0)

array([1.7393648 , 1.70483228, 1.67427917, 1.76763891, 1.75591819,
       1.68154008, 1.73724117, 1.75953029, 1.77769702, 1.68399605,
       1.69849683, 1.74566465, 1.71187874, 1.72645194, 1.70616033,
       1.65734558, 1.71406666, 1.72065144, 1.75915202, 1.77945514])