# 均值标准化

在机器学习中，我们会使用大量数据训练我们的模型。某些机器学习算法可能需要*标准化*数据才能正常工作。标准化是指*特征缩放*，旨在确保所有数据都采用相似的刻度，*即*所有数据采用相似范围的值。例如，数据集的值范围在 0 到 5,000 之间。通过标准化数据，可以使值范围在 0 到 1 之间。

在此 Lab 中，你将执行一种特殊形式的特征缩放，称之为*均值标准化*。均值标准化不仅会缩放数据，而且会确保数据的均值为 0。

# TODO：

首先，你将导入 NumPy 并创建一个秩为 2 的 ndarray，其中包含 0 到 5,000（含）之间的随机整数，共有 1000 行和 20 列。此数组将模拟一个值范围很广的数据集。请填充以下代码

In [1]:
# import NumPy into Python
import numpy as np

# Create a 1000 x 20 ndarray with random integers in the half-open interval [0, 5001).
X = np.random.randint(0,5000,size=(1000,20))

# print the shape of X
print(X)

[[3501 2379 4513 ..., 4811 2640 4678]
 [1226  653 3489 ..., 1309 3010  613]
 [3517  540 4884 ...,  196  694  895]
 ..., 
 [3135  933 3462 ..., 3904 1197 4259]
 [4196   84 1390 ..., 2140 3750 1094]
 [2987 2093 1798 ..., 2110 3712  485]]


创建好数组后，我们将标准化数据。我们将使用以下方程进行均值标准化：

$\mbox{Norm_Col}_i = \frac{\mbox{Col}_i - \mu_i}{\sigma_i}$

其中 $\mbox{Col}_i$ 是 $X$ 的第 $i$ 列，$\mu_i$ 是 $X$ 的第 $i$ 列的平均值，$\sigma_i$ 是 $X$ 的第 $i$ 列的标准差。换句话说，均值标准化的计算方法是将值减去 $X$ 的每列的平均值，然后除以值的标准差。在下面的空白处，你首先需要计算 $X$ 的每列的平均值和标准差。

In [2]:
# Average of the values in each column of X
ave_cols = X.mean(axis = 0)

# Standard Deviation of the values in each column of X
std_cols = X.std(axis = 0)

如果你正确地完成了上述计算过程，则 `ave_cols` 和 `std_cols` 向量的形状都应该为 `(20,)`，因为 $X$ 有 20 列。你可以通过填充以下代码验证这一点：

In [3]:
# Print the shape of ave_cols
print(ave_cols)
# Print the shape of std_cols
print(std_cols)

[ 2548.577  2466.033  2450.607  2477.955  2547.832  2474.48   2490.321
  2452.557  2494.52   2500.955  2494.967  2474.308  2416.862  2529.819
  2583.848  2467.798  2496.617  2564.855  2464.764  2559.224]
[ 1439.19630769  1441.79011576  1401.94412034  1463.68392728  1423.74584522
  1399.91593662  1443.45866306  1440.90295813  1456.36327735  1432.09019932
  1422.9490876   1464.59875431  1438.29177741  1458.95998171  1465.30412437
  1445.4949371   1445.90670457  1415.47564443  1419.51272073  1426.18957219]


现在，你可以利用广播计算 $X$ 的均值标准化版本，借助上述方程，用一行代码就能搞定。请填充以下代码

In [4]:
# Mean normalize X
X_norm = (X - ave_cols) / ave_cols

如果你正确地完成了均值标准化过程，那么 $X_{\tiny{\mbox{norm}}}$ 中的所有元素的平均值应该接近 0。你可以通过填充以下代码验证这一点：

In [8]:
# Print the average of all the values of X_norm
print(X_norm)
# Print the minimum value of each column of X_norm
print(X_norm.min(axis = 0))
# Print the maximum value of each column of X_norm
print(X_norm.max(axis = 0))

[[ 0.37370776 -0.03529272  0.84158455 ...,  0.87573956  0.07109646
   0.82789783]
 [-0.51894724 -0.73520225  0.4237289  ..., -0.48963977  0.22121225
  -0.76047427]
 [ 0.37998577 -0.78102483  0.99297562 ..., -0.92358242 -0.71843146
  -0.65028462]
 ..., 
 [ 0.23009821 -0.62165956  0.41271122 ...,  0.52211334 -0.51435513
   0.66417633]
 [ 0.64640896 -0.9659372  -0.43279359 ..., -0.16564484  0.52144384
  -0.57252667]
 [ 0.17202659 -0.15126845 -0.26630423 ..., -0.17734141  0.50602654
  -0.81048943]]
[-0.69501219 -0.93667251 -0.92691705 -0.93946621 -0.91542974 -0.95121863
 -0.97080331 -0.90138657 -0.9783899  -0.92579175 -0.85386195 -0.97325551
 -0.9547007  -0.90583083 -0.83750891 -0.96352004 -0.99919169 -0.83711642
 -0.73206492 -0.6397221  -0.93511847 -0.92778213 -0.92375305 -0.87802891
 -0.92240255 -0.91822074 -0.94319943 -0.9917577  -0.71321842 -0.99380769
 -0.86246148 -0.83137181 -0.8196773  -0.9152527  -0.94953171 -0.81491061
 -0.97716911 -0.97057181 -0.97984045 -0.96807188 -0.97825931 -

请注意，因为 $X$ 是使用随机整数创建的，因此上述值将有所变化。

# 数据分离

数据均值标准化后，通常在机器学习中，我们会将数据集拆分为三个集合：

1. 训练集
2. 交叉验证集
3. 测试集

划分方式通常为，训练集包含 60% 的数据，交叉验证集包含 20% 的数据，测试集包含 20% 的数据。

在此部分，你需要将 `X_norm` 分离成训练集、交叉验证集和测试集。每个数据集将包含随机选择的 `X_norm` 行，确保不能重复选择相同的行。这样可以保证所有的 `X_norm` 行都能被选中，并且在三个新的数据集中随机分布。

首先你需要创建一个秩为 1 的 ndarray，其中包含随机排列的 `X_norm` 行索引。为此，你可以使用 `np.random.permutation()` 函数。`np.random.permutation(N)` 函数会创建一个从 0 到 `N - 1`的随机排列的整数集。我们来看一个示例：

In [16]:
# We create a random permutation of integers 0 to 4
np.random.permutation(5)


array([2, 1, 4, 0, 3])

# TODO

在下面的空白处，创建一个秩为 1 的 ndarray，其中包含随机排列的 `X_norm` 行索引。用一行代码就能搞定：使用 `shape` 属性提取 `X_norm` 的行数，然后将其传递给  `np.random.permutation()` 函数。注意，`shape` 属性返回一个包含两个数字的元组，格式为 `(rows,columns)`。

In [23]:
# Create a rank 1 ndarray that contains a random permutation of the row indices of `X_norm`
row_indices = np.random.permutation(X_norm.shape[0])
print(len(row_indices))

1000


现在，你可以使用 `row_indices` ndarray 创建三个数据集，并选择进入每个数据集的行。注意，训练集包含 60% 的数据，交叉验证集包含 20% 的数据，测试集包含 20% 的数据。每个集合都只需一行代码就能创建。请填充以下代码

In [30]:
# Make any necessary calculations.
# You can save your calculations into variables to use later.


# Create a Training Set
X_train = X_norm[:int(len(row_indices)*0.6),:]

# Create a Cross Validation Set
X_crossVal = X_norm[int(len(row_indices)*0.6):int(len(row_indices)*0.2)]

# Create a Test Set
X_test = X_norm[int(len(row_indices)*0.8):]

如果你正确地完成了上述计算步骤，那么 `X_tain` 应该有 600 行和 20 列，`X_crossVal` 应该有 200 行和 20 列，`X_test` 应该有 200 行和 20 列。你可以通过填充以下代码验证这一点：

In [31]:
# Print the shape of X_train
print(X_train)
# Print the shape of X_crossVal
print(X_crossVal)
# Print the shape of X_test
print(X_test)

[[ 0.37370776 -0.03529272  0.84158455 ...,  0.87573956  0.07109646
   0.82789783]
 [-0.51894724 -0.73520225  0.4237289  ..., -0.48963977  0.22121225
  -0.76047427]
 [ 0.37998577 -0.78102483  0.99297562 ..., -0.92358242 -0.71843146
  -0.65028462]
 ..., 
 [ 0.73744015 -0.3309092   0.61225362 ...,  0.91043938 -0.90749621
  -0.42560714]
 [-0.05908277  0.87832036 -0.44136289 ...,  0.04996189 -0.90627906
   0.42660431]
 [-0.09832036  0.56405044  0.33069072 ...,  0.41255549 -0.47337757
  -0.72100918]]
[]
[[ 0.74607242  0.73395895 -0.04717484 ..., -0.7945303  -0.9801198
   0.75013989]
 [ 0.52791146 -0.15248498  0.05851326 ..., -0.11456983  0.03417609
  -0.44944249]
 [ 0.33760918  0.3718389   0.51023808 ..., -0.26935441  0.15994878
  -0.8003301 ]
 ..., 
 [ 0.23009821 -0.62165956  0.41271122 ...,  0.52211334 -0.51435513
   0.66417633]
 [ 0.64640896 -0.9659372  -0.43279359 ..., -0.16564484  0.52144384
  -0.57252667]
 [ 0.17202659 -0.15126845 -0.26630423 ..., -0.17734141  0.50602654
  -0.81048943]

## 收集的参考资料：
[中心化（又叫零均值化）和标准化（又叫归一化）](https://blog.csdn.net/GoodShot/article/details/80373372)