# 均值标准化

在机器学习中，我们会使用大量数据训练我们的模型。某些机器学习算法可能需要*标准化*数据才能正常工作。标准化是指*特征缩放*，旨在确保所有数据都采用相似的刻度，*即*所有数据采用相似范围的值。例如，数据集的值范围在 0 到 5,000 之间。通过标准化数据，可以使值范围在 0 到 1 之间。

在此 Lab 中，你将执行一种特殊形式的特征缩放，称之为**均值标准化**。均值标准化不仅会缩放数据，而且会确保数据的均值为 0。

# TODO：

首先，你将导入 NumPy 并创建一个秩为 2 的 ndarray，其中包含 0 到 5,000（含）之间的随机整数，共有 1000 行和 20 列。此数组将模拟一个值范围很广的数据集。请填充以下代码

In [10]:
# import NumPy into Python
import numpy as np

# Create a 1000 x 20 ndarray with random integers in the half-open interval [0, 5001).
X = np.random.randint(0,5001,size=(1000,20))

# print the shape of X
print(X)
print(X.shape)

[[1074 3475 2262 ..., 3051 1435 3218]
 [3753 1268 4886 ..., 4709 4067 3033]
 [2217 2727  846 ..., 4275  800  285]
 ..., 
 [2974 1911 2004 ..., 4989 2439 3004]
 [ 278 3500 3614 ..., 2193 3092 3069]
 [ 187 1193 4646 ..., 2536 1907 2533]]
(1000, 20)


创建好数组后，我们将标准化数据。我们将使用以下方程进行均值标准化：

$\mbox{Norm_Col}_i = \frac{\mbox{Col}_i - \mu_i}{\sigma_i}$

其中 $\mbox{Col}_i$ 是 $X$ 的第 $i$ 列，$\mu_i$ 是 $X$ 的第 $i$ 列的平均值，$\sigma_i$ 是 $X$ 的第 $i$ 列的标准差。换句话说，均值标准化的计算方法是将值减去 $X$ 的每列的平均值，然后除以值的标准差。在下面的空白处，你首先需要计算 $X$ 的每列的平均值和标准差。

In [11]:
# Average of the values in each column of X
ave_cols = X.mean(axis =0)

# Standard Deviation of the values in each column of X
std_cols = X.std(axis  =0)

如果你正确地完成了上述计算过程，则 `ave_cols` 和 `std_cols` 向量的形状都应该为 `(20,)`，因为 $X$ 有 20 列。你可以通过填充以下代码验证这一点：

In [12]:
# Print the shape of ave_cols
print(ave_cols.shape)
print(ave_cols)
# Print the shape of std_cols
print(std_cols.shape)
print(std_cols)

(20,)
[ 2420.923  2535.641  2502.634  2519.928  2579.471  2490.576  2475.831
  2502.85   2524.436  2477.564  2456.911  2499.486  2544.604  2492.215
  2536.704  2490.101  2450.723  2498.277  2505.022  2475.552]
(20,)
[ 1442.5352041   1386.67519633  1449.37880833  1471.28417745  1425.99202984
  1423.70248656  1442.42346225  1414.36038106  1456.98879334  1424.10358187
  1496.60678639  1468.05597571  1444.44254063  1427.26738727  1455.22852652
  1421.50067844  1437.95967547  1464.77316069  1435.38764434  1446.43715359]


现在，你可以利用广播计算 $X$ 的均值标准化版本，借助上述方程，用一行代码就能搞定。请填充以下代码

In [17]:
# Mean normalize X
X_norm = (X - ave_cols)/std_cols
print(X_norm)
print(X_norm.shape)

[[-0.93371933  0.67741819 -0.16602561 ...,  0.37734375 -0.74545856
   0.51329434]
 [ 0.92342772 -0.91415856  1.64440517 ...,  1.50925963  1.08819245
   0.38539386]
 [-0.14136431  0.13799843 -1.14299588 ...,  1.21296802 -1.18784776
  -1.51444672]
 ..., 
 [ 0.38340624 -0.45045949 -0.3440329  ...,  1.70041551 -0.04599594
   0.3653446 ]
 [-1.48552562  0.69544692  0.76678781 ..., -0.20841248  0.40893344
   0.4102826 ]
 [-1.548609   -0.96824477  1.47881699 ...,  0.02575348 -0.41662752
   0.0397169 ]]
(1000, 20)


如果你正确地完成了均值标准化过程，那么 $X_{\tiny{\mbox{norm}}}$ 中的所有元素的平均值应该接近 0。你可以通过填充以下代码验证这一点：

In [15]:
# Print the average of all the values of X_norm
print(X_norm.mean())
# Print the minimum value of each column of X_norm
print(X_norm.min(axis = 0))
# Print the maximum value of each column of X_norm
print(X_norm.max(axis = 0))

-1.42108547152e-18
[-1.67477577 -1.82857601 -1.72600426 -1.71206082 -1.8088958  -1.7479607
 -1.71435855 -1.76959849 -1.72852119 -1.73552263 -1.64098614 -1.70190105
 -1.76095894 -1.74404251 -1.74041668 -1.75174099 -1.70291493 -1.70488992
 -1.74240179 -1.70940852]
[ 1.78649158  1.77572874  1.7223696   1.68225285  1.69673389  1.75698506
  1.74579038  1.7613262   1.69772342  1.77054256  1.69723205  1.6923837
  1.69919947  1.75214891  1.69065955  1.76496504  1.77284318  1.7079252
  1.73540438  1.74528703]


请注意，因为 $X$ 是使用随机整数创建的，因此上述值将有所变化。

# 数据分离

数据均值标准化后，通常在机器学习中，我们会将数据集拆分为三个集合：

1. 训练集
2. 交叉验证集
3. 测试集

划分方式通常为，训练集包含 60% 的数据，交叉验证集包含 20% 的数据，测试集包含 20% 的数据。

在此部分，你需要将 `X_norm` 分离成训练集、交叉验证集和测试集。每个数据集将包含随机选择的 `X_norm` 行，确保不能重复选择相同的行。这样可以保证所有的 `X_norm` 行都能被选中，并且在三个新的数据集中随机分布。

首先你需要创建一个秩为 1 的 ndarray，其中包含随机排列的 `X_norm` 行索引。为此，你可以使用 `np.random.permutation()` 函数。`np.random.permutation(N)` 函数会创建一个从 0 到 `N - 1`的随机排列的整数集。我们来看一个示例：

In [16]:
# We create a random permutation of integers 0 to 4
np.random.permutation(5)

array([0, 1, 4, 2, 3])

# TODO

在下面的空白处，创建一个秩为 1 的 ndarray，其中包含随机排列的 `X_norm` 行索引。用一行代码就能搞定：使用 `shape` 属性提取 `X_norm` 的行数，然后将其传递给  `np.random.permutation()` 函数。注意，`shape` 属性返回一个包含两个数字的元组，格式为 `(rows,columns)`。

In [20]:
# Create a rank 1 ndarray that contains a random permutation of the row indices of `X_norm`
row_indices = np.random.permutation(X_norm.shape[0])
print(row_indices)
print(row_indices.shape)

[124 974  33 948   8 962  96 887 867 115 544 395 978 895 519 412 801 474
 119 396 971 645 523 831 767 822 282 540 132 288 400 266 476 478  50 804
 680 701 492 404 731 496 278 111 487  37  16  38 870 192 897 905 659 399
  91 805 570 464 188 609 649 187 453 668 363 516 271 920 625 781 206 716
 807 158 572 426 945 768 120 982 647 520 862 638  80 394 406 833 381 863
 823 391 300 599  94 185 601 535 983  90 918 309 555 912 642 934 624 234
 313 127  14 390 723  30  68 620 200  36 655 636 178 443 830  53 222 465
 677 673 992 566 533 145 665 852 630 441 698 560 231  92 866 461 627 427
 697 308 849 437 294 808 337 910 104  60 942 593 147 315 917 217 996 908
 289 686 160 840 886 529 728 773 940 662 759 458 989 323 766 360 136 306
 244 373 342 345  47 993  12 644 952 803 283 547 518 814 583 923 524 291
 693 270 521 473 203 490 786 457 299 613 411 985 170 889 726 110  85 591
 101 901 771 542 669 875 865 332 408 123  23 498 245 333 884 813 838  41
 113 846 198 356 459 615 961 817 372 797 564 530 19

现在，你可以使用 `row_indices` ndarray 创建三个数据集，并选择进入每个数据集的行。注意，训练集包含 60% 的数据，交叉验证集包含 20% 的数据，测试集包含 20% 的数据。每个集合都只需一行代码就能创建。请填充以下代码

In [25]:
# Make any necessary calculations.
# You can save your calculations into variables to use later.


# Create a Training Set
X_train = X[:600]

# Create a Cross Validation Set
X_crossVal = X[600:800]

# Create a Test Set
X_test = X[800:1000]

如果你正确地完成了上述计算步骤，那么 `X_tain` 应该有 600 行和 20 列，`X_crossVal` 应该有 200 行和 20 列，`X_test` 应该有 200 行和 20 列。你可以通过填充以下代码验证这一点：

In [26]:
# Print the shape of X_train
print(X_train.shape)
# Print the shape of X_crossVal
print(X_crossVal.shape)
# Print the shape of X_test
print(X_test.shape)

(600, 20)
(200, 20)
(200, 20)


### 完成了