# 均值标准化

在机器学习中，我们会使用大量数据训练我们的模型。某些机器学习算法可能需要*标准化*数据才能正常工作。标准化是指*特征缩放*，旨在确保所有数据都采用相似的刻度，*即*所有数据采用相似范围的值。例如，数据集的值范围在 0 到 5,000 之间。通过标准化数据，可以使值范围在 0 到 1 之间。

在此 Lab 中，你将执行一种特殊形式的特征缩放，称之为*均值标准化*。均值标准化不仅会缩放数据，而且会确保数据的均值为 0。

# TODO：

首先，你将导入 NumPy 并创建一个秩为 2 的 ndarray，其中包含 0 到 5,000（含）之间的随机整数，共有 1000 行和 20 列。此数组将模拟一个值范围很广的数据集。请填充以下代码

In [1]:
# import NumPy into Python
import numpy as np

# Create a 1000 x 20 ndarray with random integers in the half-open interval [0, 5001).
X = np.random.randint(0, 5001, (1000, 20))

# print the shape of X
print("X = \n", X)
print("shape:", np.shape(X))

X = 
 [[4891 4426 4367 ... 1408 4244 4304]
 [1045 1172 1411 ... 1110 4315 2512]
 [1204 1457 2001 ... 2203 3412 3948]
 ...
 [1617 3408 2559 ...  933 1890 2784]
 [3487 3633  147 ... 4836 1796 3153]
 [2754 3417 2167 ... 4646  902 3773]]
shape: (1000, 20)


创建好数组后，我们将标准化数据。我们将使用以下方程进行均值标准化：

$\mbox{Norm_Col}_i = \frac{\mbox{Col}_i - \mu_i}{\sigma_i}$

其中 $\mbox{Col}_i$ 是 $X$ 的第 $i$ 列，$\mu_i$ 是 $X$ 的第 $i$ 列的平均值，$\sigma_i$ 是 $X$ 的第 $i$ 列的标准差。换句话说，均值标准化的计算方法是将值减去 $X$ 的每列的平均值，然后除以值的标准差。在下面的空白处，你首先需要计算 $X$ 的每列的平均值和标准差。

In [2]:
# Average of the values in each column of X
ave_cols = X.mean(axis=0)
print("ave_cols:\n", ave_cols)
# Standard Deviation of the values in each column of X
std_cols = X.std(axis=0)
print("std_cols:\n", std_cols)


ave_cols:
 [2607.186 2472.744 2527.571 2485.16  2470.553 2588.591 2493.237 2560.445
 2619.963 2458.078 2482.409 2427.163 2560.909 2500.651 2457.625 2428.237
 2490.726 2505.798 2502.117 2474.592]
std_cols:
 [1466.06875398 1447.14538608 1470.12111234 1440.87335127 1446.74844434
 1412.04051278 1451.79645985 1449.2359618  1455.97351612 1462.94637561
 1428.88776736 1458.78663362 1449.97607384 1481.72021489 1421.26461167
 1461.10673218 1477.67832864 1444.97421264 1406.77162657 1443.58946433]


如果你正确地完成了上述计算过程，则 `ave_cols` 和 `std_cols` 向量的形状都应该为 `(20,)`，因为 $X$ 有 20 列。你可以通过填充以下代码验证这一点：

In [3]:
# Print the shape of ave_cols
print("ave_cols shape:", np.shape(ave_cols))
# Print the shape of std_cols
print("std_cols shape:", np.shape(std_cols))


ave_cols shape: (20,)
std_cols shape: (20,)


现在，你可以利用广播计算 $X$ 的均值标准化版本，借助上述方程，用一行代码就能搞定。请填充以下代码

In [4]:
# Mean normalize X
X_norm = (X - ave_cols) / std_cols
print("X_norm = \n", X_norm)

X_norm = 
 [[ 1.55778097  1.34973032  1.25120916 ... -0.75973536  1.23821306
   1.26726334]
 [-1.06556121 -0.89883436 -0.75950953 ... -0.96596741  1.28868323
   0.02591318]
 [-0.95710791 -0.70189492 -0.35818205 ... -0.20955253  0.646788
   1.02065583]
 ...
 [-0.67540216  0.64627646  0.02137851 ... -1.08846095 -0.4351218
   0.2143324 ]
 [ 0.60011783  0.80175497 -1.61930264 ...  1.61262532 -0.50194146
   0.46994524]
 [ 0.10014128  0.6524956  -0.24526619 ...  1.48113508 -1.13743906
   0.89943023]]


如果你正确地完成了均值标准化过程，那么 $X_{\tiny{\mbox{norm}}}$ 中的所有元素的平均值应该接近 0。你可以通过填充以下代码验证这一点：

In [5]:
# Print the average of all the values of X_norm
print("X_norm average = ", X_norm.mean())

# Print the minimum value of each column of X_norm
print("X_norm minimum = ", X_norm.min())

# Print the maximum value of each column of X_norm
print("X_norm maximum = ", X_norm.max())

X_norm average =  -1.900701818158268e-17
X_norm minimum =  -1.8275615866911603
X_norm maximum =  1.7888118645403244


请注意，因为 $X$ 是使用随机整数创建的，因此上述值将有所变化。

# 数据分离

数据均值标准化后，通常在机器学习中，我们会将数据集拆分为三个集合：

1. 训练集
2. 交叉验证集
3. 测试集

划分方式通常为，训练集包含 60% 的数据，交叉验证集包含 20% 的数据，测试集包含 20% 的数据。

在此部分，你需要将 `X_norm` 分离成训练集、交叉验证集和测试集。每个数据集将包含随机选择的 `X_norm` 行，确保不能重复选择相同的行。这样可以保证所有的 `X_norm` 行都能被选中，并且在三个新的数据集中随机分布。

首先你需要创建一个秩为 1 的 ndarray，其中包含随机排列的 `X_norm` 行索引。为此，你可以使用 `np.random.permutation()` 函数。`np.random.permutation(N)` 函数会创建一个从 0 到 `N - 1`的随机排列的整数集。我们来看一个示例：

In [6]:
# We create a random permutation of integers 0 to 4
R = np.random.permutation(5)
print("R = ", R)

R =  [3 4 1 0 2]


# TODO

在下面的空白处，创建一个秩为 1 的 ndarray，其中包含随机排列的 `X_norm` 行索引。用一行代码就能搞定：使用 `shape` 属性提取 `X_norm` 的行数，然后将其传递给  `np.random.permutation()` 函数。注意，`shape` 属性返回一个包含两个数字的元组，格式为 `(rows,columns)`。

In [7]:
# Create a rank 1 ndarray that contains a random permutation of the row indices of `X_norm`
rows = np.shape(X_norm)[0]
row_indices = np.random.permutation(rows)
print("row_indices = ", row_indices)

row_indices =  [849 779 901 721 904 683 850 926 870 509 284 281 933 678 549 487 489 968
  99 414 569 684 616 749 441 290 725 719 998 359 318 476 913 246 537  46
 216 801  43 336  37 192 340 201 386 199 831  83 365 472 282 195 919 664
 463  82 413 895 325 591 877 306 551 842 334 388 558 976 380 654 231 896
 264 753 755 372 280 624 371 827 921 121 249 615 868 203 735 666 467 577
 323 208 561 503 271 381 959  64 783 872 912 836 524 764 940 650 455 312
  73 432 223 294 599 273 300 477 410 520 688 987 947  62 655 939 350 113
 153   4 999  14 702 452 953 440 915  39 824 132 590 766 125 124 863 713
 936 160 140 279  92 634 638 980 899 143 752 765 497 621 448 985 347 596
 610 138 739 767 703  75 508 553 446 361 917 641 266 175 909 916 424 832
 254 840 996 769 613  28 331 879 270  32 151 120 149 147 401 778 656 209
 136 202 134 154 501 421 357 504 742  21 758 902 682 328 566 400 109 164
 932 709 296 579 447 330 534 966 693 802 283 578 625  11 494 651 640 582
 119 744 595 219 367 118 527 690 384

现在，你可以使用 `row_indices` ndarray 创建三个数据集，并选择进入每个数据集的行。注意，训练集包含 60% 的数据，交叉验证集包含 20% 的数据，测试集包含 20% 的数据。每个集合都只需一行代码就能创建。请填充以下代码

In [8]:
# Make any necessary calculations.
# You can save your calculations into variables to use later.


# Create a Training Set
X_train = X_norm[row_indices[:int(rows*0.6)],:]

# # Create a Cross Validation Set
X_crossVal =  X_norm[row_indices[int(rows*0.6):int(rows*0.8)],:]

# # Create a Test Set
X_test =  X_norm[row_indices[int(rows*0.8):],:]

如果你正确地完成了上述计算步骤，那么 `X_tain` 应该有 600 行和 20 列，`X_crossVal` 应该有 200 行和 20 列，`X_test` 应该有 200 行和 20 列。你可以通过填充以下代码验证这一点：

In [9]:
# Print the shape of X_train
print("X_train shape:", np.shape(X_train))

# Print the shape of X_crossVal
print("X_crossVal shape:", np.shape(X_crossVal))

# Print the shape of X_test
print("X_test shape:", np.shape(X_test))

X_train shape: (600, 20)
X_crossVal shape: (200, 20)
X_test shape: (200, 20)
