# 均值标准化

在机器学习中，我们会使用大量数据训练我们的模型。某些机器学习算法可能需要*标准化*数据才能正常工作。标准化是指*特征缩放*，旨在确保所有数据都采用相似的刻度，*即*所有数据采用相似范围的值。例如，数据集的值范围在 0 到 5,000 之间。通过标准化数据，可以使值范围在 0 到 1 之间。

在此 Lab 中，你将执行一种特殊形式的特征缩放，称之为*均值标准化*。均值标准化不仅会缩放数据，而且会确保数据的均值为 0。

# TODO：

首先，你将导入 NumPy 并创建一个秩为 2 的 ndarray，其中包含 0 到 5,000（含）之间的随机整数，共有 1000 行和 20 列。此数组将模拟一个值范围很广的数据集。请填充以下代码

In [2]:
# import NumPy into Python

import numpy as np
# Create a 1000 x 20 ndarray with random integers in the half-open interval [0, 5001).
X = np.random.randint(0, 5001, size = (1000, 20))

# print the shape of X
print(X.shape)

(1000, 20)


创建好数组后，我们将标准化数据。我们将使用以下方程进行均值标准化：

$\mbox{Norm_Col}_i = \frac{\mbox{Col}_i - \mu_i}{\sigma_i}$

其中 $\mbox{Col}_i$ 是 $X$ 的第 $i$ 列，$\mu_i$ 是 $X$ 的第 $i$ 列的平均值，$\sigma_i$ 是 $X$ 的第 $i$ 列的标准差。换句话说，均值标准化的计算方法是将值减去 $X$ 的每列的平均值，然后除以值的标准差。在下面的空白处，你首先需要计算 $X$ 的每列的平均值和标准差。

# Average of the values in each column of X
ave_cols = np.mean(X, axis = 0)312

# Standard Deviation of the values in each column of X
std_cols = np.std(X, axis = 0)

如果你正确地完成了上述计算过程，则 `ave_cols` 和 `std_cols` 向量的形状都应该为 `(20,)`，因为 $X$ 有 20 列。你可以通过填充以下代码验证这一点：

In [3]:
# Print the shape of ave_cols
print(ave_cols.shape)
# Print the shape of std_cols
print(std_cols.shape)

(20,)
(20,)


In [4]:
X[:,0].mean()

2527.1500000000001

In [5]:
ave_cols


array([ 2527.15 ,  2496.969,  2483.002,  2488.663,  2539.938,  2492.831,
        2584.767,  2530.393,  2512.339,  2512.017,  2464.614,  2451.159,
        2535.114,  2394.378,  2456.377,  2580.835,  2554.922,  2461.84 ,
        2491.657,  2520.032])

现在，你可以利用广播计算 $X$ 的均值标准化版本，借助上述方程，用一行代码就能搞定。请填充以下代码

In [6]:
# Mean normalize X
X_norm = np.divide(np.subtract(X, ave_cols), std_cols)

如果你正确地完成了均值标准化过程，那么 $X_{\tiny{\mbox{norm}}}$ 中的所有元素的平均值应该接近 0。你可以通过填充以下代码验证这一点：

In [7]:
# Print the average of all the values of X_norm
print(np.mean(X_norm))
# Print the minimum value of each column of X_norm
print(np.min(X_norm, axis = 0))
# Print the maximum value of each column of X_norm
print(np.max(X_norm, axis = 0))

-2.70006239589e-17
[-1.786016   -1.74209744 -1.7272395  -1.73444729 -1.78430431 -1.75427089
 -1.78338248 -1.73162958 -1.74150803 -1.72139051 -1.73715313 -1.66697542
 -1.72866526 -1.6104637  -1.69709202 -1.77250007 -1.78091388 -1.67024309
 -1.72169615 -1.71370614]
[ 1.74550426  1.74493257  1.76797675  1.74397723  1.73980107  1.76508199
  1.66498529  1.69058633  1.72085356  1.69666825  1.76590244  1.73553078
  1.68877141  1.75187426  1.76385946  1.65767631  1.70364983  1.72629828
  1.74727142  1.68303677]


请注意，因为 $X$ 是使用随机整数创建的，因此上述值将有所变化。

# 数据分离

数据均值标准化后，通常在机器学习中，我们会将数据集拆分为三个集合：

1. 训练集
2. 交叉验证集
3. 测试集

划分方式通常为，训练集包含 60% 的数据，交叉验证集包含 20% 的数据，测试集包含 20% 的数据。

在此部分，你需要将 `X_norm` 分离成训练集、交叉验证集和测试集。每个数据集将包含随机选择的 `X_norm` 行，确保不能重复选择相同的行。这样可以保证所有的 `X_norm` 行都能被选中，并且在三个新的数据集中随机分布。

首先你需要创建一个秩为 1 的 ndarray，其中包含随机排列的 `X_norm` 行索引。为此，你可以使用 `np.random.permutation()` 函数。`np.random.permutation(N)` 函数会创建一个从 0 到 `N - 1`的随机排列的整数集。我们来看一个示例：

In [8]:
# We create a random permutation of integers 0 to 4
np.random.permutation(5)

array([0, 4, 3, 2, 1])

# TODO

在下面的空白处，创建一个秩为 1 的 ndarray，其中包含随机排列的 `X_norm` 行索引。用一行代码就能搞定：使用 `shape` 属性提取 `X_norm` 的行数，然后将其传递给  `np.random.permutation()` 函数。注意，`shape` 属性返回一个包含两个数字的元组，格式为 `(rows,columns)`。

In [9]:
# Create a rank 1 ndarray that contains a random permutation of the row indices of `X_norm`
row_indices = np.random.permutation(X_norm.shape[0])

In [10]:
print(len(row_indices))

1000


In [25]:
X_norm[[1,9]]

array([[-1.06698575, -0.30149897,  0.10044392, -1.10929265,  1.69308668,
         1.20049123, -0.96684543,  0.56472192, -0.38509743, -0.99757438,
        -0.99818328, -1.18625311, -1.25455416,  1.19832272, -0.02246046,
         1.15062473,  0.6420394 , -0.17693611, -0.75127757, -1.11548193],
       [ 1.1346467 ,  0.41321655,  0.58581257, -1.20825804,  0.55920099,
         0.59219932, -0.21173848,  1.39607668,  1.62968384,  1.43732938,
         1.3928919 , -0.53053699, -0.76125937, -1.2613832 ,  0.09477763,
         0.86471929,  1.67158543,  1.69088927, -0.55189559,  0.64924545]])

现在，你可以使用 `row_indices` ndarray 创建三个数据集，并选择进入每个数据集的行。注意，训练集包含 60% 的数据，交叉验证集包含 20% 的数据，测试集包含 20% 的数据。每个集合都只需一行代码就能创建。请填充以下代码

In [14]:
# Make any necessary calculations.
# You can save your calculations into variables to use later.


# Create a Training Set
X_train = X_norm[row_indices[0:600]]

# Create a Cross Validation Set
X_crossVal = X_norm[row_indices[600:800]]

# Create a Test Set
X_test = X_norm[row_indices[800:1000]]

如果你正确地完成了上述计算步骤，那么 `X_tain` 应该有 600 行和 20 列，`X_crossVal` 应该有 200 行和 20 列，`X_test` 应该有 200 行和 20 列。你可以通过填充以下代码验证这一点：

In [15]:
# Print the shape of X_train
print(X_train.shape)
# Print the shape of X_crossVal
print(X_crossVal.shape)
# Print the shape of X_test
print(X_test.shape)

(600, 20)
(200, 20)
(200, 20)
