# 均值标准化

在机器学习中，我们会使用大量数据训练我们的模型。某些机器学习算法可能需要*标准化*数据才能正常工作。标准化是指*特征缩放*，旨在确保所有数据都采用相似的刻度，*即*所有数据采用相似范围的值。例如，数据集的值范围在 0 到 5,000 之间。通过标准化数据，可以使值范围在 0 到 1 之间。

在此 Lab 中，你将执行一种特殊形式的特征缩放，称之为*均值标准化*。均值标准化不仅会缩放数据，而且会确保数据的均值为 0。

# TODO：

首先，你将导入 NumPy 并创建一个秩为 2 的 ndarray，其中包含 0 到 5,000（含）之间的随机整数，共有 1000 行和 20 列。此数组将模拟一个值范围很广的数据集。请填充以下代码

In [3]:
# import NumPy into Python
import numpy as np

# Create a 1000 x 20 ndarray with random integers in the half-open interval [0, 5001).
X = np.random.randint(0, 5001, 20000).reshape(1000, 20)

# print the shape of X
print(X.shape)

(1000, 20)


创建好数组后，我们将标准化数据。我们将使用以下方程进行均值标准化：

$\mbox{Norm_Col}_i = \frac{\mbox{Col}_i - \mu_i}{\sigma_i}$

其中 $\mbox{Col}_i$ 是 $X$ 的第 $i$ 列，$\mu_i$ 是 $X$ 的第 $i$ 列的平均值，$\sigma_i$ 是 $X$ 的第 $i$ 列的标准差。换句话说，均值标准化的计算方法是将值减去 $X$ 的每列的平均值，然后除以值的标准差。在下面的空白处，你首先需要计算 $X$ 的每列的平均值和标准差。

In [7]:
# Average of the values in each column of X
ave_cols = np.mean(X, axis=0)

# Standard Deviation of the values in each column of X
std_cols = np.std(X, axis=0)


如果你正确地完成了上述计算过程，则 `ave_cols` 和 `std_cols` 向量的形状都应该为 `(20,)`，因为 $X$ 有 20 列。你可以通过填充以下代码验证这一点：

In [8]:
# Print the shape of ave_cols
print(ave_cols.shape)
# Print the shape of std_cols
print(std_cols.shape)

(20,)
(20,)


现在，你可以利用广播计算 $X$ 的均值标准化版本，借助上述方程，用一行代码就能搞定。请填充以下代码

In [9]:
# Mean normalize X
X_norm = (X - ave_cols) / std_cols

如果你正确地完成了均值标准化过程，那么 $X_{\tiny{\mbox{norm}}}$ 中的所有元素的平均值应该接近 0。你可以通过填充以下代码验证这一点：

In [10]:
# Print the average of all the values of X_norm
print(X_norm.mean())
# Print the minimum value of each column of X_norm
print(X_norm.min(axis=0))
# Print the maximum value of each column of X_norm
print(X_norm.max(axis=0))

-7.81597009336e-18
[-1.70354428 -1.75124428 -1.66257691 -1.77095078 -1.68308561 -1.74913941
 -1.73333542 -1.74171513 -1.65149493 -1.70598761 -1.69436085 -1.75956842
 -1.67852802 -1.72497007 -1.76988168 -1.72089924 -1.79173164 -1.72699636
 -1.70110893 -1.79891925]
[ 1.7623514   1.7358772   1.79440683  1.73467475  1.73200192  1.76021447
  1.71913472  1.7728806   1.67662262  1.73630152  1.72805084  1.77201012
  1.77977819  1.6763004   1.69037073  1.75783571  1.6941588   1.73149454
  1.73803791  1.70823898]


请注意，因为 $X$ 是使用随机整数创建的，因此上述值将有所变化。

# 数据分离

数据均值标准化后，通常在机器学习中，我们会将数据集拆分为三个集合：

1. 训练集
2. 交叉验证集
3. 测试集

划分方式通常为，训练集包含 60% 的数据，交叉验证集包含 20% 的数据，测试集包含 20% 的数据。

在此部分，你需要将 `X_norm` 分离成训练集、交叉验证集和测试集。每个数据集将包含随机选择的 `X_norm` 行，确保不能重复选择相同的行。这样可以保证所有的 `X_norm` 行都能被选中，并且在三个新的数据集中随机分布。

首先你需要创建一个秩为 1 的 ndarray，其中包含随机排列的 `X_norm` 行索引。为此，你可以使用 `np.random.permutation()` 函数。`np.random.permutation(N)` 函数会创建一个从 0 到 `N - 1`的随机排列的整数集。我们来看一个示例：

In [11]:
# We create a random permutation of integers 0 to 4
np.random.permutation(5)

array([3, 1, 0, 2, 4])

# TODO

在下面的空白处，创建一个秩为 1 的 ndarray，其中包含随机排列的 `X_norm` 行索引。用一行代码就能搞定：使用 `shape` 属性提取 `X_norm` 的行数，然后将其传递给  `np.random.permutation()` 函数。注意，`shape` 属性返回一个包含两个数字的元组，格式为 `(rows,columns)`。

In [14]:
# Create a rank 1 ndarray that contains a random permutation of the row indices of `X_norm`
row_indices = np.random.permutation(X_norm.shape[0])

现在，你可以使用 `row_indices` ndarray 创建三个数据集，并选择进入每个数据集的行。注意，训练集包含 60% 的数据，交叉验证集包含 20% 的数据，测试集包含 20% 的数据。每个集合都只需一行代码就能创建。请填充以下代码

In [20]:
# Make any necessary calculations.
# You can save your calculations into variables to use later.
train_indices = np.arange(X_norm.shape[0]*.6, dtype=int64)
crossVal_indices = np.arange(X_norm.shape[0]*.6, X_norm.shape[0]*.8, dtype=int64)
test_indices = np.arange(X_norm.shape[0]*.8, X_norm.shape[0], dtype=int64)

# Create a Training Set
X_train = X_norm[train_indices, :]

# Create a Cross Validation Set
X_crossVal = X_norm[crossVal_indices, :]

# Create a Test Set
X_test = X_norm[test_indices, :]

NameError: name 'int64' is not defined

如果你正确地完成了上述计算步骤，那么 `X_tain` 应该有 600 行和 20 列，`X_crossVal` 应该有 200 行和 20 列，`X_test` 应该有 200 行和 20 列。你可以通过填充以下代码验证这一点：

In [None]:
# Print the shape of X_train
print(X_train.shape)
# Print the shape of X_crossVal
print(X_crossVal.shape)
# Print the shape of X_test
print(X_test.shape)