# 均值标准化

在机器学习中，我们会使用大量数据训练我们的模型。某些机器学习算法可能需要*标准化*数据才能正常工作。标准化是指*特征缩放*，旨在确保所有数据都采用相似的刻度，*即*所有数据采用相似范围的值。例如，数据集的值范围在 0 到 5,000 之间。通过标准化数据，可以使值范围在 0 到 1 之间。

在此 Lab 中，你将执行一种特殊形式的特征缩放，称之为*均值标准化*。均值标准化不仅会缩放数据，而且会确保数据的均值为 0。

# TODO：

首先，你将导入 NumPy 并创建一个秩为 2 的 ndarray，其中包含 0 到 5,000（含）之间的随机整数，共有 1000 行和 20 列。此数组将模拟一个值范围很广的数据集。请填充以下代码

In [4]:
# import NumPy into Python
import numpy as np
# Create a 1000 x 20 ndarray with random integers in the half-open interval [0, 5001).
X = np.random.randint(0,5001,(1000,20))
# print(X)
# print the shape of X
print(X.shape)

(1000, 20)


创建好数组后，我们将标准化数据。我们将使用以下方程进行均值标准化：

$\mbox{Norm_Col}_i = \frac{\mbox{Col}_i - \mu_i}{\sigma_i}$

其中 $\mbox{Col}_i$ 是 $X$ 的第 $i$ 列，$\mu_i$ 是 $X$ 的第 $i$ 列的平均值，$\sigma_i$ 是 $X$ 的第 $i$ 列的标准差。换句话说，均值标准化的计算方法是将值减去 $X$ 的每列的平均值，然后除以值的标准差。在下面的空白处，你首先需要计算 $X$ 的每列的平均值和标准差。

In [5]:
# Average of the values in each column of X
ave_cols = np.mean(X,axis=0)
#np.divide(np.subtract(X,np.mean(X,axis=0)),np.std(X,axis=0))

# Standard Deviation of the values in each column of X
std_cols = np.std(X,axis=0)

如果你正确地完成了上述计算过程，则 `ave_cols` 和 `std_cols` 向量的形状都应该为 `(20,)`，因为 $X$ 有 20 列。你可以通过填充以下代码验证这一点：

In [6]:
# Print the shape of ave_cols
print(ave_cols)
# Print the shape of std_cols
print(std_cols)

[ 2478.074  2561.212  2527.989  2451.263  2474.032  2488.151  2505.984
  2601.512  2502.71   2495.108  2493.159  2404.566  2459.765  2536.095
  2515.927  2484.727  2465.653  2509.306  2447.013  2467.498]
[ 1413.72722706  1447.61330439  1422.69351614  1447.87399101  1462.31862909
  1451.14881463  1464.20019456  1463.20240563  1470.07967536  1422.02119968
  1430.94447192  1468.79194498  1429.45605801  1438.45738275  1460.67933431
  1429.16326656  1433.30904225  1445.21453576  1458.72836362  1423.78721725]


现在，你可以利用广播计算 $X$ 的均值标准化版本，借助上述方程，用一行代码就能搞定。请填充以下代码

In [7]:
# Mean normalize X
X_norm = np.divide(np.subtract(X,ave_cols),std_cols)

如果你正确地完成了均值标准化过程，那么 $X_{\tiny{\mbox{norm}}}$ 中的所有元素的平均值应该接近 0。你可以通过填充以下代码验证这一点：

In [9]:
# Print the average of all the values of X_norm
print(np.mean(X_norm))
# Print the minimum value of each column of X_norm
print(np.max(X_norm))
# Print the maximum value of each column of X_norm
print(np.min(X_norm))

1.30562227696e-17


请注意，因为 $X$ 是使用随机整数创建的，因此上述值将有所变化。

# 数据分离

数据均值标准化后，通常在机器学习中，我们会将数据集拆分为三个集合：

1. 训练集
2. 交叉验证集
3. 测试集

划分方式通常为，训练集包含 60% 的数据，交叉验证集包含 20% 的数据，测试集包含 20% 的数据。

在此部分，你需要将 `X_norm` 分离成训练集、交叉验证集和测试集。每个数据集将包含随机选择的 `X_norm` 行，确保不能重复选择相同的行。这样可以保证所有的 `X_norm` 行都能被选中，并且在三个新的数据集中随机分布。

首先你需要创建一个秩为 1 的 ndarray，其中包含随机排列的 `X_norm` 行索引。为此，你可以使用 `np.random.permutation()` 函数。`np.random.permutation(N)` 函数会创建一个从 0 到 `N - 1`的随机排列的整数集。我们来看一个示例：

In [12]:
# We create a random permutation of integers 0 to 4
np.random.permutation(15)

array([ 9, 12,  5, 11,  7,  8, 14,  3,  4,  0,  2, 10,  1,  6, 13])

# TODO

在下面的空白处，创建一个秩为 1 的 ndarray，其中包含随机排列的 `X_norm` 行索引。用一行代码就能搞定：使用 `shape` 属性提取 `X_norm` 的行数，然后将其传递给  `np.random.permutation()` 函数。注意，`shape` 属性返回一个包含两个数字的元组，格式为 `(rows,columns)`。

In [17]:
# Create a rank 1 ndarray that contains a random permutation of the row indices of `X_norm`
row_indices = np.random.permutation(np.shape(X_norm)[0])
# print(row_indices)

现在，你可以使用 `row_indices` ndarray 创建三个数据集，并选择进入每个数据集的行。注意，训练集包含 60% 的数据，交叉验证集包含 20% 的数据，测试集包含 20% 的数据。每个集合都只需一行代码就能创建。请填充以下代码

In [28]:
# Make any necessary calculations.
# You can save your calculations into variables to use later.


# Create a Training Set
# x = np.random.permutation(10)
# y = np.arange(10)
# print(x)
# print(y)
# print(y[x < 6])
# print(len(X))
X_train = X[row_indices < len(X) * 0.6]

# Create a Cross Validation Set
X_crossVal = X[(row_indices >= len(X) * 0.6) & (row_indices < len(X) * 0.8)]

# Create a Test Set
X_test = X[(row_indices >= len(X) * 0.8) & (row_indices < len(X))]

如果你正确地完成了上述计算步骤，那么 `X_tain` 应该有 600 行和 20 列，`X_crossVal` 应该有 200 行和 20 列，`X_test` 应该有 200 行和 20 列。你可以通过填充以下代码验证这一点：

In [30]:
# Print the shape of X_train
print(np.shape(X_train))
# Print the shape of X_crossVal
print(np.shape(X_crossVal))
# Print the shape of X_test
print(np.shape(X_test))

(600, 20)
(200, 20)
(200, 20)
