# 均值标准化

在机器学习中，我们会使用大量数据训练我们的模型。某些机器学习算法可能需要*标准化*数据才能正常工作。标准化是指*特征缩放*，旨在确保所有数据都采用相似的刻度，*即*所有数据采用相似范围的值。例如，数据集的值范围在 0 到 5,000 之间。通过标准化数据，可以使值范围在 0 到 1 之间。

在此 Lab 中，你将执行一种特殊形式的特征缩放，称之为*均值标准化*。均值标准化不仅会缩放数据，而且会确保数据的均值为 0。

# TODO：

首先，你将导入 NumPy 并创建一个秩为 2 的 ndarray，其中包含 0 到 5,000（含）之间的随机整数，共有 1000 行和 20 列。此数组将模拟一个值范围很广的数据集。请填充以下代码

In [1]:
# import NumPy into Python
import numpy as np

# Create a 1000 x 20 ndarray with random integers in the half-open interval [0, 5001).
X = np.random.randint(5000, size = (1000, 20))

# print the shape of X
X.shape


(1000, 20)

创建好数组后，我们将标准化数据。我们将使用以下方程进行均值标准化：

$\mbox{Norm_Col}_i = \frac{\mbox{Col}_i - \mu_i}{\sigma_i}$

其中 $\mbox{Col}_i$ 是 $X$ 的第 $i$ 列，$\mu_i$ 是 $X$ 的第 $i$ 列的平均值，$\sigma_i$ 是 $X$ 的第 $i$ 列的标准差。换句话说，均值标准化的计算方法是将值减去 $X$ 的每列的平均值，然后除以值的标准差。在下面的空白处，你首先需要计算 $X$ 的每列的平均值和标准差。

In [2]:
# Average of the values in each column of X
ave_cols = X.mean(axis = 0)

# Standard Deviation of the values in each column of X
std_cols = X.std(axis = 0)

如果你正确地完成了上述计算过程，则 `ave_cols` 和 `std_cols` 向量的形状都应该为 `(20,)`，因为 $X$ 有 20 列。你可以通过填充以下代码验证这一点：

In [3]:
# Print the shape of ave_cols
ave_cols.shape
# Print the shape of std_cols
std_cols.shape

(20,)

现在，你可以利用广播计算 $X$ 的均值标准化版本，借助上述方程，用一行代码就能搞定。请填充以下代码

In [4]:
# Mean normalize X
X_norm = (X - ave_cols) / std_cols

如果你正确地完成了均值标准化过程，那么 $X_{\tiny{\mbox{norm}}}$ 中的所有元素的平均值应该接近 0。你可以通过填充以下代码验证这一点：

In [5]:
# Print the average of all the values of X_norm
print(X_norm.mean())
# Print the minimum value of each column of X_norm
print(X_norm.min(axis=0))
# Print the maximum value of each column of X_norm
print(X_norm.max(axis=0))

## 为什呢mean的值那么小呢？因为正负抵消所以相加之后接近于零

-2.84217094304e-17
[-1.69268842 -1.65496963 -1.75369605 -1.6901683  -1.71385454 -1.80421258
 -1.7455265  -1.64326238 -1.74471491 -1.68515258 -1.7677924  -1.8193248
 -1.67260603 -1.77066573 -1.69699289 -1.66045645 -1.69691381 -1.69900145
 -1.70091669 -1.68239053]
[ 1.78265914  1.76125162  1.77149614  1.73191789  1.68857294  1.67220205
  1.67576834  1.75662748  1.759895    1.77004215  1.67575025  1.71213438
  1.7943137   1.72431763  1.71586883  1.6939193   1.72978036  1.72381378
  1.68647567  1.75899289]


请注意，因为 $X$ 是使用随机整数创建的，因此上述值将有所变化。

# 数据分离

数据均值标准化后，通常在机器学习中，我们会将数据集拆分为三个集合：

1. 训练集
2. 交叉验证集
3. 测试集

划分方式通常为，训练集包含 60% 的数据，交叉验证集包含 20% 的数据，测试集包含 20% 的数据。

在此部分，你需要将 `X_norm` 分离成训练集、交叉验证集和测试集。每个数据集将包含随机选择的 `X_norm` 行，确保不能重复选择相同的行。这样可以保证所有的 `X_norm` 行都能被选中，并且在三个新的数据集中随机分布。

首先你需要创建一个秩为 1 的 ndarray，其中包含随机排列的 `X_norm` 行索引。为此，你可以使用 `np.random.permutation()` 函数。`np.random.permutation(N)` 函数会创建一个从 0 到 `N - 1`的随机排列的整数集。我们来看一个示例：

In [6]:
# We create a random permutation of integers 0 to 4
np.random.permutation(5)

array([4, 3, 0, 2, 1])

# TODO

在下面的空白处，创建一个秩为 1 的 ndarray，其中包含随机排列的 `X_norm` 行索引。用一行代码就能搞定：使用 `shape` 属性提取 `X_norm` 的行数，然后将其传递给  `np.random.permutation()` 函数。注意，`shape` 属性返回一个包含两个数字的元组，格式为 `(rows,columns)`。

In [7]:
# Create a rank 1 ndarray that contains a random permutation of the row indices of `X_norm`
# 此处的逻辑是建立一个row_indices数组，数组中随机的打乱index的号码
# 这样在后面可以按照600个，200个，200个的方式选择出随机的数据
row_indices = np.random.permutation(X_norm.shape[0])
row_indices[:30]

array([207, 325,  87, 511, 878, 573,  98, 669, 821, 384,   4, 468, 179,
       812, 653, 965,  19, 773, 709, 460, 385, 755, 168, 920, 234, 718,
       541,  44, 411, 392])

现在，你可以使用 `row_indices` ndarray 创建三个数据集，并选择进入每个数据集的行。注意，训练集包含 60% 的数据，交叉验证集包含 20% 的数据，测试集包含 20% 的数据。每个集合都只需一行代码就能创建。请填充以下代码

In [8]:
# https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.randint.html
# randomint 的参数
## size是生成随机数的维度要求（可以是n维的)
print(np.random.randint(2, 100, size=(3,2)))
## 上面的是3x2 维的，数字范围是 2-100
## 如果从0开始，可以只设定下限（不包括）
print('\n', np.random.randint(2, size=(3,2)))

[[ 9 40]
 [70 72]
 [45 24]]

 [[0 1]
 [0 0]
 [1 0]]


In [9]:
X_norm[row_indices[600]]

array([ 0.36023014, -0.99047628, -1.11378164, -0.6983189 ,  0.76119527,
       -1.32348364,  1.6242635 , -1.37476035, -0.47420603, -1.31517584,
       -0.81842059,  1.64711652,  0.01126697, -1.29509585,  0.58462403,
        0.63198125,  1.54682158,  0.05428176,  0.91374587,  1.05000578])

In [10]:
# Make any necessary calculations.
# You can save your calculations into variables to use later.

# Create a Training Set
X_train = X_norm[row_indices[:600]]

# Create a Cross Validation Set
X_crossVal = X_norm[row_indices[600:800]]

# Create a Test Set
X_test = X_norm[row_indices[800:]]

如果你正确地完成了上述计算步骤，那么 `X_tain` 应该有 600 行和 20 列，`X_crossVal` 应该有 200 行和 20 列，`X_test` 应该有 200 行和 20 列。你可以通过填充以下代码验证这一点：

In [11]:
# Print the shape of X_train
print(X_train.shape)
# Print the shape of X_crossVal
print(X_crossVal.shape)
# Print the shape of X_test
print(X_test.shape)

(600, 20)
(200, 20)
(200, 20)
