# 矩阵数学和NumPy的复习

### 简介

深度学习涉及很多矩阵数学，在开始构建你自己的神经网络之前，了解这方面的基础知识非常重要。这些课程简单复习了你需要知道的知识，并提供了如何将 [NumPy](http://www.numpy.org/) 库与 Python 中的矩阵高效搭配的指导建议。


## 1.数据维度

- `标量（Scalar）` 就是单个的数字，我们称为：`零维张量（0 Dimensional）`
- `向量（Vector）` 就是一个一维的数组，分别有`行向量（Row Vectors）`和`列向量（Column Vectors）`，我们称为：`一维张量（1 Dimensional）`
- `矩阵（Matrix）` 就是一个二维的数组，比如：几行几列的表格/矩阵，我们称为：`二维张量（2 Dimensional）`
- `张量（Tensor）` 就是n维度的矩阵，任何大于二维的对象，我们称为：`张量`

In [6]:
from IPython.display import HTML

HTML('<iframe src="https://www.youtube.com/embed/F4NSv776X0c" width="600" height="400"  frameborder="0" allowfullscreen></iframe>')

** 1). 对于三维，你可以想象成矩阵堆栈 **

<img src="../../sources/img/three-dimensional.png" alt="" width="600" height="500" />

** 2). 也可以想象成矩阵列表 **
<img src="../../sources/img/three-dimensional-list.png" alt="" width="600" height="500" />

** 3). 或者向量矩阵 **
<img src="../../sources/img/vector-matrix.png" alt="" width="600" height="500" />

** 4). 对于四维，你可以想象成一种矩阵其中每个项目本身都是一个矩阵，或者一个矩阵列表的列表 **
<img src="../../sources/img/four-dimensional.png" alt="" width="600" height="500" />


# 2.元素级矩阵运算 

## Element-Wise Matrix Operations

In [7]:

HTML('<iframe src="https://www.youtube.com/embed/vjUykZyzko4" width="600" height="400"  frameborder="0" allowfullscreen></iframe>')


# 3.矩阵乘法

In [8]:

HTML('<iframe src="https://www.youtube.com/embed/JRoCFQRP4B0" width="600" height="400"  frameborder="0" allowfullscreen></iframe>')


### 3.1 矩阵乘法
<img src="../../sources/img/matrix_mulplication.png" alt="" width="600" height="450" />

### 3.2 矩阵乘积，也称为 [点积](https://en.wikipedia.org/wiki/Dot_product)
<img src="../../sources/img/matrix_product_instruction.png" alt="" width="600" height="450" />

### 3.3 点积的运算过程演练
<img src="../../sources/img/matrix_product_step1.png" alt="" width="300" height="250" />
<img src="../../sources/img/matrix_product_step2.png" alt="" width="300" height="250" />
<img src="../../sources/img/matrix_product_step3.png" alt="" width="300" height="250" />
<img src="../../sources/img/matrix_product_step4.png" alt="" width="300" height="250" />
<img src="../../sources/img/matrix_product_step5.png" alt="" width="300" height="250" />
<img src="../../sources/img/matrix_product_step6.png" alt="" width="300" height="250" />



## 矩阵乘法要素

In [9]:

HTML('<iframe src="https://www.youtube.com/embed/8jtk8BzBdj8" width="600" height="400"  frameborder="0" allowfullscreen></iframe>')


#### 关于矩阵乘法的重要提醒

- 1.`左侧`矩阵的`列数`必须`等`于`右侧`矩阵的`行数`。
- 2.`答案`矩阵始终与`左侧`矩阵有`相同的行数`，与`右侧`矩阵有相同的`列数`
- 3.`顺序很重要`：乘法`A•B`不等于乘法`B•A`。
- 4.`左侧`矩阵中的数据应排列为`行`，而`右侧`矩阵中的数据应排列为`列`。

记住这四点，你在构建神经网络时，就能搞清楚如何正确排列矩阵乘法了。





# 4.NumPy 矩阵乘法 案例

在前面几个视频中，你已经听了很多关于矩阵乘法的知识 – 现在，你将看到如何使用 NumPy 进行矩阵乘法运算。然而，了解 NumPy 支持的几类矩阵乘法也很重要。

#### 4.1 元素级乘法

你已看过了一些元素级乘法。你可以使用 `multiply` 函数或 `*` 运算符来实现。回顾一下，它看起来是这样的：

```
m = np.array([[1,2,3],[4,5,6]])
m
# 显示以下结果：
# array([[1, 2, 3],
#        [4, 5, 6]])

n = m * 0.25
n
# 显示以下结果：
# array([[ 0.25,  0.5 ,  0.75],
#        [ 1.  ,  1.25,  1.5 ]])

m * n
# 显示以下结果：
# array([[ 0.25,  1.  ,  2.25],
#        [ 4.  ,  6.25,  9.  ]])

np.multiply(m, n)   # 相当于 m * n
# 显示以下结果：
# array([[ 0.25,  1.  ,  2.25],
#        [ 4.  ,  6.25,  9.  ]])
```

#### 4.2 矩阵乘积

要获得矩阵乘积，你可以使用 `NumPy` 的 `matmul` 函数。

如果你有兼容的形状，那就像这样简单：

```
a = np.array([[1,2,3,4],[5,6,7,8]])
a
# 显示以下结果：
# array([[1, 2, 3, 4],
#        [5, 6, 7, 8]])
a.shape
# 显示以下结果：
# (2, 4)

b = np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]])
b
# 显示以下结果：
# array([[ 1,  2,  3],
#        [ 4,  5,  6],
#        [ 7,  8,  9],
#        [10, 11, 12]])
b.shape
# 显示以下结果：
# (4, 3)

c = np.matmul(a, b)
c
# 显示以下结果：
# array([[ 70,  80,  90],
#        [158, 184, 210]])
c.shape
# 显示以下结果：
# (2, 3)
```

如果你的矩阵具有不兼容的形状，则会出现以下错误：

```
np.matmul(b, a)
# 显示以下错误：
# ValueError: shapes (4,3) and (2,4) not aligned: 3 (dim 1) != 2 (dim 0)
```


#### 4.3 `NumPy` 的 `dot` 函数

有时候，在你以为要用 `matmul` 函数的地方，你可能会看到 `NumPy` 的 `dot` 函数。事实证明，如果矩阵是二维的，那么 `dot` 和 `matmul` 函数的结果是相同的。

所以这两个结果是等价的：

```
a = np.array([[1,2],[3,4]])
a
# 显示以下结果：
# array([[1, 2],
#        [3, 4]])

np.dot(a,a)
# 显示以下结果：
# array([[ 7, 10],
#        [15, 22]])

a.dot(a)  # you can call你可以直接对 `ndarray` 调用 `dot` 
# 显示以下结果：
# array([[ 7, 10],
#        [15, 22]])

np.matmul(a,a)
# array([[ 7, 10],
#        [15, 22]])
```

虽然这两个函数对于二维数据返回相同的结果，但在用于其他数据形状时，你应该谨慎选择。你可以在 `matmul` 和 `dot` 文档中详细了解它们的`差异`，并找到其他 `NumPy` 函数的链接。


# 5.矩阵转置

In [10]:

HTML('<iframe src="https://www.youtube.com/embed/NVK5xCY3CZE" width="600" height="400"  frameborder="0" allowfullscreen></iframe>')



可以矩阵转置的两个矩阵，并且可以得到正确的结果
<img src="../../sources/img/matrix_transpose.png" alt="" width="500" height="450" />
<img src="../../sources/img/matrix_transpose_use_occasion.png" alt="" width="500" height="450" />

可以矩阵转置的两个矩阵，但是会得到错误的结果
<img src="../../sources/img/matrix_transpose_inregularity.png" alt="" width="500" height="450" />

### 转置的使用

在 `NumPy` 中获得矩阵的转置非常容易。只需访问其 `T` 属性即可。还有一个 `transpose()` 函数也可以返回同样的结果，但是你很少看到它的使用，因为输入 `T` 的方法要简单得多。:)

例如：

```
m = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
m
# 显示以下结果：
# array([[ 1,  2,  3,  4],
#        [ 5,  6,  7,  8],
#        [ 9, 10, 11, 12]])

m.T
# 显示以下结果：
# array([[ 1,  5,  9],
#        [ 2,  6, 10],
#        [ 3,  7, 11],
#        [ 4,  8, 12]])
```

`NumPy` 在进行转置时不会实际移动内存中的任何数据 - 只是改变对原始矩阵的索引方式 - 所以是非常高效的。

但是，这也意味着你要特别注意修改对象的方式，因为它们共享相同的数据。例如，对于上面同一个矩阵 `m`，我们来创建一个新的变量 `m_t` 来存储 `m` 的转置。然后看看如果我们修改 `m_t` 中的值，会发生什么：

```
m_t = m.T
m_t[3][1] = 200
m_t
# 显示以下结果：
# array([[ 1,   5, 9],
#        [ 2,   6, 10],
#        [ 3,   7, 11],
#        [ 4, 200, 12]])

m
# 显示以下结果：
# array([[ 1,  2,  3,   4],
#        [ 5,  6,  7, 200],
#        [ 9, 10, 11,  12]])
```

注意它是如何同时修改转置和原始矩阵的！这是因为它们共享相同的数据副本。所以记住，将转置视为矩阵的不同视图，而不是完全不同的矩阵。

#### 实际用例

我不想过多讲解关于神经网络的细节，因为你还没有学到它们，但是有一个地方你差不多肯定会用到转置，或者至少考虑使用转置。

假设你有以下两个矩阵，称为 `inputs` 和 `weights`，

```
inputs = np.array([[-0.27,  0.45,  0.64, 0.31]])
inputs
# 显示以下结果：
# array([[-0.27,  0.45,  0.64,  0.31]])

inputs.shape
# 显示以下结果：
# (1, 4)

weights = np.array([[0.02, 0.001, -0.03, 0.036], \
    [0.04, -0.003, 0.025, 0.009], [0.012, -0.045, 0.28, -0.067]])

weights
# 显示以下结果：
# array([[ 0.02 ,  0.001, -0.03 ,  0.036],
#        [ 0.04 , -0.003,  0.025,  0.009],
#        [ 0.012, -0.045,  0.28 , -0.067]])

weights.shape
# displays the following result:
# (3, 4)
```

我在这里不会讲解它们的用途，因为你稍后都会学到，但是最终你会想要获得这两个矩阵的矩阵乘积。

如果你像现在这样去尝试，会获得一个错误：

```
np.matmul(inputs, weights)
# 显示以下错误：
# ValueError: shapes (1,4) and (3,4) not aligned: 4 (dim 1) != 3 (dim 0)
```

如果你学了矩阵乘法课，那应该见过这个错误。它报告说形状不兼容，因为左边矩阵的列数 `4` 不等于右边矩阵的行数 `3`。

所以这不可行，但是注意，如果你获取 `weights` 矩阵的转置，它会：

```
np.matmul(inputs, weights.T)
# 显示以下结果：
# array([[-0.01299,  0.00664,  0.13494]])
```

如果你获取 `inputs` 的转置，并调换它们的顺序也可以，就像我们在视频中展示的那样：

```
np.matmul(weights, inputs.T)
# 显示以下结果：
# array([[-0.01299],# 
#        [ 0.00664],
#        [ 0.13494]])
```

这两个答案是彼此的转置，所以你使用的乘法只取决于你想要的输出的形状。


# 练习题

In [27]:
# Use the numpy library
import numpy as np


def prepare_inputs(inputs):
    # TODO: create a 2-dimensional ndarray from the given 1-dimensional list;
    #       assign it to input_array
    input_array = None
    
    # TODO: find the minimum value in input_array and subtract that
    #       value from all the elements of input_array. Store the
    #       result in inputs_minus_min
    # https://docs.scipy.org/doc/numpy/reference/generated/numpy.amin.html
    inputs_minus_min = None

    # TODO: find the maximum value in inputs_minus_min and divide
    #       all of the values in inputs_minus_min by the maximum value.
    #       Store the results in inputs_div_max.
    # https://docs.scipy.org/doc/numpy/reference/generated/numpy.amax.html
    inputs_div_max = None

    # return the three arrays we've created
    return input_array, inputs_minus_min, inputs_div_max
    

def multiply_inputs(m1, m2):
    # TODO: Check the shapes of the matrices m1 and m2. 
    #       m1 and m2 will be ndarray objects.
    #
    #       Return False if the shapes cannot be used for matrix
    #       multiplication. You may not use a transpose
    pass


    # TODO: If you have not returned False, then calculate the matrix product
    #       of m1 and m2 and return it. Do not use a transpose,
    #       but you swap their order if necessary
    pass
    

def find_mean(values):
    # TODO: Return the average of the values in the given Python list
    pass


input_array, inputs_minus_min, inputs_div_max = prepare_inputs([-1,2,7])
print("Input as Array: {}".format(input_array))
print("Input minus min: {}".format(inputs_minus_min))
print("Input  Array: {}".format(inputs_div_max))

print("Multiply 1:\n{}".format(multiply_inputs(np.array([[1,2,3],[4,5,6]]), np.array([[1],[2],[3],[4]]))))
print("Multiply 2:\n{}".format(multiply_inputs(np.array([[1,2,3],[4,5,6]]), np.array([[1],[2],[3]]))))
print("Multiply 3:\n{}".format(multiply_inputs(np.array([[1,2,3],[4,5,6]]), np.array([[1,2]]))))

print("Mean == {}".format(find_mean([1,3,4])))

Input as Array: None
Input minus min: None
Input  Array: None
Multiply 1:
None
Multiply 2:
None
Multiply 3:
None
Mean == None


## 解决方案

In [29]:
# Use the numpy library
import numpy as np


######################################################
#
#      MESSAGE TO STUDENTS:
#
#  This file contains a solution to the coding quiz. Feel free
#  to look at it when you are stuck, but try to solve the
#   problem on your own first.
#
######################################################


def prepare_inputs(inputs):
    # TODO: create a 2-dimensional ndarray from the given 1-dimensional list;
    #       assign it to input_array
    input_array = np.array([inputs])
    
    # TODO: find the minimum value in input_array and subtract that
    #       value from all the elements of input_array. Store the
    #       result in inputs_minus_min
    # We can use NumPy's min function and element-wise division
    inputs_minus_min = input_array - np.min(input_array)

    # TODO: find the maximum value in inputs_minus_min and divide
    #       all of the values in inputs_minus_min by the maximum value.
    #       Store the results in inputs_div_max.
    # We can use NumPy's max function and element-wise division
    inputs_div_max = inputs_minus_min / np.max(inputs_minus_min)

    return input_array, inputs_minus_min, inputs_div_max
    

def multiply_inputs(m1, m2):
    # Check the shapes of the matrices m1 and m2. 
    # m1 and m2 will be ndarray objects.
    #
    # Return False if the shapes cannot be used for matrix
    # multiplication. You may not use a transpose
    if m1.shape[0] != m2.shape[1] and m1.shape[1] != m2.shape[0]:     
        return False

    # Have not returned False, so calculate the matrix product
    # of m1 and m2 and return it. Do not use a transpose,
    #       but you swap their order if necessary
    if m1.shape[1] == m2.shape[0]:
        return np.matmul(m1, m2)        
    else:
        return np.matmul(m2, m1)        


def find_mean(values):
    # Return the average of the values in the given Python list
    # NumPy has a lot of helpful methods like this.
    return np.mean(values)

input_array, inputs_minus_min, inputs_div_max = prepare_inputs([-1,2,7])
print("Input as Array: {}".format(input_array))
print("Input minus min: {}".format(inputs_minus_min))
print("Input  Array: {}".format(inputs_div_max))

print("Multiply 1:\n{}".format(multiply_inputs(np.array([[1,2,3],[4,5,6]]), np.array([[1],[2],[3],[4]]))))
print("Multiply 2:\n{}".format(multiply_inputs(np.array([[1,2,3],[4,5,6]]), np.array([[1],[2],[3]]))))
print("Multiply 3:\n{}".format(multiply_inputs(np.array([[1,2,3],[4,5,6]]), np.array([[1,2]]))))

print("Mean == {}".format(find_mean([1,3,4])))


Input as Array: [[-1  2  7]]
Input minus min: [[0 3 8]]
Input  Array: [[0 0 1]]
Multiply 1:
False
Multiply 2:
[[14]
 [32]]
Multiply 3:
[[ 9 12 15]]
Mean == 2.66666666667
