# Python Numpy 基础（可选作业）

欢迎来到你的第一个作业。这次练习向你简要地介绍 Python。即使你之前使用过 Python，这也有助于你熟悉我们将使用的函数。

**Instructions:**
- 你将使用 Python3。
- 避免使用循环 (for/while)，除非你被明确告知需要使用。
- 不要修改单元格中的一些注释。如果你改变这一点，你的作业就不会被评分。每个包含该注释的单元格应该只包含一个函数。
- 编写函数后，运行下面的单元格，检查结果是否正确。

**完成这次作业后，你将学会：**
- 能够使用 iPython Notebooks
- 能够使用 numpy 函数和 numpy 矩阵/向量 操作
- 理解 "broadcasting" 的概念
- 能够向量化代码

让我们直接开始吧！

## 关于 iPython Notebooks ##

iPython notebook 是嵌入在网页中的交互式编码环境。在本章中，我们将使用 iPython notebooks。你只需要在 ### START code HERE ### 和 ### END code HERE ### 注释之间编写代码。编写代码后，你可以通过按下 SHIFT+ENTER 或点击笔记本右上角的 run cell（用 play 符号表示）来运行单元格。

我们通常会在注释中指定 "(≈ X lines of code)"，告诉你需要编写多少代码。这只是一个粗略的估计，所以如果你的代码更长或更短，不要感到沮丧。

**练习**: 将 test 设置为 `"Hello World"` 在下面的单元格中打印 “Hello World” 并运行下面的两个单元格。

In [1]:
### START CODE HERE ### (≈ 1 line of code)
test = 'Hello World'
### END CODE HERE ###

In [2]:
print ("test: " + test)

test: Hello World


**预期输出**:
test: Hello World

<font color='blue'>

**你需要记住：**
- 使用 SHIFT+ENTER 运行你的单元格
- 仅使用 Python3 在指定区域编写代码
- 不修改代码以外的指定区域

## 1 - 使用 numpy 创建基础函数 ##

Numpy 是 Python 中用于科学计算的主要包。它由一个大型社区 (www.numpy.org) 维护。在本练习中，你将学习几个关键的 numpy 函数，例如 `np.exp`、`np.log` 和 `np.shape`。你需要知道如何在以后的作业中使用这些函数。

### 1.1 - sigmoid 函数, `np.exp()` ###

使用 `np.exp()` 前，你将使用 `math.exp()` 去实现 sigmoid 函数。然后你将看到为什么 `np.exp()` 是优于 `math.exp()` 的。

**练习**: 创建一个返回实数 $x$ 的 sigmoid 值的函数。对指数函数使用 `math.exp(x)`。

**提示**:
$sigmoid(x) = \frac{1}{1+e^{-x}}$ 有时也被称为逻辑函数。它是一个不仅用于机器学习（逻辑回归）也用于深度学习的非线性函数。

<img src="images/Sigmoid.png" style="width:500px;height:228px;">

要引用属于特定包的函数，可以使用 `package_name.function()` 调用它。运行下面的代码来看看一个使用 `math.exp()` 的例子。

In [3]:
# GRADED FUNCTION: basic_sigmoid

import math

def basic_sigmoid(x):
    """
    计算 x 的 sigmoid。

    Arguments:
    x -- A scalar

    Return:
    s -- sigmoid(x)
    """
    
    ### START CODE HERE ### (≈ 1 line of code)
    s = 1 / (1 + math.exp(-x))
    ### END CODE HERE ###
    
    return s

In [4]:
basic_sigmoid(3)

0.9525741268224334

**预期输出**: 
<table style = "width:40%">
    <tr>
        <td>**basic_sigmoid(3)**</td> 
        <td>0.9525741268224334 </td> 
    </tr>
</table>

实际上，我们在深度学习中很少使用 "math" 库，因为函数输入的是真实值。在深度学习中我们主要使用矩阵和向量。这也是 numpy 更有用的原因。

In [5]:
### 我们在深度学习中使用 "numpy" 而不是 "math" 的原因 ###
x = [1, 2, 3]
basic_sigmoid(x) # 当你运行时，你会看到一个错误，因为 x 是一个向量。

TypeError: bad operand type for unary -: 'list'

事实上，如果 $ x = (x_1, x_2, ..., x_n)$ 是一个行向量，那么 $np.exp(x)$ 将会计算 x 中每个元素的指数函数。这个输出将会是：$np.exp(x) = (e^{x_1}, e^{x_2}, ..., e^{x_n})$

In [6]:
import numpy as np

# example of np.exp
x = np.array([1, 2, 3])
print(np.exp(x)) # result is (exp(1), exp(2), exp(3))

[ 2.71828183  7.3890561  20.08553692]


而且，如果 x 是一个向量，则 Python 操作如如 $s = x + 3$ 或 $s = \frac{1}{x}$ 将输出 s 作为与 x 相同大小的向量。

In [7]:
# 向量运算示例
x = np.array([1, 2, 3])
print (x + 3)

[4 5 6]


有时你需要 numpy 函数的更多信息，我们鼓励你去访问 [the official documentation](https://docs.scipy.org/doc/numpy-1.10.1/reference/generated/numpy.exp.html). 

你也可以创建一个新的单元格在 notebook 并写上 `np.exp?` 以快速访问说明文档。

**练习**: 使用 numpy 执行 sigmoid 函数。 

**说明**: x 可以是一个实数，一个向量，或是一个矩阵。在 Numpy 中我们用来表示这些形状（向量、矩阵……）的数据结构被称为 numpy 数组。 

$$
\text{For } x \in \mathbb{R}^n \text{,     } sigmoid(x) = sigmoid\begin{pmatrix}
    x_1  \\\\
    x_2  \\\\
    ...  \\\\
    x_n  \\\\
\end{pmatrix} = \begin{pmatrix}
    \frac{1}{1+e^{-x_1}}  \\\\
    \frac{1}{1+e^{-x_2}}  \\\\
    ...  \\\\
    \frac{1}{1+e^{-x_n}}  \\\\
\end{pmatrix}\tag{1}
$$

In [10]:
# GRADED FUNCTION: sigmoid

import numpy as np # 这意味着你可以通过np.function()而不是numpy.function()来访问numpy中的函数。

def sigmoid(x):
    """
    计算 x 的 sigmoid。

    Arguments:
    x -- A scalar or numpy array of any size

    Return:
    s -- sigmoid(x)
    """
    
    ### START CODE HERE ### (≈ 1 line of code)
    s = 1 / (1 + np.exp(-x))
    ### END CODE HERE ###
    
    return s

In [11]:
x = np.array([1, 2, 3])
sigmoid(x)

array([0.73105858, 0.88079708, 0.95257413])

**预期输出**: 
<table>
    <tr> 
        <td> **sigmoid([1,2,3])**</td> 
        <td> array([ 0.73105858,  0.88079708,  0.95257413]) </td> 
    </tr>
</table> 


### 1.2 - Sigmoid 梯度

正如你在课程中看到的，你需要计算梯度使用反向传播去优化损失函数。让我们开始编写你的第一个梯度函数。

**练习**: 执行 sigmoid_grad() 函数去计算 sigmoid 函数的关于输入值 x 的梯度。公式为: 

$$
sigmoid\_derivative(x) = \sigma'(x) = \sigma(x) (1 - \sigma(x))\tag{2}
$$

这个函数通常分两步编写：
1. 将 s 设置为 x 的 sigmoid 值。你可能会发现 sigmoid(x) 函数很有用。
2. 计算 $\sigma'(x) = s(1-s)$

In [12]:
# GRADED FUNCTION: sigmoid_derivative

def sigmoid_derivative(x):
    """
    计算 sigmoid 函数的关于输入值 x 的梯度（也被称为斜率或导数）。
    你可以把 sigmoid 函数的输出存储到变量中，然后用它来计算梯度。
    
    Arguments:
    x -- A scalar or numpy array

    Return:
    ds -- Your computed gradient.
    """
    
    ### START CODE HERE ### (≈ 2 lines of code)
    s = 1 / (1 + np.exp(-x))
    ds = s * (1 - s)
    ### END CODE HERE ###
    
    return ds

In [13]:
x = np.array([1, 2, 3])
print ("sigmoid_derivative(x) = " + str(sigmoid_derivative(x)))

sigmoid_derivative(x) = [0.19661193 0.10499359 0.04517666]


**预期输出**: 


<table>
    <tr> 
        <td> **sigmoid_derivative([1,2,3])**</td> 
        <td> [ 0.19661193  0.10499359  0.04517666] </td> 
    </tr>
</table> 



### 1.3 - 重塑数组 ###

两个在深度学习中常用的 numpy 函数是 [np.shape](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.shape.html) 和 [np.reshape()](https://docs.scipy.org/doc/numpy/reference/generated/numpy.reshape.html). 
- `X.shape` 被用于获取矩阵/向量 X 的形状（维度）。 
- `X.reshape(...)` 被用于重塑 X 到一些其他的维度。 

例如，在科学计算中，一张图像的形状由三维数组来表示 $(length, height, depth = 3)$。然而，当你读取一张图像作为一个算法输入时，你会将它转化为一个向量的形状 $(length*height*3, 1)$。换句话说，你可以将3D数组 “展开” 或重塑为一维向量。

<img src="images/image2vector_kiank.png" style="width:500px;height:300;">

**练习**: 执行 `image2vector()`，它接受一个形状为 $(length, height, 3)$ 的输入，并返回一个形状为 $(length*height*3, 1)$ 的向量。 例如，如果你想将一个形状为 $(a, b, c)$ 的数组 $v$ 重塑为一个形状为 $(a*b,c)$ 的向量，你可以这样做：

``` python
v = v.reshape((v.shape[0]*v.shape[1], v.shape[2])) # v.shape[0] = a ; v.shape[1] = b ; v.shape[2] = c
```

- 请不要将图像的维度硬编码为常量（即直接输入常数）。而是使用 `image.shape[0]`, …… 查询所需的数据。

In [32]:
# GRADED FUNCTION: image2vector
def image2vector(image):
    """
    Argument:
    image -- a numpy array of shape (length, height, depth)
    
    Returns:
    v -- a vector of shape (length*height*depth, 1)
    """
    
    ### START CODE HERE ### (≈ 1 line of code)
    v = image.reshape(image.shape[0] * image.shape[1] * image.shape[2], 1)
    ### END CODE HERE ###
    
    return v

In [33]:
# 这是一个 3 × 3 × 2 的数组，通常图像将是 (num_px_x, num_px_y, 3)，其中 3 表示RGB值
image = np.array([[[ 0.67826139,  0.29380381],
        [ 0.90714982,  0.52835647],
        [ 0.4215251 ,  0.45017551]],

       [[ 0.92814219,  0.96677647],
        [ 0.85304703,  0.52351845],
        [ 0.19981397,  0.27417313]],

       [[ 0.60659855,  0.00533165],
        [ 0.10820313,  0.49978937],
        [ 0.34144279,  0.94630077]]])

print ("image2vector(image) = \n" + str(image2vector(image)))

image2vector(image) = 
[[0.67826139]
 [0.29380381]
 [0.90714982]
 [0.52835647]
 [0.4215251 ]
 [0.45017551]
 [0.92814219]
 [0.96677647]
 [0.85304703]
 [0.52351845]
 [0.19981397]
 [0.27417313]
 [0.60659855]
 [0.00533165]
 [0.10820313]
 [0.49978937]
 [0.34144279]
 [0.94630077]]


**预期输出**: 

<table style="width:100%">
     <tr> 
       <td> **image2vector(image)** </td> 
       <td> [[ 0.67826139]
 [ 0.29380381]
 [ 0.90714982]
 [ 0.52835647]
 [ 0.4215251 ]
 [ 0.45017551]
 [ 0.92814219]
 [ 0.96677647]
 [ 0.85304703]
 [ 0.52351845]
 [ 0.19981397]
 [ 0.27417313]
 [ 0.60659855]
 [ 0.00533165]
 [ 0.10820313]
 [ 0.49978937]
 [ 0.34144279]
 [ 0.94630077]]</td> 
     </tr>
    
   
</table>

### 1.4 - 规范行

我们在机器学习和深度学习中使用的另一种常见技术是**规范化数据**。由于梯度下降在归一化后收敛速度更快，因此通常可以获得更好的性能。在这里通过规范化，意味着我们将 x 更改为 $ \frac{x}{\| x\|} $ （将 x 的每个行向量除以它的模长 ||x||）。

例如，如果

$$
x = 
\begin{bmatrix}
    0 & 3 & 4 \\
    2 & 6 & 4
\end{bmatrix}\tag{3}
$$

然后

$$\| x\| = np.linalg.norm(x,\ axis = 1,\ keepdims = True) =
\begin{bmatrix}
    5 \\\\
    \sqrt{56}
\end{bmatrix}\tag{4}
$$

并且

$$
x\_normalized = \frac{x}{\| x\|} =
\begin{bmatrix}
    0 & \frac{3}{5} & \frac{4}{5} \\\\
    \frac{2}{\sqrt{56}} & \frac{6}{\sqrt{56}} & \frac{4}{\sqrt{56}}
\end{bmatrix}\tag{5}
$$

请注意，你可以对不同大小的矩阵进行除法，并且效果很好：这称为广播 (broadcast)，我们将在 1.5 节介绍它。

**练习**: 执行 `normalizeRows()` 将矩阵的行归一化。将此函数应用于输入矩阵 x 后，x 的每一行都应该是一个单位长度的向量（即模长为 1）

In [24]:
# GRADED FUNCTION: normalizeRows

def normalizeRows(x):
    """
    实现一个函数，对矩阵 x 的每一行进行归一化（使其具有单位长度）。
    
    Argument:
    x -- 一个形状为 (n, m) 的 numpy 矩阵
    
    Returns:
    x -- 按行归一化后的 numpy 矩阵，可以修改 x。
    """
    
    ### START CODE HERE ### (≈ 2 lines of code)
    # 计算 x_norm 作为 the norm 2 of x. 使用 np.linalg.norm(..., ord = 2, axis = ..., keepdims = True)
    x_norm = np.linalg.norm(x, axis=1, keepdims=True)
    # 用 x 除以它的模长。
    x = x / x_norm
    ### END CODE HERE ###

    return x

In [25]:
x = np.array([
    [0, 3, 4],
    [1, 6, 4]])
print("normalizeRows(x) = \n" + str(normalizeRows(x)))

normalizeRows(x) = 
[[0.         0.6        0.8       ]
 [0.13736056 0.82416338 0.54944226]]


**预期输出**: 

<table style="width:60%">
     <tr>
          <td> **normalizeRows(x)** </td>
          <td> [[ 0.          0.6         0.8       ]<br/>
          [ 0.13736056  0.82416338  0.54944226]]</td> 
     </tr>
</table>

In [35]:
x_norm = np.linalg.norm(x, axis=1, keepdims=True)
print("原矩阵形状:", x.shape)
print("矩阵模长:", x_norm.shape)

原矩阵形状: (2, 3)
矩阵模长: (2, 1)


**注意**:
在函数 normalizeRows() 中，你可以尝试去打印 x 和 x_norm 的形状，然后重新运行任务代码。你可能会发现它们具有不同的形状。这是正常现象，x_norm 取 x 每一行行向量的模长。所以 x_norm 的行数与 x 相同，但是只有 1 列。那么 x 除以 x_norm 是怎样进行的呢？这就是所谓的广播，我们现在就来讨论它！

### 1.5 - Broadcasting 和 softmax 函数 ####
numpy 中需要理解的一个非常重要的概念是 “广播”。在不同形状的数组之间执行数学运算时，它非常有用。有关广播的完整细节，您可以阅读官方文件 [broadcasting documentation](http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html).

**练习**: 使用 numpy 执行一个 softmax 函数。你可以将 softmax 视为算法需要对两个或多个类别进行分类时使用的规范化函数。您将在此专业的第二门课程中了解更多关于 softmax 的知识。

**Instructions**:

- 对于 $ x \in \mathbb{R}^{1\times n}, \ softmax(x) = softmax(\begin{bmatrix}
    x_1,\ x_2,\ \cdots,\ x_n  
\end{bmatrix}) = \begin{bmatrix}
    \frac{e^{x_1}}{\sum_{j}e^{x_j}},\
    \frac{e^{x_2}}{\sum_{j}e^{x_j}},\
    \cdots,\
    \frac{e^{x_n}}{\sum_{j}e^{x_j}} 
\end{bmatrix} $ 

- 对于矩阵 $ X \in \mathbb{R}^{m\times n}, \ x_{ij} $ 是映射到矩阵 $X$ 的第 $i$ 行、第 $j$ 列的元素，因此有：
  
$$
softmax(X) = softmax\begin{bmatrix}
    x_{11} & x_{12} & x_{13} & \dots  & x_{1n} \\\\
    x_{21} & x_{22} & x_{23} & \dots  & x_{2n} \\\\
    \vdots & \vdots & \vdots & \ddots & \vdots \\\\
    x_{m1} & x_{m2} & x_{m3} & \dots  & x_{mn}
\end{bmatrix} = \begin{bmatrix}
    \frac{e^{x_{11}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{12}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{13}}}{\sum_{j}e^{x_{1j}}} & \dots  & \frac{e^{x_{1n}}}{\sum_{j}e^{x_{1j}}} \\\\
    \frac{e^{x_{21}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{22}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{23}}}{\sum_{j}e^{x_{2j}}} & \dots  & \frac{e^{x_{2n}}}{\sum_{j}e^{x_{2j}}} \\\\
    \vdots & \vdots & \vdots & \ddots & \vdots \\\\
    \frac{e^{x_{m1}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m2}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m3}}}{\sum_{j}e^{x_{mj}}} & \dots  & \frac{e^{x_{mn}}}{\sum_{j}e^{x_{mj}}}
\end{bmatrix} = \begin{pmatrix}
    softmax\text{(first row of x)}  \\\\
    softmax\text{(second row of x)} \\\\
    ...  \\\\
    softmax\text{(last row of x)}
\end{pmatrix}
$$

In [36]:
# GRADED FUNCTION: softmax

def softmax(x):
    """计算输入矩阵 X 的每一行的 softmax。

    你的代码不仅适用于行向量，也适用于形状为 (n,m) 的矩阵

    Argument:
    x -- 一个形状为 (n, m) 的 numpy 矩阵

    Returns:
    s -- 一个等于 X 的 softmax, 形状为 (n,m) 的 numpy 矩阵
    """
    
    ### START CODE HERE ### (≈ 3 lines of code)
    # 对 x 的每一个元素求 exp(). 使用 np.exp(...)
    x_exp = np.exp(x)
    # 创建一个向量 x_sum 对 x_exp 的每一行求和。使用 np.sum(..., axis = 1, keepdims = True)
    x_sum = np.sum(x_exp, axis=1, keepdims=True)
    # 通过 x_exp 除以 x_sum 计算 softmax(x). 它应该自动使用 numpy 的 broadcasting。
    s = x_exp / x_sum
    ### END CODE HERE ###
    
    return s

In [37]:
x = np.array([
    [9, 2, 5, 0, 0],
    [7, 5, 0, 0 ,0]])
print("softmax(x) = \n" + str(softmax(x)))

softmax(x) = 
[[9.80897665e-01 8.94462891e-04 1.79657674e-02 1.21052389e-04
  1.21052389e-04]
 [8.78679856e-01 1.18916387e-01 8.01252314e-04 8.01252314e-04
  8.01252314e-04]]


**预期输出**:

<table style="width:60%">
     <tr> 
       <td> **softmax(x)** </td> 
       <td> [[  9.80897665e-01   8.94462891e-04   1.79657674e-02   1.21052389e-04
    1.21052389e-04]
 [  8.78679856e-01   1.18916387e-01   8.01252314e-04   8.01252314e-04
    8.01252314e-04]]</td> 
     </tr>
</table>

**注意**:
- 如果你重新运行任务单元格打印 x_exp, x_sum  还有 s 的形状，你将看到 x_sum 的形状是 (2,1) 而 x_exp 和 s 的形状是 (2,5)。**x_exp/x_sum** 依赖于 python 广播而正常计算。

恭喜你！现在你已经很好地理解了 python numpy，并实现了一些将在深度学习中使用的有用函数。

<font color='blue'>

**你需要记住：**

- `np.exp(x)` 适用于任何 `np.array` x 并将指数函数应用于每一个坐标元素
- sigmoid 函数及其梯度
- `image2vector` 经常在深度学习中使用
- `np.reshape` 被广泛使用。接下来，你将看到保持矩阵/向量的维度一致性有助于消除很多 bug
- numpy 具有高效的内置函数
- broadcasting 是非常有用的

## 2 - 向量化

在深度学习中，你需要处理非常大的数据集。因此，一个不是计算最优的函数可能会成为算法的巨大瓶颈，并导致模型运行时间过长。为了确保代码的计算效率，你将使用向量化。例如，试着区分以下 dot 点积/outer 外积/ elementwise 逐个元素乘积的实现。

In [54]:
import time

x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### 经典向量点积实现 ###
tic = time.process_time()
dot = 0
for i in range(len(x1)):
    dot+= x1[i]*x2[i]
toc = time.process_time()
print ("向量点积 = " + str(dot) + "\n ----- 计算时间 = " + str(1000*(toc - tic)) + "ms")

### 经典向量外积实现 ###
tic = time.process_time()
outer = np.zeros((len(x1),len(x2))) # we create a len(x1)*len(x2) matrix with only zeros
for i in range(len(x1)):
    for j in range(len(x2)):
        outer[i,j] = x1[i]*x2[j]
toc = time.process_time()
print ("向量外积 = \n" + str(outer) + "\n ----- 计算时间 = " + str(1000*(toc - tic)) + "ms")

### 经典向量元素积实现 ###
tic = time.process_time()
mul = np.zeros(len(x1))
for i in range(len(x1)):
    mul[i] = x1[i]*x2[i]
toc = time.process_time()
print ("向量各元素积 = " + str(mul) + "\n ----- 计算时间 = " + str(1000*(toc - tic)) + "ms")

### 经典通用点积实现 ###
W = np.random.rand(3,len(x1)) # Random 3*len(x1) numpy array
tic = time.process_time()
gdot = np.zeros(W.shape[0])
for i in range(W.shape[0]):
    for j in range(len(x1)):
        gdot[i] += W[i,j]*x1[j]
toc = time.process_time()
print ("gdot = " + str(gdot) + "\n ----- 计算时间 = " + str(1000*(toc - tic)) + "ms")

向量点积 = 278
 ----- 计算时间 = 0.0ms
向量外积 = 
[[81. 18. 18. 81.  0. 81. 18. 45.  0.  0. 81. 18. 45.  0.  0.]
 [18.  4.  4. 18.  0. 18.  4. 10.  0.  0. 18.  4. 10.  0.  0.]
 [45. 10. 10. 45.  0. 45. 10. 25.  0.  0. 45. 10. 25.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [63. 14. 14. 63.  0. 63. 14. 35.  0.  0. 63. 14. 35.  0.  0.]
 [45. 10. 10. 45.  0. 45. 10. 25.  0.  0. 45. 10. 25.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [81. 18. 18. 81.  0. 81. 18. 45.  0.  0. 81. 18. 45.  0.  0.]
 [18.  4.  4. 18.  0. 18.  4. 10.  0.  0. 18.  4. 10.  0.  0.]
 [45. 10. 10. 45.  0. 45. 10. 25.  0.  0. 45. 10. 25.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]]
 ----- 计算时间 = 0

In [58]:
x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### 向量化点积 ###
tic = time.process_time()
dot = np.dot(x1,x2)
toc = time.process_time()
print ("dot = " + str(dot) + "\n ----- 计算时间 = " + str(1000*(toc - tic)) + "ms")

### 向量化外积 ###
tic = time.process_time()
outer = np.outer(x1,x2)
toc = time.process_time()
print ("outer = \n" + str(outer) + "\n ----- 计算时间 = " + str(1000*(toc - tic)) + "ms")

### 向量化向量元素积 ###
tic = time.process_time()
mul = np.multiply(x1,x2)
toc = time.process_time()
print ("elementwise multiplication = " + str(mul) + "\n ----- 计算时间 = " + str(1000*(toc - tic)) + "ms")

### 向量化一般点积 ###
tic = time.process_time()
dot = np.dot(W,x1)
toc = time.process_time()
print ("gdot = " + str(dot) + "\n ----- 计算时间 = " + str(1000*(toc - tic)) + "ms")

dot = 278
 ----- 计算时间 = 0.0ms
outer = 
[[81 18 18 81  0 81 18 45  0  0 81 18 45  0  0]
 [18  4  4 18  0 18  4 10  0  0 18  4 10  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [63 14 14 63  0 63 14 35  0  0 63 14 35  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [81 18 18 81  0 81 18 45  0  0 81 18 45  0  0]
 [18  4  4 18  0 18  4 10  0  0 18  4 10  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]]
 ----- 计算时间 = 0.0ms
elementwise multiplication = [81  4 10  0  0 63 10  0  0  0 81  4 25  0  0]
 ----- 计算时间 = 0.0ms
gdot = [23.13842153 22.91922857 14.70687609]
 ----- 计算时间 = 0.0ms


你可能已经注意到了，向量化的实现更简洁更高效。对于更大的向量/矩阵， 运行时间差异会更大。

**注意** `np.dot()` 执行 矩阵-矩阵 或 矩阵-向量 的乘法。这与 `np.multiply()` 和 `*` 运算符 (等价于 Matlab/Octave 中的 `.*` )，它执行的是元素间的乘法。

### 2.1 执行 L1 和 L2 损失函数

**练习**: 执行 numpy 向量化版本的 L1 损失。你可能发现 `abs(x)` 绝对值函数非常有用。

**提示**:
- 这个损失被用于评估你模型的性能。你的损失越大，你的预测值 ($ \hat{y} $) 与真实值 ($y$) 的差距也就越大。在深度学习中，你使用梯度下降等优化函数去训练模型并最小化成本。
- L1 损失被定义为:

$$
L_1(\hat{y}, y) = \sum_{i=0}^m|y^{(i)} - \hat{y}^{(i)}| \tag{6}
$$

In [59]:
# GRADED FUNCTION: L1

def L1(yhat, y):
    """
    Arguments:
    yhat -- 大小为 m 的向量（预测标签）
    y -- 大小为 m 的向量（真实标签）
    
    Returns:
    loss -- 上面定义的 L1 损失函数的值
    """
    
    ### START CODE HERE ### (≈ 1 line of code)
    loss = np.sum(np.abs(yhat - y))
    ### END CODE HERE ###
    
    return loss

In [60]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L1 = " + str(L1(yhat,y)))

L1 = 1.1


**预期输出**:

<table style="width:20%">
  <tr>
    <td> **L1** </td> 
    <td> 1.1 </td> 
  </tr>
</table>


**练习**: 执行 numpy 向量化版本的 L2 损失。有几种实现 L2 损失的方法，但你可能会发现 `np.dot()` 函数很有用。

**提示**: 若 $x = [x_1, x_2, ..., x_n]$，则 `np.dot(x, x)` = $ \sum_{j=0}^{n} x_j^{2} $

- L2 损失被定义为:

$$
L_2(\hat{y},y) = \sum_{i=0}^m(y^{(i)} - \hat{y}^{(i)})^2 \tag{7}
$$

In [66]:
# GRADED FUNCTION: L2

def L2(yhat, y):
    """
    Arguments:
    yhat -- 大小为 m 的向量（预测标签）
    y -- 大小为 m 的向量（真实标签）
    
    Returns:
    loss -- 上面定义的 L1 损失函数的值
    """
    
    ### START CODE HERE ### (≈ 1 line of code)
    loss = np.sum(np.dot((y - yhat), (y - yhat)))
    ### END CODE HERE ###
    
    return loss

In [67]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L2 = " + str(L2(yhat,y)))

L2 = 0.43


**预期输出**: 
<table style="width:20%">
     <tr> 
       <td> **L2** </td> 
       <td> 0.43 </td> 
     </tr>
</table>

恭喜你完成了这项任务。我们希望这个小小的热身练习可以帮助你在未来的作业中，这将是更令人兴奋和有趣的！

<font color='blue'>

**你需要记住：**

- 在深度学习中向量化是非常重要的。它提供了计算效率和清晰度。
- 你已经复习了 L1 和 L2 损失。
- -你熟悉许多numpy函数，例如：`np.sum`、`np.dot`、`np.multiply`、`np.maximum` 等……