# Python基础与Numpy（可选作业）

欢迎来到您的第一个任务。本练习为您介绍Python的简要介绍。即使您之前使用过Python，这也将帮助您熟悉我们需要的功能。

**说明：**

- 您将使用Python 3。

- 除非明确告诉您这样做，否则避免使用for循环和while循环。

- 编写完函数后，请运行它正下方的单元格，以检查您的结果是否正确。

**完成此任务后，您将：**

- 能够使用iPython笔记本

- 能够使用numpy函数和numpy矩阵/向量操作

- 理解“广播”的概念

- 能够向量化代码

让我们开始吧！

## Table of Contents
- [About iPython Notebooks](#0)
    - [Exercise 1](#ex-1)
- [1 - Building basic functions with numpy](#1)
    - [1.1 - sigmoid function, np.exp()](#1-1)
        - [Exercise 2 - basic_sigmoid](#ex-2)
        - [Exercise 3 - sigmoid](#ex-3)
    - [1.2 - Sigmoid Gradient](#1-2)
        - [Exercise 4 - sigmoid_derivative](#ex-4)
    - [1.3 - Reshaping arrays](#1-3)
        - [Exercise 5 - image2vector](#ex-5)
    - [1.4 - Normalizing rows](#1-4)
        - [Exercise 6 - normalize_rows](#ex-6)
        - [Exercise 7 - softmax](#ex-7)
- [2 - Vectorization](#2)
    - [2.1 Implement the L1 and L2 loss functions](#2-1)
        - [Exercise 8 - L1](#ex-8)
        - [Exercise 9 - L2](#ex-9)

<a name='0'></a>
## 关于 iPython Notebooks ##

iPython Notebooks 是嵌入网页中的交互式编码环境。您将在本课程中使用iPython笔记本。您只需要在“＃your code here”注释之间编写代码。编写代码后，可以通过按“SHIFT”+“ENTER”或单击笔记本上方的“运行单元格”（用播放符号表示）来运行单元格。

我们经常在注释中指定“(≈ X行代码)”以告诉您需要编写多少代码。这只是一个粗略的估计，所以如果您的代码更长或更短，不要感到难过。

<a name='ex-1'></a>

### 练习 1

在下面的单元格中将test设置为`“Hello World”`以打印“Hello World”，然后运行下面的两个单元。

In [1]:
# (≈ 1 line of code)
# test = 
# YOUR CODE STARTS HERE

test = "Hello World"
print(test)

# YOUR CODE ENDS HERE

Hello World


In [2]:
print ("test: " + test)

test: Hello World


**Expected output**:
test: Hello World

<font color='blue'>
<b>What you need to remember </b>:
    
- Run your cells using SHIFT+ENTER (or "Run cell")
- Write code in the designated areas using Python 3 only
- Do not modify the code outside of the designated areas

<a name='1'></a>
## 1 - 使用numpy构建基本函数 ##

Numpy是Python中科学计算的主要包。它由一个大型社区维护（www.numpy.org）。在这个练习中，您将学习几个关键的numpy函数，如`np.exp`、`np.log`和`np.reshape`。您需要知道如何使用这些函数来完成未来的任务。

<a name='1-1'></a>

### 1.1 - sigmoid函数，np.exp() ###

在使用`np.exp()`之前，您将使用`math.exp()`来实现sigmoid函数。然后，您将看到为什么`np.exp()`比`math.exp()`更可取。

<a name='ex-2'></a>

### 练习2 - basic_sigmoid

构建一个函数，它返回实数x的sigmoid值。使用`math.exp(x)`进行指数函数。

**提醒**：

$sigmoid(x) = \frac{1}{1+e^{-x}}$有时也称为逻辑函数。它是一个非线性函数，不仅用于机器学习（逻辑回归），还用于深度学习。

<img src="images/Sigmoid.png" style="width:500px;height:228px;">

要引用属于特定软件包的函数，可以使用`package_name.function()`调用它。运行下面的代码以查看使用`math.exp()`的示例。

In [3]:
import math
from public_tests import *

# GRADED FUNCTION: basic_sigmoid

def basic_sigmoid(x):
    """
    Compute sigmoid of x.

    Arguments:
    x -- A scalar

    Return:
    s -- sigmoid(x)
    """
    # (≈ 1 line of code)
    # s = 
    # YOUR CODE STARTS HERE
    s = 1/(1+math.exp(-x))
    
    # YOUR CODE ENDS HERE
    
    return s

In [4]:
print("basic_sigmoid(1) = " + str(basic_sigmoid(1)))

basic_sigmoid_test(basic_sigmoid)

basic_sigmoid(1) = 0.7310585786300049
[92m All tests passed.


实际上，在深度学习中我们很少使用“math”库，因为函数的输入是实数。在深度学习中，我们主要使用矩阵和向量，这就是为什么numpy更有用的原因。

In [5]:
### One reason why we use "numpy" instead of "math" in Deep Learning ###

x = [1, 2, 3] # x becomes a python list object
basic_sigmoid(x) # you will see this give an error when you run it, because x is a vector.

TypeError: bad operand type for unary -: 'list'

实际上，如果 $ x = (x_1, x_2, ..., x_n)$ 是一个行向量，那么 `np.exp(x)` 将对 x 的每个元素应用指数函数。输出将如下所示：`np.exp(x) = (e^{x_1}, e^{x_2}, ..., e^{x_n})`

In [None]:
import numpy as np

# example of np.exp
t_x = np.array([1, 2, 3])
print(np.exp(t_x)) # result is (exp(1), exp(2), exp(3))

[ 2.71828183  7.3890561  20.08553692]


此外，如果x是一个向量，那么像$s = x + 3$或$s = \frac{1}{x}$这样的Python操作将输出与x大小相同的向量s。

In [None]:
# example of vector operation
t_x = np.array([1, 2, 3])
print (t_x + 3)

[4 5 6]


任何时候，如果您需要更多有关numpy函数的信息，我们鼓励您查看[官方文档](https://docs.scipy.org/doc/numpy-1.10.1/reference/generated/numpy.exp.html)。

您还可以在笔记本中创建一个新单元格并编写`np.exp？`（例如）以快速访问文档。

<a name='ex-3'></a>

### 练习3 - sigmoid

使用numpy实现sigmoid函数。

**说明**：现在，x可以是实数、向量或矩阵。我们在numpy中用来表示这些形状（向量、矩阵等）的数据结构称为numpy数组。您现在不需要了解更多。

$$ \text{对于} x \in \mathbb{R}^n \text{，} sigmoid(x) = sigmoid\begin{pmatrix}

x_1 \\

x_2 \\

... \\

x_n \\

\end{pmatrix} = \begin{pmatrix}

\frac{1}{1+e^{-x_1}} \\

\frac{1}{1+e^{-x_2}} \\

... \\

\frac{1}{1+e^{-x_n}} \\

\end{pmatrix}\tag{1} $$

In [None]:
# GRADED FUNCTION: sigmoid

def sigmoid(x):
    """
    Compute the sigmoid of x

    Arguments:
    x -- A scalar or numpy array of any size

    Return:
    s -- sigmoid(x)
    """
    
    # (≈ 1 line of code)
    # s = 
    # YOUR CODE STARTS HERE
    s = 1/(1+np.exp(-x))
    
    # YOUR CODE ENDS HERE
    
    return s

In [None]:
t_x = np.array([1, 2, 3])
print("sigmoid(t_x) = " + str(sigmoid(t_x)))

sigmoid_test(sigmoid)

sigmoid(t_x) = [0.73105858 0.88079708 0.95257413]
[92m All tests passed.


<a name='1-2'></a>
### 1.2 - Sigmoid梯度

正如你在讲座中所见，你需要计算梯度以优化损失函数使用反向传播。让我们编写你的第一个梯度函数。

<a name='ex-4'></a>

### 练习 4 - sigmoid_derivative

实现函数sigmoid_grad()来计算相对于其输入x的sigmoid函数的梯度。公式如下：

$$sigmoid\_derivative(x) = \sigma'(x) = \sigma(x) (1 - \sigma(x))\tag{2}$$

通常情况下，你可以分两步进行计算。

In [None]:
# GRADED FUNCTION: sigmoid_derivative

def sigmoid_derivative(x):
    """
    Compute the gradient (also called the slope or derivative) of the sigmoid function with respect to its input x.
    You can store the output of the sigmoid function into variables and then use it to calculate the gradient.
    
    Arguments:
    x -- A scalar or numpy array

    Return:
    ds -- Your computed gradient.
    """
    
    #(≈ 2 lines of code)
    # s = 
    # ds = 
    # YOUR CODE STARTS HERE
    s = sigmoid(x)
    ds = s*(1-s)
    # YOUR CODE ENDS HERE
    
    return ds

In [None]:
t_x = np.array([1, 2, 3])
print ("sigmoid_derivative(t_x) = " + str(sigmoid_derivative(t_x)))

sigmoid_derivative_test(sigmoid_derivative)

sigmoid_derivative(t_x) = [0.19661193 0.10499359 0.04517666]
[92m All tests passed.


<a name='1-3'></a>
### 1.3 - 重塑数组 ###

在深度学习中使用的两个常见的 numpy 函数是 [np.shape](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.shape.html) 和 [np.reshape()](https://docs.scipy.org/doc/numpy/reference/generated/numpy.reshape.html)。

- X.shape 用于获取矩阵/向量 X 的形状（维度）。

- X.reshape(...) 用于将 X 重塑为其他维度。

例如，在计算机科学中，图像由形状为 $(length，height，depth=3)$ 的 3D 数组表示。然而，当您将图像作为算法的输入读取时，您将其转换为形状为 $(length*height*3，1)$ 的向量。换句话说，您将 3D 数组“展开”或重塑为 1D 向量。

<img src="images/image2vector_kiank.png" style="width:500px;height:300;">

<a name='ex-5'></a>

### 练习 5 - image2vector

实现 `image2vector()`，它接受形状为 (length，height，3) 的输入，并返回形状为 (length\*height\*3，1) 的向量。例如，如果您想将形状为 (a，b，c) 的数组 v 重塑为形状为 (a*b，c) 的向量，则可以执行以下操作：

``` python

v = v.reshape((v.shape[0] * v.shape[1], v.shape[2])) # v.shape[0] = a ; v.shape[1] = b ; v.shape[2] = c

```

- 请不要将图像的维度硬编码为常量。相反，请使用 `image.shape[0]` 等查找所需的数量。

- 您可以使用 `v = v.reshape(-1, 1)`。只需确保您理解为什么它有效即可。

In [None]:
# GRADED FUNCTION:image2vector

def image2vector(image):
    """
    Argument:
    image -- a numpy array of shape (length, height, depth)
    
    Returns:
    v -- a vector of shape (length*height*depth, 1)
    """
    
    # (≈ 1 line of code)
    # v =
    # YOUR CODE STARTS HERE
    v = image.reshape(image.shape[0]*image.shape[1]*image.shape[2],1)
    
    # YOUR CODE ENDS HERE
    
    return v

In [None]:
# This is a 3 by 3 by 2 array, typically images will be (num_px_x, num_px_y,3) where 3 represents the RGB values
t_image = np.array([[[ 0.67826139,  0.29380381],
                     [ 0.90714982,  0.52835647],
                     [ 0.4215251 ,  0.45017551]],

                   [[ 0.92814219,  0.96677647],
                    [ 0.85304703,  0.52351845],
                    [ 0.19981397,  0.27417313]],

                   [[ 0.60659855,  0.00533165],
                    [ 0.10820313,  0.49978937],
                    [ 0.34144279,  0.94630077]]])

print ("image2vector(image) = " + str(image2vector(t_image)))

image2vector_test(image2vector)


image2vector(image) = [[0.67826139]
 [0.29380381]
 [0.90714982]
 [0.52835647]
 [0.4215251 ]
 [0.45017551]
 [0.92814219]
 [0.96677647]
 [0.85304703]
 [0.52351845]
 [0.19981397]
 [0.27417313]
 [0.60659855]
 [0.00533165]
 [0.10820313]
 [0.49978937]
 [0.34144279]
 [0.94630077]]
[92m All tests passed.


<a name='1-4'></a>
### 1.4 - 规范化行

在机器学习和深度学习中，我们经常使用的一种技术是对数据进行规范化。这通常会导致更好的性能，因为规范化后梯度下降会更快地收敛。在这里，通过规范化，我们指的是将 x 更改为 $ \frac{x}{\| x\|} $（将 x 的每行向量除以其范数）。

例如，如果

$$x = \begin{bmatrix}

0 & 3 & 4 \\

2 & 6 & 4 \\

\end{bmatrix}\tag{3}$$

则

$$\| x\| = \text{np.linalg.norm(x, axis=1, keepdims=True)} = \begin{bmatrix}

5 \\

\sqrt{56} \\

\end{bmatrix}\tag{4} $$

和

$$ x\_normalized = \frac{x}{\| x\|} = \begin{bmatrix}

0 & \frac{3}{5} & \frac{4}{5} \\

\frac{2}{\sqrt{56}} & \frac{6}{\sqrt{56}} & \frac{4}{\sqrt{56}} \\

\end{bmatrix}\tag{5}$$

请注意，您可以除以不同大小的矩阵，它也可以正常工作：这称为广播，您将在第5部分中学习它。

使用`keepdims=True`，结果将正确地广播到原始的 x。

`axis=1` 表示您将按行方式获取范数。如果您需要按列方式获取范数，则需要设置 `axis=0`。

numpy.linalg.norm 还有另一个参数 `ord`，我们在其中指定要执行的规范化类型（在下面的练习中，您将执行 2-norm）。要熟悉规范化类型，可以访问 [numpy.linalg.norm](https://numpy.org/doc/stable/reference/generated/numpy.linalg.norm.html)

<a name='ex-6'></a>

### 练习 6 - normalize_rows

实现 normalizeRows() 函数以规范化矩阵的行。将此函数应用于输入矩阵 x 后，x 的每一行应为单位长度向量（即长度为 1）。

**注意**：不要尝试使用 `x /= x_norm`。对于矩阵除法，numpy 必须广播 x_norm，而该操作符 `/=` 不支持广播操作。

In [None]:
# GRADED FUNCTION: normalize_rows

def normalize_rows(x):
    """
    Implement a function that normalizes each row of the matrix x (to have unit length).
    
    Argument:
    x -- A numpy matrix of shape (n, m)
    
    Returns:
    x -- The normalized (by row) numpy matrix. You are allowed to modify x.
    """
    
    #(≈ 2 lines of code)
    # Compute x_norm as the norm 2 of x. Use np.linalg.norm(..., ord = 2, axis = ..., keepdims = True)
    # x_norm =
    # Divide x by its norm.
    # x =
    # YOUR CODE STARTS HERE
    x_norm = np.linalg.norm(x,axis=1,keepdims=True)
    x = x/x_norm
    # YOUR CODE ENDS HERE

    return x

In [None]:
x = np.array([[0, 3, 4],
              [1, 6, 4]])
print("normalizeRows(x) = " + str(normalize_rows(x)))

normalizeRows_test(normalize_rows)

normalizeRows(x) = [[0.         0.6        0.8       ]
 [0.13736056 0.82416338 0.54944226]]
[92m All tests passed.


注意：

在normalize_rows()函数中，您可以尝试打印x_norm和x的形状，然后重新运行评估。您会发现它们具有不同的形状。这是正常的，因为x_norm对x的每一行取范数。因此，x_norm具有相同数量的行，但只有1列。那么当您将x除以x_norm时，它是如何工作的呢？这就是所谓的广播，我们现在来谈谈它！

<a name='ex-7'></a>
### Exercise 7 - softmax
实现一个使用numpy的softmax函数。当您的算法需要分类两个或更多类时，可以将softmax视为归一化函数。您将在这个专业的第二门课程中学习更多关于softmax的知识。

**Instructions**:
- $\text{for } x \in \mathbb{R}^{1\times n} \text{,     }$

\begin{align*}
 softmax(x) &= softmax\left(\begin{bmatrix}
    x_1  &&
    x_2 &&
    ...  &&
    x_n  
\end{bmatrix}\right) \\&= \begin{bmatrix}
    \frac{e^{x_1}}{\sum_{j}e^{x_j}}  &&
    \frac{e^{x_2}}{\sum_{j}e^{x_j}}  &&
    ...  &&
    \frac{e^{x_n}}{\sum_{j}e^{x_j}} 
\end{bmatrix} 
\end{align*}




- $\text{对于一个矩阵 } x \in \mathbb{R}^{m\times n} \text{, }$  $x_{ij}$ 指的是 $x$ 中第 $i$ 行第 $j$ 列的元素，因此我们有：



\begin{align*}
softmax(x) &= softmax\begin{bmatrix}
            x_{11} & x_{12} & x_{13} & \dots  & x_{1n} \\
            x_{21} & x_{22} & x_{23} & \dots  & x_{2n} \\
            \vdots & \vdots & \vdots & \ddots & \vdots \\
            x_{m1} & x_{m2} & x_{m3} & \dots  & x_{mn}
            \end{bmatrix} \\ \\&= 
 \begin{bmatrix}
    \frac{e^{x_{11}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{12}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{13}}}{\sum_{j}e^{x_{1j}}} & \dots  & \frac{e^{x_{1n}}}{\sum_{j}e^{x_{1j}}} \\
    \frac{e^{x_{21}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{22}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{23}}}{\sum_{j}e^{x_{2j}}} & \dots  & \frac{e^{x_{2n}}}{\sum_{j}e^{x_{2j}}} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    \frac{e^{x_{m1}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m2}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m3}}}{\sum_{j}e^{x_{mj}}} & \dots  & \frac{e^{x_{mn}}}{\sum_{j}e^{x_{mj}}}
\end{bmatrix} \\ \\ &= \begin{pmatrix}
    softmax\text{(first row of x)}  \\
    softmax\text{(second row of x)} \\
    \vdots  \\
    softmax\text{(last row of x)} \\
\end{pmatrix} 
\end{align*}

注意，在课程的后面，您将看到“m”用于表示“训练样本的数量”，每个训练样本都位于矩阵的自己的列中。此外，每个特征都将位于其自己的行中（每行都具有相同特征的数据）。

对于每个训练示例的所有特征都应执行softmax，因此softmax将在列上执行（一旦我们在本课程的后面切换到该表示方式）。

但是，在这个编程实践中，我们只专注于熟悉Python，因此我们使用常见的数学符号$m \times n$，

其中$m$是行数，$n$是列数。

In [6]:
# GRADED FUNCTION: softmax

def softmax(x):
    """Calculates the softmax for each row of the input x.

    Your code should work for a row vector and also for matrices of shape (m,n).

    Argument:
    x -- A numpy matrix of shape (m,n)

    Returns:
    s -- A numpy matrix equal to the softmax of x, of shape (m,n)
    """
    
    #(≈ 3 lines of code)
    # Apply exp() element-wise to x. Use np.exp(...).
    # x_exp = ...

    # Create a vector x_sum that sums each row of x_exp. Use np.sum(..., axis = 1, keepdims = True).
    # x_sum = ...
    
    # Compute softmax(x) by dividing x_exp by x_sum. It should automatically use numpy broadcasting.
    # s = ...
    
    # YOUR CODE STARTS HERE
    x_exp = np.exp(x)
    x_sum = np.sum(x_exp,axis=1, keepdims = True)
    s = x_exp / x_sum
    
    # YOUR CODE ENDS HERE
    
    return s

In [7]:
t_x = np.array([[9, 2, 5, 0, 0],
                [7, 5, 0, 0 ,0]])
print("softmax(x) = " + str(softmax(t_x)))

softmax_test(softmax)

softmax(x) = [[9.80897665e-01 8.94462891e-04 1.79657674e-02 1.21052389e-04
  1.21052389e-04]
 [8.78679856e-01 1.18916387e-01 8.01252314e-04 8.01252314e-04
  8.01252314e-04]]
[92m All tests passed.


#### Notes
- 如果您打印上面的x_exp、x_sum和s的形状，并重新运行评估单元格，您会发现x_sum的形状为(2,1)，而x_exp和s的形状为(2,5)。由于Python的广播机制，x_exp/x_sum有效。
  
恭喜！您现在已经对Python的NumPy有了相当好的理解，并实现了一些在深度学习中会使用到的有用函数。

<font color='blue'>
<b>What you need to remember:</b>
    
- np.exp(x) works for any np.array x and applies the exponential function to every coordinate
- the sigmoid function and its gradient
- image2vector is commonly used in deep learning
- np.reshape is widely used. In the future, you'll see that keeping your matrix/vector dimensions straight will go toward eliminating a lot of bugs. 
- numpy has efficient built-in functions
- broadcasting is extremely useful

<a name='2'></a>
## 2 - Vectorization


在深度学习中，您处理非常大的数据集。因此，非计算优化的函数可能会成为算法的巨大瓶颈，并导致模型运行需要很长时间。为了确保您的代码具有计算效率，您将使用矢量化。例如，尝试区分以下点积、外积、逐元素乘积的实现的差异。

In [8]:
import time

x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### CLASSIC DOT PRODUCT OF VECTORS IMPLEMENTATION ###
tic = time.process_time()
dot = 0

for i in range(len(x1)):
    dot += x1[i] * x2[i]
toc = time.process_time()
print ("dot = " + str(dot) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

### CLASSIC OUTER PRODUCT IMPLEMENTATION ###
tic = time.process_time()
outer = np.zeros((len(x1), len(x2))) # we create a len(x1)*len(x2) matrix with only zeros

for i in range(len(x1)):
    for j in range(len(x2)):
        outer[i,j] = x1[i] * x2[j]
toc = time.process_time()
print ("outer = " + str(outer) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

### CLASSIC ELEMENTWISE IMPLEMENTATION ###
tic = time.process_time()
mul = np.zeros(len(x1))

for i in range(len(x1)):
    mul[i] = x1[i] * x2[i]
toc = time.process_time()
print ("elementwise multiplication = " + str(mul) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

### CLASSIC GENERAL DOT PRODUCT IMPLEMENTATION ###
W = np.random.rand(3,len(x1)) # Random 3*len(x1) numpy array
tic = time.process_time()
gdot = np.zeros(W.shape[0])

for i in range(W.shape[0]):
    for j in range(len(x1)):
        gdot[i] += W[i,j] * x1[j]
toc = time.process_time()
print ("gdot = " + str(gdot) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

dot = 278
 ----- Computation time = 0.0ms
outer = [[81. 18. 18. 81.  0. 81. 18. 45.  0.  0. 81. 18. 45.  0.  0.]
 [18.  4.  4. 18.  0. 18.  4. 10.  0.  0. 18.  4. 10.  0.  0.]
 [45. 10. 10. 45.  0. 45. 10. 25.  0.  0. 45. 10. 25.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [63. 14. 14. 63.  0. 63. 14. 35.  0.  0. 63. 14. 35.  0.  0.]
 [45. 10. 10. 45.  0. 45. 10. 25.  0.  0. 45. 10. 25.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [81. 18. 18. 81.  0. 81. 18. 45.  0.  0. 81. 18. 45.  0.  0.]
 [18.  4.  4. 18.  0. 18.  4. 10.  0.  0. 18.  4. 10.  0.  0.]
 [45. 10. 10. 45.  0. 45. 10. 25.  0.  0. 45. 10. 25.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]]
 ---

In [9]:
x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### VECTORIZED DOT PRODUCT OF VECTORS ###
tic = time.process_time()
dot = np.dot(x1,x2)
toc = time.process_time()
print ("dot = " + str(dot) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

### VECTORIZED OUTER PRODUCT ###
tic = time.process_time()
outer = np.outer(x1,x2)
toc = time.process_time()
print ("outer = " + str(outer) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

### VECTORIZED ELEMENTWISE MULTIPLICATION ###
tic = time.process_time()
mul = np.multiply(x1,x2)
toc = time.process_time()
print ("elementwise multiplication = " + str(mul) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### VECTORIZED GENERAL DOT PRODUCT ###
tic = time.process_time()
dot = np.dot(W,x1)
toc = time.process_time()
print ("gdot = " + str(dot) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

dot = 278
 ----- Computation time = 0.0ms
outer = [[81 18 18 81  0 81 18 45  0  0 81 18 45  0  0]
 [18  4  4 18  0 18  4 10  0  0 18  4 10  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [63 14 14 63  0 63 14 35  0  0 63 14 35  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [81 18 18 81  0 81 18 45  0  0 81 18 45  0  0]
 [18  4  4 18  0 18  4 10  0  0 18  4 10  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]]
 ----- Computation time = 0.0ms
elementwise multiplication = [81  4 10  0  0 63 10  0  0  0 81  4 25  0  0]
 ----- Computation time = 0.0ms
gdot = [17.56086406 18.05890511 11.59793316]
 ----- Computation time = 0.0ms


正如您可能已经注意到的那样，矢量化实现更加简洁高效。对于更大的矢量/矩阵，运行时间的差异甚至更大。请注意，`np.dot()`执行矩阵-矩阵或矩阵-向量乘法。这与`np.multiply()`和`*`运算符（在Matlab/Octave中等同于`.*`）不同，后者执行逐元素相乘。

请注意，`np.dot()`执行矩阵-矩阵或矩阵-向量乘法。这与`np.multiply()`和`*`运算符不同（它相当于Matlab/Octave中的`.*`），后者执行逐元素乘法。

<a name='2-1'></a>
### 2.1 Implement the L1 and L2 loss functions

<a name='ex-8'></a>
### Exercise 8 - L1 
实现 numpy 中 L1 损失的向量化版本。您可能会发现 abs(x)（x 的绝对值）函数很有用。

**Reminder**:
- 损失用于评估您模型的性能。您的损失越大，您的预测值 ($\hat{y}$) 与真实值 ($y$) 的差异就越大。在深度学习中，您使用像梯度下降这样的优化算法来训练模型并使成本最小化。

- L1 损失的定义如下：

$$\begin{align*} & L_1(\hat{y}, y) = \sum_{i=0}^{m-1}|y^{(i)} - \hat{y}^{(i)}| \end{align*}\tag{6}$$

In [10]:
# GRADED FUNCTION: L1

def L1(yhat, y):
    """
    Arguments:
    yhat -- vector of size m (predicted labels)
    y -- vector of size m (true labels)
    
    Returns:
    loss -- the value of the L1 loss function defined above
    """
    
    #(≈ 1 line of code)
    # loss = 
    # YOUR CODE STARTS HERE
    loss = np.sum(np.abs(y-yhat))
    
    # YOUR CODE ENDS HERE
    
    return loss

In [11]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L1 = " + str(L1(yhat, y)))

L1_test(L1)

L1 = 1.1
[92m All tests passed.


<a name='ex-9'></a>
### Exercise 9 - L2
实现numpy向量化的L2损失版本。有几种实现L2损失的方法，但您可能会发现函数np.dot()很有用。作为提醒，如果$x = [x_1，x_2，...，x_n]$，那么np.dot(x，x) = $\sum_{j=0}^n x_j^{2}$。

- L2损失定义为$$\begin{align*} & L_2(\hat{y},y) = \sum_{i=0}^{m-1}(y^{(i)} - \hat{y}^{(i)})^2 \end{align*}\tag{7}$$

In [14]:
# GRADED FUNCTION: L2

def L2(yhat, y):
    """
    Arguments:
    yhat -- vector of size m (predicted labels)
    y -- vector of size m (true labels)
    
    Returns:
    loss -- the value of the L2 loss function defined above
    """
    
    #(≈ 1 line of code)
    # loss = ...
    # YOUR CODE STARTS HERE
    # loss = np.sum((y-yhat)**2)
    loss = np.dot(y-yhat,y-yhat)
    # YOUR CODE ENDS HERE
    
    return loss

In [15]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])

print("L2 = " + str(L2(yhat, y)))

L2_test(L2)

L2 = 0.43
[92m All tests passed.


Congratulations on completing this assignment. We hope that this little warm-up exercise helps you in the future assignments, which will be more exciting and interesting!

<font color='blue'>
<b>What to remember:</b>
    
- Vectorization is very important in deep learning. It provides computational efficiency and clarity.
- You have reviewed the L1 and L2 loss.
- You are familiar with many numpy functions such as np.sum, np.dot, np.multiply, np.maximum, etc...