# 1 关于 iPython Notebooks 和 本次实验
- Python、Jupyter Notebook、Anaconda
    - Python：计算机编程语言；解释器
    - Jupyter Notebook：一种iPython Notebooks，适用于Python编程
    - Anaconda：一个囊括了Python、Jupyter Notebook等软件的平台；包管理，环境管理

- iPython Notebooks：交互式编码环境，在网页端进行展示和运行（VSCode通过插件进行兼容）
    - 基本单元（代码块）：Cell
    - 基本功能1：编写Python代码（在代码属性的 Cell 中）
    - 基本功能2：编写说明文档（在 Markdown 属性的 Cell 中）
    - 编写方式：双击 Cell 进入编写模式
    - 执行方式：对于选中的 Cell，通过键盘键入 "SHIFT"+"ENTER" 或者鼠标点击 "Run Cell" 将执行其中的代码

- Notebook vs. 脚本
    - 后缀
    - Notebook 可以通过 Markdown 语法撰写带格式的说明文档，支持HTML、Latex；脚本中一般通过注释进行说明，且不具有格式功能
    - Notebook 的代码块以 Cell 为单元，Cell之间没有必然的顺序关系，用户可指定运行哪个Cell，运行完系统会对该Cell进行编号
    - Notebook 适合进行交互式展示；脚本适合于自动化的应用程序

- 准备工作
    - 安装Anaconda（意味着Python、pip、Jupyter Notebook等软件全部安装好）
    - 创建虚拟环境，在其中安装并配置Jupyter内核
    - 第三方包安装及管理（建议先设置源）
    - 安装PyCharm（或者VS Code及其插件）
    - 在PyCharm配置NB（1.**cd到工作目录**；2.进入base并启动Jupyter；3.在PyCharm中配置带token的URL并选择内核）
- 自行探索
    - Git代码仓库
    - 云平台（例如百度AIStudio）

## 练习 1 - "Hello World"
* **目标**：将字符串 `"Hello World"` 赋值给变量 `test`
* **方式**：在下方 Cell 的指定位置补充Python代码，实现上述目标
* **自测方法**：运行测试代码，对比 “*测试结果*” 和 “*Expected output*”，或者查看 *提示*

In [None]:
# (≈ 1 line of code)
# YOUR CODE STARTS HERE
test =   # 请在此处作答，下同，将不再提示
# YOUR CODE ENDS HERE

In [None]:
print("test: " + test)

**预期输出**:
test: Hello World

# 2 使用 Numpy 实现一些基本功能
## 2.1 Numpy简介
- 是一种可以被Python调用的科学计算包([www.numpy.org](www.numpy.org))
- 核心功能函数包括： `np.exp`， `np.log`， `np.reshape` 等
- 安装：`pip install numpy`

## 2.2 Sigmoid函数和 np.exp()
### 2.2.1 Sigmoid函数
Sigmoid函数（见公式1和下图）也被称为logistic函数，他是一个非线性的函数，常用于机器学习（逻辑回归）和深度学习
$$sigmoid(x) = \frac{1}{1+e^{-x}}\tag{1}$$ 

<img src="images/Sigmoid.png" width=1000>

### 练习2 - basic_sigmoid
- **目标**：编写一个函数，返回给定实数 `x` 的sigmoid值
- **要求**：使用 `math.exp()` 来实现Sigmoid函数中的幂操作（后面将使用 `numpy.exp()` 来替代）

In [None]:
import math
from lib_public_tests import *
"""
Function:
    Compute sigmoid of x.
Arguments:
    x -- A scalar
Return:
    s -- sigmoid(x)
"""
def basic_sigmoid(x):
    # (≈ 1 line of code)
    # s =
    # YOUR CODE STARTS HERE

    # YOUR CODE ENDS HERE
    return s

In [None]:
print("basic_sigmoid(1) = " + str(basic_sigmoid(1)))
basic_sigmoid_test(basic_sigmoid)

事实上，`math`库很少在DL中被使用，因为在DL中处理的数据往往是矩阵或者向量，而非实数。下面将basic_sigmoid函数的输入数据改为向量，此时运行将会报错。

In [None]:
### One reason why we use "numpy" instead of "math" in Deep Learning ###
x = [1, 2, 3]  # x becomes a python list object
# basic_sigmoid(x) # 取消注释并运行，你将会看到错误提示，原因是此时 x 是一个向量

### 2.2.2 numpy的基本使用方法
- 导入 numpy 包：python中采用关键字 `import` 来导入包
- `numpy.array()`：numpy 中表示一个实数、一个向量、或者一个矩阵的方法 

下面将展示采用 numpy 来进行向量幂运算的方法（更多numpy的使用方法可查看[官方文档](https://docs.scipy.org/doc/numpy-1.10.1/reference/generated/numpy.exp.html)，或者运行例如 `np.exp?` 、`help(np.exp)`来获取与该函数相关的参考信息）。

In [None]:
import numpy as np
# example of np.exp
t_x = np.array([1, 2, 3])
print(np.exp(t_x))  # result is (exp(1), exp(2), exp(3))
t_x += 3  # Python中的广播
print(t_x)
help(np.exp)

### 练习 3 - sigmoid
- **目标**：使用 numpy 来实现改进版本的 sigmoid 函数
$$ \text{For } x \in \mathbb{R}^n \text{,     } sigmoid(x) = sigmoid\begin{pmatrix}
    x_1  \\
    x_2  \\
    ...  \\
    x_n  \\
\end{pmatrix} = \begin{pmatrix}
    \frac{1}{1+e^{-x_1}}  \\
    \frac{1}{1+e^{-x_2}}  \\
    ...  \\
    \frac{1}{1+e^{-x_n}}  \\
\end{pmatrix}\tag{2} $$

In [None]:
"""
Function:
    Compute the sigmoid of x
Arguments:
    x -- A scalar or numpy array of any size
Return:
    s -- sigmoid(x)
"""
def sigmoid(x):
    # (≈ 1 line of code)
    # s =
    # YOUR CODE STARTS HERE

    # YOUR CODE ENDS HERE
    return s

In [None]:
t_x = np.array([1, 2, 3])
print("sigmoid(t_x) = " + str(sigmoid(t_x)))
sigmoid_test(sigmoid)

## 2.3 Sigmoid 的梯度
在DL的反向传播中，需要进行损失函数的梯度计算。让我们先来实现计算 Sigmoid 函数梯度的函数。

### 练习 4 - sigmoid_derivative

$$sigmoid\_derivative(x) = \sigma'(x) = \sigma(x) (1 - \sigma(x)) \tag{3}$$

其中，$ \sigma(x) = \frac{1}{1+e^{-x}}$。

In [None]:
"""
Function:
    Compute the gradient (also called the slope or derivative) of the sigmoid function with respect to its input x.
    You can store the output of the sigmoid function into variables and then use it to calculate the gradient.
Arguments:
    x -- A scalar or numpy array
Return:
    ds -- Your computed gradient.
"""
def sigmoid_derivative(x):
    # (≈ 2 lines of code)
    # s =
    # ds =
    # YOUR CODE STARTS HERE

    # YOUR CODE ENDS HERE
    return ds

In [None]:
t_x = np.array([1, 2, 3])
print("sigmoid_derivative(t_x) = " + str(sigmoid_derivative(t_x)))
sigmoid_derivative_test(sigmoid_derivative)

## 2.4 Reshaping
- 一张数字图片可表示为一个3维数组，其尺寸/形状（shape）为 $(length, height, depth = 3)$. 
- 在输入给一个DL模型时，图片将被转换为$(length*height*3, 1)$的尺寸. 
- 上述从3维数组到1维向量的转换过程通常被称为 "unroll" 或者 "reshape"

<img src="images/image2vector_kiank.png" style="width:500px;height:300;">

### 练习 5 - image2vector
- **目标**：实现一个名为 `image2vector()` 的函数，接受形状为 (length, height, 3) 的数据，返回形为 (length\*height\*3, 1)的向量. 
- **提示**：如果要将形状为(a, b, c)的数组 v 转换为 (a*b,c) 的形状，可以通过如下方式：
``` python
v = v.reshape(v.shape[0] * v.shape[1], v.shape[2]) 
```
或者
``` python
v = v.reshape(-1, v.shape[2]) 
```

In [None]:
"""
Argument:
    image -- a numpy array of shape (length, height, depth)
Returns:
    v -- a vector of shape (length*height*depth, 1)
"""
def image2vector(image):
    # (≈ 1 line of code)
    # v =
    # YOUR CODE STARTS HERE

    # YOUR CODE ENDS HERE
    return v

In [None]:
# This is a 3 by 3 by 2 array, typically images will be (num_px_x, num_px_y,3) where 3 represents the RGB values
t_image = np.array([[[0.67826139,  0.29380381],
                     [0.90714982,  0.52835647],
                     [0.4215251,  0.45017551]],
                   [[0.92814219,  0.96677647],
                    [0.85304703,  0.52351845],
                    [0.19981397,  0.27417313]],
                   [[0.60659855,  0.00533165],
                    [0.10820313,  0.49978937],
                    [0.34144279,  0.94630077]]])
print("image2vector(image) = " + str(image2vector(t_image)))
image2vector_test(image2vector)

## 2.5 归一化行
- **定义**：将 x 更改为 $ \frac{x}{\| x\|} $ (将 x 的每一行除以他的模).
- **动机**：对数据进行归一化常常能够获取更好的系统性能，因为归一化有利于梯度下降的收敛速度. 
- **例子**：
$$x = \begin{bmatrix}
        0 & 3 & 4 \\
        2 & 6 & 4 \\
\end{bmatrix}\tag{4}$$ 
则 
$$\| x\| = \text{np.linalg.norm(x, axis=1, keepdims=True)} = \begin{bmatrix}
    5 \\
    \sqrt{56} \\
\end{bmatrix}\tag{5} $$
那么
$$ x\_normalized = \frac{x}{\| x\|} = \begin{bmatrix}
    0 & \frac{3}{5} & \frac{4}{5} \\
    \frac{2}{\sqrt{56}} & \frac{6}{\sqrt{56}} & \frac{4}{\sqrt{56}} \\
\end{bmatrix}\tag{6}$$ 
- `numpy.linalg.norm()`函数的参数说明：
    - `keepdims=True` 确保不会改变结果的维度（即输出保持与输入一致的维度，方便后续操作。很多其他`numpy`函数都有该参数）
    - `axis=1` 意味着按行实时归一化，而非若 `axis=0` 则是按照列进行归一化.  

### 练习 6 - normalize_rows
- **目标**：实现函数 normalizeRows() 用于对给定矩阵进行行归一化. 
- **注意**：不要使用 `x /= x_norm`，因为广播操作没有对 `/=` 操作符进行重载.

In [None]:
"""
Function:
    Implement a function that normalizes each row of the matrix x (to have unit length).
Argument:
    x -- A numpy matrix of shape (n, m)
Returns:
    x -- The normalized (by row) numpy matrix. You are allowed to modify x.
"""
def normalize_rows(x):
    # (≈ 2 lines of code)
    # Compute x_norm as the norm 2 of x. Use np.linalg.norm(..., ord = 2, axis = ..., keepdims = True)
    # x_norm =
    # Divide x by its norm.
    # x =
    # YOUR CODE STARTS HERE

    # YOUR CODE ENDS HERE
    return x

In [None]:
x = np.array([[0, 3, 4],
              [1, 6, 4]])
print("normalizeRows(x) = " + str(normalize_rows(x)))
normalizeRows_test(normalize_rows)

`np.linalg.norm` 还有另外一个名为 `ord` 的参数，其取值不同时，对应着不同的归一化方法（例如后面介绍的L1和L2范数）。访问链接 [numpy.linalg.norm](https://numpy.org/doc/stable/reference/generated/numpy.linalg.norm.html) 查看详细的说明文档。

### 练习 7 - softmax
- **目标**：实现一个softmax函数, 在DL中用于分类. 
- **提示**：可以将softmax看做一种归一化函数，其定义如下：
1. 对于$ x \in \mathbb{R}^{1\times m}$，

$$softmax(x)=softmax(\begin{bmatrix}
    x_1  &&
    x_2 &&
    ...  &&
    x_m  
\end{bmatrix})\\
\begin{bmatrix}
\frac{e^{x_1}}{\sum_{j}e^{x_j}}  &&
    \frac{e^{x_2}}{\sum_{j}e^{x_j}}  &&
    ...  &&
    \frac{e^{x_m}}{\sum_{j}e^{x_j}} 
\end{bmatrix} \tag{7}
$$ 

2. 对于矩阵  $x \in \mathbb{R}^{n \times m}$,  $x_{ij}$ 表示 $x$ 中第 $i^{th}$ 行第 $j^{th}$ 列元素，则

$$softmax(x) = softmax\begin{bmatrix}
    x_{11} & x_{12} & x_{13} & \dots  & x_{1m} \\
    x_{21} & x_{22} & x_{23} & \dots  & x_{2m} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    x_{n1} & x_{n2} & x_{n3} & \dots  & x_{nm}
    \end{bmatrix} \\ 
    =\begin{bmatrix}
    \frac{e^{x_{11}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{12}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{13}}}{\sum_{j}e^{x_{1j}}} & \dots  & \frac{e^{x_{1m}}}{\sum_{j}e^{x_{1j}}} \\
    \frac{e^{x_{21}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{22}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{23}}}{\sum_{j}e^{x_{2j}}} & \dots  & \frac{e^{x_{2m}}}{\sum_{j}e^{x_{2j}}} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    \frac{e^{x_{n1}}}{\sum_{j}e^{x_{nj}}} & \frac{e^{x_{n2}}}{\sum_{j}e^{x_{nj}}} & \frac{e^{x_{n3}}}{\sum_{j}e^{x_{nj}}} & \dots  & \frac{e^{x_{nm}}}{\sum_{j}e^{x_{nj}}}
    \end{bmatrix} \\
    = \begin{bmatrix}
        softmax\text{(x的第一行)}  \\
        softmax\text{(x的第二行)} \\
        \vdots  \\
        softmax\text{(x的最后一行)} \\
    \end{bmatrix} \tag{8}
$$

In [None]:
"""
Function:
    Calculates the softmax for each row of the input x.
    Your code should work for a row vector and also for matrices of shape (m,n).
Argument:
    x -- A numpy matrix of shape (n,m)
Returns:
    s -- A numpy matrix equal to the softmax of x, of shape (n,m)
"""
def softmax(x):
    # (≈ 3 lines of code)
    # Apply exp() element-wise to x. Use np.exp(...).
    # x_exp = ...
    # Create a vector x_sum that sums each row of x_exp. Use np.sum(..., axis = 1, keepdims = True).
    # x_sum = ...
    # Compute softmax(x) by dividing x_exp by x_sum. It should automatically use numpy broadcasting.
    # s = ...
    # YOUR CODE STARTS HERE

    # YOUR CODE ENDS HERE
    return s

In [None]:
t_x = np.array([[9, 2, 5, 0, 0],
                [7, 5, 0, 0, 0]])
print("softmax(x) = " + str(softmax(t_x)))
softmax_test(softmax)

<font color='blue'>
<b>What you need to remember:</b>
    
- np.exp(x) works for any np.array x and applies the exponential function to every coordinate
- the sigmoid function and its gradient
- image2vector is commonly used in deep learning
- np.reshape is widely used. In the future, you'll see that keeping your matrix/vector dimensions straight will go toward eliminating a lot of bugs. 
- numpy has efficient built-in functions
- broadcasting is extremely useful

# 3 向量化
向量化可以确保在处理大规模数据时，提升算法的效率。

## 3.1 内（dot）积、外（outer）积、逐元素（elementwise）乘积
- 对于等长向量 $p=[p_1, p_2, \cdots, p_n]$ 和 $q=[q_1, q_2, \cdots, q_n]$ 来说，其 dot product， outer product 和 elementwise product 的定义分别为公式（9）、（10）和（11）
$$\begin{bmatrix}p_1, p_2, \cdots, p_n\end{bmatrix} \begin{bmatrix}
    q_1 \\
    q_2 \\
    \vdots \\ 
    q_n
    \end{bmatrix} = p_1q_1+p_2q_2+ \cdots +p_nq_n 
    = 
\sum_{i=1}^n{p_iq_i}\tag{9}$$

$$\begin{bmatrix}
    p_1 \\
    p_2 \\
    \vdots \\ 
    p_n
    \end{bmatrix} \begin{bmatrix}q_1, q_2, \cdots, q_n\end{bmatrix}
= \begin{bmatrix}
    p_1q_1 & p_1q_2 & \dots  & p_1q_n \\
    p_2q_1 & p_2q_2 & \dots  & p_2q_n \\
    \vdots & \vdots & \ddots & \vdots \\
    p_nq_1 & p_nq_2 & \dots  & p_nq_n \\
\end{bmatrix} \tag{10}$$

$$ \begin{bmatrix}p_1q_1, p_2q_2, \cdots, p_nq_n\end{bmatrix} \tag{11}$$


下面分别采用常规方式和向量化方式实现dot/outer/elementwise product 操作，请注意两者的差别。

In [None]:
# 定义两个向量 x1 和 x2
x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

#----- x1 与 x2 的点积（或标量积/內积）实现方法
# 可以看做 行向量x1 与 列向量 x2 的矩阵乘法 
dot = 0 # 保存点积结果，是一个标量
print('常规方法：')
for i in range(len(x1)):
    dot += x1[i] * x2[i] 
print('\tdot = ', dot)

print('向量化方法：')
dot = np.dot(x1, x2)
print('\tdot = ', dot)

#----- x1 与 x2 外积（或叉积/矢量积）的常规实现方法
# 可以看做 列向量x1 与 行向量 x2 的矩阵乘法 
outer = np.zeros((len(x1), len(x2)))  # x1 和 x2 外积的结果是一个  len(x1) × len(x2) 的矩阵
print('常规方法：')
for i in range(len(x1)):
    for j in range(len(x2)):
        outer[i, j] = x1[i] * x2[j] 
print("\touter = ", outer)

print('向量化方法：')
dot = np.outer(x1, x2)
print('\touter = ', outer)

#----- x1 与 x2 逐元素相乘的常规实现方法
# x1和x2的尺寸需一致 
mul = np.zeros(len(x1)) # 结果是一个向量
print('常规方法：')
for i in range(len(x1)):
    mul[i] = x1[i] * x2[i] 
print("\tmul = ",mul)
print('向量化方法：')
mul = np.multiply(x1, x2)
print("\tmul = ",mul)

#--- 矩阵与向量点乘
W = np.random.rand(3, len(x1))  # Random 3*len(x1) numpy array 
print('常规方法：')
gdot = np.zeros(W.shape[0]) 
for i in range(W.shape[0]):
    for j in range(len(x1)):
        gdot[i] += W[i, j] * x1[j] 
print("\tgdot = " + str(gdot))

print('向量化方法：')
gdot = np.dot(W, x1) 
print("\tgdot = " + str(gdot))

* 此时的向量化是借助numpy库来实现，比起常规方式更为简洁和高效。
* `np.dot()` 函数主要有两个功能：向量点积（输入为两个向量）和矩阵乘法（输入为两个矩阵，或者一个矩阵一个向量）。其与表示逐元素相乘的`np.multiply()`或者 `*` 操作符是有差别的。

## 3.2 计时
Python自带time模块可以用于时间统计

In [None]:
# Python program to show time by process_time() 
from time import process_time
from time import process_time_ns
  
n = 500 
   
t1_start = process_time() 
t1_start_ns = process_time_ns() 
   
# 需要统计时间的代码块
for i in range(n): 
    for j in range(n):   
        a = i*j
 
t1_stop = process_time()
t1_stop_ns = process_time_ns()
   
print("Elapsed time:", t1_stop, t1_start) 
print("Elapsed time in nanoseconds:", t1_stop_ns, t1_start_ns)
print("Elapsed time during the whole program in seconds:", t1_stop-t1_start) 
print("Elapsed time during the whole program in nanoseconds:", t1_stop_ns-t1_start_ns) 

## 3.3 实现 L1 and L2 loss functions

### 练习 8 - L1 
- **定义**：
$$\begin{align*} & L_1(\hat{y}, y) = \sum_{i=0}^{m-1}|y^{(i)} - \hat{y}^{(i)}| \end{align*}\tag{12}$$
- **目标**：借助Numpy实现L1损失函数，用于表征预测值 ($ \hat{y} $) 与真实值 ($y$)之间的差距. 在深度学习中，一般采用梯度下降法来优化该函数
- 提示：
    - 使用 `np.abs()` 可以求绝对值
    - 使用 `np.sum()` 可以进行求和

In [None]:
"""
Arguments:
    yhat -- vector of size m (predicted labels)
    y -- vector of size m (true labels)
Returns:
    loss -- the value of the L1 loss function defined above
"""
def L1(yhat, y):
    # (≈ 1 line of code)
    # loss =
    # YOUR CODE STARTS HERE

    # YOUR CODE ENDS HERE
    return loss

In [None]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L1 = " + str(L1(yhat, y)))
L1_test(L1)

### 练习 9 - L2
- **定义**：

$$\begin{align*} & L_2(\hat{y},y) = \sum_{i=0}^{m-1}(y^{(i)} - \hat{y}^{(i)})^2 \end{align*}\tag{13}$$

- **目标**：借助Numpy实现L2损失函数。
- 提示：
如果 $x = [x_1, x_2, ..., x_n]$, 则 `np.dot(x,x)` = $\sum_{j=1}^n x_j^{2}$



In [None]:
"""
Arguments:
    yhat -- vector of size m (predicted labels)
    y -- vector of size m (true labels)
Returns:
    loss -- the value of the L2 loss function defined above
"""
def L2(yhat, y):
    # (≈ 1 line of code)
    # loss = ...
    # YOUR CODE STARTS HERE

    # YOUR CODE ENDS HERE
    return loss

In [None]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L2 = " + str(L2(yhat, y)))
L2_test(L2)

<font color='blue'>
<b>What to remember:</b>
    
- Vectorization is very important in deep learning. It provides computational efficiency and clarity.
- You have reviewed the L1 and L2 loss.
- You are familiar with many numpy functions such as np.sum, np.dot, np.multiply, np.maximum, etc...