## 应用 numpy 实现部分函数

一下使用 numpy 实现机器学习常用的一些函数，比如 sigmoid、softmax。。。

详细内容可以参考[python与numpy基础](../coursera.org/week2/Python%2BBasics%2BWith%2BNumpy%2Bv3.ipynb)

### 1.1 - sigmoid function - np.exp()

提示：$sigmoid(x) = \frac{1}{1 + e^{-x}}$ 

sigmoid function 是机器学习中常用的非线性函数。

In [4]:
import numpy as np
import math

def basic_sigmoid(x):
    """
    使用 math 库实现的 sigmoid 函数
    
    参数：
    x - 标量
    
    返回：
    s - sigmoid(x)
    """
    s = 1 / (1 + math.exp(-x))
    return s

def sigmoid(x):
    """
    使用 numpy 库实现 sigmoid 函数
    
    参数：
    x - 标量或者 ndarray
    
    返回：
    s - sigmoid(x) 标量或者 ndarray
    """
    s = 1 / (1 + np.exp(-x))
    return s

print(basic_sigmoid(3))
print(sigmoid(3))

print(sigmoid(np.array([1, 2, 3])))

0.9525741268224334
0.952574126822
[ 0.73105858  0.88079708  0.95257413]


### 1.2 - sigmoid 斜率（导数）

sigmoid 导数公式

$\sigma'(x) = \sigma(x)(1 - \sigma(x))$

In [6]:
def sigmoid_derivative(x):
    """
    sigmoid 导数
    
    参数：
    x - 标量或者 ndarray
    
    返回：
    ds - sigmoid 导数
    """
    s = sigmoid(x)
    ds = s * (1-s)
    return ds

print(sigmoid_derivative(np.array([1, 2, 3])))

[ 0.19661193  0.10499359  0.04517666]


### 1.3 - reshape array

np.shape 和 np.reshape() 是常用的两个属性（方法）
* np.shape 能够得到 ndarray/matrix 的 shape(维度)
* np.reshape 常用来把 ndarray/matrix 改成其他 shape

例如：在科学计算中，图片常用三维数组来表示（高，宽，深度-rgb = 3），有时为了计算方便，常会把三维数组重塑成 (高*宽*深度, 1) 的二维数组。

实现**image2vector**函数

In [7]:
def image2vector(image):
    """
    把三维图像转换成 (n, 1) 维
    
    参数：
    image - 三维图像数组
    
    返回：
    v - reshape 后的数组
    """
    v = image.reshape(image.shape[0] * image.shape[1] * image.shape[2], 1)
    return v

print(image2vector(np.array([[[ 0.67826139,  0.29380381],
        [ 0.90714982,  0.52835647],
        [ 0.4215251 ,  0.45017551]],

       [[ 0.92814219,  0.96677647],
        [ 0.85304703,  0.52351845],
        [ 0.19981397,  0.27417313]],

       [[ 0.60659855,  0.00533165],
        [ 0.10820313,  0.49978937],
        [ 0.34144279,  0.94630077]]])))

[[ 0.67826139]
 [ 0.29380381]
 [ 0.90714982]
 [ 0.52835647]
 [ 0.4215251 ]
 [ 0.45017551]
 [ 0.92814219]
 [ 0.96677647]
 [ 0.85304703]
 [ 0.52351845]
 [ 0.19981397]
 [ 0.27417313]
 [ 0.60659855]
 [ 0.00533165]
 [ 0.10820313]
 [ 0.49978937]
 [ 0.34144279]
 [ 0.94630077]]


### 1.4 - 输入数据正则化

机器学习中常用的另一个技巧是输入数据正则化。数据正则化之后，在梯度下降过程中通常会有更好的表现。

行正则化，指的是每行内容除以每行的基准值 $\frac{x}{\|x\|}$。
例如：
$$
\begin{bmatrix}
0 & 3 & 4 \\
2 & 6 & 4 \\
\end{bmatrix}
$$
则，$$\|x\| = np.linalg.norm(x, axis=1, keepdims=True) = \begin{bmatrix}
5 \\
\sqrt{56} \\
\end{bmatrix}$$
得到 $$ x\_normalized = \frac{x}{\|x\|} = \begin{bmatrix}
0 & \frac{3}{5} & \frac{4}{5} \\
\frac{2}{\sqrt{56}} & \frac{6}{\sqrt{56}} & \frac{4}{\sqrt{56}}
\end{bmatrix}
$$

实现 **normalizeRows** 方法

In [9]:
def normalizeRows(x):
    """
    正则化 x
    
    参数：
    x - ndarray
    
    返回：
    x - 正则化后的 x
    """
    norm = np.linalg.norm(x, ord=2, axis=1, keepdims=True)
    x = x / norm
    return x

print(normalizeRows(np.array([[0, 3, 4],[2, 6, 4]])))

[[ 0.          0.6         0.8       ]
 [ 0.26726124  0.80178373  0.53452248]]


### 1.5 - 广播和 softmax

[numpy广播](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html)

**softmax** 是一种常用用作二分或者多分类的算法。

**说明**：
* 对于 $x \in \mathbb{R}^{1 \times n}$，则 softmax 的结果为 $$ softmax(x) = softmax(\begin{bmatrix}
x_1 & x_2 ... &x_n
\end{bmatrix}
) = \begin{bmatrix}
\frac{e^{x_1}}{\sum_{j}{e^{e_j}}} &&
\frac{e^{x_2}}{\sum_{j}{e^{e_j}}} &&
...
\frac{e^{x_1}}{\sum_{j}{e^{e_j}}} &&
\end{bmatrix}
$$
* 对于矩阵 $\mathbb{R}^{m \times n}$，则 $$softmax(x) = \begin{bmatrix}
softmax(first row) \\
softmax(second row) \\
...
softmax(last row) \\
\end{bmatrix}
$$


**softmax** 函数实现

In [13]:
def softmax(x):
    """
    """
    exp_x = np.exp(x)
    
    sum_exp_x = np.sum(exp_x, axis=1, keepdims=True)
    
    s = exp_x / sum_exp_x
    return s

print(softmax(np.array([
    [9, 2, 5, 0, 0],
    [7, 5, 0, 0 ,0]])))

[[  9.80897665e-01   8.94462891e-04   1.79657674e-02   1.21052389e-04
    1.21052389e-04]
 [  8.78679856e-01   1.18916387e-01   8.01252314e-04   8.01252314e-04
    8.01252314e-04]]


## 2）向量化

在深度学习项目里，我们经常会处理非常大的数据。如果没有很好的处理方法，将会导致程序和结果遇到很大的瓶颈。为了提高计算效率，需要引入向量化计算。

In [36]:
import time

x1 = np.random.randint(0, 10, 100)
x2 = np.random.randint(0, 10, 100)

# 经典方法计算点积
tic = time.process_time()
dot = 0
for i in range(len(x1)):
    dot += x1[i] * x2[i]
toc = time.process_time()

print("dot=" + str(dot) + "\n --- 循环算法计算用时：" + str(1000 * (toc - tic)) + "ms" )

# 向量法计算点积
tic = time.process_time()
dot = np.dot(x1, x2)
toc = time.process_time()

print("dot=" + str(dot) + "\n --- 向量化算法计算用时：" + str(1000 * (toc - tic)) + "ms" )


# 经典方法计算外积
tic = time.process_time()
outer = np.zeros((len(x1), len(x2)))
for i in range(len(x1)):
    for j in range(len(x2)):
        outer[i][j] = x1[i] * x2[j]
toc = time.process_time()

print( "\n --- 循环法计算外积：" + str(1000 * (toc - tic)) + "ms" )

# 向量法计算外积
tic = time.process_time()
outer = np.outer(x1, x2)
toc = time.process_time()

print( "\n --- 向量法计算外积：" + str(1000 * (toc - tic)) + "ms" )

# 经典方法计算元素相乘
tic = time.process_time()
mul = np.zeros(len(x1))
for i in range(len(x1)):
    mul[i] = x1[i] * x2[i]
toc = time.process_time()

print( "\n --- 循环法计算乘积：" + str(1000 * (toc - tic)) + "ms" )

# 向量法计算元素乘积
tic = time.process_time()
mul = np.multiply(x1, x2)
toc = time.process_time()

print( "\n --- 向量法计算乘积：" + str(1000 * (toc - tic)) + "ms" )



dot=2258
 --- 循环算法计算用时：0.1389999999998892ms
dot=2258
 --- 向量化算法计算用时：0.06899999999987472ms

 --- 循环法计算外积：10.05300000000009ms

 --- 向量法计算外积：0.45800000000006946ms

 --- 循环法计算乘积：0.15699999999974068ms

 --- 向量法计算乘积：0.053999999999998494ms


### 2.1 - 实现 L1 和 L2 loss function

在机器学习中，损失值（loss）用来评估模型的表现情况。损失值（loss）越大，说明你的预测值$\hat{y}$与目标值$y$的差别越大。

L1 loss function 定义如下：$L_1(\hat{y}, y) = \sum_{i=0}^m|y^{i} - \hat{y}^{i}|$

In [38]:
def L1(yhat, y):
    """
    计算损失值 L1
    
    参数：
    yhat - 预测值 yhat
    y - 目标值 y
    
    返回：
    loss 损失值
    """
    loss = np.sum(np.abs(yhat - y))
    return loss

yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L1 = " + str(L1(yhat,y)))

L1 = 1.1


L2 loss function 定义为：$L_1(\hat{y}, y) = \sum_{i=0}^m{(y^{i} - \hat{y}^{i})}^{2}$

In [39]:
def L2(yhat, y):
    """
    计算损失值 L2
    
    参数：
    yhat - 预测值 yhat
    y - 目标值 y
    
    返回：
    loss 损失值
    """
    m = yhat - y
    loss = np.sum(np.dot(m, m))
    return loss

yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L2 = " + str(L2(yhat,y)))

L2 = 0.43
