# 一些Python的基本操作

我们先介绍一些关于Python的基本操作，这样可以方便后面的内容介绍和手动实现。
我们主要用jupyer notebook。
jupyer notebook 是一个非常方便的工具，可以简单的理解为“Python草稿纸”，我们在做数据挖掘和深度学习的时候，往往要进行观察数据，画图等操作。每次直接run script.py其实不是很方便，而且不能保存结果，jupyer notebook就可以完美的解决这个问题。
你可以通过下面这个链接简单了解一下[jupyer notebook](https://jupyter-notebook-beginner-guide.readthedocs.io/en/latest/what_is_jupyter.html)

**通过这个简单的Demo,你最好能掌握下面几点**
- 学会使用jupyer notebook
- 能用Numpy做一些简单的向量化计算
- 明白什么是"broadcasting"
- 完成一些向量化的操作，其实就是多用map少用for.

#### Jupyer Notebook####

***如果你实在懒得看上面我给你的链接，那么你就记住下面几个快捷键吧。***
- "SHIFT"+"ENTER" 是执行命令
- 点击"ESC"再按"Ｂ"是在这行下面新建一行,"A"是在上面新建一行,"X"是删除这行。
- 点击"ESC"再按"Z"是撤销上次操作。
- 点击"ESC"再按"M"是进入MARKDOWN模式

In [2]:
# 测试一个Print,注意Python3是要加括号的,Python2.x不需要加括号
print "Hello World!"

Hello World!


**然后试一下自己定义一个函数**
- 选择实现sigmoid函数
- 我们先用math这个库,然后再用numpy，这样我们就可以看到为啥大家都用Numpy而不是其他的库了

#### 我们主要实现下面两个步骤

$$sigmoid(x) = \frac{1}{1+e^{-x}}$$ {1}

$$ \text{For } x \in \mathbb{R}^n \text{,     } sigmoid(x) = sigmoid\begin{pmatrix}
    x_1  \\
    x_2  \\
    ...  \\
    x_n  \\
\end{pmatrix} = \begin{pmatrix}
    \frac{1}{1+e^{-x_1}}  \\
    \frac{1}{1+e^{-x_2}}  \\
    ...  \\
    \frac{1}{1+e^{-x_n}}  \\
\end{pmatrix}\tag{2} $$

In [3]:
# 用math定义sigmoid

import math

def basic_sigmoid(x):

    s = 1 / (1 + math.exp(-x))
    
    return s

In [8]:
# 完成第一个步骤
basic_sigmoid(-1)

0.2689414213699951

In [9]:
#　再试着完成第二个步骤,我们搞一个向量Ｘ
X = [1, 2, 3]
basic_sigmoid(X)

TypeError: bad operand type for unary -: 'list'

报错了，这就是math等库的缺点，只能计算实数，而不能直接计算向量或者矩阵。
想要正常使用就要用map或者for，讲函数用于每一个元素，这样就很麻烦。

In [18]:
print "这是使用for的方式:"
for i in range(0,len(X)):
    print basic_sigmoid(X[i])

这是使用for的方式:
0.73105857863
0.880797077978
0.952574126822


In [19]:
print "这是使用map的方式:"
map(basic_sigmoid,X)

这是使用map的方式:


[0.7310585786300049, 0.8807970779778823, 0.9525741268224334]

**然后我们用Numpy再进行一次尝试**

In [20]:
# 用math定义sigmoid

import numpy as np

def sigmoid(x):

    s = 1. / (1 + np.exp(-x))
    
    return s

In [21]:
# 完成第一个步骤
sigmoid(-1)

0.2689414213699951

In [23]:
#　再试着完成第二个步骤,我们搞一个向量Ｘ
X = np.array([1, 2, 3])
sigmoid(X)

array([ 0.73105858,  0.88079708,  0.95257413])

我们可以看到，不报错了，而且不需要使用for或者map，使用起来是非常方便的！

**接下来我们来学习一下求导**

我们要求通过sigmoid得到的值的导，其实就是实现下试:
$$sigmoid\_derivative(x) = \sigma'(x) = \sigma(x) (1 - \sigma(x))\tag{2}$$

用下面两步就可以完成
1. 计算输入的sigmoid
2. 然后计算 $\sigma'(x) = s(1-s)$

In [24]:
# 尝试编sigmoid的求导函数

def sigmoid_derivative(x):
    
    s = sigmoid(x)
    ds = s * (1-s)
    
    return ds

In [25]:
x = np.array([1, 2, 3])
print ("sigmoid_derivative(x) = " + str(sigmoid_derivative(x)))

sigmoid_derivative(x) = [ 0.19661193  0.10499359  0.04517666]


**我们要学习的另一个操作是reshape**

在后面学习神经网络的过程中，我们经常需要把图片数据转换成一个一维的向量(3D =>> 1D)，这个时候就需要用reshape来完成操作。

图像的shape通常是: $(length, height, depth = 3)$,我们要通过reshape把它变成：(length\*height\*3, 1)

In [26]:
# 将图片转化成向量
def image2vector(image):

    v = image.reshape(image.size, 1)
    
    return v

In [27]:
# 定义一个图片的像素(shape),实际上图片的第三个维度是３(RGB)，这里我们只是介绍其处理过程
image = np.array([[[ 0.67826139,  0.29380381],
        [ 0.90714982,  0.52835647],
        [ 0.4215251 ,  0.45017551]],

       [[ 0.92814219,  0.96677647],
        [ 0.85304703,  0.52351845],
        [ 0.19981397,  0.27417313]],

       [[ 0.60659855,  0.00533165],
        [ 0.10820313,  0.49978937],
        [ 0.34144279,  0.94630077]]])

print "image的shape是{}".format(image.shape)

image的shape是(3, 3, 2)


In [29]:
# 尝试使用image2vector对image的shape进行转化
print ("image2vector(image) = " + str(image2vector(image)))
print "处理后的shape是{}".format(image2vector(image).shape)

image2vector(image) = [[ 0.67826139]
 [ 0.29380381]
 [ 0.90714982]
 [ 0.52835647]
 [ 0.4215251 ]
 [ 0.45017551]
 [ 0.92814219]
 [ 0.96677647]
 [ 0.85304703]
 [ 0.52351845]
 [ 0.19981397]
 [ 0.27417313]
 [ 0.60659855]
 [ 0.00533165]
 [ 0.10820313]
 [ 0.49978937]
 [ 0.34144279]
 [ 0.94630077]]
处理后的shape是(18, 1)


18就是上面公式提到的: 3 x 3 x 2

**另外一个操作是标准化数据**

关于标准化这个东西应该不需要多讲，因为之前做机器学习的时候也是很常用的，主要用于提升收敛速度。

标准化的方式也有很多，比如最大最小值标准化或者范数标准化。

下面我们来实现一个范数标准化的过程。

In [31]:
# 定义一个需要标准化的矩阵
x = np.array([
    [0, 3, 4],
    [2, 6, 4]])

x

array([[0, 3, 4],
       [2, 6, 4]])

In [34]:
# 用Numpy求矩阵x的范数
x_norm = np.linalg.norm(x, ord=2, axis=1, keepdims = True)
print x_norm

[[ 5.        ]
 [ 7.48331477]]


In [35]:
# 用范数标准化矩阵
x = x / x_norm
x

array([[ 0.        ,  0.6       ,  0.8       ],
       [ 0.26726124,  0.80178373,  0.53452248]])

In [36]:
# 把上述过程整合起来定义一个范数标准化函数

def normalizeRows(x):

    x_norm = np.linalg.norm(x, ord=2, axis=1, keepdims=True)
    
    x = x / x_norm
    

    return x

In [37]:
x = np.array([
    [0, 3, 4],
    [2, 6, 4]])
print("normalizeRows(x) = " + str(normalizeRows(x)))

normalizeRows(x) = [[ 0.          0.6         0.8       ]
 [ 0.26726124  0.80178373  0.53452248]]


**接下来我们讲讲'broadcasting'和'softmax'**

broadcasting是非常重要的，而Numpy可以轻松的实现broadcasting。

所谓broadcasting就是能够在不同形状的数组之间进行数值计算，如果不用Numpy，实现起来是比较复杂的。

softmax这个你如果不懂的化就把它理解成某一种标准化吧，我们只用下面两个公式代表向量的softmax和矩阵的softmax

- $ \text{for } x \in \mathbb{R}^{1\times n} \text{,     } softmax(x) = softmax(\begin{bmatrix}
    x_1  &&
    x_2 &&
    ...  &&
    x_n  
\end{bmatrix}) = \begin{bmatrix}
     \frac{e^{x_1}}{\sum_{j}e^{x_j}}  &&
    \frac{e^{x_2}}{\sum_{j}e^{x_j}}  &&
    ...  &&
    \frac{e^{x_n}}{\sum_{j}e^{x_j}} 
\end{bmatrix} $ 

- $\text{for a matrix } x \in \mathbb{R}^{m \times n} \text{,  $x_{ij}$ maps to the element in the $i^{th}$ row and $j^{th}$ column of $x$, thus we have: }$  $$softmax(x) = softmax\begin{bmatrix}
    x_{11} & x_{12} & x_{13} & \dots  & x_{1n} \\
    x_{21} & x_{22} & x_{23} & \dots  & x_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    x_{m1} & x_{m2} & x_{m3} & \dots  & x_{mn}
\end{bmatrix} = \begin{bmatrix}
    \frac{e^{x_{11}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{12}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{13}}}{\sum_{j}e^{x_{1j}}} & \dots  & \frac{e^{x_{1n}}}{\sum_{j}e^{x_{1j}}} \\
    \frac{e^{x_{21}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{22}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{23}}}{\sum_{j}e^{x_{2j}}} & \dots  & \frac{e^{x_{2n}}}{\sum_{j}e^{x_{2j}}} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    \frac{e^{x_{m1}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m2}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m3}}}{\sum_{j}e^{x_{mj}}} & \dots  & \frac{e^{x_{mn}}}{\sum_{j}e^{x_{mj}}}
\end{bmatrix} = \begin{pmatrix}
    softmax\text{(first row of x)}  \\
    softmax\text{(second row of x)} \\
    ...  \\
    softmax\text{(last row of x)} \\
\end{pmatrix} $$

##### 看上去还是很简单的，就是先求exp,然后把exp的值加起来分别用exp除一下而已，下面我们来一起实现它，

In [46]:
# softmax

def softmax(x):

    x_exp = np.exp(x)
    
    x_sum = np.sum(x_exp, axis=1, keepdims=True)
        
    # 其实这步骤是比较关键的，因为就是在这儿用到了broadcasting,只不过Numpy太方便了让你没有感知而已。
    s = x_exp / x_sum
    print "不同计算阶段的shape其实是不同的:p1:{},p2:{},p3:{}".format(x_exp.shape,x_sum.shape,s.shape)
    
    return s

In [47]:
x = np.array([
    [9, 2, 5, 0, 0],
    [7, 5, 0, 0 ,0]])
print("softmax(x) = " + str(softmax(x)))

不同计算阶段的shape其实是不同的:p1:(2, 5),p2:(2, 1),p3:(2, 5)
softmax(x) = [[  9.80897665e-01   8.94462891e-04   1.79657674e-02   1.21052389e-04
    1.21052389e-04]
 [  8.78679856e-01   1.18916387e-01   8.01252314e-04   8.01252314e-04
    8.01252314e-04]]


**向量化**

简单来说，向量化就是用map替代for，这样是可以节约很多时间的，能够显著的提高计算效率。

因为for每次只能运算一个,而for是同是处理多个。

我们结合运算时间来说明这一点。

In [54]:
import time

x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### 使用for循环将两个向量进行点乘 ###
tic = time.time()
dot = 0
for i in range(len(x1)):
    dot+= x1[i]*x2[i]
toc = time.time()
print ("dot = " + str(dot) + "\n ----- 计算耗时 = " + str(1000*(toc - tic)) + "ms")

### 使用for循环将向量和0矩阵进行点乘 ###
tic = time.time()
outer = np.zeros((len(x1),len(x2))) # we create a len(x1)*len(x2) matrix with only zeros
for i in range(len(x1)):
    for j in range(len(x2)):
        outer[i,j] = x1[i]*x2[j]
toc = time.time()
print ("outer = " + str(outer) + "\n ----- 计算耗时 = " + str(1000*(toc - tic)) + "ms")

### 使用for循环将两个向量进行点乘 ###
tic = time.time()
mul = np.zeros(len(x1))
for i in range(len(x1)):
    mul[i] = x1[i]*x2[i]
toc = time.time()
print ("elementwise multiplication = " + str(mul) + "\n ----- 计算耗时 = " + str(1000*(toc - tic)) + "ms")

### 使用for循环将两个矩阵进行点乘 ###
W = np.random.rand(3,len(x1)) # Random 3*len(x1) numpy array
tic = time.time()
gdot = np.zeros(W.shape[0])
for i in range(W.shape[0]):
    for j in range(len(x1)):
        gdot[i] += W[i,j]*x1[j]
toc = time.time()
print ("gdot = " + str(gdot) + "\n ----- 计算耗时 = " + str(1000*(toc - tic)) + "ms")

dot = 278
 ----- 计算耗时 = 0.0748634338379ms
outer = [[ 81.  18.  18.  81.   0.  81.  18.  45.   0.   0.  81.  18.  45.   0.
    0.]
 [ 18.   4.   4.  18.   0.  18.   4.  10.   0.   0.  18.   4.  10.   0.
    0.]
 [ 45.  10.  10.  45.   0.  45.  10.  25.   0.   0.  45.  10.  25.   0.
    0.]
 [  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
    0.]
 [  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
    0.]
 [ 63.  14.  14.  63.   0.  63.  14.  35.   0.   0.  63.  14.  35.   0.
    0.]
 [ 45.  10.  10.  45.   0.  45.  10.  25.   0.   0.  45.  10.  25.   0.
    0.]
 [  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
    0.]
 [  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
    0.]
 [  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
    0.]
 [ 81.  18.  18.  81.   0.  81.  18.  45.   0.   0.  81.  18.  45.   0.
    0.]
 [ 18.   4.   4.  18.   0.  18.   4.  10.   0.   0.  18.   4.  10.   0

In [56]:
x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### 向量化将两个向量进行点乘 ###
tic = time.time()
dot = np.dot(x1,x2)
toc = time.time()
print ("dot = " + str(dot) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### 向量化将向量和0矩阵进行点乘 ###
tic = time.time()
outer = np.outer(x1,x2)
toc = time.time()
print ("outer = " + str(outer) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### 向量化将两个向量进行点乘 ###
tic = time.time()
mul = np.multiply(x1,x2)
toc = time.time()
print ("elementwise multiplication = " + str(mul) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### 向量化将两个矩阵进行点乘 ###
tic = time.time()
dot = np.dot(W,x1)
toc = time.time()
print ("gdot = " + str(dot) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

dot = 278
 ----- Computation time = 0.0519752502441ms
outer = [[81 18 18 81  0 81 18 45  0  0 81 18 45  0  0]
 [18  4  4 18  0 18  4 10  0  0 18  4 10  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [63 14 14 63  0 63 14 35  0  0 63 14 35  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [81 18 18 81  0 81 18 45  0  0 81 18 45  0  0]
 [18  4  4 18  0 18  4 10  0  0 18  4 10  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]]
 ----- Computation time = 0.0638961791992ms
elementwise multiplication = [81  4 10  0  0 63 10  0  0  0 81  4 25  0  0]
 ----- Computation time = 0.0491142272949ms
gdot = [ 18.79624092  25.6377409   13.43451111]
 ----

**可以看到不仅时间缩短了很多，代码也简洁了很多！！！！**

## 最后我们来实现一下L1、L2损失函数

其实就是下面两个公式，现阶段你不需要理解太深，只需要做到我们给出公式你可以用Python实现即可！

- L1 loss:
$$\begin{align*} & L_1(\hat{y}, y) = \sum_{i=0}^m|y^{(i)} - \hat{y}^{(i)}| \end{align*}\tag{6}$$
- L2 loss：
$$\begin{align*} & L_2(\hat{y},y) = \sum_{i=0}^m(y^{(i)} - \hat{y}^{(i)})^2 \end{align*}\tag{7}$$

In [57]:
# L1

def L1(yhat, y):

    loss = np.sum(np.abs((y - yhat)))
    
    return loss

# L2
def L2(yhat, y):
   
    loss = np.sum(np.square(yhat - y))
    
    return loss

In [58]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L1 = " + str(L1(yhat,y)))

yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L2 = " + str(L2(yhat,y)))

L1 = 1.1
L2 = 0.43
