# Python Básico com Numpy (exercício opcional)

Bem-vindo ao seu primeiro exercício. Este exercício irá proporcionar uma breve introdução a Python. Mesmo que você já tenha utilizado Python antes, este exercício irá te ajudar a se familiarizar com funções que serão utilizadas ao longo deste curso.   

**Instruções:**
- Você irá utilizar Python 3.
- Evite usar for-loops e while-loops, a menos que seja dito para você usá-los.
- Não modifique o (# FUNÇÃO de AVALIAÇÃO [nome da função]) comentada em algumas células. Seu trabalho não será avaliado se você modificar estes nomes. Cada célula contendo este tipo de comentário deve ter apenas uma função. 
- Após codificar a sua função, execute a célula imediatamente abaixo da função para verificar se o resultado obtido está correto.

**Após este exercício você deverá ser capaz de:**
- Utilizar os notebooks do iPython.
- Utilizar funções do numpy e operações do numpy matrix/vector.
- Compreender os conceitos de "broadcasting"
- Ser capaz de vetorizar um código.

Muito bem, vamos começar!

## Sobre notebooks iPython ##

Notebooks iPython são formas interativas de ambientes de codificação embutidos em uma página da web. Você irá utilizar notebooks iPython ao longo deste curso. Você precisa escrever código entre os comentários ### INICIE SEU CÓDIGO AQUI ### e ### TÉRMINO DO CÓDIGO ### . Após escrever seu código você pode executar a célula usando "SHIFT"+"ENTER" ou clicando no botão "Run Cell" (indicado pelo símbolo play) na barra superior do notebook. 

Geralmente será especificado o número esperado de linhas de código "(≈ X linhas de código)" nos comentários para indicar a você o que é esperado. Este número é uma estimativa e não se preocupe se seu código estiver com mais ou menos linhas.

**Exercício**: coloque como valor para teste `"Bom dia mundo Python..."` na célula abaixo para imprimir  "Bom dia mundo Python..." e execute as duas células abaixo.

In [13]:
### INICIE O SEU CÓDIGO AQUI ### (≈ 1 linha de código)
teste = "Bom dia mundo Python..."
### TÉRMINO DO CÓDIGO ###

In [14]:
print ("teste: " + teste)

teste: Bom dia mundo Python...


**Saída esperada**:
teste: Bom dia mundo Python...

<font color='blue'>
**O que você precisa lembrar**:
- Execute as células utilizando SHIFT+ENTER (ou "Run cell")
- Escreva os códigos na área designada utilizando apenas Python 3
- Nunca modifique o código fora da área designada

## 1 - Construindo funções básicas com numpy ##

Numpy é o pacote principal do Python para computação científica. Ela é mantida por uma grande comunidade (www.numpy.org). Neste exercício você irá aprender várias funções chave do numpy, como np.exp, np.log, and np.reshape. Você precisará saber como utilizá-las em exercícios futuros.

### 1.1 - função sigmoid, np.exp() ###

Antes de utilizar np.exp(), você utilizará o math.exp() para implemetar a função sigmoid. Assim você irá compreender o porque a função np.exp() é preferível no lugar da math.exp().

**Exercício**: Construa uma função que retorne o sigmoid de um número real x. Utilize math.exp(x) para a função exponencial. 

**Lembre-se que**:
    $sigmoid(x) = \frac{1}{1+e^{-x}}$ que também é conhecida como função logística. É uma função não linear utilizada não apenas em Aprendizado de Máquinas (Regressão logística), mas também em Deep Learning.

<img src="images/Sigmoid.png" style="width:500px;height:228px;">

Para se referir a uma função que pertence a um determinado pacote você poderia fazer a chamada utilizando o nome do pacote nome_pacote.função(). Execute o código abaixo para ver um exemplo com math.exp().

In [20]:
# FUNÇÃO DE AVALIAÇÃO: sigmoid_basica

import math

def sigmoid_basica(x):
    """
    Determina o sigmoid de x.

    Argumentos:
    x -- Um escalar

    Retorna:
    s -- sigmoid(x)
    """
    
    ### INICIE O SEU CÓDIGO AQUI ### (≈ 1 linha de código)
    s = 1/(1+math.exp(-x))
    ### TÉRMINO DO CÓDIGO ###
    
    return s

In [16]:
sigmoid_basica(3)

0.9525741268224334

**Saída Esperada**: 
<table style = "width:40%">
    <tr>
    <td>** sigmoid_basica(3) **</td> 
        <td>0.9525741268224334 </td> 
    </tr>

</table>

Na verdade, raramente a biblioteca "math" é utilizada em deep learning porque as entradas das funções são números reais. Em Deep Learning as entradas são geralmente matrizes e vetores. Por isto a biblioteca numpy é mais útil. 

In [17]:
### Uma das razões para se utilizar a biblioteca "numpy" no lugar da "math" em Deep Learning ###
x = [1, 2, 3]
sigmoid_basica(x) # você verá que a execução deste comando irá dar um erro, isto ocorre porque x é um vetor.

TypeError: bad operand type for unary -: 'list'

De fato, se $ x = (x_1, x_2, ..., x_n)$ é um vetor linha, então $np.exp(x)$ irá aplicar a função exponencial a cada elemento de x. A saída será: $np.exp(x) = (e^{x_1}, e^{x_2}, ..., e^{x_n})$

In [18]:
import numpy as np

# exemplo de np.exp
x = np.array([1, 2, 3])
print(np.exp(x)) # result is (exp(1), exp(2), exp(3))

[  2.71828183   7.3890561   20.08553692]


Ainda, se x é um vetor, então uma operação em Python como $s = x + 3$ ou $s = \frac{1}{x}$ irá retornar s como um vetor do mesmo tamanho de x. 

In [19]:
# exemplo de operação com vetor
x = np.array([1, 2, 3])
print (x + 3)

[4 5 6]


A qualquer momento que você precisar de mais informação sobre a função numpy.exp(), de uma olhada em [documentação oficial](https://docs.scipy.org/doc/numpy-1.10.1/reference/generated/numpy.exp.html). 

Você pode ainda criar uma nova célula no seu notebook e escrever `np.exp?` (por exemplo) para acessar a documentação rapidamente. 

**Exercício**: Implemente a função sigmoid utilizando numpy. 

**Instruções**: x pode ser tanto um número real, um vetor ou uma matriz. A estrutura de dados utilizada em numpy para representar estas formas (vetores, matrizes, ...) são chamadas de arrays em numpy. Por enquanto você não precisa saber mais sobre isto. 
$$ \text{For } x \in \mathbb{R}^n \text{,     } sigmoid(x) = sigmoid\begin{pmatrix}
    x_1  \\
    x_2  \\
    ...  \\
    x_n  \\
\end{pmatrix} = \begin{pmatrix}
    \frac{1}{1+e^{-x_1}}  \\
    \frac{1}{1+e^{-x_2}}  \\
    ...  \\
    \frac{1}{1+e^{-x_n}}  \\
\end{pmatrix}\tag{1} $$

In [23]:
# FUNÇÃO DE AVALIAÇÃO: sigmoid

import numpy as np # this means you can access numpy functions by writing np.function() instead of numpy.function()

def sigmoid(x):
    """
    Compute the sigmoid of x

    Arguments:
    x -- A scalar or numpy array of any size

    Return:
    s -- sigmoid(x)
    """
    
    ### INICIE O SEU CÓDIGO AQUI  ### (≈ 1 linha de código)
    s = 1/(1+np.exp(-x))
    ### TÉRMINO DO CÓDIGO ###
    
    return s

In [22]:
x = np.array([1, 2, 3])
sigmoid(x)

array([ 0.73105858,  0.88079708,  0.95257413])

**Saída Esperada**: 
<table>
    <tr> 
        <td> **sigmoid([1,2,3])**</td> 
        <td> array([ 0.73105858,  0.88079708,  0.95257413]) </td> 
    </tr>
</table> 


### 1.2 - Sigmoid gradient

As you've seen in lecture, you will need to compute gradients to optimize loss functions using backpropagation. Let's code your first gradient function.

**Exercise**: Implement the function sigmoid_grad() to compute the gradient of the sigmoid function with respect to its input x. The formula is: $$sigmoid\_derivative(x) = \sigma'(x) = \sigma(x) (1 - \sigma(x))\tag{2}$$
You often code this function in two steps:
1. Set s to be the sigmoid of x. You might find your sigmoid(x) function useful.
2. Compute $\sigma'(x) = s(1-s)$

In [24]:
# FUNÇÃO DE AVALIAÇÃO: derivativa_sigmoid

def derivativa_sigmoid(x):
    """
    Determina o gradiente (também chamado de inclinação ou derivativa) da função sigmoid com relação a sua entrada x.
    Você pode armazenar a saída da função sigmoid em variáveis e então utilizá-las para calcular o gradiente.
    
    Argumentos:
    x -- Um escalar ou um array numpy

    Retorna:
    ds -- O gradiente calculado.
    """
    
    ### INICIE O SEU CÓDIGO AQUI ### (≈ 2 linhas de código)
    s = 1/(1+np.exp(-x))
    ds = s*(1-s)
    ### TÉRMINO DO CÓDIGO ###
    
    return ds

In [25]:
x = np.array([1, 2, 3])
print ("derivativa_sigmoid(x) = " + str(derivativa_sigmoid(x)))

derivativa_sigmoid(x) = [ 0.19661193  0.10499359  0.04517666]


**Saída Esperada**: 


<table>
    <tr> 
        <td> **derivativa_sigmoid([1,2,3])**</td> 
        <td> [ 0.19661193  0.10499359  0.04517666] </td> 
    </tr>
</table> 



### 1.3 - Reformatando arrays ###

Duas funções comuns em numpy utilizadas em deep learning são [np.shape](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.shape.html) e [np.reshape()](https://docs.scipy.org/doc/numpy/reference/generated/numpy.reshape.html). 
- X.shape é utilizado para obter a forma (dimensões) de uma matriz/vetor X. 
- X.reshape(...) é utilizado para reformatar X em alguma outra dimensão. 

Por exemplo, em ciência da computação, uma imagem é representada por um array em 3D no formato $(comprimento, altura, profundidade = 3)$. Porém, quando você lê uma imagem como uma entrada de um algoritmo você a converte pra um vetor no formato   $(comprimento*altura*3, 1)$. Em outras palavras, você "desenrola", ou reformata, o array em 3D em um vetor em 1D.

<img src="images/image2vector_kiank.png" style="width:500px;height:300;">

**Exercício**: Implemente `imagemParaVetor()` que recebe uma entrada no formato (comprimento, altura, 3) e retorna um vetor no formato (comprimento\*altura\*3, 1). Por exemplo, se você quiser reformatar um array v do formato (a, b, c) para o formato (a*b,c) você deve executar o comando:
``` python
v = v.reshape((v.shape[0]*v.shape[1], v.shape[2])) # v.shape[0] = a ; v.shape[1] = b ; v.shape[2] = c
```
- Por favor não codifique as dimensões de uma imagem como uma constante. Em vez disso, olhe as dimensões que você precisa com o comando `image.shape[0]`, etc. 

In [29]:
# FUNÇÃO DE AVALIAÇÃO: imagemParaVetor
def imagemParaVetor(imagem):
    """
    Argumento:
    imagem -- um array numpy array no formato (comprimento, altura, profundidade)
    
    Retorna:
    v -- um vetor no formato (comprimento*altura*profundidade, 1)
    """
    
    ### INICIE O SEU CÓDIGO AQUI ### (≈ 1 linha de código)
    v = imagem.reshape((imagem.shape[0]*imagem.shape[1]*imagem.shape[2]),1)
    ### TÉRMINO DO CÓDIGO ###
    
    return v

In [28]:
# This is a 3 by 3 by 2 array, typically images will be (num_px_x, num_px_y,3) where 3 represents the RGB values
imagem = np.array([[[ 0.67826139,  0.29380381],
        [ 0.90714982,  0.52835647],
        [ 0.4215251 ,  0.45017551]],

       [[ 0.92814219,  0.96677647],
        [ 0.85304703,  0.52351845],
        [ 0.19981397,  0.27417313]],

       [[ 0.60659855,  0.00533165],
        [ 0.10820313,  0.49978937],
        [ 0.34144279,  0.94630077]]])

print ("imagemParaVetor(imagem) = " + str(imagemParaVetor(imagem)))

imagemParaVetor(imagem) = [[ 0.67826139]
 [ 0.29380381]
 [ 0.90714982]
 [ 0.52835647]
 [ 0.4215251 ]
 [ 0.45017551]
 [ 0.92814219]
 [ 0.96677647]
 [ 0.85304703]
 [ 0.52351845]
 [ 0.19981397]
 [ 0.27417313]
 [ 0.60659855]
 [ 0.00533165]
 [ 0.10820313]
 [ 0.49978937]
 [ 0.34144279]
 [ 0.94630077]]


**Saída Esperada**: 


<table style="width:100%">
     <tr> 
       <td> **imagemParaVetor(image)** </td> 
       <td> [[ 0.67826139]
 [ 0.29380381]
 [ 0.90714982]
 [ 0.52835647]
 [ 0.4215251 ]
 [ 0.45017551]
 [ 0.92814219]
 [ 0.96677647]
 [ 0.85304703]
 [ 0.52351845]
 [ 0.19981397]
 [ 0.27417313]
 [ 0.60659855]
 [ 0.00533165]
 [ 0.10820313]
 [ 0.49978937]
 [ 0.34144279]
 [ 0.94630077]]</td> 
     </tr>
    
   
</table>

### 1.4 - Normalizando linhas

Uma outra técnica comum utilizada em Aprendizado de Máquinas e Deep Learning é a técnica de normalização de dados. Ela normalmente nos leva a um melhor desempenho porque o gradiente descendente converge mais rápido após a normalização. Aqui, o termo normalização significa trocar x $ \frac{x}{\| x\|} $ (dividindo cada linha do vetor de x pela sua norm).

Por exemplo, se $$x = 
\begin{bmatrix}
    0 & 3 & 4 \\
    2 & 6 & 4 \\
\end{bmatrix}\tag{3}$$ então $$\| x\| = np.linalg.norm(x, axis = 1, keepdims = True) = \begin{bmatrix}
    5 \\
    \sqrt{56} \\
\end{bmatrix}\tag{4} $$e        $$ x\_normalized = \frac{x}{\| x\|} = \begin{bmatrix}
    0 & \frac{3}{5} & \frac{4}{5} \\
    \frac{2}{\sqrt{56}} & \frac{6}{\sqrt{56}} & \frac{4}{\sqrt{56}} \\
\end{bmatrix}\tag{5}$$ Note que você pode dividir matrizes de tamanhos diferentes e funciona sem problemas: isto é chamado de broadcasting e você vai aprender sobre isto na parte 5.


**Exercício**: Implemente normalizaLinhas() para normalizar as linhas de uma matriz. Após aplicar esta função para uma matriz de entrada x, cada linha de x será um vetor de comprimento unitário (ou seja comprimento 1). 

In [30]:
# FUNÇÃO DE AVALIAÇÃO: normalizaLinhas

def normalizaLinhas(x):
    """
    Implemente a função que normaliza cada linha de uma matriz x (para ter comprimento unitário).
    
    Argumento:
    x -- Uma matriz numpy matrix no formato (n, m)
    
    Retorna:
    x -- A matriz numpy normalizada (por linha). Você tem permissão para modificar x.
    """
    
    ### INICIE O SEU CÓDIGO AQUI  ### (≈ 2 linhas de código)
    # Compute x_norm como a norm 2 de x. Use np.linalg.norm(..., ord = 2, axis = ..., keepdims = True)
    x_norm = np.linalg.norm(x,ord=2, axis=1,keepdims=True)
    
    # Divida x pela sua norm.
    x = x/x_norm
    ### TÉRMINO DO CÓDIGO ###

    return x

In [32]:
x = np.array([
    [0, 3, 4],
    [1, 6, 4]])
print("normalizaLinhas(x) = " + str(normalizaLinhas(x)))

normalizaLinhas(x) = [[ 0.          0.6         0.8       ]
 [ 0.13736056  0.82416338  0.54944226]]


**Saída Esperada**: 

<table style="width:60%">

     <tr> 
       <td> **normalizaLinhas(x)** </td> 
       <td> [[ 0.          0.6         0.8       ]
 [ 0.13736056  0.82416338  0.54944226]]</td> 
     </tr>
    
   
</table>

**Nota**:
Em normalizaLinhas(), você pode tentar imprimir os formatos de x_norm e x, e então executar a avaliação. Você verá que eles possuem formas diferentes. Isto é normal dado que x_norm pega a norm de cada linha de x. Logo x_norm possui o mesmo número de linhas mas apenas 1 coluna. Então, como isto funciona quando você divide x pela x_norm? Isto é chamado de broadcasting e nós vamos falar sobre isto agora!  

### 1.5 - Broadcasting and the softmax function ####
A very important concept to understand in numpy is "broadcasting". It is very useful for performing mathematical operations between arrays of different shapes. For the full details on broadcasting, you can read the official [broadcasting documentation](http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html).

**Exercise**: Implement a softmax function using numpy. You can think of softmax as a normalizing function used when your algorithm needs to classify two or more classes. You will learn more about softmax in the second course of this specialization.

**Instructions**:
- $ \text{for } x \in \mathbb{R}^{1\times n} \text{,     } softmax(x) = softmax(\begin{bmatrix}
    x_1  &&
    x_2 &&
    ...  &&
    x_n  
\end{bmatrix}) = \begin{bmatrix}
     \frac{e^{x_1}}{\sum_{j}e^{x_j}}  &&
    \frac{e^{x_2}}{\sum_{j}e^{x_j}}  &&
    ...  &&
    \frac{e^{x_n}}{\sum_{j}e^{x_j}} 
\end{bmatrix} $ 

- $\text{for a matrix } x \in \mathbb{R}^{m \times n} \text{,  $x_{ij}$ maps to the element in the $i^{th}$ row and $j^{th}$ column of $x$, thus we have: }$  $$softmax(x) = softmax\begin{bmatrix}
    x_{11} & x_{12} & x_{13} & \dots  & x_{1n} \\
    x_{21} & x_{22} & x_{23} & \dots  & x_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    x_{m1} & x_{m2} & x_{m3} & \dots  & x_{mn}
\end{bmatrix} = \begin{bmatrix}
    \frac{e^{x_{11}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{12}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{13}}}{\sum_{j}e^{x_{1j}}} & \dots  & \frac{e^{x_{1n}}}{\sum_{j}e^{x_{1j}}} \\
    \frac{e^{x_{21}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{22}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{23}}}{\sum_{j}e^{x_{2j}}} & \dots  & \frac{e^{x_{2n}}}{\sum_{j}e^{x_{2j}}} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    \frac{e^{x_{m1}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m2}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m3}}}{\sum_{j}e^{x_{mj}}} & \dots  & \frac{e^{x_{mn}}}{\sum_{j}e^{x_{mj}}}
\end{bmatrix} = \begin{pmatrix}
    softmax\text{(first row of x)}  \\
    softmax\text{(second row of x)} \\
    ...  \\
    softmax\text{(last row of x)} \\
\end{pmatrix} $$

In [None]:
# FUNÇÃO DE AVALIAÇÃO: softmax

def softmax(x):
    """Calculates the softmax for each row of the input x.

    Your code should work for a row vector and also for matrices of shape (n, m).

    Argument:
    x -- A numpy matrix of shape (n,m)

    Returns:
    s -- A numpy matrix equal to the softmax of x, of shape (n,m)
    """
    
    ### INICIE O SEU CÓDIGO AQUI  ### (≈ 3 linhas de código)
    # Apply exp() element-wise to x. Use np.exp(...).
    x_exp = np.exp(x)

    # Create a vector x_sum that sums each row of x_exp. Use np.sum(..., axis = 1, keepdims = True).
    x_sum = x_exp.sum(axis=1)
    
    # Compute softmax(x) by dividing x_exp by x_sum. It should automatically use numpy broadcasting.
    s = x_exp/x_sum.reshape(2,1)

    ### TÉRMINO DO CÓDIGO ###
    
    return s

In [None]:
x = np.array([
    [9, 2, 5, 0, 0],
    [7, 5, 0, 0 ,0]])
print("softmax(x) = " + str(softmax(x)))

**Expected Output**:

<table style="width:60%">

     <tr> 
       <td> **softmax(x)** </td> 
       <td> [[  9.80897665e-01   8.94462891e-04   1.79657674e-02   1.21052389e-04
    1.21052389e-04]
 [  8.78679856e-01   1.18916387e-01   8.01252314e-04   8.01252314e-04
    8.01252314e-04]]</td> 
     </tr>
</table>


**Note**:
- If you print the shapes of x_exp, x_sum and s above and rerun the assessment cell, you will see that x_sum is of shape (2,1) while x_exp and s are of shape (2,5). **x_exp/x_sum** works due to python broadcasting.

Congratulations! You now have a pretty good understanding of python numpy and have implemented a few useful functions that you will be using in deep learning.

<font color='blue'>
**What you need to remember:**
- np.exp(x) works for any np.array x and applies the exponential function to every coordinate
- the sigmoid function and its gradient
- image2vector is commonly used in deep learning
- np.reshape is widely used. In the future, you'll see that keeping your matrix/vector dimensions straight will go toward eliminating a lot of bugs. 
- numpy has efficient built-in functions
- broadcasting is extremely useful

## 2) Vectorization


In deep learning, you deal with very large datasets. Hence, a non-computationally-optimal function can become a huge bottleneck in your algorithm and can result in a model that takes ages to run. To make sure that your code is  computationally efficient, you will use vectorization. For example, try to tell the difference between the following implementations of the dot/outer/elementwise product.

In [None]:
import time

x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### CLASSIC DOT PRODUCT OF VECTORS IMPLEMENTATION ###
tic = time.process_time()
dot = 0
for i in range(len(x1)):
    dot+= x1[i]*x2[i]
toc = time.process_time()
print ("dot = " + str(dot) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### CLASSIC OUTER PRODUCT IMPLEMENTATION ###
tic = time.process_time()
outer = np.zeros((len(x1),len(x2))) # we create a len(x1)*len(x2) matrix with only zeros
for i in range(len(x1)):
    for j in range(len(x2)):
        outer[i,j] = x1[i]*x2[j]
toc = time.process_time()
print ("outer = " + str(outer) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### CLASSIC ELEMENTWISE IMPLEMENTATION ###
tic = time.process_time()
mul = np.zeros(len(x1))
for i in range(len(x1)):
    mul[i] = x1[i]*x2[i]
toc = time.process_time()
print ("elementwise multiplication = " + str(mul) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### CLASSIC GENERAL DOT PRODUCT IMPLEMENTATION ###
W = np.random.rand(3,len(x1)) # Random 3*len(x1) numpy array
tic = time.process_time()
gdot = np.zeros(W.shape[0])
for i in range(W.shape[0]):
    for j in range(len(x1)):
        gdot[i] += W[i,j]*x1[j]
toc = time.process_time()
print ("gdot = " + str(gdot) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

In [None]:
x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### VECTORIZED DOT PRODUCT OF VECTORS ###
tic = time.process_time()
dot = np.dot(x1,x2)
toc = time.process_time()
print ("dot = " + str(dot) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### VECTORIZED OUTER PRODUCT ###
tic = time.process_time()
outer = np.outer(x1,x2)
toc = time.process_time()
print ("outer = " + str(outer) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### VECTORIZED ELEMENTWISE MULTIPLICATION ###
tic = time.process_time()
mul = np.multiply(x1,x2)
toc = time.process_time()
print ("elementwise multiplication = " + str(mul) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### VECTORIZED GENERAL DOT PRODUCT ###
tic = time.process_time()
dot = np.dot(W,x1)
toc = time.process_time()
print ("gdot = " + str(dot) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

As you may have noticed, the vectorized implementation is much cleaner and more efficient. For bigger vectors/matrices, the differences in running time become even bigger. 

**Note** that `np.dot()` performs a matrix-matrix or matrix-vector multiplication. This is different from `np.multiply()` and the `*` operator (which is equivalent to  `.*` in Matlab/Octave), which performs an element-wise multiplication.

### 2.1 Implement the L1 and L2 loss functions

**Exercise**: Implement the numpy vectorized version of the L1 loss. You may find the function abs(x) (absolute value of x) useful.

**Reminder**:
- The loss is used to evaluate the performance of your model. The bigger your loss is, the more different your predictions ($ \hat{y} $) are from the true values ($y$). In deep learning, you use optimization algorithms like Gradient Descent to train your model and to minimize the cost.
- L1 loss is defined as:
$$\begin{align*} & L_1(\hat{y}, y) = \sum_{i=0}^m|y^{(i)} - \hat{y}^{(i)}| \end{align*}\tag{6}$$

In [None]:
# GRADED FUNCTION: L1

def L1(yhat, y):
    """
    Arguments:
    yhat -- vector of size m (predicted labels)
    y -- vector of size m (true labels)
    
    Returns:
    loss -- the value of the L1 loss function defined above
    """
    
    ### START CODE HERE ### (≈ 1 line of code)
    loss = np.sum(abs(y-yhat))
    ### END CODE HERE ###
    
    return loss

In [None]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L1 = " + str(L1(yhat,y)))

**Expected Output**:

<table style="width:20%">

     <tr> 
       <td> **L1** </td> 
       <td> 1.1 </td> 
     </tr>
</table>


**Exercise**: Implement the numpy vectorized version of the L2 loss. There are several way of implementing the L2 loss but you may find the function np.dot() useful. As a reminder, if $x = [x_1, x_2, ..., x_n]$, then `np.dot(x,x)` = $\sum_{j=0}^n x_j^{2}$. 

- L2 loss is defined as $$\begin{align*} & L_2(\hat{y},y) = \sum_{i=0}^m(y^{(i)} - \hat{y}^{(i)})^2 \end{align*}\tag{7}$$

In [None]:
# GRADED FUNCTION: L2

def L2(yhat, y):
    """
    Arguments:
    yhat -- vector of size m (predicted labels)
    y -- vector of size m (true labels)
    
    Returns:
    loss -- the value of the L2 loss function defined above
    """
    
    ### START CODE HERE ### (≈ 1 line of code)
    loss = np.dot(y-yhat,y-yhat)
    ### END CODE HERE ###
    
    return loss

In [None]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L2 = " + str(L2(yhat,y)))

**Expected Output**: 
<table style="width:20%">
     <tr> 
       <td> **L2** </td> 
       <td> 0.43 </td> 
     </tr>
</table>

Congratulations on completing this assignment. We hope that this little warm-up exercise helps you in the future assignments, which will be more exciting and interesting!

<font color='blue'>
**What to remember:**
- Vectorization is very important in deep learning. It provides computational efficiency and clarity.
- You have reviewed the L1 and L2 loss.
- You are familiar with many numpy functions such as np.sum, np.dot, np.multiply, np.maximum, etc...