# Taller 1. Introducción a Python con Numpy 

Bienvenido al primer taller. Contiene ejercicios para una breve introducción a Python. Si ya ha utilizado Python antes, este taller le ayudará  a familiarizarse con las funciones que necesitamos.  

**Instrucciones:**
- Se utilizará Python 3.
- Evite utilizar bucles-for y bucles-while, a menos que explícitamente se le pida hacerlo.
- No modifique el comentario (# FUNCIÓN A CALIFICAR [nombre de la funcion]) de algunas celdas. Es neceario para su calificación. Cada celda que contenga ese comentario debe contener solo una función.  
- Tras codificar su función, verifique que el resultado es correcto. 

**Tras este taller usted va a ser capaz de:**
- Usar Cuadernos iPython 
- Utilizar funciones numpy y operaciones numpy sobre matrices/vectores
- Entender el concepto de "broadcasting"
- Vectorizar el código

Manos a la obra!!

## Sobre los Cuadernos iPython ##

Los Cuadernos iPython son ambientes de programación de código interactivos montados en una página web. En esta clase utilizaremos cuadernos iPython. Sólo necesita escribir código entre los comentarios de ### EMPIEZE EL CÓDIGO AQUÍ ### y ### TERMINE EL CÓDIGO AQUÍ ###. Tras escribir el código, puede ejecutar la celda presionando "SHIFT"+"ENTER" o haciendo click en "Run" (símbolo de "play") en la barra superior del cuaderno.  

Se especificará en los comentarios aproximadamente cuantas lineas de codigo necesita escribir "(≈ X lineas de codigo)". Es solo una guía, no pasa nada si escribe menos o más lineas siempre que el codigo ahga lo que debe hacer.

**Ejercicio**: Defina test como `"Hola Mundo"` en la celda de abajo para imprimir "Hello World" y ejecute las dos celdas abajo. 

In [None]:
### EMPIEZE EL CÓDIGO AQUÍ ### (≈ 1 linea de código)
test = 
### TERMINE EL CÓDIGO AQUÍ ###

In [None]:
print ("test: " + test)

**Salida esperada**:
test: Hola Mundo

## 1 - Construyendo funciones básicas con numpy ##

Numpy es el paquete principal para la ciencia computacional en Python (www.numpy.org). En este ejercicio aprenderá algunas funciones numpy claves tal como np.exp, np.log, y np.reshape. Va a necesitar saber cómo utilizar estas funciones para talleres futuros.

### 1.1 - Función sigmoide, np.exp() ###

Antes de utilizar np.exp(), utilizaremos math.exp() para implementar la función sigmoide. Entonce spodrá ver porqué np.exp() es preferible a math.exp().

**Ejercicio**: Construya una función que devuelva el sigmoide de un número real x. Utilize math.exp(x) para la función exponencial.

**Ayuda**:
$sigmoid(x) = \frac{1}{1+e^{-x}}$ se le conoce como la función logística. Es una función no-lineal utilizada tanto en Machine Learning (Regresión Logistica), como en Deep Learning.

Para referirse a una función de cierto paquete, la puede llamar utilizando package_name.function(). Ejecute el código abajo para trabajar con math.exp().

In [None]:
# FUNCIÓN A CALIFICAR basic_sigmoid

import math

def basic_sigmoid(x):
    """
    Calcula el sigmoide de x
    Input:
    x: scalar
    Output:
    s: sigmoid(x)
    """
    
    ### EMPIEZE EL CÓDIGO AQUÍ ### (≈ 1 linea de código)
    s =
    ### TERMINE EL CÓDIGO AQUÍ ###
    
    return s

In [None]:
basic_sigmoid(3)

**Salida esperada**: 
<table style = "width:40%">
    <tr>
    <td>** basic_sigmoid(3) **</td> 
        <td>0.9525741268224334 </td> 
    </tr>

</table>

En verdad la "math" library suele utilizarse poco en deep learning porque los inputs de las funciones son números reales. En deep learning su utilizan más que todo matrices y vectores. Por esto es que numpy es más útil. 

In [None]:
### Una razón para utilizar "numpy" en lugar de "math" en Deep Learning ###
x = [1, 2, 3]
basic_sigmoid(x) # esto da error, porque x es un vector

De hecho, $ x = (x_1, x_2, ..., x_n)$ es un vector fila, donde $np.exp(x)$ aplica la función exponencial a cada elemento de x. La salida será: $np.exp(x) = (e^{x_1}, e^{x_2}, ..., e^{x_n})$

In [None]:
import numpy as np

# ejemplo de np.exp
x = np.array([1, 2, 3])
print(np.exp(x)) 

Si x es un vector, entonces la operación de Python $s = x + 3$ o $s = \frac{1}{x}$ obtiene como resultado s como un vector del mismo tamaño que x.

In [None]:
# ejemplo de una operación vectorial
x = np.array([1, 2, 3])
print (x + 3)

Más información sobre la función numpy [documentación oficial](https://docs.scipy.org/doc/numpy-1.10.1/reference/generated/numpy.exp.html). 

También puede escribir en una nueva celda `np.exp?` y acceder a la documentación.

**Ejercicio**: Implemente la funcion sigmoide utilizando numpy. 

**Instrucciones**: x puede ser o un número real, un vector, o una matriz. A las estructuras de datos que se utilizan en numpy para representar estas formas (vectores, matrices,...) se les denominan arreglos numpy.

$$ \text{Para } x \in \mathbb{R}^n \text{,     } sigmoide(x) = sigmoide\begin{pmatrix}
    x_1  \\
    x_2  \\
    ...  \\
    x_n  \\
\end{pmatrix} = \begin{pmatrix}
    \frac{1}{1+e^{-x_1}}  \\
    \frac{1}{1+e^{-x_2}}  \\
    ...  \\
    \frac{1}{1+e^{-x_n}}  \\
\end{pmatrix}\tag{1} $$

In [None]:
# FUNCIÓN A CALIFICAR: sigmoid

import numpy as np # esto permite acceder funciones numpy simplemente escribiendo np.function() en lugar de numpy.function()

def sigmoid(x):
    """
    Calcule el sigmoide de x
    Input:
    x: un escalar o arreglo numpy de cualquier tamaño
    Output:
    s: sigmoid(x)
    """
    
    ### EMPIEZE EL CÓDIGO AQUÍ ### (≈ 1 linea de código)
    s = 
    ### TERMINE EL CÓDIGO AQUÍ ###
    
    return s

In [None]:
x = np.array([1, 2, 3])
sigmoid(x)

**Salida esperada**: 
<table>
    <tr> 
        <td> **sigmoid([1,2,3])**</td> 
        <td> array([ 0.73105858,  0.88079708,  0.95257413]) </td> 
    </tr>
</table> 


### 1.2 - Gradiente del sigmoide

Como hemos visto, se debe calcular gradientes para optimizar las funciones de coste usando retro-propagación. A continuación se computa la función del gradiente. 

**Ejercicio**: Implemente la función sigmoid_grad() para computar el gradiente de la función sigmoide con respecto a su input x. La fórmula es: $$sigmoid\_derivative(x) = \sigma'(x) = \sigma(x) (1 - \sigma(x))\tag{2}$$
Esta función se puede programar en dos pasos:
1. Defina s como el sigmoide de x. Puede utilizar la funcion sigmoid(x) ya programada.
2. Compute $\sigma'(x) = s(1-s)$

In [None]:
# FUNCIÓN A CALIFICAR: sigmoid_derivative

def sigmoid_derivative(x):
    """
    Calcule el gradiente (o derivada) de la función sigmoide con respecto al input x.
    Puede guardar el output del sigmoide como variables y luego usarlo para calcular el gradiente.
    Input:
    x: un escalar o arrgelo numpy 
    Output:
    ds: el gradiente calculado.
    """
    
    ### EMPIEZE EL CÓDIGO AQUÍ ### (≈ 2 lineas de codigo)
    s = 
    ds = 
    ### TERMINE EL CÓDIGO AQUÍ ###
    
    return ds

In [None]:
x = np.array([1, 2, 3])
print ("sigmoid_derivative(x) = " + str(sigmoid_derivative(x)))

**Salida esperada**:


<table>
    <tr> 
        <td> **sigmoid_derivative([1,2,3])**</td> 
        <td> [ 0.19661193  0.10499359  0.04517666] </td> 
    </tr>
</table> 



### 1.3 - Reformando arreglos ###

Dos funciones numpy comunes usadas en deep learning son [np.shape](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.shape.html) y [np.reshape()](https://docs.scipy.org/doc/numpy/reference/generated/numpy.reshape.html). 
- X.shape es usado para obtener la forma (dimension) de una matriz/vector X. 
- X.reshape(...) es usado para reformar X en alguna otra dimensión. 

Por ejemplo, en ciencia computacional, un aimagen es representada por un arreglo en 3D con forma $(longitud, altura, profundidad= 3)$. Sin embargo, cuando se lee una imagen como el input de un algoritmo, se convierte en un vector con forma $(longitud*altura*3, 1)$. En otras palabras, se desenrolla o reforma el arreglo 3D en un vector 1D.

**Ejercicio**: Implemente la función `image2vector()` que toma un input de forma (longitud, altura, 3) y devuelve un vector de form (longitud\*altura\*3, 1). Por ejemplo, si quisiera deformar un arreglo v con forma (a, b, c) en un vector con forma (a*b,c), se escribiría:
``` python
v = v.reshape((v.shape[0]*v.shape[1], v.shape[2])) # v.shape[0] = a ; v.shape[1] = b ; v.shape[2] = c
```
- Nótese que cada imagen tiene sus propias dimensiones, las cuales se pueden averiguar mediante  `image.shape[0]`, etc. 

In [None]:
# FUNCIÓN A CALIFICAR: image2vector

def image2vector(image):
    """
    Input:
    image: un arreglo numpy con forma (longitud, altura, profundidad)
    Output:
    v: un vector con forma (longitud*altura*profundidad, 1)
    """
    
    ### EMPIEZE EL CÓDIGO AQUÍ ### (≈ 1 linea de código)
    v = 
    ### TERMINE EL CÓDIGO AQUÍ ###
    
    return v

In [None]:
# Este es un arreglo de 3 por 3 por 2, usualmente las imagenes son de (num_px_x, num_px_y,3) donde 3 representa los valores RGB
image = np.array([[[ 0.67826139,  0.29380381],
        [ 0.90714982,  0.52835647],
        [ 0.4215251 ,  0.45017551]],

       [[ 0.92814219,  0.96677647],
        [ 0.85304703,  0.52351845],
        [ 0.19981397,  0.27417313]],

       [[ 0.60659855,  0.00533165],
        [ 0.10820313,  0.49978937],
        [ 0.34144279,  0.94630077]]])

print ("image2vector(image) = " + str(image2vector(image)))

**Salida esperada**: 


<table style="width:100%">
     <tr> 
       <td> **image2vector(image)** </td> 
       <td> [[ 0.67826139]
 [ 0.29380381]
 [ 0.90714982]
 [ 0.52835647]
 [ 0.4215251 ]
 [ 0.45017551]
 [ 0.92814219]
 [ 0.96677647]
 [ 0.85304703]
 [ 0.52351845]
 [ 0.19981397]
 [ 0.27417313]
 [ 0.60659855]
 [ 0.00533165]
 [ 0.10820313]
 [ 0.49978937]
 [ 0.34144279]
 [ 0.94630077]]</td> 
     </tr>
    
   
</table>

### 1.4 - Normalización de filas

Otra técnica muy utilizada en Machine Learning y Deep Learning es normalizar los datos. Usualmente lleva a una mejor desempeño porque el descenso en la dirección del gradiente converge más rápidamente tras la normalización. Por normalización nos referimos aquí a transformar x de acuerdo con la expresión $ \frac{x}{\| x\|} $ (dividiendo cada vector file de x por su norma).

Por ejemplo, si $$x = 
\begin{bmatrix}
    0 & 3 & 4 \\
    2 & 6 & 4 \\
\end{bmatrix}\tag{3}$$ entonces $$\| x\| = np.linalg.norm(x, axis = 1, keepdims = True) = \begin{bmatrix}
    5 \\
    \sqrt{56} \\
\end{bmatrix}\tag{4} $$ y        $$ x\_normalizado = \frac{x}{\| x\|} = \begin{bmatrix}
    0 & \frac{3}{5} & \frac{4}{5} \\
    \frac{2}{\sqrt{56}} & \frac{6}{\sqrt{56}} & \frac{4}{\sqrt{56}} \\
\end{bmatrix}\tag{5}$$ Nótese que se pueden dividir matrices de distinto tamaño y funciona sin problema: esto es llamado "broadcasting" y lo veremos más adelante.


**Ejercicio**: Implemente normalizeRows() para normalizar las filas de una matriz. Luego de aplicar esta función sobre una matriz x, cada fila de x debe ser una vector de longitud unitaria (longitud=1). 

In [None]:
# FUNCIÓN A CALIFICAR: normalizeRows

def normalizeRows(x):
    """
    Implemente una función que normalize cada fila de la matriz x (para que tenga longitud unitaria).
    Input:
    x: Un arreglo numpy con forma (n, m)
    Output:
    x: La matriz numpy normalizada por filas. 
    """
    
    ### EMPIEZE EL CÓDIGO AQUÍ ### (≈ 2 lineas de código)
    # Compute x_norm como la norma 2 de x. Use np.linalg.norm(..., ord = 2, axis = ..., keepdims = True)
    x_norm = 
    
    # Divida a x por su norma.
    x = 
    ### TERMINE EL CÓDIGO AQUÍ ###

    return x

In [None]:
x = np.array([
    [0, 3, 4],
    [1, 6, 4]])
print("normalizeRows(x) = " + str(normalizeRows(x)))

**Salida esperada**:

<table style="width:60%">

     <tr> 
       <td> **normalizeRows(x)** </td> 
       <td> [[ 0.          0.6         0.8       ]
 [ 0.13736056  0.82416338  0.54944226]]</td> 
     </tr>
    
   
</table>

**Nota**:
Al calcular x_norm, se obtiene la norma de cada fila de x. Luego, x_norm tiene el mismo número de filas que normalizeRows(x) pero sólo una columna. Al dividir x por x_norm, se está aplicando el "broadcasting", que veremos a continuación.  

### 1.5 - Broadcasting y la función softmax ####
Un concepto muy importante para entender numpy es el de "broadcasting". Es muy útil para implementar operaciones matemáticas entre areglos de distintos tamaños. Para mayores detalles se puede ver la documentación oficial [broadcasting](http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html).

**Ejercicio**: Implemente la función softmax utilizando numpy. Puede entender el softmax como una función de normalización utilizada cuando su algoritmo necesita clasificar dos o más clases. Aprenderá más sobre softmax en ejercicios posteriores.

**Instrucciones**:
- $ \text{Para } x \in \mathbb{R}^{1\times n} \text{,     } softmax(x) = softmax(\begin{bmatrix}
    x_1  &&
    x_2 &&
    ...  &&
    x_n  
\end{bmatrix}) = \begin{bmatrix}
     \frac{e^{x_1}}{\sum_{j}e^{x_j}}  &&
    \frac{e^{x_2}}{\sum_{j}e^{x_j}}  &&
    ...  &&
    \frac{e^{x_n}}{\sum_{j}e^{x_j}} 
\end{bmatrix} $ 



- $\text{Para una matriz } x \in \mathbb{R}^{m \times n} \text{,  $x_{ij}$ mapea el elemento en la $i-{ésima}$ fila y la  $j-{ésima}$ columna de $x$, por lo que se obtiene: }$  


$$softmax(x) = softmax\begin{bmatrix}
    x_{11} & x_{12} & x_{13} & \dots  & x_{1n} \\
    x_{21} & x_{22} & x_{23} & \dots  & x_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    x_{m1} & x_{m2} & x_{m3} & \dots  & x_{mn}
\end{bmatrix} = \begin{bmatrix}
    \frac{e^{x_{11}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{12}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{13}}}{\sum_{j}e^{x_{1j}}} & \dots  & \frac{e^{x_{1n}}}{\sum_{j}e^{x_{1j}}} \\
    \frac{e^{x_{21}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{22}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{23}}}{\sum_{j}e^{x_{2j}}} & \dots  & \frac{e^{x_{2n}}}{\sum_{j}e^{x_{2j}}} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    \frac{e^{x_{m1}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m2}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m3}}}{\sum_{j}e^{x_{mj}}} & \dots  & \frac{e^{x_{mn}}}{\sum_{j}e^{x_{mj}}}
\end{bmatrix} = \begin{pmatrix}
    softmax\text{(primera fila de x)}  \\
    softmax\text{(segunda fila de x)} \\
    ...  \\
    softmax\text{(última fila de x)} \\
\end{pmatrix} $$

In [None]:
# FUNCIÓN A CALIFICAR: softmax

def softmax(x):
    """
    Calcule el softmax para cada fila del input x.
    El código debe funcionar tanto para un vector fila como para matrices de tamaño (n, m).
    Input:
    x: un arreglo numpy con forma (n,m)
    Output:
    s: Una matriz numpy igual al softmax de x, de tamaño (n,m)
    """
    
    ### EMPIEZE EL CÓDIGO AQUÍ ### (≈ 3 lineas de código)
    # Utilize exp() sobre cada elemento de x. Use np.exp(...).
    x_exp = 

    # Defina el vector x_sum que sume cada fila de x_exp. Use np.sum(..., axis = 1, keepdims = True).
    x_sum = 
    
    # Compute softmax(x) dividiendo x_exp por x_sum. Debería usar automáticamente numpy broadcasting.
    s = 

    ### TERMINE EL CÓDIGO AQUÍ ###
    
    return s

In [None]:
x = np.array([
    [9, 2, 5, 0, 0],
    [7, 5, 0, 0 ,0]])
print("softmax(x) = " + str(softmax(x)))

**Salida esperada**:

<table style="width:60%">

     <tr> 
       <td> **softmax(x)** </td> 
       <td> [[  9.80897665e-01   8.94462891e-04   1.79657674e-02   1.21052389e-04
    1.21052389e-04]
 [  8.78679856e-01   1.18916387e-01   8.01252314e-04   8.01252314e-04
    8.01252314e-04]]</td> 
     </tr>
</table>


**Nota**:
- Si examina la forma de x_exp, de x_sum y de s, notará que x_sum es de tamaño (2,1) mientras que x_exp y s son de forma (2,5). **x_exp/x_sum** funciona gracias a python broadcasting.

Ahora tiene un conocimiento básico de python numpy y ha implementado algunas funciones útiles que se utilizan en deep learning.

## 2) Vectorización


En deep learning, se trabaja con grandes volumenes de datos. Por lo tanto, una función computacionalmente ineficiente puede convertirse en un gran cuello de botella de su algoritmo y el modelo puede tardar demasiado en correr. Para asegurarse que su código es computacionalmente eficiente, usaremos la vectorización. Por ejemplo, determine la diferencia entre las siguientes implementaciones del producto interno, externo entre matrices y la multiplicación por elementos.

In [None]:
import time

x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### IMPLEMENTACION CLASICA DEL PRODUCTO PUNTO ENTRE DOS VECTORES ###
tic = time.process_time()
dot = 0
for i in range(len(x1)):
    dot+= x1[i]*x2[i]
toc = time.process_time()
print ("interno = " + str(dot) + "\n ----- Tiempo computacional = " + str(1000*(toc - tic)) + "ms")

### IMPLEMENTACION CLÁSICA DEL PRODUCTO EXTERIOR ###
tic = time.process_time()
outer = np.zeros((len(x1),len(x2))) # matriz de ceros de tamaño len(x1)*len(x2)
for i in range(len(x1)):
    for j in range(len(x2)):
        outer[i,j] = x1[i]*x2[j]
toc = time.process_time()
print ("externo = " + str(outer) + "\n ----- Tiempo computacional = " + str(1000*(toc - tic)) + "ms")

### IMPLEMENTACION CLÁSICA POR ELEMENTOS ###
tic = time.process_time()
mul = np.zeros(len(x1))
for i in range(len(x1)):
    mul[i] = x1[i]*x2[i]
toc = time.process_time()
print ("multiplicación por elementos = " + str(mul) + "\n ----- Tiempo computacional = " + str(1000*(toc - tic)) + "ms")

### IMPLEMENTACION CLASICA GENERAL DEL PRODUCTO PUNTO ###
W = np.random.rand(3,len(x1)) # Arreglo numpy aleatorio de tamaño 3*len(x1) 
tic = time.process_time()
gdot = np.zeros(W.shape[0])
for i in range(W.shape[0]):
    for j in range(len(x1)):
        gdot[i] += W[i,j]*x1[j]
toc = time.process_time()
print ("g_interno = " + str(gdot) + "\n ----- Tiempo computacional = " + str(1000*(toc - tic)) + "ms")

interno = 278
 ----- Tiempo computacional = 0.0ms
externo = [[81. 18. 18. 81.  0. 81. 18. 45.  0.  0. 81. 18. 45.  0.  0.]
 [18.  4.  4. 18.  0. 18.  4. 10.  0.  0. 18.  4. 10.  0.  0.]
 [45. 10. 10. 45.  0. 45. 10. 25.  0.  0. 45. 10. 25.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [63. 14. 14. 63.  0. 63. 14. 35.  0.  0. 63. 14. 35.  0.  0.]
 [45. 10. 10. 45.  0. 45. 10. 25.  0.  0. 45. 10. 25.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [81. 18. 18. 81.  0. 81. 18. 45.  0.  0. 81. 18. 45.  0.  0.]
 [18.  4.  4. 18.  0. 18.  4. 10.  0.  0. 18.  4. 10.  0.  0.]
 [45. 10. 10. 45.  0. 45. 10. 25.  0.  0. 45. 10. 25.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0. 

In [None]:
x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### PRODUCTO INTERNO VECTORIZADO ###
tic = time.process_time()
dot = np.dot(x1,x2)
toc = time.process_time()
print ("interno = " + str(dot) + "\n ----- Tiempo computacional =  " + str(1000*(toc - tic)) + "ms")

### PRODUCTO EXTERNO VECTORIZADO ###
tic = time.process_time()
outer = np.outer(x1,x2)
toc = time.process_time()
print ("externo = " + str(outer) + "\n ----- Tiempo computacional =  " + str(1000*(toc - tic)) + "ms")

### MULTIPLICACION POR ELEMENTOS VECTORIZADA ###
tic = time.process_time()
mul = np.multiply(x1,x2)
toc = time.process_time()
print ("multiplicación por elementos = " + str(mul) + "\n ----- Tiempo computacional =  " + str(1000*(toc - tic)) + "ms")

### PRODUCTO INTERNO GENERAL VECTORIZADO ###
tic = time.process_time()
dot = np.dot(W,x1)
toc = time.process_time()
print ("g_interno = " + str(dot) + "\n ----- Tiempo computacional =  " + str(1000*(toc - tic)) + "ms")

interno = 278
 ----- Tiempo computacional =  0.0ms
externo = [[81 18 18 81  0 81 18 45  0  0 81 18 45  0  0]
 [18  4  4 18  0 18  4 10  0  0 18  4 10  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [63 14 14 63  0 63 14 35  0  0 63 14 35  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [81 18 18 81  0 81 18 45  0  0 81 18 45  0  0]
 [18  4  4 18  0 18  4 10  0  0 18  4 10  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]]
 ----- Tiempo computacional =  0.0ms
multiplicación por elementos = [81  4 10  0  0 63 10  0  0  0 81  4 25  0  0]
 ----- Tiempo computacional =  0.0ms
g_interno = [25.63776483 28.43932718 30.12329609]
 ----- Tiempo co

Como se puede ver, la implementación vectorizada es más limpia y eficiente. Para vectores/matrices más grandes, las diferencias en tiempo computacional serán mayores. 

**Nota:** 
`np.dot()` desarrolla una multiplicación de matriz-matriz o matriz-vector. Esto es distinto a `np.multiply()` y el operador `*`, que aplica una multiplicación por elementos.

### 2.1 Implementación de funciones de coste L1 y L2

**Ejercicio**: Implemente la versión numpy vectorizada de pérdida L1. Puede utilizar la función abs(x) (valor absoluto de x).

**Ayuda**:
- La pérdida o función de coste es utilizada para evaluar el desempeño del modelo. Entre más grande la pérdida, mayor será la diferencia entre las predicciones ($ \hat{y} $) y los valores observados ($y$). En deep learning, se utilizan algoritmos de optimización como Descenso en la dirección del gradiente (G.D.) para entrenar el modelo y minimizar la pérdida.
- La pérdida L1 se define como:
$$\begin{align*} & L_1(\hat{y}, y) = \sum_{i=0}^m|y^{(i)} - \hat{y}^{(i)}| \end{align*}\tag{6}$$

In [None]:
# FUNCIÓN A CALIFICAR: L1

def L1(yhat, y):
    """
    Input:
    yhat: vector de tamaño m (etiquetas estimadas)
    y: vector de tamaño m (etiquetas observadas)
    Output:
    loss: el valor de la pérdida L1 definida arriba
    """
    
    ### EMPIEZE EL CÓDIGO AQUÍ ### (≈ 1 linea de código)
    loss = 
    ### TERMINE EL CÓDIGO AQUÍ ###
    
    return loss

In [None]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L1 = " + str(L1(yhat,y)))

**Salida esperada**:

<table style="width:20%">

     <tr> 
       <td> **L1** </td> 
       <td> 1.1 </td> 
     </tr>
</table>


**Ejercicio**: Implemente la versión numpy vectorizada de pérdida L2. Hay varias maneras de implementarla, pero puede encontrar útil la función np.dot(). Como ayuda, si $x = [x_1, x_2, ..., x_n]$, entoncesn `np.dot(x,x)` = $\sum_{j=0}^n x_j^{2}$. 

- La pérdida L2 se define como $$\begin{align*} & L_2(\hat{y},y) = \sum_{i=0}^m(y^{(i)} - \hat{y}^{(i)})^2 \end{align*}\tag{7}$$

In [None]:
# FUNCIÓN A CALIFICAR: L2

def L2(yhat, y):
    """
    Input:
    yhat: vector de tamaño m (etiquetas estimadas)
    y: vector de tamaño m (etiquetas observadas)
    Output:
    loss: el valor de la pérdida L2 definida arriba
    """
    
    ### EMPIEZE EL CÓDIGO AQUÍ ### (≈ 1 linea de código)
    loss = 
    ### TERMINE EL CÓDIGO AQUÍ ###
    
    return loss

In [None]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L2 = " + str(L2(yhat,y)))

**Salida esperada**:
<table style="width:20%">
     <tr> 
       <td> **L2** </td> 
       <td> 0.43 </td> 
     </tr>
</table>