In [10]:
!pip install numpy



## 1 -Crear funciones usando Numpy ##

Numpy es un paquete de Python que cuenta con numerosas funciones que permiten realizar todo tipo de operaciones matemáticas. En esta sección vamos a programar la función de activación de tipo sigmoide. 

### 1.1 - Función sigmoide, np.exp() ###

Existen diferentes librerias que permiten realizar difrentes tipos de operaciones matemáticas, por ejemplo la librería math. Sin embargo, algunas funciones de este tipo de librerías

**Ejercicio**: Completa la código que permita obtener una función de Python que evalue la función sigmoide para cualquier número real.

**Nota*:
La función $sigmoid(x) = \frac{1}{1+e^{-x}}$ es una función que en ocasiones también se conoce como función logística. Es una función no lenear que se utiliza tanto en aprendizaje máquina como en aprendizaje profundo.

<img src="images/Sigmoid.png" style="width:500px;height:228px;">
**Opcional**
Puedes comparar el fucionamiento de la función usando la función de python math.log() en lugar de np.math. math.log() producirá un error en caso de recibir un variable o valor diferente a un número real, por ejemplo, un vector de números reales. 


In [2]:
# Función sigmoide


import numpy as np

def basic_sigmoid(x):
    """
    Calcula la función sigmoide.

    Argumentos:
    x -- escalar o vector de numpy. 

    Salida:
    s -- sigmoid(x)
    """
    
    ### ESCRIBE TU CÓDIGO AQUÍ ### (≈ 1 línea de código)
    s = 1/(1+np.exp(-x))
    ### FIN ###
    
    return s

**Salida esperada:**: 
<table>
    <tr> 
        <td> **sigmoid([1,2,3])**</td> 
        <td> array([ 0.73105858,  0.88079708,  0.95257413]) </td> 
    </tr>
</table> 
Si programaste correctamente la función debes de obtener este resultado cuando se evalua para x = 1, 2, 3.

In [3]:
x=np.array([1,2,3])
basic_sigmoid(x)

array([0.73105858, 0.88079708, 0.95257413])

### 1.2 - Función gradiente

Para poder optimizar la función es necesario calcular el gradiente de la función de activación. 

**Ejercicio**: Implementa la función sigmoid_grad() para calcular el gradiente de la función sigmoide con respecto a la variable x. La formula es  $$sigmoid\_derivative(x) = \sigma'(x) = \sigma(x) (1 - \sigma(x))\tag{2}$$
Esto se puede hacer en dos pasos:
1. Haz la función sigmoide igual a s.
2. Calcula $\sigma'(x) = s(1-s)$.
Comprueba analíticamente que la derivada es equivalente. Puedes verificar que tu función trabaje adecuadamente 

In [9]:
# Derivada de la función sigmoide

def sigmoid_derivative(x):
    """
    Calcula el gradiente de la función sigmoide con respecto a su entrada x.
    Puedes almacenar la salida de la función sigmoide en variables y luego usarla para calcular el gradiente.

    Argumentos:
    x -- Un escalar o un arreglo de numpy

    Salida:
    ds -- gradiente.
    """
    
    ### Escribe tu código aquí ### (≈ 2 lines of code)
    s = 1/(1+np.exp(-x))
    ds = s*(1-s)
    ### Fin ###
    
    return ds

In [10]:
x = np.array([1, 2, 3])
print (f"sigmoid_derivative(x) = {sigmoid_derivative(x)}")

sigmoid_derivative(x) = [0.19661193 0.10499359 0.04517666]


**Salida esperada**: 


<table>
    <tr> 
        <td> **sigmoid_derivative([1,2,3])**</td> 
        <td> [ 0.19661193  0.10499359  0.04517666] </td> 
    </tr>
</table> 

### 1.3 - Cambio de dimensiones ###

Dos funciones comunmente usadas en aprendizaje profundo son  [np.shape](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.shape.html) y [np.reshape()](https://docs.scipy.org/doc/numpy/reference/generated/numpy.reshape.html).
- X.shape es usado para obtener las dimensiones de una matriz o vector.
- X.reshape() se usa para cambiar las dimensiones. 


Por ejemplo, una imagen se representa por un arreglo tridimensional de dimensiones iguales a $(longitudm alto, profundidad = 3)$. Sin embargo, cuando se lee una imagen como la entrada de un algoritmo se convierte a un vector de dimensiones $(length*height*3, 1)$. En otras palabras, se convierte un tensor tridimensiones en un vector unidimensional.

<img src="images/image2vector_kiank.png" style="width:500px;height:300;">

**Ejercicio**: Implementa la función `image2vector()` que toma una variable de entrada con dimensiones (largo, alto, 3) y regresa un vector con dimensiones (largo\*alto\*3, 1). Por ejemplo, si quieres redimensionar el arreglo v con dimensiones (a, b, c) en un vector de dimensiones (a*b, c) harías lo siguiente:
``` python
v = v.reshape((v.shape[0]*v.shape[1], v.shape[2])) # v.shape[0] = a ; v.shape[1] = b ; v.shape[2] = c
```
- No se recomienda insertar los valores de las dimensiones directamente, ya que esto hace que tu código pierda generalidad y falle en caso de que las dimensiones cambien incluso solo por un dígito. 

In [11]:

def image2vector(image):
    """
    Argumentos:
    imagen -- un arreglo de numpy con dimensiones (largo, alto, profundidad)
    
    Salida:
    v -- Un vector con dimensiones (largo*alto*profundidad, 1)
    """
    
    ### Escribe tu código aquí ### (≈ 1 linea de código)
    
    v = image.reshape((image.shape[0]*image.shape[1]*image.shape[2]),1)
    ### Fin ###
    
    return v

In [12]:
# Este es un arreglo de 3x3x2, típicamente las imágnees tendrán dimensiones de (num_px_x, num_px_y,3) donde 3 representa los valores de (rojo, verde y azúl). 

image = np.array([[[ 0.67826139,  0.29380381],
        [ 0.90714982,  0.52835647],
        [ 0.4215251 ,  0.45017551]],

       [[ 0.92814219,  0.96677647],
        [ 0.85304703,  0.52351845],
        [ 0.19981397,  0.27417313]],

       [[ 0.60659855,  0.00533165],
        [ 0.10820313,  0.49978937],
        [ 0.34144279,  0.94630077]]])
print(image.shape)
vv=image2vector(image)
print(vv.shape)
print ("image2vector(image) = " + str(image2vector(image)))

(3, 3, 2)
(18, 1)
image2vector(image) = [[0.67826139]
 [0.29380381]
 [0.90714982]
 [0.52835647]
 [0.4215251 ]
 [0.45017551]
 [0.92814219]
 [0.96677647]
 [0.85304703]
 [0.52351845]
 [0.19981397]
 [0.27417313]
 [0.60659855]
 [0.00533165]
 [0.10820313]
 [0.49978937]
 [0.34144279]
 [0.94630077]]


**Salida esperada**: 


<table style="width:100%">
     <tr> 
       <td> **image2vector(image)** </td> 
       <td> [[ 0.67826139]
 [ 0.29380381]
 [ 0.90714982]
 [ 0.52835647]
 [ 0.4215251 ]
 [ 0.45017551]
 [ 0.92814219]
 [ 0.96677647]
 [ 0.85304703]
 [ 0.52351845]
 [ 0.19981397]
 [ 0.27417313]
 [ 0.60659855]
 [ 0.00533165]
 [ 0.10820313]
 [ 0.49978937]
 [ 0.34144279]
 [ 0.94630077]]</td> 
     </tr>
    
   
</table>

### 1.4 - Normalización de columnas

Otra técnica común en aprendizaje máquina y aprendizaje profundo es la normalización de los datos. Esto permite mejorar el desempeño del gradiente y hacer que converga más rápidamente. En este caso, vamos a dividir cada vector c por su norma $ \frac{x}{\| x\|} $.


Por ejemplo, si $$x = 
\begin{bmatrix}
    0 & 3 & 4 \\
    2 & 6 & 4 \\
\end{bmatrix}\tag{3}$$ entonces $$\| x\| = np.linalg.norm(x, axis = 1, keepdims = True) = \begin{bmatrix}
    5 \\
    \sqrt{56} \\
\end{bmatrix}\tag{4} $$y        $$ x\_normalized = \frac{x}{\| x\|} = \begin{bmatrix}
    0 & \frac{3}{5} & \frac{4}{5} \\
    \frac{2}{\sqrt{56}} & \frac{6}{\sqrt{56}} & \frac{4}{\sqrt{56}} \\
\end{bmatrix}\tag{5}$$ **Nota.** Date cuenta que es posible dividir matrizes de diferente tamaño, esto recibe el nombre de broadcasting. 



**Ejercicio**: Implementa la función normalizeRows() para normalizar los renglones de una matriz. Después de esto cada renglón debería de representar un vector con longitud unitaria. 

In [16]:
def normalizeRows(x):
    """
    Implementa una función que normalice cada renglón de la matriz x. 
    
    Argumento:
    x -- Matriz de numpy con dimensiones (n, m)
    
    Salida:
    x -- La matriz de numpy normalizada (por renglón).
    """
    
    ### Escribe tu código ### (≈ 2 líneas de código)
    # Calcula la norma 2 de x usa np.linalg.norm(..., ord = 2, axis = ..., keepdims = True)
    x_norm = np.linalg.norm(x, ord = 2, axis = 1, keepdims = True)
    
    # Divide x por su norma
    x = x/x_norm
    ### Fin ###

    return x

In [19]:
x = np.array([
    [0, 3, 4],
    [2, 6, 4]])
print(f"normalizeRows(x) = {normalizeRows(x)}")

normalizeRows(x) = [[0.         0.6        0.8       ]
 [0.26726124 0.80178373 0.53452248]]


**Salida esperada**: 
 
<table style="width:100%">
     <tr> 
       <td> **normalizeRows(x)** </td> 
       <td> [[ 0.          0.6         0.8       ]</td>
       <td>[ 0.26726124 0.80178373 0.53452248]]</td> 
     </tr>
</table>

### 1.5 - Broadcasting y la función softmax####
Una característica muy 'útil' de Python es el concepto de Broadcasting que permite operar arreglos con dimensiones diferentes. La documentación sobre esta característica de Python la puedes encontrar aquí [broadcasting documentation](http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html).

**Exercise**: Implementa la función softmax usando numpy. La función softmax es una función de normalización que se usa cuando el algoritmo requiere de clasificar dos o más clases. 

**Instrucciones**:
- $ \text{Para } x \in \mathbb{R}^{1\times n} \text{,     } softmax(x) = softmax(\begin{bmatrix}
    x_1  &&
    x_2 &&
    ...  &&
    x_n  
\end{bmatrix}) = \begin{bmatrix}
     \frac{e^{x_1}}{\sum_{j}e^{x_j}}  &&
    \frac{e^{x_2}}{\sum_{j}e^{x_j}}  &&
    ...  &&
    \frac{e^{x_n}}{\sum_{j}e^{x_j}} 
\end{bmatrix} $ 

- $\text{Para una matriz } x \in \mathbb{R}^{m \times n} \text{,  $x_{ij}$ mapea cada elemento del renlón y columna (i,j) de la siguiente forma}$  $$softmax(x) = softmax\begin{bmatrix}
    x_{11} & x_{12} & x_{13} & \dots  & x_{1n} \\
    x_{21} & x_{22} & x_{23} & \dots  & x_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    x_{m1} & x_{m2} & x_{m3} & \dots  & x_{mn}
\end{bmatrix} = \begin{bmatrix}
    \frac{e^{x_{11}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{12}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{13}}}{\sum_{j}e^{x_{1j}}} & \dots  & \frac{e^{x_{1n}}}{\sum_{j}e^{x_{1j}}} \\
    \frac{e^{x_{21}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{22}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{23}}}{\sum_{j}e^{x_{2j}}} & \dots  & \frac{e^{x_{2n}}}{\sum_{j}e^{x_{2j}}} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    \frac{e^{x_{m1}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m2}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m3}}}{\sum_{j}e^{x_{mj}}} & \dots  & \frac{e^{x_{mn}}}{\sum_{j}e^{x_{mj}}}
\end{bmatrix} = \begin{pmatrix}
    softmax\text{(Primer renglón de x)}  \\
    softmax\text{(Segundo renglón de x)} \\
    ...  \\
    softmax\text{(último renglón de x)} \\
\end{pmatrix} $$

In [20]:
def softmax(x):
    """Calcula la función softmax para cada renglón de la matriz de entrada m.
    
    El código debe de poder operar matrices y vectores renglón. 
    Argumento:
    x -- Matriz de (m,n)

    Salida:
    s -- Una matriz de numpy con el función softmax de dimensiones (m,n)
    """
    
    ### Escribe tu código aquí ### (≈ 3 líneas de código)
    # Aplica el exponencial a cada elemento.
    x_exp = np.exp(x)

    # Crea un vector x_sum que sume todos los renglones de x_exp. Usa np.sum(..., axis = 1, keepdims = True).
    x_sum = np.sum(x_exp, axis = 1, keepdims = True)
    
    # Calcula la función softmax(x) dividiendo x_exp entre x_sum.
    s = x_exp/x_sum
    ### Fin ###
    
    return s

In [22]:
x = np.array([
    [9, 2, 5, 0, 0],
    [7, 5, 0, 0 ,0]])
print(f"softmax(x) = {softmax(x)}")

softmax(x) = [[9.80897665e-01 8.94462891e-04 1.79657674e-02 1.21052389e-04
  1.21052389e-04]
 [8.78679856e-01 1.18916387e-01 8.01252314e-04 8.01252314e-04
  8.01252314e-04]]


**Salida**:

<table style="width:100%">
     <tr> 
       <td> **softmax(x)** </td> 
       <td> [[  9.80897665e-01   8.94462891e-04   1.79657674e-02   1.21052389e-04
    1.21052389e-04]
 [  8.78679856e-01   1.18916387e-01   8.01252314e-04   8.01252314e-04
    8.01252314e-04]]</td> 
     </tr>
</table>

## 2) Vectorización

En los modelos de aprendizaje profundo comunmente se trabaja con matrices de múltiples dimensiones con un gran número de elementos cada una, por lo que es necesario hacer el código lo más eficientemente posible. Para demostrar los problemas más comunes analiza los siguientes ejemplos de implementación.

In [30]:
import time

x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### Implementación clásica del producto de dos vectores ###
tic = time.process_time()
dot = 0
for i in range(len(x1)):
    dot+= x1[i]*x2[i]
toc = time.process_time()
print ("Producto punto = " + str(dot) + "\n ----- Tiempo de computo = " + str(1000*(toc - tic)) + "ms")

### Implementación clásica del producto externo ###
tic = time.process_time()
outer = np.zeros((len(x1),len(x2))) # Se crea una matriz de ceros de dimensión len(x1)*len(x2)
for i in range(len(x1)):
    for j in range(len(x2)):
        outer[i,j] = x1[i]*x2[j]
toc = time.process_time()
print ("Producto externo = " + str(outer) + "\n ----- Tiempo de cómputo = " + str(1000*(toc - tic)) + "ms")

### Implementación clásica de elemento a elemento ###
tic = time.process_time()
mul = np.zeros(len(x1))
for i in range(len(x1)):
    mul[i] = x1[i]*x2[i]
toc = time.process_time()
print ("Multiplicación elemento a elemento = " + str(mul) + "\n ----- Tiempo de cómputo = " + str(1000*(toc - tic)) + "ms")

### Implementación clásica general ###
W = np.random.rand(3,len(x1)) # Arreglo aleatorio de 3*len(x1)
tic = time.process_time()
gdot = np.zeros(W.shape[0])
for i in range(W.shape[0]):
    for j in range(len(x1)):
        gdot[i] += W[i,j]*x1[j]
toc = time.process_time()
print ("Producto punto generalizado = " + str(gdot) + "\n ----- Tiempo de cómputo = " + str(1000*(toc - tic)) + "ms")

Producto punto = 278
 ----- Tiempo de computo = 0.21899999999952513ms
Producto externo = [[81. 18. 18. 81.  0. 81. 18. 45.  0.  0. 81. 18. 45.  0.  0.]
 [18.  4.  4. 18.  0. 18.  4. 10.  0.  0. 18.  4. 10.  0.  0.]
 [45. 10. 10. 45.  0. 45. 10. 25.  0.  0. 45. 10. 25.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [63. 14. 14. 63.  0. 63. 14. 35.  0.  0. 63. 14. 35.  0.  0.]
 [45. 10. 10. 45.  0. 45. 10. 25.  0.  0. 45. 10. 25.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [81. 18. 18. 81.  0. 81. 18. 45.  0.  0. 81. 18. 45.  0.  0.]
 [18.  4.  4. 18.  0. 18.  4. 10.  0.  0. 18.  4. 10.  0.  0.]
 [45. 10. 10. 45.  0. 45. 10. 25.  0.  0. 45. 10. 25.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.  0.

In [29]:
x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### Producto punto de vectores ###
tic = time.process_time()
dot = np.dot(x1,x2)
toc = time.process_time()
print ("Producto punto = " + str(dot) + "\n ----- Tiempo de cómputo = " + str(1000*(toc - tic)) + "ms")

### Producto externo de vectores ###
tic = time.process_time()
outer = np.outer(x1,x2)
toc = time.process_time()
print ("Producto externo = " + str(outer) + "\n ----- Tiempo de cómputo = " + str(1000*(toc - tic)) + "ms")

### Multiplicación punto a punto ###
tic = time.process_time()
mul = np.multiply(x1,x2)
toc = time.process_time()
print ("Multiplicación punto a punto = " + str(mul) + "\n ----- Tiempo de cómputo = " + str(1000*(toc - tic)) + "ms")

### Producto putno generalizado ###
tic = time.process_time()
dot = np.dot(W,x1)
toc = time.process_time()
print ("Producto punto generalizado = " + str(dot) + "\n ----- Tiempo de cómputo = " + str(1000*(toc - tic)) + "ms")

dot = 278
 ----- Tiempo de cómputo = 0.21399999999971442ms
outer = [[81 18 18 81  0 81 18 45  0  0 81 18 45  0  0]
 [18  4  4 18  0 18  4 10  0  0 18  4 10  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [63 14 14 63  0 63 14 35  0  0 63 14 35  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [81 18 18 81  0 81 18 45  0  0 81 18 45  0  0]
 [18  4  4 18  0 18  4 10  0  0 18  4 10  0  0]
 [45 10 10 45  0 45 10 25  0  0 45 10 25  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]]
 ----- Tiempo de cómputo = 0.3010000000003288ms
elementwise multiplication = [81  4 10  0  0 63 10  0  0  0 81  4 25  0  0]
 ----- Tiempo de cómputo = 0.09700000000023579ms
gdot = [21.82593447 10.77934902 24.0671

### 2.1 Implementación de las funciones de pérdida L1 y L2

**Ejercicio**: Implementació de la función vectorizada de pérdida L1.

**Recuerda**:
- La función de pérdida se usa para evaluar el desempeño de tu modelo, entre mayor sea la pérdida, peor será el desempeño de las predicciones del model ($ \hat{y} $) con resecto a lo valores reales ($y$). En aprendizaje profundo se utilizan algoritmos de optimización con el decenso por gradiente para entrenar el modelo y minimizar el costo. 
- La función de pérdida L1 se define como :
$$\begin{align*} & L_1(\hat{y}, y) = \sum_{i=0}^m|y^{(i)} - \hat{y}^{(i)}| \end{align*}\tag{6}$$

In [31]:
def L1(yhat, y):
    """
    Argumentos:
    yhat -- vector de tamaño m (predicted labels)
    y -- vector de tamaño m (true labels)
    
    Salida:
    loss -- El valor de la función de pérdida como se definió arriba
    """
    
    ### Escribe tu código aquí ### (≈ 1 línea de código)
    loss = np.sum(np.abs(yhat-y))
    ### Fin ###
    
    return loss

In [32]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L1 = " + str(L1(yhat,y)))

L1 = 1.1


**Salida esperada**:

<table style="width:20%">
     <tr> 
       <td> **L1** </td> 
       <td> 1.1 </td> 
     </tr>
</table>

**Ejercicio**: Implementa la versión vectorizada con *numpy* de la pérdida L2. Hay varias formas de implementar la pérdida L2, la forma más simple es mediante la función de numpy `np.dot()`. Recuerda, si $x = [x_1, x_2, ..., x_n]$, entonces `np.dot(x,x)` = $\sum_{j=0}^n x_j^{2}$.

- La pérdida L2 se define como:  
$$\begin{align*} & L_2(\hat{y},y) = \sum_{i=0}^m(y^{(i)} - \hat{y}^{(i)})^2 \end{align*}\tag{7}$$


In [42]:
def L2(yhat, y):
    """
    Argumentos:
    yhat -- vector de tamaño m (etiquetas predichas por el modelo)
    y -- vector de tamaño m (etiquetas verdaderas)
    
    Salida:
    loss -- El valor de la función de pérdida L2
    """
    
    ### Escribe tu código aquí ### (≈ 1 línea de código)
    loss = np.sum(np.dot(yhat-y,yhat-y))
    ### Fin ###
    
    return loss

In [43]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print(f"L2 = {L2(yhat,y)}")

L2 = 0.43


**Salida esperada**: 
<table style="width:20%">
     <tr> 
       <td> **L2** </td> 
       <td> 0.43 </td> 
     </tr>
</table>