# NumPy

Numpy es el paquete para computación científica de Python, su principal ventaja es que permite realizar cómputos numéricos con datos vectoriales o matriciales en lugar de tener que implementar bucles lo que resulta en cálculos más rápidos y eficaces.

In [16]:
import numpy as np

# ejemplo de función exponencial
x = np.array([1, 2, 3])
print(np.exp(x)) # el resultado es (exp(1), exp(2), exp(3))

[ 2.71828183  7.3890561  20.08553692]


Si X es un vector, entonces una operación como $s = x + 3$ o $s = \frac{1}{x}$ producirá una salida s en formato de vector del mismo tamaño que x.

In [17]:
# Ejemplo de operación con vectores
x = np.array([1, 2, 3])
print (x + 3)

[4 5 6]


**Ejercicio**: Implementa la función sigmoide usando numpy. 

**Instrucciones**: x puede ser ahora un número real, un vector o una matriz. La estructura de datos usada en numpy para representar estos datos se llaman numpy arrays.
$$ \text{Para } x \in \mathbb{R}^n \text{,     } sigmoid(x) = sigmoid\begin{pmatrix}
    x_1  \\
    x_2  \\
    ...  \\
    x_n  \\
\end{pmatrix} = \begin{pmatrix}
    \frac{1}{1+e^{-x_1}}  \\
    \frac{1}{1+e^{-x_2}}  \\
    ...  \\
    \frac{1}{1+e^{-x_n}}  \\
\end{pmatrix}\tag{1} $$

In [18]:
import numpy as np

def sigmoid(x):
    """
    Calcular la función sigmoide de x

    Argumentos:
    x -- Un escalar o arreglo numérico de cualquier dimensión

    Devuelve:
    s -- sigmoid(x)
    """
    
    ### Escribir aquí el código ###
    s = 1/(np.exp(-x) + 1)
    ### Aquí termina el código ###
    
    return s

In [19]:
x = np.array([1, 2, 3])
sigmoid(x)

array([0.73105858, 0.88079708, 0.95257413])

**Salida esperada**: 
<table>
    <tr> 
        <td> **sigmoid([1,2,3])**</td> 
        <td> array([ 0.73105858,  0.88079708,  0.95257413]) </td> 
    </tr>
</table> 


### Gradiente de la función sigmoide

**Ejercicio**: Implementa la función sigmoid_grad() para calcular el gradiente de la función sigmoide con respecto a la entrada x. La fórmula es: $$sigmoid\_derivative(x) = \sigma'(x) = \sigma(x) (1 - \sigma(x))\tag{2}$$
Se puede implementar esta función en dos pasos:
1. Definir s como la función sigmoide de x, para lo cual se puede usar la función definida en el ejercicio anterior.
2. Calcular $\sigma'(x) = s(1-s)$

In [20]:
def sigmoid_derivative(x):
    """
    Calcula el gradiente de la función sigmoide con respecto a su entrada x.
    
    Argumentos:
    x -- Un escalar o arreglo numérico de cualquier dimensión

    Devuele:
    ds -- El gradiente calculado.
    """
    
    ### Escribir aquí el código ###
    s = sigmoid(x)
    ds = s*(1-s)
    ### Aquí termina el código ###
    
    return ds

In [21]:
x = np.array([1, 2, 3])
print ("sigmoid_derivative(x) = " + str(sigmoid_derivative(x)))

sigmoid_derivative(x) = [0.19661193 0.10499359 0.04517666]


**Salida Esperada**: 


<table>
    <tr> 
        <td> **sigmoid_derivative([1,2,3])**</td> 
        <td> [ 0.19661193  0.10499359  0.04517666] </td> 
    </tr>
</table> 



### Cambiar la forma de los arreglos ###

Dos funciones usadas comunmente en aprendizaje profundo son [np.shape](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.shape.html) y [np.reshape()](https://docs.scipy.org/doc/numpy/reference/generated/numpy.reshape.html). 
- X.shape se usa para obtener la forma (dimensiones y tamaño) de un arreglo X. 
- X.reshape(...) se usa para cambiar la forma (dimensiones y tamaño) de X.

Por ejemplo, una imágen se representa normalmente por un arreglo de 3 dimensiones $(ancho, alto, profundidad = 3)$. Sin embargo, cuando se lee una imágen como la entrada de un algoritmo, se convierte en un vector de la forma $(ancho*alto*3, 1)$. En otras palabras, se "desenrrolla" o cambia la forma del arreglo de 3 dimensiones en un vector (1 dimensión).

<img src="images/image2vector_kiank.png" style="width:500px;height:300;">

**Ejercicio**: Implementa `image2vector()` que toma una entrada de la forma (ancho, alto, 3) y regresa un vector de la forma (ancho\*alto\*3, 1).

In [22]:
def image2vector(image):
    """
    Argumentos:
    image -- un arreglo de numpy de la forma (ancho, alto, profundo)
    
    Regresa:
    v -- un vector de la forma (ancho*alto*profundo, 1)
    """
    ### Escribir aquí el código ###
    v = image.reshape(image.shape[0]*image.shape[1]*image.shape[2],1)
    ### Aquí termina el código ###
    
    return v

In [23]:
# Ejemplo de un arreglo de la forma (3, 3, 2)
image = np.array([[[ 0.67826139,  0.29380381],
        [ 0.90714982,  0.52835647],
        [ 0.4215251 ,  0.45017551]],

       [[ 0.92814219,  0.96677647],
        [ 0.85304703,  0.52351845],
        [ 0.19981397,  0.27417313]],

       [[ 0.60659855,  0.00533165],
        [ 0.10820313,  0.49978937],
        [ 0.34144279,  0.94630077]]])
print ("image2vector(image) = " + str(image2vector(image)))

image2vector(image) = [[0.67826139]
 [0.29380381]
 [0.90714982]
 [0.52835647]
 [0.4215251 ]
 [0.45017551]
 [0.92814219]
 [0.96677647]
 [0.85304703]
 [0.52351845]
 [0.19981397]
 [0.27417313]
 [0.60659855]
 [0.00533165]
 [0.10820313]
 [0.49978937]
 [0.34144279]
 [0.94630077]]


**Salida Esperada**: 


<table style="width:100%">
     <tr> 
       <td> **image2vector(image)** </td> 
       <td> [[ 0.67826139]
 [ 0.29380381]
 [ 0.90714982]
 [ 0.52835647]
 [ 0.4215251 ]
 [ 0.45017551]
 [ 0.92814219]
 [ 0.96677647]
 [ 0.85304703]
 [ 0.52351845]
 [ 0.19981397]
 [ 0.27417313]
 [ 0.60659855]
 [ 0.00533165]
 [ 0.10820313]
 [ 0.49978937]
 [ 0.34144279]
 [ 0.94630077]]</td> 
     </tr>
    
   
</table>

### Normalizar las filas

Otra técnica común usada en Machine Learning es normalizar los datos. Frecuentemente ayuda a un mejor desempeño ya que la técnica de descenso por gradiente converge más rápido después de la normalización. Normalizar significa cambiar x a $ \frac{x}{\| x\|} $ (dividiendo cada fila de la matriz por su norma).

Por ejemplo,si $$x = 
\begin{bmatrix}
    0 & 3 & 4 \\
    2 & 6 & 4 \\
\end{bmatrix}\tag{3}$$ entonces $$\| x\| = np.linalg.norm(x, axis = 1, keepdims = True) = \begin{bmatrix}
    5 \\
    \sqrt{56} \\
\end{bmatrix}\tag{4} $$y        $$ x\_normalizada = \frac{x}{\| x\|} = \begin{bmatrix}
    0 & \frac{3}{5} & \frac{4}{5} \\
    \frac{2}{\sqrt{56}} & \frac{6}{\sqrt{56}} & \frac{4}{\sqrt{56}} \\
\end{bmatrix}\tag{5}$$ Se puede notar que es posible dividir matrices de diferentes tamaños, esto se conoce en numpy como "broadcasting".


**Ejercicio**: Implementar normalizeRows() para normalizar las filas de una matriz. Después de aplicar esta función a una matriz x, cada fila de x debe ser un vector de longitud unitaria.

In [24]:
def normalizeRows(x):
    """
    Implementar una función que normaliza cada fila de la matriz x.
    
    Argumentos:
    x -- Una matriz de numpy de la forma (n, m)
    
    Returns:
    x -- The normalized (by row) numpy matrix. You are allowed to modify x.
    """
    ### Escribir aquí el código ###
    x_norm = np.linalg.norm(x,axis = 1,keepdims=True)
    x = x/x_norm
    ### Aquí termina el código ###

    return x

In [25]:
x = np.array([
    [0, 3, 4],
    [1, 6, 4]])
print("normalizeRows(x) = " + str(normalizeRows(x)))

normalizeRows(x) = [[0.         0.6        0.8       ]
 [0.13736056 0.82416338 0.54944226]]


**Expected Output**: 

<table style="width:60%">
     <tr> 
       <td> **normalizeRows(x)** </td> 
       <td> [[ 0.          0.6         0.8       ]
 [ 0.13736056  0.82416338  0.54944226]]</td> 
     </tr>
    
   
</table>

### Broadcasting y la función softmax ####
Un concepto importante es el de "Bradcasting" ya que es muy útil para realizar operaciones matemáticas entre arreglos de diferentes formas.(http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html).

**Ejercicio**: Implementar una función softmax como función normalizadora cuando el algoritmo necesita clasificar dos o más clases.

**Instructions**:
- $ \text{para } x \in \mathbb{R}^{1\times n} \text{,     } softmax(x) = softmax(\begin{bmatrix}
    x_1  &&
    x_2 &&
    ...  &&
    x_n  
\end{bmatrix}) = \begin{bmatrix}
     \frac{e^{x_1}}{\sum_{j}e^{x_j}}  &&
    \frac{e^{x_2}}{\sum_{j}e^{x_j}}  &&
    ...  &&
    \frac{e^{x_n}}{\sum_{j}e^{x_j}} 
\end{bmatrix} $ 

- para una matriz $x \in \mathbb{R}^{m \times n}$ donde, $x_{ij}$ se refiere al elemento en la fila $i^{th}$ y la columna $j^{th}$ de $x$, entonces tenemos:  
$$softmax(x) = softmax\begin{bmatrix}
    x_{11} & x_{12} & x_{13} & \dots  & x_{1n} \\
    x_{21} & x_{22} & x_{23} & \dots  & x_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    x_{m1} & x_{m2} & x_{m3} & \dots  & x_{mn}
\end{bmatrix} = \begin{bmatrix}
    \frac{e^{x_{11}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{12}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{13}}}{\sum_{j}e^{x_{1j}}} & \dots  & \frac{e^{x_{1n}}}{\sum_{j}e^{x_{1j}}} \\
    \frac{e^{x_{21}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{22}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{23}}}{\sum_{j}e^{x_{2j}}} & \dots  & \frac{e^{x_{2n}}}{\sum_{j}e^{x_{2j}}} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    \frac{e^{x_{m1}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m2}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m3}}}{\sum_{j}e^{x_{mj}}} & \dots  & \frac{e^{x_{mn}}}{\sum_{j}e^{x_{mj}}}
\end{bmatrix} = \begin{pmatrix}
    softmax\text{(primera fila de x)}  \\
    softmax\text{(segunda fila de x)} \\
    ...  \\
    softmax\text{(última fila de x)} \\
\end{pmatrix} $$

In [26]:

def softmax(x):
    """Calcula la función softmaz para cada fila de la entrada x.

    El código debe funcionar para un vector fila o también para matrices de la forma (m,n).

    Argumentos:
    x -- Una matriz Numpy de la forma (m,n)

    Retorna:
    s -- Una matriz de numpy igual a la función softmax de x, de la forma (m,n).
    """
    
    ### Escribir aquí el código ###
    # Aplicar exp() a cada elemento de x. Usar np.exp(...).
    x_exp = np.exp(x)

    # Crear un vector x_sum que sume cada fila de x_exp. Usar np.sum(..., axis = 1, keepdims = True).
    x_sum = np.sum(x_exp,axis=1,keepdims=True)
    
    # Calcular softmax(x) by dividiendo x_exp por x_sum.
    s = x_exp/x_sum
   ### Aquí termina el código ###
    
    return s

In [27]:
x = np.array([
    [9, 2, 5, 0, 0],
    [7, 5, 0, 0 ,0]])
print("softmax(x) = " + str(softmax(x)))

softmax(x) = [[9.80897665e-01 8.94462891e-04 1.79657674e-02 1.21052389e-04
  1.21052389e-04]
 [8.78679856e-01 1.18916387e-01 8.01252314e-04 8.01252314e-04
  8.01252314e-04]]


**Salida Esperada**:

<table style="width:60%">
     <tr> 
       <td> **softmax(x)** </td> 
       <td> [[  9.80897665e-01   8.94462891e-04   1.79657674e-02   1.21052389e-04
    1.21052389e-04]
 [  8.78679856e-01   1.18916387e-01   8.01252314e-04   8.01252314e-04
    8.01252314e-04]]</td> 
     </tr>
</table>


## Vectorización

En deep learning se trabaja con conjuntos de datos muy grandes, por lo que una función que no es óptima computacionalmente puede volverse un gran cuello de botella en el algoritmo y puede resultar en un modelo que tarda demasiado en correr. Para asegurarse de que el código es computacionalmente eficiente, es necesario usar la vectorización a lo largo de todos los ejemplos de entrenamiento.

### Implementar las funciones de costo L1 y L2.

**Ejercicio**: Implement the numpy vectorized version of the L1 loss. You may find the function abs(x) (absolute value of x) useful.

**Recordatorio**:
- el costo L1 está definido como:
$$\begin{align*} & L_1(\hat{y}, y) = \sum_{i=0}^m|y^{(i)} - \hat{y}^{(i)}| \end{align*}\tag{6}$$

In [19]:
# GRADED FUNCTION: L1
def L1(yhat, y):
    """
    Argumentos:
    yhat -- vector de tamaño m (predicción de etiquetas)
    y -- vector de tamaño m (etiquetas verdaderas)
    
    Regresa:
    costo -- El cotso L1
    """
    
    ### Escribir aquí el código ###
    loss = sum(abs(yhat - y))
    ### Aquí termina el código ###
    
    return loss

In [20]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L1 = " + str(L1(yhat,y)))

L1 = 1.1


**Expected Output**:

<table style="width:20%">
     <tr> 
       <td> **L1** </td> 
       <td> 1.1 </td> 
     </tr>
</table>


**Ejercicio**: Implementar la versión vectorizada de el costo L2. Puede resultar útil la función np.dot(). Como recordatorio, si $x = [x_1, x_2, ..., x_n]$, entonces `np.dot(x,x)` = $\sum_{j=0}^n x_j^{2}$. 

- el costo L2 está definido como $$\begin{align*} & L_2(\hat{y},y) = \sum_{i=0}^m(y^{(i)} - \hat{y}^{(i)})^2 \end{align*}\tag{7}$$

In [30]:
# GRADED FUNCTION: L2

def L2(yhat, y):
    """
    Arguments:
    yhat -- vector of size m (predicted labels)
    y -- vector of size m (true labels)
    
    Returns:
    loss -- the value of the L2 loss function defined above
    """
    
    ### Escribir aquí el código ###
    x = yhat - y
    loss = np.dot(x,x)
    ### Aquí termina el código ###
    
    return loss

In [31]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L2 = " + str(L2(yhat,y)))

L2 = 0.43


**Expected Output**: 
<table style="width:20%">
     <tr> 
       <td> **L2** </td> 
       <td> 0.43 </td> 
     </tr>
</table>