# Introducción

¿Qué es más fácil para ustedes?
¿Contar cuántas personas hay en una foto, o realizar la operación mostrada?

¿Cuál acción es más fácil para una computadora?

A | B
- | - 
![¿Cuántas personas hay en la foto?](images/count-people.PNG) | ![¿Cuál es el resultado de la operación](images/add-numbers.PNG)

Las redes neuronales son una implementación computacional que buscan replicar el comportamiento de nuestro cerebro para poder reconocer patrones. 

El cerebro está compuesto por aproximadamente 10 mil millones de neuronas interconectadas entre si. 

Cada neurona está compuesta por tres partes principales:
* El cuerpo de la célula neuronal (soma)
* Conexiones de entrada (dendritas)
* Conexiones de salida (axones)

![neurona](images/neurona.PNG)

Las neuronas se comunican entre sí enviándo pulsos electroquímicos que afectan la esctructura de cada célula.

Los impulsos electroquímicos que las neuronas reciben en las dendritas pueden ser transmitidos a otras neuronas siempre y cuando el estímulo eléctrico sobrepase cierto umbral. 

El aprendizaje se da cuando se activan repetidamente ciertas neuronas, favoreciendo ciertas conexiones sobre otras. 

Aunque este modelo es muy simple para definir el comportamiento actual del cerebro humano, ha permitido que las computadoras puedan realizar tareas pudieran parecer simples como el reconocimiento de imágenes o predicción de eventos basada en la experiencia.

## Reconocer dígitos

Por ejemplo, en la sigiente imagen fácilmente podemos reconocer que el número escrito es 504192.
![504192](images/504192.png)

Nosotros nos fijamos en las formas, trazos y direcciones para reconocer los dígitos, pero una computadora sólo sabe intepretar la información como una secuencia de números y no patrones. 

Entonces, para que una computadora aprenda a distinguir esta secuencia de números, por ejemplo, hay que 'enseñarle' con varios ejemplos cada uno de los números.

Observa las siguientes imágenes. ¿Crees que sería fácil para una computadora distinguir entre las dos entidades?

¿Puedes clasificar correctamente cada imagen?

A | B 
- | - 
![perros](images/sheepdog-or-mop.jpg) | ![chichuahua](images/dog-or-bagel.jpg) 
![chichuahua](images/owl-apple.jpg)   | 





## ¿Qué tareas puedo hacer con una red neuronal?

Si contamos con suficientes datos, una red neuronal artificial puede ayudarnos a:
* Identificar correos no deseados (spam).
* Predecir si un cliente puede ser fraudulento o no.
* Detectar la opinion de los clientes (positiva, negativa, neutra).
* Identificar y reconocer los rostros de las personas.
* Identificar objetos.
* Reconocer voz (voz a texto).

# Inteligencia Artificial contra el ser humano
![leesedol](images/leesedol.PNG)
[AlphaGo vs Lee Sedol](https://www.youtube.com/watch?v=IiWr6Wazm_0)


¿Cuántas combinaciones posibles hay para armar el cubo rubik estándar (3x3)?

![Rubik's combination count](images/rubiks-combi.PNG)

<img src="images/rubikai.jpg" alt="Drawing" style="width: 600px;"/>

[Robot arma cubo de rubik en menos de 1 segundo](https://www.youtube.com/watch?v=by1yz7Toick)

# ¿Qué es el Deep Learning? ¿Cuál es la diferencia con A.I. y M.L.?


<img src="images/ai-vs-ml.png" alt="Drawing" style="width: 860px;"/>

[LINK: Diferencias entre AI,ML y DL](https://www.youtube.com/watch?v=KytW151dpqU)

# ¿Por qué ahora?

Las redes neuronales se han utilizado desde los años 50's, pero hay 3 factores principales que han influenciado en el crecimiento de las NN y DL.

1. Big Data
    * Grandes cantidades de información
    * Recolección y almacenamiento.
   

2. Hardware
    * Unides gráficas (GPU)
    * Paralelización


3. Algoritmos
    * Mejores técnicas
    * Nuevos modelos
    * Toolbox y librerías

<img align="left" src="images/timeline.png" width = 250>

<img align="right" src="images/performances_vs_data.png" alt="Drawing" style="width: 600px;"/>



[Todos podemos aprender ML](https://www.youtube.com/watch?v=7ClLKBUvmRk4)

# Red neuronal básica: perceptrón

El modelo más simple de red neuronal consiste en tener una sola neurona. Este modelo se llama perceptrón y fue desarrollado por Frank Rosenblatt durante los 50's.

El perceptrón toma como entrada varias señales (números), las procesa (operaciones matemáticas) y genera una salida (un número).

<img src="images/input-outputs.png" alt="Drawing" style="width: 400px;"/>


La neurona procesa las entradas de la siguiente manera:
1. Cada entrada es multiplicada por un peso:

$$x_1 \rightarrow x_1 * w_1$$

$$x_2 \rightarrow x_2 * w_2$$

2. Después, las entradas modificadas se suman y se agrega un término extra.

$$z = (x_1 * w_1) + (x_2 * w_2) + b$$

3. Finalmente, la suma se debe pasar a través de una función.

$$a = f(z) = f(x_1 * w_1 + x_2 * w_2 + b)$$

El perceptrón de Rosenblatt produce una salida entre `0` y `1`. Si la salida es 0, la neurona está inactiva, si el valor es 1, está completamente activa. 

La función que utiliza la neurona debe convertir cualquier valor posible al intervalo entre 0 y 1. Esta función se llama **función de activación**.

Si el valor resultante de la suma $z$ es positivo, la neurona estará en un estado activo.

Si el valor resultante de la suma $z$ es negativo, la neurona estará desactivada.

En esencia, el perceptrón comprime un valor entre $-\infty$ y $\infty$ a uno de los valores $0$ y $1$

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

def step(z):
    f = 1*(z>=0)
    return f
    
x = np.arange(-10,10,0.1)
y = step(x)

plt.figure(figsize=(8,6))
plt.plot(x,y)
plt.xlabel('x')
plt.ylabel('y')
plt.title('Función escalón', size=14)
plt.show()

Ejemplo:

$w_1 = 3$

$w_2 = -1$

$x_1 = 3$

$x_2 = 2$

$b = -2$

$z = x_1 * w_1 + x_2 * x_2 + b$

$z = 3*3 + 2*(-1) + (-2)$

$z = 9 -2 -2$

$z = 5$

In [None]:
step(5)

$f(z) = f(x_1 * w_1 + x_2 * x_2 + b) = f(5)$

$f(z) = 1$

# Repaso de algebra lineal y cálculo

## Definiciones

Para calcular $z$ tenemos que calcular la multiplicación de cada una de las variables de entrada por su respectivo peso. 

Estas operaciones se pueden simplificar si utilizamos la notación de matrices y vectores.

* Un escalar es un número, por ejemplo:   5


* Un vector es un arreglo de **1 dimensión** de $n$ elementos. Por ejemplo, un vector de $n=4$ elementos: 
    
    $\begin{bmatrix} 1&2&3&4 \end{bmatrix}$ 
    
    Este es un vector fila (horizontal).
    

* Un vector columna es vertical:
    
    $\begin{bmatrix} 5 \\ 6 \\ 7 \\ 8 \end{bmatrix}$


* Una matriz es un arreglo de **2 dimensiones** de $m$ filas por $n$ columnas. Por ejemplo:
    
    $\begin{bmatrix} 1&2&3 \\ 4&5&6 \\ 7&8&9 \end{bmatrix}$

Las matrices y los vectores se pueden sumar y restar siempre que **tengan las mismas dimensiones**. La suma y la resta se realiza elemento a elemento.

Por ejemplo, el vector fila de arriba tiene dimensiones $1\times 4$ porque tiene una fila y 4 columnas.

El vector columna de arriba es de dimensión $4\times 1$ por que tienen 4 filas (o renglones) y 1 columna.

¿Qué dimensiones tiene la matriz?

### Ejercicio 1
(a) $\begin{bmatrix} 1&2&3&4 \end{bmatrix}$

(b) $\begin{bmatrix} 9&10&11 \end{bmatrix}$

(c) $\begin{bmatrix} 2\\ 4\\ 6\\ 8 \end{bmatrix}$

(d) $\begin{bmatrix} 1&2&3&4 \\ 5&6&7&8 \\ 9&10&11&12 \end{bmatrix}$

(e) $\begin{bmatrix} 1\\ 3\\ 5\\ 7 \end{bmatrix}$

(f) $\begin{bmatrix} 1&0&0&1\end{bmatrix}$

(g) $\begin{bmatrix} 20&18\\ 16&14\\ 12&10 \\ 8&6 \end{bmatrix}$

(h) $\begin{bmatrix} 1&0&1&0 \\ 0&1&0&1 \\ 1&0&1&0 \end{bmatrix}$

¿Cuáles operaciones se pueden realizar? Si es posible realizar la operación , ¿cuál es el resultado?

1. (a) + (b)
2. (a) - (e)
3. (a) + (f)
4. (b) + (f)
5. (c) - (e)
6. (d) + (g)
7. (g) + (h)
8. (h) + (f)
9. (d) - (h)
10. (e) + (f)


## Transpuesta
Hay una operación para voltear las dimensiones de un vector o una matriz, es decir, cambiar las filas por las columnas o viceversa. Esta operación se llama **transpuesta** de un vector o una matriz.

Ejemplo:

$ (d)^T = \begin{bmatrix} 1&2&3&4 \\ 5&6&7&8 \\ 9&10&11&12 \end{bmatrix}^T = \begin{bmatrix} 1&5&9 \\ 2&6&10 \\ 3&7&11 \\ 4&8&12 \end{bmatrix}$

De las operaciones anteriores, ¿cuáles si se podrían realizar si se transpone uno de los elementos de la operación?

1. (a) + (b)
2. (a) - (e)
3. (a) + (f)
4. (b) + (f)
5. (c) - (e)
6. (d) + (g)
7. (g) + (h)
8. (h) + (f)
9. (d) - (h)
10. (e) + (f)

## Multiplicación de vectores y matrices

Los vectores y matrices no se multiplican como los números (escalares). Dos vectores se pueden multiplicar siempre y cuando tengan el mismo número de elementos. La esta multiplicación se llama **producto punto** o **producto escalar**.

Ejemplo:


(a)$\cdot$(f) = $\begin{bmatrix} 1&2&3&4 \end{bmatrix} \cdot \begin{bmatrix} 1&0&0&1\end{bmatrix}$


(a)$\cdot$(f) = $ 1\times 1 + 2\times 0 +  3\times 0 + 4\times 1$


(a)$\cdot$(f) = $ 1 + 0 + 0 + 4 = 5$

El resultado del producto punto siempre es un escalar.

Para crear un vector en Python utilizamos la librería `numpy`. Para crear vectores se utiliza `np.array` y para multiplicar vectores utilizamos `np.dot`.

In [None]:
a = np.array([1,2,3,4])
f = np.array([1,0,0,1])

print('a=',a)
print('f=',f)
print('El producto punto de a y f es:', np.dot(a,f))

Para crear una matriz en python, hay que pasar renglón por renglón a la función `np.array`

In [None]:
d = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
d

Para python, los vectores no son ni filas ni columnas. Para poder decirle a python que queremos tratar a los vectores como filas y columnas, hay que tratarlos como matrices de $m \times 1$ o $1\times n$, respectivamente.

In [None]:
a = np.array([[1,2,3,4]])
c = np.array([[2],[4],[6],[8]])

print('a es un vector fila:\n', a, '\n')
print('c es un vector columna:\n', c)

Para multiplicar matrices hay que hacer unas cuantas operaciones más. Para poder hacer una multiplicación con matrices, el número de columnas del primer elemento debe ser igual al número de filas del segundo elemento.

Ejemplo:

$\begin{bmatrix} 1&2&3&4 \\ 5&6&7&8 \\ 9&10&11&12 \end{bmatrix} \times \begin{bmatrix} 1 \\ 0 \\ 1 \\ 0\end{bmatrix}$ 

La primer matriz tiene **3** renglones y **4** columnas, y el segundo vector tiene **4** renglones y **1** columna. Como el número de columnas del primer elemento coincide con el número de renglones en el segundo elemento, la multiplicación se puede hacer.

La multiplicación de matrices es hacer un **producto punto** de cada renglón del primer elemento con cada columna del segundo elemento.

$\begin{bmatrix} 1&2&3&4 \\ 5&6&7&8 \\ 9&10&11&12 \end{bmatrix} \times \begin{bmatrix} 1 \\ 0 \\ 0 \\ 1\end{bmatrix} = 
    \begin{bmatrix} [1\quad2\quad3\quad4] \cdot [1\quad0\quad0\quad1] \\ [5\quad6\quad7\quad8] \cdot [1\quad0\quad1\quad1] \\ [9\quad10\quad11\quad12] \cdot [1\quad0\quad0\quad1] \end{bmatrix} 
$ 

$\begin{bmatrix} 1&2&3&4 \\ 5&6&7&8 \\ 9&10&11&12 \end{bmatrix} \times \begin{bmatrix} 1 \\ 0 \\ 0 \\ 1\end{bmatrix} = 
    \begin{bmatrix} 
    1\times 1+2\times 0+3\times 0+ 4\times 1\\
    5\times 1+ 6\times 0+ 7\times 0+ 8\times 1\\
    9\times 1+ 10\times 0+ 11\times 0+ 12\times 1\\   
    \end{bmatrix} = \begin{bmatrix} 5\\ 13\\ 21
    \end{bmatrix}$


El resultado de la multiplicación tiene el mismo número de filas que el primer elemento y el mismo número de columnas que el segundo elemento.

En python, para multiplicar matrices utilizamos el comando `np.matmul`, siempre y cuando las dimensiones de los parámetros sean las correctas

In [None]:
# Ejemplo, d x f
np.matmul(d,f)

Para multiplicar vectores fila y columna se debe seguir la misma regla que las matrices: el número de columnas del primer vector debe ser igual al número de filas del segundo.

Por ejemplo:

$f\times e = \begin{bmatrix} 1&0&0&1\end{bmatrix} \times \begin{bmatrix} 1\\ 3\\ 5\\ 7 \end{bmatrix}$

$f\times e = 1\times1 + 0\times3 + 0\times5 + 1\times7 = 8$


Para transponer una matriz o un vector en python se utiliza np.transpose.

In [None]:
print(d, '\n')
print('La transpuesta de d es\n', np.transpose(d))

## Cálculo

Para poder realizar el aprendizaje, los perceptrones y las redes neuronales necesitan encontrar los valores óptimos de los pesos. Son los pesos ($w$) los que determinan si la predicción es correcta o no. Para ello, recurrimos a una herramienta de las matemáticas: la optimización.

Supongamos que tenemos una relación entre la variable $x$ y la variable $y$

$y = x^2 + 2x -5$

Queremos encontrar el valor de $x$ de tal manera que el valor de $y$ sea al más chico posible. La derivada de la función $y$ indica la **dirección** hacia donde hay más incremento, entonces, si multiplicamos la derivada por $-1$ nos indica la dirección hacia donde hay más decremento.

$\frac{dy}{dx} = 2x + 2$ (Dirección de incremento)

$-\frac{dy}{dx} = -2x - 2$ (Dirección de decremento)

Los algoritmos de optimización utilizan la información de las derivadas disminuir el valor del error. Como se busca que el error sea lo más chico posible, utilizamos la dirección de decremento.

El algoritmo básico para optimización se llama **Gradiente descendiente** (gradient descent)

$ \theta = \theta - \alpha \text{ } d\theta$

Este algoritmo cambia el tamaño de los pesos usando la dirección donde se produce una disminución del error.


In [None]:
# Ejemplo.
x = np.arange(-10,10,0.1)

def funcionPrueba(x):
    return np.power(x,2) +2*x - 5


plt.plot(x, funcionPrueba(x))
plt.scatter(5, funcionPrueba(5), color='green')
plt.scatter(-1, funcionPrueba(-1), color='red')

# Programar una neurona

Volviendo al perceptron, podemos expresar las variables $x$ y los pesos $w$ como vectores. Lo más común es que los vectores sean representados como columnas. Entonces para hacer la multiplicación de los vectores es necesario calcular la transpuesta de uno de ellos.

Volviendo al ejemplo anterior:

$$w_1 = 3$$

$$w_2 = -1$$

$$x_1 = 3$$

$$x_2 = 2$$

$$b = -2$$

Podemos escribir las operaciones como:

$$x= \begin{bmatrix} 3\\ 2\end{bmatrix} = [3\quad2]^T$$

$$w= \begin{bmatrix} 2 \\ -1\end{bmatrix} = [2\quad-1]^T$$

$$b=-2$$

La trasformación que hace el perceptrón la podemos escribir como:

$$y = f(z) = f(w^Tx +b)$$


## Función sigmoide

La función escalón tiene dos desventajas: no es una función continua y en las regiones donde sí lo es la derivada es 0. Esto es un impedimento puesto que para que la neurona pueda aprender necesita la información codificada en la derivada. Por ello, es conveniente utilizar una función que se asemeje a la función escalor pero que sea continua. Esta función existe y se le conoce como sigmoide o función logística.

$$g(z) = \frac{1}{1+e^{-z}}$$

In [None]:
import matplotlib.pyplot as plt
def sigmoid(z):
    # COMPLETA EL CÓDIGO AQUI
    
    return g

x = np.arange(-10,10,0.1)
y = sigmoid(x)

plt.figure(figsize=(8,6))
plt.plot(x,y)
plt.xlabel('x')
plt.ylabel('y')
plt.title('Función sigmoide', size=14)
plt.show()



## Ejercicio
Crear una función `neurona` que haga el cálculo de una neurona con la función sigmoide como función de activación. La función debe recibir como parámetros vectores ``x, w`` y un escalar `b`, y debe regresar un valor `y` entre 0 y 1.

In [None]:
def neurona(x,w,b):
    z = 
    y = 
    return y

w = np.array([[3],[2]])
x = np.array([[2],[-1]])
b = -2

neurona(x,w,b)

In [None]:
x = np.array([[-5],[2]])
x

In [None]:
w

In [None]:
b

In [None]:
neurona(x,w,b)

Utilizando la función sigmoide, el perceptrón de Rosenblatt se parece a otro método de Machine Learning. ¿Cuál es?

## Modelo perceptrón como regresión logística.

Siendo idéntico a la regresión logística, el perceptrón funciona como un **clasificador binario**, es decir, dados varios datos de entrada, el perceptrón genera una probabilidad de que los dato pertenezcan a una categoría.

El resultado de una regresión logística es un número entre 0 y 1. Para tomar la decisión de a qué categoría pertenece el resultado, hay que tomar un punto de referencia. Normalmente, los valores mayores o iguales a 0.5 se clasifican como 1 y en el caso contrario como 0.

Observemos el conjunto de datos `Default`, el cual contiene registros de clientes de créditos. La columna `default` muestra si dejaron de pagar (True) o si terminaron de pagar (False).

In [None]:
import pandas as pd
clientes = pd.read_csv('datasets/Default.csv').drop('Unnamed: 0', axis=1)
clientes.head()

Las variables `student`, `balance` e  `income` se utilizaran para predecir si una persona va a dejar de pagar el crédito (`default`).

La columna `student` es un indicador de la persona que es estudiante. Las columnas `balance` e `income` son datos relacionados con la capacidad de pago.

Para que el perceptrón pueda predecir exitosamente si una persona va a dejar de pagar el crédito basado en las tres variables anteriores, hay que seleccionar los pesos (`w`) correctos.

Como todo método de Machine Learning, hay que seleccionar una **función de costo** y un **método de optimización** para encontrar los pesos adecuados. 

Para medir que tan acertada es la predicción utilizamos la función de costo que en una regresión logística: 
    
$J = \frac{1}{m}\sum_{i=0}^{m}-y^{i}\cdot ln(A^{i}) - (1-y^{i})\cdot ln(1-A^{i})$, 

donde $A = g(w^Tx+b)$ y $m$ es el número de muestras.


<img src="images/ffperceptron.PNG" alt="Drawing" style="width: 800px;"/>


El perceptrón sólo acepta entradas numéricas, por lo que hay que codificar las variables categóricas. Además, hay que cambiar la escala de las variables numéricas.

In [None]:
data = clientes.copy()
data['default'] = 
data['student'] = 
data.head()

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

data[['balance','income']] = 
data.head()

In [None]:
# Separar en train y test sets
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = 

In [None]:
X_train.head()

In [None]:
X_test.head()

In [None]:
X_train = X_train.T
X_test  = X_test.T

In [None]:
X_train.head()

In [None]:
X_test.head()

In [None]:
X_train = X_train.values
X_test  = X_test.values

y_train = y_train.values
y_test  = y_test.values

In [None]:
# Inicializamos los pesos con un valor aleatorio. Por esta ocasión los podemos inicializar en ceros.
def inicializar_ceros(dim):
    w = np.zeros([dim,1])
    b = 0
    
    return w, b

Para calcular los pesos se necesitan las derivadas de la función de costo con respecto a $w$ y a $b$ para utilizar el **gradiente descendiente** (*gradient descent*) hacia la dirección de decremento para el error.

La fórmula general del gradiente descendiente es:

$$\theta = \theta - \alpha \text{ } d\theta$$

Para el caso particular de $w$ y $b$, 

$$\frac{\partial J}{\partial w} = \frac{1}{m}X \cdot (A-Y)^T$$

$$\frac{\partial J}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} (A-Y)$$



Al método para actualizar los pesos se le conoce como **back propagation** (*propagación hacia atrás*)

In [None]:
# hacemos el cálculo al pasar los datos a través del perceptrón.
def propagar(w, b, X, Y):
    """
    w -- weights, a numpy array of size (num_px * num_px * 3, 1)
    b -- bias, a scalar
    X -- data of size (num_px * num_px * 3, number of examples)
    Y -- true "label" vector (containing 0 if non-cat, 1 if cat) of size (1, number of examples)
    
    """
    m = X.shape[1]
    
    A =  
    
    cost = (- 1 / m) * np.sum(Y * np.log(A) + (1 - Y) * (np.log(1 - A))) 
    
    dw = 
    db = 
    
    grads = {'dw' : dw,
             'db' : db}
    
    return grads, cost

In [None]:
# Optimizamos utilizando el gradiente descendiente
def optimizar(w, b, X, Y, num_iterations, learning_rate, print_cost = False):
    """
    w -- weights, a numpy array of size (num_px * num_px * 3, 1)
    b -- bias, a scalar
    X -- data of shape (num_px * num_px * 3, number of examples)
    Y -- true "label" vector (containing 0 if non-cat, 1 if cat), of shape (1, number of examples)
    num_iterations -- number of iterations of the optimization loop
    learning_rate -- learning rate of the gradient descent update rule
    print_cost -- True to print the loss every 100 steps
    
      """
    
    costs = []
    
    for i in range(num_iterations):
        
        
        # Cost and gradient calculation (≈ 1-4 lines of code)
        grads, cost = propagar(w, b, X, Y)
        
        # Retrieve derivatives from grads
        dw = grads["dw"]
        db = grads["db"]
        
        # update rule (≈ 2 lines of code)
        w =  
        b = 
        
        # Record the costs
        if i % 100 == 0:
            costs.append(cost)
        
        # Print the cost every 100 training examples
        if print_cost and i % 100 == 0:
            print ("Cost after iteration %i: %f" % (i, cost))
    
    params = {"w": w,
              "b": b}
    
    grads = {"dw": dw,
             "db": db}
    
    return params, grads, costs

In [None]:
# Una vez que los pesos están calculados, hay que predecir el resultado.
def predecir(w, b, X):
    m = X.shape[1]
    Y_prediction = np.zeros((1, m))
    w = w.reshape(X.shape[0], 1)
    
    # Calcular la activación con los pesos actuales
    A = sigmoid(np.dot(w.T, X) + b)
    
    
    # Punto de corte
    cut = 0.2
    
    for i in range(A.shape[1]):
        #Predecir utilizando como punto de corte 0.25
        Y_prediction[0, i] = 1 if A[0, i] > cut else 0
        
    return Y_prediction

In [None]:
# Juntamos todo en un sola función
def modelo(X_train, Y_train, X_test, Y_test, num_iterations=2000, learning_rate=0.5, print_cost=False):
    w, b = inicializar_ceros(X_train.shape[0])

    # Gradient descent (≈ 1 line of code)
    parameters, grads, costs = optimizar(w, b, X_train, Y_train, num_iterations, learning_rate, print_cost)
    
    # Retrieve parameters w and b from dictionary "parameters"
    w = parameters["w"]
    b = parameters["b"]
    
    # Predict test/train set examples (≈ 2 lines of code)
    Y_prediction_test  = predecir(w, b, X_test)
    Y_prediction_train = predecir(w, b, X_train)

    ### END CODE HERE ###

    # Print train/test Errors
    print("train accuracy: {} %".format(100 - np.mean(np.abs(Y_prediction_train - Y_train)) * 100))
    print("test accuracy: {} %".format(100 - np.mean(np.abs(Y_prediction_test - Y_test)) * 100))

    
    d = {"costs": costs,
         "Y_prediction_test": Y_prediction_test, 
         "Y_prediction_train" : Y_prediction_train, 
         "w" : w, 
         "b" : b,
         "learning_rate" : learning_rate,
         "num_iterations": num_iterations}
    
    return d


In [None]:
neurona = modelo(X_train, y_train, X_test, y_test, 
                    num_iterations = 2000, 
                    learning_rate = 0.005, 
                    print_cost = True)

In [None]:
## Graficar cómo va disminuyendo el error.
costs = np.squeeze(neurona['costs'])
plt.plot(costs)
plt.ylabel('Costo')
plt.xlabel('Iteraciones (cada 100)')
plt.title("Learning rate =" + str(neurona["learning_rate"]))
plt.show()

In [None]:
pd.crosstab(neurona['Y_prediction_train'].squeeze(), Y_train, rownames=['Predicción'], colnames=['Valor Real'])

# Redes neuronales artificiales

El perceptrón es un modelo muy simple que no puede predecir cuando los patrones en los datos son muy complejos. Sin embargo, nuestro cerebro no usa neuronas aisladas para procesar la información, sino que los impulsos eléctricos pasa a través de una serie de neuronas para producir una respuesta sensorial.

## Nodos
Inspirándose en el cerebro, entonces al interconectar varios perceptrones (nodos), se puede llegar a descifrar patrones más complejos en los datos.


<img src="images/singlelayer.png" alt="Drawing" style="width: 650px;"/>

Las redes neuronales consisten en varias **capas** de neuronas, cada una con un número específico de **nodos**, los cuales procesan los datos para producir una salida en la última capa. Cada capa es independiente una de la otra.

## Funciones de activación
Además, la función sigmoide no es la única que se puede utilizar como función de activación. Una función que ha ganado mucha popularidad en los últimos años es la función **ReLu** (*Rectified Linear Unit*). También está la función **tangente hiperbólica** que es parecida a la sigmoide.

In [None]:
## Graficar funciones de activación más comunes
x = np.arange(-5,5,0.1)
s = 1/(1+np.exp(-x))
t = np.tanh(x)
r = x*(x>0)

plt.figure(figsize=(16,4))
plt.subplot(1,3,1)
plt.plot(x,s, color='red')
plt.axvline(0, linestyle='dashed', color='gray')
plt.axhline(0, linestyle='dashed', color='gray')

plt.ylim([-2,3])
plt.title('Sigmoide')

plt.subplot(1,3,2)
plt.plot(x,t)
plt.axvline(0, linestyle='dashed', color='gray')
plt.axhline(0, linestyle='dashed', color='gray')
plt.ylim([-2,3])
plt.title('Tangente hiperbólica')

plt.subplot(1,3,3)
plt.plot(x,r, color='green')
plt.axvline(0, linestyle='dashed', color='gray')
plt.axhline(0, linestyle='dashed', color='gray')
plt.ylim([-2,3])
plt.title('ReLu')

plt.suptitle('Funciones de activación', fontsize=16, weight='bold', y=1.05)

## Capas

La primera capa de una red neuronal consiste en cada una de las variables de entrada. Esta capa se le denomina **input layer** (*capa de entrada*).

Las capas que se encuentran en medio se les denomina **hidden layers** (capas ocultas).

La última capa, que es la que entrega el resultado, se le denomina **output layer** (capa de salida).

![archi](images/nnarchitecture.png)

El propósito de agregar capas es para que la red neuronal pueda ir descubriendo patrones simples en las primeras capas, para después ir combinándolos en patrones cada vez más complejos.

![patterns](images/highfeatures.png)

Una red neuronal con pocas capas (2-8) se le conoce como red **superficial**. Cuando el número de capas es grande (>8), entonces la red neuronal es **profunda**.

## Algoritmos de optimización.

Además del *gradient descent*, existen distintos algoritmos que tienen eficiencias similares o mejores cuando hay grandes cantidades de datos. Cada uno tiene sus ventajas y desventajas.

* Gradient descent variants:
    1. Batch gradient descent
    2. Stochastic gradient descent
    3. Mini-batch gradient descent


* Gradient descent optimization algorithms:
    4. Momentum
    5. Nesterov accelerated gradient
    6. Adagrad
    7. Adadelta
    8. RMSprop
    9. Adam
    10. AdaMax

Los optimizadores más comunes son **Mini-batch Gradient Descent** y **Adam**.

## Fuciones de costo

Las funciones de costo cambian dependiendo de tipo de problema. Si queremos predecir un número como en una regresión lineal o polinomial, entonces utilizamos:

* Mean Squared Error (MSE)
$$\frac{1}{m} \sum (y - \hat{y})^2 $$

* Mean Absolute Error (MAE)
$$\frac{1}{m} \sum |y - \hat{y}|$$



Por otro lado, cuando realicemos una clasificación utilizamos `entropía cruzada`:

* Binary cross entropy (Clasificación binaria)
$$ -\frac{1}{m} \sum y\cdot ln(a) + (1-y) \cdot ln(1-a)$$


* Multinomial cross entropy o Softmax (Clasificación multicategoría)
$$ -\frac{1}{m}\sum_{c=1}^{N} \sum_{i=1}^m y_{i, c}\cdot ln(a_{i,c})$$

## Hiperparámetros

El número de nodos en cada capa es una decisión de quien programa la red neuronal. Este es uno de los llamados hiperparámetros. Los hiperparámetros son valores que podemos ajustar cómo es que la red neuronal va aprender. Los hiperparámetros más comunes son:

+ **Número de capas**

+ **Número de nodos en cada capa**

+ **Tamaño de lote** (batch size): Cuando calculamos los gradientes para mejorar los parámetros de la red neuronal, es costoso utilizar todos los datos si el dataset de entrada es muy grande. Por eso, en vez de utilizar todos los datos disponibles a la vez, se calculan los gradientes con pequeños lotes (mini-batches) de datos. 

+ **Número de épocas** (epochs): Cuando dividimos los datos en lotes, debemos considerar cuántas veces queremos que la red neuronal utilice todos los datos para entrenarse. Una época (epoch) es cuando todo el conjunto de datos para a través de la red neuronal 1 vez. 

+ **Métricas** : son cuantificaciones de qué tan bien el modelo puede predecir el resultado. Se utilizan con el conjunto de datos de prueba.

# Clasificación de dígitos con redes neuronales

Un conjunto de datos muy famoso para aprender redes neuronales es el MNIST. Esta base de datos contiene 60,000 ejemplos de dígitos (0 al 9) escritos a mano y escaneados. El problema consiste en crear una red neuronal que sea capaz de reconocer los dígitos escritos.

Todas las imágenes están en escala de grises y tienen un tamaño de 28 x 28 pixeles. 


<img src="images/mnist.png" alt="Drawing" style="width: 500px;"/>



No todos los dígitos son legibles incluso para los seres humanos:

<img src="images/mnistnonread.png" alt="Drawing" style="width: 600px;"/>


Antes de empezar, repacemos la terminología y algunos puntos importantes:

* `x` se refieren a los datos de entrada: las variables que nos ayudarán a determinar nuestra predicción.

* `y` es el nombre de las etiquetas o el valor que queremos predecir.

* $\hat{y}$ son las predicciones hechas por el modelo. Deben ser muy parecidos a los valores `y`.

* Los datos de entrenamiento son los que utilizamos para encontrar el modelo de predicción. 

* Los datos de prueba los utilizamos para ver si el modelo entrenado es bueno o no.

* La función de costo se utiliza para medir qué tan precisas son las predicciones del modelo.

* El algoritmo de optimización controla cómo van variando los pesos del modelo para disminuir el error o la función de costo.

* La cantidad de nodos de salida debe ser 1 si se hace una regresión o una clasificación binaria. Para clasificación multicategoría, la cantidad de nodos en la capa de salida debe ser igual al número de categorías.

* Una capa es **densa** si todas las entradas están conectadas a todos los nodos de la capa.

## Toolkits de Deep Learning

Con el incremento de popularidad de las redes neuronales, se desarrollaron librerías y toolkits que funcionan en distintos lenguajes de programación pra implementar de manera fácil estos algoritmos. Entre los toolkits más famosos están:

### Tensorflow
TensorFlow es el toolkit de DL más famoso y más utilizado por el momento. Grandes compañías como Airbus, Twitter, IBM lo han utilizado por su gran flexibilidad. Fue desarrollado por Google y actualmente está distibuido como software de código abierto.

<img src="images/tensorflow.png" alt="Drawing" style="height: 200px;"/>

### Pytorch
Es una librería basada en Torch para el cómputo eficiente con tensores de alta dimensionalidad y para el desarrollo de redes neuronales profundas. Es utilizado por Facebook y ha tenido un crecimiento de popularidad importante en los últimos años.

<img src="images/pytorch.jpeg" alt="Drawing" style="height: 100px;"/>

### Keras
Keras es una librería para crear redes neuronales, convolucionales y recurrentes de manera rápida y simple. Esta librería puede utilzar Tensorflow of Theano como motor de cómputo. 

<img src="images/keras.png" alt="Drawing" style="height: 80px;"/>


En vez de crear las funciones para entrenar nuestra red neuronal, utilizaremos Keras con Tensorflow para hacer el modelado.

## Importar datos


<img src="images/mnistnn.png" alt="Drawing" style="width: 600px;"/>

In [None]:
import tensorflow as tf
import keras
from keras.datasets import mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()

# Obtener las dimensiones de los datos de entrenamiento
print('Datos de entrenamiento:', x_train.shape)
print('Datos de prueba:', x_test.shape)

In [None]:
## Ver un ejemplo
print('El número es un :', y_train[5])
sns.set_style('whitegrid')
plt.imshow(x_train[5,:,:], cmap='Greys')
plt.show()

Para empezar, la red neuronal que hemos visto hasta ahora no acepta imágenes como datos de entrada. Para ello, tenemos que convertir las matrices que representan la imagen a vectores. Además, como queremos hacer una clasificación de más de dos categorías, hay que codificar las etiquetas con un one-hot-encoding.

Esto último lo podemos hacer con pandas, scikit learn o el mismo keras.

In [None]:
# # One hot encoding
print(y_train[:5])

num_classes = 10
y_train = 
y_test  = 

# Ver los primeros 5 renglones
y_train[:5]

In [None]:
# Los datos de entrada deben ser vectores, entonces convertimos las matrices con reshape.
image_size = 28*28
x_train = x_train.reshape(x_train.shape[0], image_size)
x_test  = x_test.reshape(x_test.shape[0], image_size)

print(x_train.shape)
print(x_test.shape)

In [None]:
# Ajustar los valores de la imágen de 0 a 255, a 0 a 1
x_train = 
x_test  = 

Normalmente cuando trabajamos con ML hay que ajustar los datos a que todos tengan la misma escala. 

Las imágenes realmente son una matriz de números de 0 a 255. En una imagen en blanco y negro, 0 representa el color negro y 255 el color blanco. Para ajustar la escala en las imágenes, lo más común es dividir los valores que hay en las imágenes entre 255.

Vamos a crear una red neuronal secuencial, lo que quiere decir que por el momento ningún nodo va a proporcionar retroalimentación a nodos en capas anteriores.

In [None]:
## Crear modelo secuencial con capas densas
from keras.layers import Dense      # Dense layers are "fully connected" layers
from keras.models import Sequential # Documentation: https://keras.io/models/sequential/

image_size  = 28*28   # Tamaño de las imágenes
classes     = 10      # 10 dígitos

## Creamos una red neuronal secuencial
redNeuronal = Sequential()

## La primera capa la vamos a crear con 32 nodos. Como es la primera capa, hay que especificar que va a recibir
## datos del tamaño de 784 (el resultado de 28*28)
redNeuronal.add(Dense(units=   , activation=   , input_shape=      ))

## La segunda capa va a ser la de salida. Como es una clasificación multicategoría, la función de activación 
## debe ser softmax
redNeuronal.add(Dense(units=   , activation=    ))

## Resumen del modelo
redNeuronal.summary()

La función `Softmax` es una generalización de la entropía cruzada cuando hay más de dos categorías. Esta función de costo se relaciona con las probabilidades de que el dígito sea reconocido entre el 0, 1, 2, ... , 9. Cada nodo de la última capa corresponde a un dígito. El nodo con el valor de probabilidad más grande es el que decide la categoría a asignar.

In [None]:
# Una vez que llenamos los hiperparámetros, hay que compilar el modelo.
# Vamos a usar el stochastic gradient descent (mini batch), con crossentropy y para probar el modelo
# utilizaremos la precisión
redNeuronal.compile(optimizer=  , loss=     , metrics=[    ])

In [None]:
### ENTRENAMIENTO
## Queremos que el entrenamiento sea con lotes de tamaño 128, que sean en total 5 épocas y que
## Para probar el modelo utilice el 10% de los datos de entrenamiento.
history = redNeuronal.fit(x_train, y_train, batch_size=     , epochs=     , verbose=False, validation_split=.1)

In [None]:
## PRUEBAS
# Obtenemos los datos de la función de costo y la precisión del modelo con evaluate.
loss, accuracy  = redNeuronal.evaluate(x_test, y_test, verbose=False)

## Graficar los resultados
sns.set()
plt.figure(figsize=(8,6))
plt.plot(history.history['acc'])
plt.plot(history.history['val_acc'])
plt.title('Precisión del modelo durante entrenamiento')
plt.ylabel('Precisión')
plt.xlabel('Época')
plt.legend(['Entrenamiento', 'Validación'], loc='best')

print(f'Precisión en datos de prueba: {accuracy:.3}')

In [None]:
## Vamos a probar la predicción.
# Escogemos un valor al azar
index   = np.random.choice(x_test.shape[0])
x_index = x_test[index,:].reshape(1,-1)
prediccion = np.squeeze(redNeuronal.predict(x_index))

# El vector de predicción contiene los valores de las probabilidades de que sea uno de los dígitos de (0,1,2,...,8,9) en ese
# orden. Para encontrar el valor predicho hay que buscar la POSICIÓN con el valor más alto.
max_index = np.squeeze(np.where(prediccion==prediccion.max()))

# Mostrar el resultado
print('El valor predicho es:', max_index, '\n')
print('El valor real es:')

sns.set_style('whitegrid')
plt.imshow(np.reshape(x_test[index,:],(28,28)), cmap='Greys')
plt.show()

Vamos a crear unas funciones para llamar al modelo anterior de manera más rápida. Además, vamos a probar con diferente número de capas.

In [None]:
## Crear modelo secuencial
def createModel(layer_sizes, input_shape, num_classes, activation = 'sigmoid', output_activation='softmax'):
    # Inicializar modelo
    model = Sequential()
    # Agregar capa de entrada
    model.add(Dense(layer_sizes[0], activation=activation, input_shape=(input_shape,)))
    
    if(len(layer_sizes)>1):
        for s in layer_sizes[1:]:
            model.add(Dense(units = s, activation = activation))

    model.add(Dense(units=num_classes, activation = output_activation))
    return model

In [None]:
# Entrenar y evaluar
def evaluateModel(model,  x_train, y_train, x_test, y_test,
                  batch_size=128, epochs=5, optimizer_func = "sgd", loss='categorical_crossentropy', 
                  metrics=['accuracy'], validation_split=0.1):
    # Show model summary
    model.summary()
    model.compile(optimizer=optimizer_func, loss=loss, metrics=metrics)
    
    history = model.fit(x_train, y_train, batch_size=batch_size, epochs=epochs, 
                        validation_split=validation_split, verbose=False)
    loss, accuracy  = model.evaluate(x_test, y_test, verbose=False)
    # Graficar resultados
    sns.set()
    plt.figure(figsize=(8,6))
    plt.plot(history.history['acc'])
    plt.plot(history.history['val_acc'])
    plt.title('Precisión del modelo durante entrenamiento')
    plt.ylabel('Precisión')
    plt.xlabel('Época')
    plt.legend(['Entrenamiento', 'Validación'], loc='best')
    plt.show()

    print(f'Precisión en datos de prueba: {accuracy:.3}')

In [None]:
# Predecir
def predictModel(model, x_test, index=50):
    x_index = x_test[index,:].reshape(1,-1)
    prediccion = np.squeeze(redNeuronal.predict(x_index))
    # Encontrar el valor máximo
    max_index = np.squeeze(np.where(prediccion==prediccion.max()))

    # Mostrar el resultado
    print('El valor predicho es:', max_index, '\n')
    print('El valor real es:')

    sns.set_style('whitegrid')
    plt.imshow(np.reshape(x_test[index,:],(28,28)), cmap='Greys')
    plt.show()
    sns.set()

In [None]:
redNeuronal2 = createModel([32, 16], 28*28, 10)
evaluateModel(redNeuronal2,  x_train, y_train, x_test, y_test, epochs=20)
predictModel(redNeuronal2, x_test, index=9973)

# Redes Neuronales Convolucionales (CNN o ConvNet en inglés)

Si bien los datos MNIST son imágenes, la resolución de cada una de ellas es muy baja (28x28 pixeles). Además, todas las imágenes están en escala de grises. Esto no sucede con imágenes del día a día. Si quisieramos utilizar una red neuronal en imágenes en 4K Ultra HD, sólo la capa de entrada requeriría un tamaño de 26,542,080 nodos (4096 x 2160 x 3 [canales RGB]).

Además, las redes neuronales convencionales requieren que la imagen sea transformada a un vector,lo que hace que se pierda cierta información espacial y de correlación entre pixeles. Entonces, en vez de utilizar la información de cada uno de los pixeles por separado, sería más eficiente ver una imagen por 'zonas'. Esta idea es la base para las redes neuronales convolucionales.

La idea detrás de las CNN es similar a cómo reconocemos nosotros las imágenes. Por ejemplo, podemos identificar el rostro de una persona por la nariz, los ojos, el cabello, la boca, etc. Pero no sólo nos limitamos a ver si estos elementos están presentes, la forma y la posición de cada uno de ellos también son elementos que nos ayudan a identificar el rostro. Las CNN utilizan información local de ciertas zonas de las imágenes para poder construir patrones cada vez más complejos, ayudando a determinar estructuras más complejas confome los datos pasan a través de las capas.

<img src="images/featurescomplex.png" alt="Drawing" style="width: 800px;"/>

## Capas de convolución

Las CNN utilizan capas de 'filtros' que van recorriendo toda la imagen y comprimen la información de esas regiones. Estos filtros son como una pequeña ventana que se desliza a través de la imagen y van calculando un resultado.

<img src="images/cnnwindow.png" alt="Drawing" style="width: 600px;"/>

El resultado de aplicar el filtro por todas las posiciones posibles de la imagen da como resultado las entradas que las neuronas de la siguiente capa deben recibir, sólo que ahora las neuronas están ordenadas como una matriz y no como un vector. Cada neurona de la siguiente capa recibe sólo un valor, por lo que a los datos que están dentro de cada ventana se les aplica una función de activación tal y como en una red tradicional.

<img src="images/cnnwindow2.png" alt="Drawing" style="width: 600px;"/>


Un filtro descubre una característica en particular de la imagen (un trazo, línea), pero para poder describir completamente la imagen requerimos de más de una característica. Es por esto que se utilizan varios filtros por cada ca

<img src="images/cnnfilter.png" alt="Drawing" style="width: 600px;"/>

## Capas de reducción por muestreo (pooling)

Además de calcular los filtros, comúnmente se realiza una operación más para reducir aún más la cantidad de datos que se tiene que procesar dentro de la red neuronal. A este paso se le conoce como reducción por muestreo (**pooling** en inglés). El *pooling* es como otra ventana por la capa de los filtros, pero ahora en vez de calcular pesos va a calcular el valor máximo, el promedio o la suma de todos los elementos que estén en la ventana.

<img src="images/pooling.png" alt="Drawing" style="width: 700px;"/>

Básicamente, el pooling lo que hace es crear una imagen más pequeña pero con información suficiente para poder detectar los rasgos importantes.

<img src="images/poolingexample.png" alt="Drawing" style="width: 750px;"/>

## Proceso completo en una CNN

Después de aplicar algunas capas de convolución y de pooling, después procedemos como si tuvieramos una red neuronal tradicional: los datos se convierten a vectores, se calculan pesos y se aplican las funciones de activación.

<img src="images/cnncomplete.jpeg" alt="Drawing" style="width: 750px;"/>

## Clasificación del MNIST con CNN



In [None]:
# Cargamos nuevamente los datos para tener las formar originales.
(x_train, y_train), (x_test, y_test) = mnist.load_data()

# Vemos otra vez la forma de los datos
print(x_train.shape)
print(x_test.shape)

Cuando utilizamos redes convolucionales, los datos de entrada deben tener 3 dimensiones: largo, ancho y espesor.

De los datos de arriba, vemos que hay 60,000 imágenes de 28x28 en los datos de entrenamiento, falta la dimensión de espesor (que en este caso es 1).

Hay que convertir los datos a la forma correcta utilizando np.reshape

In [None]:
# Convertir a 3 dimensiones las imágenes
x_train = 
x_test  = 
print(x_train.shape)
print(x_test.shape)

# Guardar la forma de los datos de entrada
input_shape = (28, 28, 1)

In [None]:
# Cambiamos la escala a 0 a 1
x_train = x_train.astype('float32')
x_test  = x_test.astype('float32')
# Normalizing the RGB codes by dividing it to the max RGB value.
x_train = 
x_test  = 

In [None]:
# Cambiamos a one.hot encoding las variables de etiqueta
num_classes = 10
y_train = 
y_test  = 

In [None]:
# Importamos las funciones necesarias de Keras.
# Una capa de convolución usamos Conv2D
# Una capa de pooling (con la operación max) la usamos como MaxPooling2D
# Para convertir el resultado de la convolución y pooling a un vector, usamos Flatten

from keras.models import Sequential
from keras.layers import Dense, Conv2D, Flatten, MaxPooling2D

# Creamos un modelo secuencial como en el ejemplo anterior
redConv = Sequential()

# Agregamos una capa de 32 filtros de 5x5 con función de activación ReLu
redConv.add(Conv2D(   ,   ,activation=    , input_shape=    ))
# Agregamos una capa de pooling de 2x2
redConv.add(MaxPooling2D(     ))

## Agregamos una segunda capa de 64 filtros de 5x5
redConv.add(Conv2D(     ,     , activation=    ))
# Agregamos una capa de pooling de 2x2
redConv.add(MaxPooling2D(    ))

## Para convertir la capa anterior a un vector, usamos flatten
redConv.add(Flatten())

## Como queremos clasificar en muchas categorías, usamos softmax como función de activación en la capa de salida
## El tipo de capa es Dense como en una red normal.
redConv.add(Dense(     , activation=     ))

## Mostrar el resumen 
redConv.summary()

In [None]:
## Entrenamos el modelo
redConv.compile(loss=     , optimizer=     ,metrics=[    ])

history = redConv.fit(x_train, y_train, batch_size=     , epochs=   , validation_split=0.1, verbose=False)
loss, accuracy  = redConv.evaluate(x_test, y_test, verbose=False)

# Graficar resultados
sns.set()
plt.figure(figsize=(8,6))
plt.plot(history.history['acc'])
plt.plot(history.history['val_acc'])
plt.title('Precisión del modelo durante entrenamiento')
plt.ylabel('Precisión')
plt.xlabel('Época')
plt.legend(['Entrenamiento', 'Validación'], loc='best')
plt.show()

print(f'Precisión en datos de prueba: {accuracy:.3}')

In [None]:
index   = np.random.choice(x_test.shape[0])
x_index = x_test[index,:].reshape(1,28,28,1)
prediccion = np.squeeze(redConv.predict(x_index))

# El vector de predicción contiene los valores de las probabilidades de que sea uno de los dígitos de (0,1,2,...,8,9) en ese
# orden. Para encontrar el valor predicho hay que buscar la POSICIÓN con el valor más alto.
max_index = np.squeeze(np.where(prediccion==prediccion.max()))

# Mostrar el resultado
print('El valor predicho es:', max_index, '\n')
print('El valor real es:')

sns.set_style('whitegrid')
plt.imshow(np.reshape(x_test[index,:],(28,28)), cmap='Greys')
plt.show()

In [None]:
# El modelo anterior tarda mucho en compilar. Vamos a crear un modelo más chico y además vamos a probar otro optimizador.

redConv2 = Sequential()
redConv2.add(Conv2D(28, kernel_size=(3,3), input_shape=input_shape))
redConv2.add(MaxPooling2D(pool_size=(2, 2)))
redConv2.add(Flatten()) # Flattening the 2D arrays for fully connected layers
redConv2.add(Dense(128, activation='relu'))
redConv2.add(Dense(10,activation='softmax'))

redConv2.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
redConv2.fit(x=x_train,y=y_train, epochs=3)

redConv2.evaluate(x_test, y_test)


index= 7831
x_index = x_test[index,:].reshape(1,28,28,1)
prediccion = np.squeeze(redConv2.predict(x_index))

# El vector de predicción contiene los valores de las probabilidades de que sea uno de los dígitos de (0,1,2,...,8,9) en ese
# orden. Para encontrar el valor predicho hay que buscar la POSICIÓN con el valor más alto.
max_index = np.squeeze(np.where(prediccion==prediccion.max()))

# Mostrar el resultado
print('El valor predicho es:', max_index, '\n')
print('El valor real es:')

sns.set_style('whitegrid')
plt.imshow(np.reshape(x_test[index,:],(28,28)), cmap='Greys')
plt.show()

# Referencias

1. [©	MIT 6.S191: Introduction to Deep Learning.](introtodeeplearning.com)
2. [A Brief Introduction to Deep Learning](http://www.cs.tau.ac.il/~dcor/Graphics/pdf.slides/YY-Deep%20Learning.pdf)
3. [The Intellectual Excitement of Computer Science](https://cs.stanford.edu/people/eroberts/courses/soco/projects/neural-networks/index.html)
4. [Adventures in Machine Learning](https://adventuresinmachinelearning.com/wp-content/uploads/2017/07/An-introduction-to-neural-networks-for-beginners.pdf)
5. [A gentle introduction to neural networks](https://www.pycon.it/media/conference/slides/a-gentle-introduction-to-neural-networks-with-python.pdf)
6. [Machine Learning for Beginners: An Introduction to Neural Networks](https://victorzhou.com/blog/intro-to-neural-networks/)
7. [Neural networks and deep learning](http://neuralnetworksanddeeplearning.com/about.html)
8. [A Beginner's Guide to Neural Networks and Deep Learning](https://skymind.ai/wiki/neural-network)
9. [The deep learning book](http://www.deeplearningbook.org/)
10. [Deep Learning: Introducción práctica con Keras](https://torres.ai/deeplearning/)
11. [Convolutional neural networks for beginners](https://towardsdatascience.com/convolutional-neural-networks-for-beginners-practical-guide-with-python-and-keras-dc688ea90dca)
12. [Image Classification in 10 minutes](https://towardsdatascience.com/image-classification-in-10-minutes-with-mnist-dataset-54c35b77a38d)