<img style="float: left;;" src='Figures/alinco.png' /></a>

# <center> <font color= #000047> Módulo 2: Redes Neuronales Librería



- La derivación es el aspecto algorítmicamente más costoso en la utilización de clasificadores basados en redes neuronales. 

- Calcular las decenas, centenares o centenares de miles de derivadas parciales sería una tarea abrumadora si la tuviéramos que resolver a mano cada vez que construimos una red neuronal. 

- Afortunadamente contamos con herramientas que hacen eficientemente esa labor por nosotros. **Keras** es una de ellas. 



## Keras

[Keras](https://keras.io/) es una API escrita en Python que nos permite de una forma rápida y cómoda configurar y entrenar redes neuronales.

<img src="Figures/keras-logo.png" width="30%">

- Hay otra cosa que Keras hace por nosotros y que es sumamente importante: trasladar el cálculo a la GPU en lugar de hacerlo en la CPU. Todo el cálculo que realiza la red para generar una salida es computacionalmente muy alto. Son muchísimas las multiplicaciones y sumas que se llevan a cabo. Pero, afortunadamente, la inmensa mayoría de estas operaciones son paralelizables. Y, de la misma forma que los juegos actuales utilizan la GPU para poder mover rápidamente una inmensa cantidad de puntos, vértices y polígonos, esta misma arquitectura de computación paralela se adapta perfectamente a las necesidades de cálculo de las redes neuronales.

- Por supuesto, cuando las redes y sus conjuntos de datos son pequeños no es indispensable disponer de GPU en el ordenador. Pero en cuanto el modelo o los datos crecen el tiempo de cómputo se vuelve crucial.

**Keras, a su vez, se apoya sobre otras herramientas como [Tensorflow](https://www.tensorflow.org/) y [CUDA](https://developer.nvidia.com/cuda-zone) (si disponemos de GPU).**



## Instalación

Visita [https://keras.io/#installation](https://keras.io/#installation) para instalar Keras. Antes debes [instalar Tensorflow](https://www.tensorflow.org/install). 

**Modo rápido:** Si quieres, puedes realizar una instalación limpia de Keras mediante un entorno virtual (recomendable). 

**Instala ambiente virtual con Anaconda**

Desde consola:

<code>conda create -n nombre_de_tu_entorno</code>

Crea el entorno virtual

<code>conda create -n nombre_de_tu_entorno python=3.6</code>

Activa el entorno virtual

<code>conda activate nombre_de_tu_entorno<\code>

Dentro del entorno, instala Tensorflow:

<code>pip install tensorflow</code>

y luego, Keras:

<code>pip install keras</code>

Con esto tendrás una instalación de Keras para realizar las prácticas, pero sin GPU. Si tu ordenador no tiene GPU, entonces será la opción adecuada. 
    
Podemos instalar todas las librerías que necesitemos como pandas, numpy, matplotlib

<code>pip install keras</code>
<code>pip install pandas</code>
<code>pip install matplotlib</code>

**Añadir el Ambiente virtual a Jupyter Notebook**

Jupyter Notebook se asegura de que el kernel de IPython esté disponible, pero se debe agregar manualmente un kernel con una versión diferente de Python o un entorno virtual. 
    
-Primero, necesitamos activar su entorno virtual. 
    
-A continuación, instalaremos ipykernel, que proporciona el kernel de IPython para Jupyter:

<code>pip install --user ipykernel</code>

Ahora se pude añadir un ambiente virtual a jupyter con el siguiente comando:

<code>python -m ipykernel install --user --name=myenv</code>

Ahora podemos elegir el entorno conda como Kernel en Jupyter.

### Modelo

La estructura principal de Keras es el **modelo**, lo cual es una forma de organizar y conectar capas de neuronas. El tipo de modelo más simple es el **modelo secuencial**, que es una pila lineal de capas. Para arquitecturas más complejas, es necesario utilizar la **API funcional** de Keras, que permite crear capas con conexiones arbitrarias.

In [None]:
# Creamos nuestro modelo


Ahora apilaremos capas con <code>.add()</code>. Keras denomina a las capas neuronales básicas como **densas** <code>Dense</code>, lo que significa que todas las entradas son conectadas a todas las neuronas. Como observamos en la figura siguiente, todas las $n$ entradas se conectan a todas las $m$ neuronas. Veremos más adelante que esto no siempre es así. Hay capas denominadas **convolutivas** que no siguen este patrón de conexión, sino que parte de las entradas se conectan solo a algunas neuronas de la capa. Pero, por ahora, eso es otra historia.

<img src="Figures/densa.svg" width="30%">

Fíjate que en la instanciación de la primera capa densa tenemos que especificar el número de entradas <code>input_dim=4</code>, pero en la siguiente capa no. Keras sabe que son $5$ entradas puesto que en la capa anterior hay $5$ neuronas <code>units=5</code>

In [None]:
#importar dense

# capa con 4 entradas

# capa con 5 neuronas





### Configuración del entrenamiento

Una vez configurado el modelo, especificaremos el proceso de aprendizaje.

- La **función de error** o **pérdida** (**loss**) que utilizaremos es <code>loss='mse'</code>, lo que significa *mean squared error* o error cuadrático medio. Es parecida a la suma de todos los errores que ya hemos visto pero dividido por el número de muestras sobre las que calculamos el error. 

- En cuando al optimizador, usaremos el clásico gradiente descendente <code>optimizer=keras.optimizers.SGD(lr=1)</code> (stochastic gradient descent) al que le aplicamos un *learning rate* o **tasa de aprendizaje** de $1$. 

\- Lo de *gradiante descendente*, ya lo sabemos. Pero, ¿lo de *estocástico* qué significa? 

En este contexto, **estocástico** significa que no vamos a calcular el error sobre todo el conjunto de muestras en cada iteración sino sobre un subconjunto **aleatorio** de ellos. Ese subconjunto corresponde al *mini-batch* que ya vimos.

Durante el proceso de entrenamiento vamos progresivamente descendiendo por la función de error hasta llegar a algún mínimo. Para verificar que vamos avanzando adecuadamente es conveniente ir comprobando cómo el valor de la función de error va bajando (*loss*). Sin embargo, *loss* es un valor que no indica nada en sí, solo que si baja es buena señal. Pero, lo que realmente nos va diciendo cuánto vamos mejorando es el *accuracy* (precisión) <code>metrics=['accuracy']</code>. Este valor se calcula introduciendo las muestras en la red y comprobando qué porcentaje de ellas ha clasificado correctamente.

In [None]:
# compilar el modelo


### Preparación de los datos. Entrenamiento y test

Una vez completamente definido el modelo y cómo lo vamos a entrenar es necesario preparar los datos sobre los que vamos a trabajar. Esta vez vamos a dividir nuestro conjunto de muestras en dos subconjuntos: uno  para **entrenar** (*train*) y otro para **verificar** (*test*). Cuando entrenamos una red neuronal con un conjunto de muestras, ¿cómo podemos estar seguros de que esa red es capaz de clasificar correctamente nuevas muestras que nunca haya visto antes? Dicho de otro modo, ¿cómo podemos saber si la red puede **generalizar**?

Para saber si una red ha aprendido correctamente hacemos esta división. Vamos a entrenar la red con el **conjunto de entrenamiento**. Y una vez entrenada comprobaremos cuántas muestras del **conjunto de test** es capaz de clasificar correctamente. Si el porcentaje de aciertos es satisfactorio concluimos que la red está correctamente entrenada.


In [None]:
# Cargamos el dataset iris


# Etiquetas en formato one-hot

# Particionando la data Tomamos el 80% (120) de las muestras para entrenar y el 20% (30) para testear



In [None]:
#desordenar el dataset


In [None]:
# Partición de las muestras 80% para el train, y el 20% test



### Entrenamiento

Procedemos a hacer el entrenamiento de la red. Para ello solo tenemos que invocar al método <code>fit</code> del modelo y especificarle que queremos entrenar $200$ épocas y que use un tamaño de lote de $15$.

In [None]:
# fit del modelo


### Visualización

El objeto <code>history</code> que nos devuelve el método <code>fit</code> contiene la información acerca del progreso del entrenamiento. Vemos cómo el valor de *loss* va decreciendo mientras el *accuracy* va aproximándose a $1$, lo que representa casi el 100% de las muestras de entramiento bien clasificadas.

In [None]:
#visualización de los datos


### Test

Durante el entrenamiento *accuracy* nos indica el porcentaje de aciertos sobre el mismo conjunto de entrenamiento. Pero nos interesa conocer el porcentaje de acierto sobre un conjunto no visto antes por la red. Para ello utilizamos el conjunto de test. 

In [None]:
#test de la clasificación



### Predicción

Una vez entrenada y testeada la red, podemos ponerla en producción. Keras tiene funciones para guardar tanto el modelo como los pesos ya entrenados. Si queremos hacer una clasifiación invocaremos el método <code>predict</code> del modelo.

Vamos a ver qué resultados nos ofrece la red si introducimos el conjunto de test.

In [None]:
# predicción 


## Ejercicio

- Varía algunos hiperparámetros (learning rate, tamaño del mini-lote, número de neuronas en la capa oculta, número de épocas) y observa qué ocurre.


