# Lab04 - Introducción a Redes Neuronales  

En la sesión de hoy ya aprendimos qué es una **Red Neuronal** (*Realmente es una ecuación matemática*) y cómo **"aprende"** (*Minizar funciones matemáticas*).  También aprendimos algunos conceptos e hiperparámetros como:
- Perceptrón
- Neuronas
- Capas Ocultas
- Función de Pérdida (Loss)
- Función de Activación
- Descenso de Gradiente
- Retropropagación
- Batch
- Epoca
- Learning Rate (Taza de Aprendizaje)

Es mucha información!  Ahora vamos a aplicarlo todo!

## 4a. Tensorflow Playground

Tensorflow es una librería desarrollada por [Google](https://www.tensorflow.org/?hl=es-419) para aprendizaje profundo. Permite configurar de forma fácil todos los conceptos de redes neuronales como capas ocultas, funciones de activación, y otros hiperarámetros; además, puede usarse tanto en R como en Python!  

Una de las ventajas de Tensorflow, es que su filosofía es siempre acercar la Inteligencia Artificial a las personas de forma amigable y estructurada sin necesidad de conocer todos los cálculos y matemáticas que suceden por debajo (Aunque siempre es mejor conocerlos!).  Como parte de esta metodología, se creó [Tensorflow Playground](https://playground.tensorflow.org/), una plataforma gráfica que permite visualizar la implementación y entrenamiento de una Red Neuronal, y los efectos de configurar cada uno de sus hiperparámetros!  

### Taller:  
Dentro de la plataforma de **TensorFlow Playground** vamos a tratar de construir una red neuronal para cada uno de los siguientes sets de datos.  Trate de construirla de manera que, graficamente divida a los datos por color en la menor cantidad de tiempo (*Epocas*) posible con el *Loss* más bajo posible.  
Algunos de los hiperparámetros con los que puede *jugar* son: 
- Cantidad de capas ocultas
- Cantidad de neuronas en cada capa (Excepto la capa final: 2)
- Taza de Aprendizaje (Learning Rate)
- Función de Activación iniciales y final
- Regularización (Y su respectivo Lambda)
- % de test de entrenamiento y pruebas
- Batch Size
- Epocas (Tú decides cuándo parar!)


[**1. Regresión**  ](https://playground.tensorflow.org/#activation=tanh&batchSize=4&dataset=circle&regDataset=reg-gauss&learningRate=1&regularizationRate=0&noise=0&networkShape=4,4,2&seed=0.48832&showTestData=false&discretize=false&percTrainData=80&x=true&y=true&xTimesY=true&xSquared=true&ySquared=true&cosX=false&sinX=true&cosY=false&sinY=true&collectStats=false&problem=regression&initZero=false&hideText=false)  

[**2. Clasificación**](https://playground.tensorflow.org/#activation=tanh&batchSize=10&dataset=spiral&regDataset=reg-plane&learningRate=1&regularizationRate=0&noise=0&networkShape=4,2&seed=0.88013&showTestData=false&discretize=false&percTrainData=50&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=classification&initZero=false&hideText=false)  

## 4b. Mi Primera Red Neuronal  

Una de las librerías más cómodas y amigables para definir redes neuronales es [Keras](https://keras.io/api/).  Es amigable porque empaqueta en una sola librería todas las librerías y funciones necesarias para realizar las operaciones tan complejas que comprenden una Red Neuronal y simplifica su sintaxis.  

Sin embargo, aunque usarla sea muy fácil, en ocasiones es difícil su instalación por toda la complejidad que lleva por dentro:  

Trate de instalar la librería *keras* y de importarla ejecutando la siguiente celda.  Si no es posible de forma fácil vamos a trabajar en la plataforma [Google Colab](https://colab.research.google.com/)

In [None]:
import keras
import tensorflow as tf
import matplotlib.pyplot as plt

Recordemos que una Red Neuronal es, al fin y al cabo, una ecuación.  Vamos a entrenar una Red Neuronal/Ecuación sencilla, de la cuál ya conocemos los coeficientes para poder validar su funcionamiento ya que estamos aprendiendo, por ejemplo: **Transformar Grados Centígrados a Grados Farenheit**.  
Obviamente, podemos recordar o [buscar](https://www.google.com/search?sxsrf=ALeKk02bpoMAGFjDz3hSNDjPDDcynzjCTg%3A1602822358031&source=hp&ei=1SCJX-uDO-fO5gLo-InoCA&q=c+to+f&oq=c+to+f&gs_lcp=CgZwc3ktYWIQAzIECCMQJzIECAAQQzIFCAAQywEyBQgAEMsBMgUIABDLATIFCAAQywEyBQgAEMsBMgUIABDLATIFCAAQywEyBQgAEMsBOgcIABCxAxBDOgUIABCxAzoCCAA6CAgAELEDEIMBOgUILhCxAzoHCAAQFBCHAjoCCC5Q9w5Y4BRg0xVoAHAAeACAAY0BiAGFBZIBAzIuNJgBAKABAaoBB2d3cy13aXo&sclient=psy-ab&ved=0ahUKEwirwqPKorjsAhVnp1kKHWh8Ao0Q4dUDCAc&uact=5) la ecuación y crear una función tradicional que haga el cálculo:  
$$ F = 9/5*C + 32 $$

... pero esto no sería Machine Learning!  Además, no siempre vamos a conocer la ecuación de antemano.  

Por el contrario, vamos a crear un modelo basado en *algunos* valores de grados Celsius, para los que conocemos sus correspondientes valores Farenheit y vamos a dejar que el modelo encuentre la relación entre ellos.

In [None]:
c = [-40, -18, 0, 10, 20, 30, 40,  50, 60, 70, 80, 90]
f = [-40,  0, 32, 50, 68, 86, 104, 122, 140, 158, 176, 194]

Recordemos los tres pasos para implementar una Red Neuronal que vimos en clase:  

**1. Definir el Modelo**  
El modelo se define como un listado de capas a las cuales debemos configurar para cada una, el número de neuronas y la función de activación.  Por ahora, para empezar, vamos a definir solo una capa, Densa, con una sola Neurona:

In [None]:
model = keras.Sequential()
model.add(keras.layers.Dense(1, input_shape=[1]))
model.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_1 (Dense)             (None, 1)                 2         
                                                                 
Total params: 2
Trainable params: 2
Non-trainable params: 0
_________________________________________________________________


El resumen del modelo nos muestra que, aunque no ha sido entrenada, la red tiene una sola capa (*dense*), con una sola salida, y que está preparado para entrenar dos coeficientes/pesos: La neurona de la primera capa y el bias.  

**2. Compilar el Modelo**  
Ahora debemos decirle al Modelo, cómo medir si se está equivocando (*Función de pérdida*), cómo evaluarse a sí mismo (*Métricas*) y cómo ajustar sus valores (*Optimizador*) para ir mejorando en cada época:

In [None]:
model.compile(loss='mean_squared_error',
              optimizer=tf.keras.optimizers.Adam(learning_rate=0.1),
              metrics=['mean_absolute_error'])

**3. Entrenar el Modelo**  
Listo! Ya le indicamos a la red su estructura, y sus métodos de aprendizaje, ahora solo falta indicarle con qué datos se va a entrenar y por cuanto tiempo lo va a hacer (épocas):

In [None]:
history = model.fit(c, f, epochs=500, steps_per_epoch=13)

Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500
Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500
Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Epoch 77/500
Epoch 78

.

Estas 500 épocas se ejecutaron muy rápido!  Cuando estemos trabajando con un dataset real/más grande (Con más atributos y muchísimos más registros) es posible que tome mucho más tiempo, por esto es importante tener en cuenta la cantidad de épocas y pasos en cada época.  

En este ejemplo, vemos como, época a época, el modelo va evolucionando: Disminuye el valor de pérdida (*loss*) y aumentan/disminuyen las métricas elegidas (En este caso, *Error Medio Absoluto*, disminuye!).  
Es mucho mejor ver esta evolución del modelo gráficamente para tomar decisiones:

In [None]:
plt.xlabel('# Epoca')
plt.ylabel("Función de Pérdida (loss)")
plt.plot(history.history['loss'])

Aquí vemos de forma gráfica cómo, en su primer intento (época), el modelo se equivocó muchísimo "adivinando" los coeficientes de la ecuación, es decir el valor del *loss* dió muy alto al elegir los coeficientes aleatoriamente.  Sin embargo, en las siguientes épocas, estos valores se fueron optimizando, disminuyendo el *loss* a casi 0.  

**Ejercicio:**  
Compile y entrene nuevamente el modelo (*model.compile()* y *model.fit()*) sin cambiar ningún parámetro.  Genere nuevamente la gráfica de pérdida.  Qué nota?  

Es muy posible que la gráfica sea diferente cada vez (Es decir: Las Redes Neuronales son **No Determinísticas**).  Esto se debe a:  
- Los valores iniciales se eligen aleatoriamente y son distintos cada vez que se compila/entrena el modelo.  
- Lo mismo pasa con cada época, para modificar los coeficientes de una época a otra usando la función de optimización se toman valores aleatorios muy pequeños (Taza de Aprendizaje, LR).  
- En todo caso, aunque se trata de varias decisiones aleatorias, las "reglas del juego": optimizador, métricas y funcion de pérdida, ayudan al modelo a encaminarse a una buena solución.  

La función model.evaluate() nos va a entregar las métricas correspondientes a la última epoca, la que definió el modelo finalmente:

In [None]:
for p in zip(['loss', 'mean_absolute_error'], model.evaluate(c, f, verbose=False)) :
    print(p)

Vamos a probar el Modelo!  Intentemos pasar un valor con el que no haya sido entrenado (En este caso, como se trata de una ecuación científica muy común, podemos saber el valor real que debería haber retornado)

In [None]:
print(model.predict([38])) # Debería dar 100
print(model.predict([100])) # Debería dar 212
print(model.predict([200])) # Debería dar 392

Como una prueba adicional, vamos a hacer algo que solo podemos hacer en este caso y es validar los pesos asignados por el modelo. Esto porque asignamos una sola capa de una sola neurona (Entonces es sencillo) y porque conocemos la ecuación que estamos buscando (Esto no ocurre nunca!):  
$$ F = 9/5*C + 32 = 1.8*C + 32$$

In [None]:
model.get_weights()

**Taller:**  

Qué pasa si añadimos más capas y neuronas a la Red? O si cambiamos el método de aprendizaje?
- En la definición del modelo, puede agregar cualquiera o varias de las siguientes capas a la función, en cualquier orden y modificar los valores *x* de sus hiperparámetros:
>model = keras.Sequential()  
    **model.add(keras.layers.Dense(x, input_shape=[1]))** # *No cambiar input_shape (#entradas este caso = 1)*
    **model.add(keras.layers.Dense(x))** # *A partir de la 2 capa podemos "jugar" con la cantidad de neuronas*
    **model.add(keras.layers.Dropout(x))** # *También podemos modificar otrss parámetros de cada una*  
    model.add(keras.layers.Dense(1)) # *No cambiar (#salidas este caso = 1)*  
- En las capas principales puede cambiar también la función de activación por los valores: *activation = "relu", "softmax", "sigmoid", "tanh"*
- En la compilación del modelo, intente con otros optimizadores, por ejemplo: *SGD, Adadelta, Adam, RMSprop*
- En el entrenamiento del modelo, pruebe modificando los valores de *epochs* y *steps_per_epoch*  
> Tenga en cuenta que si va a trabajar un problema de **Clasificación**, también puede "jugar" con *loss = "categorical_crossentropy"* y *metrics = ["accuracy", "recall"]*...

Analice cómo cambia la estructura de la red (*summary()*), y como evoluciona en entrenamiento de acuerdo a su nueva configuración (Mejora? Empeora? Aprende más rápido?)  

También note cómo, si agregó más capas o neuronas a la red, la última función de este ejercicio (*get_weights()*) ahora arroja muchos más coeficientes de variables que realmente no podemos entender (**No explicativo**), añadiento muchísima más complejidad al modelo aunque también arroja un resultado **correcto**.

**Taller 2:**  
Cree una Red Neuronal para predecir los valores de nuestro dataset de vinos:
- Es más preciso que el modelo que creó con Machine Learning Tradicional?
- Es más explicativo?
- Es más rápido para entrenarse? Para predecir?