# Primer caso con TensorFlow. Programando una Red Neuronal sencilla

Autor: [Laurence Moroney](https://www.coursera.org/instructor/lmoroney). TensorFlow in Practice (Coursera--Deep Learning.ai)

\\
Adaptado y traducido por: \\

Alejandro E. Martínez-Castro amcastro@ugr.es \\
Departamento de Mecánica de Estructuras e Ingeniería Hidráulica \\
ETS de Ingeniería de Caminos, Canales y Puertos
Universidad de Granada \\




## Introducción

He encontrado este material dentro del curso de especialización ofrecido por la plataforma Coursera "TensorFlow in Practice". El principal instructor es Laurence Moroney. 

Me he permitido traducir al castellano algunos de los cuadernos, incorporarle código propio (mínimo) y aclarar ciertos comentarios. 

Estos cuadernos necesitan una adaptación mínima para correr bajo TensorFlow 2.0. Se irán adaptando sobre la marcha. Se recomienda usarlos en la plataforma Google Colab. 

Gracias

*Alejandro E. Martínez Castro*

## Comenzamos

Como siempre ocurre cuando se empieza, debemos empezar con algo muy sencillo. 

Para ilustrar cómo crear una red neuronal, vamos a empezar con un ejemplo que permita relacionar dos números. Imaginemos que escribimos un pequeño código para una función. Obviamente, al programar una función se conoce perfectamente la relación entre las variables $y$ y $x$ . Conocemos por tanto las 'reglas'. Supongamos que $y(x) = (2\,x) - 1$. Nuestra función, en Python, se escribirá como sigue:


```
def funcion(x):
    return 2 * x - 1;
```
¿Cómo podemos entrenar una red neuronal que realice una tarea similar?. ¡Usando datos!. Debemos generar un conjunto de datos en X y en Y para poder deducir una relación entre ellos. 

Este paradigma es diferente. 


## Nuevos módulos a importar

Comenzaremos importando módulos. Vamos a importar TensorFlow, y lo llamaremos "tf" (un nombre corto) para facilitar su uso. 

Luego, vamos a importar una librería que se llama "numpy", que es la principal librería de Python para operar con números y vectores. Incluye funciones optimizadas que permite representar los datos como listas y operar con rapidez. 

El marco de trabajo para definir una red neuronal como un conjunto de capas se llama "keras", con lo cual, lo importaremos también. 



In [1]:
import tensorflow as tf
import numpy as np
from tensorflow import keras

## Definición y compilación de la Red Neuronal

A contunuación crearemos la red neuronal más simple posible. Tendrá una capa, con una neurona. La entrada tendrá 1 valor. 

In [0]:
model = tf.keras.Sequential([keras.layers.Dense(units=1, input_shape=[1])])

A continuación compilaremos la red neuronal. Cuando lo hagamos, tendremos que especificar dos funciones: una función de pérdida (loss) y un optimizador (optimizer). 

Toda la matemática que suele aparecer en un proyecto de aprendizaje de máquinas (Machine Learning) está encapsulado en funciones de TensorFlow, disponibles para el usuario. Veamos cómo funciona. 

Sabemos que en nuestra función, la relación entre los números viene dada por $y(x) = 2 \,x - 1$. 

Cuando el ordenador está intentando "aprender", lo que hace es probar distintas funciones de prueba, como $y(x) = 10\,x + 10$. La función de pérdida (LOSS) mide la distancia entre la respuesta generada por las funciones de prueba, y la respuesta real conocida. 

Para realizar una nueva prueba, utiliza un optimizador (OPTIMIZER) para generar una nueva función de prueba. Esta nueva función se basa en la función de pérdida calculada, y tratará de minimizar la función de pérdida. Imaginemos que se propone como nueva función la $y(x) = 5\,x + 5$. Está más cerca de la solución correcta, aunque sigue sin ser la solución exacta (la pérdida es menor). 

Este proceso se repetirá durante un número de iteraciones, o épocas (EPOCHS). Existen varias formas de obtener la función de pérdida. Una podría basarse en la suma cuadrática de las diferencias entre la solución exacta y la solución de prueba. Esto puede obtenerse con 'MEAN SQUARED ERROR' (error cuadrático medio). Para elegir una nueva función candidata, podemos emplear el método de descenso por gradiente estocástico ('STOCHASTIC GRADIENT DESCENT') para el optimizador. 

Con el tiempo y experiencia se aprenderá a seleccionar las funciones de pérdida y optimizador adecuadas. 

In [0]:
model.compile(optimizer='sgd', loss='mean_squared_error')

## Generación de los datos

A continuación generaremos un conjunto de datos. Vamos a generar 6 muestras de datos en $x$, y 6 valores de $y$ correctamente calculados. La relación entre los datos cumple exactamente la relación y = 2x - 1. Si x= -1, y = -3, etc. 

La generación de datos se realizará como sigue: 


In [9]:
xs = np.array([-1.0,  0.0, 1.0, 2.0, 3.0, 4.0])

def funcion(x):
  return 2*x - 1

ys = funcion(xs)

print("Vector de xs = ", xs)
print("Vector de ys = ", ys)

Vector de xs =  [-1.  0.  1.  2.  3.  4.]
Vector de ys =  [-3. -1.  1.  3.  5.  7.]


# Entrenando la Red Neuronal

In [10]:
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_1 (Dense)              (None, 1)                 2         
Total params: 2
Trainable params: 2
Non-trainable params: 0
_________________________________________________________________


El proceso de entrenar la red neuronal, en la que "aprende" la relación entre los valores de Xs y Ys es realizado por **model.fit**. Es aquí donde se realiza en proceso iterativo que permite ajustar los parámetros del modelo, en base a la función de pérdida e iterando según el optimizador, produciendo soluciones cada vez mejores. El proceso es iterativo, repitiéndose el número de veces definidas por EPOCH. 

A continuación se muestra el bloque de código que realiza este ajuste. Se observarán los valores de ambos parámetros durante los ciclos. 

In [11]:
model.fit(xs, ys, epochs=500)

Train on 6 samples
Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500
Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500
Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Ep

<tensorflow.python.keras.callbacks.History at 0x7f280bb9def0>

El modelo ha sido entrenado para aprender la relación existente entre X e Y. En este momento es posible usar **model.predict** para hacer predicciones de valores de Y para valores de X que no se han aportado al modelo en el entrenamiento. Por ejemplo, podemos probar para X = 10. Si funcionase correctamente, Y(10) = 2*10-1 = 19. 

Probemos. 

In [0]:
print(model.predict([10.0]))

[[18.976393]]


¿Qué ha ocurrido?. Deberíamos haber obtenido el valor Y=19. ¿Verdad?. En su lugar, se ha obtenod un valor cercano a este valor. ¿Por qué ocurre esto?

Las redes neuronales manejan probabilidades. En ningún momento se ha presupuesto una relación lineal. Desde el punto de vista matemático, existen más soluciones al problema de interpolación exacta: las soluciones polinómicas, por ejemplo, incluyen oscilaciones para puntos de predicción diferentes a los puntos de interpolación. 

Dados los datos, la red neuronal ha planteado que es muy probable que la relación entre X e Y venga dada por Y = 2X - 1, pero únicamente con 6 puntos, no puede predecirlo con seguridad. En consecuencia, el resultado para X=10 está próximo al 19, pero no es exactamente 19. 

Cuando se trabaja con redes neuronales, este patrón es recurrente. A menudo se manejan probabilidades, no certezas.