**CREAR EL SISTEMA DE MACHINE LEARNING MÁS SENCILLO: UNA CAPA, DE UNA NEURONA, CON UN INPUT**

Importar TensorFlow y Keras como las librerias que contienen las funciones para definir las redes.

Importar `numpy` que es la libreria especilizada en manejar arrays.

In [1]:
import tensorflow as tf
import numpy as np
from tensorflow import keras


**PASO 1 - PARA CREAR UNA RED NEURONAL: Definición del modelo**


*   Existen 3 formas de crear los modelos con TensorFlow
        *  Sequential Model: modelos simples
        *  Functional API: modelos complejos con múltiples inputs y outputs
        *  Model Subclassing: modelos totalmente personalizables

*  Ejemplo con una neurona, una capa, un input, y sin función de activación: 
          * *nombre del modelo* = tf.keras.Sequential()
          * Defino cada capa como [keras.layers. *tipo de capa*]
          * En este ejemplo se añade una capa de tipo Dense, con una unidad o neurona y con solo un input de entrada.





In [2]:
model = tf.keras.Sequential([keras.layers.Dense(units=1, input_shape=[1])])

**PASO 2 -** **Compilación del modelo**


1.   Definición de la *función de pérdida*: función de error, cuantificación de la diferencia entre la predicción y la realidad (error cuadrático medio, función de entropía cruzada...)

2.   Definición de la *función de optimización*: descripción de como se comportará el modelo para reducir el error (descenso de gradiente, descenso de gradiente estocástico, tasa de aprendizaje...)

![texto alternativo](https://drive.google.com/file/d/16Bh-8KhHipxSePRt9oV-h6YzEV3z6E78/view?usp=sharing)


Cada situación tendrá una *función de pérdida* y una de *optimización* óptimas

Para definirlas, se utiliza "*nombre del modelo* .compile (optimizer= *nombre del optimizador*, loss= *nombre de la función de pérdida*)

Ejemplo utilizando para el modelo llamado "modelo" la función de optimización SGD y como de pérdida el error cuadrático medio.

In [3]:
model.compile(optimizer='sgd', loss='mean_squared_error')

**PASO 3 -** **Introducción del dataset para el entrenamiento y validación**


*   La red pide de entrada un tensor, de ahí el nombre de TensorFlow, son operaciones con tensores, flujos de tensores
*   Utilizaremos como tensor de entrada una matriz, es decir, un array
*   Útil la biblioteca numpy para manejar arrays, en especial su funcion np.array(), a la cual le podemos pasar de argumento una lista y nos la transforma en array.

* Ahora, le introduciremos a la neurona artificial que ya hemos programado los valores de PCR de pacientes con sospecha de colecistitis (le asignaremos la varible y), y los valores de bilirrubina de esos pacientes (variable x), con el fin de predecir cuanto vale la PCR en pacientes con sospecha de colecistitis a partir de la bilirrubina.

* En un espacio bidemensional cartesiano, cada paciente sería un punto con las coordenadas (x - bilirrubina, y - PCR). Por ejemplo el paciente 1 que tiene una bilurribina de 0 (x) presenta una PCR de 1 (y), seria el (0,1).

* De esta forma, introducimos como entrada un array con los valores de bilirrubina que llamamos xs y un array con los valores de PCR, con sus soluciones, que llamamos ys, para que la neurona encuentre las relaciones y aprenda a predecir en el futuro las PCR a partir de las cifras de bilirrubina.


In [4]:
#importante: la red entiende que al paciente del array xs 1 le corresponde la etiqueta del array ys 1#
#podemos, o no, en la función np.array definir el tipo de dato, en este caso es un float, son decimales#

xs = np.array([0.0, 1.0, 2.0, 3.0, 4.0, 5.0], dtype=float)
ys = np.array([1.0, 4.0, 7.0, 10.0, 13.0, 16.0], dtype=float)

**PASO 4 - Configuración del entrenamiento**


* La red empieza probando con unos hiperparámetros aleatorios.

* Ajustará esos hiperparámetros (pesos, bias,...) por cada batch de datos y repetirá el proceso un número de veces, un número de épocas.

* Es decir, si tenemos 10 datos en nuestro dataset, y le decimos a la red que el batch es igual a 2 y las épocas igual a 3, la red cogerá los 2 primeros datos, y hará una predicción con sus hiperparámetros, luego comparará su resultado con la solución y estimará su error en base a la función de pérdida que le hemos programado, y corregirá sus hiperparámetros en base a la función de optimización que le hemos dado; después de lo cual cogerá el siguiente batch, otros 2 datos, y así 5 veces hasta haber utilizado los 10 datos. Una vez llege a 10 habrá completado la primera época, la primera vuelta al dataset, y empezará con la segunda hasta llegar a 3.



In [5]:
model.fit(xs, ys, epochs=500)

Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500
Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500
Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Epoch 77/500
Epoch 78

<keras.callbacks.History at 0x7f366c90b1d0>

**PASO 5 - Probar el modelo**

*   Podemos ahora intentar predicir el valor de Y para un valor de X y por tanto probar el modelo con la siguiente función: print ( *nombre del modelo* .predict ( [*valor x* ,0] )

* Notar que el ejemplo anterior, la función que seguían nuestros valores y que debía encontrar la red era = f(x)=3x+1; por tanto si por ejemplo probamos con X=10, la red debería decirnos que el valor de PCR es de 31. Sin embargo nos da un valor próximo, pero no exactamente 31. Esto es porque, aunque en nuestro ejemplo los 6 valores introducidos se aproximaban de forma perfecta a esa función f(x)=3x+1, en la realidad son pocos valores para concluir por una muestra tan pequeña que toda la realidad se ajustaría a eso. La probabilidad de que la población en realidad se ajuste a esta recta a la perfección y que sea casualidad que la muestra obtenida a partir de la misma lo haga, esta comtemplada por la red y por eso la predicción dada no es exactamente 31.

* Notar también que si en la parte de arriba "Entorno de ejecución" reiniciamos el entorno y volvemos a correr el código, la predicción será ligeramente distinta.

* Esta práctica sirve en buena medida de introducción a la programación de redes y a uno de los dos grandes problemas que a día de hoy situan a las redes neuronales como gold standard: los problemas de regresión. El otro problema (siguiente práctica) que las redes solventan como ningún otro problema son los problemas de clasificación.

In [6]:
print(model.predict([10.0]))

[[31.003828]]
