# INTRODUCCIÓN A DEEP LEARNING

## ¿Qué es el aprendizaje profundo?

* Algunos de los avances más impresionantes en inteligencia artificial de los últimos años se han producido en el campo del aprendizaje profundo.

* El procesamiento del lenguaje natural, el reconocimiento de imágenes y los juegos son tareas en las que los modelos de aprendizaje profundo se han acercado o incluso superado el rendimiento a nivel humano.

* ¿Qué es el aprendizaje profundo? El aprendizaje profundo es un enfoque del aprendizaje automático que ha permitido identificar tipos de patrones complejos y jerárquicos que se encuentran en los conjuntos de datos más desafiantes del mundo real.

El objetivo principal es presentar un proyecto sencillo de Deep Learning y practicar los principales usos de bibliotecas como `keras` o `tensorflow`.

# Load Data


In [None]:
#!pip install tensorflow

In [1]:
# first neural network with keras tutorial

from numpy import loadtxt
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

#
import warnings
warnings.filterwarnings('ignore')

En esta clase de Keras, utilizaremos el conjunto de datos sobre el inicio de la diabetes de la población originaria Pima.

Este es un conjunto de datos de aprendizaje automático estándar del repositorio [UCI Machine Learning](https://archive.ics.uci.edu/). Los datos consisten en los registros médicos de los indios Pima.

Como tal, se trata de un problema de clasificación binaria (inicio de diabetes como 1 o no como 0).

Todas las variables de entrada que describen a cada paciente son numéricas--esto facilita su uso directamente con redes neuronales que esperan valores numéricos de entrada y salida y es una opción ideal para nuestra primera red neuronal en Keras--.

El conjunto de datos está disponible [aquí](https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv). Es un archivo CSV del conjunto de datos (pima-indians-diabetes.csv). Los detalles del conjunto de datos esta disponible [aquí](https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.names).

The variables can be summarized as follows:

Input Variables (X):

* Number of times pregnant
* Plasma glucose concentration at 2 hours in an oral glucose tolerance test
* Diastolic blood pressure (mm Hg)
* Triceps skin fold thickness (mm)
* 2-hour serum insulin (mu U/ml)
* Body mass index (weight in kg/(height in m)^2)
* Diabetes pedigree function
* Age (years)

Output Variables (y):

* Class variable (0 or 1)


In [2]:
#
dataset = loadtxt('https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv', delimiter=',')

dataset

array([[  6.   , 148.   ,  72.   , ...,   0.627,  50.   ,   1.   ],
       [  1.   ,  85.   ,  66.   , ...,   0.351,  31.   ,   0.   ],
       [  8.   , 183.   ,  64.   , ...,   0.672,  32.   ,   1.   ],
       ...,
       [  5.   , 121.   ,  72.   , ...,   0.245,  30.   ,   0.   ],
       [  1.   , 126.   ,  60.   , ...,   0.349,  47.   ,   1.   ],
       [  1.   ,  93.   ,  70.   , ...,   0.315,  23.   ,   0.   ]])

In [3]:
# split into input (X) and output (y) variables
X = dataset[:,0:8]
y = dataset[:,8]

In [4]:
#
X

array([[  6.   , 148.   ,  72.   , ...,  33.6  ,   0.627,  50.   ],
       [  1.   ,  85.   ,  66.   , ...,  26.6  ,   0.351,  31.   ],
       [  8.   , 183.   ,  64.   , ...,  23.3  ,   0.672,  32.   ],
       ...,
       [  5.   , 121.   ,  72.   , ...,  26.2  ,   0.245,  30.   ],
       [  1.   , 126.   ,  60.   , ...,  30.1  ,   0.349,  47.   ],
       [  1.   ,  93.   ,  70.   , ...,  30.4  ,   0.315,  23.   ]])

In [6]:
#
y

array([1., 0., 1., 0., 1., 0., 1., 0., 1., 1., 0., 1., 0., 1., 1., 1., 1.,
       1., 0., 1., 0., 0., 1., 1., 1., 1., 1., 0., 0., 0., 0., 1., 0., 0.,
       0., 0., 0., 1., 1., 1., 0., 0., 0., 1., 0., 1., 0., 0., 1., 0., 0.,
       0., 0., 1., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 1., 0., 1., 0.,
       0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1.,
       0., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 1., 0.,
       0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 0., 0., 1., 1., 1., 0., 0.,
       0., 1., 0., 0., 0., 1., 1., 0., 0., 1., 1., 1., 1., 1., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 1.,
       0., 1., 1., 0., 0., 0., 1., 0., 0., 0., 0., 1., 1., 0., 0., 0., 0.,
       1., 1., 0., 0., 0., 1., 0., 1., 0., 1., 0., 0., 0., 0., 0., 1., 1.,
       1., 1., 1., 0., 0., 1., 1., 0., 1., 0., 1., 1., 1., 0., 0., 0., 0.,
       0., 0., 1., 1., 0., 1., 0., 0., 0., 1., 1., 1., 1., 0., 1., 1., 1.,
       1., 0., 0., 0., 0.

## Define Keras Model

Los modelos en Keras se definen como una secuencia de capas.

Creamos un modelo secuencial y agregamos capas una a la vez hasta que estemos satisfechos con nuestra arquitectura de red.

Lo primero que hay que hacer es asegurarse de que la capa de entrada tenga la cantidad correcta de entidades de entrada. Esto se puede especificar al crear la primera capa con el argumento ``input_shape`` y configurarlo en ``(8,)`` para presentar las ocho variables de entrada como un vector.

### ¿Cómo sabemos el número de capas y sus tipos?

Esta es una pregunta complicada.

Hay heurísticas que puede utilizar y, a menudo, la mejor estructura de red se encuentra mediante un proceso de experimentación de prueba y error.

Generalmente, necesita una red lo suficientemente grande como para capturar la estructura del problema.

En este ejemplo, usemos una estructura de red completamente conectada con tres capas.

Las capas completamente conectadas se definen mediante la clase ``Dense``.

Puede especificar el número de neuronas o nodos en la capa como primer argumento y la función de activación utilizando el argumento ``activation``.

**Además, utilizaremos la función de activación de unidad lineal rectificada denominada ``ReLU`` en las dos primeras capas y la función ``Sigmoide`` en la capa de salida.**

Solía darse el caso de que las funciones de activación ``Sigmoide`` y ``Tanh`` eran preferidas para todas las capas. Hoy en día, se logra un mejor rendimiento utilizando la función de activación ``ReLU``.

**El uso de un sigmoide en la capa de salida garantiza que la salida de su red esté entre 0 y 1 y es fácil de asignar a una probabilidad de clase 1 o ajustarse a una clasificación estricta de cualquier clase con un umbral predeterminado de 0.5.**

En resumen:

* El modelo espera filas de datos con 8 variables (el argumento ``input_shape = (8,)``).
* La primera capa oculta tiene 12 nodos y utiliza la función de activación ``ReLU``.
* La segunda capa oculta tiene 8 nodos y utiliza la función de activación ``ReLU``.
* La capa de salida tiene un nodo y utiliza la función de activación ``sigmoide``.

In [7]:
#
model = Sequential()

model.add(Dense(12, input_shape = (8,), activation = 'relu'))

model.add(Dense(8, activation = 'relu'))

model.add(Dense(1, activation = 'sigmoid'))

## Compile Keras Model

La compilación del modelo utiliza bibliotecas numéricas eficientes (el llamado backend), como Theano o TensorFlow.

El backend elige automáticamente la mejor manera de representar la red para entrenar y hacer predicciones para ejecutar en su hardware, como CPU, GPU o incluso distribuido.

Al compilar, se debe especificar algunas propiedades adicionales necesarias al entrenar la red. Recuerde entrenar una red significa encontrar el mejor conjunto de ponderaciones para asignar entradas a salidas en su conjunto de datos.

Debe especificar la función de pérdida que se utilizará para evaluar un conjunto de ponderaciones, el optimizador utilizado para buscar diferentes ponderaciones para la red y cualquier métrica opcional que desee recopilar e informar durante el entrenamiento.

En este caso, utilizamos la **entropía cruzada** como argumento de pérdida. Esta pérdida es para problemas de clasificación binaria y se define en Keras como "binary_crossentropy".

Definiremos el optimizador como el eficiente algoritmo de descenso de gradiente estocástico "adam". Esta es una versión popular del descenso de gradiente porque se sintoniza automáticamente y da buenos resultados en una amplia gama de problemas.

Finalmente, debido a que se trata de un problema de clasificación, recopilará e informará la precisión de la clasificación definida mediante el argumento de métricas.

In [8]:
# compile the keras model
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

## Fit Keras Model

Ahora es el momento de ejecutar el modelo con algunos datos.

Entrenamos o ajustamos el modelo a los datos cargados llamando a la función fit() en el modelo.

El entrenamiento se produce a lo largo de épocas (epoch) y cada época se divide en lotes (batches).

* Época: una pasada por todas las filas del conjunto de datos de entrenamiento

* Lote: una o más muestras consideradas por el modelo dentro de una época antes de que se actualicen los pesos.

**Una época comprende uno o más lotes, según el tamaño de lote elegido, y el modelo es apto para muchas épocas.**

El proceso de entrenamiento se ejecutará durante un número fijo de épocas (iteraciones) a través del conjunto de datos que debe especificar mediante el argumento epochs.

Se debe establecer el número de filas del conjunto de datos que se consideran antes de que se actualicen los pesos del modelo dentro de cada época, denominado tamaño de lote, y establecerlo mediante el argumento batch_size.

Nuestro problema se ejecutará durante una pequeña cantidad de épocas (150) y utilizará un tamaño de lote relativamente pequeño de 10.

**Estas configuraciones se pueden elegir experimentalmente mediante prueba y error.**

In [9]:
# fit the keras model on the dataset
model.fit(X, y, epochs=150, batch_size=10)

Epoch 1/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 2ms/step - accuracy: 0.6172 - loss: 5.6115
Epoch 2/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5394 - loss: 2.0669
Epoch 3/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5985 - loss: 1.1785
Epoch 4/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6289 - loss: 0.8083
Epoch 5/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5835 - loss: 0.9072
Epoch 6/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6181 - loss: 0.7569
Epoch 7/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6349 - loss: 0.7030
Epoch 8/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6265 - loss: 0.7063
Epoch 9/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━━

<keras.src.callbacks.history.History at 0x79026e048df0>

## Evaluate Keras Model

Una vez entrenada nuestra red neuronal en todo el conjunto de datos y podemos evaluar el rendimiento de la red en el mismo conjunto de datos.

Esto nos dará una idea de qué tan bien ha modelado el conjunto de datos, pero no da idea de qué tan bien podría funcionar el algoritmo con datos nuevos.

**Esto se hizo por simplicidad, pero lo ideal sería separar los datos en conjuntos de datos de entrenamiento y prueba para entrenar y evaluar su modelo.**

Podemos evaluar el modelo en el conjunto de datos de entrenamiento usando la función evaluate() y pasarle la misma entrada y salida utilizada para entrenar el modelo.

Esto generará una predicción para cada par de entrada y salida y recopilará puntuaciones, incluida la pérdida promedio y cualquier métrica que haya configurado, como la precisión.

La función evaluate() devolverá una lista con dos valores. El primero será la pérdida del modelo en el conjunto de datos y el segundo será la precisión del modelo en el conjunto de datos. Habitualmente sólo interesa informar la precisión, así que podemos ignorar el valor de la pérdida.

In [10]:
# evaluate the keras model
_, accuracy = model.evaluate(X, y)
print('Accuracy: %.2f' % (accuracy*100))

[1m24/24[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.7633 - loss: 0.5041  
Accuracy: 77.21


## Nota importante:

Si intenta ejecutar este ejemplo en una computadora portátil IPython o Jupyter, es posible que obtenga un error.

El motivo son las barras de progreso de salida durante el entrenamiento. Puede desactivarlos fácilmente configurando verbose=0 en la llamada a las funciones fit() y evalua(); Por ejemplo:

In [11]:
# fit the keras model on the dataset without progress bars
model.fit(X, y, epochs=150, batch_size=10, verbose=0)
# evaluate the keras model
_, accuracy = model.evaluate(X, y, verbose=0)

## Make Predictions

In [12]:
# make probability predictions with the model
predictions = model.predict(X)

predictions[:10]

[1m24/24[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step 


array([[0.5954436 ],
       [0.03243219],
       [0.65731096],
       [0.08724378],
       [0.8175848 ],
       [0.5630313 ],
       [0.12893862],
       [0.60800904],
       [0.9881328 ],
       [0.631555  ]], dtype=float32)

In [13]:
# round predictions
rounded = [round(x[0]) for x in predictions]

rounded[:10]

[1, 0, 1, 0, 1, 1, 0, 1, 1, 1]

In [14]:
# Alternately, you can convert the probability into 0 or 1 to predict crisp classes directly; for example:

# make class predictions with the model
predictions = (model.predict(X) > 0.5).astype(int)

predictions[:10]

[1m24/24[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step 


array([[1],
       [0],
       [1],
       [0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [1]])