<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/c_10.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
</table>

# Capítulo 10 

# Introducción a las Redes Artificiales con Keras

Los pájaros nos inspiraron a volar, las plantas de bardana inspiraron el velcro y la naturaleza ha inspirado innumerables inventos más.

<img src = 'https://i.blogs.es/1a9d2d/aves-colibri/1366_2000.jpg'>

Parece lógico, entonces, observar la arquitectura del cerebro en busca de inspiración sobre cómo construir una máquina inteligente.

<img src = 'https://www.analyticslane.com/storage/2018/05/redneuronal.png.webp'>

Esta es la lógica que desencadenó las redes neuronales artificiales (ANN): una ANN es un modelo de aprendizaje automático inspirado en las redes de neuronas biológicas que se encuentran en nuestros cerebros.

Sin embargo, aunque los aviones se inspiraron en las aves, no es necesario que aleteen.

De manera similar, las ANN se han vuelto gradualmente bastante diferentes de sus primos biológicos. 

Algunos investigadores incluso argumentan que deberíamos abandonar la analogía biológica por completo (por ejemplo, diciendo "unidades" en lugar de "neuronas"), para no restringir nuestra creatividad a sistemas biológicamente plausibles.

Las ANN están en el centro mismo del Aprendizaje Profundo.

Son versátiles, potentes y escalables, lo que los hace ideales para abordar tareas de aprendizaje automático grandes y muy complejas, como clasificar miles de millones de imágenes (por ejemplo, imágenes de Google), potenciar los servicios de reconocimiento de voz (por ejemplo, Siri de Apple), recomendar los mejores videos para ver a cientos de millones de usuarios todos los días (por ejemplo, YouTube), o aprender a vencer al campeón mundial en el juego de Go (AlphaGo de DeepMind).

La primera parte de este capítulo presenta las redes neuronales artificiales, comenzando con un recorrido rápido por las primeras arquitecturas ANN y llegando a los perceptrones multicapa (MLP), que se usan mucho en la actualidad (se explorarán otras arquitecturas en los próximos capítulos).

En la segunda parte, veremos cómo implementar redes neuronales utilizando la popular API de Keras.

Esta es una API de alto nivel simple y bellamente diseñada para construir, entrenar, evaluar y ejecutar redes neuronales.

Pero no se deje engañar por su simplicidad: es lo suficientemente expresivo y flexible como para permitirle construir una amplia variedad de arquitecturas de redes neuronales.

De hecho, probablemente sea suficiente para la mayoría de sus casos de uso.

Y si alguna vez necesita flexibilidad adicional, siempre puede escribir componentes Keras personalizados utilizando su API de nivel inferior, como veremos en el Capítulo 12.

Pero primero, ¡retrocedamos en el tiempo para ver cómo surgieron las redes neuronales artificiales!

# De las neuronas biológicas a las artificiales

* Sorprendentemente, las ANN existen desde hace bastante tiempo:   
* fueron introducidas por primera vez en 1943 por el neurofisiólogo Warren McCulloch y el matemático Walter Pitts.

En su artículo histórico "Un cálculo lógico de ideas inmanentes en la actividad nerviosa", McCulloch y Pitts presentaron un modelo computacional simplificado de cómo las neuronas biológicas podrían trabajar juntas en cerebros de animales para realizar cálculos complejos utilizando la lógica proposicional.

Esta fue la primera arquitectura de red neuronal artificial.

Desde entonces se han inventado muchas otras arquitecturas, como veremos.

Los primeros éxitos de las ANN llevaron a la creencia generalizada de que pronto estaríamos conversando con máquinas verdaderamente inteligentes.

Cuando quedó claro en la década de 1960 que esta promesa no se cumpliría (al menos durante bastante tiempo), la financiación se fue a otra parte y las ANN entraron en un largo invierno.

A principios de la década de 1980, se inventaron nuevas arquitecturas y se desarrollaron mejores técnicas de entrenamiento, lo que provocó un resurgimiento del interés por el conexionismo (el estudio de las redes neuronales).

Pero el progreso fue lento, y en la década de 1990 se inventaron otras poderosas técnicas de aprendizaje automático, como las máquinas de soporte vectorial (consulte el Capítulo 5).

* Estas técnicas parecían ofrecer mejores resultados y bases teóricas más sólidas que las ANN,   
* por lo que una vez más se suspendió el estudio de las redes neuronales.

Ahora estamos presenciando otra ola de interés en las ANN.

¿Se extinguirá esta ola como lo hicieron las anteriores?

Bueno, aquí hay algunas buenas razones para creer que esta vez es diferente y que el renovado interés en las RNA tendrá un impacto mucho más profundo en nuestras vidas:

* Ahora hay una gran cantidad de datos disponibles para entrenar redes neuronales, 
* y las ANN con frecuencia superan a otras técnicas de ML en problemas muy grandes y complejos.

* El tremendo aumento en el poder de cómputo desde la década de 1990 ahora hace posible entrenar grandes redes neuronales en una cantidad de tiempo razonable.

* Esto se debe en parte a la ley de Moore (la cantidad de componentes en los circuitos integrados se ha duplicado aproximadamente cada 2 años durante los últimos 50 años),  
* pero también gracias a la industria del juego, que ha estimulado la producción de potentes tarjetas GPU por millones.

Además, las plataformas en la nube han hecho que este poder sea accesible para todos.

* Se han mejorado los algoritmos de entrenamiento.

Para ser justos, son solo ligeramente diferentes de los que se usaron en la década de 1990, pero estos ajustes relativamente pequeños han tenido un gran impacto positivo.

Algunas limitaciones teóricas de las ANN han resultado ser benignas en la práctica.

Por ejemplo, muchas personas pensaron que los algoritmos de entrenamiento ANN estaban condenados porque era probable que se quedaran atascados en los óptimos locales, pero resulta que esto es bastante raro en la práctica (y cuando es el caso, por lo general son bastante parecidos a los óptimos globales).

Las ANN parecen haber entrado en un círculo virtuoso de financiación y progreso.

Los productos sorprendentes basados en ANN aparecen regularmente en los titulares de las noticias, lo que atrae cada vez más atención y financiamiento hacia ellos, lo que resulta en más y más progresos y productos aún más sorprendentes.

# Neuronas biológicas

Antes de hablar de las neuronas artificiales, echemos un vistazo rápido a una neurona biológica (representada en la figura 10-1).

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/figure_10_1.jpg?raw=true'>

Es una célula de aspecto inusual que se encuentra principalmente en el cerebro de los animales.

Está compuesto por  

* un cuerpo celular que contiene el núcleo y la mayoría de los componentes complejos de la célula, 

* muchas extensiones ramificadas llamadas dendritas,   

* más una extensión muy larga llamada axón.

La longitud del axón puede ser solo unas pocas veces más larga que el cuerpo celular, o hasta decenas de miles de veces más larga.

* Cerca de su extremo, el axón se divide en muchas ramas llamadas telodendrias, y
* en la punta de estas ramas hay estructuras minúsculas llamadas terminales sinápticas (o simplemente sinapsis), que están conectadas a las dendritas o cuerpos celulares de otras neuronas.

Las neuronas biológicas producen impulsos eléctricos cortos llamados potenciales de acción (AP, o simplemente señales) que viajan a lo largo de los axones y hacen que las sinapsis liberen señales químicas llamadas neurotransmisores. 

Cuando una neurona recibe una cantidad suficiente de estos neurotransmisores en unos pocos milisegundos, dispara sus propios impulsos eléctricos (en realidad, depende de los eurotransmisores, ya que algunos de ellos inhiben el disparo de la neurona).

* Por lo tanto, las neuronas biológicas individuales parecen comportarse de una manera bastante simple, 
* pero están organizadas en una vasta red de miles de millones, con cada neurona típicamente conectada a miles de otras neuronas. 

Una red de neuronas bastante simples puede realizar cálculos muy complejos, al igual que un hormiguero complejo puede surgir de los esfuerzos combinados de hormigas simples.

La arquitectura de las redes neuronales biológicas (BNN, por sus siglas en inglés) sigue siendo objeto de investigación activa, pero se han mapeado algunas partes del cerebro y parece que las neuronas a menudo se organizan en capas consecutivas, especialmente en la corteza cerebral (es decir, la capa externa de su cerebro), como se muestra en la figura 10-2.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/figure_10_2.jpg?raw=true'> 

# Cálculos lógicos con neuronas

* McCulloch y Pitts propusieron un modelo muy simple de neurona biológica, que más tarde se conoció como neurona artificial: 
* tiene una o más entradas binarias (on/off) y una salida binaria.

La neurona artificial activa su salida cuando más de un cierto número de sus entradas están activas.

En su artículo, demostraron que, incluso con un modelo tan simplificado, es posible construir una red de neuronas artificiales que calcule cualquier proposición lógica que desee.

Para ver cómo funciona una red de este tipo, construyamos algunas ANN que realicen varios cálculos lógicos (consulte la figura 10-3), suponiendo que una neurona se activa cuando al menos dos de sus entradas están activas.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/figure_10_3.jpg?raw=true'> 

Veamos qué hacen estas redes:

* La primera red de la izquierda es la función de identidad: 
* si se activa la neurona A, también se activa la neurona C (ya que recibe dos señales de entrada de la neurona A);  
* pero si la neurona A está apagada, entonces la neurona C también lo está.

* La segunda red realiza un AND lógico: 
* la neurona C se activa solo cuando las neuronas A y B están activadas 
* (una sola señal de entrada no es suficiente para activar la neurona C).

* La tercera red realiza un OR lógico: 
* la neurona C se activa si se activa la neurona A o la neurona B (o ambas).

* Finalmente, si suponemos que una conexión de entrada puede inhibir la actividad de la neurona (que es el caso de las neuronas biológicas), entonces la cuarta red calcula una proposición lógica un poco más compleja: la neurona C se activa solo si la neurona A está activa y la neurona B está apagada. 

Si la neurona A está activa todo el tiempo, obtienes un NO lógico:   
* la neurona C está activa cuando la neurona B está apagada, y viceversa.

Puede imaginar cómo se pueden combinar estas redes para calcular expresiones lógicas complejas (vea los ejercicios al final del capítulo para ver un ejemplo).

# The Perceptron

El Perceptron es una de las arquitecturas ANN más simples,   
* inventada en 1957 por Frank Rosenblatt.

* Se basa en una neurona artificial ligeramente diferente (consulte la figura 10-4)   
* denominada unidad lógica de umbral (TLU) o, a veces, 
* unidad de umbral lineal (LTU).

* Las entradas y salidas son números (en lugar de valores binarios de encendido/apagado), 
* y cada conexión de entrada está asociada con un peso.

La TLU calcula una suma ponderada de sus entradas 

$$ (z = w_{1}x_{1} + w_{2}x_{2} + \cdots + w_{n}x_{n} = x^{T}w), $$ 

* luego aplica una función de paso a esa suma y genera el resultado: $h_{w}(x) = step(z)$, donde $z = x^{T}w$.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/figure_10_4.jpg?raw=true'>

La función escalonada más común utilizada en los perceptrones es la función escalonada de Heaviside (consulte la ecuación 10-1). 

A veces se usa la **función signo** en su lugar.

Equation 10-1. Common step functions used in Perceptrons (assuming threshold = 0)


$$ \text{heaviside}(z) = \begin{cases} 0 & \text{si}\ z < 0 \\ 1 & \text{si}\ z \geq 0 \end{cases} $$

$$ sgn(z) = \begin{cases} -1 & \text{si}\ z < 0 \\ 0 & \text{si}\ z = 0 \\ 1 & \text{si}\ z > 0 \end{cases} $$

Se puede utilizar una única TLU para la clasificación binaria lineal simple.

Calcula una combinación lineal de las entradas y, 
* si el resultado supera un umbral, genera la clase positiva. 

De lo contrario, genera la clase negativa   
* (al igual que una regresión logística o un clasificador SVM lineal).

Podría, por ejemplo, usar una sola TLU para clasificar las flores de iris en función de la longitud y el ancho de los pétalos (también agregando una función de sesgo adicional $x_{0} = 1$, tal como lo hicimos en capítulos anteriores).

Entrenar una TLU en este caso significa encontrar los valores correctos para $w_{0}, w_{1}$ y $w_{2}$ (el algoritmo de entrenamiento se analiza en breve).

Un Perceptron se compone simplemente de una sola capa de TLU, con cada TLU conectada a todas las entradas. 

Cuando todas las neuronas de una capa están conectadas a cada neurona de la capa anterior (es decir, sus neuronas de entrada), la capa se denomina capa totalmente conectada o capa densa.

Las entradas del Perceptron se alimentan a neuronas de paso especiales llamadas neuronas de entrada: emiten cualquier entrada que reciban.

Todas las neuronas de entrada forman la capa de entrada.

Además, generalmente se agrega una función de sesgo adicional $(x_{0} = 1)$:   
* generalmente se representa usando un tipo especial de neurona llamada neurona de sesgo, que genera 1 todo el tiempo.

En la figura 10-5 se representa un perceptrón con dos entradas y tres salidas.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/figure_10_5.jpg?raw=true'>

Este Perceptron puede clasificar instancias simultáneamente en tres clases binarias diferentes, 
* lo que lo convierte en un clasificador de salida múltiple.

Gracias a la magia del álgebra lineal, la Ecuación 10-2 hace posible calcular eficientemente las salidas de una capa de neuronas artificiales para varias instancias a la vez.

Ecuación 10-2. Cálculo de las salidas de una capa completamente conectada

$$ h_{w,b}(X) = \phi(XW+ b)  $$

En esta ecuación:

* Como siempre, $X$ representa la matriz de características de entrada. Tiene una fila por instancia y una columna por atributo.

* La matriz de pesos $W$ contiene todos los pesos de conexión excepto los de la neurona de polarización. Tiene una fila por neurona de entrada y una columna por neurona artificial en la capa.

* El vector de sesgo $b$ contiene todos los pesos de conexión entre la neurona de sesgo y las neuronas artificiales. Tiene un término de sesgo por neurona artificial.

* La función $\varphi$ se llama función de activación: cuando las neuronas artificiales son TLU, es una función escalonada (pero discutiremos otras funciones de activación en breve).

Entonces, ¿cómo se forma un Perceptron?

El algoritmo de entrenamiento de Perceptron propuesto por Rosenblatt se inspiró en gran medida en la regla de Hebb.

En su libro de 1949 La Organización del Comportamiento (Wiley), Donald Hebb sugirió que cuando una neurona biológica desencadena a menudo otra neurona, la conexión entre estas dos neuronas se vuelve más fuerte.

Siegrid Löwel luego resumió la idea de Hebb en la frase pegadiza, "Células que disparan juntas, se conectan juntas"; es decir, el peso de la conexión entre dos neuronas tiende a aumentar cuando disparan simultáneamente.

Esta regla más tarde se conoció como la regla de Hebb (o aprendizaje hebbiano).

Los perceptrones se entrenan mediante una variante de esta regla que tiene en cuenta el error que comete la red cuando realiza una predicción; la regla de aprendizaje de Perceptron refuerza las conexiones que ayudan a reducir el error.

Más específicamente, el Perceptron recibe una instancia de entrenamiento a la vez, y para cada instancia hace sus predicciones. 

Por cada neurona de salida que produjo una predicción incorrecta, refuerza los pesos de conexión de las entradas que habrían contribuido a la predicción correcta. 

La regla se muestra en la Ecuación 10-3.

Ecuación 10-3. Regla de aprendizaje de perceptrón (actualización de peso)

$$ w_{i,j}^{(\text{next step})} = w_{i,j} + \eta(y_{j} - \hat{y}_{j})x_{i} $$


En esta ecuación:

* $w_{i,j}$ es el peso de conexión entre la $i$ ésima neurona de entrada y la $j$ ésima neurona de salida.
* $x_{i}$ es el valor de entrada $i$ de la instancia de entrenamiento actual.
* $\hat{y}_{j}$ es la salida de la neurona de salida $j$ para la instancia de entrenamiento actual.
* $y_{j}$ es la salida objetivo de la neurona de salida $j$ para la instancia de entrenamiento actual.
* $\eta$ es la tasa de aprendizaje.

El límite de decisión de cada neurona de salida es lineal, por lo que los perceptrones son incapaces de aprender patrones complejos (al igual que los clasificadores de regresión logística).

Sin embargo, si las instancias de entrenamiento son linealmente separables, Rosenblatt demostró que este algoritmo convergería en una solución.

Esto se llama el teorema de convergencia del perceptrón.

Scikit-Learn proporciona una clase Perceptron que implementa una red de una sola TLU.

Se puede usar más o menos como cabría esperar, por ejemplo, en el conjunto de datos del iris (presentado en el Capítulo 4):

In [1]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron
iris = load_iris()
X = iris.data[:, (2, 3)] # petal length, petal width
y = (iris.target == 0).astype(np.int64) # Iris setosa?
per_clf = Perceptron()
per_clf.fit(X, y)
y_pred = per_clf.predict([[2, 0.5]])
y_pred

array([0], dtype=int64)

Es posible que haya notado que el algoritmo de aprendizaje de Perceptron se parece mucho al descenso de gradiente estocástico.

De hecho, la clase Perceptron de Scikit-Learn es equivalente a usar un SGDClassifier con los siguientes hiperparámetros: `loss="perceptron", learning_rate="constant", eta0=1` (la tasa de aprendizaje) y `penalty=None` (no regularización).

Tenga en cuenta que, a diferencia de los clasificadores de regresión logística, los perceptrones no generan una probabilidad de clase; más bien, hacen predicciones basadas en un umbral estricto.

Esta es una de las razones para preferir la regresión logística a los perceptrones.

En su monografía Perceptrons de 1969, Marvin Minsky y Seymour Papert destacaron una serie de debilidades graves de los perceptrones, en particular, el hecho de que son incapaces de resolver algunos problemas triviales (por ejemplo, el problema de clasificación Exclusive OR (XOR); consulte el lado izquierdo de la Figura 10-6).

This is true of any other linear classification model (such as Logistic Regression classifiers), but researchers had expected much more from Perceptrons, and some were so disappointed that they dropped neural networks altogether in favor of higher-level problems such as logic, problem solving, and search.

It turns out that some of the limitations of Perceptrons can be eliminated by stacking multiple Perceptrons. The resulting ANN is called a Multilayer Perceptron (MLP). 

An MLP can solve the XOR problem, as you can verify by computing the output of the MLP represented on the right side of Figure 10-6: with inputs (0, 0) or (1, 1), the network outputs 0, and with
inputs (0, 1) or (1, 0) it outputs 1. 

All connections have a weight equal to 1, except the four connections where the weight is shown. Try verifying that this network indeed solves the XOR problem!

## The Multilayer Perceptron and Backpropagation


An MLP is composed of one (passthrough) input layer, one or more layers of TLUs, called hidden layers, and one final layer of TLUs called the output layer (see Figure 10-7). 

The layers close to the input layer are usually called the lower layers, and the ones close to the outputs are usually called the upper layers. 

Every layer except the output layer includes a bias neuron and is fully connected to the next layer.