<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/c_10.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
</table>

# Capítulo 10 

# Introducción a las Redes Artificiales con Keras

* Los pájaros nos inspiraron a volar,   
* las plantas de bardana inspiraron el velcro y   
* la naturaleza ha inspirado innumerables inventos más.

<img src = 'https://i.blogs.es/1a9d2d/aves-colibri/1366_2000.jpg'>

<img src = 'https://www.yateenteraste.mx/wp-content/uploads/2021/05/velcro-origen.jpg'> 

Parece lógico, entonces, observar la arquitectura del cerebro en busca de inspiración sobre cómo construir una máquina inteligente.

<img src = 'https://www.analyticslane.com/storage/2018/05/redneuronal.png.webp'>

Esta es la lógica que desencadenó las redes neuronales artificiales (ANN): 
* una ANN es un modelo de aprendizaje automático inspirado en las redes de neuronas biológicas que se encuentran en nuestros cerebros.

Sin embargo, aunque los aviones se inspiraron en las aves, no es necesario que aleteen.

De manera similar, las ANN se han vuelto gradualmente bastante diferentes de sus primos biológicos. 

Algunos investigadores incluso argumentan que deberíamos abandonar la analogía biológica por completo   

* (por ejemplo, diciendo "unidades" en lugar de "neuronas"), para no restringir nuestra creatividad a sistemas biológicamente plausibles.

Las ANN están en el centro mismo del Aprendizaje Profundo.

Son versátiles, potentes y escalables,   
* lo que los hace ideales para abordar tareas de aprendizaje automático grandes y muy complejas,   
* como clasificar miles de millones de imágenes (por ejemplo, imágenes de Google),   
* potenciar los servicios de reconocimiento de voz (por ejemplo, Siri de Apple),  

 
* recomendar los mejores videos para ver a cientos de millones de usuarios todos los días (por ejemplo, YouTube),   
* o aprender a vencer al campeón mundial en el juego de Go (AlphaGo de DeepMind).

La primera parte de este capítulo presenta las redes neuronales artificiales, comenzando con un recorrido rápido por las primeras arquitecturas ANN y llegando a los perceptrones multicapa (MLP), que se usan mucho en la actualidad (se explorarán otras arquitecturas en los próximos capítulos).

En la segunda parte, veremos cómo implementar redes neuronales utilizando la popular **API de Keras**.

Esta es una API de alto nivel simple y bellamente diseñada para  
* construir, 
* entrenar, 
* evaluar y 
* ejecutar redes neuronales.

Pero no se deje engañar por su simplicidad:  

* es lo suficientemente expresivo y flexible como para permitirle construir una amplia variedad de arquitecturas de redes neuronales.

De hecho, probablemente sea suficiente para la mayoría de sus casos de uso.

Y si alguna vez necesita flexibilidad adicional, siempre puede escribir componentes Keras personalizados utilizando su API de nivel inferior, como veremos en el Capítulo 12.

Pero primero, ¡retrocedamos en el tiempo para ver cómo surgieron las redes neuronales artificiales!

# De las neuronas biológicas a las artificiales

* Sorprendentemente, las ANN existen desde hace bastante tiempo:   
* fueron introducidas por primera vez en 1943 por el neurofisiólogo Warren McCulloch y el matemático Walter Pitts.

En su artículo histórico "Un cálculo lógico de ideas inmanentes en la actividad nerviosa",  

* McCulloch y Pitts presentaron un modelo computacional simplificado de cómo las neuronas biológicas podrían trabajar juntas en cerebros de animales para realizar cálculos complejos utilizando la lógica proposicional.

Esta fue la primera arquitectura de red neuronal artificial.

Desde entonces se han inventado muchas otras arquitecturas, como veremos.

Los primeros éxitos de las ANN llevaron a la creencia generalizada de que pronto estaríamos conversando con máquinas verdaderamente inteligentes.

Cuando quedó claro en la década de 1960 que esta promesa no se cumpliría (al menos durante bastante tiempo), la financiación se fue a otra parte y las ANN entraron en un largo invierno.

A principios de la década de 1980, se inventaron nuevas arquitecturas y se desarrollaron mejores técnicas de entrenamiento, lo que provocó un resurgimiento del interés por el conexionismo (el estudio de las redes neuronales).

Pero el progreso fue lento, y en la década de 1990 se inventaron otras poderosas técnicas de aprendizaje automático, como las máquinas de soporte vectorial (consulte el Capítulo 5).

* Estas técnicas parecían ofrecer mejores resultados y bases teóricas más sólidas que las ANN,   
* por lo que una vez más se suspendió el estudio de las redes neuronales.

Ahora estamos presenciando otra ola de interés en las ANN.

¿Se extinguirá esta ola como lo hicieron las anteriores?

Bueno, aquí hay algunas buenas razones para creer que esta vez es diferente y que 
* el renovado interés en las RNA tendrá un impacto mucho más profundo en nuestras vidas:

* Ahora hay una gran cantidad de datos disponibles para entrenar redes neuronales, 
* y las ANN con frecuencia superan a otras técnicas de ML en problemas muy grandes y complejos.

* El tremendo **aumento en el poder de cómputo** desde la década de 1990 ahora hace posible entrenar grandes redes neuronales en una cantidad de tiempo razonable.

* Esto se debe en parte a la ley de Moore (la cantidad de componentes en los circuitos integrados se ha duplicado aproximadamente cada 2 años durante los últimos 50 años),  
* pero también gracias a la industria del juego, que ha estimulado la producción de potentes **tarjetas GPU** por millones.

Además, **las plataformas en la nube** han hecho que este poder sea accesible para todos.

* Se han mejorado **los algoritmos de entrenamiento**.

Para ser justos, son solo ligeramente diferentes de los que se usaron en la década de 1990, pero estos ajustes relativamente pequeños han tenido un gran impacto positivo.

Algunas limitaciones teóricas de las ANN han resultado ser benignas en la práctica.

Por ejemplo, muchas personas pensaron que los algoritmos de entrenamiento ANN estaban condenados porque era probable que se quedaran atascados en **los óptimos locales**,   
* pero resulta que esto es bastante raro en la práctica (y cuando es el caso, por lo general son bastante parecidos a los óptimos globales).

Las ANN parecen haber entrado en un círculo virtuoso de financiación y progreso.

Los productos sorprendentes basados en ANN aparecen regularmente en los titulares de las noticias,   
* lo que atrae cada vez más atención y financiamiento hacia ellos, lo que resulta en más y más progresos y productos aún más sorprendentes.

# Neuronas biológicas

Antes de hablar de las neuronas artificiales, echemos un vistazo rápido a una neurona biológica (representada en la figura 10-1).

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/figure_10_1.jpg?raw=true'>

Es una célula de aspecto inusual que se encuentra principalmente en el cerebro de los animales.

Está compuesto por  

* un cuerpo celular que contiene el núcleo y la mayoría de los componentes complejos de la célula, 

* muchas extensiones ramificadas llamadas dendritas,   

* más una extensión muy larga llamada axón.

La longitud del axón puede ser solo unas pocas veces más larga que el cuerpo celular, o hasta decenas de miles de veces más larga.

* Cerca de su extremo, el axón se divide en muchas ramas llamadas telodendrias, y
* en la punta de estas ramas hay estructuras minúsculas llamadas terminales sinápticas (o simplemente sinapsis), que están conectadas a las dendritas o cuerpos celulares de otras neuronas.

Las neuronas biológicas producen impulsos eléctricos cortos llamados potenciales de acción (AP, o simplemente señales)  
* que viajan a lo largo de los axones y hacen que las sinapsis liberen señales químicas llamadas neurotransmisores. 

Cuando una neurona recibe una cantidad suficiente de estos neurotransmisores en unos pocos milisegundos, dispara sus propios impulsos eléctricos (en realidad, depende de los eurotransmisores, ya que algunos de ellos inhiben el disparo de la neurona).

* Por lo tanto, las neuronas biológicas individuales parecen comportarse de una manera bastante simple, 
* pero están organizadas en una vasta red de miles de millones, con cada neurona típicamente conectada a miles de otras neuronas. 

Una red de neuronas bastante simples puede realizar cálculos muy complejos,   
* al igual que un hormiguero complejo puede surgir de los esfuerzos combinados de hormigas simples.

La arquitectura de las redes neuronales biológicas (BNN, por sus siglas en inglés) sigue siendo objeto de investigación activa,   
* pero se han mapeado algunas partes del cerebro y parece que las neuronas a menudo se organizan en capas consecutivas, especialmente en la corteza cerebral (es decir, la capa externa de su cerebro), como se muestra en la figura 10-2.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/figure_10_2.jpg?raw=true'> 

# Cálculos lógicos con neuronas

* McCulloch y Pitts propusieron un modelo muy simple de neurona biológica, que más tarde se conoció como neurona artificial: 
* tiene una o más entradas binarias (on/off) y una salida binaria.

La neurona artificial activa su salida cuando más de un cierto número de sus entradas están activas.

En su artículo, demostraron que, incluso con un modelo tan simplificado, es posible construir una red de neuronas artificiales que calcule cualquier proposición lógica que desee.

Para ver cómo funciona una red de este tipo, construyamos algunas ANN que realicen varios cálculos lógicos (consulte la figura 10-3), 
* suponiendo que una neurona se activa cuando al menos dos de sus entradas están activas.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/figure_10_3.jpg?raw=true'> 

Veamos qué hacen estas redes:

La primera red de la izquierda es **la función de identidad**: 
* si se activa la neurona A, también se activa la neurona C (ya que recibe dos señales de entrada de la neurona A);  
* pero si la neurona A está apagada, entonces la neurona C también lo está.

La segunda red realiza **un AND lógico**: 
* la neurona C se activa solo cuando las neuronas A y B están activadas 
* (una sola señal de entrada no es suficiente para activar la neurona C).

La tercera red realiza un **OR lógico**: 
* la neurona C se activa si se activa la neurona A o la neurona B (o ambas).

Finalmente, si suponemos que una conexión de entrada puede inhibir la actividad de la neurona (que es el caso de las neuronas biológicas), entonces   
* la cuarta red calcula una proposición lógica un poco más compleja: la neurona C se activa solo si la neurona A está activa y la neurona B está apagada. 

Si la neurona A está activa todo el tiempo, obtienes **un NO lógico**:   
* la neurona C está activa cuando la neurona B está apagada, y viceversa.

Puede imaginar cómo se pueden combinar estas redes para calcular expresiones lógicas complejas (vea los ejercicios al final del capítulo para ver un ejemplo).

# The Perceptron

El Perceptron es una de las arquitecturas ANN más simples,   
* inventada en 1957 por Frank Rosenblatt.
<img src = 'https://s3.amazonaws.com/s3.timetoast.com/public/uploads/photo/9917116/image/4d8988a1ce02e291141f7d7d9e944366'> 

<img src = 'http://blog.josemarianoalvarez.com/wp-content/uploads/2018/06/ModeloPerceptron-1024x592.jpeg'> 

* Se basa en una neurona artificial ligeramente diferente (consulte la figura 10-4)   
* denominada unidad lógica de umbral (TLU) o, a veces, 
* unidad de umbral lineal (LTU).

* Las entradas y salidas son números (en lugar de valores binarios de encendido/apagado), 
* y cada conexión de entrada está asociada con un peso.

La TLU calcula una suma ponderada de sus entradas 

$$ (z = w_{1}x_{1} + w_{2}x_{2} + \cdots + w_{n}x_{n} = x^{T}w), $$ 

* luego aplica una función de paso a esa suma y genera el resultado: $h_{w}(x) = step(z)$, donde $z = x^{T}w$.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/figure_10_4.jpg?raw=true'>

La función escalonada más común utilizada en los perceptrones es la función escalonada de Heaviside (consulte la ecuación 10-1). 

A veces se usa la **función signo** en su lugar.

Equation 10-1. Common step functions used in Perceptrons (assuming threshold = 0)


$$ \text{heaviside}(z) = \begin{cases} 0 & \text{si}\ z < 0 \\ 1 & \text{si}\ z \geq 0 \end{cases} $$

$$ sgn(z) = \begin{cases} -1 & \text{si}\ z < 0 \\ 0 & \text{si}\ z = 0 \\ 1 & \text{si}\ z > 0 \end{cases} $$

Se puede utilizar una única TLU para la clasificación binaria lineal simple.

Calcula una combinación lineal de las entradas y, 
* si el resultado supera un umbral, genera la clase positiva. 

De lo contrario, genera la clase negativa   
* (al igual que una regresión logística o un clasificador SVM lineal).

Podría, por ejemplo, usar una sola TLU para clasificar las flores de iris en función de la longitud y el ancho de los pétalos (también agregando una función de sesgo adicional $x_{0} = 1$, tal como lo hicimos en capítulos anteriores).

Entrenar una TLU en este caso significa encontrar los valores correctos para $w_{0}, w_{1}$ y $w_{2}$ (el algoritmo de entrenamiento se analiza en breve).

Un Perceptron se compone simplemente de una sola capa de TLU, con cada TLU conectada a todas las entradas. 

Cuando todas las neuronas de una capa están conectadas a cada neurona de la capa anterior (es decir, sus neuronas de entrada), la capa se denomina capa totalmente conectada o capa densa.

Las entradas del Perceptron se alimentan a neuronas de paso especiales llamadas neuronas de entrada: emiten cualquier entrada que reciban.

Todas las neuronas de entrada forman la capa de entrada.

Además, generalmente se agrega una función de sesgo adicional $(x_{0} = 1)$:   
* generalmente se representa usando un tipo especial de neurona llamada neurona de sesgo, que genera 1 todo el tiempo.

En la figura 10-5 se representa un perceptrón con dos entradas y tres salidas.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/figure_10_5.jpg?raw=true'>

Este Perceptron puede clasificar instancias simultáneamente en tres clases binarias diferentes, 
* lo que lo convierte en un clasificador de salida múltiple.

Gracias a la magia del álgebra lineal, la Ecuación 10-2 hace posible calcular eficientemente las salidas de una capa de neuronas artificiales para varias instancias a la vez.

Ecuación 10-2. Cálculo de las salidas de una capa completamente conectada

$$ h_{w,b}(X) = \phi(XW+ b)  $$

En esta ecuación:

* Como siempre, $X$ representa la matriz de características de entrada. Tiene una fila por instancia y una columna por atributo.

* La matriz de pesos $W$ contiene todos los pesos de conexión excepto los de la neurona de polarización. Tiene una fila por neurona de entrada y una columna por neurona artificial en la capa.

* El vector de sesgo $b$ contiene todos los pesos de conexión entre la neurona de sesgo y las neuronas artificiales. Tiene un término de sesgo por neurona artificial.

* La función $\varphi$ se llama función de activación: cuando las neuronas artificiales son TLU, es una función escalonada (pero discutiremos otras funciones de activación en breve).

Entonces, ¿cómo se forma un Perceptron?

El algoritmo de entrenamiento de Perceptron propuesto por Rosenblatt se inspiró en gran medida en la regla de Hebb.

En su libro de 1949 La Organización del Comportamiento (Wiley), Donald Hebb sugirió que cuando una neurona biológica desencadena a menudo otra neurona, la conexión entre estas dos neuronas se vuelve más fuerte.

Siegrid Löwel luego resumió la idea de Hebb en la frase pegadiza, "Células que disparan juntas, se conectan juntas"; es decir, el peso de la conexión entre dos neuronas tiende a aumentar cuando disparan simultáneamente.

Esta regla más tarde se conoció como la regla de Hebb (o aprendizaje hebbiano).

Los perceptrones se entrenan mediante una variante de esta regla que tiene en cuenta el error que comete la red cuando realiza una predicción; la regla de aprendizaje de Perceptron refuerza las conexiones que ayudan a reducir el error.

Más específicamente, el Perceptron recibe una instancia de entrenamiento a la vez, y para cada instancia hace sus predicciones. 

Por cada neurona de salida que produjo una predicción incorrecta, refuerza los pesos de conexión de las entradas que habrían contribuido a la predicción correcta. 

La regla se muestra en la Ecuación 10-3.

Ecuación 10-3. Regla de aprendizaje de perceptrón (actualización de peso)

$$ w_{i,j}^{(\text{next step})} = w_{i,j} + \eta(y_{j} - \hat{y}_{j})x_{i} $$


En esta ecuación:

* $w_{i,j}$ es el peso de conexión entre la $i$ ésima neurona de entrada y la $j$ ésima neurona de salida.
* $x_{i}$ es el valor de entrada $i$ de la instancia de entrenamiento actual.
* $\hat{y}_{j}$ es la salida de la neurona de salida $j$ para la instancia de entrenamiento actual.
* $y_{j}$ es la salida objetivo de la neurona de salida $j$ para la instancia de entrenamiento actual.
* $\eta$ es la tasa de aprendizaje.

El límite de decisión de cada neurona de salida es lineal, por lo que los perceptrones son incapaces de aprender patrones complejos (al igual que los clasificadores de regresión logística).

Sin embargo, si las instancias de entrenamiento son linealmente separables, Rosenblatt demostró que este algoritmo convergería en una solución.

Esto se llama el teorema de convergencia del perceptrón.

Scikit-Learn proporciona una clase Perceptron que implementa una red de una sola TLU.

Se puede usar más o menos como cabría esperar, por ejemplo, en el conjunto de datos del iris (presentado en el Capítulo 4):

In [1]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron
iris = load_iris()
X = iris.data[:, (2, 3)] # petal length, petal width
y = (iris.target == 0).astype(np.int64) # Iris setosa?
per_clf = Perceptron()
per_clf.fit(X, y)
y_pred = per_clf.predict([[2, 0.5]]) 
y_pred

array([0], dtype=int64)

Es posible que haya notado que el algoritmo de aprendizaje de Perceptron se parece mucho al descenso de gradiente estocástico.

De hecho, la clase Perceptron de Scikit-Learn es equivalente a usar un SGDClassifier con los siguientes hiperparámetros: `loss="perceptron", learning_rate="constant", eta0=1` (la tasa de aprendizaje) y `penalty=None` (no regularización).

Tenga en cuenta que, a diferencia de los clasificadores de regresión logística, los perceptrones no generan una probabilidad de clase; más bien, hacen predicciones basadas en un umbral estricto.

Esta es una de las razones para preferir la regresión logística a los perceptrones.

# El problema de clasificación Exclusive OR (XOR)

En su monografía Perceptrons de 1969, Marvin Minsky y Seymour Papert destacaron una serie de debilidades graves de los perceptrones, en particular, el hecho de que son incapaces de resolver algunos problemas triviales (por ejemplo, el problema de clasificación Exclusive OR (XOR); consulte el lado izquierdo de la Figura 10-6).

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/figure_10_6.jpg?raw=true'> 

Esto es cierto para cualquier otro modelo de clasificación lineal (como los clasificadores de regresión logística), pero los investigadores esperaban mucho más de los perceptrones, y algunos estaban tan decepcionados que abandonaron las redes neuronales por completo en favor de problemas de nivel superior como lógica, resolución de problemas y búsqueda.

# Solución al problema del Perceptron en cuanto a la clasificación XOR

Resulta que algunas de las limitaciones de los perceptrones pueden eliminarse apilando varios perceptrones. 

La RNA resultante se denomina **perceptrón multicapa** (MLP).

Un MLP puede resolver el problema XOR, como puede verificar calculando la salida del MLP representado en el lado derecho de la Figura 10-6:   
* con entradas $(0, 0)$ o $(1, 1)$, la red genera 0, y   
* con entradas $(0, 1)$ o $(1, 0)$ genera $1$.

Todas las conexiones tienen un peso igual a 1, excepto las cuatro conexiones donde se muestra el peso. 

¡Intente verificar que esta red realmente resuelve el problema XOR!

# Verificación de que la red de Geron resuelve el problema XOR

## El perceptrón multicapa y la retropropagación


Un MLP se compone de una capa de entrada (de paso), una o más capas de TLU, llamadas capas ocultas, y una capa final de TLU llamada capa de salida (consulte la Figura 10-7).

Las capas cercanas a la capa de entrada generalmente se denominan capas inferiores, y las cercanas a las salidas generalmente se denominan capas superiores.

Cada capa, excepto la capa de salida, incluye una neurona de polarización y está completamente conectada a la siguiente capa.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/figure_10_7.jpg?raw=true'> 

## NOTE

La señal fluye solo en una dirección (de las entradas a las salidas), por lo que esta arquitectura es un ejemplo de una red neuronal feedforward (FNN).

Cuando una ANN contiene una pila profunda de capas ocultas, se denomina red neuronal profunda (DNN).

El campo del aprendizaje profundo estudia las DNN y, en general, los modelos que contienen pilas profundas de cálculos.

Aun así, mucha gente habla de Deep Learning cuando se trata de redes neuronales (incluso superficiales).

Durante muchos años, los investigadores lucharon por encontrar una manera de entrenar a los MLP, sin éxito.

Pero en 1986, David Rumelhart, Geoffrey Hinton y Ronald Williams publicaron un artículo innovador que introdujo la
algoritmo de entrenamiento de retropropagación, que todavía se usa en la actualidad.

En resumen, es Gradient Descent (presentado en el Capítulo 4) que utiliza una técnica eficiente para calcular los gradientes automáticamente: en solo dos pasadas a través de la red (una hacia adelante y otra hacia atrás), el algoritmo de retropropagación puede calcular el gradiente de la red. error con respecto a cada parámetro del modelo. 

En otras palabras, puede averiguar cómo se debe ajustar cada peso de conexión y cada término de sesgo para reducir el error.

Una vez que tiene estos gradientes, simplemente realiza un paso de descenso de gradiente regular y todo el proceso se repite hasta que la red converge a la solución.

## NOTE

El cálculo automático de gradientes se denomina diferenciación automática o autodiff.

There are various autodiff techniques, with different pros and cons. 

The one used by backpropagation is called reverse-mode autodiff. 

It is fast and precise, and is well suited when the function to differentiate has many variables (e.g., connection weights) and few outputs (e.g., one loss). If you want to learn more about autodiff, check out Appendix D.

Let’s run through this algorithm in a bit more detail: It handles one mini-batch at a time (for example, containing 32
instances each), and it goes through the full training set multiple times. 

Each pass is called an epoch.

Each mini-batch is passed to the network’s input layer, which sends it to the first hidden layer. 

The algorithm then computes the output of all the neurons in this layer (for every instance in the mini-batch). 

The result is passed on to the next layer, its output is computed and passed to the next layer, and so on until we get the output of the last layer, the output layer. 

This is the forward pass: it is exactly like making predictions, except all intermediate results are preserved since they are needed for the backward pass.

Next, the algorithm measures the network’s output error (i.e., it uses a loss function that compares the desired output and the actual output of the network, and returns some measure of the error).

Then it computes how much each output connection contributed to the error. 

This is done analytically by applying the chain rule (perhaps the most fundamental rule in calculus), which makes this
step fast and precise.

The algorithm then measures how much of these error contributions came from each connection in the layer below, again
using the chain rule, working backward until the algorithm reaches the input layer. 

As explained earlier, this reverse pass efficiently measures the error gradient across all the connection weights in the
network by propagating the error gradient backward through the network (hence the name of the algorithm).

Finally, the algorithm performs a Gradient Descent step to tweak all the connection weights in the network, using the error gradients it just computed.

This algorithm is so important that it’s worth summarizing it again: for each training instance, the backpropagation algorithm first makes a prediction (forward pass) and measures the error, then goes through each layer in reverse to measure the error contribution from each connection (reverse pass), and finally tweaks the connection weights to reduce the error (Gradient Descent step).

## ADVERTENCIA

Es importante inicializar aleatoriamente todos los pesos de conexión de las capas ocultas, de lo contrario, el entrenamiento fallará. 

For example, if you initialize all weights and biases to zero, then all neurons in a given layer will be perfectly identical, and thus backpropagation will affect them in exactly the same way, so they will remain identical. 

In other words, despite having hundreds of neurons per layer, your model will act as if it had only one neuron per layer: it won’t be too smart. 

If instead you randomly initialize the weights, you break the symmetry and allow backpropagation to train a diverse team of neurons.

In order for this algorithm to work properly, its authors made a key change to the MLP’s architecture: they replaced the step function with the logistic (sigmoid) function, $\sigma(z) = 1 / (1 + exp(–z))$. 

This was essential because the step function contains only flat segments, so there is no gradient to work with (Gradient Descent cannot move on a flat surface), while the logistic function has a well-defined nonzero derivative everywhere, allowing Gradient Descent to make some progress at every step. 

In fact, the backpropagation algorithm works well with many other activation functions, not just the logistic function. 

Here are two other popular choices: The hyperbolic tangent function: $\tanh(z) = 2\sigma(2z) – 1$

Just like the logistic function, this activation function is S-shaped, continuous, and differentiable, but its output value ranges from –1 to 1 (instead of 0 to 1 in the case of the logistic function). 

That range tends to make each layer’s output more or less centered around 0 at the beginning of training, which often helps speed up convergence.

The Rectified Linear Unit function:   

$$ ReLU(z) = max(0, z) $$

The ReLU function is continuous but unfortunately not differentiable at $z = 0$ (the slope changes abruptly, which can make Gradient Descent bounce around), and its derivative is 0 for $z < 0$. 

In practice, however, it works very well and has the advantage of being fast to compute, so it has become the default. 

Most importantly, the fact that it does not have a maximum output value helps reduce some issues during Gradient Descent (we will come back to this in Chapter 11).

These popular activation functions and their derivatives are represented in Figure 10-8. 

But wait! Why do we need activation functions in the first place? Well, if you chain several linear transformations, all you get is a linear transformation. 

For example, if $f(x) = 2x + 3$ and $g(x) = 5x – 1$, then chaining these two linear functions gives you another linear function:
$f(g(x)) = 2(5x – 1) + 3 = 10x + 1$. 

So if you don’t have some nonlinearity between layers, then even a deep stack of layers is equivalent to a single layer, and you can’t solve very complex problems with that. 

Conversely, a large enough DNN with nonlinear activations can theoretically approximate any continuous function.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/figure_10_8.jpg?raw=true'>

OK! You know where neural nets came from, what their architecture is, and how to compute their outputs. 

You’ve also learned about the backpropagation algorithm. 

But what exactly can you do with them?

## Regression MLPs

First, MLPs can be used for regression tasks. 

If you want to predict a single value (e.g., the price of a house, given many of its features), then you just need a single output neuron: its output is the predicted value. 

For multivariate regression (i.e., to predict multiple values at once), you need one output neuron per output dimension. 

For example, to locate the center of an object in an image, you need to predict 2D coordinates, so you need two output neurons. 

If you also want to place a bounding box around the object, then you need two more numbers: the width and the height of the
object. 

So, you end up with four output neurons.

In general, when building an MLP for regression, you do not want to use any activation function for the output neurons, so they are free to output any range of values. 

If you want to guarantee that the output will always be positive, then you can use the ReLU activation function in the output layer.

Alternatively, you can use the softplus activation function, which is a smooth variant of ReLU: $softplus(z) = log(1 + exp(z))$. 

It is close to 0 when z is negative, and close to z when z is positive. 

Finally, if you want to guarantee that the predictions will fall within a given range of values, then you can use the logistic function or the hyperbolic tangent, and then scale the labels to the appropriate range: 0 to 1 for the logistic function and –1 to 1 for the hyperbolic tangent.

The loss function to use during training is typically the mean squared error, but if you have a lot of outliers in the training set, you may prefer to use the mean absolute error instead. 

Alternatively, you can use the Huber loss, which is a combination of both.

### Sugerencia

The Huber loss is quadratic when the error is smaller than a threshold $\delta$ (typically 1) but linear when the error is larger than $\delta$. 

The linear part makes it less sensitive to outliers than the mean squared error, and the quadratic part allows it to converge faster and be more precise than the mean absolute error.

Table 10-1 summarizes the typical architecture of a regression MLP  
<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/table_10_1.jpg?raw=true'>

## Classification MLPs

MLPs can also be used for classification tasks. 

For a binary classification problem, you just need a single output neuron using the logistic activation function: the output will be a number between 0 and 1, which you can interpret as the estimated probability of the positive class. 

The estimated probability of the negative class is equal to one minus that number.

MLPs can also easily handle multilabel binary classification tasks (see Chapter 3). 

For example, you could have an email classification system that predicts whether each incoming email is ham or spam, and simultaneously predicts whether it is an urgent or nonurgent email. 

In this case, you would need two output neurons, both using the logistic activation function: the first would output the probability that the email is spam, and the second would output the probability that it is urgent. 

More generally, you would dedicate one output neuron for each positive class. 

Note that the output probabilities do not necessarily add up to 1. 

This lets the model output any combination of labels: you can have nonurgent ham, urgent ham, nonurgent spam, and perhaps even urgent spam (although that would probably be an error).

If each instance can belong only to a single class, out of three or more possible classes (e.g., classes 0 through 9 for digit image classification), then you need to have one output neuron per class, and you should use the softmax activation function for the whole output layer (see Figure 10-9).

The softmax function (introduced in Chapter 4) will ensure that all the estimated probabilities are between 0 and 1 and that they add up to 1 (which is required if the classes are exclusive). 

This is called multiclass classification.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/figure_10_9.jpg?raw=true'>

Regarding the loss function, since we are predicting probability distributions, the cross-entropy loss (also called the log loss, see Chapter 4) is generally a good choice.

Table 10-2 summarizes the typical architecture of a classification MLP.

<img src = 'https://github.com/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_2/c_10/table_10_2.jpg?raw=true'>

### TIP

Before we go on, I recommend you go through exercise 1 at the end of this chapter. 

You will play with various neural network architectures and visualize their outputs using the TensorFlow Playground. 

This will be very useful to better understand MLPs, including the effects of all the hyperparameters (number of layers and neurons, activation functions, and more).

Now you have all the concepts you need to start implementing MLPs with Keras!

## Implementing MLPs with Keras

Keras is a high-level Deep Learning API that allows you to easily build, train, evaluate, and execute all sorts of neural networks. 

Its documentation (or specification) is available at https://keras.io/. 

The reference implementation, also called Keras, was developed by François Chollet as
part of a research project and was released as an open source project in
March 2015. It quickly gained popularity, owing to its ease of use,
flexibility, and beautiful design. To perform the heavy computations
required by neural networks, this reference implementation relies on a
computation backend. 

At present, you can choose from three popular open source Deep Learning libraries: TensorFlow, Microsoft Cognitive Toolkit
(CNTK), and Theano. Therefore, to avoid any confusion, we will refer to
this reference implementation as multibackend Keras.

Since late 2016, other implementations have been released. You can now
run Keras on Apache MXNet, Apple’s Core ML, JavaScript or TypeScript
(to run Keras code in a web browser), and PlaidML (which can run on all
sorts of GPU devices, not just Nvidia). Moreover, TensorFlow itself now
comes bundled with its own Keras implementation, tf.keras. It only
supports TensorFlow as the backend, but it has the advantage of offering
some very useful extra features (see Figure 10-10): for example, it supports
TensorFlow’s Data API, which makes it easy to load and preprocess data
efficiently. For this reason, we will use tf.keras in this book. However, in
this chapter we will not use any of the TensorFlow-specific features, so the
code should run fine on other Keras implementations as well (at least in
Python), with only minor modifications, such as changing the imports.