Aquí tienes la traducción al español del texto:

---

### El Perceptrón Multicapa y la Retropropagación  

Un **Perceptrón Multicapa (MLP)** está compuesto por una capa de entrada, una o más capas de **Unidades Lineales Umbral (TLU)** llamadas **capas ocultas**, y una capa final de TLUs llamada **capa de salida** (ver Figura 10-7). Las capas cercanas a la entrada suelen llamarse **capas inferiores**, y las cercanas a las salidas, **capas superiores**.  

**Figura 10-7.** Arquitectura de un perceptrón multicapa con dos entradas, una capa oculta de cuatro neuronas y tres neuronas de salida.  

**NOTA**  
El flujo de la señal solo va en una dirección (de las entradas a las salidas), por lo que esta arquitectura es un ejemplo de una **red neuronal de propagación hacia adelante (FNN)**.  

Cuando una **red neuronal artificial (ANN)** contiene una pila profunda de capas ocultas, se llama **red neuronal profunda (DNN)**. El campo del **aprendizaje profundo** estudia las DNNs y, en general, se enfoca en modelos con pilas profundas de cálculos. Aun así, muchas personas hablan de aprendizaje profundo cada vez que se mencionan redes neuronales (incluso las superficiales).  

Durante muchos años, los investigadores lucharon por encontrar una forma de entrenar MLPs sin éxito. A principios de los 60, varios investigadores discutieron la posibilidad de usar **descenso de gradiente** para entrenar redes neuronales, pero, como vimos en el Capítulo 4, esto requiere calcular los gradientes del error del modelo respecto a sus parámetros. En ese entonces no estaba claro cómo hacer esto eficientemente en un modelo tan complejo con tantos parámetros, especialmente con la capacidad computacional de la época.  

En 1970, un investigador llamado **Seppo Linnainmaa** presentó en su tesis de maestría una técnica para calcular todos los gradientes de forma automática y eficiente. Este algoritmo se conoce hoy como **diferenciación automática en modo inverso** (o **autodiff inverso**). En solo dos pasadas por la red (una hacia adelante y otra hacia atrás), puede calcular los gradientes del error de la red neuronal respecto a cada parámetro del modelo. Es decir, determina cómo ajustar cada peso de conexión y cada sesgo para reducir el error. Estos gradientes se usan luego para realizar un paso de descenso de gradiente. Si se repite este proceso (calcular gradientes automáticamente y ajustar con descenso de gradiente), el error de la red neuronal disminuirá gradualmente hasta alcanzar un mínimo. Esta combinación de autodiff inverso y descenso de gradiente se llama **retropropagación** (o **backprop**).  

**NOTA**  
Existen varias técnicas de autodiff, cada una con pros y contras. El autodiff inverso es ideal cuando la función a diferenciar tiene muchas variables (pesos y sesgos) y pocas salidas (una pérdida).  

La retropropagación puede aplicarse a todo tipo de grafos computacionales, no solo a redes neuronales: la tesis de Linnainmaa no trataba específicamente de redes neuronales, sino de un concepto más general. Pasaron varios años antes de que la retropropagación se usara ampliamente en redes neuronales.  

En 1985, **David Rumelhart, Geoffrey Hinton y Ronald Williams** publicaron un artículo revolucionario que analizaba cómo la retropropagación permitía a las redes neuronales aprender representaciones internas útiles. Sus resultados fueron tan impactantes que la retropropagación se popularizó rápidamente. Hoy es, por mucho, la técnica de entrenamiento más usada en redes neuronales.  

### Funcionamiento detallado de la retropropagación:  
1. **Mini-lotes**: Procesa un mini-lote a la vez (ej. 32 instancias) y recorre el conjunto de entrenamiento múltiples veces. Cada pasada se llama **época**.  
2. **Pasada hacia adelante**: El mini-lote entra por la capa de entrada, y se calcula la salida de cada neurona en las capas ocultas, preservando todos los resultados intermedios para la pasada hacia atrás.  
3. **Cálculo del error**: Se mide el error de salida usando una **función de pérdida** que compara la salida deseada con la real.  
4. **Pasada hacia atrás**: Usando la **regla de la cadena**, el algoritmo calcula cuánto contribuyó cada peso y sesgo al error, propagando el gradiente del error desde la salida hasta la entrada.  
5. **Ajuste de pesos**: Finalmente, se realiza un paso de descenso de gradiente para ajustar los pesos y reducir el error.  

**ADVERTENCIA**  
Es crucial inicializar los pesos de las capas ocultas de forma **aleatoria**, de lo contrario el entrenamiento fallará. Si todos los pesos y sesgos empiezan en cero, todas las neuronas en una capa serán idénticas, y la retropropagación las ajustará igual, manteniendo la simetría. Esto haría que la red actúe como si tuviera solo una neurona por capa. La inicialización aleatoria rompe esta simetría y permite que la red aprenda diversidad.  

En resumen, la retropropagación hace predicciones (pasada hacia adelante), mide el error, calcula las contribuciones al error por capa (pasada hacia atrás) y ajusta los pesos (descenso de gradiente).  

### Activaciones no lineales:  
Para que la retropropagación funcione, Rumelhart y sus colegas reemplazaron la **función escalón** por la **función logística** (σ(z) = 1 / (1 + exp(–z)), también llamada **sigmoide**). La función escalón tiene gradiente cero en todos lados (imposibilitando el descenso de gradiente), mientras que la sigmoide tiene un gradiente bien definido.  

Otras funciones de activación populares:  
- **Tangente hiperbólica (tanh)**: Similar a la sigmoide, pero con rango de –1 a 1, lo que acelera la convergencia.  
- **Unidad Lineal Rectificada (ReLU)**: ReLU(z) = max(0, z). No es diferenciable en z = 0, pero en la práctica es eficiente y evita algunos problemas de gradiente.  

**¿Por qué son necesarias las funciones de activación?**  
Si solo se encadenan transformaciones lineales, el resultado sigue siendo lineal. Las activaciones no lineales permiten a las redes aproximar funciones complejas. Una DNN suficientemente grande con activaciones no lineales puede, en teoría, aproximar cualquier función continua.  

**Figura 10-8.** Funciones de activación (izq.) y sus derivadas (der.).  

¡Listo! Ahora conoces el origen de las redes neuronales, su arquitectura, cómo se calculan sus salidas y el algoritmo de retropropagación. Pero... ¿para qué sirven exactamente?  

---



### Notas adicionales:  
- Se mantuvieron términos técnicos como *backpropagation* (retropropagación) y *ReLU* por ser ampliamente usados en español.  
- Se ajustaron ejemplos y fórmulas para claridad, conservando su significado original.  
- El estilo es técnico pero accesible, dirigido a lectores con conocimientos básicos de machine learning.  

¿Necesitas ajustes o más detalles en alguna sección?

# Práctica de codificación  

Aquí tienes una **práctica de codificación en Python** enfocada en redes neuronales multicapa (MLP) usando `TensorFlow/Keras`, que cubre los conceptos clave del texto traducido:  



### **Práctica: Implementación de un Perceptrón Multicapa (MLP) con Retropropagación**  
**Objetivos:**  
1. Crear un MLP secuencial para clasificación.  
2. Entender el papel de las funciones de activación no lineales.  
3. Visualizar el impacto de la inicialización de pesos.  
4. Monitorizar el entrenamiento con retropropagación.  

---  

### **Paso 1: Configuración del Entorno**  
```python
import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.initializers import RandomUniform, Zeros
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
```

### **Paso 2: Generación de Datos**  
Usamos el dataset `make_moons` para un problema de clasificación no lineal:  
```python
X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

plt.scatter(X[:, 0], X[:, 1], c=y, cmap='viridis')
plt.title("Dataset de Clasificación No Lineal")
plt.show()
```

### **Paso 3: Implementación del MLP con Keras**  
#### **Modelo Secuencial con:**  
- Capa oculta (4 neuronas, activación ReLU).  
- Capa de salida (1 neurona, activación sigmoide).  
- Función de pérdida: `binary_crossentropy` (para clasificación binaria).  
- Optimizador: `Adam` (variante de descenso de gradiente).  

```python
model = Sequential([
    Dense(4, activation='relu', input_shape=(2,), kernel_initializer=RandomUniform(minval=-0.5, maxval=0.5)),
    Dense(1, activation='sigmoid', kernel_initializer=RandomUniform(minval=-0.5, maxval=0.5))
])

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.summary()
```

### **Paso 4: Entrenamiento con Retropropagación**  
```python
history = model.fit(X_train, y_train, epochs=100, batch_size=32, validation_data=(X_test, y_test), verbose=1)
```

### **Paso 5: Visualización de Resultados**  
#### **Curvas de Aprendizaje:**  
```python
plt.plot(history.history['loss'], label='Train Loss')
plt.plot(history.history['val_loss'], label='Test Loss')
plt.xlabel('Épocas')
plt.ylabel('Pérdida')
plt.legend()
plt.show()
```

#### **Frontera de Decisión:**  
```python
def plot_decision_boundary(model, X, y):
    x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
    y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
    xx, yy = np.meshgrid(np.linspace(x_min, x_max, 100), np.linspace(y_min, y_max, 100))
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    plt.contourf(xx, yy, Z, levels=0.5, cmap='RdBu')
    plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', cmap='viridis')
    plt.title("Frontera de Decisión del MLP")
    plt.show()

plot_decision_boundary(model, X_test, y_test)
```

### **Paso 6: Experimentos Adicionales**  
#### **1. Inicialización de Pesos a Cero (¡Advertencia!)**  
```python
model_zero_init = Sequential([
    Dense(4, activation='relu', input_shape=(2,), kernel_initializer=Zeros()),
    Dense(1, activation='sigmoid', kernel_initializer=Zeros())
])
model_zero_init.compile(optimizer='adam', loss='binary_crossentropy')
model_zero_init.fit(X_train, y_train, epochs=100, verbose=0)
print("Precisión con pesos en cero:", accuracy_score(y_test, model_zero_init.predict(X_test) > 0.5))
```

#### **2. Comparación de Funciones de Activación**  
```python
activations = ['relu', 'tanh', 'sigmoid']
for activation in activations:
    model_act = Sequential([
        Dense(4, activation=activation, input_shape=(2,)),
        Dense(1, activation='sigmoid')
    ])
    model_act.compile(optimizer='adam', loss='binary_crossentropy')
    model_act.fit(X_train, y_train, epochs=100, verbose=0)
    print(f"Precisión con {activation}:", accuracy_score(y_test, model_act.predict(X_test) > 0.5))
```

---

### **Conclusiones de la Práctica:**  
- **Retropropagación:** El modelo ajusta automáticamente los pesos mediante `model.fit()`.  
- **Funciones de Activación:** ReLU suele ser más eficiente que sigmoide/tanh en capas ocultas.  
- **Inicialización:** Los pesos aleatorios rompen la simetría y permiten el aprendizaje.  
- **Batch y Épocas:** El mini-batch (`batch_size=32`) acelera el entrenamiento.  

**Salida Esperada:**  
- Gráficos de pérdida decreciente.  
- Frontera de decisión no lineal que separa las clases.  
- Precisión > 90% con inicialización adecuada.  

---  

**¿Qué más te gustaría explorar?** Por ejemplo:  
- Añadir más capas ocultas para crear una DNN.  
- Regularización con Dropout.  
- Optimización de hiperparámetros.  

¡Espero que esta práctica te ayude a dominar los MLPs! 🚀