# Redes Neuronales

## Introducci√≥n

Las redes neuronales artificiales son modelos que aprenden funciones complejas a partir de datos. En este pr√°ctico, trabajaremos con un problema de **regresi√≥n**: predecir el precio de viviendas a partir de caracter√≠sticas como n√∫mero de habitaciones, edad, etc.

Exploraremos distintas arquitecturas de redes neuronales y analizaremos c√≥mo afecta su complejidad al desempe√±o del modelo.


## Dependencias

In [None]:
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

## Carga de datos

In [None]:
# Cargar el dataset de ejemplo que est√° en Keras
from tensorflow.keras.datasets import boston_housing

(X_train, y_train), (X_val, y_val) = boston_housing.load_data()

### Shapes

In [None]:
X_train.shape

In [None]:
y_train.shape

## Arquitectura de la Red Neuronal
El modelo que estamos utilizando es una red neuronal **secuencial** de tipo **feedforward**, dise√±ada para resolver un problema de **regresi√≥n** (predecir el precio de una casa).


In [None]:
model_1 = keras.Sequential([
    layers.Dense(64, activation='relu', input_shape=(X_train.shape[1],)),  # Capa oculta con la entrada siendo la cantidad de features
    layers.Dense(32, activation='relu'),  # Capa oculta
    layers.Dense(1)  # Capa de salida (el precio a predecir)
])

- `Dense(64, activation='relu')`: primera capa oculta, con 64 neuronas. Utiliza la funci√≥n ReLU para introducir no linealidad. Esta capa recibe como entrada un vector de 13 caracter√≠sticas (una por atributo del dataset).
  
- `Dense(32, activation='relu')`: segunda capa oculta, con menor cantidad de neuronas. Se busca una representaci√≥n m√°s compacta de los datos.

- `Dense(1)`: capa de salida. Produce un √∫nico valor continuo correspondiente al precio predicho.

In [None]:
model_1.summary()

### üîç ¬øPor qu√© esta arquitectura?
- Las redes densas son adecuadas cuando no hay estructura espacial en los datos (como ocurre con im√°genes).
- La funci√≥n `ReLU` es r√°pida de computar y evita problemas de desvanecimiento del gradiente.
- La capa de salida tiene una sola neurona porque estamos prediciendo un √∫nico valor num√©rico (no una clase).

## üîß Compilaci√≥n del Modelo

La compilaci√≥n del modelo especifica **c√≥mo ser√° entrenado**. En este caso, usamos:

- **Optimizador: `adam`**  
  Un optimizador eficiente que ajusta autom√°ticamente la tasa de aprendizaje de cada peso.

- **Funci√≥n de p√©rdida: `mean_squared_error` (MSE)**  
  Es la funci√≥n que el modelo intenta minimizar. Penaliza m√°s los errores grandes, lo que puede ayudar a evitar grandes desviaciones en las predicciones.

- **M√©trica: `mae` (Mean Absolute Error)**  
  M√©trica adicional que se reporta durante el entrenamiento. Es √∫til porque est√° en las mismas unidades que el objetivo (precio de las casas), y es f√°cil de interpretar.

> üí° El modelo entrenar√° para minimizar MSE, pero durante el proceso tambi√©n se mostrar√° el MAE como referencia de desempe√±o.


In [None]:
model_1.compile(optimizer='adam', loss='mean_squared_error', metrics=['mae'])

## üöÄ Entrenamiento del Modelo

Utilizamos el m√©todo `fit()` para entrenar la red neuronal. Este m√©todo ajusta los pesos del modelo para minimizar la funci√≥n de p√©rdida.

### Par√°metros clave:

- **`X_train`, `y_train`**: conjunto de entrenamiento (entradas y salidas).
- **`validation_data=(X_val, y_val)`**: conjunto de validaci√≥n que permite evaluar el modelo en datos no vistos, detectando sobreajuste.
- **`epochs=100`**: n√∫mero de veces que el modelo ver√° todo el conjunto de entrenamiento.
- **`batch_size=32`**: tama√±o de los bloques de datos usados para actualizar los pesos.

Al final, la variable `history` almacena el historial del entrenamiento, incluyendo la p√©rdida y las m√©tricas por √©poca. Esto nos permite visualizar c√≥mo evoluciona el modelo con el tiempo.


In [None]:
history_1 = model_1.fit(X_train, y_train, validation_data=(X_val, y_val), epochs=100, batch_size=32)

## Evaluacion

In [None]:
import matplotlib.pyplot as plt

def plot_training_history(history):
    train_loss = history.history['loss']
    val_loss = history.history['val_loss']
    train_mae = history.history['mae']
    val_mae = history.history['val_mae']

    epochs = range(1, len(train_loss) + 1)

    plt.figure(figsize=(8, 4))

    plt.subplot(1, 2, 1)
    plt.plot(epochs, train_loss, 'b-', label='P√©rdida en entrenamiento')
    plt.plot(epochs, val_loss, 'r-', label='P√©rdida en validaci√≥n')
    plt.xlabel('√âpocas')
    plt.ylabel('P√©rdida (Loss)')
    plt.title('Curva de p√©rdida en entrenamiento y validaci√≥n')
    plt.legend()

    plt.subplot(1, 2, 2)
    plt.plot(epochs, train_mae, 'orange', label='MAE en entrenamiento')
    plt.plot(epochs, val_mae, 'green', label='MAE en validaci√≥n')
    plt.xlabel('√âpocas')
    plt.ylabel('MAE (Error Absoluto Medio)')
    plt.title('Curva de MAE en entrenamiento y validaci√≥n')
    plt.legend()

    plt.tight_layout()
    plt.show()

In [None]:
plot_training_history(history_1)

- Si las curvas de entrenamiento y validaci√≥n bajan y se estabilizan juntas ‚Üí el modelo aprende correctamente.
- Si la p√©rdida de validaci√≥n empieza a subir mientras la de entrenamiento sigue bajando ‚Üí el modelo est√° **sobreajustando** (*overfitting*).
- Si ambas se mantienen altas ‚Üí el modelo **no est√° aprendiendo bien** (*underfitting*).

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [None]:
y_pred_1 = model_1.predict(X_val)

In [None]:
mae_1 = mean_absolute_error(y_val, y_pred_1)
mse_1 = mean_squared_error(y_val, y_pred_1)
print(f"MAE: {mae_1}")
print(f"MSE: {mse_1}")

## Segundo modelo

In [None]:
model_2 = keras.Sequential([
    layers.Dense(500, activation='relu', input_shape=(X_train.shape[1],)),
    layers.Dense(200, activation='relu'),
    layers.Dense(128, activation='relu'),
    layers.Dense(64, activation='relu'),
    layers.Dense(32, activation='relu'),
    layers.Dense(1)
])

In [None]:
model_2.summary()

- `Dense(500, activation='relu')`: capa muy ancha que permite capturar combinaciones complejas entre las entradas.
- Capas subsiguientes: tama√±os decrecientes (200, 128, 64, 32), siguiendo una forma de "embudo".
- Cada capa aplica una funci√≥n `ReLU`, que introduce no linealidad y permite aprender funciones m√°s complejas.
- La salida (`Dense(1)`) es un √∫nico valor continuo, ideal para regresi√≥n.

In [None]:
model_2.compile(optimizer='adam', loss='mean_squared_error', metrics=['mae'])

In [None]:
history_2 = model_2.fit(X_train, y_train, validation_data=(X_val, y_val), epochs=500, batch_size=32, verbose=False)


- **`epochs=500`**: permite que la red tenga m√°s tiempo para ajustar sus pesos y aprender patrones complejos. Sin embargo, debemos tener cuidado con el **sobreajuste (overfitting)**.
- **`verbose=False`**: desactiva la salida en consola para no saturar el notebook con 500 l√≠neas. Para evaluar el progreso, es importante **graficar la evoluci√≥n de la p√©rdida y del MAE** usando el historial (`history`).

> üí° El aumento de √©pocas debe ir acompa√±ado de una buena estrategia de evaluaci√≥n para saber cu√°ndo el modelo deja de mejorar.

In [None]:
plot_training_history(history_2)

In [None]:
y_pred_2 = model_2.predict(X_val)
mae_2 = mean_absolute_error(y_val, y_pred_2)
mse_2 = mean_squared_error(y_val, y_pred_2)
print(f"MAE: {mae_2}")
print(f"MSE: {mse_2}")

## Tercer modelo (con regularizaci√≥n)

Este modelo mantiene la misma arquitectura profunda del segundo modelo, pero **agrega una capa de regularizaci√≥n** para mejorar su capacidad de generalizaci√≥n.

### üîß ¬øQu√© cambia?

- Se a√±ade `Dropout(0.5)` antes de la capa de salida. Esta capa "apaga" aleatoriamente el 50% de las neuronas durante el entrenamiento.
- Esto fuerza al modelo a **no depender de caminos espec√≠ficos** y lo hace m√°s robusto frente a nuevos datos.

### üéØ ¬øPor qu√© usar Dropout?

- Ayuda a prevenir el **sobreajuste (overfitting)**, especialmente en redes con muchas capas y neuronas.
- Mejora la capacidad del modelo de **generalizar**.
- Es una de las formas m√°s comunes y efectivas de **regularizaci√≥n en redes neuronales**.

> üí° Dropout solo est√° activo durante el entrenamiento. En predicci√≥n, se desactiva autom√°ticamente.

In [None]:
model_3 = keras.Sequential([
    layers.Dense(500, activation='relu', input_shape=(X_train.shape[1],)),
    layers.Dense(200, activation='relu'),
    layers.Dense(128, activation='relu'),
    layers.Dense(64, activation='relu'),
    layers.Dense(32, activation='relu'),
    layers.Dropout(0.5),
    layers.Dense(1)
])

In [None]:
model_3.compile(optimizer='adam', loss='mean_squared_error', metrics=['mae'])


### Early Stopping

Entrenar una red neuronal por muchas √©pocas puede llevar al **sobreajuste**, donde el modelo aprende demasiado bien los datos de entrenamiento pero pierde capacidad de generalizaci√≥n.

Para evitarlo, utilizamos `EarlyStopping`, una t√©cnica que:

- **Monitorea el desempe√±o del modelo en el conjunto de validaci√≥n** (`val_loss`).
- **Detiene autom√°ticamente el entrenamiento** si no hay mejora tras un n√∫mero definido de √©pocas (en este caso, 30).
- **Restaura los pesos √≥ptimos** alcanzados durante el entrenamiento (`restore_best_weights=True`).

### üîß Ventajas:
- Ahorra tiempo.
- Evita el sobreajuste.
- Mantiene el mejor modelo encontrado autom√°ticamente.

In [None]:
early_stopping = tf.keras.callbacks.EarlyStopping(
    monitor='val_loss',
    patience=30,
    restore_best_weights=True
)

history_3 = model_3.fit(X_train, y_train, validation_data=(X_val, y_val), epochs=500, batch_size=32, callbacks=[early_stopping], verbose=True)

In [None]:
plot_training_history(history_3)

In [None]:
y_pred_3 = model_3.predict(X_val)
mae_3 = mean_absolute_error(y_val, y_pred_3)
mse_3 = mean_squared_error(y_val, y_pred_3)
print(f"MAE: {mae_3}")
print(f"MSE: {mse_3}")

## Resumen M√©tricas

In [None]:
#create dataframe of the mae and mse
df_metrics = pd.DataFrame({'Modelo': ['Modelo 1', 'Modelo 2', 'Modelo 3'], 'MAE': [mae_1, mae_2, mae_3], 'MSE': [mse_1, mse_2, mse_3]})
df_metrics
