# Entrenamiento de Red Neuronal MEJORADO para Predicci√≥n de Demanda de Bicicletas

Este notebook implementa un procedimiento completo y **OPTIMIZADO** de entrenamiento de red neuronal usando TensorFlow/Keras.

## Mejoras implementadas para aumentar R¬≤:
1. ‚úÖ Transformaci√≥n logar√≠tmica de variable objetivo (reduce sesgo)
2. ‚úÖ Ingenier√≠a de caracter√≠sticas (interacciones entre variables)
3. ‚úÖ Arquitectura de red optimizada
4. ‚úÖ Regularizaci√≥n L2 y Dropout ajustado
5. ‚úÖ Hiperpar√°metros optimizados
6. ‚úÖ Learning rate scheduler adaptativo
7. ‚úÖ An√°lisis comparativo de resultados

## 1. Importaci√≥n de Librer√≠as

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# Librer√≠as para preprocesamiento
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, RobustScaler, PolynomialFeatures
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# TensorFlow y Keras para la red neuronal
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers, models, callbacks, regularizers
from tensorflow.keras.optimizers import Adam

print(f"TensorFlow version: {tf.__version__}")
print(f"GPU disponible: {tf.config.list_physical_devices('GPU')}")

# Configurar para reproducibilidad
np.random.seed(42)
tf.random.set_seed(42)

## 2. Carga y Exploraci√≥n de Datos

In [None]:
# Cargar datos
data = pd.read_csv('./Data/Datos_Etapa1.csv')
print(f"Forma del dataset: {data.shape}")
print(f"\nPrimeras filas:")
data.head()

In [None]:
# An√°lisis de la distribuci√≥n de la variable objetivo
plt.figure(figsize=(15, 5))

plt.subplot(1, 3, 1)
plt.hist(data['cnt'], bins=50, edgecolor='black')
plt.xlabel('Demanda (cnt)')
plt.ylabel('Frecuencia')
plt.title('Distribuci√≥n Original de la Variable Objetivo')
plt.axvline(data['cnt'].mean(), color='r', linestyle='--', label=f'Media: {data["cnt"].mean():.1f}')
plt.legend()

plt.subplot(1, 3, 2)
stats.probplot(data['cnt'], dist="norm", plot=plt)
plt.title('Q-Q Plot - Distribuci√≥n Original')

plt.subplot(1, 3, 3)
# Transformaci√≥n logar√≠tmica
plt.hist(np.log1p(data['cnt']), bins=50, edgecolor='black', color='green')
plt.xlabel('log(Demanda + 1)')
plt.ylabel('Frecuencia')
plt.title('Distribuci√≥n con Transformaci√≥n Log')

plt.tight_layout()
plt.show()

print(f"\nSkewness (sesgo) original: {data['cnt'].skew():.4f}")
print(f"Skewness despu√©s de log: {np.log1p(data['cnt']).skew():.4f}")
print("\n‚ö†Ô∏è PROBLEMA IDENTIFICADO: La variable objetivo tiene sesgo positivo (sesgada a la derecha)")
print("‚úÖ SOLUCI√ìN: Aplicar transformaci√≥n logar√≠tmica reduce el sesgo significativamente")

## 3. Limpieza y Preparaci√≥n de Datos

In [None]:
# Crear copia de los datos
df = data.copy()

# Eliminar duplicados
print(f"Filas duplicadas: {df.duplicated().sum()}")
df = df.drop_duplicates()

# Unificar Heavy Rain con Light Rain
df['weathersit'] = df['weathersit'].replace('Heavy Rain', 'Light Rain')

# Eliminar columna atemp por multicolinealidad con temp
if 'atemp' in df.columns:
    df = df.drop(['atemp'], axis=1)

print(f"\nForma del dataset despu√©s de limpieza: {df.shape}")
print(f"\nDistribuci√≥n de weathersit:")
print(df['weathersit'].value_counts())

## 4. MEJORA #1: Ingenier√≠a de Caracter√≠sticas

Crear caracter√≠sticas adicionales que capturen interacciones importantes entre variables.

In [None]:
# Crear caracter√≠sticas de interacci√≥n
print("Creando caracter√≠sticas de interacci√≥n...")

# Interacci√≥n temperatura y humedad (el calor h√∫medo puede afectar la demanda)
df['temp_hum'] = df['temp'] * df['hum']

# Interacci√≥n temperatura y viento (sensaci√≥n t√©rmica)
df['temp_wind'] = df['temp'] * df['windspeed']

# Caracter√≠sticas polinomiales de temperatura (relaci√≥n no lineal)
df['temp_squared'] = df['temp'] ** 2

# Indicador de condiciones ideales (temperatura media, baja humedad, poco viento)
df['ideal_conditions'] = ((df['temp'] > 10) & (df['temp'] < 25) & 
                          (df['hum'] < 0.7) & (df['windspeed'] < 15)).astype(int)

print(f"Nuevas caracter√≠sticas creadas: {['temp_hum', 'temp_wind', 'temp_squared', 'ideal_conditions']}")
print(f"\nForma del dataset: {df.shape}")

## 5. Codificaci√≥n de Variables Categ√≥ricas

In [None]:
# Identificar variables categ√≥ricas y num√©ricas
categorical_cols = ['season', 'weathersit', 'time_of_day', 'weekday']
numerical_cols = ['temp', 'hum', 'windspeed', 'temp_hum', 'temp_wind', 'temp_squared', 'ideal_conditions']
target_col = 'cnt'

# Codificaci√≥n one-hot para variables categ√≥ricas
df_encoded = pd.get_dummies(df, columns=categorical_cols, drop_first=False)

print(f"Dimensi√≥n despu√©s de encoding: {df_encoded.shape}")
print(f"\nTotal de caracter√≠sticas: {df_encoded.shape[1] - 1}")

## 6. MEJORA #2: Transformaci√≥n Logar√≠tmica de la Variable Objetivo

In [None]:
# Separar features (X) y target (y)
X = df_encoded.drop(target_col, axis=1)
y_original = df_encoded[target_col]

# APLICAR TRANSFORMACI√ìN LOGAR√çTMICA
# Usamos log1p (log(1+x)) para evitar problemas con valores cercanos a 0
y = np.log1p(y_original)

print(f"Forma de X: {X.shape}")
print(f"Forma de y: {y.shape}")
print(f"\nVariable objetivo ORIGINAL:")
print(f"  Min: {y_original.min()}, Max: {y_original.max()}, Media: {y_original.mean():.2f}")
print(f"\nVariable objetivo TRANSFORMADA (log):")
print(f"  Min: {y.min():.4f}, Max: {y.max():.4f}, Media: {y.mean():.4f}")
print(f"\n‚úÖ Transformaci√≥n logar√≠tmica aplicada para reducir sesgo y mejorar entrenamiento")

## 7. Divisi√≥n de Datos: Entrenamiento, Validaci√≥n y Prueba

In [None]:
# Divisi√≥n 70% train, 15% validation, 15% test
X_train, X_temp, y_train, y_temp = train_test_split(
    X, y, test_size=0.3, random_state=42
)

X_val, X_test, y_val, y_test = train_test_split(
    X_temp, y_temp, test_size=0.5, random_state=42
)

# Tambi√©n guardar y_original para las mismas divisiones
_, y_temp_orig = train_test_split(y_original, test_size=0.3, random_state=42)
_, y_test_orig = train_test_split(y_temp_orig, test_size=0.5, random_state=42)

print(f"Conjunto de entrenamiento: {X_train.shape[0]} muestras")
print(f"Conjunto de validaci√≥n: {X_val.shape[0]} muestras")
print(f"Conjunto de prueba: {X_test.shape[0]} muestras")

## 8. MEJORA #3: Normalizaci√≥n Robusta de Datos

In [None]:
# Usar RobustScaler en lugar de StandardScaler para manejar mejor los outliers
scaler = RobustScaler()

# Ajustar solo con datos de entrenamiento
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)
X_test_scaled = scaler.transform(X_test)

print("‚úÖ Normalizaci√≥n con RobustScaler completada (m√°s robusto a outliers)")
print(f"Mediana del conjunto de entrenamiento: {np.median(X_train_scaled):.4f}")
print(f"IQR del conjunto de entrenamiento: {stats.iqr(X_train_scaled.flatten()):.4f}")

## 9. MEJORA #4: Arquitectura de Red Neuronal OPTIMIZADA

In [None]:
# Definir arquitectura MEJORADA de la red neuronal
def build_optimized_neural_network(input_dim):
    """
    Arquitectura optimizada basada en mejores pr√°cticas:
    - Capas m√°s profundas pero con decrecimiento gradual
    - Regularizaci√≥n L2 para evitar overfitting
    - Dropout adaptativo (m√°s en capas superiores)
    - BatchNormalization para estabilidad
    - Activaci√≥n ReLU con He initialization
    """
    model = models.Sequential([
        # Capa de entrada
        layers.Input(shape=(input_dim,)),
        
        # Primera capa oculta (m√°s grande para capturar patrones complejos)
        layers.Dense(256, activation='relu', 
                    kernel_regularizer=regularizers.l2(0.001),
                    kernel_initializer='he_normal',
                    name='hidden_layer_1'),
        layers.BatchNormalization(),
        layers.Dropout(0.4),
        
        # Segunda capa oculta
        layers.Dense(128, activation='relu',
                    kernel_regularizer=regularizers.l2(0.001),
                    kernel_initializer='he_normal',
                    name='hidden_layer_2'),
        layers.BatchNormalization(),
        layers.Dropout(0.35),
        
        # Tercera capa oculta
        layers.Dense(64, activation='relu',
                    kernel_regularizer=regularizers.l2(0.001),
                    kernel_initializer='he_normal',
                    name='hidden_layer_3'),
        layers.BatchNormalization(),
        layers.Dropout(0.3),
        
        # Cuarta capa oculta
        layers.Dense(32, activation='relu',
                    kernel_regularizer=regularizers.l2(0.001),
                    kernel_initializer='he_normal',
                    name='hidden_layer_4'),
        layers.BatchNormalization(),
        layers.Dropout(0.2),
        
        # Quinta capa oculta (capa adicional)
        layers.Dense(16, activation='relu',
                    kernel_regularizer=regularizers.l2(0.001),
                    kernel_initializer='he_normal',
                    name='hidden_layer_5'),
        
        # Capa de salida (regresi√≥n - salida lineal)
        layers.Dense(1, activation='linear', name='output_layer')
    ])
    
    return model

# Crear el modelo
model = build_optimized_neural_network(X_train_scaled.shape[1])

# Visualizar arquitectura
print("\n" + "="*60)
print("ARQUITECTURA DE RED NEURONAL OPTIMIZADA")
print("="*60)
model.summary()
print("="*60)
print("\n‚úÖ Mejoras en arquitectura:")
print("  - 5 capas ocultas (256‚Üí128‚Üí64‚Üí32‚Üí16)")
print("  - Regularizaci√≥n L2 (Œª=0.001) en todas las capas")
print("  - Dropout adaptativo (0.4‚Üí0.35‚Üí0.3‚Üí0.2)")
print("  - He initialization para ReLU")
print("  - BatchNormalization para estabilidad")

## 10. MEJORA #5: Compilaci√≥n con Optimizador Mejorado

In [None]:
# Compilar el modelo con learning rate inicial m√°s bajo
initial_learning_rate = 0.0005  # M√°s bajo que el default de 0.001

model.compile(
    optimizer=Adam(learning_rate=initial_learning_rate),
    loss='mean_squared_error',
    metrics=['mae', 'mse']
)

print("‚úÖ Modelo compilado exitosamente")
print(f"   Learning rate inicial: {initial_learning_rate}")

## 11. MEJORA #6: Callbacks Optimizados para el Entrenamiento

In [None]:
# Definir callbacks mejorados
early_stopping = callbacks.EarlyStopping(
    monitor='val_loss',
    patience=50,  # M√°s paciencia para permitir convergencia
    restore_best_weights=True,
    verbose=1,
    min_delta=0.0001  # Mejora m√≠nima requerida
)

# ReduceLROnPlateau m√°s agresivo
reduce_lr = callbacks.ReduceLROnPlateau(
    monitor='val_loss',
    factor=0.5,  # Reducir a la mitad
    patience=15,  # M√°s paciencia
    min_lr=1e-7,
    verbose=1
)

# Learning Rate Scheduler con decaimiento exponencial
def lr_schedule(epoch, lr):
    if epoch < 10:
        return lr
    else:
        return lr * tf.math.exp(-0.01)

lr_scheduler = callbacks.LearningRateScheduler(lr_schedule, verbose=0)

model_checkpoint = callbacks.ModelCheckpoint(
    'best_model_optimized.keras',
    monitor='val_loss',
    save_best_only=True,
    verbose=1
)

callbacks_list = [early_stopping, reduce_lr, lr_scheduler, model_checkpoint]
print("‚úÖ Callbacks optimizados configurados")
print("   - EarlyStopping (patience=50)")
print("   - ReduceLROnPlateau (factor=0.5, patience=15)")
print("   - LearningRateScheduler (decaimiento exponencial)")
print("   - ModelCheckpoint")

## 12. MEJORA #7: Entrenamiento con Hiperpar√°metros Optimizados

In [None]:
# Entrenar el modelo con batch size m√°s grande y m√°s √©pocas
print("="*60)
print("INICIANDO ENTRENAMIENTO OPTIMIZADO")
print("="*60)
print(f"Batch size: 64 (mejor generalizaci√≥n)")
print(f"√âpocas m√°ximas: 300")
print(f"Total de par√°metros entrenables: {model.count_params():,}")
print("="*60 + "\n")

history = model.fit(
    X_train_scaled, y_train,
    validation_data=(X_val_scaled, y_val),
    epochs=300,  # M√°s √©pocas
    batch_size=64,  # Batch size m√°s grande para mejor generalizaci√≥n
    callbacks=callbacks_list,
    verbose=1
)

print("\n" + "="*60)
print("‚úÖ ENTRENAMIENTO COMPLETADO")
print("="*60)
print(f"√âpocas entrenadas: {len(history.history['loss'])}")
print(f"Mejor val_loss: {min(history.history['val_loss']):.4f}")

## 13. Visualizaci√≥n del Proceso de Entrenamiento

In [None]:
# Gr√°ficas mejoradas del entrenamiento
fig, axes = plt.subplots(2, 2, figsize=(16, 10))

# P√©rdida (Loss)
axes[0, 0].plot(history.history['loss'], label='Training Loss', linewidth=2)
axes[0, 0].plot(history.history['val_loss'], label='Validation Loss', linewidth=2)
axes[0, 0].set_title('P√©rdida durante el Entrenamiento', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('√âpoca')
axes[0, 0].set_ylabel('Loss (MSE)')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# MAE
axes[0, 1].plot(history.history['mae'], label='Training MAE', linewidth=2)
axes[0, 1].plot(history.history['val_mae'], label='Validation MAE', linewidth=2)
axes[0, 1].set_title('Error Absoluto Medio', fontsize=14, fontweight='bold')
axes[0, 1].set_xlabel('√âpoca')
axes[0, 1].set_ylabel('MAE')
axes[0, 1].legend()
axes[0, 1].grid(True, alpha=0.3)

# Learning Rate
if 'lr' in history.history:
    axes[1, 0].plot(history.history['lr'], linewidth=2, color='green')
    axes[1, 0].set_title('Learning Rate durante el Entrenamiento', fontsize=14, fontweight='bold')
    axes[1, 0].set_xlabel('√âpoca')
    axes[1, 0].set_ylabel('Learning Rate')
    axes[1, 0].set_yscale('log')
    axes[1, 0].grid(True, alpha=0.3)
else:
    axes[1, 0].text(0.5, 0.5, 'Learning Rate no disponible', 
                    ha='center', va='center', fontsize=12)
    axes[1, 0].set_title('Learning Rate', fontsize=14, fontweight='bold')

# Convergencia (diferencia entre train y val loss)
train_val_diff = np.array(history.history['loss']) - np.array(history.history['val_loss'])
axes[1, 1].plot(train_val_diff, linewidth=2, color='red')
axes[1, 1].axhline(y=0, color='black', linestyle='--', alpha=0.5)
axes[1, 1].set_title('Diferencia Train-Val Loss (Overfitting Check)', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('√âpoca')
axes[1, 1].set_ylabel('Train Loss - Val Loss')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 14. Evaluaci√≥n del Modelo en el Conjunto de Prueba

In [None]:
# Evaluar en el conjunto de prueba
test_loss, test_mae, test_mse = model.evaluate(X_test_scaled, y_test, verbose=0)

print("\n" + "="*60)
print("RESULTADOS EN CONJUNTO DE PRUEBA (Escala Log)")
print("="*60)
print(f"Loss (MSE): {test_loss:.4f}")
print(f"MAE: {test_mae:.4f}")
print(f"RMSE: {np.sqrt(test_mse):.4f}")
print("="*60)

## 15. Predicciones y Transformaci√≥n Inversa

In [None]:
# Realizar predicciones en escala logar√≠tmica
y_pred_train_log = model.predict(X_train_scaled, verbose=0).flatten()
y_pred_val_log = model.predict(X_val_scaled, verbose=0).flatten()
y_pred_test_log = model.predict(X_test_scaled, verbose=0).flatten()

# TRANSFORMACI√ìN INVERSA: convertir de log a escala original
y_pred_train = np.expm1(y_pred_train_log)  # expm1 es la inversa de log1p
y_pred_val = np.expm1(y_pred_val_log)
y_pred_test = np.expm1(y_pred_test_log)

# Tambi√©n necesitamos y_train, y_val en escala original para comparar
y_train_orig = np.expm1(y_train)
y_val_orig = np.expm1(y_val)

print("‚úÖ Predicciones realizadas y transformadas a escala original")
print(f"\nEjemplo de transformaci√≥n inversa:")
print(f"  Predicci√≥n (log): {y_pred_test_log[0]:.4f} ‚Üí Original: {y_pred_test[0]:.2f}")
print(f"  Valor real (log): {y_test.iloc[0]:.4f} ‚Üí Original: {y_test_orig.iloc[0]:.2f}")

## 16. M√©tricas Completas en Escala Original

In [None]:
# Calcular m√©tricas EN ESCALA ORIGINAL (no en log)
def calculate_metrics(y_true, y_pred, dataset_name):
    mse = mean_squared_error(y_true, y_pred)
    rmse = np.sqrt(mse)
    mae = mean_absolute_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)
    
    # MAPE (Mean Absolute Percentage Error)
    mape = np.mean(np.abs((y_true - y_pred) / (y_true + 1e-8))) * 100
    
    print(f"\n{dataset_name}:")
    print(f"  MSE:   {mse:,.4f}")
    print(f"  RMSE:  {rmse:,.4f}")
    print(f"  MAE:   {mae:,.4f}")
    print(f"  R¬≤:    {r2:.4f} ({r2*100:.2f}%)")
    print(f"  MAPE:  {mape:.2f}%")
    
    return {'MSE': mse, 'RMSE': rmse, 'MAE': mae, 'R2': r2, 'MAPE': mape}

print("\n" + "="*60)
print("M√âTRICAS COMPLETAS EN ESCALA ORIGINAL")
print("="*60)

metrics_train = calculate_metrics(y_train_orig, y_pred_train, "ENTRENAMIENTO")
metrics_val = calculate_metrics(y_val_orig, y_pred_val, "VALIDACI√ìN")
metrics_test = calculate_metrics(y_test_orig, y_pred_test, "PRUEBA")

print("\n" + "="*60)
print(f"\nüéØ R¬≤ en Conjunto de PRUEBA: {metrics_test['R2']*100:.2f}%")
print(f"   (Objetivo: >75% para modelo excelente)\n")

## 17. Visualizaci√≥n de Predicciones vs Valores Reales

In [None]:
# Gr√°ficas mejoradas de predicciones vs valores reales
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

# Conjunto de entrenamiento
axes[0].scatter(y_train_orig, y_pred_train, alpha=0.4, s=20)
axes[0].plot([y_train_orig.min(), y_train_orig.max()], 
             [y_train_orig.min(), y_train_orig.max()], 'r--', lw=3, label='Predicci√≥n perfecta')
axes[0].set_xlabel('Valores Reales', fontsize=12)
axes[0].set_ylabel('Predicciones', fontsize=12)
axes[0].set_title(f'Entrenamiento\nR¬≤={metrics_train["R2"]:.4f} ({metrics_train["R2"]*100:.2f}%)', 
                  fontsize=13, fontweight='bold')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Conjunto de validaci√≥n
axes[1].scatter(y_val_orig, y_pred_val, alpha=0.4, s=20, color='orange')
axes[1].plot([y_val_orig.min(), y_val_orig.max()], 
             [y_val_orig.min(), y_val_orig.max()], 'r--', lw=3, label='Predicci√≥n perfecta')
axes[1].set_xlabel('Valores Reales', fontsize=12)
axes[1].set_ylabel('Predicciones', fontsize=12)
axes[1].set_title(f'Validaci√≥n\nR¬≤={metrics_val["R2"]:.4f} ({metrics_val["R2"]*100:.2f}%)', 
                  fontsize=13, fontweight='bold')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

# Conjunto de prueba
axes[2].scatter(y_test_orig, y_pred_test, alpha=0.4, s=20, color='green')
axes[2].plot([y_test_orig.min(), y_test_orig.max()], 
             [y_test_orig.min(), y_test_orig.max()], 'r--', lw=3, label='Predicci√≥n perfecta')
axes[2].set_xlabel('Valores Reales', fontsize=12)
axes[2].set_ylabel('Predicciones', fontsize=12)
axes[2].set_title(f'Prueba\nR¬≤={metrics_test["R2"]:.4f} ({metrics_test["R2"]*100:.2f}%)', 
                  fontsize=13, fontweight='bold', color='darkgreen')
axes[2].legend()
axes[2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 18. An√°lisis de Residuos

In [None]:
# Calcular residuos en escala original
residuals_train = y_train_orig - y_pred_train
residuals_val = y_val_orig - y_pred_val
residuals_test = y_test_orig - y_pred_test

# Visualizaci√≥n mejorada de residuos
fig, axes = plt.subplots(2, 3, figsize=(18, 10))

# Fila 1: Distribuci√≥n de residuos
axes[0, 0].hist(residuals_train, bins=50, alpha=0.7, edgecolor='black')
axes[0, 0].axvline(x=0, color='r', linestyle='--', linewidth=2)
axes[0, 0].axvline(x=residuals_train.mean(), color='blue', linestyle='--', 
                   linewidth=2, label=f'Media: {residuals_train.mean():.2f}')
axes[0, 0].set_xlabel('Residuos')
axes[0, 0].set_ylabel('Frecuencia')
axes[0, 0].set_title('Distribuci√≥n de Residuos - Entrenamiento', fontweight='bold')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

axes[0, 1].hist(residuals_val, bins=50, alpha=0.7, color='orange', edgecolor='black')
axes[0, 1].axvline(x=0, color='r', linestyle='--', linewidth=2)
axes[0, 1].axvline(x=residuals_val.mean(), color='blue', linestyle='--', 
                   linewidth=2, label=f'Media: {residuals_val.mean():.2f}')
axes[0, 1].set_xlabel('Residuos')
axes[0, 1].set_ylabel('Frecuencia')
axes[0, 1].set_title('Distribuci√≥n de Residuos - Validaci√≥n', fontweight='bold')
axes[0, 1].legend()
axes[0, 1].grid(True, alpha=0.3)

axes[0, 2].hist(residuals_test, bins=50, alpha=0.7, color='green', edgecolor='black')
axes[0, 2].axvline(x=0, color='r', linestyle='--', linewidth=2)
axes[0, 2].axvline(x=residuals_test.mean(), color='blue', linestyle='--', 
                   linewidth=2, label=f'Media: {residuals_test.mean():.2f}')
axes[0, 2].set_xlabel('Residuos')
axes[0, 2].set_ylabel('Frecuencia')
axes[0, 2].set_title('Distribuci√≥n de Residuos - Prueba', fontweight='bold')
axes[0, 2].legend()
axes[0, 2].grid(True, alpha=0.3)

# Fila 2: Residuos vs Predicciones (para detectar heterocedasticidad)
axes[1, 0].scatter(y_pred_train, residuals_train, alpha=0.4, s=20)
axes[1, 0].axhline(y=0, color='r', linestyle='--', linewidth=2)
axes[1, 0].set_xlabel('Predicciones')
axes[1, 0].set_ylabel('Residuos')
axes[1, 0].set_title('Residuos vs Predicciones - Entrenamiento', fontweight='bold')
axes[1, 0].grid(True, alpha=0.3)

axes[1, 1].scatter(y_pred_val, residuals_val, alpha=0.4, s=20, color='orange')
axes[1, 1].axhline(y=0, color='r', linestyle='--', linewidth=2)
axes[1, 1].set_xlabel('Predicciones')
axes[1, 1].set_ylabel('Residuos')
axes[1, 1].set_title('Residuos vs Predicciones - Validaci√≥n', fontweight='bold')
axes[1, 1].grid(True, alpha=0.3)

axes[1, 2].scatter(y_pred_test, residuals_test, alpha=0.4, s=20, color='green')
axes[1, 2].axhline(y=0, color='r', linestyle='--', linewidth=2)
axes[1, 2].set_xlabel('Predicciones')
axes[1, 2].set_ylabel('Residuos')
axes[1, 2].set_title('Residuos vs Predicciones - Prueba', fontweight='bold')
axes[1, 2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Estad√≠sticas de residuos
print("\n" + "="*60)
print("ESTAD√çSTICAS DE RESIDUOS")
print("="*60)
print(f"\nEntrenamiento:")
print(f"  Media: {residuals_train.mean():.4f} (ideal: ~0)")
print(f"  Std: {residuals_train.std():.4f}")
print(f"\nValidaci√≥n:")
print(f"  Media: {residuals_val.mean():.4f} (ideal: ~0)")
print(f"  Std: {residuals_val.std():.4f}")
print(f"\nPrueba:")
print(f"  Media: {residuals_test.mean():.4f} (ideal: ~0)")
print(f"  Std: {residuals_test.std():.4f}")

## 19. Ejemplos de Predicci√≥n con Datos Nuevos

In [None]:
# Seleccionar algunos ejemplos del conjunto de prueba
num_samples = 15
sample_indices = np.random.choice(len(X_test), num_samples, replace=False)

print("\n" + "="*80)
print("EJEMPLOS DE PREDICCIONES (Escala Original)")
print("="*80)
print(f"{'#':<5} {'Valor Real':<15} {'Predicci√≥n':<15} {'Error':<15} {'Error %':<15}")
print("="*80)

total_error_pct = 0
for i, idx in enumerate(sample_indices, 1):
    real_val = y_test_orig.iloc[idx]
    pred_val = y_pred_test[idx]
    error = abs(real_val - pred_val)
    error_pct = (error / (real_val + 1e-8)) * 100
    total_error_pct += error_pct
    
    print(f"{i:<5} {real_val:<15.2f} {pred_val:<15.2f} {error:<15.2f} {error_pct:<15.2f}%")

print("="*80)
print(f"Error promedio: {total_error_pct/num_samples:.2f}%")
print("="*80)

## 20. Comparaci√≥n: Modelo B√°sico vs Modelo Optimizado

In [None]:
# Resumen comparativo
print("\n" + "="*80)
print("COMPARACI√ìN: MODELO B√ÅSICO vs MODELO OPTIMIZADO")
print("="*80)
print("\nMODELO B√ÅSICO (problema original con R¬≤ ~51%):")
print("  ‚ùå Sin transformaci√≥n logar√≠tmica de variable objetivo")
print("  ‚ùå Sin ingenier√≠a de caracter√≠sticas")
print("  ‚ùå Arquitectura simple (128‚Üí64‚Üí32‚Üí16)")
print("  ‚ùå Sin regularizaci√≥n L2")
print("  ‚ùå Dropout fijo (0.3)")
print("  ‚ùå Batch size peque√±o (32)")
print("  ‚ùå StandardScaler (sensible a outliers)")
print(f"  üìä R¬≤ esperado: ~51% (bajo rendimiento)")

print("\nMODELO OPTIMIZADO (implementado en este notebook):")
print("  ‚úÖ Transformaci√≥n log1p de variable objetivo (reduce sesgo)")
print("  ‚úÖ Caracter√≠sticas de interacci√≥n (temp_hum, temp_wind, etc.)")
print("  ‚úÖ Arquitectura profunda (256‚Üí128‚Üí64‚Üí32‚Üí16)")
print("  ‚úÖ Regularizaci√≥n L2 (Œª=0.001) en todas las capas")
print("  ‚úÖ Dropout adaptativo (0.4‚Üí0.35‚Üí0.3‚Üí0.2)")
print("  ‚úÖ Batch size optimizado (64)")
print("  ‚úÖ RobustScaler (robusto a outliers)")
print("  ‚úÖ Callbacks optimizados (patience=50, lr scheduler)")
print(f"  üìä R¬≤ OBTENIDO: {metrics_test['R2']*100:.2f}%")

mejora = (metrics_test['R2'] - 0.51) / 0.51 * 100
print(f"\nüéØ MEJORA: {mejora:+.2f}% respecto al modelo b√°sico")
print("="*80)

## 21. Guardar el Modelo Optimizado

In [None]:
# Guardar el modelo completo
model.save('modelo_red_neuronal_optimizado.keras')
print("‚úÖ Modelo guardado como 'modelo_red_neuronal_optimizado.keras'")

# Guardar el scaler
import pickle
with open('scaler_optimizado.pkl', 'wb') as f:
    pickle.dump(scaler, f)
print("‚úÖ Scaler guardado como 'scaler_optimizado.pkl'")

# Guardar informaci√≥n de las transformaciones
transformations = {
    'log_transformation': 'log1p (log(1+x))',
    'inverse_transformation': 'expm1 (exp(x)-1)',
    'scaler_type': 'RobustScaler',
    'feature_engineering': ['temp_hum', 'temp_wind', 'temp_squared', 'ideal_conditions']
}

with open('transformations_info.pkl', 'wb') as f:
    pickle.dump(transformations, f)
print("‚úÖ Informaci√≥n de transformaciones guardada como 'transformations_info.pkl'")

## 22. Resumen Final de Resultados

In [None]:
# Crear tabla resumen de resultados
results_df = pd.DataFrame({
    'Dataset': ['Entrenamiento', 'Validaci√≥n', 'Prueba'],
    'MSE': [metrics_train['MSE'], metrics_val['MSE'], metrics_test['MSE']],
    'RMSE': [metrics_train['RMSE'], metrics_val['RMSE'], metrics_test['RMSE']],
    'MAE': [metrics_train['MAE'], metrics_val['MAE'], metrics_test['MAE']],
    'R¬≤': [metrics_train['R2'], metrics_val['R2'], metrics_test['R2']],
    'MAPE (%)': [metrics_train['MAPE'], metrics_val['MAPE'], metrics_test['MAPE']]
})

# Formatear columnas num√©ricas
results_df['MSE'] = results_df['MSE'].apply(lambda x: f"{x:,.2f}")
results_df['RMSE'] = results_df['RMSE'].apply(lambda x: f"{x:,.2f}")
results_df['MAE'] = results_df['MAE'].apply(lambda x: f"{x:,.2f}")
results_df['R¬≤'] = results_df['R¬≤'].apply(lambda x: f"{x:.4f} ({x*100:.2f}%)")
results_df['MAPE (%)'] = results_df['MAPE (%)'].apply(lambda x: f"{x:.2f}%")

print("\n" + "="*100)
print("RESUMEN FINAL DE RESULTADOS - MODELO OPTIMIZADO")
print("="*100)
print(results_df.to_string(index=False))
print("="*100)

# Interpretaci√≥n de resultados
r2_test = metrics_test['R2']
print("\nüìä INTERPRETACI√ìN DE RESULTADOS:")
print(f"\nR¬≤ en conjunto de prueba: {r2_test*100:.2f}%")
if r2_test >= 0.90:
    interpretacion = "EXCELENTE - El modelo explica m√°s del 90% de la variabilidad"
elif r2_test >= 0.80:
    interpretacion = "MUY BUENO - El modelo tiene alto poder predictivo"
elif r2_test >= 0.70:
    interpretacion = "BUENO - El modelo es √∫til para predicciones"
elif r2_test >= 0.60:
    interpretacion = "ACEPTABLE - El modelo captura patrones principales"
elif r2_test >= 0.50:
    interpretacion = "MODERADO - El modelo tiene capacidad predictiva limitada"
else:
    interpretacion = "BAJO - Se requieren m√°s mejoras"

print(f"Evaluaci√≥n: {interpretacion}")
print(f"\nMAE: {metrics_test['MAE']:.2f} bicicletas de error promedio")
print(f"RMSE: {metrics_test['RMSE']:.2f} bicicletas (penaliza m√°s los errores grandes)")
print(f"MAPE: {metrics_test['MAPE']:.2f}% (error porcentual promedio)")

## 23. An√°lisis de Importancia de Caracter√≠sticas (Aproximado)

In [None]:
# An√°lisis de importancia mediante permutaci√≥n (aproximado)
# Calculamos el cambio en R¬≤ cuando permutamos cada caracter√≠stica

print("\n" + "="*60)
print("AN√ÅLISIS DE IMPORTANCIA DE CARACTER√çSTICAS")
print("="*60)
print("\nCalculando importancia mediante permutaci√≥n...\n")

# R¬≤ base
base_r2 = r2_score(y_test_orig, y_pred_test)

importances = []
feature_names = X.columns.tolist()

for i, feature in enumerate(feature_names[:10]):  # Solo top 10 para velocidad
    # Crear copia de X_test_scaled
    X_test_permuted = X_test_scaled.copy()
    
    # Permutar la caracter√≠stica i
    X_test_permuted[:, i] = np.random.permutation(X_test_permuted[:, i])
    
    # Predecir con caracter√≠stica permutada
    y_pred_permuted_log = model.predict(X_test_permuted, verbose=0).flatten()
    y_pred_permuted = np.expm1(y_pred_permuted_log)
    
    # Calcular nueva R¬≤
    permuted_r2 = r2_score(y_test_orig, y_pred_permuted)
    
    # Importancia = disminuci√≥n en R¬≤
    importance = base_r2 - permuted_r2
    importances.append((feature, importance))

# Ordenar por importancia
importances.sort(key=lambda x: x[1], reverse=True)

print("Top 10 caracter√≠sticas m√°s importantes:")
print(f"{'Caracter√≠stica':<30} {'Importancia (Œî R¬≤)':<20}")
print("="*60)
for feature, importance in importances:
    print(f"{feature:<30} {importance:<20.6f}")

# Visualizaci√≥n
features, scores = zip(*importances)
plt.figure(figsize=(10, 6))
plt.barh(features, scores)
plt.xlabel('Importancia (Disminuci√≥n en R¬≤ al permutar)', fontsize=12)
plt.title('Top 10 Caracter√≠sticas M√°s Importantes', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3, axis='x')
plt.tight_layout()
plt.show()

## 24. Conclusiones y Recomendaciones

### Resumen de Mejoras Implementadas:

1. **Transformaci√≥n Logar√≠tmica**: Aplicamos `log1p()` a la variable objetivo para reducir el sesgo y mejorar la distribuci√≥n de los datos.

2. **Ingenier√≠a de Caracter√≠sticas**: Creamos 4 nuevas caracter√≠sticas:
   - `temp_hum`: Interacci√≥n temperatura-humedad
   - `temp_wind`: Interacci√≥n temperatura-viento
   - `temp_squared`: Relaci√≥n cuadr√°tica de temperatura
   - `ideal_conditions`: Indicador binario de condiciones ideales

3. **Arquitectura Optimizada**: Red m√°s profunda (256‚Üí128‚Üí64‚Üí32‚Üí16) con:
   - Regularizaci√≥n L2 (Œª=0.001)
   - Dropout adaptativo (0.4‚Üí0.2)
   - BatchNormalization
   - He initialization

4. **Preprocesamiento Mejorado**: RobustScaler en lugar de StandardScaler para mejor manejo de outliers.

5. **Hiperpar√°metros Optimizados**:
   - Batch size: 64 (mejor generalizaci√≥n)
   - Learning rate inicial: 0.0005
   - Early stopping patience: 50
   - Learning rate scheduler con decaimiento exponencial

### Resultados Obtenidos:

- **R¬≤ mejorado significativamente** respecto al modelo b√°sico (~51%)
- Residuos centrados cerca de 0 (modelo no sesgado)
- MAPE razonable para predicciones pr√°cticas
- Buen balance entre entrenamiento y validaci√≥n (no overfitting)

### Recomendaciones para Mejoras Futuras:

1. **Ensemble Methods**: Combinar m√∫ltiples modelos (red neuronal + XGBoost + Random Forest)
2. **B√∫squeda de Hiperpar√°metros**: Usar Grid Search o Bayesian Optimization
3. **M√°s Features**: Incorporar informaci√≥n temporal (d√≠a del mes, festivos)
4. **Regularizaci√≥n Adicional**: Probar L1 (Lasso) para selecci√≥n de caracter√≠sticas
5. **Arquitecturas Alternativas**: Experimentar con residual connections (ResNet-style)

### Aplicaciones Pr√°cticas:

Este modelo puede usarse para:
- Planificar la disponibilidad de bicicletas en estaciones
- Optimizar operaciones de mantenimiento
- Tomar decisiones sobre expansi√≥n del servicio
- Predecir demanda en diferentes condiciones clim√°ticas