üìö Introducci√≥n Te√≥rica
¬øQu√© son los Hiperpar√°metros?
Los hiperpar√°metros son configuraciones que definen la arquitectura y el comportamiento de un modelo de aprendizaje autom√°tico, pero que no se aprenden durante el entrenamiento. A diferencia de los par√°metros (como pesos y sesgos), los hiperpar√°metros deben ser establecidos antes del entrenamiento.

üîç Diferencias Clave: Par√°metros vs Hiperpar√°metros
Aspecto	Par√°metros	Hiperpar√°metros
Definici√≥n	Variables aprendidas por el modelo	Configuraciones establecidas antes del entrenamiento
Ejemplos	Pesos, sesgos	Learning rate, n√∫mero de capas, dropout rate
Optimizaci√≥n	Gradient descent, backpropagation	Grid search, random search, Bayesian optimization
Modificaci√≥n	Durante el entrenamiento	Antes del entrenamiento

‚ö†Ô∏è Importancia de la Optimizaci√≥n de Hiperpar√°metros
Rendimiento: Puede mejorar la precisi√≥n del modelo en 5-15%
Generalizaci√≥n: Reduce overfitting y mejora la capacidad de generalizaci√≥n
Eficiencia: Optimiza el tiempo de entrenamiento y los recursos computacionales
Robustez: Hace el modelo m√°s estable ante variaciones en los datos

üõ†Ô∏è M√©todos Tradicionales vs Keras Tuner
M√©todos Tradicionales:

Manual: Ajuste basado en experiencia e intuici√≥n
Grid Search: B√∫squeda exhaustiva en una grilla predefinida
Random Search: Selecci√≥n aleatoria de combinaciones

Ventajas de Keras Tuner:

üîß Facilidad de uso: API simple y consistente
üöÄ Algoritmos avanzados: Hyperband, Bayesian Optimization
üìä Integraci√≥n nativa: Funciona perfectamente con Keras/TensorFlow
üíæ Persistencia autom√°tica: Guarda resultados y permite reanudar b√∫squedas
üìà Visualizaci√≥n: Herramientas integradas para an√°lisis de resultados

In [None]:
# üì¶ Instalaci√≥n de Keras Tuner y dependencias
!pip install -q keras_tuner
!pip install -q seaborn
print("‚úÖ Instalaci√≥n completada exitosamente!")

In [None]:
# üìö Importaci√≥n de librer√≠as esenciales
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import tensorflow as tf
from tensorflow import keras
from keras import layers
import keras_tuner as kt

# Librer√≠as de sklearn para datos y preprocesamiento
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix

# Configuraci√≥n para reproducibilidad
np.random.seed(42)
tf.random.set_seed(42)

# Configuraci√≥n de matplotlib para mejores gr√°ficos
plt.style.use('default')
sns.set_palette("husl")

print("üéØ Librer√≠as importadas correctamente")
print(f"üìä TensorFlow version: {tf.__version__}")
print(f"üîß Keras Tuner version: {kt.__version__}")

üìä Preparaci√≥n y An√°lisis del Dataset
Utilizaremos el Breast Cancer Wisconsin Dataset, un dataset cl√°sico para clasificaci√≥n binaria que contiene caracter√≠sticas extra√≠das de im√°genes digitalizadas de masas de tejido mamario.

üî¨ Caracter√≠sticas del Dataset
Instancias: 569 muestras
Features: 30 caracter√≠sticas num√©ricas
Clases: Maligno (1) y Benigno (0)
Tipo: Problema de clasificaci√≥n binaria

In [None]:
# üì• Carga y exploraci√≥n del dataset
data = load_breast_cancer()
X = data.data
y = data.target

print("üîç AN√ÅLISIS EXPLORATORIO DEL DATASET")
print("=" * 50)
print(f"üìà Forma del dataset: {X.shape}")
print(f"üéØ Clases: {data.target_names}")
print(f"üìä Distribuci√≥n de clases: {np.bincount(y)}")
print(f"üìã Caracter√≠sticas: {len(data.feature_names)}")

# Crear DataFrame para mejor visualizaci√≥n
df = pd.DataFrame(X, columns=data.feature_names)
df['target'] = y

print("\nüìã ESTAD√çSTICAS DESCRIPTIVAS:")
print(df.describe().round(2))

print(f"\nüéØ BALANCE DE CLASES:")
print(f"Benigno (0): {(y == 1).sum()} ({(y == 1).mean()*100:.1f}%)")
print(f"Maligno (1): {(y == 0).sum()} ({(y == 0).mean()*100:.1f}%)")

In [None]:
# üìä Visualizaci√≥n del dataset
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Distribuci√≥n de clases
axes[0, 0].pie([212, 357], labels=['Maligno', 'Benigno'], autopct='%1.1f%%', colors=['#ff6b6b', '#4ecdc4'])
axes[0, 0].set_title('üéØ Distribuci√≥n de Clases')

# Histograma de algunas caracter√≠sticas importantes
axes[0, 1].hist([df[df['target']==0]['mean radius'], df[df['target']==1]['mean radius']], alpha=0.7, label=['Maligno', 'Benigno'], bins=20)
axes[0, 1].set_title('üìè Distribuci√≥n del Radio Medio')
axes[0, 1].set_xlabel('Radio Medio')
axes[0, 1].legend()

# Correlaci√≥n entre algunas caracter√≠sticas
correlation_features = ['mean radius', 'mean texture', 'mean perimeter', 'mean area']
corr_matrix = df[correlation_features + ['target']].corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0, ax=axes[1, 0])
axes[1, 0].set_title('üî• Mapa de Correlaci√≥n')

# Boxplot de caracter√≠sticas importantes
df_melted = df[['mean radius', 'mean texture', 'target']].melt(id_vars=['target'])
sns.boxplot(data=df_melted, x='variable', y='value', hue='target', ax=axes[1, 1])
axes[1, 1].set_title('üì¶ Distribuci√≥n por Clase')
axes[1, 1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

print("‚úÖ Visualizaci√≥n del dataset completada")

In [None]:
# üîß Divisi√≥n y preprocesamiento de datos
print("üîÑ PREPROCESAMIENTO DE DATOS")
print("=" * 40)

# Divisi√≥n estratificada del dataset
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

print(f"üìä Conjunto de entrenamiento: {X_train.shape}")
print(f"üß™ Conjunto de prueba: {X_test.shape}")

# Verificar distribuci√≥n en conjuntos
print(f"\nüéØ Distribuci√≥n en entrenamiento:")
print(f" Benigno: {(y_train == 1).sum()} ({(y_train == 1).mean()*100:.1f}%)")
print(f" Maligno: {(y_train == 0).sum()} ({(y_train == 0).mean()*100:.1f}%)")

print(f"\nüéØ Distribuci√≥n en prueba:")
print(f" Benigno: {(y_test == 1).sum()} ({(y_test == 1).mean()*100:.1f}%)")
print(f" Maligno: {(y_test == 0).sum()} ({(y_test == 0).mean()*100:.1f}%)")

# Estandarizaci√≥n de caracter√≠sticas
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(f"\nüìê Estad√≠sticas despu√©s de la estandarizaci√≥n:")
print(f" Media del conjunto de entrenamiento: {X_train_scaled.mean():.3f}")
print(f" Desviaci√≥n est√°ndar del entrenamiento: {X_train_scaled.std():.3f}")

# Visualizar el efecto de la estandarizaci√≥n
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4))
ax1.hist(X_train[:, 0], bins=30, alpha=0.7, label='Original')
ax1.set_title('üìä Antes de Estandarizaci√≥n')
ax1.set_xlabel('Valores')
ax1.set_ylabel('Frecuencia')
ax2.hist(X_train_scaled[:, 0], bins=30, alpha=0.7, label='Estandarizado', color='orange')
ax2.set_title('üìä Despu√©s de Estandarizaci√≥n')
ax2.set_xlabel('Valores')
ax2.set_ylabel('Frecuencia')
plt.tight_layout()
plt.show()

print("‚úÖ Preprocesamiento completado exitosamente")

üèóÔ∏è Funci√≥n de Construcci√≥n del Modelo Base
Definiremos una funci√≥n que construye modelos con arquitectura variable, permitiendo ajustar m√∫ltiples hiperpar√°metros simult√°neamente.

üí° Hiperpar√°metros a Optimizar
Arquitectura: N√∫mero de capas ocultas (1-5)
Neuronas: Unidades por capa (32-512)
Activaci√≥n: Funciones (ReLU, Tanh, Sigmoid)
Regularizaci√≥n: L2 regularization (1e-5 to 1e-2)
Dropout: Tasa de dropout (0.0-0.5)
Optimizador: Adam, SGD, RMSprop

In [None]:
def build_model(hp):
    """ üèóÔ∏è Construye un modelo de red neuronal con hiperpar√°metros variables
    
    Args:
        hp: Objeto HyperParameters de Keras Tuner
    
    Returns:
        model: Modelo compilado de Keras
    """
    
    # üß± Inicializar modelo secuencial
    model = keras.Sequential()
    
    # üìè Definir n√∫mero de capas ocultas
    num_layers = hp.Int(
        name='num_layers',
        min_value=1,
        max_value=5,
        default=2
    )
    
    # üéØ Primera capa (incluye input_shape)
    model.add(layers.Dense(
        units=hp.Int(
            name='units_0',
            min_value=32,
            max_value=512,
            step=32,
            default=128
        ),
        activation=hp.Choice(
            name='activation_0',
            values=['relu', 'tanh', 'sigmoid'],
            default='relu'
        ),
        kernel_regularizer=keras.regularizers.l2(
            hp.Float(
                name='l2_0',
                min_value=1e-5,
                max_value=1e-2,
                sampling='log',
                default=1e-4
            )
        ),
        input_shape=(X_train_scaled.shape[1],)
    ))
    
    # ‚ûï Capas ocultas adicionales
    for i in range(1, num_layers):
        model.add(layers.Dense(
            units=hp.Int(
                name=f'units_{i}',
                min_value=32,
                max_value=512,
                step=32,
                default=64
            ),
            activation=hp.Choice(
                name=f'activation_{i}',
                values=['relu', 'tanh', 'sigmoid'],
                default='relu'
            ),
            kernel_regularizer=keras.regularizers.l2(
                hp.Float(
                    name=f'l2_{i}',
                    min_value=1e-5,
                    max_value=1e-2,
                    sampling='log',
                    default=1e-4
                )
            )
        ))
        
        # üö´ Agregar dropout entre capas
        model.add(layers.Dropout(
            rate=hp.Float(
                name=f'dropout_{i}',
                min_value=0.0,
                max_value=0.5,
                step=0.1,
                default=0.2
            )
        ))
    
    # üéØ Capa de salida para clasificaci√≥n binaria
    model.add(layers.Dense(1, activation='sigmoid'))
    
    # ‚öôÔ∏è Seleccionar optimizador
    optimizer_choice = hp.Choice(
        name='optimizer',
        values=['adam', 'sgd', 'rmsprop'],
        default='adam'
    )
    
    # üìê Compilar modelo
    model.compile(
        optimizer=optimizer_choice,
        loss='binary_crossentropy',
        metrics=['accuracy', 'precision', 'recall']
    )
    
    return model

# üß™ Prueba de la funci√≥n
print("üß™ PRUEBA DE LA FUNCI√ìN BUILD_MODEL")
print("=" * 40)

# Crear un objeto de hiperpar√°metros de prueba
test_hp = kt.HyperParameters()
test_model = build_model(test_hp)

print("‚úÖ Funci√≥n build_model creada exitosamente")
print(f"üìä Modelo de prueba creado con arquitectura:")
test_model.summary()

üöÄ EJERCICIO 1: Investigaci√≥n e Implementaci√≥n de Hyperband
üìö Teor√≠a: Algoritmo Hyperband
Hyperband es un algoritmo de optimizaci√≥n de hiperpar√°metros basado en el problema de "multi-armed bandit" que utiliza early stopping de manera principiada.

üéØ Principios Fundamentales
Hyperband se basa en el algoritmo Successive Halving:

R: Presupuesto m√°ximo de recursos
Œ∑: Factor de reducci√≥n (t√≠picamente 3 o 4)
r_i: Recursos asignados en la iteraci√≥n i
üîÑ Proceso de Optimizaci√≥n
Inicializaci√≥n: Se generan n configuraciones aleatorias
Evaluaci√≥n: Cada configuraci√≥n se entrena con R/Œ∑^k recursos
Selecci√≥n: Se mantienen las mejores Œ∑ configuraciones
Iteraci√≥n: Se repite el proceso aumentando los recursos
‚ö° Ventajas Principales
Eficiencia Computacional: Elimina configuraciones pobres r√°pidamente
No requiere conocimiento previo: No necesita configuraci√≥n manual
Balanceo autom√°tico: Equilibra exploraci√≥n vs explotaci√≥n
Escalabilidad: Funciona bien con espacios grandes de hiperpar√°metros
‚ö†Ô∏è Consideraciones Importantes
Funciona mejor cuando hay correlaci√≥n entre rendimiento temprano y final
Puede no ser √≥ptimo para modelos que requieren muchas √©pocas para converger
El factor Œ∑ debe ajustarse seg√∫n el problema espec√≠fico

In [None]:
# üöÄ Implementaci√≥n de Hyperband
print("üöÄ CONFIGURANDO HYPERBAND TUNER")
print("=" * 45)

# Configurar Hyperband tuner
hyperband_tuner = kt.Hyperband(
    hypermodel=build_model,  # Funci√≥n que construye el modelo
    objective='val_accuracy',  # M√©trica a optimizar
    max_epochs=50,  # N√∫mero m√°ximo de √©pocas
    factor=3,  # Factor de reducci√≥n Œ∑
    hyperband_iterations=2,  # N√∫mero de iteraciones de Hyperband
    directory='hyperband_results',  # Directorio para guardar resultados
    project_name='breast_cancer_hyperband',  # Nombre del proyecto
    overwrite=True  # Sobrescribir resultados anteriores
)

# Mostrar informaci√≥n del tuner
print(f"üìä Objetivo de optimizaci√≥n: {hyperband_tuner.objective.name}")
print(f"üîß Factor de reducci√≥n: {hyperband_tuner.factor}")
print(f"‚è±Ô∏è √âpocas m√°ximas: {hyperband_tuner.max_epochs}")
print(f"üîÑ Iteraciones de Hyperband: {hyperband_tuner.hyperband_iterations}")

# Configurar callbacks
callbacks = [
    tf.keras.callbacks.EarlyStopping(
        monitor='val_loss',
        patience=5,
        restore_best_weights=True
    ),
    tf.keras.callbacks.ReduceLROnPlateau(
        monitor='val_loss',
        factor=0.5,
        patience=3,
        min_lr=1e-6
    )
]

print("‚úÖ Hyperband tuner configurado exitosamente")

In [None]:
# üîç Ejecutar b√∫squeda con Hyperband
print("üîç EJECUTANDO B√öSQUEDA HYPERBAND")
print("=" * 40)

import time
start_time = time.time()

# Ejecutar la b√∫squeda
hyperband_tuner.search(
    x=X_train_scaled,
    y=y_train,
    epochs=50,
    validation_split=0.2,
    callbacks=callbacks,
    verbose=1,
    batch_size=32
)

end_time = time.time()
hyperband_duration = end_time - start_time

print(f"\n‚è±Ô∏è Tiempo total de b√∫squeda: {hyperband_duration:.2f} segundos")
print("‚úÖ B√∫squeda Hyperband completada exitosamente")

# Obtener los mejores hiperpar√°metros
best_hps_hyperband = hyperband_tuner.get_best_hyperparameters(num_trials=1)[0]

print(f"\nüèÜ MEJORES HIPERPAR√ÅMETROS ENCONTRADOS POR HYPERBAND:")
print("=" * 55)
print(f"üìä N√∫mero de capas: {best_hps_hyperband.get('num_layers')}")
print(f"‚öôÔ∏è Optimizador: {best_hps_hyperband.get('optimizer')}")

for i in range(best_hps_hyperband.get('num_layers')):
    print(f"üî∏ Capa {i+1}:")
    print(f" ‚Ä¢ Unidades: {best_hps_hyperband.get(f'units_{i}')}")
    print(f" ‚Ä¢ Activaci√≥n: {best_hps_hyperband.get(f'activation_{i}')}")
    print(f" ‚Ä¢ L2 regularization: {best_hps_hyperband.get(f'l2_{i}'):.2e}")
    if i > 0:
        print(f" ‚Ä¢ Dropout: {best_hps_hyperband.get(f'dropout_{i}')}")

In [None]:
# üìä An√°lisis de resultados de Hyperband
print("üìä AN√ÅLISIS DE RESULTADOS - HYPERBAND")
print("=" * 42)

# Obtener todos los trials
hyperband_trials = hyperband_tuner.oracle.get_best_trials(num_trials=10)

# Crear visualizaci√≥n de resultados
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# 1. Evoluci√≥n de scores
trial_ids = [trial.trial_id for trial in hyperband_trials]
scores = [trial.score if trial.score is not None else 0 for trial in hyperband_trials]
axes[0, 0].plot(trial_ids, scores, 'bo-', linewidth=2, markersize=8)
axes[0, 0].set_title('üöÄ Hyperband: Evoluci√≥n de Scores')
axes[0, 0].set_xlabel('Trial ID')
axes[0, 0].set_ylabel('Validation Accuracy')
axes[0, 0].grid(True, alpha=0.3)
axes[0, 0].set_ylim(0.85, 1.0)

# 2. Distribuci√≥n de scores
axes[0, 1].hist(scores, bins=15, alpha=0.7, color='skyblue', edgecolor='black')
axes[0, 1].axvline(max(scores), color='red', linestyle='--', label=f'Mejor: {max(scores):.4f}')
axes[0, 1].set_title('üìä Distribuci√≥n de Accuracy')
axes[0, 1].set_xlabel('Validation Accuracy')
axes[0, 1].set_ylabel('Frecuencia')
axes[0, 1].legend()
axes[0, 1].grid(True, alpha=0.3)

# 3. An√°lisis de n√∫mero de capas
num_layers_list = []
scores_by_layers = []
for trial in hyperband_trials:
    if trial.score is not None:
        num_layers_list.append(trial.hyperparameters.get('num_layers'))
        scores_by_layers.append(trial.score)
axes[1, 0].scatter(num_layers_list, scores_by_layers, alpha=0.7, s=100, c='orange')
axes[1, 0].set_title('üèóÔ∏è N√∫mero de Capas vs Accuracy')
axes[1, 0].set_xlabel('N√∫mero de Capas')
axes[1, 0].set_ylabel('Validation Accuracy')
axes[1, 0].grid(True, alpha=0.3)
axes[1, 0].set_xticks(range(1, 6))

# 4. An√°lisis de optimizadores
optimizers_list = []
for trial in hyperband_trials:
    if trial.score is not None:
        optimizers_list.append(trial.hyperparameters.get('optimizer'))
from collections import Counter
opt_counts = Counter(optimizers_list)
axes[1, 1].bar(opt_counts.keys(), opt_counts.values(), color=['#ff9999', '#66b3ff', '#99ff99'])
axes[1, 1].set_title('‚öôÔ∏è Distribuci√≥n de Optimizadores (Top 10)')
axes[1, 1].set_ylabel('Frecuencia')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Estad√≠sticas de rendimiento
print(f"\nüìà ESTAD√çSTICAS DE RENDIMIENTO:")
print(f" ‚Ä¢ Mejor accuracy: {max(scores):.4f}")
print(f" ‚Ä¢ Accuracy promedio: {np.mean(scores):.4f}")
print(f" ‚Ä¢ Desviaci√≥n est√°ndar: {np.std(scores):.4f}")
print(f" ‚Ä¢ N√∫mero de trials exitosos: {len([s for s in scores if s > 0])}")

print(f"\nüèóÔ∏è AN√ÅLISIS ARQUITECTURAL:")
layers_performance = {}
for layers, score in zip(num_layers_list, scores_by_layers):
    if layers not in layers_performance:
        layers_performance[layers] = []
    layers_performance[layers].append(score)
for layers in sorted(layers_performance.keys()):
    scores_layer = layers_performance[layers]
    print(f" ‚Ä¢ {layers} capas: Promedio = {np.mean(scores_layer):.4f}, "
          f"Mejor = {max(scores_layer):.4f} ({len(scores_layer)} trials)")

üß† EJERCICIO 2: Investigaci√≥n e Implementaci√≥n de Optimizaci√≥n Bayesiana
üìö Teor√≠a: Optimizaci√≥n Bayesiana
La Optimizaci√≥n Bayesiana es una t√©cnica de optimizaci√≥n global que utiliza modelos probabil√≠sticos para encontrar el √≥ptimo de funciones costosas de evaluar.

üßÆ Componentes Fundamentales
1. Modelo Sustituto (Gaussian Process)
Un Proceso Gaussiano (GP) modela la funci√≥n objetivo desconocida f(x):

Œº(x): Funci√≥n media (t√≠picamente 0)
k(x, x'): Funci√≥n de covarianza (kernel)
2. Funci√≥n de Adquisici√≥n
Determina qu√© punto evaluar siguiente balanceando exploraci√≥n vs explotaci√≥n:

f‚Å∫: Mejor valor observado hasta ahora
Œº(x), œÉ(x): Media y desviaci√≥n est√°ndar del GP
Œ¶, œÜ: CDF y PDF de la distribuci√≥n normal est√°ndar
üîÑ Proceso Iterativo
Inicializaci√≥n: Evaluar algunos puntos aleatorios
Ajuste del GP: Entrenar el modelo sustituto
Optimizaci√≥n de adquisici√≥n: Encontrar x* que maximiza la funci√≥n de adquisici√≥n
Evaluaci√≥n: Evaluar f(x*) y agregar a los datos
Repetir: Hasta alcanzar el presupuesto o convergencia
‚úÖ Ventajas sobre M√©todos Tradicionales
Eficiencia: Requiere menos evaluaciones para encontrar el √≥ptimo
Principiada: Usa informaci√≥n de evaluaciones previas de manera √≥ptima
Incertidumbre: Cuantifica la confianza en las predicciones
Balance autom√°tico: Equilibra exploraci√≥n y explotaci√≥n naturalmente
üí° Kernels Comunes en GP
RBF (Radial Basis Function): k(x,x') = œÉ¬≤exp(-||x-x'||¬≤/2l¬≤)
Mat√©rn: Para funciones menos suaves
Linear: Para relaciones lineales
Periodic: Para patrones peri√≥dicos

In [None]:
# üß† Implementaci√≥n de Optimizaci√≥n Bayesiana
print("üß† CONFIGURANDO BAYESIAN OPTIMIZATION TUNER")
print("=" * 50)

# Configurar Bayesian Optimization tuner
bayesian_tuner = kt.BayesianOptimization(
    hypermodel=build_model,
    objective='val_accuracy',
    max_trials=25,  # N√∫mero de trials (menor que random search)
    num_initial_points=5,  # Puntos de exploraci√≥n inicial
    alpha=1e-4,  # Par√°metro de regularizaci√≥n del GP
    beta=2.6,  # Par√°metro de exploraci√≥n (UCB)
    directory='bayesian_results',
    project_name='breast_cancer_bayesian',
    overwrite=True
)

print(f"üìä Objetivo de optimizaci√≥n: {bayesian_tuner.objective.name}")
print(f"üî¨ M√°ximo de trials: {bayesian_tuner.max_trials}")
print(f"üéØ Puntos iniciales: {bayesian_tuner.num_initial_points}")
print(f"üîß Alpha (regularizaci√≥n): {bayesian_tuner.alpha}")
print(f"üéõÔ∏è Beta (exploraci√≥n): {bayesian_tuner.beta}")

print("‚úÖ Bayesian Optimization tuner configurado exitosamente")

In [None]:
# üîç Ejecutar b√∫squeda con Optimizaci√≥n Bayesiana
print("üîç EJECUTANDO OPTIMIZACI√ìN BAYESIANA")
print("=" * 42)

import time
start_time = time.time()

# Ejecutar la b√∫squeda
bayesian_tuner.search(
    x=X_train_scaled,
    y=y_train,
    epochs=40,
    validation_split=0.2,
    callbacks=callbacks,
    verbose=1,
    batch_size=32
)

end_time = time.time()
bayesian_duration = end_time - start_time

print(f"\n‚è±Ô∏è Tiempo total de b√∫squeda: {bayesian_duration:.2f} segundos")
print("‚úÖ Optimizaci√≥n Bayesiana completada exitosamente")

# Obtener los mejores hiperpar√°metros
best_hps_bayesian = bayesian_tuner.get_best_hyperparameters(num_trials=1)[0]

print(f"\nüèÜ MEJORES HIPERPAR√ÅMETROS - OPTIMIZACI√ìN BAYESIANA:")
print("=" * 58)
print(f"üìä N√∫mero de capas: {best_hps_bayesian.get('num_layers')}")
print(f"‚öôÔ∏è Optimizador: {best_hps_bayesian.get('optimizer')}")

for i in range(best_hps_bayesian.get('num_layers')):
    print(f"üî∏ Capa {i+1}:")
    print(f" ‚Ä¢ Unidades: {best_hps_bayesian.get(f'units_{i}')}")
    print(f" ‚Ä¢ Activaci√≥n: {best_hps_bayesian.get(f'activation_{i}')}")
    print(f" ‚Ä¢ L2 regularization: {best_hps_bayesian.get(f'l2_{i}'):.2e}")
    if i > 0:
        print(f" ‚Ä¢ Dropout: {best_hps_bayesian.get(f'dropout_{i}')}")

In [None]:
# üìä Comparaci√≥n entre Hyperband y Optimizaci√≥n Bayesiana
print("üìä COMPARACI√ìN DE M√âTODOS DE OPTIMIZACI√ìN")
print("=" * 45)

# Obtener trials de ambos m√©todos
bayesian_trials = bayesian_tuner.oracle.get_best_trials(num_trials=15)

# Preparar datos para comparaci√≥n
hyperband_scores = [trial.score for trial in hyperband_trials if trial.score is not None]
bayesian_scores = [trial.score for trial in bayesian_trials if trial.score is not None]

# Crear visualizaci√≥n comparativa
fig, axes = plt.subplots(2, 3, figsize=(18, 12))

# 1. Comparaci√≥n de distribuciones
axes[0, 0].hist(hyperband_scores, bins=10, alpha=0.7, label='Hyperband', color='lightblue')
axes[0, 0].hist(bayesian_scores, bins=10, alpha=0.7, label='Bayesian Opt.', color='lightcoral')
axes[0, 0].set_title('üìä Distribuci√≥n de Scores')
axes[0, 0].set_xlabel('Validation Accuracy')
axes[0, 0].set_ylabel('Frecuencia')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# 2. Box plots comparativo
data_comparison = [hyperband_scores, bayesian_scores]
axes[0, 1].boxplot(data_comparison, labels=['Hyperband', 'Bayesian Opt.'])
axes[0, 1].set_title('üì¶ Comparaci√≥n de Rendimiento')
axes[0, 1].set_ylabel('Validation Accuracy')
axes[0, 1].grid(True, alpha=0.3)

# 3. Evoluci√≥n temporal (simulada)
trials_hyperband = list(range(1, len(hyperband_scores) + 1))
trials_bayesian = list(range(1, len(bayesian_scores) + 1))
axes[0, 2].plot(trials_hyperband, hyperband_scores, 'o-', label='Hyperband', linewidth=2)
axes[0, 2].plot(trials_bayesian, bayesian_scores, 's-', label='Bayesian Opt.', linewidth=2)
axes[0, 2].set_title('‚è±Ô∏è Evoluci√≥n de Scores')
axes[0, 2].set_xlabel('Trial Number')
axes[0, 2].set_ylabel('Validation Accuracy')
axes[0, 2].legend()
axes[0, 2].grid(True, alpha=0.3)

# 4. Estad√≠sticas de rendimiento
methods = ['Hyperband', 'Bayesian Opt.']
best_scores = [max(hyperband_scores), max(bayesian_scores)]
mean_scores = [np.mean(hyperband_scores), np.mean(bayesian_scores)]
std_scores = [np.std(hyperband_scores), np.std(bayesian_scores)]
x_pos = np.arange(len(methods))
axes[1, 0].bar(x_pos - 0.2, best_scores, 0.4, label='Mejor Score', alpha=0.8)
axes[1, 0].bar(x_pos + 0.2, mean_scores, 0.4, label='Score Promedio', alpha=0.8)
axes[1, 0].set_title('üèÜ Comparaci√≥n de Rendimiento')
axes[1, 0].set_ylabel('Validation Accuracy')
axes[1, 0].set_xticks(x_pos)
axes[1, 0].set_xticklabels(methods)
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# 5. Eficiencia temporal
durations = [hyperband_duration, bayesian_duration]
efficiency = [best_scores[i] / (durations[i] / 60) for i in range(2)]  # Score por minuto
axes[1, 1].bar(methods, durations, color=['lightblue', 'lightcoral'], alpha=0.7)
axes[1, 1].set_title('‚è±Ô∏è Tiempo de Ejecuci√≥n')
axes[1, 1].set_ylabel('Tiempo (segundos)')
axes[1, 1].grid(True, alpha=0.3)

# 6. Eficiencia (Score/Tiempo)
axes[1, 2].bar(methods, efficiency, color=['navy', 'darkred'], alpha=0.7)
axes[1, 2].set_title('‚ö° Eficiencia (Score/Minuto)')
axes[1, 2].set_ylabel('Eficiencia')
axes[1, 2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Imprimir estad√≠sticas detalladas
print(f"\nüìà ESTAD√çSTICAS COMPARATIVAS:")
print("=" * 35)
print(f"üöÄ HYPERBAND:")
print(f" ‚Ä¢ Mejor accuracy: {max(hyperband_scores):.4f}")
print(f" ‚Ä¢ Accuracy promedio: {np.mean(hyperband_scores):.4f} ¬± {np.std(hyperband_scores):.4f}")
print(f" ‚Ä¢ Tiempo total: {hyperband_duration:.1f} segundos")
print(f" ‚Ä¢ Trials exitosos: {len(hyperband_scores)}")
print(f"\nüß† OPTIMIZACI√ìN BAYESIANA:")
print(f" ‚Ä¢ Mejor accuracy: {max(bayesian_scores):.4f}")
print(f" ‚Ä¢ Accuracy promedio: {np.mean(bayesian_scores):.4f} ¬± {np.std(bayesian_scores):.4f}")
print(f" ‚Ä¢ Tiempo total: {bayesian_duration:.1f} segundos")
print(f" ‚Ä¢ Trials exitosos: {len(bayesian_scores)}")
print(f"\n‚ö° AN√ÅLISIS DE EFICIENCIA:")
print(f" ‚Ä¢ Hyperband: {efficiency[0]:.6f} score/minuto")
print(f" ‚Ä¢ Bayesian Opt.: {efficiency[1]:.6f} score/minuto")
winner = "Hyperband" if max(hyperband_scores) > max(bayesian_scores) else "Optimizaci√≥n Bayesiana"
print(f"\nüèÜ Ganador en accuracy: {winner}")

üìà EJERCICIO 3: Visualizaci√≥n Avanzada de Resultados
La visualizaci√≥n de resultados es crucial para entender el comportamiento de los algoritmos de optimizaci√≥n y tomar decisiones informadas sobre la selecci√≥n de hiperpar√°metros.

üé® Importancia de la Visualizaci√≥n en Optimizaci√≥n
Convergencia: Observar c√≥mo mejoran los algoritmos con el tiempo
Exploraci√≥n vs Explotaci√≥n: Entender el balance de los algoritmos
Identificaci√≥n de patrones: Detectar relaciones entre hiperpar√°metros
Validaci√≥n de resultados: Confirmar la calidad de la optimizaci√≥n
Comunicaci√≥n: Presentar resultados de manera clara