- **EVALUABLE 1:** Colecciones de datos
    
    Trabajas en el equipo de MLOps de una empresa que entrena múltiples modelos de deep learning simultáneamente.
    Necesitas implementar un sistema de gestión de experimentos que permita rastrear, validar y analizar resultados de diferentes arquitecturas, 
    datasets y configuraciones de hiperparámetros.
    
    El sistema debe manejar:
    
    - **Configuraciones de experimentos** (diccionarios)
    - **Historial de métricas por época** (listas)
    - **Metadatos inmutables de modelos** (tuplas)
    - **Validación de recursos y dependencias** (sets)

In [2]:
# Base de datos de experimentos ejecutados
experimentos_db = {
    "exp_20241101_001": {
        "modelo": "ResNet50",
        "dataset": "ImageNet",
        "metadata": (224, 224, 3, 1000),  # (height, width, channels, num_classes)
        "hiperparametros": {
            "learning_rate": 0.001,
            "batch_size": 32,
            "optimizer": "Adam",
            "epochs": 100
        },
        "metricas_entrenamiento": {
            "loss": [2.3, 1.8, 1.5, 1.2, 0.95, 0.87, 0.81, 0.78, 0.76, 0.75],
            "accuracy": [0.45, 0.58, 0.65, 0.71, 0.76, 0.79, 0.82, 0.84, 0.85, 0.86]
        },
        "metricas_validacion": {
            "loss": [2.4, 1.9, 1.6, 1.4, 1.1, 0.98, 0.92, 0.89, 0.88, 0.87],
            "accuracy": [0.43, 0.56, 0.63, 0.69, 0.74, 0.77, 0.80, 0.82, 0.83, 0.84]
        },
        "dependencias": {"torch", "torchvision", "numpy", "pillow"},
        "gpu_usado": "NVIDIA_A100",
        "tiempo_total_minutos": 245
    },
    "exp_20241101_002": {
        "modelo": "VGG16",
        "dataset": "CIFAR10",
        "metadata": (32, 32, 3, 10),
        "hiperparametros": {
            "learning_rate": 0.01,
            "batch_size": 64,
            "optimizer": "SGD",
            "epochs": 50
        },
        "metricas_entrenamiento": {
            "loss": [2.1, 1.6, 1.3, 1.0, 0.85, 0.72, 0.65, 0.61, 0.58, 0.56],
            "accuracy": [0.35, 0.52, 0.61, 0.68, 0.73, 0.77, 0.80, 0.82, 0.83, 0.84]
        },
        "metricas_validacion": {
            "loss": [2.2, 1.7, 1.4, 1.2, 1.0, 0.88, 0.82, 0.80, 0.79, 0.78],
            "accuracy": [0.33, 0.50, 0.59, 0.65, 0.70, 0.74, 0.77, 0.78, 0.79, 0.80]
        },
        "dependencias": {"torch", "torchvision", "numpy"},
        "gpu_usado": "NVIDIA_V100",
        "tiempo_total_minutos": 120
    },
    "exp_20241102_001": {
        "modelo": "MobileNetV2",
        "dataset": "ImageNet",
        "metadata": (224, 224, 3, 1000),
        "hiperparametros": {
            "learning_rate": 0.001,
            "batch_size": 128,
            "optimizer": "Adam",
            "epochs": 150
        },
        "metricas_entrenamiento": {
            "loss": [2.5, 2.0, 1.7, 1.4, 1.2, 1.0, 0.92, 0.86, 0.82, 0.79],
            "accuracy": [0.40, 0.52, 0.60, 0.67, 0.72, 0.76, 0.79, 0.81, 0.83, 0.84]
        },
        "metricas_validacion": {
            "loss": [2.6, 2.1, 1.8, 1.5, 1.3, 1.1, 1.0, 0.95, 0.92, 0.90],
            "accuracy": [0.38, 0.50, 0.58, 0.65, 0.70, 0.74, 0.77, 0.79, 0.80, 0.81]
        },
        "dependencias": {"torch", "torchvision", "numpy", "pillow", "opencv"},
        "gpu_usado": "NVIDIA_A100",
        "tiempo_total_minutos": 380
    },
    "exp_20241102_002": {
        "modelo": "ResNet50",
        "dataset": "CIFAR100",
        "metadata": (32, 32, 3, 100),
        "hiperparametros": {
            "learning_rate": 0.0001,
            "batch_size": 32,
            "optimizer": "RMSprop",
            "epochs": 200
        },
        "metricas_entrenamiento": {
            "loss": [3.2, 2.5, 2.0, 1.7, 1.5, 1.3, 1.2, 1.1, 1.05, 1.0],
            "accuracy": [0.25, 0.38, 0.48, 0.55, 0.60, 0.64, 0.67, 0.70, 0.72, 0.74]
        },
        "metricas_validacion": {
            "loss": [3.3, 2.6, 2.1, 1.8, 1.6, 1.5, 1.4, 1.35, 1.32, 1.30],
            "accuracy": [0.23, 0.36, 0.46, 0.53, 0.58, 0.61, 0.63, 0.65, 0.66, 0.67]
        },
        "dependencias": {"torch", "torchvision", "numpy", "albumentations"},
        "gpu_usado": "NVIDIA_V100",
        "tiempo_total_minutos": 420
    },
    "exp_20241103_001": {
        "modelo": "EfficientNetB0",
        "dataset": "ImageNet",
        "metadata": (224, 224, 3, 1000),
        "hiperparametros": {
            "learning_rate": 0.005,
            "batch_size": 64,
            "optimizer": "SGD",
            "epochs": 120
        },
        "metricas_entrenamiento": {
            "loss": [2.2, 1.7, 1.4, 1.1, 0.95, 0.83, 0.75, 0.70, 0.66, 0.63],
            "accuracy": [0.48, 0.60, 0.68, 0.74, 0.78, 0.81, 0.84, 0.86, 0.87, 0.88]
        },
        "metricas_validacion": {
            "loss": [2.3, 1.8, 1.5, 1.2, 1.0, 0.90, 0.83, 0.79, 0.77, 0.75],
            "accuracy": [0.46, 0.58, 0.66, 0.72, 0.76, 0.79, 0.82, 0.84, 0.85, 0.86]
        },
        "dependencias": {"torch", "torchvision", "numpy", "pillow"},
        "gpu_usado": "NVIDIA_A100",
        "tiempo_total_minutos": 290
    }
}

## Parte 1: Análisis de Convergencia y Estabilidad (LISTAS - 25%)

Implementa un sistema de análisis de métricas que detecte patrones de entrenamiento problemáticos.

**Funciones requeridas:**

In [3]:
def detectar_overfitting_temprano(train_metrics: dict, val_metrics: dict, ventana: int = 3) -> dict:
    """
    Detecta overfitting analizando la divergencia entre training y validation loss.

    Overfitting temprano ocurre cuando:
    - El training loss disminuye consistentemente
    - El validation loss se estanca o aumenta
    - Esta condición se mantiene por 'ventana' épocas consecutivas

    Args:
        train_metrics: {"loss": [...], "accuracy": [...]}
        val_metrics: {"loss": [...], "accuracy": [...]}
        ventana: Número de épocas consecutivas para confirmar patrón

    Returns:
        {
            "overfitting_detectado": bool,
            "epoca_inicio": int o None,
            "diferencia_loss_promedio": float,
            "epocas_afectadas": list de índices
        }
    """

    train_loss = train_metrics["loss"] # [2.2, 1.7, 1.4, 1.1, 0.95, 0.83, 0.75, 0.70, 0.66, 0.63]
    val_loss = val_metrics["loss"]     # [2.3, 1.8, 1.5, 1.2, 1.0, 0.90, 0.83, 0.79, 0.77, 0.75]
    epocas_afectadas = []
    diferencia_loss_promedio = []
    overfitting_detectado = False
    consecutivas = 0

    for i in range(1, len(train_loss)):

        esta_disminuyendo = train_loss[i] < train_loss[i - 1] # Ejemplo i = 1: 1.7 < 2.2 = True

        esta_estancado_o_aumentando = val_loss[i] >= val_loss[i-1] # Ejemplo i = 1: 1.8 >= 2.3 = False

        # Si ambas condiciones se cumplen, la época tiene el patrón
        if esta_disminuyendo and esta_estancado_o_aumentando:
            epocas_afectadas.append(i)
            consecutivas += 1
        else:
            epocas_afectadas = []
            consecutivas = 0

        if consecutivas >= ventana:
            overfitting_detectado = True
            epoca_inicio = epocas_afectadas[0]
            diferencias = [val_loss[i] - train_loss[i] for i in epocas_afectadas] # Ejemplo i = 1: 1.8 - 1.7 = 0.1
            diferencia_loss_promedio = sum(diferencias) / len(diferencias)

            return{
                "overfitting_detectado": overfitting_detectado,
                "epoca_inicio": epoca_inicio,
                "diferencia_loss_promedio": diferencia_loss_promedio,
                "epocas_afectadas": epocas_afectadas
            }

    # Si no detecta overfitting
    return{
        "overfitting_detectado": False,
            "epoca_inicio": None,
            "diferencia_loss_promedio": 0.0,
            "epocas_afectadas": []
    }
    pass

# Casos de uso
for exp_id, exp_data in experimentos_db.items():
    train_metrics = exp_data["metricas_entrenamiento"]
    val_metrics = exp_data["metricas_validacion"]

    overfitting_result = detectar_overfitting_temprano(train_metrics, val_metrics)

    print("=" * 70)
    print(f" Experimento: {exp_id}")
    print(f" Modelo: {exp_data['modelo']}")
    print(f" Dataset: {exp_data['dataset']}\n")
    
    print(overfitting_result)
    print("=" * 70)

 Experimento: exp_20241101_001
 Modelo: ResNet50
 Dataset: ImageNet

{'overfitting_detectado': False, 'epoca_inicio': None, 'diferencia_loss_promedio': 0.0, 'epocas_afectadas': []}
 Experimento: exp_20241101_002
 Modelo: VGG16
 Dataset: CIFAR10

{'overfitting_detectado': False, 'epoca_inicio': None, 'diferencia_loss_promedio': 0.0, 'epocas_afectadas': []}
 Experimento: exp_20241102_001
 Modelo: MobileNetV2
 Dataset: ImageNet

{'overfitting_detectado': False, 'epoca_inicio': None, 'diferencia_loss_promedio': 0.0, 'epocas_afectadas': []}
 Experimento: exp_20241102_002
 Modelo: ResNet50
 Dataset: CIFAR100

{'overfitting_detectado': False, 'epoca_inicio': None, 'diferencia_loss_promedio': 0.0, 'epocas_afectadas': []}
 Experimento: exp_20241103_001
 Modelo: EfficientNetB0
 Dataset: ImageNet

{'overfitting_detectado': False, 'epoca_inicio': None, 'diferencia_loss_promedio': 0.0, 'epocas_afectadas': []}


In [4]:
def calcular_tasa_convergencia(losses: list, metodo: str = "exponencial") -> float:
    """
    Calcula la tasa de convergencia del entrenamiento.

    Métodos:
    - "lineal": pendiente promedio entre épocas consecutivas
    - "exponencial": ajuste a decay exponencial

    Una tasa más negativa indica convergencia más rápida.

    Args:
        losses: Lista de valores de loss por época
        metodo: "lineal" o "exponencial"

    Returns:
        Tasa de convergencia (valor negativo indica mejora)
    """
    if metodo == "lineal":
        # Ejemplo: si loss[0]=2.3 y loss[1]=1.8, entonces cambio_0 = 1.8 - 2.3 = -0.5
        cambios = [losses[i+1] - losses[i] for i in range(len(losses)-1)]
        tasa_convergencia = sum(cambios) / len(cambios)

        # Si el resultado es negativo → el modelo está mejorando (loss disminuye)
        return tasa_convergencia

    else:
        ratios = [losses[+1] / losses[i] for i in range(len(losses)-1) if losses[i] != 0]
        tasa_exponencial = sum(ratios) / len(ratios)

        # Si el resultado es < 1.0 → el modelo está mejorando
        return tasa_exponencial
            
    pass

for exp_id, exp_data in experimentos_db.items():
    train_losses = exp_data["metricas_entrenamiento"]["loss"]

    tasa_convergencia_lineal = calcular_tasa_convergencia(train_losses, metodo="lineal")
    tasa_convergencia_exponencial = calcular_tasa_convergencia(train_losses, metodo="exponencial")

    print("=" * 70)
    print(f" Experimento: {exp_id}")
    print(f" Modelo: {exp_data['modelo']}")
    print(f" Dataset: {exp_data['dataset']}\n")

    print(f"Tasa de convergencia lineal: {tasa_convergencia_lineal}")
    print(f"Tasa de congergencia exponencial: {tasa_convergencia_exponencial}")
    print("=" * 70)

 Experimento: exp_20241101_001
 Modelo: ResNet50
 Dataset: ImageNet

Tasa de convergencia lineal: -0.1722222222222222
Tasa de congergencia exponencial: 1.7049607375049916
 Experimento: exp_20241101_002
 Modelo: VGG16
 Dataset: CIFAR10

Tasa de convergencia lineal: -0.1711111111111111
Tasa de congergencia exponencial: 1.837817680770939
 Experimento: exp_20241102_001
 Modelo: MobileNetV2
 Dataset: ImageNet

Tasa de convergencia lineal: -0.19
Tasa de congergencia exponencial: 1.6678030569493767
 Experimento: exp_20241102_002
 Modelo: ResNet50
 Dataset: CIFAR100

Tasa de convergencia lineal: -0.24444444444444446
Tasa de congergencia exponencial: 1.6476216457834105
 Experimento: exp_20241103_001
 Modelo: EfficientNetB0
 Dataset: ImageNet

Tasa de convergencia lineal: -0.17444444444444449
Tasa de congergencia exponencial: 1.737903295417563


In [5]:
def identificar_epocas_criticas(train_losses: list, val_losses: list, threshold: float = 0.05) -> list:
    """
    Identifica épocas donde el modelo muestra comportamiento inestable.

    Una época es crítica si:
    - El loss aumenta respecto a la época anterior en más de threshold
    - Tanto en training como en validation

    Args:
        train_losses: Losses de entrenamiento
        val_losses: Losses de validación
        threshold: Umbral de aumento relativo (5% por defecto)

    Returns:
        Lista de tuplas (epoca_idx, aumento_train, aumento_val)
    """
    epocas_criticas = []

    for i in range(1, len(train_losses)):

        # [2.3, 1.8, 1.5, 1.2, 1.0, 0.90, 0.83, 0.79, 0.77, 0.75]
        aumento_train = (train_losses[i] - train_losses[i-1]) / train_losses[i-1] # (1.8 - 2.3) / 2.3 = -0.217
        aumento_val = (val_losses[i] - val_losses[i-1]) / val_losses[i-1]

        if (aumento_train > threshold and aumento_val > threshold): # Si ambos aumentos son superiores a 0.05 la época es crítica
            epocas_criticas.append((i, aumento_train, aumento_val)) # Hcemos Tupla para almacenar 3 datos relacionados sobre una misma época

        return epocas_criticas
    pass

for exp_id, exp_data in experimentos_db.items():
    train_losses = exp_data["metricas_entrenamiento"]["loss"]
    val_losses = exp_data["metricas_validacion"]["loss"]

    epocas_criticas = identificar_epocas_criticas(train_losses, val_losses)

    print("=" * 70)
    print(f" Experimento: {exp_id}")
    print(f" Modelo: {exp_data['modelo']}")
    print(f" Dataset: {exp_data['dataset']}\n")

    print(f" Se han encontrado: {len(epocas_criticas)} épocas críticas\n")

    print("=" * 70)

 Experimento: exp_20241101_001
 Modelo: ResNet50
 Dataset: ImageNet

 Se han encontrado: 0 épocas críticas

 Experimento: exp_20241101_002
 Modelo: VGG16
 Dataset: CIFAR10

 Se han encontrado: 0 épocas críticas

 Experimento: exp_20241102_001
 Modelo: MobileNetV2
 Dataset: ImageNet

 Se han encontrado: 0 épocas críticas

 Experimento: exp_20241102_002
 Modelo: ResNet50
 Dataset: CIFAR100

 Se han encontrado: 0 épocas críticas

 Experimento: exp_20241103_001
 Modelo: EfficientNetB0
 Dataset: ImageNet

 Se han encontrado: 0 épocas críticas



## Parte 2: Gestión de Metadatos y Arquitecturas (TUPLAS - 20%)

Trabaja con los metadatos inmutables de las arquitecturas de red.

**Funciones requeridas:**

In [6]:
def calcular_complejidad_modelo(metadata: tuple) -> dict:
    """
    Calcula métricas de complejidad basadas en dimensiones de entrada.

    metadata formato: (height, width, channels, num_classes)

    Returns:
        {
            "input_size": int (height * width * channels),
            "output_size": int (num_classes),
            "aspect_ratio": float (height / width),
            "complejidad_relativa": str ("baja", "media", "alta")
        }

    Complejidad relativa:
    - baja: input_size < 50000
    - media: 50000 <= input_size < 200000
    - alta: input_size >= 200000
    """

    height, width, channels, num_classes = metadata # Desempquetamos la Tupla

    input_size = int(height * width * channels)

    if input_size < 50000:
        complejidad = "baja"
    elif 50000 <= input_size < 200000:
        complejidad = "media"
    else: # input_size >= 200000
        complejidad = "alta"

    return {
        "input_size": int (height * width * channels),
        "output_size": int (num_classes),
        "aspect_ratio": float (height / width),
        "complejidad_relativa": str(complejidad)
    }
    pass

for exp_id, exp_data in experimentos_db.items():
    metadata = exp_data["metadata"]

    complejidad_modelo = calcular_complejidad_modelo(metadata)

    print("=" * 70)
    print(f" Experimento: {exp_id}")
    print(f" Modelo: {exp_data['modelo']}")
    print(f" Dataset: {exp_data['dataset']}\n")

    print(complejidad_modelo)
    print("=" * 70)

 Experimento: exp_20241101_001
 Modelo: ResNet50
 Dataset: ImageNet

{'input_size': 150528, 'output_size': 1000, 'aspect_ratio': 1.0, 'complejidad_relativa': 'media'}
 Experimento: exp_20241101_002
 Modelo: VGG16
 Dataset: CIFAR10

{'input_size': 3072, 'output_size': 10, 'aspect_ratio': 1.0, 'complejidad_relativa': 'baja'}
 Experimento: exp_20241102_001
 Modelo: MobileNetV2
 Dataset: ImageNet

{'input_size': 150528, 'output_size': 1000, 'aspect_ratio': 1.0, 'complejidad_relativa': 'media'}
 Experimento: exp_20241102_002
 Modelo: ResNet50
 Dataset: CIFAR100

{'input_size': 3072, 'output_size': 100, 'aspect_ratio': 1.0, 'complejidad_relativa': 'baja'}
 Experimento: exp_20241103_001
 Modelo: EfficientNetB0
 Dataset: ImageNet

{'input_size': 150528, 'output_size': 1000, 'aspect_ratio': 1.0, 'complejidad_relativa': 'media'}


In [7]:
def comparar_arquitecturas(exp_ids: list, experimentos_db: dict) -> list:
    """
    Compara arquitecturas de múltiples experimentos.

    Returns:
        Lista de tuplas ordenadas por complejidad descendente:
        [(exp_id, modelo, input_size, num_classes), ...]
    """
    lista_tuplas = []

    for exp_id in exp_ids:
        exp = experimentos_db[exp_id]
        modelo = exp["modelo"]
        metadata = exp["metadata"]

        height, width, channels, num_classes = metadata
        input_size = height * width * channels

        info_tuplas = (exp_id, modelo, input_size, num_classes)
        lista_tuplas.append(info_tuplas)

    # x[2] es el input_size (ordena por el tercer elemento de la tupla)
    lista_tuplas_ordenadas = sorted(lista_tuplas, key=lambda x: x[2], reverse=True)

    return lista_tuplas_ordenadas
    pass

arquitecturas_comparadas = comparar_arquitecturas(list(experimentos_db.keys()), experimentos_db)

for item in arquitecturas_comparadas:
    print("=" * 70)
    print(item)
    print("=" * 70)

('exp_20241101_001', 'ResNet50', 150528, 1000)
('exp_20241102_001', 'MobileNetV2', 150528, 1000)
('exp_20241103_001', 'EfficientNetB0', 150528, 1000)
('exp_20241101_002', 'VGG16', 3072, 10)
('exp_20241102_002', 'ResNet50', 3072, 100)


In [8]:
def validar_compatibilidad_transfer_learning(metadata_source: tuple, metadata_target: tuple) -> dict:
    """
    Valida si dos arquitecturas son compatibles para transfer learning.

    Compatibilidad requiere:
    - Misma resolución (height, width)
    - Mismo número de canales
    - Puede diferir en num_classes

    Returns:
        {
            "compatible": bool,
            "requiere_ajuste_head": bool,
            "diferencia_clases": int
        }
    """

    h1, w1, c1, nc1 = metadata_source
    h2, w2, c2, nc2 = metadata_target

    # 1. Misma resolución:
    misma_resolucion = (h1 == h2) and (w1 == w2)

    # 2. Mismo número de canales:
    mismos_canales = (c1 == c2)

    # 3. Compatible si se cumplen 1 y 2
    compatible = misma_resolucion and mismos_canales

    # 4. Requiere ajuste de cabecera si num_classes difiere:
    requiere_ajuste_head = (nc1 != nc2)

    # 5. Diferencia en número de clases:
    diferencia_clases = abs(nc1 - nc2)

    return {
        "compatible": compatible,
        "requiere_ajuste_head": requiere_ajuste_head,
        "diferencia_clases": diferencia_clases
    }

    pass
contador = 0
for exp_id, exp_data in experimentos_db.items():
    contador += 1
    print("*" * 70)
    print(f"Vuelta número: {contador}")
    print("*" * 70)
    
    metadata_source = exp_data["metadata"]

    for exp_id, exp_data in experimentos_db.items():
        metadata_target = exp_data["metadata"]

        complejidad_transfer_learning = validar_compatibilidad_transfer_learning(metadata_source, metadata_target)

        print("=" * 70)
        print(f" Experimento: {exp_id}")
        print(f" Modelo: {exp_data['modelo']}")
        print(f" Dataset: {exp_data['dataset']}\n")

        print(complejidad_transfer_learning)
        print("=" * 70)

**********************************************************************
Vuelta número: 1
**********************************************************************
 Experimento: exp_20241101_001
 Modelo: ResNet50
 Dataset: ImageNet

{'compatible': True, 'requiere_ajuste_head': False, 'diferencia_clases': 0}
 Experimento: exp_20241101_002
 Modelo: VGG16
 Dataset: CIFAR10

{'compatible': False, 'requiere_ajuste_head': True, 'diferencia_clases': 990}
 Experimento: exp_20241102_001
 Modelo: MobileNetV2
 Dataset: ImageNet

{'compatible': True, 'requiere_ajuste_head': False, 'diferencia_clases': 0}
 Experimento: exp_20241102_002
 Modelo: ResNet50
 Dataset: CIFAR100

{'compatible': False, 'requiere_ajuste_head': True, 'diferencia_clases': 900}
 Experimento: exp_20241103_001
 Modelo: EfficientNetB0
 Dataset: ImageNet

{'compatible': True, 'requiere_ajuste_head': False, 'diferencia_clases': 0}
**********************************************************************
Vuelta número: 2
*******************

## Parte 3: Optimización de Configuraciones (DICCIONARIOS - 30%)

Analiza y optimiza configuraciones de hiperparámetros basándote en resultados históricos.

**Funciones requeridas:**

In [9]:
def ranking_experimentos(experimentos_db: dict, criterio: str = "accuracy_final") -> list:
    """
    Genera ranking de experimentos según diferentes criterios.

    Criterios disponibles:
    - "accuracy_final": Mayor accuracy de validación en última época
    - "convergencia": Menor número de épocas para alcanzar 80% accuracy val
    - "eficiencia": Mejor ratio accuracy_final / tiempo_total
    - "estabilidad": Menor varianza en validation loss últimas 5 épocas

    Returns:
        Lista de tuplas: [(exp_id, valor_metrica), ...] ordenada descendente
    """
    pass


In [10]:
def mejores_hiperparametros_por_dataset(experimentos_db: dict) -> dict:
    """
    Identifica las mejores configuraciones de hiperparámetros por dataset.

    Para cada dataset, encuentra el experimento con mejor accuracy final
    y extrae sus hiperparámetros.

    Returns:
        {
            "dataset_name": {
                "mejor_exp_id": str,
                "hiperparametros": dict,
                "accuracy_alcanzada": float
            },
            ...
        }
    """
    pass

In [11]:
def analisis_impacto_hiperparametros(experimentos_db: dict) -> dict:
    """
    Analiza el impacto de cada hiperparámetro en el rendimiento.

    Agrupa experimentos por valor de hiperparámetro y calcula
    accuracy promedio para cada valor único.

    Returns:
        {
            "learning_rate": {
                0.001: {"avg_accuracy": X, "num_experimentos": N},
                0.01: {"avg_accuracy": Y, "num_experimentos": M},
                ...
            },
            "batch_size": {...},
            "optimizer": {...}
        }
    """
    pass

In [12]:
def generar_configuracion_optima(experimentos_db: dict, dataset: str, modelo: str) -> dict:
    """
    Genera configuración óptima para un par dataset-modelo basándose en histórico.

    Si existe experimento exacto con ese dataset y modelo:
        - Usa esos hiperparámetros
    Si no:
        - Usa hiperparámetros más frecuentes en experimentos del dataset
        - Si no hay del dataset, usa promedios globales

    Returns:
        {
            "hiperparametros_sugeridos": dict,
            "confianza": str ("alta", "media", "baja"),
            "experimentos_referencia": list de exp_ids usados
        }
    """
    pass

"""
## Parte 4: Gestión de Dependencias y Recursos (SETS - 25%)

Valida compatibilidad de entornos y optimiza el uso de recursos computacionales.

**Funciones requeridas:**
"""

In [13]:
def dependencias_comunes(experimentos_db: dict) -> dict:
    """
    Analiza las dependencias de todos los experimentos.

    Returns:
        {
            "universales": set,  # Presentes en TODOS los experimentos
            "mayoritarias": set,  # Presentes en >50% experimentos
            "opcionales": set,   # Presentes en <50% experimentos
            "por_modelo": {
                "ResNet50": set,
                "VGG16": set,
                ...
            }
        }
    """

    # Obtener la lista de todos los sets de dependencias:
    todos_deps = [exp["dependencias"] for exp in experimentos_db.values()]

    # Primera iteración: comenzar con el primer set
    universales = todos_deps[0]

    # Interactuar con cada uno de los demás
    for deps in todos_deps[1:]:
        universales = universales & deps # & Operador de intersección

    total_experimentos = len(experimentos_db)
    umbral = total_experimentos / 2

    # Unión de todas las dependencias (vocabulario completo):
    todas_dependencias = set()
    for exp in experimentos_db.values():
        todas_dependencias = todas_dependencias | exp["dependencias"] # | Operador de unión

    # Contar en cuántos experimentos aparece cada dependencia:
    mayoritarias = set()
    for dep in todas_dependencias:
        contador = 0
        for exp in experimentos_db.values():
            if dep in exp["dependencias"]:
                contador += 1
        if contador > umbral:
            mayoritarias.add(dep)

    # Todas las dependencias que no son opcionales
    opcionales = todas_dependencias - mayoritarias # Operador de difference

    por_modelo = {}
    for exp_id, exp_data in experimentos_db.items():
        nombre_modelo = exp_data["modelo"]
        if nombre_modelo not in por_modelo:
            por_modelo[nombre_modelo] = set()
        por_modelo[nombre_modelo] |= exp_data["dependencias"]

    return {
            "universales": universales,  # Presentes en TODOS los experimentos
            "mayoritarias": mayoritarias,  # Presentes en >50% experimentos
            "opcionales": opcionales,   # Presentes en <50% experimentos
            "por_modelo": por_modelo
        }
    pass

dependencias_common = dependencias_comunes(experimentos_db)
print(dependencias_common)

{'universales': {'numpy', 'torch', 'torchvision'}, 'mayoritarias': {'pillow', 'numpy', 'torch', 'torchvision'}, 'opcionales': {'opencv', 'albumentations'}, 'por_modelo': {'ResNet50': {'pillow', 'numpy', 'torch', 'torchvision', 'albumentations'}, 'VGG16': {'numpy', 'torch', 'torchvision'}, 'MobileNetV2': {'pillow', 'numpy', 'torch', 'torchvision', 'opencv'}, 'EfficientNetB0': {'pillow', 'numpy', 'torch', 'torchvision'}}}


In [14]:
def validar_entorno(dependencias_disponibles: set, exp_id: str, experimentos_db: dict) -> dict:
    """
    Valida si un entorno tiene las dependencias necesarias para un experimento.

    Returns:
        {
            "puede_ejecutar": bool,
            "dependencias_faltantes": set,
            "dependencias_adicionales": set,  # Están disponibles pero no necesarias
            "recomendaciones": list de str
        }
    """

    deps_necesarias = experimentos_db[exp_id]["dependencias"]
    deps_disponibles = dependencias_disponibles # Set proporcionado

    # 1. Puede ejecutar si tiene todas las dependencias necesarias:
    puede_ejecutar = deps_necesarias.issubset(deps_disponibles)

    # 2. Dependencias faltantes:
    deps_faltantes = deps_necesarias - deps_disponibles

    # 3. Dependencias adicionales (disponibles pero no necesarias):
    deps_adicionales = deps_disponibles - deps_necesarias

    # 4. Recomendaciones:
    recomendaciones = []
    if len(deps_faltantes) > 0:
        recomendaciones.append(f"Instalar: {deps_faltantes}")
    if len(deps_adicionales) > 5:
        recomendaciones.append("Considerar limpiar entorno, hay muchas dependencias no usadas")

    return {
        "puede_ejecutar": puede_ejecutar,
        "dependencias_faltantes": deps_faltantes,
        "dependencias_adicionales": deps_adicionales,  # Están disponibles pero no necesarias
        "recomendaciones": recomendaciones
    }

    pass

deps_disponibles = {"torch", "numpy", "pandas", "matplotlib"}

for exp_id, exp_data in experimentos_db.items():
    metadata = exp_data["metadata"]

    validacion_entorno = validar_entorno(deps_disponibles, exp_id, experimentos_db)

    print("=" * 70)
    print(f" Experimento: {exp_id}")
    print(f" Modelo: {exp_data['modelo']}")
    print(f" Dataset: {exp_data['dataset']}\n")

    print(validacion_entorno)
    print("=" * 70)

 Experimento: exp_20241101_001
 Modelo: ResNet50
 Dataset: ImageNet

{'puede_ejecutar': False, 'dependencias_faltantes': {'pillow', 'torchvision'}, 'dependencias_adicionales': {'matplotlib', 'pandas'}, 'recomendaciones': ["Instalar: {'pillow', 'torchvision'}"]}
 Experimento: exp_20241101_002
 Modelo: VGG16
 Dataset: CIFAR10

{'puede_ejecutar': False, 'dependencias_faltantes': {'torchvision'}, 'dependencias_adicionales': {'matplotlib', 'pandas'}, 'recomendaciones': ["Instalar: {'torchvision'}"]}
 Experimento: exp_20241102_001
 Modelo: MobileNetV2
 Dataset: ImageNet

{'puede_ejecutar': False, 'dependencias_faltantes': {'pillow', 'opencv', 'torchvision'}, 'dependencias_adicionales': {'matplotlib', 'pandas'}, 'recomendaciones': ["Instalar: {'pillow', 'opencv', 'torchvision'}"]}
 Experimento: exp_20241102_002
 Modelo: ResNet50
 Dataset: CIFAR100

{'puede_ejecutar': False, 'dependencias_faltantes': {'albumentations', 'torchvision'}, 'dependencias_adicionales': {'matplotlib', 'pandas'}, 'reco

In [15]:
def optimizar_uso_gpu(experimentos_db: dict) -> dict:
    """
    Analiza el uso de GPUs y sugiere optimizaciones.

    Calcula por GPU:
    - Tiempo total utilizado
    - Número de experimentos ejecutados
    - Tiempo promedio por experimento
    - Modelos más ejecutados en cada GPU

    Returns:
        {
            "NVIDIA_A100": {
                "tiempo_total_minutos": int,
                "num_experimentos": int,
                "tiempo_promedio": float,
                "modelos_principales": set,
                "utilizacion_porcentaje": float  # Asumiendo max 1000 min disponibles
            },
            ...
        }
    """
    gpus_info = {}

    for exp in experimentos_db.values():
        gpu = exp["gpu_usado"]
        tiempo = exp["tiempo_total_minutos"]
        modelo = exp["modelo"]

        # Inicializar si es la primera vez:
        if gpu not in gpus_info:
            gpus_info[gpu] = {
                "tiempo_total_minutos": 0,
                "num_experimentos": 0,
                "modelos": []
            }

        # Acumular:
        gpus_info[gpu]["tiempo_total_minutos"] += tiempo
        gpus_info[gpu]["num_experimentos"] += 1
        gpus_info[gpu]["modelos"].append(modelo)

    # Calcular promedios y modelos principales:
    for gpu, info in gpus_info.items():
        # Tiempo promedio:
        tiempo_promedio = info["tiempo_total_minutos"] / info["num_experimentos"]

        # Modelos principales (los más frecuentes):
        modelos_set = set(info["modelos"])  # Eliminar duplicados

        # Utilización (asumiendo 1000 minutos disponibles):
        utilizacion = (info["tiempo_total_minutos"] / 1000) * 100

        # Actualizar:
        gpus_info[gpu]["tiempo_promedio"] = tiempo_promedio
        gpus_info[gpu]["modelos_principales"] = modelos_set
        gpus_info[gpu]["utilizacion_porcentaje"] = utilizacion

    return gpus_info
    pass

optimizar_gpu = optimizar_uso_gpu(experimentos_db)

for gpu, gpu_info in optimizar_gpu.items():
    print("=" * 70)
    print(f" GPU: {gpu}")
    print(f" Tiempo total minutos: {gpu_info["tiempo_total_minutos"]}")
    print(f" Número de experimentos: {gpu_info["num_experimentos"]}")
    print(f" Tiempo promedio: {gpu_info["tiempo_promedio"]}")
    print(f" Modelos principales: {gpu_info["modelos_principales"]}")
    print(f" Porcentaje de utilización {gpu_info["utilizacion_porcentaje"]}") # Asumiendo max 1000 min disponibles

    print("=" * 70)

 GPU: NVIDIA_A100
 Tiempo total minutos: 915
 Número de experimentos: 3
 Tiempo promedio: 305.0
 Modelos principales: {'ResNet50', 'EfficientNetB0', 'MobileNetV2'}
 Porcentaje de utilización 91.5
 GPU: NVIDIA_V100
 Tiempo total minutos: 540
 Número de experimentos: 2
 Tiempo promedio: 270.0
 Modelos principales: {'VGG16', 'ResNet50'}
 Porcentaje de utilización 54.0


In [16]:
def conflictos_dependencias(experimentos_a_ejecutar: list, experimentos_db: dict) -> dict:
    """
    Detecta posibles conflictos si se ejecutan múltiples experimentos simultáneamente.

    Args:
        experimentos_a_ejecutar: Lista de exp_ids a ejecutar en paralelo

    Returns:
        {
            "puede_parallelizar": bool,
            "dependencias_conflictivas": set,  # Dependencias que no coinciden
            "gpu_compartida": bool,  # True si requieren misma GPU
            "recomendacion": str
        }
    """
    pass

"""
## Función Integradora Final (BONUS - 20% extra)

Implementa una función que use TODAS las colecciones de datos de forma integrada:
"""

In [17]:
def informe_completo_experimento(exp_id: str, experimentos_db: dict) -> dict:
    """
    Genera un informe completo de un experimento usando todas las colecciones.

    El informe debe incluir:

    1. Metadata del modelo (TUPLA):
       - Dimensiones de entrada
       - Complejidad calculada

    2. Análisis de convergencia (LISTAS):
       - Tasa de convergencia
       - Overfitting detectado
       - Épocas críticas

    3. Contexto comparativo (DICCIONARIOS):
       - Posición en ranking general
       - Comparación con otros experimentos del mismo dataset
       - Comparación con otros experimentos del mismo modelo

    4. Validación de entorno (SETS):
       - Dependencias únicas de este experimento
       - Dependencias compartidas con otros experimentos exitosos
       - Compatibilidad con entorno estándar

    Returns:
        Diccionario estructurado con toda la información analizada
    """
    pass