In [7]:
import torch

# Ruta al archivo del modelo
model_path = '/Users/macdenico/PycharmProjects/PMM-FALP2024/Model Training and Validation/deteccion/modelos/best.pt'

# Cargar el archivo y mapearlo a CPU
checkpoint = torch.load(model_path, map_location=torch.device('cpu'))

# Extraer el modelo desde la clave 'ema'
model = checkpoint.get('ema', None)

if model is not None:
    # Imprimir la arquitectura del modelo
    print("Arquitectura del modelo:")
    print(model)

    # Ver los pesos y biases de cada capa
    print("\nDetalles de cada capa con sus pesos:")
    for name, param in model.named_parameters():
        print(f"Layer: {name} | Size: {param.size()} | Values: {param[:2]}")  # Muestra solo los primeros valores de cada capa
else:
    print("No se encontró el modelo en la clave 'ema'.")

# Imprimir todas las claves y sus tipos para referencia
print("\nContenido completo del archivo .pt:")
for key, value in checkpoint.items():
    print(f"Clave: {key} | Tipo: {type(value)}")


Arquitectura del modelo:
DetectionModel(
  (model): Sequential(
    (0): Conv(
      (conv): Conv2d(3, 48, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
      (bn): BatchNorm2d(48, eps=0.001, momentum=0.03, affine=True, track_running_stats=True)
      (act): SiLU(inplace=True)
    )
    (1): Conv(
      (conv): Conv2d(48, 96, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
      (bn): BatchNorm2d(96, eps=0.001, momentum=0.03, affine=True, track_running_stats=True)
      (act): SiLU(inplace=True)
    )
    (2): C2f(
      (cv1): Conv(
        (conv): Conv2d(96, 96, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn): BatchNorm2d(96, eps=0.001, momentum=0.03, affine=True, track_running_stats=True)
        (act): SiLU(inplace=True)
      )
      (cv2): Conv(
        (conv): Conv2d(192, 96, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn): BatchNorm2d(96, eps=0.001, momentum=0.03, affine=True, track_running_stats=True)
        (act): SiLU(

## Análisis Técnico de la Arquitectura del Modelo YOLO

Este modelo basado en YOLO cuenta con una arquitectura compuesta por **23 capas principales**, organizadas en distintos bloques que optimizan la detección de objetos en imágenes. A continuación se detallan los tipos de capas y sus funciones específicas en la red:

1. **Capas Convolucionales (Conv)**: La arquitectura incluye varias capas convolucionales, cada una seguida de **Batch Normalization** y una activación **SiLU**. Estas capas forman la base del modelo y están configuradas con diferentes números de filtros y tamaños de kernel para capturar características en distintas resoluciones.

2. **Bloques C2f (Cross Stage Partial)**: La red utiliza **5 bloques C2f** que incorporan capas **Bottleneck**, diseñadas para comprimir y expandir las características sin aumentar el costo computacional. Los bloques C2f mejoran el flujo de información en la red y ayudan a gestionar la densidad de información, manteniendo la precisión del modelo.

3. **Bloque SPPF (Spatial Pyramid Pooling Fast)**: Este bloque realiza pooling en múltiples escalas y permite que la red capture información en diferentes resoluciones. Aunque el bloque SPPF cuenta como una única capa, su contribución es significativa en la extracción de características a múltiples escalas.

4. **Capas de Escalado y Concatenación (Upsample y Concat)**: Incluye **2 capas de Upsample** y **3 capas de Concat** que permiten unir y combinar características de distintas resoluciones. Estas capas son fundamentales en YOLO, ya que facilitan la fusión de características profundas y superficiales, lo que mejora la detección de objetos en diversas escalas.

5. **Capas de Detección (Detect)**: La capa `Detect` en el modelo opera en tres escalas distintas utilizando un stride variable, permitiendo la detección de objetos en diferentes tamaños. Está compuesta por convoluciones diseñadas para producir las coordenadas de las bounding boxes y las puntuaciones de confianza de las predicciones.

6. **Distribución de la Pérdida Focal (DFL)**: Este módulo, aunque no es una capa de convolución tradicional, se utiliza para optimizar la precisión en la predicción de coordenadas. La DFL refuerza la robustez del modelo, especialmente en la detección de bordes.

En resumen, la arquitectura se compone de **23 capas principales**, incluyendo capas convolucionales, bloques C2f, una capa SPPF, capas de escalado y concatenación, y una capa de detección avanzada. Este diseño permite al modelo mantener un rendimiento elevado en la detección de objetos en diferentes escalas dentro de imágenes médicas.
