<a href="https://colab.research.google.com/github/palominojulio/5_ways_2D_histograms/blob/master/2025710_1937%5B_TransIAR_%5D.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#1 Configuraci√≥n Inicial de Google Colab

Este c√≥digo es un script de configuraci√≥n inicial en Google Colab para preparar el entorno y utilizar el repositorio de TransIAR, un modelo de red neuronal para el an√°lisis de im√°genes m√©dicas (como aneurismas cerebrales).


# 1. Importaci√≥n de m√≥dulos

Se importan m√≥dulos de Python necesarios para interactuar con el sistema operativo, controlar procesos y manejar rutas.

In [None]:
# Configuraci√≥n inicial para TransIAR en Google Colab
import os
import sys
import subprocess

# üß† 2. Verificar GPU

Intenta usar el comando nvidia-smi para comprobar si Colab tiene GPU disponible.

Si falla (por ejemplo, si no hay GPU o el comando est√° deshabilitado), muestra una advertencia.

Esto es √∫til para asegurarse de que tienes aceleraci√≥n por hardware disponible para entrenar/inferir modelos.

In [None]:
# Verificar GPU disponible (manejo de errores)
try:
    !nvidia-smi
except:
    print("‚ö†Ô∏è  nvidia-smi no disponible, verificando GPU con torch...")

# üìÅ 3. Clonar el repositorio TransIAR

Comprueba si ya existe una carpeta llamada TransIAR.

Si no existe, clona el repositorio oficial desde GitHub.

Si ya existe, lo salta y evita volver a descargarlo.

In [None]:
# Clonar el repositorio (si no existe)
if not os.path.exists('TransIAR'):
    !git clone https://github.com/CMACH508/TransIAR.git
else:
    print("‚úÖ Repositorio TransIAR ya existe")

üìÇ 4. Entrar en la carpeta del repositorio

Usa un comando m√°gico de Jupyter/Colab (%cd) para cambiar al directorio del repositorio reci√©n clonado.

In [None]:
%cd TransIAR

# üì¶ 5. Instalar dependencias necesarias

Instala los paquetes necesarios para que el c√≥digo de TransIAR funcione correctamente.

Incluye:

einops: para operaciones con tensores.

numpy, scikit-learn: c√°lculo num√©rico y utilidades ML.

torch, torchvision, torchaudio: librer√≠as de PyTorch.

matplotlib, seaborn: para gr√°ficos y visualizaci√≥n de datos.

In [None]:
# Instalar dependencias compatibles (versiones actualizadas)
print("üì¶ Instalando dependencias compatibles...")
!pip install einops
!pip install numpy>=1.22.3
!pip install scikit-learn>=1.1.3
!pip install torch torchvision torchaudio
!pip install matplotlib seaborn

# üìÅ 6. Crear carpeta para los datasets

Crea un directorio dataset si no existe, donde se supone que colocar√°s los datos necesarios para entrenar o inferir.

In [None]:
# Crear carpeta para datasets
!mkdir -p dataset

# ‚úÖ 7. Mensaje final

Indica que todo est√° listo para comenzar a usar el modelo.

In [None]:
print("‚úÖ Configuraci√≥n inicial completada")

# ‚úÖ En resumen:

Este script prepara Google Colab para trabajar con el modelo TransIAR, instalando dependencias, verificando la GPU, organizando archivos y dejando todo listo para comenzar con el procesamiento de im√°genes m√©dicas.

Si quieres, puedo ayudarte con los siguientes pasos para cargar datos DICOM, hacer inferencias, o usar un modelo preentrenado. ¬øTe gustar√≠a continuar con eso?

# 2 Descarga de Datos de Prueba

Este c√≥digo est√° dise√±ado para gestionar datasets de prueba que se usar√°n con el modelo TransIAR.
Dado que los datos reales no est√°n disponibles p√∫blicamente (por razones m√©dicas y √©ticas), se crean datos sint√©ticos con la misma estructura que los reales, para poder probar el pipeline.

# üß© 1. Importaci√≥n de librer√≠as

requests: para descargar archivos desde internet.

os: para interactuar con el sistema de archivos.

numpy: para crear arrays num√©ricos (simular datos).

pickle: para guardar datos en archivos .pkl (formato binario de Python).

In [None]:
import requests
import os7
import numpy as np
import pickle

# üåê 2. Funci√≥n para descargar archivos

Esta funci√≥n permite descargar un archivo desde una URL dada y guardarlo con el nombre filename.
‚úîÔ∏è Es √∫til si luego quieres descargar datasets reales desde Zenodo (cuando est√©n disponibles).

In [None]:
def download_file(url, filename):
    """Descarga un archivo desde una URL"""
    response = requests.get(url, stream=True)
    if response.status_code == 200:
        with open(filename, 'wb') as f:
            for chunk in response.iter_content(chunk_size=8192):
                f.write(chunk)
        print(f"‚úÖ Descargado: {filename}")
    else:
        print(f"‚ùå Error descargando: {filename}")

# ‚ö†Ô∏è 3. Mensaje informativo

# URLs de los datasets (actualmente no disponibles p√∫blicamente)
# Nota: Los datasets reales requieren permisos especiales por regulaciones hospitalarias
print("üìã IMPORTANTE: Los datasets reales requieren permisos especiales")
print("   Para demostraci√≥n, crearemos datos sint√©ticos con la misma estructura")

In [None]:
print("üìã IMPORTANTE: Los datasets reales requieren permisos especiales")
print("   Para demostraci√≥n, crearemos datos sint√©ticos con la misma estructura")

# üß™ 4. Crear datos sint√©ticos

Se define una funci√≥n que crea un conjunto de datos ficticio, pero con la misma estructura de forma y tipo que el conjunto real.

In [None]:
# Crear datos sint√©ticos para demostraci√≥n
def create_synthetic_data():
    """Crea datos sint√©ticos para demostraci√≥n del pipeline"""
    print("üîß Creando datos sint√©ticos para demostraci√≥n...")

# üì¶ Simulaci√≥n de vox_test

vox_test: simula vol√∫menes 3D (patches) para 82 pacientes, cada uno con 4 parches de tama√±o 96x96x96.

y_test: vector de 82 etiquetas (0 o 1), una por paciente, para clasificaci√≥n binaria (aneurisma/no aneurisma).

In [None]:
    # Simular estructura de datos real
    synthetic_test_data = {
        'vox_test': np.random.randn(82, 4, 96, 96, 96),  # 82 casos, 4 tipos de parches
        'y_test': np.random.randint(0, 2, 82)  # Etiquetas binarias
    }

# üìà Simulaci√≥n de datos auxiliares

af_test: un array de caracter√≠sticas adicionales por paciente (10 valores num√©ricos por caso).

In [None]:
    synthetic_af_data = {
        'af_test': np.random.randn(82, 10)  # 82 casos, 10 caracter√≠sticas auxiliares
    }

# üíæ Guardado de los datos sint√©ticos

Guarda los datos simulados como archivos .pkl dentro de la carpeta dataset/.

Estos archivos se usar√°n luego para alimentar el modelo en la etapa de inferencia o prueba.

In [None]:
    # Guardar datos sint√©ticos
    with open('dataset/dataset_cta_balanced_test.pkl', 'wb') as f:
        pickle.dump(synthetic_test_data, f)

    with open('dataset/dataset_af_balanced_test.pkl', 'wb') as f:
        pickle.dump(synthetic_af_data, f)

# ‚úÖ 5. Ejecutar la creaci√≥n de datos

Llama a la funci√≥n para crear y guardar los datos sint√©ticos.

In [3]:


    print("‚úÖ Datos sint√©ticos creados para demostraci√≥n")
    print("   Nota: Para uso real, descarga los datos desde Zenodo con permisos")

# Crear datos sint√©ticos
create_synthetic_data()

üìã IMPORTANTE: Los datasets reales requieren permisos especiales
   Para demostraci√≥n, crearemos datos sint√©ticos con la misma estructura
üîß Creando datos sint√©ticos para demostraci√≥n...
‚úÖ Datos sint√©ticos creados para demostraci√≥n
   Nota: Para uso real, descarga los datos desde Zenodo con permisos


# üîö En resumen:

Este script simula datos m√©dicos para poder probar el modelo TransIAR sin necesidad de los datos reales (que est√°n protegidos).
Esto permite continuar con el desarrollo, depuraci√≥n o demostraci√≥n del pipeline de inferencia sin violar normas √©ticas ni legales.

Perfecto, ahora te explico c√≥mo se cargan los datos simulados y se realiza la inferencia con el modelo TransIAR. Esto corresponde al siguiente paso del pipeline: predecir aneurismas usando los datos .pkl creados.

# üîÑ 1. Cargar los datos desde los archivos .pkl

vox_test: tensor de forma (82, 4, 96, 96, 96), que representa 82 pacientes con 4 "patches" 3D cada uno.

y_test: vector de etiquetas reales.

af_test: datos adicionales (como edad, sexo, etc., aunque aqu√≠ son ficticios).

In [4]:
import pickle

# Cargar datos de test (im√°genes volum√©tricas y etiquetas)
with open('dataset/dataset_cta_balanced_test.pkl', 'rb') as f:
    test_data = pickle.load(f)

# Cargar datos auxiliares (caracter√≠sticas adicionales)
with open('dataset/dataset_af_balanced_test.pkl', 'rb') as f:
    af_data = pickle.load(f)

# Extraer variables
vox_test = test_data['vox_test']  # Im√°genes 3D
y_test = test_data['y_test']      # Etiquetas verdaderas (0 o 1)
af_test = af_data['af_test']      # Datos auxiliares (tablas num√©ricas)


# üß† 2. Cargar el modelo TransIAR (preentrenado)
Si est√°s usando el modelo entrenado model_w_af.pth:
Esto:

Crea una instancia del modelo TransIAR.

Carga los pesos preentrenados.

Lo pone en modo evaluaci√≥n (inferencia, no entrenamiento).

In [7]:
import torch
from model_transiar_af import TransIARNet  # Import correcto

# Crear el modelo
model = TransIARNet()

# Cargar pesos preentrenados (modelo con datos auxiliares)
model.load_state_dict(torch.load('model_w_af.pth', map_location='cpu'))
model.eval()

ModuleNotFoundError: No module named 'model_transiar_af'

# üìä 3. Inferencia: predecir con los datos cargados

outputs: valores crudos del modelo (logits).

torch.sigmoid(outputs): convierte logits en probabilidades.

preds_binary: convierte las probabilidades en 0 o 1 (clasificaci√≥n final).

In [None]:
# Convertir datos a tensores de PyTorch
vox_tensor = torch.tensor(vox_test, dtype=torch.float32)
af_tensor = torch.tensor(af_test, dtype=torch.float32)

# Si tienes GPU:
# vox_tensor = vox_tensor.cuda()
# af_tensor = af_tensor.cuda()
# model = model.cuda()

# Predecir (sin gradientes)
with torch.no_grad():
    outputs = model(vox_tensor, af_tensor)
    preds = torch.sigmoid(outputs).numpy()  # Probabilidades entre 0 y 1
    preds_binary = (preds > 0.5).astype(int)  # Clasificaci√≥n final 0/1

# ‚úÖ 4. Evaluar resultados (opcional)

Esto te dice qu√© tan bien predice el modelo:

Accuracy: proporci√≥n de aciertos.

AUC: capacidad de discriminaci√≥n (0.5 es azar, 1.0 es perfecto).

In [None]:
from sklearn.metrics import accuracy_score, roc_auc_score

print("üéØ Accuracy:", accuracy_score(y_test, preds_binary))
print("üìà AUC:", roc_auc_score(y_test, preds))


# üìå Resumen del flujo completo:

Cargar archivos .pkl con pickle.

Extraer los arrays de im√°genes y caracter√≠sticas.

Cargar el modelo TransIAR y sus pesos.

Hacer predicciones con torch.no_grad().

Evaluar si quieres comparar con las etiquetas reales.