<a href="https://colab.research.google.com/github/palominojulio/5_ways_2D_histograms/blob/master/2025710_1937%5B_TransIAR_%5D.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#1 Configuración Inicial de Google Colab

Este código es un script de configuración inicial en Google Colab para preparar el entorno y utilizar el repositorio de TransIAR, un modelo de red neuronal para el análisis de imágenes médicas (como aneurismas cerebrales).


# 1. Importación de módulos

Se importan módulos de Python necesarios para interactuar con el sistema operativo, controlar procesos y manejar rutas.

In [None]:
# Configuración inicial para TransIAR en Google Colab
import os
import sys
import subprocess

# 🧠 2. Verificar GPU

Intenta usar el comando nvidia-smi para comprobar si Colab tiene GPU disponible.

Si falla (por ejemplo, si no hay GPU o el comando está deshabilitado), muestra una advertencia.

Esto es útil para asegurarse de que tienes aceleración por hardware disponible para entrenar/inferir modelos.

In [None]:
# Verificar GPU disponible (manejo de errores)
try:
    !nvidia-smi
except:
    print("⚠️  nvidia-smi no disponible, verificando GPU con torch...")

# 📁 3. Clonar el repositorio TransIAR

Comprueba si ya existe una carpeta llamada TransIAR.

Si no existe, clona el repositorio oficial desde GitHub.

Si ya existe, lo salta y evita volver a descargarlo.

In [None]:
# Clonar el repositorio (si no existe)
if not os.path.exists('TransIAR'):
    !git clone https://github.com/CMACH508/TransIAR.git
else:
    print("✅ Repositorio TransIAR ya existe")

📂 4. Entrar en la carpeta del repositorio

Usa un comando mágico de Jupyter/Colab (%cd) para cambiar al directorio del repositorio recién clonado.

In [None]:
%cd TransIAR

# 📦 5. Instalar dependencias necesarias

Instala los paquetes necesarios para que el código de TransIAR funcione correctamente.

Incluye:

einops: para operaciones con tensores.

numpy, scikit-learn: cálculo numérico y utilidades ML.

torch, torchvision, torchaudio: librerías de PyTorch.

matplotlib, seaborn: para gráficos y visualización de datos.

In [None]:
# Instalar dependencias compatibles (versiones actualizadas)
print("📦 Instalando dependencias compatibles...")
!pip install einops
!pip install numpy>=1.22.3
!pip install scikit-learn>=1.1.3
!pip install torch torchvision torchaudio
!pip install matplotlib seaborn

# 📁 6. Crear carpeta para los datasets

Crea un directorio dataset si no existe, donde se supone que colocarás los datos necesarios para entrenar o inferir.

In [None]:
# Crear carpeta para datasets
!mkdir -p dataset

# ✅ 7. Mensaje final

Indica que todo está listo para comenzar a usar el modelo.

In [None]:
print("✅ Configuración inicial completada")

# ✅ En resumen:

Este script prepara Google Colab para trabajar con el modelo TransIAR, instalando dependencias, verificando la GPU, organizando archivos y dejando todo listo para comenzar con el procesamiento de imágenes médicas.

Si quieres, puedo ayudarte con los siguientes pasos para cargar datos DICOM, hacer inferencias, o usar un modelo preentrenado. ¿Te gustaría continuar con eso?

# 2 Descarga de Datos de Prueba

Este código está diseñado para gestionar datasets de prueba que se usarán con el modelo TransIAR.
Dado que los datos reales no están disponibles públicamente (por razones médicas y éticas), se crean datos sintéticos con la misma estructura que los reales, para poder probar el pipeline.

# 🧩 1. Importación de librerías

requests: para descargar archivos desde internet.

os: para interactuar con el sistema de archivos.

numpy: para crear arrays numéricos (simular datos).

pickle: para guardar datos en archivos .pkl (formato binario de Python).

In [None]:
import requests
import os7
import numpy as np
import pickle

# 🌐 2. Función para descargar archivos

Esta función permite descargar un archivo desde una URL dada y guardarlo con el nombre filename.
✔️ Es útil si luego quieres descargar datasets reales desde Zenodo (cuando estén disponibles).

In [None]:
def download_file(url, filename):
    """Descarga un archivo desde una URL"""
    response = requests.get(url, stream=True)
    if response.status_code == 200:
        with open(filename, 'wb') as f:
            for chunk in response.iter_content(chunk_size=8192):
                f.write(chunk)
        print(f"✅ Descargado: {filename}")
    else:
        print(f"❌ Error descargando: {filename}")

# ⚠️ 3. Mensaje informativo

# URLs de los datasets (actualmente no disponibles públicamente)
# Nota: Los datasets reales requieren permisos especiales por regulaciones hospitalarias
print("📋 IMPORTANTE: Los datasets reales requieren permisos especiales")
print("   Para demostración, crearemos datos sintéticos con la misma estructura")

In [None]:
print("📋 IMPORTANTE: Los datasets reales requieren permisos especiales")
print("   Para demostración, crearemos datos sintéticos con la misma estructura")

# 🧪 4. Crear datos sintéticos

Se define una función que crea un conjunto de datos ficticio, pero con la misma estructura de forma y tipo que el conjunto real.

In [None]:
# Crear datos sintéticos para demostración
def create_synthetic_data():
    """Crea datos sintéticos para demostración del pipeline"""
    print("🔧 Creando datos sintéticos para demostración...")

# 📦 Simulación de vox_test

vox_test: simula volúmenes 3D (patches) para 82 pacientes, cada uno con 4 parches de tamaño 96x96x96.

y_test: vector de 82 etiquetas (0 o 1), una por paciente, para clasificación binaria (aneurisma/no aneurisma).

In [None]:
    # Simular estructura de datos real
    synthetic_test_data = {
        'vox_test': np.random.randn(82, 4, 96, 96, 96),  # 82 casos, 4 tipos de parches
        'y_test': np.random.randint(0, 2, 82)  # Etiquetas binarias
    }

# 📈 Simulación de datos auxiliares

af_test: un array de características adicionales por paciente (10 valores numéricos por caso).

In [None]:
    synthetic_af_data = {
        'af_test': np.random.randn(82, 10)  # 82 casos, 10 características auxiliares
    }

# 💾 Guardado de los datos sintéticos

Guarda los datos simulados como archivos .pkl dentro de la carpeta dataset/.

Estos archivos se usarán luego para alimentar el modelo en la etapa de inferencia o prueba.

In [None]:
    # Guardar datos sintéticos
    with open('dataset/dataset_cta_balanced_test.pkl', 'wb') as f:
        pickle.dump(synthetic_test_data, f)

    with open('dataset/dataset_af_balanced_test.pkl', 'wb') as f:
        pickle.dump(synthetic_af_data, f)

# ✅ 5. Ejecutar la creación de datos

Llama a la función para crear y guardar los datos sintéticos.

In [3]:


    print("✅ Datos sintéticos creados para demostración")
    print("   Nota: Para uso real, descarga los datos desde Zenodo con permisos")

# Crear datos sintéticos
create_synthetic_data()

📋 IMPORTANTE: Los datasets reales requieren permisos especiales
   Para demostración, crearemos datos sintéticos con la misma estructura
🔧 Creando datos sintéticos para demostración...
✅ Datos sintéticos creados para demostración
   Nota: Para uso real, descarga los datos desde Zenodo con permisos


# 🔚 En resumen:

Este script simula datos médicos para poder probar el modelo TransIAR sin necesidad de los datos reales (que están protegidos).
Esto permite continuar con el desarrollo, depuración o demostración del pipeline de inferencia sin violar normas éticas ni legales.

Perfecto, ahora te explico cómo se cargan los datos simulados y se realiza la inferencia con el modelo TransIAR. Esto corresponde al siguiente paso del pipeline: predecir aneurismas usando los datos .pkl creados.

# 🔄 1. Cargar los datos desde los archivos .pkl

vox_test: tensor de forma (82, 4, 96, 96, 96), que representa 82 pacientes con 4 "patches" 3D cada uno.

y_test: vector de etiquetas reales.

af_test: datos adicionales (como edad, sexo, etc., aunque aquí son ficticios).

In [4]:
import pickle

# Cargar datos de test (imágenes volumétricas y etiquetas)
with open('dataset/dataset_cta_balanced_test.pkl', 'rb') as f:
    test_data = pickle.load(f)

# Cargar datos auxiliares (características adicionales)
with open('dataset/dataset_af_balanced_test.pkl', 'rb') as f:
    af_data = pickle.load(f)

# Extraer variables
vox_test = test_data['vox_test']  # Imágenes 3D
y_test = test_data['y_test']      # Etiquetas verdaderas (0 o 1)
af_test = af_data['af_test']      # Datos auxiliares (tablas numéricas)


# 🧠 2. Cargar el modelo TransIAR (preentrenado)
Si estás usando el modelo entrenado model_w_af.pth:
Esto:

Crea una instancia del modelo TransIAR.

Carga los pesos preentrenados.

Lo pone en modo evaluación (inferencia, no entrenamiento).

In [7]:
import torch
from model_transiar_af import TransIARNet  # Import correcto

# Crear el modelo
model = TransIARNet()

# Cargar pesos preentrenados (modelo con datos auxiliares)
model.load_state_dict(torch.load('model_w_af.pth', map_location='cpu'))
model.eval()

ModuleNotFoundError: No module named 'model_transiar_af'

# 📊 3. Inferencia: predecir con los datos cargados

outputs: valores crudos del modelo (logits).

torch.sigmoid(outputs): convierte logits en probabilidades.

preds_binary: convierte las probabilidades en 0 o 1 (clasificación final).

In [None]:
# Convertir datos a tensores de PyTorch
vox_tensor = torch.tensor(vox_test, dtype=torch.float32)
af_tensor = torch.tensor(af_test, dtype=torch.float32)

# Si tienes GPU:
# vox_tensor = vox_tensor.cuda()
# af_tensor = af_tensor.cuda()
# model = model.cuda()

# Predecir (sin gradientes)
with torch.no_grad():
    outputs = model(vox_tensor, af_tensor)
    preds = torch.sigmoid(outputs).numpy()  # Probabilidades entre 0 y 1
    preds_binary = (preds > 0.5).astype(int)  # Clasificación final 0/1

# ✅ 4. Evaluar resultados (opcional)

Esto te dice qué tan bien predice el modelo:

Accuracy: proporción de aciertos.

AUC: capacidad de discriminación (0.5 es azar, 1.0 es perfecto).

In [None]:
from sklearn.metrics import accuracy_score, roc_auc_score

print("🎯 Accuracy:", accuracy_score(y_test, preds_binary))
print("📈 AUC:", roc_auc_score(y_test, preds))


# 📌 Resumen del flujo completo:

Cargar archivos .pkl con pickle.

Extraer los arrays de imágenes y características.

Cargar el modelo TransIAR y sus pesos.

Hacer predicciones con torch.no_grad().

Evaluar si quieres comparar con las etiquetas reales.