# üöÄ LUMPS - Worker Distribuido para Google Colab

Este notebook permite ejecutar un worker distribuido para generar el dataset de la Fase 0 de LUMPS.

## üìã Instrucciones

1. **"Runtime" ‚Üí "Run all"** - ¬°El notebook es completamente autom√°tico!
2. **El worker detectar√° autom√°ticamente** si existe carpeta compartida
3. **El worker trabajar√° autom√°ticamente** hasta que se desconecte Colab
4. **Puedes pausar/reanudar** usando los botones de control

## üéØ Comportamiento Autom√°tico

- **Si existe carpeta compartida**: Se une al trabajo coordinado con otros workers
- **Si no existe carpeta compartida**: Crea carpeta local y trabaja independientemente
- **Detecci√≥n inteligente**: No necesitas configurar nada manualmente

## ‚ö†Ô∏è Importante
- Cada usuario debe hacer **"Archivo > Guardar una copia en Drive"** antes de ejecutar
- El worker trabajar√° en **loop continuo** hasta desconexi√≥n
- Los resultados se guardan autom√°ticamente en Google Drive


## üîß Setup Inicial


In [None]:
# Montar Google Drive
from google.colab import drive
import os

print("üîó Montando Google Drive...")
drive.mount('/content/drive')
print("‚úÖ Google Drive montado exitosamente")


In [None]:
# Clonar repositorio desde GitHub autom√°ticamente
import subprocess
import sys
from pathlib import Path

print("üì• Clonando repositorio LUMPS...")

# Cambiar al directorio de trabajo
%cd /content

# URL del repositorio (actualizada autom√°ticamente)
repo_url = "https://github.com/juanignaciorey/LUMPS.git"

# Verificar si ya existe el directorio
if Path("LUMPS").exists():
    print("üìÅ Repositorio ya existe, actualizando...")
    %cd LUMPS
    !git pull origin master
else:
    print("üì• Clonando repositorio...")
    !git clone $repo_url
    %cd LUMPS

print("‚úÖ Repositorio listo")
print(f"üìÅ Directorio actual: {os.getcwd()}")


In [None]:
# Instalar dependencias autom√°ticamente
print("üì¶ Instalando dependencias...")

try:
    # Instalar requirements
    !pip install -r requirements.txt

    # Instalar dependencias adicionales para Colab
    !pip install tqdm

    print("‚úÖ Dependencias instaladas exitosamente")
except Exception as e:
    print(f"‚ö†Ô∏è Error instalando dependencias: {e}")
    print("üîÑ Intentando instalar dependencias b√°sicas...")
    !pip install torch numpy tqdm
    print("‚úÖ Dependencias b√°sicas instaladas")


## ‚öôÔ∏è Configuraci√≥n


In [None]:
# Configurar paths y variables autom√°ticamente
import os
import socket
import time
from pathlib import Path

# En Google Colab, las carpetas compartidas aparecen en MyDrive cuando se crea acceso directo
MY_DRIVE_PATH = "/content/drive/MyDrive/LUMPS_Distributed"

print("üîç Detectando carpeta compartida o acceso directo...")

# Verificar si existe la carpeta (puede ser local o acceso directo a compartida)
if Path(MY_DRIVE_PATH).exists():
    try:
        # Listar contenido para verificar si es un acceso directo funcional
        contents = os.listdir(MY_DRIVE_PATH)
        print(f"‚úÖ Carpeta encontrada: {MY_DRIVE_PATH}")
        print(f"üìÅ Contenido: {contents[:5]}{'...' if len(contents) > 5 else ''}")

        # Verificar si tiene estructura de proyecto distribuido (indica carpeta compartida)
        has_manifests = any('manifest' in item.lower() for item in contents)
        has_results = any('result' in item.lower() for item in contents)
        has_logs = any('log' in item.lower() for item in contents)

        # Si tiene estructura de proyecto distribuido, es carpeta compartida
        if has_manifests or has_results or has_logs:
            print("üéØ Detectado acceso directo a carpeta compartida - modo coordinado")
            print("ü§ù M√∫ltiples workers coordinados trabajando juntos")
        else:
            print("üéØ Carpeta local detectada - worker independiente")
            print("üí° Para coordinaci√≥n: crea acceso directo a carpeta compartida")

        DRIVE_BASE_PATH = MY_DRIVE_PATH

    except Exception as e:
        print(f"‚ö†Ô∏è Error accediendo a carpeta: {e}")
        DRIVE_BASE_PATH = MY_DRIVE_PATH
        print("üéØ Usando carpeta local - worker independiente")
else:
    # Crear carpeta local por defecto
    DRIVE_BASE_PATH = MY_DRIVE_PATH
    print("üìÅ No se encontr√≥ carpeta existente, creando carpeta local...")
    try:
        Path(DRIVE_BASE_PATH).mkdir(parents=True, exist_ok=True)
        print(f"‚úÖ Carpeta local creada: {DRIVE_BASE_PATH}")
        print("üí° Para coordinaci√≥n entre workers:")
        print("   1. Comparte la carpeta desde el master")
        print("   2. Crea acceso directo en tu Drive")
        print("   3. Re-ejecuta este notebook")
    except Exception as e:
        print(f"‚ùå Error creando carpeta: {e}")
        print("üí° Verifica que tienes permisos de escritura en Drive")

# Generar ID √∫nico para este worker
WORKER_ID = f"colab_{socket.gethostname()}_{os.getpid()}_{int(time.time())}"

# Configurar variables de entorno
os.environ['LUMPS_DRIVE_PATH'] = DRIVE_BASE_PATH
os.environ['WORKER_ID'] = WORKER_ID

print(f"\nüîß Configuraci√≥n autom√°tica:")
print(f"   Worker ID: {WORKER_ID}")
print(f"   Drive Path: {DRIVE_BASE_PATH}")
print(f"   Hostname: {socket.gethostname()}")
print(f"   PID: {os.getpid()}")

print("üéØ Configuraci√≥n completada")


## üîß Setup Autom√°tico

El notebook configurar√° autom√°ticamente todo lo necesario:
- Crear√° la carpeta compartida si no existe
- Generar√° el manifiesto de batches autom√°ticamente
- Configurar√° el worker para ejecutar


### üõ°Ô∏è Mejoras de Resiliencia

El worker ahora incluye mejoras para manejar errores comunes:
- **Recuperaci√≥n autom√°tica** cuando se pierde el manifiesto
- **Reintentos inteligentes** en caso de errores temporales
- **Logging mejorado** para diagn√≥stico de problemas
- **Manejo robusto** de problemas de sincronizaci√≥n con Google Drive

**Si ves errores de "Manifiesto no encontrado":**
- El worker intentar√° recuperarse autom√°ticamente
- Esperar√° hasta 60 segundos para que se restaure el manifiesto
- Continuar√° trabajando una vez que se recupere
- No necesitas reiniciar el worker manualmente


In [None]:
# Setup autom√°tico - Crear manifiesto si no existe
import os
from pathlib import Path

print("üîç Verificando setup inicial...")

# Verificar si ya existe el manifiesto
manifest_path = Path(DRIVE_BASE_PATH) / "manifests" / "batch_manifest.json"

if manifest_path.exists():
    print("‚úÖ Manifiesto ya existe, continuando...")
    print(f"üìÅ Ubicaci√≥n: {manifest_path}")
else:
    print("üìã Creando manifiesto de batches autom√°ticamente...")
    print("‚ö†Ô∏è Esto puede tomar unos minutos para 500,000 tareas")

    try:
        # Crear manifiesto
        import subprocess
        import sys

        cmd = [
            sys.executable, "-m", "src.distributed.batch_generator",
            "--drive-path", DRIVE_BASE_PATH,
            "--create-manifest",
            "--batch-size", "50"
        ]

        print(f"üîß Comando: {' '.join(cmd)}")
        result = subprocess.run(cmd, capture_output=True, text=True)

        if result.returncode == 0:
            print("‚úÖ Manifiesto creado exitosamente")
        else:
            print(f"‚ùå Error creando manifiesto: {result.stderr}")
            print("üí° Aseg√∫rate de que la carpeta LUMPS_Distributed existe en Drive")

    except Exception as e:
        print(f"‚ùå Error creando manifiesto: {e}")
        print("üí° Aseg√∫rate de que la carpeta LUMPS_Distributed existe en Drive")

print("üéØ Setup inicial completado")


## üñ•Ô∏è Configuraci√≥n de GPU


## üîç Diagn√≥stico de Estado

Antes de ejecutar el worker, vamos a verificar el estado del sistema:


In [None]:
# Verificar estado del sistema antes de ejecutar worker
import sys
from pathlib import Path

print("üîç Verificando estado del sistema...")

# Verificar manifiesto
manifest_path = Path(DRIVE_BASE_PATH) / "manifests" / "batch_manifest.json"
if manifest_path.exists():
    print(f"‚úÖ Manifiesto encontrado: {manifest_path}")

    # Cargar y mostrar estad√≠sticas del manifiesto
    try:
        import json
        with open(manifest_path, 'r') as f:
            manifest = json.load(f)

        total_batches = len(manifest['batches'])
        available = sum(1 for b in manifest['batches'] if b['status'] == 'available')
        locked = sum(1 for b in manifest['batches'] if b['status'] == 'locked')
        completed = sum(1 for b in manifest['batches'] if b['status'] == 'completed')
        failed = sum(1 for b in manifest['batches'] if b['status'] == 'failed')

        print(f"üìä Estado del Manifiesto:")
        print(f"   Total batches: {total_batches}")
        print(f"   Disponibles: {available}")
        print(f"   En progreso: {locked}")
        print(f"   Completados: {completed}")
        print(f"   Fallidos: {failed}")

        if available == 0:
            print("‚ö†Ô∏è ¬°No hay batches disponibles!")
            print("üí° Esto significa que:")
            print("   - Todos los batches ya fueron procesados")
            print("   - O todos est√°n siendo procesados por otros workers")
            print("   - El worker se completar√° inmediatamente")
        else:
            print(f"‚úÖ Hay {available} batches disponibles para procesar")

    except Exception as e:
        print(f"‚ùå Error leyendo manifiesto: {e}")
else:
    print(f"‚ùå Manifiesto no encontrado: {manifest_path}")
    print("üí° El worker fallar√° al intentar ejecutarse")

# Verificar directorios necesarios
dirs_to_check = [
    "manifests",
    "results",
    "logs",
    "locks"
]

print(f"\nüìÅ Verificando directorios en {DRIVE_BASE_PATH}:")
for dir_name in dirs_to_check:
    dir_path = Path(DRIVE_BASE_PATH) / dir_name
    if dir_path.exists():
        print(f"   ‚úÖ {dir_name}/")
    else:
        print(f"   ‚ùå {dir_name}/ (no existe)")

print("\nüéØ Diagn√≥stico completado")


In [None]:
# Verificar GPU disponible
import torch

print("üñ•Ô∏è Verificando GPU...")
print(f"   CUDA disponible: {torch.cuda.is_available()}")

if torch.cuda.is_available():
    print(f"   GPU: {torch.cuda.get_device_name(0)}")
    print(f"   Memoria GPU: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")
    print("‚úÖ GPU configurada y lista")
else:
    print("‚ö†Ô∏è No hay GPU disponible, usando CPU")

print(f"   PyTorch versi√≥n: {torch.__version__}")


## üöÄ Ejecutar Worker


In [None]:
# Ejecutar worker distribuido autom√°ticamente
print("üöÄ Iniciando worker distribuido...")
print("‚ö†Ô∏è El worker trabajar√° en loop continuo hasta desconexi√≥n")
print("üõë Presiona el bot√≥n de interrumpir para detener")
print("\n" + "="*80)

try:
    # Ejecutar worker con TQDM para progreso visual
    import subprocess
    import sys

    cmd = [
        sys.executable, "generate_dataset_distributed.py",
        "--drive-path", DRIVE_BASE_PATH,
        "--worker-id", WORKER_ID,
        "--verbose"
    ]

    print(f"üîß Comando: {' '.join(cmd)}")
    print("="*80)

    # Ejecutar comando
    result = subprocess.run(cmd, capture_output=False, text=True)

    if result.returncode != 0:
        print(f"‚ùå Worker termin√≥ con c√≥digo: {result.returncode}")
    else:
        print("‚úÖ Worker completado exitosamente")
        print("\nüí° El worker se complet√≥ porque:")
        print("   - No hay m√°s batches disponibles para procesar")
        print("   - Todos los batches ya fueron completados por otros workers")
        print("   - O se alcanz√≥ el l√≠mite de batches configurado")

except Exception as e:
    print(f"‚ùå Error ejecutando worker: {e}")
    print("üí° Verifica que el manifiesto existe y tienes permisos de escritura")
    print("üîÑ Intentando ejecutar con configuraci√≥n b√°sica...")

    try:
        cmd_basic = [
            sys.executable, "generate_dataset_distributed.py",
            "--drive-path", DRIVE_BASE_PATH,
            "--worker-id", WORKER_ID
        ]

        print(f"üîß Comando b√°sico: {' '.join(cmd_basic)}")
        subprocess.run(cmd_basic, capture_output=False, text=True)

    except Exception as e2:
        print(f"‚ùå Error en comando b√°sico: {e2}")
        print("üí° Revisa la configuraci√≥n y permisos")
