# 2. Ejecución de Tareas en SLURM

## 2.1 Introducción a SLURM: 
SLURM, acrónimo de "Simple Linux Utility for Resource Management," es un sistema de gestión de trabajos ampliamente utilizado en entornos de computación de alto rendimiento (HPC) como Patagón. Este componente esencial desempeña un papel clave en la administración eficiente de los recursos del clúster, permitiendo la ejecución de tareas de manera coordinada y optimizada.

### ¿Por qué SLURM en Patagón?

SLURM se ha convertido en el estándar de facto en HPC debido a su robustez y escalabilidad. En Patagón, SLURM se utiliza para asignar recursos computacionales, como CPUs y GPUs, a tareas individuales o trabajos, asegurando un uso eficiente del clúster y evitando conflictos de recursos.

## 2.2 Creación de Scripts SLURM: 
Cuando estás listo para ejecutar una tarea en Patagón, necesitas crear un script SLURM que describa los recursos requeridos para tu trabajo. Esto incluye la cantidad de CPU, memoria, GPUs (si es necesario), el tiempo de ejecución máximo y otros parámetros específicos.

### Paso 1: Crear un archivo de script SLURM

Primero, crea un archivo de texto que servirá como tu script SLURM. Puedes nombrarlo como desees, pero generalmente se usa la extensión `.sbatch` o `.sh`. Por ejemplo, `mi_script.sbatch`. Asegúrate de que el archivo tenga permisos de ejecución utilizando el comando `chmod +x mi_script.sbatch.

### Paso 2: Encabezado del Script SLURM

En la parte superior del archivo, coloca el encabezado del script SLURM. Este encabezado debe contener información sobre cómo SLURM debe administrar tu trabajo. Aquí hay un ejemplo de encabezado básico:

```bash
#!/bin/bash
#SBATCH --job-name=mi_trabajo        # Nombre del trabajo
#SBATCH --output=output.log          # Archivo de registro de salida
#SBATCH --error=error.log            # Archivo de registro de errores
#SBATCH --partition=particion        # Partición del clúster (cola)
#SBATCH --nodes=1                    # Número de nodos
#SBATCH --ntasks=1                   # Número de tareas
#SBATCH --cpus-per-task=4            # Número de CPU por tarea
#SBATCH --mem=8GB                    # Memoria por nodo
#SBATCH --time=01:00:00              # Tiempo máximo de ejecución (HH:MM:SS)
```
Ajusta los valores en el encabezado según tus necesidades. Los parámetros importantes incluyen:

- **--job-name**: El nombre descriptivo de tu trabajo.
- **--output** y **--error**: Los archivos de registro de salida y errores.
- **--partition**: La cola del clúster en la que deseas enviar tu trabajo.
- **--nodes**: El número de nodos que deseas utilizar.
- **--ntasks**: El número de tareas o procesos que deseas ejecutar.
- **--cpus-per-task**: El número de CPU asignados a cada tarea.
- **--mem**: La cantidad de memoria RAM necesaria.
- **--time**: El tiempo máximo de ejecución permitido.

### Paso 3: Definición de Tareas y Comandos

Después del encabezado, puedes definir las tareas específicas que deseas realizar en el script. Esto podría incluir comandos para la ejecución de programas, análisis de datos, etc. Por ejemplo:

```bash
# Comandos de tu tarea
echo "¡Hola, mundo!"
python mi_script.py
```
### Paso 4: Enviar el Trabajo SLURM

Finalmente, para enviar tu trabajo SLURM al sistema de colas, utiliza el comando `sbatch` seguido del nombre de tu script SLURM:

```bash
sbatch mi_script.sbatch
```
SLURM agregará tu trabajo a la cola especificada y lo ejecutará cuando los recursos estén disponibles según las especificaciones que has proporcionado en el encabezado.

Este es un ejemplo básico de cómo estructurar un script SLURM. Puedes personalizarlo según tus necesidades y agregar más configuraciones específicas según la complejidad de tu tarea. Recuerda consultar la <a href="https://slurm.schedmd.com/documentation.html">documentación de SLURM</a> y los recursos disponibles en Patagón para obtener más detalles sobre cómo ajustar tu script para trabajos más avanzados.

## 2.4 Monitoreo y Depuración en SLURM

Cuando trabajas con SLURM en Patagón o cualquier otro sistema de gestión de trabajos de alto rendimiento, es fundamental poder monitorear el rendimiento de tus tareas y resolver problemas comunes de manera eficaz. Aquí tienes algunos consejos sobre cómo llevar a cabo estas actividades:

### 2.4.1 Monitoreo de Rendimiento

1. **squeue**: Utiliza el comando `squeue` para obtener una lista de trabajos en ejecución y en cola en el sistema. Esto te permite verificar el estado de tus tareas y obtener información sobre el tiempo restante estimado.

2. **sacct**: El comando `sacct` proporciona un registro detallado de la ejecución de trabajos anteriores. Puedes utilizarlo para examinar el historial de tus tareas y analizar su rendimiento pasado.

3. **top/htop**: Estas herramientas permiten monitorear el uso de recursos en tiempo real en los nodos donde se ejecutan tus tareas. Puedes usar `top` para ver la actividad de la CPU y la memoria, y `htop` para una versión más interactiva.

4. **Gestión de recursos**: Utiliza comandos como `scontrol` para ajustar la asignación de recursos de tus trabajos en ejecución si es necesario. Esto te permite modificar el número de CPU, memoria o tiempo de ejecución en tiempo real.

5. **Registros de salida**: Inspecciona los archivos de registro de salida y error que especificaste en tu script SLURM (`--output` y `--error`). Estos archivos suelen contener información valiosa sobre posibles problemas o errores en tus tareas.

### 2.4.2 Depuración de Problemas Comunes

1. **Errores en el script SLURM**: Si tus trabajos no se ejecutan, verifica si hay errores en tu script SLURM. Revisa el encabezado y la definición de tareas para asegurarte de que todo esté configurado correctamente.

2. **Recursos insuficientes**: Si experimentas problemas de recursos, como falta de memoria o tiempo de CPU agotado, ajusta las especificaciones en tu script SLURM o en tu solicitud de recursos para satisfacer tus necesidades.

3. **Errores en la tarea**: Si tus tareas tienen errores, asegúrate de que los comandos y programas que estás ejecutando sean válidos y estén disponibles en el entorno de ejecución de SLURM.

4. **Cola de espera larga**: Si tus trabajos tienen tiempos de espera largos en la cola, considera dividir tareas más grandes en tareas más pequeñas o ajustar tus preferencias de cola.

5. **Comunicación entre tareas**: Si estás ejecutando tareas paralelas, asegúrate de que la comunicación entre ellas sea adecuada y que no haya bloqueos o problemas de sincronización.

6. **Registros detallados**: Aprovecha los registros de salida y error para identificar y solucionar problemas específicos en tus tareas. Los mensajes de error suelen proporcionar pistas sobre dónde buscar.

7. **Recursos compartidos**: Si estás compartiendo recursos con otros usuarios en un clúster, ten en cuenta que la competencia por recursos puede afectar el rendimiento de tus tareas. Ajusta tus tiempos de ejecución y recursos en consecuencia.

Recuerda que la depuración y el monitoreo son habilidades importantes al trabajar en entornos de HPC como Patagón. Cuanto mejor comprendas cómo funcionan tus tareas y cómo se utilizan los recursos, más efectivo serás en la resolución de problemas y en la optimización de tus trabajos.
