<h1 align="center">Computación de Alto Desempeño</h1>
<h1 align="center">OpenMP</h1>
<h1 align="center">2024</h1>
<h1 align="center">MEDELLÍN - COLOMBIA </h1>

***
|[![Outlook](https://img.shields.io/badge/Microsoft_Outlook-0078D4?style=plastic&logo=microsoft-outlook&logoColor=white)](mailto:calvarezh@udemedellin.edu.co)||[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/carlosalvarezh/HPC/HPC07_OpenMP.ipynb)
|-:|:-|--:|
|[![LinkedIn](https://img.shields.io/badge/linkedin-%230077B5.svg?style=plastic&logo=linkedin&logoColor=white)](https://www.linkedin.com/in/carlosalvarez5/)|[![@alvarezhenao](https://img.shields.io/twitter/url/https/twitter.com/alvarezhenao.svg?style=social&label=Follow%20%40alvarezhenao)](https://twitter.com/alvarezhenao)|[![@carlosalvarezh](https://img.shields.io/badge/github-%23121011.svg?style=plastic&logo=github&logoColor=white)](https://github.com/carlosalvarezh)|

<table>
 <tr align=left><td><img align=left src="https://github.com/carlosalvarezh/Curso_CEC_EAFIT/blob/main/images/CCLogoColorPop1.gif?raw=true" width="25">
 <td>Text provided under a Creative Commons Attribution license, CC-BY. All code is made available under the FSF-approved MIT license.(c) Carlos Alberto Alvarez Henao</td>
</table>

***

## Introducción a OpenMP y MPI

En el ámbito de la computación de alto rendimiento (HPC), OpenMP y MPI son dos tecnologías ampliamente utilizadas para paralelizar aplicaciones, permitiendo que los programas aprovechen el poder de múltiples procesadores o núcleos. Cada una de estas herramientas tiene sus propias características, ventajas y limitaciones, y se emplean en diferentes contextos dependiendo de las necesidades del proyecto.

### **OpenMP (Open Multi-Processing)**

**Características Principales:**
- **Enfoque en Memoria Compartida:** OpenMP es ideal para sistemas con memoria compartida, donde todos los hilos de ejecución tienen acceso a la misma memoria física. Esto incluye arquitecturas como computadoras multicore o multiprocesadores con un solo espacio de memoria.
- **Facilidad de Uso:** OpenMP se integra directamente en lenguajes como C, C++ y Fortran mediante directivas de compilador, lo que permite paralelizar el código de manera incremental y sencilla.
- **Modelo de Programación Basado en Hilos:** OpenMP utiliza hilos (threads) para ejecutar tareas en paralelo. El programador puede controlar el número de hilos y cómo se distribuyen las tareas entre ellos.
- **Paralelismo Explícito:** El programador indica explícitamente qué partes del código deben ejecutarse en paralelo, lo que da un control fino sobre la optimización.

**Cuándo Usar OpenMP:**
- En sistemas con arquitecturas de memoria compartida.
- Cuando se requiere un paralelismo de grano fino, donde las tareas pueden ser fácilmente divididas en pequeños fragmentos.
- En proyectos donde se busca una implementación rápida y sencilla de paralelismo sin necesidad de grandes cambios en la estructura del código.

**Ventajas:**
- Sencillez y rapidez en la implementación.
- Facilita la depuración debido a su integración directa con el código secuencial.
- Permite paralelismo dinámico, ajustando el número de hilos en tiempo de ejecución.

**Limitaciones:**
- No es adecuado para sistemas de memoria distribuida.
- La escalabilidad está limitada al número de núcleos disponibles en una sola máquina.


### **MPI (Message Passing Interface)**


**Características Principales:**
- **Enfoque en Memoria Distribuida:** MPI es ideal para sistemas de memoria distribuida, donde cada nodo del sistema tiene su propia memoria local, como en clústeres de computadoras.
- **Flexibilidad y Escalabilidad:** MPI permite que las aplicaciones se escalen a miles de nodos, lo que es esencial en aplicaciones científicas y de ingeniería que requieren un poder de cómputo masivo.
- **Modelo de Programación Basado en Mensajes:** MPI utiliza un modelo de paso de mensajes, donde los procesos se comunican entre sí enviando y recibiendo mensajes. Cada proceso tiene su propio espacio de memoria, lo que reduce los problemas de sincronización.
- **Compatibilidad y Portabilidad:** MPI es compatible con múltiples plataformas y es el estándar de facto en computación paralela en sistemas de memoria distribuida.

**Cuándo Usar MPI:**
- En sistemas con arquitecturas de memoria distribuida, como clústeres de computadoras.
- En aplicaciones que requieren alta escalabilidad y que necesitan ejecutarse en varios nodos de una red.
- Cuando se trabaja con datos que no pueden ser almacenados en la memoria de una sola máquina y deben distribuirse entre varios nodos.

**Ventajas:**
- Alta escalabilidad y flexibilidad.
- Permite aprovechar sistemas heterogéneos, donde cada nodo puede tener diferentes capacidades de hardware.
- Reduce los problemas de sincronización gracias a su modelo de memoria distribuida.

**Limitaciones:**
- Mayor complejidad en la programación y depuración.
- Requiere un diseño cuidadoso del algoritmo para minimizar el overhead de comunicación entre nodos.
- No es tan eficiente en arquitecturas de memoria compartida debido al overhead de comunicación.

## OpenMP

### OpenMP es:

- **Una Interfaz de Programación de Aplicaciones (API):** Que se utiliza para dirigir explícitamente el paralelismo en memoria compartida utilizando múltiples hilos.
- **Compuesta por tres componentes principales:**
  - **Directivas del compilador**
  - **Rutinas de la biblioteca en tiempo de ejecución**
  - **Variables de entorno**
- **Una abreviatura para:**
  - **Versión corta:** Open Multi-Processing
  - **Versión larga:** Especificaciones abiertas para la Multi-Processing mediante el trabajo colaborativo entre partes interesadas de la industria del hardware y software, el gobierno y la academia.

### OpenMP no es:

- **Implementada necesariamente de manera idéntica por todos los proveedores.**
- **Garantizada para hacer el uso más eficiente de la memoria compartida.**
- **Obligada a verificar dependencias de datos, conflictos de datos, condiciones de carrera o interbloqueos.**
- **Obligada a verificar secuencias de código que causen que un programa se clasifique como no conforme.**
- **Diseñada para garantizar que la entrada o salida al mismo archivo sea síncrona cuando se ejecuta en paralelo. El programador es responsable de sincronizar la entrada y salida.**

### Objetivos de OpenMP:

- **Estandarización:**
  - Proporcionar un estándar entre una variedad de arquitecturas/plataformas de memoria compartida.
  - Definido y respaldado conjuntamente por un grupo de grandes proveedores de hardware y software.

- **Eficiencia y Sencillez:**
  - Establecer un conjunto simple y limitado de directivas para programar máquinas de memoria compartida.
  - Se puede implementar un paralelismo significativo utilizando solo 3 o 4 directivas.
  - Este objetivo se está volviendo menos relevante con cada nueva versión.

- **Facilidad de Uso:**
  - Proporcionar la capacidad de paralelizar un programa secuencial de manera incremental, a diferencia de las bibliotecas de paso de mensajes que típicamente requieren un enfoque de todo o nada.
  - Proporcionar la capacidad de implementar paralelismo tanto de grano grueso como de grano fino.

- **Portabilidad:**
  - La API está especificada para C/C++ y Fortran.
  - Foro público para la API y membresía.
  - La mayoría de las principales plataformas han sido implementadas, incluidas plataformas Unix/Linux y Windows.

## Modelo de Programación OpenMP

OpenMP se basa en dos modelos principales: el modelo de memoria y el modelo de ejecución.

#### **Modelo de Memoria Compartida:**
OpenMP está diseñado para máquinas multiprocesador/multinúcleo con memoria compartida. La arquitectura subyacente puede ser de memoria compartida de acceso uniforme (UMA) o de acceso no uniforme (NUMA).

#### **Modelo de Ejecución de OpenMP:**

**Paralelismo Basado en Hilos:**
Los programas de OpenMP logran el paralelismo exclusivamente mediante el uso de hilos. Un hilo de ejecución es la unidad más pequeña de procesamiento que puede ser programada por un sistema operativo. Puedes pensar en un hilo como una subrutina que se puede ejecutar de manera autónoma.

- Los hilos existen dentro de los recursos de un solo proceso. Sin el proceso, los hilos dejan de existir.
- Típicamente, el número de hilos coincide con el número de procesadores/núcleos de la máquina. Sin embargo, el uso real de los hilos depende de la aplicación.

**Paralelismo Explícito:**
OpenMP es un modelo de programación explícito (no automático), lo que ofrece al programador un control total sobre la paralelización.

- La paralelización puede ser tan simple como tomar un programa secuencial e insertar directivas de compilador.
- O tan complejo como insertar subrutinas para establecer múltiples niveles de paralelismo, bloqueos y hasta bloqueos anidados.

**Modelo Fork-Join:**
OpenMP utiliza el modelo de ejecución paralelo fork-join.

- **FORK:** Todos los programas OpenMP comienzan como un solo proceso: el hilo maestro. El hilo maestro ejecuta secuencialmente hasta que se encuentra la primera construcción de región paralela.
- **JOIN:** Cuando los hilos del equipo completan las instrucciones en la construcción de la región paralela, se sincronizan y terminan, dejando solo al hilo maestro.

El número de regiones paralelas y los hilos que las componen son arbitrarios.

**Basado en Directivas de Compilador:**
La mayor parte del paralelismo en OpenMP se especifica mediante el uso de directivas de compilador que se incrustan en el código fuente de C/C++ o Fortran.

**Paralelismo Anidado:**
La API permite colocar regiones paralelas dentro de otras regiones paralelas. Las implementaciones pueden o no admitir esta característica.

**Hilos Dinámicos:**
La API permite que el entorno de ejecución altere dinámicamente el número de hilos utilizados para ejecutar regiones paralelas, con la intención de promover un uso más eficiente de los recursos, si es posible. Las implementaciones pueden o no soportar esta característica.

**Entrada/Salida (I/O):**
OpenMP no especifica nada sobre I/O paralelo. Depende completamente del programador garantizar que la entrada y salida se realicen correctamente en el contexto de un programa multi-hilo.

#### **Interacción entre el Modelo de Ejecución y el Modelo de Memoria:**

- **Single-Program-Multiple-Data (SPMD):** Es el paradigma de programación subyacente: todos los hilos tienen el potencial de ejecutar el mismo código de programa; sin embargo, cada hilo puede acceder y modificar diferentes datos y recorrer diferentes caminos de ejecución.
  
- **Vista de Memoria Relajada:** OpenMP proporciona una vista "relajada" y "temporal" de la memoria de los hilos: los hilos tienen acceso igual a la memoria compartida donde las variables pueden ser recuperadas/almacenadas. Cada hilo también tiene sus propias copias temporales de variables que pueden modificarse independientemente de las variables en la memoria.

- **Consistencia de Datos:** Cuando es crítico que todos los hilos tengan una vista consistente de una variable compartida, el programador (o el compilador) es responsable de asegurar que la variable sea actualizada por todos los hilos según sea necesario, mediante una acción explícita, como `FLUSH`, o implícitamente (a través del reconocimiento del compilador al salir de regiones paralelas).

#### **Programación en OpenMP:**

- Método para iniciar hilos paralelos.
- Método para descubrir cuántos hilos están ejecutándose.
- Necesidad de identificar hilos de manera única.
- Método para unir hilos para ejecución secuencial.
- Método para sincronizar hilos.
- Asegurar una vista consistente de los elementos de datos cuando sea necesario.
- Requiere verificar dependencias de datos, conflictos de datos, condiciones de carrera o interbloqueos.

## Descripción General de la API OpenMP

#### Tres Componentes:
La API de OpenMP se compone de tres componentes distintos. A partir de la versión 4.0:

1. **Directivas del Compilador (44)**
2. **Rutinas de Biblioteca en Tiempo de Ejecución (35)**
3. **Variables de Entorno (13)**

El desarrollador de la aplicación decide cómo emplear estos componentes. En el caso más simple, solo se necesitan algunos de ellos.

#### **Directivas del Compilador:**
Las directivas del compilador aparecen como comentarios en tu código fuente y son ignoradas por los compiladores a menos que se indique lo contrario, generalmente especificando la bandera de compilador adecuada.

Las directivas del compilador de OpenMP se utilizan para varios propósitos:
- Crear una región paralela.
- Dividir bloques de código entre hilos.
- Distribuir las iteraciones de los bucles entre hilos.
- Serializar secciones de código.
- Sincronizar el trabajo entre hilos.

**Sintaxis de las directivas del compilador:**

```c
sentinel       directive-name      [clause, ...]
```

**Ejemplo en C/C++:**
```c
#pragma omp parallel default(shared) private(beta, pi)
```

#### **Rutinas de Biblioteca en Tiempo de Ejecución:**
La API de OpenMP incluye un número cada vez mayor de rutinas de biblioteca en tiempo de ejecución. Estas rutinas se utilizan para diversos propósitos, como:

- Establecer y consultar el número de hilos.
- Consultar el identificador único de un hilo (ID del hilo) y el tamaño del equipo de hilos.
- Establecer y consultar la función de hilos dinámicos.
- Consultar si se está en una región paralela y a qué nivel.
- Establecer y consultar el paralelismo anidado.
- Establecer, inicializar y terminar bloqueos y bloqueos anidados.
- Consultar el tiempo de reloj y la resolución.

**Ejemplo en C/C++:**
```c
#include <omp.h>
int omp_get_num_threads(void)
```

Ten en cuenta que para C/C++, generalmente debes incluir el archivo de encabezado `<omp.h>`.

#### **Variables de Entorno:**
OpenMP proporciona varias variables de entorno para controlar la ejecución del código paralelo en tiempo de ejecución. Estas variables pueden utilizarse para controlar aspectos como:

- Establecer el número de hilos.
- Especificar cómo se dividen las iteraciones de los bucles.
- Asignar hilos a procesadores.
- Habilitar/deshabilitar el paralelismo anidado y establecer los niveles máximos de paralelismo anidado.
- Habilitar/deshabilitar los hilos dinámicos.
- Establecer el tamaño de la pila de hilos.
- Establecer la política de espera de hilos.

**Ejemplo de cómo establecer variables de entorno en `bash`:**
```bash
export OMP_NUM_THREADS=8
```

### **Estructura General del Código OpenMP en C/C++:**

```c
#include <omp.h>

main ()  {

    int var1, var2, var3;

    // Código secuencial
    //      .
    //      .
    //      .

    // Inicio de la sección paralela. Se crea un equipo de hilos.
    // Especificar el alcance de las variables.

    #pragma omp parallel private(var1, var2) shared(var3)
    {
        // Sección paralela ejecutada por todos los hilos.
        //      .
        // Otras directivas de OpenMP.
        //      .
        // Llamadas a la biblioteca en tiempo de ejecución.
        //      .
        // Todos los hilos se unen al hilo maestro y terminan.
    }  

    // Retomar el código secuencial
    //      .
    //      .

}
```

### Uso en Programación C/C++

#### **Modelo de Ejecución Fork-Join en OpenMP**

OpenMP utiliza el modelo de ejecución paralelo **fork-join**. Todos los programas de OpenMP comienzan con un único hilo maestro que se ejecuta secuencialmente hasta que se encuentra con una región paralela, momento en el cual crea un equipo de hilos paralelos (*FORK*). Una vez que los hilos del equipo completan la región paralela, se sincronizan y terminan, dejando únicamente al hilo maestro para continuar la ejecución secuencial (*JOIN*).

### **Ejemplo "Hello World" en OpenMP**

Aquí se tiene un ejemplo básico que muestra cómo paralelizar un programa "Hello World". Primero, la versión secuencial:

```c
#include <stdio.h>
int main() {
    printf("Hello, World from just me!\n");
    return 0;
}
```

Para hacer esto en paralelo (es decir, tener una serie de hilos que impriman un mensaje "Hello World!"), haríamos lo siguiente:

```c
#include <stdio.h>
#include <omp.h>  
int main() {
    int thread_id;
    #pragma omp parallel private(thread_id)
    {
        thread_id = omp_get_thread_num();
        printf("Hello, World from thread %d!\n", thread_id);
    }
    return 0;
}
```

### **Compilación y Ejecución de un Programa OpenMP**

Para compilar y ejecutar el programa `omphello.c` anterior:

```bash
gcc -o omphello omphello.c -fopenmp
export OMP_NUM_THREADS=4
./omphello
```

### **Estructura General del Código OpenMP**

El siguiente fragmento muestra la estructura general de un programa en C/C++ que utiliza OpenMP:

```c
#include <omp.h>
main () {
    int var1, var2, var3;
    // Código secuencial
    . . .

    // Inicio de la sección paralela
    #pragma omp parallel private(var1, var2) shared(var3)
    {
        /* Sección paralela ejecutada por todos los hilos */
        . . .

        /* Todos los hilos se unen al hilo maestro y terminan */
    }
    // Retomar el código secuencial
    . . .

    return 0;
}
```

Al observar este ejemplo, debes notar algunos puntos clave. Primero, es necesario incluir el encabezado de OpenMP (`omp.h`). Segundo, hay variables que se declaran fuera de la región paralela del código. Si estas variables se utilizan dentro de la región paralela, debemos determinar si son variables públicas (compartidas) o privadas.

- **Variable Privada:** Cada hilo tiene su propia copia de esta variable, y los cambios realizados por un hilo no serán visibles para los otros hilos. Una variable definida dentro de la región paralela será privada por defecto.
- **Variable Pública:** Es compartida entre todos los hilos, y cualquier cambio realizado por un hilo será visible para todos. Es importante tener precaución al permitir que varios hilos lean y escriban en la misma variable para evitar condiciones de carrera (*race conditions*).

### **Bucles `for` Paralelos en OpenMP**

OpenMP se puede utilizar para paralelizar fácilmente los bucles `for`. Esto solo es posible cuando las iteraciones del bucle son independientes (es decir, la ejecución de una iteración no depende del resultado de iteraciones anteriores). Aquí tienes un ejemplo de un bucle `for` secuencial:

```c
for( i=0; i < 25; i++ ) {
    printf("Foo");
}
```

La versión paralela de este bucle es:

```c
#pragma omp parallel for
for( i=0; i < 25; i++ ) {
  printf("Foo");
}
```

### **Directivas de OpenMP**

En las secciones anteriores se han dado ejemplos de directivas de OpenMP. El formato general de estas directivas es:

```c
#pragma omp directive-name [clause,..] newline
```

El alcance de una directiva es un bloque de declaraciones rodeadas por `{ }`. Algunas cláusulas comunes incluyen:

- **if (expresión):** solo se ejecuta en paralelo si la expresión se evalúa como verdadera.
- **private(lista):** variables privadas y locales para un hilo.
- **shared(lista):** datos accesibles por todos los hilos.
- **default (none|shared):** establece el comportamiento predeterminado de las variables.
- **reduction (operador: lista):** se utiliza cuando el resultado de una región paralela es un valor único. Por ejemplo, si tenemos una matriz de enteros de la cual queremos calcular la suma, podemos hacerlo en paralelo como sigue:

```c
int sum = 0;
#pragma omp parallel default(none) shared (n, x) \
  private (i) reduction(+ : sum)
{
    for(i = 0; i < n; i++)
        sum = sum + x[i];
}
```

### **Consejos Útiles**

- **Sincronización de hilos en una región paralela usando `barrier`:** A veces, es necesario que todos los hilos esperen en un cierto punto del código antes de continuar. Para lograr esto, se utiliza `#pragma omp barrier`.

- **Secciones `atomic` y `critical`:** Dentro de una región paralela, es posible que desees ejecutar código que solo un hilo deba ejecutar a la vez (por ejemplo, al actualizar una variable compartida). En estos casos, se debe utilizar una sección `atomic` o `critical`. Estas definen bloques de código dentro de una región paralela que serán ejecutados solo por un hilo a la vez.

```c
#pragma omp parallel shared(x)
{
    . . .

    #pragma omp atomic
    {
        x++;
    }
    . . .

    #pragma omp critical
    {
        // código más largo que involucra la variable x
    }
}
```

- **Secciones `master` y `single`:** Dentro de una región paralela, también es posible que tengas un bloque de código que solo debe ejecutarse una vez. Esto se puede hacer con un bloque `single` (`#pragma omp single`), que significa que el siguiente bloque de código solo será ejecutado una vez por el primer hilo que lo alcance, o con un bloque `master` (`#pragma omp master`), que significa que solo será ejecutado por el hilo maestro (ID de hilo 0).

### **Funciones y Variables de Entorno Útiles en OpenMP**

Algunas funciones útiles que podrías querer usar en relación con OpenMP incluyen:

- `omp_get_num_threads()`: Devuelve el número de hilos paralelos.
- `omp_get_thread_num()`: Devuelve el ID único del hilo actual.
- `omp_set_num_threads(n)`: Establece el número de hilos a utilizar en las regiones paralelas en `n`.

No es necesario establecer explícitamente el número de hilos en tu código. El mismo efecto se puede lograr configurando la variable de entorno `OMP_NUM_THREADS`.

