<h3 align="center">High Performance Computing</h3>
<h3 align="center">Computación de Alto Desempeño</h3>
<h3 align="center">Entrega 3 - Ejercicios usando OMP</h3>
<h3 align="center">Abril - 2025</h3>
<h3 align="center">Universidad de Medellín </h3>
<h5 align="center">Paula S. Meneses Gasca </h5>

***

# Introducción 
En el desarrollo de códigos científico y de alto rendimiento, optimizar el tiempo de ejecución de algoritmos en cálculos es una necesidad se gran importancia para la eficiencia de estos. Según esto, el paralelismo es una estrategia  para aprovechar los recursos que se tienen en dispositivos modernos que cuentan con varios núcleos. 
OpenMP (Open Multi-Processing) es una API que se utiliza para la programación paralela en memoria compartida, esta permite distribuir la carga de trabajo entre varios hilos de ejecución de manera sencilla mediante directivas en el código fuente, en este caso en C.

Los ejercicios que se van a realizar tienen como objetivo implementar y comparar las versiones secuenciales y paralelas de tres operaciones realizadas para el procesamiento numérico: el producto escalar de vectores, la suma de matrices y la multiplicación de matrices. Para paralelizar los ciclos principales de las operaciones, se hizo uso de OpenMP, y se midieron los tiempos de ejecución para calcular el speedup alcanzado en cada caso. Los resultados obtenidos permiten analizar el impacto real del paralelismo en y evaluar su eficiencia en dependiendo de la complejidad computacional y las características del hardware que se utilizó.


# Ejercicio 1

## Producto escalar de 2 vectores 

### Código en secuencial

In [None]:
// Producto escalar secuencial
#include <stdio.h>
#include <stdlib.h>
#include <omp.h>

int main(){
    int N = 1000000; // Tamaño del vector
    double *A = (double*) malloc(N * sizeof(double));
    double *B = (double*) malloc(N * sizeof(double));
    double dot = 0.0;

    //Inicialización: ejemplo, A[i] = 1.0, B[i] = 2.0
    for (int i = 0; i < N; i++){
        A[i] = 1.0;
        B[i] = 2.0;
    }

    double t_ini = omp_get_wtime();
    for (int i = 0; i < N; i++){
        dot += A[i] * B[i];
    }
    double t_fin = omp_get_wtime();

    printf("Producto escalar (secuencial): %f\n", dot);
    printf("Tiempo secuencial: %f segundos\n", t_fin - t_ini);

    free(A);
    free(B);
    return 0;
}

### Código en paralelo

In [None]:
// Producto escalar paralelizado
#include <stdio.h>
#include <stdlib.h>
#include <omp.h>

int main(){
    int N = 1000000; // Tamaño del vector
    double *A = (double*) malloc(N * sizeof(double));
    double *B = (double*) malloc(N * sizeof(double));
    double dot = 0.0;

    //Inicialización: ejemplo, A[i] = 1.0, B[i] = 2.0
    for (int i = 0; i < N; i++){
        A[i] = 1.0;
        B[i] = 2.0;
    }

    double t_ini = omp_get_wtime();
    #pragma omp parallel for reduction(+:dot)
    for (int i = 0; i < N; i++) {
        dot += A[i] * B[i];
    }
    double t_fin = omp_get_wtime();
    printf("Saliendo del bloque paralelo\n");

    printf("Producto escalar (Paralelizado): %f\n", dot);
    printf("Tiempo paralelismo: %f segundos\n", t_fin - t_ini);

    free(A);
    free(B);
    return 0;
}

Explicación de la paralelización 

```c 
    double t_ini = omp_get_wtime();
    #pragma omp parallel for reduction(+:dot)
    for (int i = 0; i < N; i++) {
        dot += A[i] * B[i];
    }
    double t_fin = omp_get_wtime();

```
`    double t_ini = omp_get_wtime(); `

Esta línea guarda el tiempo inicial de ejecución, para poder medir cuánto tardará todo el proceso.


El ciclo for y el paralelismo especifica que cada hilo tendrá su copia de dot y, al final, se sumarán todas esas copias para obtener el valor final. Esto evita problemas de condiciones de carrera (donde varios hilos intentan modificar dot al mismo tiempo).

`    double t_fin = omp_get_wtime(); `

Guarda el tiempo final de ejecución para luego calcular cuánto tardó todo el proceso.


*** 
# Ejercicio 2
## Suma de dos Matrices
Implementar la suma de dos matrices grandes utilizando el paralelismo en bucles de OpenMP. 

### Código en secuencial

In [None]:
#include <stdio.h>
#include <stdlib.h>
#include <omp.h> 

#define M 1000  // Número de filas
#define N 1000  // Número de columnas

int main() {
    // Reservar memoria
    double **A = (double**) malloc(M * sizeof(double*));
    double **B = (double**) malloc(M * sizeof(double*));
    double **C = (double**) malloc(M * sizeof(double*));

    for (int i = 0; i < M; i++) {
        A[i] = (double*) malloc(N * sizeof(double));
        B[i] = (double*) malloc(N * sizeof(double));
        C[i] = (double*) malloc(N * sizeof(double));
    }

    // Inicializar matrices A y B
    for (int i = 0; i < M; i++) {
        for (int j = 0; j < N; j++) {
            A[i][j] = 1.0;
            B[i][j] = 2.0;
        }
    }

    double t_ini = omp_get_wtime();

    // Suma de matrices: C = A + B
    for (int i = 0; i < M; i++) {
        for (int j = 0; j < N; j++) {
            C[i][j] = A[i][j] + B[i][j];
        }
    }

    double t_fin = omp_get_wtime();

    printf("Tiempo secuencial: %f segundos\n", t_fin - t_ini);

    // Liberar memoria
    for (int i = 0; i < M; i++) {
        free(A[i]);
        free(B[i]);
        free(C[i]);
    }
    free(A);
    free(B);
    free(C);

    return 0;
}


### Código en paralelo

In [None]:
#include <stdio.h>
#include <stdlib.h>
#include <omp.h> // Aunque no usamos paralelismo, se usa para medir tiempo

#define M 1000 // Número de filas
#define N 1000 // Número de columnas

int main() {
    // Reservar memoria
    double **A = (double**) malloc(M * sizeof(double*));
    double **B = (double**) malloc(M * sizeof(double*));
    double **C = (double**) malloc(M * sizeof(double*));

    for (int i = 0; i < M; i++) {
        A[i] = (double*) malloc(N * sizeof(double));
        B[i] = (double*) malloc(N * sizeof(double));
        C[i] = (double*) malloc(N * sizeof(double));
    }

    // Inicializar matrices A y B
    for (int i = 0; i < M; i++) {
        for (int j = 0; j < N; j++) {
            A[i][j] = 1.0;
            B[i][j] = 2.0;
        }
    }

    double t_ini = omp_get_wtime();

    // Suma de matrices: C = A + B
    #pragma omp parallel for  // Paralelizar la suma de matrices
    for (int i = 0; i < M; i++) {
        for (int j = 0; j < N; j++) {
            C[i][j] = A[i][j] + B[i][j];
        }
    }

    double t_fin = omp_get_wtime();


    printf("Tiempo paralelismo: %f segundos\n", t_fin - t_ini);

    // Liberar memoria
    for (int i = 0; i < M; i++) {
        free(A[i]);
        free(B[i]);
        free(C[i]);
    }
    free(A);
    free(B);
    free(C);

    return 0;
}


Explicación de la paralelización 

```c 
    #pragma omp parallel for  // Paralelizar la suma de matrices
    for (int i = 0; i < M; i++) {
        for (int j = 0; j < N; j++) {
            C[i][j] = A[i][j] + B[i][j];
        }
    }

    double t_fin = omp_get_wtime();

```

En este punto del código se se recorren las posiciones de las matrices para sumar los elementos de A y B, y y guardar los resultados en C.

El for paralelizado se encarga de trabajar con distintas filas de la matriz al mismo tiempo, lo que hace que la operación total sea más rápida si hay suficientes núcleos disponibles.

`    double t_fin = omp_get_wtime(); `

Guarda el tiempo final de ejecución para luego calcular cuánto tardó todo el proceso.


*** 
# Ejercicio 3
## Multiplicación de dos Matrices
Implementar la multiplicación de dos matrices grandes utilizando el paralelismo en bucles de OpenMP. 

### Código en secuencial

In [None]:
#include <stdio.h>
#include <stdlib.h>
#include <omp.h>

#define M 3  // Filas de A y filas de C
#define N 2  // Columnas de A y filas de B
#define P 3  // Columnas de B y columnas de C

int main() {
    // Reservar memoria
    double **A = (double**) malloc(M * sizeof(double*));
    double **B = (double**) malloc(N * sizeof(double*));
    double **C = (double**) malloc(M * sizeof(double*));

    for (int i = 0; i < M; i++) {
        A[i] = (double*) malloc(N * sizeof(double));
        C[i] = (double*) malloc(P * sizeof(double));
    }
    for (int i = 0; i < P; i++) {
        B[i] = (double*) malloc(P * sizeof(double));
    }

    // Inicializar matrices A y B
    for (int i = 0; i < M; i++)
        for (int j = 0; j < N; j++)
            A[i][j] = 1.0;

    for (int i = 0; i < N; i++)
        for (int j = 0; j < P; j++)
            B[i][j] = 2.0;

    // Inicializar matriz C en cero
    for (int i = 0; i < M; i++)
        for (int j = 0; j < P; j++)
            C[i][j] = 0.0;

    double t_ini = omp_get_wtime();

    // Multiplicación de matrices: C = A x B
    for (int i = 0; i < M; i++) {
        for (int j = 0; j < P; j++) { 
            for (int k = 0; k < N; k++) {
                C[i][j] += A[i][k] * B[k][j];
            }
        }
    }

    double t_fin = omp_get_wtime();

    printf("Tiempo secuencial: %f segundos\n", t_fin - t_ini);

    // Imprimir la matriz resultante C
    printf("Matriz resultante C:\n");
    for (int i = 0; i < M; i++) {
        for (int j = 0; j < P; j++) {
            printf("%f ", C[i][j]);
        }
        printf("\n");
    }

    // Liberar memoria
    for (int i = 0; i < M; i++) {
        free(A[i]);
        free(C[i]);
    }
    for (int i = 0; i < P; i++) {
        free(B[i]);
    }
    free(A);
    free(B);
    free(C);

    return 0;
}


### Código en paralelo

In [None]:
#include <stdio.h>
#include <stdlib.h>
#include <omp.h>

#define M 3  // Filas de A y filas de C
#define N 2  // Columnas de A y filas de B
#define P 3  // Columnas de B y columnas de C

int main() {
    // Reservar memoria
    double **A = (double**) malloc(M * sizeof(double*));
    double **B = (double**) malloc(N * sizeof(double*));
    double **C = (double**) malloc(M * sizeof(double*));

    for (int i = 0; i < M; i++) {
        A[i] = (double*) malloc(N * sizeof(double));
        C[i] = (double*) malloc(P * sizeof(double));
    }
    for (int i = 0; i < P; i++) {
        B[i] = (double*) malloc(P * sizeof(double));
    }

    // Inicializar matrices A y B
    for (int i = 0; i < M; i++)
        for (int j = 0; j < N; j++)
            A[i][j] = 1.0;

    for (int i = 0; i < N; i++)
        for (int j = 0; j < P; j++)
            B[i][j] = 2.0;

    // Inicializar matriz C en cero
    for (int i = 0; i < M; i++)
        for (int j = 0; j < P; j++)
            C[i][j] = 0.0;

    double t_ini = omp_get_wtime();

    // Multiplicación de matrices: C = A x B
    #pragma omp parallel for // Paralelizar 
    for (int i = 0; i < M; i++) {
        for (int j = 0; j < P; j++) { 
            for (int k = 0; k < N; k++) {
                C[i][j] += A[i][k] * B[k][j];
            }
        }
    }

    double t_fin = omp_get_wtime();

    printf("Tiempo paralelo: %f segundos\n", t_fin - t_ini);

    // Imprimir la matriz resultante C
    printf("Matriz resultante C:\n");
    for (int i = 0; i < M; i++) {
        for (int j = 0; j < P; j++) {
            printf("%f ", C[i][j]);
        }
        printf("\n");
    }

    // Liberar memoria
    for (int i = 0; i < M; i++) {
        free(A[i]);
        free(C[i]);
    }
    for (int i = 0; i < P; i++) {
        free(B[i]);
    }
    free(A);
    free(B);
    free(C);

    return 0;
}


Explicación de la paralelización 

```c  
    #pragma omp parallel for // Paralelizar 
    for (int i = 0; i < M; i++) {
        for (int j = 0; j < P; j++) { 
            for (int k = 0; k < N; k++) {
                C[i][j] += A[i][k] * B[k][j];
            }
        }
    }

    double t_fin = omp_get_wtime();

```

En este punto del código se se recorren las posiciones de las matrices para hacer la suma del producto entre la fila i de A y la columna j de B

El for paralelizado se encarga de calcular al mismo tiemp0 ovarias filas de la matriz C, acelerando la operación si hay varios núcleos disponibles.

`    double t_fin = omp_get_wtime(); `

Guarda el tiempo final de ejecución para luego calcular cuánto tardó todo el proceso.




# Speedup

| Operación               | Tiempo(s) secuencial | Tiempo(s) paralelo | Speedup    |
|-------------------------|----------------------|--------------------|------------|
| Producto escalar        | 0.031000             | 0.094000           | 0.3297     |
| Multiplicación matriz   | 14.697000            | 3.554000           | 4.13534    |
| Suma matriz             | 0.006000             | 0.003000           | 2          |  

Los resultados del calculo del speedup muestran que el paralelismo con OpenMP tiene un impacto positivo en operaciones de mayor carga computacional, como la multiplicación de matrices. Por ejemplo con la multiplicación de matrices se realizaron varios calculos donde se asignaban valores pequeños y otros donde eran mayores y se evidencia como el speedup era menor e insignificate cuando los valores no tenían mucha carga en la operación.

Por otra parte, en el caso del producto escalar el tiempo paralelo es mayor que el secuencial,donde se obtuvo un resultando del speedup menor a 1 (0.33), lo que muestra que el paralelismo  no ayudó al rendimiento. Esto se pudo haber dado porque los valores implementados para determinar el tamaño del vector era muy pequeño y no justificaba el uso del paralelismo

# Análisis del paralelismo 

El paralelismo implementado con OpenMP permitió que la carga de trabajo se dividiera entre varios hilos para operaciones de vectores y matrices. en este trabajo esto fue más útil para los bucles que acceden a los elementos de los vectores y matrices, que funcionan bien para enfoques paralelos sin dependencias entre iteraciones. Sin embargo, el efecto del paralelismo no fue el mismo para todas las operaciones y dependió en gran medida de la complejidad y el tamaño de la operación.

Con respecto a la multiplicación de matrices, el paralelismo demostró ser muy efectivo debido al alto número de operaciones realizadas. Esto ofreció una aceleración de más de 4×. Con este ejemplo se  pueden ver los beneficios de OpenMP y lo que puede aportar al rendimiento de la carga de trabajo cuando la complejidad de la computación son altos.

Por otro lado, en operaciones más simples como la suma de matrices y la multiplicación escalar, los beneficios fueron mucho más limitados. Para la suma de matrices, se obtuvo una aceleración de 2, que es aceptable, pero refleja que el costo de paralelizar comienza a acercarse al costo de la operación. Para la multiplicación escalar, el tiempo paralelo fue incluso mayor que el tiempo tomado secuencialmente. 

# Conclusión
Con el uso de OpenMP, es posible ver cómo el paralelismo puede aumentar el rendimiento considerablemente en operaciones de alta carga informática y computacional. Sin embargo, se puede ver que en una tarea barata el paralelismo es irrelevante o incluso perjudicial debido a la sobrecarga que se da, la cantidad de rendimiento obtenida del rendimiento también estuvo condicionada por el hardware.