# Relatório Hands-On-1

Fernando Antonio Marques Schettini $^1$, Gabriel Mascarenhas Costa de Sousa$^2$, Jadson Nobre das Virgens$^2$

$^1$ Curso de Engenharia de Computação - Centro universitário SENAI CIMATEC, Salvador, Bahia, Brazil  

$^2$ Curso de Sistemas de Informação - Universidade do Estado da Bahia, Salvador, Bahia, Brazil

# Resumo

<p> Este é o relátorio das atividades realizadas durante a execução na prática Hands-On-1. O relatório foi feito como atividade avaliativa da matéria Fundamentos de Programação Paralela, lecionada no centro universitário SENAI CIMATEC. </p>

<p> A prática Hands-On-1, dividida em 2 seções, tem o objetivo de introduzir conceitos de programação paralela através da aplicação das técnicas de paralelização utilizando a bilbioteca OPENMP em códigos C/C++ para a otimização do tempo de execução. </p>

# Introdução

A primeira sessão apresenta o problema algoritmo de <b> Multiplicação de Matrizes </b>. Dado um código genérico, o mesmo imprime o resultado da multiplicação matricial. A idéia base desta prática é melhorar os tempos de execuções através da API OPENMP dividindo as cargas de trabalho entre as threads em execuções concorrentes no recurso computacional multiprocessador. 

## Profiling

<p> A etapa inicial consiste em fazer a contagem periódica do estado da  aplicação sequencial, a qual denominamos <b>profilling</b>. Utilizaremos uma ferramenta chamada GPROF, e para isso, compilaremos e executaremos com uma flag que mapeará os custos computacionais utilizados.</p>

In [2]:
!gcc mm.c -o mm -fopenmp -pg

clang: [0;1;31merror: [0m[1munsupported option '-fopenmp'[0m
clang: [0;1;31merror: [0m[1mthe clang compiler does not support -pg option on versions of OS X 10.9 and later[0m
clang: [0;1;31merror: [0m[1munsupported option '-fopenmp'[0m


In [1]:
!./mm 1000

/bin/bash: ./mm: No such file or directory


In [5]:
!gprof -b mm gmon.out

Flat profile:

Each sample counts as 0.01 seconds.
  %   cumulative   self              self     total           
 time   seconds   seconds    calls  ms/call  ms/call  name    
 99.73      4.17     4.17                             main
  0.48      4.19     0.02        2    10.08    10.08  initializeMatrix

			Call graph


granularity: each sample hit covers 2 byte(s) for 0.24% of 4.19 seconds

index % time    self  children    called     name
                                                 <spontaneous>
[1]    100.0    4.17    0.02                 main [1]
                0.02    0.00       2/2           initializeMatrix [2]
-----------------------------------------------
                0.02    0.00       2/2           main [1]
[2]      0.5    0.02    0.00       2         initializeMatrix [2]
-----------------------------------------------

Index by function name

   [2] initializeMatrix        [1] main


Como o esperado, os três laços responsáveis pela operação da multiplicação, são a parte do código que possuem o maior custo computacional da aplicação, por isso, aplicaremos à esta região técnicas de paralelização. 

# Resultados e Discussões

## Seção 1 - Multiplicação de matrizes

<p> Começamos o processo de paralelização do código definindo os laços que executam a multiplicação entre as matrizes dentro de uma região paralela, logo depois, mensuramos os tempos de execução desta parte específica a partir das váriaveis t1 e t2 </p>:

In [None]:
t1 = omp_get_wtime(); 
  
#pragma omp parallel for private(i, j, k) 
for(i = 0; i < size; i++)
    for(j = 0; j < size; j++)
        for(k = 0; k < size; k++)
            C[i * size + j] += A[i * size + k] * B[k * size + j];
            
t2 = omp_get_wtime(); 

Dentro dessa região, o código será paralelizado de forma automática, tendo como variáveis privadas i, j, e k e C, A e B compartilhadas. Ao final do processo teremos o seguinte código:

In [None]:
#include <stdio.h>
#include <stdlib.h>
#include <omp.h>

void initializeMatrix(int *matrix, int size) 
{
  for (int i = 0; i < size; i++)
    for (int j = 0; j < size; j++)
      matrix[i * size + j] = rand() % (10 - 1) * 1;
}

void printMatrix(int *matrix, int size) 
{
  for (int i = 0; i < size; i++)
  {
    for (int j = 0; j < size; j++)
      printf("%d\t", matrix[i * size + j]);
    printf("\n");
  }
  printf("\n");
}

int main (int argc, char **argv)
{
  int size = atoi(argv[1]);  
  int i, j, k;
  double t1, t2;

  int  *A = (int *) malloc (sizeof(int)*size*size);
  int  *B = (int *) malloc (sizeof(int)*size*size);
  int  *C = (int *) malloc (sizeof(int)*size*size);
 
  initializeMatrix(A, size);
  initializeMatrix(B, size);

  t1 = omp_get_wtime(); 
  
  #pragma omp parallel for private(i, j, k)  
  for(i = 0; i < size; i++)
    for(j = 0; j < size; j++)
       for(k = 0; k < size; k++)
          C[i * size + j] += A[i * size + k] * B[k * size + j];
 
  t2 = omp_get_wtime();
 
  printf("%d\t%f\n",size,t2-t1);

  return 0;

}

1000	0.000000


<p> Como proposto na prática, para confirmar e homologar a efetividade da paralelização de um código, precisamos comparar o código paralelizado em detrimento ao original denominado sequencial. Para isso, criamos um script para automatizar o processo de execução para múltiplos tamanhos do problema, variando o número de threads. Desta forma, coletando os dados experimentais teremos como resultados: gráficos de desempenho para os tempos de execução e speedup em função do tamanho do problema. Para executar o script basta executar:

In [None]:
!bash START.sh

### Gráfico relacional entre tamanho da matriz e speedup do problema:

![Figure 1](https://user-images.githubusercontent.com/80331486/187289071-c89579df-b985-4dcb-849a-f3150c41aa9a.png)

No primeiro gráfico, podemos observar a relação entre speedup e tamanho das matrizes, em geral, 4 threads se mostra com uma taxa de speedup melhor, ficando para trás em poucos casos.

### Gráfico relacional entre tempo de execução e tamanho das matrizes:

![Figure 2](https://user-images.githubusercontent.com/80331486/187289256-d6a171c4-616f-47fd-b2cf-310f6295e9dd.png)

No segundo gráfico, podemos ver o tempo de execução caindo, conforme o número de threads aumenta, em paralelo, o tempo de execução subindo, conforme o tamanho das matrizes cresce. Segundo a teoria$^{[2]}$, existe um número ideal de threads tal que aumenta esse número representaria um aumento no tempo de execução, no entanto, numa máquina com poucas threads é díficil estimar este número ideal, mas segundo o gráfico, 4 threads é o número com maior eficiêcia.

## Seção 2 - Tarefas Assíncronas.

Executando o código fornecido inicialmente pela prática teremos:

In [None]:
!gcc asyncTaskOpenMP.c -o asyncTaskOpenMP -fopenmp

In [None]:
!./asyncTaskOpenMP 10 2

A saída do resultado expressa a impressão de uma representação matricial de ordem 10 com tamanho de bloco de valor 2, imprime o acrescimento aos valores para as constantes k1 e k2. Observando o funcionamento do código percebemos que  das 5 threads inicializadas somente as duas iniciais realizam trabalho.

In [None]:
#pragma omp parallel private(row, column)
  {
    int id = omp_get_thread_num();

    if(id == 0) 
    {
      for(row = 0; row < n; row++)
        for(column = 0; column < block_size; column++)
          matrix[row][column] *= k1;
    }

    if(id == 1) 
    {
      for(row = 0; row < n; row++)
        for(column = block_size; column < block_size*2; column++)
          matrix[row][column] *= k2;
    }
}

Com isso, a tarefa resume-se a expandir o mesmo trabalho às outras threads. Sendo, constituindo o seguinte código:  

In [None]:
#include <stdio.h>
#include <stdlib.h>
#include <omp.h>
#define SIZE_MATRIX 10

int main(int argc, char **argv)
{
  int n = atoi(argv[1]);
  int block_size = atoi(argv[2]);
  int matrix[n][n], k1 = 10, k2 = 20, k3 = 30, k4 = 40, k5 = 50;
  int i, j, row, column;

  for(i = 0; i < n; i++)
  {
    for(j = 0; j < n; j++)
    {
      matrix[i][j] = 5;
      printf("%d\t", matrix[i][j]);
    }
    printf("\n");
  }

  printf("\n\n");

  omp_set_num_threads(5);

  #pragma omp parallel private(row, column)
  {
    int id = omp_get_thread_num();

    if(id == 0) 
    {
      for(row = 0; row < n; row++)
        for(column = 0; column < block_size; column++)
          matrix[row][column] *= k1;
    }else{
      if(id == 1){
        for(row = 0; row < n; row++)
          for(column = block_size; column < block_size*2; column++)
            matrix[row][column] *= k2;
      }else{
        if(id == 2){ 
          for(row = 0; row < n; row++)
            for(column = block_size*2; column < block_size*3; column++)
              matrix[row][column] *= k3;
        }else{
          if(id == 3){ 
            for(row = 0; row < n; row++)
              for(column = block_size*3; column < block_size*4; column++)
                matrix[row][column] *= k4;
          }else{
            if(id == 4){ 
              for(row = 0; row < n; row++)
                for(column = block_size*4; column < block_size*5; column++)
                  matrix[row][column] *= k5;
            }
          }
        }
      }
    }
  }

  for(i = 0; i < n; i++)
  {
    for(j = 0; j < n; j++)
      printf("%d\t", matrix[i][j]);
    printf("\n");
  }

  return 0;
}

Compilando e executando novamente esse código, obtemos uma representação matricial pelas constantes k1, k2, k3, k4 e k5 de forma concorrente.

# Conclusões

Enfim durante a execução das práticas foram desenvolvidas habilidades relacionadas ao uso da API OPENMP em problemas acadêmicos de otimização de código. Atráves da primeira sessão, observa-se que o tempo de execução decrementa de acordo com o aumento do número de threads utilizadas no processo até atingir um valor ótimo.  Enquanto na segunda sessão experimentamos uma distribuição assíncrona de tarefas de forma concorrente. Portando, a prática HANDS-ON-1 foi fundamentou os estudos de programação paralela a partir do paradigma de memória compartilhada a partir de recursos computacionais multicore.

# Referências

[1] M. Boratto. Hands-On Supercomputing with Parallel Computing. Available: https://github.com/
muriloboratto/Hands-On-Supercomputing-with-Parallel-Computing. 2022.

[2] B. Chapman, G. Jost and R. Pas. Using OpenMP: Portable Shared Memory Parallel Programming. The
MIT Press, 2007, USA.