# Lösung EA3, Aufgabe 2



#  Parallelisierung von Matrix-Vector Multiplikation mit `openmp`

Wir betrachten das Problem der Multiplikation einer $n \times n$-Matrix $A$ mit einem $n$-elementigen Vektor $b$. Das Ergebnis ist ein  $n$-elementiger Vektor $c$, der wie folgt definiert ist:

$c_i = \sum_{i=1}^n A_{i,j}b_j$ für $i = 1, ... , n$.

Schreiben Sie ein Programm, das eine Matrix und einen Vektor mit zufalligen double-Werten initialisiert und sie miteinander multipliziert. 

In [1]:
#include <cstring>
#include <math.h>
#include <omp.h>
#pragma cling load("libomp.so")

In [2]:
/**Berechnet das Produkt c = Ab, wobei A eine quadratische Matrix der Größe nxn und b ein Vektor der Größe nx1 sind. 
    
    @param A, b Verweise auf die Eingabedaten.
    @param c Verweis auf den Ausgabenvektor.
    @param n die Anzahl Zeilen und Spalten in der Eingabematrix.
    @param nThreads die Anzahl Threads.
    @param anzC die Anzahl Chunks beim Scheduling.
    **/
void MatrixVectorMult(double *A, double *b, double *c, int n){
    double sum;
    /*Matrix-Vector Multiplikation*/
    for(int i = 0; i < n; i++){
        sum = 0;
        for (int j = 0; j < n; j++){
            double prod = A[i * n + j]*b[j];
            sum += prod;
        } 
        c[i] = sum;
    }
}

In [3]:
void init_matrix(double **M, int n, int m, bool zeros){
    double *mat = (double*)calloc(n*m, sizeof(double));
    if(zeros) memset(mat,  0x0, n*m*sizeof(double));
    else {
        for (int i=0; i<n; i++){
            for(int j= 0; j<m; j++){
                mat[i*m+j]= 5.0 - (double)(rand()%20)/10;
            }
        }
    }
    *M = mat;
}

In [4]:
// start_main
int n = 2048;
double *A;
double *b;
double *c = (double *) calloc(n, sizeof(double));
init_matrix(&A, n, n, false);
init_matrix(&b, n, 1, false);
// Warmup - keep it to get ride of some overhead
#pragma omp parallel num_threads(4)
{
if(omp_get_thread_num()==0)
  printf("I have %d threads \n", omp_get_num_threads());
}
 MatrixVectorMult(A, b, c, n);
free(A);
free(b);
free(c);
// end_main

I have 4 threads 


In [5]:
#include <performance.hpp>

In [6]:
performance p("EA3_2.ipynb");