<a href="https://colab.research.google.com/github/StankoDiego/SOA_EA_2/blob/main/HPC/Stanko_Diego_ejercicio2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#1. Introducción

Se va a implementar un algoritmo para resolver la suma de matrices de dimension N*N. 

Se implementaran dos algoritmos, uno ejecuta y resuelve el calculo de manera secuencial sobre el mismo porcesador y el segundo implementa la suma de los terminos de la matriz de forma paralela utilizando GPU.


#1.1 Explicación del algoritmo

 La suma de matrices[1] es una operación lineal que consiste en unificar los elementos de dos o más matrices que coincidan en posición dentro de sus respectivas matrices y que estas tengan el mismo orden.

En otras palabras, el sumatorio de una o más matrices es la unión de los elementos que tengan la misma posición dentro de las matrices y que estas tengan el mismo orden.

![](https://drive.google.com/uc?export=view&id=16M9RJRRsQELQqiC15qRqNC_bdQBfMc1_)

Para sumar dos matrices se debe verificar que el orden de estas sean iguales.

#2. Armado del ambiente

##2.1 Armado del ambiente en CPU

No se requiere la ejecucion previa de algun comando

##2.1 Armado del ambiente en GPU

1. Ir a Entornto de ejecucion -> Cambiar tipo de entorno de ejecucion y seleccionar la opcion GPU.
2. Se requiere la instalación del modulo de Cuda para Python.

In [None]:
!pip install pycuda

#3. Desarrollo

##3.1 Desarrollo en CPU

In [None]:
# --------------------------------------------
#@title 3.1 Parámetros de ejecución { vertical-output: true }
tamMatriz =  15#@param {type: "number"}
# --------------------------------------------

import numpy
import time

tiempoTotal = time.time() * 1000
matriz_A = numpy.random.randint(5000, size=(tamMatriz, tamMatriz))
matriz_A = matriz_A.astype(numpy.int32())

matriz_B = numpy.random.randint(5000, size=(tamMatriz, tamMatriz))
matriz_B = matriz_B.astype(numpy.int32())

print("---------------------------------------------------")
print("Matriz A:\n",matriz_A)
print("---------------------------------------------------")
print("Matriz B:\n",matriz_B)
print("---------------------------------------------------")

tiempoBucle = time.time() * 1000
matriz_R = numpy.zeros((tamMatriz, tamMatriz))  
matriz_R = matriz_R.astype(numpy.int32())

for i in range (0, tamMatriz):
  for j in range(0, tamMatriz):
    matriz_R[i][j] = matriz_A[i][j] + matriz_B[i][j]

print("Matriz R:\n",matriz_R)
print("---------------------------------------------------")

tiempoTotal = (time.time() * 1000) - tiempoTotal
tiempoBucle = (time.time() * 1000) - tiempoBucle
print("--------------------------------------------------")
print("Tiempo del bucle: " , tiempoBucle , "[ms.]")
print("Tiempo del total: " , tiempoTotal , "[ms.]")

##3.2 Desarrollo en GPU

In [None]:
# --------------------------------------------
#@title 3.1 Parámetros de ejecución { vertical-output: true }
tamMatriz =  15#@param {type: "number"}
# --------------------------------------------

import time

import numpy
import pycuda.driver as cuda
import pycuda.autoinit
from pycuda.compiler import SourceModule

tiempoTotal = (time.time()*1000)

matriz_A_cpu = numpy.random.randint(5000, size=(tamMatriz, tamMatriz))
matriz_A_cpu = matriz_A_cpu.astype(numpy.int32())

matriz_B_cpu = numpy.random.randint(5000, size=(tamMatriz, tamMatriz))
matriz_B_cpu = matriz_B_cpu.astype(numpy.int32())

matriz_R_cpu = numpy.zeros((tamMatriz, tamMatriz)) 
matriz_R_cpu = matriz_R_cpu.astype(numpy.int32()) 

matriz_A_gpu = cuda.mem_alloc(matriz_A_cpu.nbytes)
matriz_B_gpu = cuda.mem_alloc(matriz_B_cpu.nbytes)
matriz_R_gpu = cuda.mem_alloc(matriz_R_cpu.nbytes)

cuda.memcpy_htod(matriz_A_gpu, matriz_A_cpu)
cuda.memcpy_htod(matriz_B_gpu, matriz_B_cpu)
cuda.memcpy_htod(matriz_R_gpu, matriz_R_cpu)

print("---------------------------------------------------")
print("Matriz A:\n",matriz_A_cpu)
print("---------------------------------------------------")
print("Matriz B:\n",matriz_B_cpu)
print("---------------------------------------------------")

module = SourceModule("""
__global__ void matrixMultiplicationKernel(float* A, float* B, float* R,
                                           int N
                                           ) {

    int x = blockIdx.y*blockDim.y+threadIdx.y;
    int y = blockIdx.x*blockDim.x+threadIdx.x;

    if(y < N){
      R[x+ y*N] = A[x+ y*N]  +  B[x+ y*N];
    }
}
""")
kernel = module.get_function("matrixMultiplicationKernel")

dim_hilo_x = 16
dim_bloque_x = numpy.int( (tamMatriz + dim_hilo_x-1) / dim_hilo_x )

dim_hilo_y = 16
dim_bloque_y = numpy.int( (tamMatriz + dim_hilo_y-1) / dim_hilo_y )

print( "Thread: [", dim_hilo_x, ",", dim_hilo_y, " ], Bloque : [", dim_bloque_x, ",", dim_bloque_y, "]" )
print( "Total de Thread: [", dim_hilo_x*dim_bloque_x, ",", dim_hilo_y*dim_bloque_y, " ]", " = ", dim_hilo_x*dim_bloque_x*dim_hilo_y*dim_bloque_y )

tiempo_kernel = time.time() * 1000

kernel(matriz_A_gpu, matriz_B_gpu, matriz_R_gpu,
       numpy.int32(tamMatriz),        
       block=( dim_hilo_x, dim_hilo_y, 1), 
       grid=(dim_bloque_x, dim_bloque_y,1)
       )

tiempo_kernel = (time.time() *1000) - tiempo_mult

cuda.memcpy_dtoh(matriz_R_cpu, matriz_R_gpu)
tiempoTotal = (time.time() * 1000) - tiempoTotal
print("---------------------------------------------------")
print("Matriz resultado:\n",matriz_R_cpu)
print("---------------------------------------------------")
print("Tiempo TOTAL: ", tiempoTotal, "[ms]" )
print("Tiempo GPU  : ", tiempo_kernel, "[ms]" )

#4. Tabla de pasos

##4.1 Tabla de pasos CPU

Tabla de ejecucion de forma secuencial
>Procesador | Funcion | Detalle
>--- | --- | ----
>CPU	|@param              |Lectura del tamaño de matriz.
>CPU	|import              |Se importa los diferentes modulos a utilizar.
>CPU	|tiempoTotal         |Se obtiene el tiempo actual para futuras mediciones.
>CPU	|numpy.random.randint|Inicializacion de matrices.
>CPU	|tiempoBucle	       |Se toma el tiempo inicial del algoritmo presentado.
>CPU	|for…	for            |Se realiza el algoritmo.
>CPU	|tiempoBucle	       |Toma el tiempo final del algoritmo presentado.
>CPU	|tiempoTotal	       |Toma el tiempo final de la ejecucion.
>CPU	|print()	           |Se informan los datos.

##4.1 Tabla de pasos GPU

Tabla de ejecucion en multiples hilos de ejecucion
>Procesador | Funcion | Detalle
>--- | --- | ----
>CPU	|@param              |Lectura del tamaño de matriz.
>CPU	|import              |Se importa los diferentes modulos a utilizar.
>CPU	|tiempoTotal         |Se obtiene el tiempo actual para futuras mediciones.
>CPU	|numpy.random.randint|Inicializacion de matrices.
>CPU	|numpy.zeros         |Inicializacion de matriz de resultado.
>**GPU**  |cuda.mem_alloc        |Reserva de memoria de GPU.
>**GPU**  |cuda.memcpy_htod      |Copia de memoria de CPU a GPU.
>CPU	|SourceModule        |Definición de código del kernel.
>CPU	|module.get_function        |Generación de función del Kernel de GPU.
>CPU	|dim_hilo_x, dim_hilo_y	    | Calcula las dimensiones para la ejecuciòn de 2D.
>CPU	|tiempo_kernel	       |Toma el tiempo inicial del algoritmo presentado.
>**GPU**	|kernel()            |Ejecución del kernel
>CPU	|tiempo_kernel	       |Toma el tiempo final del algoritmo presentado.
>CPU	|tiempoTotal	       |Toma el tiempo final de la ejecucion.
>CPU	|print()	           |Se informan los datos.

#5. Conclusiones

#6. Bibliografía

Suma de matrices [matrices](https://economipedia.com/definiciones/suma-de-matrices.html)