<a href="https://colab.research.google.com/github/ZabalaGaston/HPC/blob/main/Zabala_Gaston_ejercicio_2_GPU.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#1 Introducción

Una matriz traspuesta es el resultado de reordenar la matriz original mediantel cambio de filas por columnas y las columnas por filas en una nueva matriz. [3][2]



<center>(A^t){ij}=A{ji},1 <= m, 1 <= j <= n </center> 

En este cuaderno, dejaré plasmado el algoritmo para trasponer una matriz cuadrada, utilizando GPU.

#2 Armado del ambiente

---
## 2.1 Instala en el cuaderno el módulo CUDA de Python.

In [None]:
!pip install pycuda

---
# 3 Desarrollo
Ejecución del algoritmo para trasponer una matriz GPU.

In [29]:
#@title 3.1 Parámetros de ejecución { vertical-output: true }
#@title 3.1.1 Ingrese el orden { vertical-output: true }

ordenMatriz =   100 #@param {type:"slider", min:0, max:100, step:1}

# --------------------------------------------
%matplotlib inline
from datetime import datetime
import numpy as np
import matplotlib.pyplot as plt
import pycuda.driver as cuda
import pycuda.autoinit
from pycuda.compiler import SourceModule

tiempo_total = datetime.now()

# --------------------------------------------
#Funciones
# Definición de función que transforma el tiempo en  milisegundos 
tiempo_en_ms = lambda dt:(dt.days * 24 * 60 * 60 + dt.seconds) * 1000 + dt.microseconds / 1000.0

# Definición de función para crear matriz

def crearMatriz(orden):
  m = np.random.randint(100, 1000, (ordenMatriz, ordenMatriz))
  return m.astype( np.float32())

# CPU - Defino la función kernel que ejecutará en GPU.

module = SourceModule("""
__global__ void trasponerMatriz( int orden, float *mo, float *mt )
{
  // Calculo las coordenadas del Thread en dos dimensiones.
  int idx = threadIdx.x + blockIdx.x*blockDim.x;
  int idy = threadIdx.y + blockIdx.y*blockDim.y;

  // Verifico que los Thread estén dentro del orden de la matriz.
  if( idx < orden && idy < orden )
  {
    int indexMt =  idy * orden + idx;
    int indexMo =  idx * orden + idy;

    mt[indexMt] = mo[indexMo];
  }
}
""") 

# --------------------------------------------

# Creo las matrices
try:
  matriz_cpu = crearMatriz(ordenMatriz)
  matrizTraspuesta_cpu = crearMatriz(ordenMatriz)

  # Reservo los 2 vectores en GPU
  matriz_gpu = cuda.mem_alloc( matriz_cpu.nbytes )
  matrizTraspuesta_gpu = cuda.mem_alloc( matrizTraspuesta_cpu.nbytes )

  # GPU - Copio la memoria al GPU.
  cuda.memcpy_htod( matriz_gpu, matriz_cpu )
  cuda.memcpy_htod( matrizTraspuesta_gpu, matrizTraspuesta_cpu )

  # CPU - Genero la función kernel.
  kernel = module.get_function("trasponerMatriz")

  dim_hilo_x = 16
  dim_bloque_x = np.int( (ordenMatriz+dim_hilo_x-1) / dim_hilo_x )

  dim_hilo_y = 19
  dim_bloque_y = np.int( (ordenMatriz+dim_hilo_y-1) / dim_hilo_y )

  tiempo_traspuesta = datetime.now()

  kernel( np.int32(ordenMatriz), matriz_gpu, matrizTraspuesta_gpu, block=( dim_hilo_x, dim_hilo_y, 1 ), grid=(dim_bloque_x, dim_bloque_y,1) )

  tiempo_traspuesta = datetime.now() - tiempo_traspuesta

  # GPU - Copio el resultado desde la memoria GPU.
  cuda.memcpy_dtoh( matrizTraspuesta_cpu, matrizTraspuesta_gpu )

  tiempo_total = datetime.now() - tiempo_total

  print("Tiempo Total: ", tiempo_en_ms( tiempo_total ), "[ms]" )
  print("Tiempo Trasponer: ", tiempo_en_ms( tiempo_traspuesta ), "[ms]" )

  print("\n\nMatriz original\n", matriz_cpu)
  print("\nMatriz traspuesta\n",matrizTraspuesta_cpu)

except IndexError:
  print("Error:","La matriz debe tener un orden mayor a 1")
except Exception as e: 
  print(e.args)

Tiempo Total:  3.814 [ms]
Tiempo Trasponer:  0.279 [ms]


Matriz original
 [[568. 682. 736. ... 647. 686. 917.]
 [132. 566. 974. ... 724. 712. 413.]
 [437. 269. 482. ... 275. 788. 689.]
 ...
 [934. 617. 430. ... 185. 793. 463.]
 [582. 876. 514. ... 300. 500. 736.]
 [937. 138. 437. ... 595. 610. 690.]]

Matriz traspuesta
 [[568. 132. 437. ... 934. 582. 937.]
 [682. 566. 269. ... 617. 876. 138.]
 [736. 974. 482. ... 430. 514. 437.]
 ...
 [647. 724. 275. ... 185. 300. 595.]
 [686. 712. 788. ... 793. 500. 610.]
 [917. 413. 689. ... 463. 736. 690.]]


---
# 4 Tabla de pasos


 Procesador | Funciòn | Detalle
------------|---------|----------
CPU      | pip install pycuda    | Instalar en el cuaderno los driver de CUDA para Python.
CPU      |  import                | Importar los módulos para funcionar.
CPU      |  datetime.now()        | Tomar el tiempo actual.
CPU      |  crearMatriz()         | Crear y cargar valores a la matriz original.
CPU      |  crearMatriz()         | Crear matriz traspuesta (matrizTraspuesta).
**GPU**  |  cuda.mem_alloc()      | Reservar la memoria para las matrices en GPU.
**GPU**  |  cuda.memcpy_htod()    | Copiar los valores en crudo de las matrices al GPU.
CPU      |  SourceModule()        | Posee el código del kernel.
CPU      |  module.get_function() | Conviertir el texto del kernel en funcion de Python.
CPU      |  dim_hilo_x, dim_hilo_y| Calcular las dimensiones para la ejecuciòn de 2D.
**GPU**  |  kernel()              | Ejecutar el kernel en GPU, enviando los parametros (Traspone la matriz).
CPU      | datetime.now() - tiempo_traspuesta | Calcular tiempo total en trasponerMatriz. (GPU(
CPU      | cuda.memcpy_dtoh()     | Copiar desde la memoria GPU al CPU.
CPU      |  datetime.now() - tiempo_total | Calcular el tiempo total.
CPU      |  tiempo_en_ms( time ) | Transformar tiempos en milisegundos.
CPU      |  print()               | Mostrar estadísticas.
CPU      |  print()            | Mostrar matriz original y matriz traspuesta.


---
# 5 Conclusiones

Realicé la ejecución 7 veces para una matriz cuadrada de 100 x 100, obteniendo los siguientes resultados:

Tiempo Total:  2.239 [ms] | Tiempo Trasponer:  0.109 [ms]<br>
Tiempo Total:  2.182 [ms] | Tiempo Trasponer:  0.084 [ms]<br>
Tiempo Total:  3.280 [ms]  | Tiempo Trasponer:  0.081 [ms]<br>
Tiempo Total:  2.307 [ms] | Tiempo Trasponer:  0.077 [ms]<br>
Tiempo Total:  2.368 [ms] | Tiempo Trasponer:  0.082 [ms]<br>
Tiempo Total:  2.138 [ms] | Tiempo Trasponer:  0.117 [ms]<br>
Tiempo Total:  1.585 [ms] | Tiempo Trasponer:  0.083 [ms]<br>

Podemos observar, que los tiempos de ejecución promedio [2,299 ms] del programa son muchos **menores** a los obtenidos sin utilizar GPU. [8.649 ms]


----
# 6 Bibliografía

[1] Tutorial Point Colab: [PDF](https://github.com/wvaliente/SOA_HPC/blob/main/Documentos/markdown-cheatsheet-online.pdf)

[2] Matriz traspuesta: [Enlace](https://es.wikipedia.org/wiki/Matriz_transpuesta)

[3] Traspuesta: [Enlace](https://economipedia.com/definiciones/matriz-traspuesta.html#:~:text=Una%20matriz%20traspuesta%20es%20el,filas%20en%20una%20nueva%20matriz)