<a href="https://colab.research.google.com/github/ZabalaGaston/HPC/blob/main/Zabala_Gaston_ejercicio_2_GPU.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#1 Introducción

Una matriz traspuesta es el resultado de reordenar la matriz original mediantel cambio de filas por columnas y las columnas por filas en una nueva matriz. [3][2]



<center>(A^t){ij}=A{ji},1 <= m, 1 <= j <= n </center> 

En este cuaderno, dejaré plasmado el algoritmo para trasponer una matriz cuadrada, utilizando GPU.

#2 Armado del ambiente

---
## 2.1 Instala en el cuaderno el módulo CUDA de Python.

In [1]:
!pip install pycuda

Collecting pycuda
[?25l  Downloading https://files.pythonhosted.org/packages/46/61/47d3235a4c13eec5a5f03594ddb268f4858734e02980afbcd806e6242fa5/pycuda-2020.1.tar.gz (1.6MB)
[K     |████████████████████████████████| 1.6MB 8.9MB/s 
[?25hCollecting pytools>=2011.2
[?25l  Downloading https://files.pythonhosted.org/packages/b7/30/c9362a282ef89106768cba9d884f4b2e4f5dc6881d0c19b478d2a710b82b/pytools-2020.4.3.tar.gz (62kB)
[K     |████████████████████████████████| 71kB 10.5MB/s 
Collecting appdirs>=1.4.0
  Downloading https://files.pythonhosted.org/packages/3b/00/2344469e2084fb287c2e0b57b72910309874c3245463acd6cf5e3db69324/appdirs-1.4.4-py2.py3-none-any.whl
Collecting mako
[?25l  Downloading https://files.pythonhosted.org/packages/a6/37/0e706200d22172eb8fa17d68a7ae22dec7631a0a92266634fb518a88a5b2/Mako-1.1.3-py2.py3-none-any.whl (75kB)
[K     |████████████████████████████████| 81kB 10.3MB/s 
Building wheels for collected packages: pycuda, pytools
  Building wheel for pycuda (setup.py) ..

---
# 3 Desarrollo
Ejecución del algoritmo para trasponer una matriz utilizando GPU.

In [14]:
#@title 3.1 Parámetros de ejecución { vertical-output: true }
#@title 3.1.1 Ingrese el orden { vertical-output: true }

ordenMatriz =   10000#@param {type:"integer"}

# --------------------------------------------
%matplotlib inline
from datetime import datetime
import numpy as np
import matplotlib.pyplot as plt
import pycuda.driver as cuda
import pycuda.autoinit
from pycuda.compiler import SourceModule

tiempo_total = datetime.now()

# --------------------------------------------
#Funciones
# Definición de función que transforma el tiempo en  milisegundos 
tiempo_en_ms = lambda dt:(dt.days * 24 * 60 * 60 + dt.seconds) * 1000 + dt.microseconds / 1000.0

# Definición de función para crear matriz

def crearMatriz(orden):
  m = np.random.randint(100, 1000, (ordenMatriz, ordenMatriz))
  return m.astype( np.float32())

# CPU - Defino la función kernel que ejecutará en GPU.

module = SourceModule("""
__global__ void trasponerMatriz( int orden, float *mo, float *mt )
{
  // Calculo las coordenadas del Thread en dos dimensiones.
  int idx = threadIdx.x + blockIdx.x*blockDim.x;
  int idy = threadIdx.y + blockIdx.y*blockDim.y;

  // Verifico que los Thread estén dentro del orden de la matriz.
  if( idx < orden && idy < orden )
  {
    int indexMt =  idy * orden + idx;
    int indexMo =  idx * orden + idy;

    mt[indexMt] = mo[indexMo];
  }
}
""") 

# --------------------------------------------

# Creo las matrices
try:

  if ordenMatriz <= 0:
    raise ValueError("Error: el orden de la matriz debe ser mayor a 0");
  
  matriz_cpu = crearMatriz(ordenMatriz)
  matrizTraspuesta_cpu = crearMatriz(ordenMatriz)

  # Reservo los 2 vectores en GPU
  matriz_gpu = cuda.mem_alloc( matriz_cpu.nbytes )
  matrizTraspuesta_gpu = cuda.mem_alloc( matrizTraspuesta_cpu.nbytes )

  # GPU - Copio la memoria al GPU.
  cuda.memcpy_htod( matriz_gpu, matriz_cpu )
  cuda.memcpy_htod( matrizTraspuesta_gpu, matrizTraspuesta_cpu )

  # CPU - Genero la función kernel.
  kernel = module.get_function("trasponerMatriz")

  dim_hilo_x = 16
  dim_bloque_x = np.int( (ordenMatriz+dim_hilo_x-1) / dim_hilo_x )

  dim_hilo_y = 19
  dim_bloque_y = np.int( (ordenMatriz+dim_hilo_y-1) / dim_hilo_y )

  tiempo_traspuesta = datetime.now()

  kernel( np.int32(ordenMatriz), matriz_gpu, matrizTraspuesta_gpu, block=( dim_hilo_x, dim_hilo_y, 1 ), grid=(dim_bloque_x, dim_bloque_y,1) )

  tiempo_traspuesta = datetime.now() - tiempo_traspuesta

  # GPU - Copio el resultado desde la memoria GPU.
  cuda.memcpy_dtoh( matrizTraspuesta_cpu, matrizTraspuesta_gpu )

  tiempo_total = datetime.now() - tiempo_total

  print("Tiempo Total: ", tiempo_en_ms( tiempo_total ), "[ms]" )
  print("Tiempo Trasponer: ", tiempo_en_ms( tiempo_traspuesta ), "[ms]" )

  print("\n\nMatriz original\n", matriz_cpu)
  print("\nMatriz traspuesta\n",matrizTraspuesta_cpu)

except ValueError as vr:
  print(vr)
except Exception as e: 
  print(e.args)

Tiempo Total:  1904.423 [ms]
Tiempo Trasponer:  0.11 [ms]


Matriz original
 [[581. 883. 859. ... 883. 788. 982.]
 [638. 140. 184. ... 991. 957. 208.]
 [285. 720. 974. ... 233. 495. 250.]
 ...
 [427. 916. 434. ... 920. 543. 632.]
 [862. 827. 493. ... 951. 214. 134.]
 [628. 402. 230. ... 700. 895. 184.]]

Matriz traspuesta
 [[581. 638. 285. ... 427. 862. 628.]
 [883. 140. 720. ... 916. 827. 402.]
 [859. 184. 974. ... 434. 493. 230.]
 ...
 [883. 991. 233. ... 920. 951. 700.]
 [788. 957. 495. ... 543. 214. 895.]
 [982. 208. 250. ... 632. 134. 184.]]


---
# 4 Tabla de pasos


 Procesador | Funciòn | Detalle
------------|---------|----------
CPU      | pip install pycuda    | Instalar en el cuaderno los driver de CUDA para Python.
CPU      |  import                | Importar los módulos para funcionar.
CPU      |  datetime.now()        | Tomar el tiempo actual.
CPU      |  crearMatriz()         | Crear y cargar valores a la matriz original.
CPU      |  crearMatriz()         | Crear matriz traspuesta (matrizTraspuesta).
**GPU**  |  cuda.mem_alloc()      | Reservar la memoria para las matrices en GPU.
**GPU**  |  cuda.memcpy_htod()    | Copiar los valores en crudo de las matrices al GPU.
CPU      |  SourceModule()        | Posee el código del kernel.
CPU      |  module.get_function() | Conviertir el texto del kernel en funcion de Python.
CPU      |  dim_hilo_x, dim_hilo_y| Calcular las dimensiones para la ejecuciòn de 2D.
**GPU**  |  kernel()              | Ejecutar el kernel en GPU, enviando los parametros (Traspone la matriz).
CPU      | datetime.now() - tiempo_traspuesta | Calcular tiempo total en trasponerMatriz. (GPU(
CPU      | cuda.memcpy_dtoh()     | Copiar desde la memoria GPU al CPU.
CPU      |  datetime.now() - tiempo_total | Calcular el tiempo total.
CPU      |  tiempo_en_ms( time ) | Transformar tiempos en milisegundos.
CPU      |  print()               | Mostrar estadísticas.
CPU      |  print()            | Mostrar matriz original y matriz traspuesta.


---
# 5 Conclusiones

Realicé la ejecución 10 veces para una matriz cuadrada de 10000 x 10000, obteniendo los siguientes resultados:

Tiempo Total:  1998.161 [ms] | Tiempo Trasponer:  0.174 [ms]<br>
Tiempo Total:  1911.462 [ms] | Tiempo Trasponer:  0.120 [ms]<br>
Tiempo Total:  1867.214 [ms] | Tiempo Trasponer:  0.112 [ms]<br>
Tiempo Total:  1897.369 [ms] | Tiempo Trasponer:  0.124 [ms]<br>
Tiempo Total:  1925.017 [ms] | Tiempo Trasponer:  0.119 [ms]<br>
Tiempo Total:  1944.206 [ms] | Tiempo Trasponer:  0.128 [ms]<br>
Tiempo Total:  1899.049 [ms] | Tiempo Trasponer:  0.126 [ms]<br>
Tiempo Total:  1924.625 [ms] | Tiempo Trasponer:  0.123 [ms]<br>
Tiempo Total:  1939.246 [ms] | Tiempo Trasponer:  0.130 [ms]<br>
Tiempo Total:  1904.423 [ms] | Tiempo Trasponer:  0.110 [ms]<br>


Podemos observar, que los tiempos de ejecución promedio [1920.8 ms] del programa son muchos **menores** a los obtenidos sin utilizar GPU. [56187.5 ms] , esto se debe a que al usar GPU la matriz se va recorriendo simultáneamente en varios threads.

El punto más relevante en este ejercicio es la utilización de la función Kernel, la cuál nos permite ejecutar el algoritmo en dos dimensiones utilizando hilos.

En cuanto a lecciones aprendidas, comprendí el funcionamiento de hilos y la utilización del módulo CUDA.
Como mejora, se podrían agregar gráficos ilustrativos de las métricas obtenidas.


----
# 6 Bibliografía

[1] Tutorial Point Colab: [PDF](https://github.com/wvaliente/SOA_HPC/blob/main/Documentos/markdown-cheatsheet-online.pdf)

[2] Matriz traspuesta: [Enlace](https://es.wikipedia.org/wiki/Matriz_transpuesta)

[3] Traspuesta: [Enlace](https://economipedia.com/definiciones/matriz-traspuesta.html#:~:text=Una%20matriz%20traspuesta%20es%20el,filas%20en%20una%20nueva%20matriz)