# 1 Introducción

En el siguiente ejercicio se realiza el intercambio de los elementos de un vector a otro de igual dimensión, cada elemento se reubica en la misma posición en la que se encontraba.

El algoritmo está basado en la función Swap [3] de la biblioteca BLAS [2].
Se busca comparar y analizar la performance del procesamiento de estructuras de una dimensión en GPU y en CPU.

Para su implementación en GPU se desarrolló una función kernel que recibe tres parámetros: La cantidad de elementos de los vectores, el puntero al vector X y el puntero al vector Y. Gracias a ésta, el algoritmo utiliza hilos para realizar los intercambios de una manera más eficiente que si se fuera implementado en CPU.

Para su implementación en CPU no se necesitó más que desarrollar un simple for con el respectivo intercambio de elementos de los vectores. A diferencia de su implementación en GPU, no son necesarias ejecuciones previas del armado del ambiente.

---
# 2 Armado del ambiente
No son necesarias ejecuciones previas del armado del ambiente.

---
# 3 Desarrollo


In [None]:
#@title ## 3.1 Parámetros de ejecución
#@markdown ---
#@markdown ### Especifique la cantidad de elementos de los vectores:
cantidad_N = 10000#@param {type: "number"}
#@markdown ---

#Valida parámetro
if cantidad_N <= 0:
  print('La cantidad de elemtentos debe ser mayor a cero.')
else:
  from datetime import datetime
  import numpy

  #Inicia tiempo total de ejecución
  tiempo_total = datetime.now()

  #Definición de función que transforma el tiempo en  milisegundos 
  tiempo_en_ms = lambda dt:(dt.days * 24 * 60 * 60 + dt.seconds) * 1000 + dt.microseconds / 1000.0

  try:
    #Define la memoria de los vectores en CPU y los setea con números
    #enteros aleatorios entre el 1 y el 9
    x_cpu = numpy.random.randint(1,10, cantidad_N)
    x_cpu = x_cpu.astype(numpy.int64())
    y_cpu = numpy.random.randint(1,10, cantidad_N)
    y_cpu = y_cpu.astype(numpy.int64())
  except:
    print('Error al definir en memoria los vectores de CPU.')

  #Muestra los vectores iniciales X e Y
  print("Vector X inicial:", x_cpu)
  print("Vector Y inicial:", y_cpu)

  #Inicia el tiempo de bucle
  tiempo_bucle = datetime.now()

  #Bucle de intercambio
  for i in range( 0, cantidad_N ):
    aux = x_cpu[i]
    x_cpu[i] = y_cpu[i]
    y_cpu[i] = aux

  #Finaliza el tiempo de bucle
  tiempo_bucle = datetime.now() - tiempo_bucle

  #Calcula tiempo total de ejecución
  tiempo_total = datetime.now() - tiempo_total

  #Muestra los vectores finales X e Y
  print("Vector X final:", x_cpu)
  print("Vector Y final:", y_cpu)

  #Muestra los tiempos de bucle y total de ejecución
  print("Tiempo TOTAL: ", tiempo_en_ms(tiempo_total), "[ms]" )
  print("Tiempo BUCLE: ", tiempo_en_ms(tiempo_bucle), "[ms]" )


---
#4 Tabla de pasos
Tabla de pasos de la ejecución del programa:

Procesador  |Función               |Detalle
------------|----------------------|-----------------------------------------
CPU         |@param                |Lectura del tamaño de vectores desde Colab.
CPU         |if                    |Valida parámetro.
CPU         |import                |Importa los módulos para funcionar.
CPU         |datetime.now()        |Toma el tiempo actual.
CPU         |numpy.random.randint(..)|Inicializa los vectores X e Y con enteros aleatorios entre 1 y 9.
CPU         |astype(..)            |Castea los vectores a int64.
CPU         |print(..)             |Muestra los vectores iniciales X e Y.
CPU         |datetime.now()        |Toma el tiempo actual para calcular el tiempo de bucle.
CPU         |for...                |Realiza el intercambio de elementos de los vectores X e Y.
CPU         |datetime.now()        |Toma el tiempo actual para calcular el tiempo de bucle.
CPU         |datetime.now()        |Toma el tiempo actual para calcular el tiempo total de ejecución.
CPU         |print(..)             |Muestra los vectores finales X e Y.
CPU         |print(..)             |Informa el total de ejecución.
CPU         |print(..)             |Informa el tiempo de bucle.



---
# 5 Conclusiones

Como una conclusión general y empírica se puede observar que los datos, tras cierta cantidad de ejecuciones, arrojan que el procesamiento a partir de la GPU es muchísimo más eficiente. 

Por ejemplo: 

Ejecución de intercambio de vectores (Con 10000 elementos) en CPU: 11.987 [ms].

Ejecución de intercambio de vectores (Con 10000 elementos) en GPU: 0.163 [ms].

Se puede ver claramente la diferencia de tiempos entre cada ejecución al momento de realizar los intercambios.

Se puede apreciar que si el vector es de un solo elemento no tiene sentido procesarlo con GPU. 

Ejecución de intercambio de vectores (Con 1 elemento) en CPU: 0.089 [ms].

Ejecución de intercambio de vectores (Con 1 elemento) en GPU: 0.109 [ms].

Esto se debe a que como el hilo hace el context switch manejando su estructura de control, se pierde más tiempo que trabajar el intercambio de manera secuencial.

---
# 6 Bibliografía

[1] Introducción a Python: [Página Colab](https://github.com/wvaliente/SOA_HPC/blob/main/Documentos/Python_Basico.ipynb) 

[2] Función Swap de biblioteca BLAS: [Referencia](https://software.intel.com/content/www/us/en/develop/documentation/mkl-developer-reference-c/top/blas-and-sparse-blas-routines/blas-routines/blas-level-1-routines-and-functions/cblas-swap.html)

[3] Biblioteca BLAS: [Referencia](http://www.netlib.org/blas/)

[4] Documentación PyCUDA: [WEB](https://documen.tician.de/pycuda/index.html)

[5] Repositorio de PyCUDA: [WEB](https://pypi.python.org/pypi/pycuda)

[6] ¿QUÉ ES LA COMPUTACIÓN ACELERADA POR GPU?: [Página Nvidia](https://www.nvidia.com/es-la/drivers/what-is-gpu-computing/)

[7] Tutorial Point Colab: [PDF](https://github.com/wvaliente/SOA_HPC/blob/main/Documentos/markdown-cheatsheet-online.pdf)