<a href="https://colab.research.google.com/github/LuArtale/SkyPhotoTips/blob/master/HPC/Artale_Luciano_ejercicio_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Ejercicio 1: Invertir Vector**




## Introduccion:

En este cuaderno se demuestran las diferencias de ejecucion para una funcion que tiene como objetivo la inversion de un vector utilizando primero la ejecucion en CPU con python y luego la ejecucion en GPGPU con python y CUDA.

## Armado del ambiente:

Para poder ejecutar el ejercicio en CPU no se debe ejecutar ningun comando previo, pero para ejecutarlo en GPGPU se debe correr la seccion llamada "Instalacion CUDA para Python". 
Para ambos casos, se debe indicar como parametro la cantidad de elementos del vector a invertir (los mismos son numeros decimales generados de forma aleatoria) y el valor maximo y minimo que pueden tomar esos elementos.

Ademas de esto, para CPU se debe seleccionar el entorno de ejecucion "None" y para GPGPU se debe seleccionar el entorno "GPU".

## **Ejecucion para CPU:**

In [1]:
#@title Parámetros de ejecución CPU { vertical-output: true }
# Parametros
cantidad_elementos = 100#@param {type: "number"}
limite_inferior = -5#@param {type: "number"}
limite_superior = 5#@param {type: "number"}

# --------------------------------------------
# Importacion de bibliotecas
from datetime import datetime
tiempo_total = datetime.now()
import numpy

# --------------------------------------------
# Definición de función que transforma el tiempo en  milisegundos 
tiempo_en_ms = lambda dt:(dt.days * 24 * 60 * 60 + dt.seconds) * 1000 + dt.microseconds / 1000.0

# --------------------------------------------
# Defino la memoria de los vectores en cpu
vector_original_cpu = numpy.random.uniform( limite_inferior, limite_superior, cantidad_elementos )
vector_original_cpu = vector_original_cpu.astype( numpy.float32() )

# El vector resultado (invertido) se define vacio
vector_invertido_cpu = numpy.empty_like( vector_original_cpu )

# --------------------------------------------
# Realizo la inversion de vectores

tiempo_bucle_inversion = datetime.now()

# Solo se recorre hasta la mitad del vector ya que se procesan 2 posiciones a la vez
cantidad_a_recorrer = cantidad_elementos // 2

# Bucle de inversion
for idx in range( 0, cantidad_a_recorrer ):
  vector_invertido_cpu[idx] = vector_original_cpu[cantidad_elementos-idx-1]
  vector_invertido_cpu[cantidad_elementos-idx-1] = vector_original_cpu[idx]

tiempo_bucle_inversion = datetime.now() - tiempo_bucle_inversion

# --------------------------------------------
# Redondeo los elementos de los vectores a dos decimales
vector_original_cpu_rounded = [round(x,2) for x in vector_original_cpu]
vector_invertido_cpu_rounded = [round(x,2) for x in vector_invertido_cpu]

# Informo los resultados
print( "Cantidad de elementos: ", cantidad_elementos )
print( "------------------------------------")

print("Vectores: ")
print( "* Vector Original: " )
print( vector_original_cpu_rounded )
print( "------------------------------------")
print( "* Vector Invertido: " )
print( vector_invertido_cpu_rounded )
print( "------------------------------------")

tiempo_total = datetime.now() - tiempo_total

print("Tiempos de ejecucion en CPU: ")
print("* Tiempo Total: ", tiempo_en_ms( tiempo_total ), "[ms]" )
print("* Tiempo inversion del vector: ", tiempo_en_ms( tiempo_bucle_inversion ), "[ms]" )

Cantidad de elementos:  100
------------------------------------
Vectores: 
* Vector Original: 
[2.58, -2.03, 2.97, 2.88, -4.63, 0.92, -4.48, 2.1, 4.56, -5.0, -4.41, 0.98, -2.72, -2.83, 1.26, -4.33, -2.44, 0.49, 3.71, 0.61, 4.47, 0.84, 0.87, 0.55, 0.64, -2.03, -1.03, 2.66, 2.0, 2.67, -3.61, -1.8, 3.4, -1.42, -4.99, -4.16, 3.23, -2.16, -1.22, -1.57, 0.44, -1.44, -0.05, -4.4, 4.48, -2.01, -0.38, 3.75, 0.45, -1.09, 3.27, 2.22, 4.97, -0.77, -4.87, 1.49, -3.72, -1.25, 1.42, 3.06, -1.6, -2.26, 1.7, 3.84, 2.06, -3.33, 4.68, -1.06, 4.4, 2.57, -4.01, 4.03, -4.25, -3.44, 3.57, -2.23, 1.39, 3.66, -0.63, -4.72, -3.27, -3.05, -3.82, -0.93, -1.1, -0.47, -1.64, -1.72, -0.1, 0.85, -2.73, -2.13, -1.22, -4.72, 4.58, 4.84, 1.96, -2.58, -3.74, 3.37]
------------------------------------
* Vector Invertido: 
[3.37, -3.74, -2.58, 1.96, 4.84, 4.58, -4.72, -1.22, -2.13, -2.73, 0.85, -0.1, -1.72, -1.64, -0.47, -1.1, -0.93, -3.82, -3.05, -3.27, -4.72, -0.63, 3.66, 1.39, -2.23, 3.57, -3.44, -4.25, 4.03, -4.01, 2.

## Tabla de pasos:

Procesador | Funcion | Detalle
---------- | ------- | --------
CPU | @param | Lectura de tamaño y limites de los vectores
CPU | import | Importacion de las bibliotecas a utilizar
CPU | datetime.now() | Se lee el tiempo inicial total
CPU | numpy.random.uniform() | Creacion de los vectores y asignacion de su memoria
CPU | datetime.now() | Se lee el tiempo inicial del bucle
CPU | for | Inversion de un vector copiandose en el otro
CPU | datetime.now() | Se lee el tiempo final del bucle
CPU | round() | Redondeo de los elementos de los vectores
CPU | datetime.now() | Se lee el tiempo final total

## **Ejecucion para GPGPU:**

### Instalacion CUDA para Python

In [1]:
!pip install pycuda

Collecting pycuda
[?25l  Downloading https://files.pythonhosted.org/packages/46/61/47d3235a4c13eec5a5f03594ddb268f4858734e02980afbcd806e6242fa5/pycuda-2020.1.tar.gz (1.6MB)
[K     |████████████████████████████████| 1.6MB 18.3MB/s 
[?25hCollecting pytools>=2011.2
[?25l  Downloading https://files.pythonhosted.org/packages/b7/30/c9362a282ef89106768cba9d884f4b2e4f5dc6881d0c19b478d2a710b82b/pytools-2020.4.3.tar.gz (62kB)
[K     |████████████████████████████████| 71kB 11.3MB/s 
Collecting appdirs>=1.4.0
  Downloading https://files.pythonhosted.org/packages/3b/00/2344469e2084fb287c2e0b57b72910309874c3245463acd6cf5e3db69324/appdirs-1.4.4-py2.py3-none-any.whl
Collecting mako
[?25l  Downloading https://files.pythonhosted.org/packages/a6/37/0e706200d22172eb8fa17d68a7ae22dec7631a0a92266634fb518a88a5b2/Mako-1.1.3-py2.py3-none-any.whl (75kB)
[K     |████████████████████████████████| 81kB 11.8MB/s 
Building wheels for collected packages: pycuda, pytools
  Building wheel for pycuda (setup.py) .

### Ejecucion

In [4]:
#@title Parámetros de ejecución GPGPU { vertical-output: true }
# Parametros
cantidad_elementos = 100#@param {type: "number"}
limite_inferior = -5#@param {type: "number"}
limite_superior = 5#@param {type: "number"}

# --------------------------------------------
# Importacion de bibliotecas
from datetime import datetime
tiempo_total = datetime.now()

import pycuda.driver as cuda
import pycuda.autoinit
from pycuda.compiler import SourceModule

import numpy

# --------------------------------------------
# Definición de función que transforma el tiempo en  milisegundos 
tiempo_en_ms = lambda dt:(dt.days * 24 * 60 * 60 + dt.seconds) * 1000 + dt.microseconds / 1000.0


# --------------------------------------------
# Defino la memoria de los vectores en cpu
vector_original_cpu = numpy.random.uniform( limite_inferior, limite_superior, cantidad_elementos )
vector_original_cpu = vector_original_cpu.astype( numpy.float32() )

# El vector resultado (invertido) se define vacio
vector_invertido_cpu = numpy.empty_like( vector_original_cpu )

# CPU - Reservo la memoria GPU.
vector_original_gpu = cuda.mem_alloc( vector_original_cpu.nbytes )
vector_invertido_gpu = cuda.mem_alloc( vector_invertido_cpu.nbytes )

# GPU - Copio la memoria al GPU.
cuda.memcpy_htod( vector_original_gpu, vector_original_cpu )
cuda.memcpy_htod( vector_invertido_gpu, vector_invertido_cpu )

# CPU - Defino la función kernel que ejecutará en GPU
module = SourceModule("""
__global__ void kernel_invert( int cant_elementos, float *vec_original, float *vec_invertido )
{
  int idx = threadIdx.x + blockIdx.x*blockDim.x;
  int cantidad_a_recorrer = cant_elementos / 2;

  if( idx < cantidad_a_recorrer )
  {
    vec_invertido[idx] = vec_original[cant_elementos-idx-1];
    vec_invertido[cant_elementos-idx-1] = vec_original[idx];
  }
}
""") 
# CPU - Genero la función kernel.
kernel = module.get_function("kernel_invert")

tiempo_gpu = datetime.now()

# GPU - Ejecuta el kernel.
# TODO: Falta consultar limites del GPU, para armar las dimensiones correctamente.
dim_hilo = 256 
dim_bloque = numpy.int( (cantidad_elementos+dim_hilo-1) / dim_hilo )
print( "Thread x: ", dim_hilo, ", Bloque x:", dim_bloque )
print( "Cantidad de elementos: ", cantidad_elementos )
print( "------------------------------------")

# Llamo a ejecutar el kernel con el codigo declarado arriba
kernel( numpy.int32(cantidad_elementos), vector_original_gpu, vector_invertido_gpu, block=( dim_hilo, 1, 1 ),grid=(dim_bloque, 1,1) )

tiempo_gpu = datetime.now() - tiempo_gpu

# GPU - Copio el resultado desde la memoria GPU.
cuda.memcpy_dtoh( vector_invertido_cpu, vector_invertido_gpu )

# Redondeo los vectores para mostrarlos
vector_original_cpu_rounded = [round(x,2) for x in vector_original_cpu]
vector_invertido_cpu_rounded = [round(x,2) for x in vector_invertido_cpu]

# Informo los resultados
print("Vectores: ")
print( "* Vector Original: " )
print( vector_original_cpu_rounded )
print( "------------------------------------")
print( "* Vector Invertido: " )
print( vector_invertido_cpu_rounded )
print( "------------------------------------")

tiempo_total = datetime.now() - tiempo_total

print("Tiempos de ejecucion: ")
print("* Tiempo Total: ", tiempo_en_ms( tiempo_total ), "[ms]" )
print("* Tiempo GPU: ", tiempo_en_ms( tiempo_gpu   ), "[ms]" )

Thread x:  256 , Bloque x: 4
Cantidad de elementos:  1000
------------------------------------
Vectores: 
* Vector Original: 
[-0.98, -4.73, -2.12, -3.59, -2.3, 1.45, 2.69, -2.04, -0.06, 3.61, -1.51, 1.48, 1.41, 4.04, 1.02, 2.82, -0.11, -2.45, 0.66, 0.63, 1.41, -0.71, -3.1, -0.84, -0.6, 3.56, 0.86, 4.4, 0.33, 3.33, 3.54, -0.22, -2.12, -4.13, -2.27, 4.01, -3.5, 2.38, -0.84, -0.26, -1.47, -3.77, -1.62, -3.62, 2.54, 0.5, 2.07, 4.85, -4.16, -4.14, -2.4, 4.02, -1.51, -3.38, 3.19, 2.54, -4.31, 4.85, -4.27, -1.53, 1.49, 3.03, -4.8, 0.37, -0.13, 4.58, 0.68, 2.94, 0.83, 3.96, -2.21, 0.97, 1.09, 4.0, -0.98, 2.92, -0.1, 3.34, -2.42, -4.82, 4.01, 1.2, 1.17, -4.13, 1.99, 2.8, 2.03, 3.04, -3.92, -4.79, 3.32, 1.27, -2.76, -2.42, -0.74, 1.72, -2.19, 3.01, -4.16, -0.34, -2.72, 2.16, 3.81, 3.61, -3.62, 4.56, 4.51, 3.04, -3.04, 0.36, 0.51, 3.62, 2.83, 4.99, 1.29, 4.22, 2.95, 2.92, 5.0, 3.63, -3.02, 1.75, 3.77, -3.04, 3.75, 4.59, 2.45, 2.37, 1.51, 3.68, 3.12, 4.94, 0.04, -2.46, -0.41, 0.41, -4.28, 1.81, -