#1 Introducción

El siguiente cuadernos realiza la busqueda de un número entero para la version secuencial utilizando solo procesador CPU. En la versión que se utiliza paralelismo utilizando la GPU  también se realiza una busqueda de un número flotante.

El objetivo es comparar los tiempos de ejecución de ambas versiones del algoritmo de busqueda.

#2 Armado del ambiente

Instala en el cuaderno el módulo CUDA de Python. Esto debe ejecutarse solamente para la version que utiliza paralelismo usando la GPU


In [None]:
!pip install pycuda

Collecting pycuda
[?25l  Downloading https://files.pythonhosted.org/packages/46/61/47d3235a4c13eec5a5f03594ddb268f4858734e02980afbcd806e6242fa5/pycuda-2020.1.tar.gz (1.6MB)
[K     |████████████████████████████████| 1.6MB 20.6MB/s 
[?25hCollecting pytools>=2011.2
[?25l  Downloading https://files.pythonhosted.org/packages/b7/30/c9362a282ef89106768cba9d884f4b2e4f5dc6881d0c19b478d2a710b82b/pytools-2020.4.3.tar.gz (62kB)
[K     |████████████████████████████████| 71kB 11.6MB/s 
Collecting appdirs>=1.4.0
  Downloading https://files.pythonhosted.org/packages/3b/00/2344469e2084fb287c2e0b57b72910309874c3245463acd6cf5e3db69324/appdirs-1.4.4-py2.py3-none-any.whl
Collecting mako
[?25l  Downloading https://files.pythonhosted.org/packages/a6/37/0e706200d22172eb8fa17d68a7ae22dec7631a0a92266634fb518a88a5b2/Mako-1.1.3-py2.py3-none-any.whl (75kB)
[K     |████████████████████████████████| 81kB 12.6MB/s 
Building wheels for collected packages: pycuda, pytools
  Building wheel for pycuda (setup.py) .

#3 Desarrollo

Ejecuta el Código CPU secuencial

In [None]:
from  datetime import datetime

numeroEncontrado = 0

vectorCpu = [1,2,3,4,5]
print("vector con numeros:")
print(vectorCpu)



print("Ingrese un numero a buscar:")
numeroBuscado = input()


for i in range(0,5):
  if vectorCpu[i] == int(numeroBuscado):
    numeroEncontrado=1

    

if numeroEncontrado == 1:
  print("El numero ha sido encontrado")
else:
    print("El numero no ha sido encontrado")


vector con numeros:
[1, 2, 3, 4, 5]
Ingrese un numero a buscar:
2
El numero ha sido encontrado


Ejecuta el Código CPU - GPU aplicando paralelismo

In [None]:
#@title Parametros { display-mode: "form" }
numeroElementos =  0#@param {type:"number"}
numeroBuscado = 0 #@param {type:"number"}
import pycuda.driver as cuda
import pycuda.autoinit
from   pycuda.compiler import SourceModule

from  datetime import datetime
import numpy



# CPU - Defino la memoria del vector en cpu.
vectorCpu = numpy.random.randn(numeroElementos)
vectorCpu = vectorCpu.astype(numpy.float32())
print("vector con numeros:")
print(vectorCpu)

# CPU - reservo la memoria GPU.
vectorGpu = cuda.mem_alloc(vectorCpu.nbytes)

# GPU - Copio la memoria al GPU.
cuda.memcpy_htod(vectorGpu,vectorCpu)

# CPU - ingreso el numero a buscar
print("Ingrese un numero a buscar:")
numeroBuscado = input()

#CPU - Defino la funcion kernel que ejecutará en GPU
module = SourceModule("""
__global__ void buscarNumero(int n,float numeroBuscado ,float *pvector1)
{
    int idx = threadIdx.x + blockIdx.x*blockDim.x;
    
    

    if(idx<n)
    {
      if(pvector1[idx] == numeroBuscado)
      {
          pvector1[0] = 1;
      }
    }
}

""")

kernel = module.get_function("buscarNumero")

dim_hilo = 256
dim_bloque = numpy.int( (n+dim_hilo-1) / dim_hilo )
print( "Thread x: ", dim_hilo, ", Bloque x:", dim_bloque )

kernel( numpy.int32(n),numpy.float32(numeroBuscado), vectorGpu, block=( dim_hilo, 1, 1 ),grid=(dim_bloque, 1,1) )

cuda.memcpy_dtoh(vectorCpu,vectorGpu)

print("vector con numeros final:")
print(vectorCpu)

if vectorCpu[0]== 1:
  print("El numero ha sido encontrado")
else:
    print("El numero no ha sido encontrado")

#4 Tabla de pasos de ejecución del programa



 Procesador | Funciòn | Detalle
------------|---------|----------
CPU      |  @param                | Lectura del tamaño de vectores desde Colab.
CPU      |  import                | Importa los módulos para funcionar.
CPU      |  datetime.now()        | Toma el tiempo actual.
CPU      |  numpy.random.randn( Cantidad_N ) | Inicializa los vectoes A, B y R.
**GPU**  |  cuda.mem_alloc()      | Reserva la memoria en GPU.
**GPU**  |  cuda.memcpy_htod()    | Copia las memorias desde el CPU al GPU.
CPU      |  SourceModule()        | Define el código del kernel 
CPU      |  module.get_function() | Genera la función del kernel GPU
CPU      |  dim_tx/dim_bx         | Calcula las dimensiones.
**GPU**  |  kernel()              | Ejecuta el kernel en GPU
CPU      |  cuda.memcpy_dtoh( )   | Copia el resultado desde GPU memoria A a CPU memoria R.
CPU      |  print()               | Informo los resultados.



#5 Conclusiones

#6 Bibliografia