<a href="https://colab.research.google.com/github/jdeiros/soa-2020/blob/master/HPC/Deiros_Jeronimo_ejercicio_1_gpu.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#1. Introducción
gpu----------

Por lo general, las computadoras se utilizan para compilar y analizar los resultados de encuestas y estudios de opinión.

El siguiente cuaderno calcula la **moda** de los **N** valores de los elementos de un vector (vector_resultados), lo hace en forma secuencial y utilizando el procesador CPU. Cada elemento del vector se inicializa con resultados aleatorios de puntajes (numeros enteros entre 0 y 9).

El algoritmo se basa en un ejemplo práctico del libro "C/C++ Cómo Programar"[3] 

Su objetivo es aprender a utilizar Python[2] en la plataforma Colab [1] y la programación secuencial.

#2. Armado de ambiente

Instalación de modulo CUDA  de Python.

In [2]:
!pip install pycuda

Collecting pycuda
[?25l  Downloading https://files.pythonhosted.org/packages/46/61/47d3235a4c13eec5a5f03594ddb268f4858734e02980afbcd806e6242fa5/pycuda-2020.1.tar.gz (1.6MB)
[K     |████████████████████████████████| 1.6MB 14.9MB/s 
[?25hCollecting pytools>=2011.2
[?25l  Downloading https://files.pythonhosted.org/packages/b7/30/c9362a282ef89106768cba9d884f4b2e4f5dc6881d0c19b478d2a710b82b/pytools-2020.4.3.tar.gz (62kB)
[K     |████████████████████████████████| 71kB 11.2MB/s 
Collecting appdirs>=1.4.0
  Downloading https://files.pythonhosted.org/packages/3b/00/2344469e2084fb287c2e0b57b72910309874c3245463acd6cf5e3db69324/appdirs-1.4.4-py2.py3-none-any.whl
Collecting mako
[?25l  Downloading https://files.pythonhosted.org/packages/a6/37/0e706200d22172eb8fa17d68a7ae22dec7631a0a92266634fb518a88a5b2/Mako-1.1.3-py2.py3-none-any.whl (75kB)
[K     |████████████████████████████████| 81kB 11.8MB/s 
Building wheels for collected packages: pycuda, pytools
  Building wheel for pycuda (setup.py) .

#3. Desarrollo


In [122]:
# --------------------------------------------
#@title 3.1 Parámetros de ejecución { vertical-output: true }

cantidad_elementos =   300#@param {type: "number"}
# --------------------------------------------

import pycuda.driver as cuda
import pycuda.autoinit
import numpy as np
from datetime import datetime
from pycuda.compiler import SourceModule

tiempo_total = datetime.now()

# Definición de función que transforma el tiempo en  milisegundos 
tiempo_en_ms = lambda dt:(dt.days * 24 * 60 * 60 + dt.seconds) \
              * 1000 + dt.microseconds / 1000.0
try:
    # CPU: Inicializo el vector resultados con puntajes (de 0 a 9) aleatorios
    # con cantidad de elementos ingresada.
    vector_resultados_cpu = np.random.randint(0, 10, size = cantidad_elementos)
    vector_resultados_cpu = np.asarray(vector_resultados_cpu, dtype = np.int32)    

    # Inicializo en cero el vector frecuencia (puntajes de 0 a 9)
    vector_frecuencias_cpu = [0 for i in range(10)]
    vector_frecuencias_cpu = np.asarray(vector_frecuencias_cpu, dtype = np.int32)

    print("-------------------------------------------------")
    print("vector respuestas cpu:")
    print(vector_resultados_cpu)

    # CPU - reservo la memoria GPU.
    vector_resultados_gpu = cuda.mem_alloc(vector_resultados_cpu.nbytes)
    vector_frecuencias_gpu = cuda.mem_alloc(vector_frecuencias_cpu.nbytes)

    # GPU - Copio la memoria al GPU.
    cuda.memcpy_htod(vector_resultados_gpu, vector_resultados_cpu)
    cuda.memcpy_htod(vector_frecuencias_gpu, vector_frecuencias_cpu)

    # CPU - Defino la función kernel que ejecutará en GPU.
    module = SourceModule("""
    __global__ void kernel_moda(int n, int *frecuencias , int *resultados)
    {
        int idx = threadIdx.x + blockIdx.x * blockDim.x;
        
        if(idx < n)
        {
            ++frecuencias[resultados[idx]];
        }
        
    }
    """)

    # CPU - Genero la función kernel.
    kernel = module.get_function("kernel_moda")
    
    tiempo_gpu = datetime.now()
    
    dim_hilo = 256
    dim_bloque = np.int( (cantidad_elementos + dim_hilo - 1) / dim_hilo )
    print( "Thread x: ", dim_hilo, ", Bloque x:", dim_bloque )
    
    # GPU - Ejecuta el kernel.
    kernel( np.int32(cantidad_elementos), \
            vector_frecuencias_gpu, \
            vector_resultados_gpu, \
            block=( dim_hilo, 1, 1 ), grid=(dim_bloque, 1,1) )

    tiempo_gpu = datetime.now() - tiempo_gpu

    # GPU - Copio el resultado desde la memoria GPU.
    cuda.memcpy_dtoh( vector_frecuencias_cpu, vector_frecuencias_gpu )

    
    # CPU - Informo el resultado.
    print("-------------------------------------------------")
    print("vector frecuencias: ")
    print(vector_frecuencias_cpu)
        
    mas_grande = 0
    valor_moda = 0

    # obtengo la moda del vector_frecuencias_cpu
    for rango in range(0, len(vector_frecuencias_cpu)):
        if(vector_frecuencias_cpu[rango] > mas_grande):
            mas_grande = vector_frecuencias_cpu[rango]
            valor_moda = rango
    
    print("-------------------------------------------------")
    print(f"Para esta ejecución la moda es: {valor_moda}, ")
    print(f"cual ocurrió {mas_grande} veces.")

    tiempo_total = datetime.now() - tiempo_total
    print("-------------------------------------------------")
    print("Tiempo Total: ", tiempo_en_ms(tiempo_total),"[ms]")
    print("Tiempo gpu: ", tiempo_en_ms(tiempo_gpu), "[ms]" )

except Exception as e:
  print(f"error: {e}")



-------------------------------------------------
vector respuestas cpu:
[9 3 8 5 8 0 5 2 5 0 7 9 2 0 9 3 8 5 1 7 7 1 3 0 5 3 4 1 6 2 6 3 0 0 4 9 8
 6 0 3 5 7 4 5 8 1 3 8 2 3 9 9 7 5 6 2 7 4 2 5 0 6 3 2 5 3 6 7 8 5 6 3 2 7
 0 2 7 4 7 3 3 6 7 1 5 2 7 1 2 5 1 5 5 3 7 8 7 9 2 3 5 9 4 7 5 4 7 5 3 8 9
 1 2 9 2 2 0 1 7 0 2 6 6 4 8 8 3 8 3 8 0 5 4 3 3 3 5 8 6 1 1 0 1 3 0 0 1 4
 8 4 6 7 6 8 3 1 1 1 1 0 2 8 9 1 2 5 9 7 7 3 9 0 6 0 1 5 6 1 6 6 7 9 1 4 4
 2 3 5 9 4 3 8 7 9 7 3 1 7 6 7 3 2 2 3 6 9 0 7 6 5 6 7 9 4 0 3 0 5 1 3 3 8
 6 0 7 8 6 4 4 0 7 8 2 7 2 3 7 6 6 4 7 1 6 7 1 9 6 0 9 5 1 8 8 4 0 2 5 1 1
 0 6 3 4 2 4 1 1 5 5 6 1 5 2 7 9 5 0 1 6 2 6 5 8 4 5 3 4 0 9 0 6 3 3 8 9 9
 0 1 2 8]
Thread x:  256 , Bloque x: 2
-------------------------------------------------
vector frecuencias: 
[1 1 1 1 1 1 1 1 1 1]
-------------------------------------------------
Para esta ejecución la moda es: 0, 
cual ocurrió 1 veces.
-------------------------------------------------
Tiempo Total:  293.422 [ms]
Tiempo gp

#4. Tabla de pasos

Paso | Procesador | Funcion | Detalle
------------ | ------------ | ------------- | -------------
1 | CPU | @param | Lectura del tamaño de vector de Colab.
2 | CPU | import | Importa los módulos para funcionar.
3 | CPU | datetime.now() | Toma el tiempo actual.
4 | CPU | np.random.randint(0, 10, size = cantidad_elementos) | Inicializa el vector _vector_resultados_ con puntajes (de 0 a 9) aleatorios en cada elemento, en una cantidad de elementos ingresada en el paso 1.
5 | CPU | [0 for i in range(10)] | inicializo el vector frecuencia a 0, este vector representará en cada posición el valor del puntaje (entre 0 y 9) y su contenido representará la cantidad de apariciónes en el vector resultados. Por esta razon es necesario inicializarlo a cero, para luego sumar las frecuencias.
6 | CPU | print | muestro los valores del vector_resultados
7 | CPU | bucle for | contabilizo las frecuencias de puntajes en el vector_resultados.
8 | CPU | print | imprimo los resultados del vector frecuencia
9 | CPU | bucle for | obtengo el valor de la moda y la cantidad de repeticiones.
10 | CPU | print | muestro los resultados
11 | CPU | print | informo tiempos de ejecución.

#5. Conclusiones

TODO: Preparar y correr cuaderno en gpu y realizar comparación.....

#6. Bibliografía

[1] MARKDOWN SYNTAX Colab: PDF

[2] Introducción a Python: Página Colab

[3] Como Programar en C C++ y Java 4ta Edición Harvey M. Deitel & Paul J. Deitel 

[4] Biblioteca BLAS: Referencia

[5] Documentación PyCUDA: WEB

[6] Repositorio de PyCUDA: WEB