<a href="https://colab.research.google.com/github/guidobarra/pyhton-GPU/blob/main/multiplicacion_matrices_GPU.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1 Introducción

El siguiente ejemplo modifica el color de una imágen parametrizada, a escala de grises. El cálculo de la escala se realiza convirtiendo los 3 canales RGB, que representan a los colores R (*rojo*)-G(*verde*)-B(*azul*), de cada pixel siguiendo la ecuación:

<center>$ Pixel=R*0.30+G*0.59+B*0.11$</center>

EL objetivo es enseñar el funcionamiento del Lenguaje Python, CUDA y el manejo de imagenes a bajo nivel. El ejemplo es ilustrativo, ya que internamente el módulo Pillow posee varios filtros integrados.

---
# 2 Armado del ambiente
Toma la direcciòn web de una imagen con  acceso público en internet, la deja disponible al contexto de ejecuciòn del cuaderno colab.

In [47]:
#@title # 2.1 Parámetros de ejecución
#@markdown ### Especifique las dimeciones de la matrices:

try: 
  fila_mat_a =  100#@param {type:"integer"}
  colum_mat_a =  100#@param {type:"integer"}

  fila_mat_b =  100#@param {type:"integer"}
  colum_mat_b =  100#@param {type:"integer"}

except:
  print("Error de ingresar los parametros")








In [44]:
#A.B
if fila_mat_a < 0 or colum_mat_a < 0:
  print("ERROR LAS DIMENCIONES DE LA MATRIZ A TIENE QUE SER MAYOR A 0")
if fila_mat_b < 0 or colum_mat_b < 0:
  print("ERROR LAS DIMENCIONES DE LA MATRIZ B TIENE QUE SER MAYOR A 0")
if colum_mat_a != fila_mat_b:
  print("ERROR LAS DIMENCIONES DE LAS MATRIZ NO PERMITEN REALIZAR LA MULTIPLICACION")

---
## 2.2 Instala en el cuaderno el módulo CUDA de Python.

In [32]:
!pip install pycuda



---
# 3 Desarrollo
Ejecución del algoritmo escala de grises en GPU.

In [49]:
%matplotlib inline
from datetime import datetime
tiempo_total = datetime.now()

import numpy
import pycuda.driver as cuda
import pycuda.autoinit
from   pycuda.compiler import SourceModule

# --------------------------------------------
# Definición de función que transforma el tiempo en  milisegundos 
tiempo_en_ms = lambda dt:(dt.days * 24 * 60 * 60 + dt.seconds) * 1000 + dt.microseconds / 1000.0
# --------------------------------------------

# CPU - Defino la memoria de la matriz A en cpu.
matriz_a = numpy.random.randn(fila_mat_a, colum_mat_a)*10
matriz_a = matriz_a.astype(numpy.int32())

# CPU - Defino la memoria de la matriz B en cpu.
matriz_b = numpy.random.randn(fila_mat_b, colum_mat_b)*10
matriz_b = matriz_b.astype(numpy.int32())

# CPU - Defino la memoria de la matriz resultado C en cpu.
matriz_c = numpy.random.randn(fila_mat_a, colum_mat_b)*0
matriz_c = matriz_c.astype(numpy.int32())
matriz_c_secuencial = numpy.random.randn(fila_mat_a, colum_mat_b)*0

for f in range(fila_mat_a):
  for c in range(colum_mat_b):
    for inter in range(colum_mat_a):
      matriz_c_secuencial[f][c] += matriz_a[f][inter]*matriz_b[inter][c]
    
    

# CPU - reservo la memoria GPU.
matriz_a_Gpu = cuda.mem_alloc(matriz_a.nbytes)
matriz_b_Gpu = cuda.mem_alloc(matriz_b.nbytes)
matriz_c_Gpu = cuda.mem_alloc(matriz_c.nbytes)

# GPU - Copio la memoria al GPU.
cuda.memcpy_htod(matriz_a_Gpu, matriz_a)
cuda.memcpy_htod(matriz_b_Gpu, matriz_b)
cuda.memcpy_htod(matriz_c_Gpu, matriz_c)

#CPU - Defino la funcion kernel que ejecutará en GPU
module = SourceModule("""
__global__ void multiplicar(int ancho, int alto, int inter, int *matriz_a , int *matriz_b, int *matriz_c)
{
    // Calculo las coordenadas del Thread en dos dimensiones.
    int idx = threadIdx.x + blockIdx.x*blockDim.x;
    int idy = threadIdx.y + blockIdx.y*blockDim.y;
    
    // Verifico que los Thread, esten dentro de las dimensiones de la imagen.
    if( idx < ancho && idy < alto ) {
      int indice = idy+(idx*ancho);
      int i = 0;
      int resul = 0;

      //
      while (i<inter) {
        //multiplico fila por columna y sumo el resultado de cada componente
        resul += matriz_a[idx*inter + i]*matriz_b[idy + i*inter];
        i++;
      }
      //paso el resultado obtenido a la componente de la matriz
      matriz_c[indice] = resul;
    }
}

""")

# CPU - Genero la función kernel.
kernel = module.get_function("multiplicar")

tiempo_img = datetime.now()

dim_hilo_x = 16
dim_bloque_x = numpy.int( (fila_mat_a+dim_hilo_x-1) / dim_hilo_x )

dim_hilo_y = 19
dim_bloque_y = numpy.int( (colum_mat_b+dim_hilo_y-1) / dim_hilo_y )

print( "Thread: [", 
      dim_hilo_x, 
      ",", 
      dim_hilo_y, 
      " ], Bloque : [", 
      dim_bloque_x, 
      ",", 
      dim_bloque_y, 
      "]" )
print( "Total de Thread: [", 
      dim_hilo_x*dim_bloque_x, 
      ",", 
      dim_hilo_y*dim_bloque_y, 
      " ]", 
      " = ", 
      dim_hilo_x*dim_bloque_x*dim_hilo_y*dim_bloque_y )

tiempo_img = datetime.now()

kernel( numpy.int32(fila_mat_a), 
        numpy.int32(colum_mat_b), 
        numpy.int32(colum_mat_a), 
        matriz_a_Gpu, 
        matriz_b_Gpu, 
        matriz_c_Gpu, 
        block=( dim_hilo_x, dim_hilo_y, 1 ), 
        grid=(dim_bloque_x, dim_bloque_y,1) )

tiempo_img = datetime.now() - tiempo_img


# GPU - Copio el resultado desde la memoria GPU.
cuda.memcpy_dtoh( matriz_c, matriz_c_Gpu )
tiempo_total = datetime.now() - tiempo_total

print("Matiz A:\n", matriz_a)
print("Matiz B:\n", matriz_b)
print("Matiz C Secuencial:\n", matriz_c_secuencial)
print("Matiz C Paralela:\n", matriz_c)
print("Matiz C Paralela:\n", matriz_c)
print("Tiempo TOTAL: ", tiempo_en_ms( tiempo_total ), "[ms]" )
print("Tiempo GPU  : ", tiempo_en_ms( tiempo_img ), "[ms]" )

Thread: [ 16 , 19  ], Bloque : [ 32 , 27 ]
Total de Thread: [ 512 , 513  ]  =  262656
Matiz A:
 [[ -6 -15  16 ...  -2 -20   8]
 [  0  22 -18 ...  13   2   9]
 [ -6   0   0 ...  -3  -6   1]
 ...
 [ 11  -3  10 ...  -1  14   3]
 [  7   3   8 ...  14  17  15]
 [ -3   0   0 ...   8 -15 -10]]
Matiz B:
 [[-13  -5  10 ...   3  -3  -2]
 [ -6   1   6 ...   0   2  10]
 [  4 -11 -25 ...  -2   5   7]
 ...
 [ -6   5   3 ...   1   0  -6]
 [  2   7  -7 ...   5 -14  12]
 [ 22  -3  -4 ...   3   2  -8]]
Matiz C Secuencial:
 [[-2.220e+02 -4.965e+03  8.540e+02 ... -3.222e+03 -3.110e+02 -3.230e+02]
 [-3.565e+03 -1.475e+03 -1.591e+03 ... -2.791e+03  3.660e+02 -1.230e+02]
 [ 4.497e+03 -2.000e+00 -1.498e+03 ... -1.794e+03 -3.010e+02  2.710e+02]
 ...
 [-7.130e+02 -2.822e+03 -4.400e+01 ... -1.563e+03 -3.920e+02 -3.865e+03]
 [ 6.020e+03 -1.972e+03 -1.857e+03 ...  1.506e+03 -7.330e+02 -1.973e+03]
 [ 5.190e+02 -1.008e+03 -2.724e+03 ... -2.670e+03 -2.820e+02 -3.351e+03]]
Matiz C Paralela:
 [[ -222 -4965   854 ... -3

---
# 4 Tabla de pasos


 Procesador | Funciòn | Detalle
------------|---------|----------
CPU      |  wget url_imagen       | Lectura de la direcciòn URL de la imagen (jpg) a procesar.
CPU      | pip install pycuda    | Instala en el cuaderno los driver de CUDA para Python.
CPU      |  matplotlib inline    | Macro de Colab para mostrar imagenes.
CPU      |  import                | Importa los módulos para funcionar.
CPU      |  datetime.now()        | Toma el tiempo actual.
CPU      |  Image.open()          | Abre el archivo de la imagen.
CPU      |  numpy.asarray(imagen) | Convierte el formato comprimido JPG a RAW.
CPU      |  numpy.empty_like(()   | Genera el array destino, que tendrá a la imagen resultado. 
**GPU**  |  cuda.mem_alloc()      | Reserva la memoria para las imagenes en GPU.
**GPU**  |  cuda.memcpy_htod()    | Copio los valores en crudo de las imagenes al GPU.
CPU      |  SourceModule()        | Posee el còdigo del kernel.
CPU      |  module.get_function() | convierte el texto del kernel en funcion de Python.
CPU      |  dim_hilo_x, dim_hilo_y| Calcula las dimensiones para la ejecuciòn de 2D.
**GPU**  |  kernel()              | Ejecuta el kernel en GPU, enviando los parametros.
CPU      |  print()               | Informa los atributos de la imagen.
CPU      | cuda.memcpy_dtoh()     | Copia desde la memoria GPU al CPU.
CPU      |  plt.imshow            | Muestra la imagen original.
CPU      |  plt.imshow            | Muestra la imagen resultado.



---
# 5 Conclusiones

Las conclusiones son explicadas en clase...

---
# 6 Bibliografía

[1] MARKDOWN SYNTAX Colab: [PDF](https://github.com/wvaliente/SOA_HPC/blob/main/Documentos/markdown-cheatsheet-online.pdf)

[2] Introducción a Python: [Página Colab](https://github.com/wvaliente/SOA_HPC/blob/main/Documentos/Python_Basico.ipynb) 

[3] Tutorial Point Colab: [PDF](https://github.com/wvaliente/SOA_HPC/blob/main/Documentos/markdown-cheatsheet-online.pdf)

[4] 2009, SINTESIS DIGITAL DE COLOR UTILIZANDO TONOS DE GRIS, ING. JESÚS GUSTAVO FLORES ERAÑA : [PDF](https://ninive.uaslp.mx/xmlui/bitstream/handle/i/2264/MCA1SDC00901.pdf?sequence=1&isAllowed=y)
