# ¿Por qué PyCUDA?

Hasta ahora hemos visto que si bien CUDA no es un lenguaje imposible de aprender, puede llegar a ser un dolor de cabeza el tener muchos apuntadores y manejar la memoria de un modo tan rudimentario.

Sin embargo hay alternativas que nos permiten trabajar en entornos más agradables, un ejemplo de ellos es [PyCUDA](http://mathema.tician.de/software/pycuda/) creado con [Andreas Klöckner](http://mathema.tician.de/). Básicamente PyCUDA se encarga de mapear todo CUDA dentro de Python. 

Por poner un ejemplo, un código simple sería el siguiente

In [2]:
import pycuda.autoinit
import pycuda.driver as drv
import numpy

from pycuda.compiler import SourceModule
mod = SourceModule("""
__global__ void multiplicar(float *dest, float *a, float *b)
{
  const int i = threadIdx.x;
  dest[i] = a[i] * b[i];
}
""")

multiplicar = mod.get_function("multiplicar")

a = numpy.random.randn(400).astype(numpy.float32)
b = numpy.random.randn(400).astype(numpy.float32)

dest = numpy.zeros_like(a)

print dest

multiplicar(
        drv.Out(dest), drv.In(a), drv.In(b),
        block=(400,1,1), grid=(1,1))

print dest

print dest-a*b

[ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0

Al correr este programa vamos a obtener un montón de ceros; algo no muy interesante. Sin embargo detrás de escenas sí pasó algo interesante.

- PyCUDA compiló el código fuente y lo cargó a la tarjeta.
- Se asignó memoria automáticamente, además de copiar las cosas de CPU a GPU y de vuelta.
- Por último la limpieza (liberación de memoria) se hace sola.

**Útil ¿cierto?**

# Usando PyCUDA

Para empezar debemos importar e incializar PyCUDA

In [6]:
import pycuda.driver as cuda
import pycuda.autoinit
from pycuda.compiler import SourceModule

## Transferir datos

El siguiente paso es transferir datos al GPU. Principalmente arreglos de numpy. Por ejemplo, tomemos un arreglo de números aleatorios de $4 \times 4$

In [7]:
import numpy
a = numpy.random.randn(4,4)

sin embargo nuestro arreglo `a` consiste en números de doble precisión, dado que no todos los GPU de NVIDIA cuentan con doble precisión es que hacemos lo siguiente

In [8]:
a = a.astype(numpy.float32)

finalmente, necesitmos un arreglo hacia el cuál transferir la información, así que deberíamos guardar la memoria en el dispositivo:

In [9]:
a_gpu = cuda.mem_alloc(a.nbytes)

como último paso, necesitamos tranferir los datos al GPU

In [10]:
cuda.memcpy_htod(a_gpu, a)

## Ejecutando kernels


Durante este capítulo nos centraremos en un ejemplo muy simple. Escribir un código para duplicar cada una de las entradas en un arreglo, en seguida escribimos el kernel en CUDA C, y se lo otorgamos al constructor de `pycuda.compiler.SourceModule`

In [11]:
mod = SourceModule("""
  __global__ void duplicar(float *a)
  {
    int idx = threadIdx.x + threadIdx.y*4;
    a[idx] *= 2;
  }
  """)

Si no hay errores, el código ahora ha sido compilado y cargado en el dispositivo. Encontramos una referencia a nuestra `pycuda.driver.Function` y la llamamos, especificando `a_gpu` como el argumento, y un tamaño de bloque de $4\times 4$:

In [12]:
mod

<pycuda.compiler.SourceModule at 0x7fa818033210>

In [17]:
func = mod.get_function("duplicar")
func(a_gpu, block=(4,4,1))

In [15]:
func

<pycuda._driver.Function at 0x7fa818097758>

Finalmente recogemos la información del GPU y la mostramos con el `a` original

In [18]:
a_duplicado = numpy.empty_like(a)
cuda.memcpy_dtoh(a_duplicado, a_gpu)
print a_duplicado
print a

[[ 1.76978874 -2.59513664  1.74092507 -4.21144247]
 [-4.01644087 -1.26684439 -0.03778078  2.58979082]
 [ 7.21419668  0.9136216  -4.31184435  2.72471142]
 [-0.06935506  7.27780581 -1.56498134 -2.90156698]]
[[ 0.44244719 -0.64878416  0.43523127 -1.05286062]
 [-1.00411022 -0.3167111  -0.00944519  0.64744771]
 [ 1.80354917  0.2284054  -1.07796109  0.68117785]
 [-0.01733876  1.81945145 -0.39124534 -0.72539175]]


In [19]:
a_duplicado = a_gpu

In [20]:
a_duplicado

<pycuda._driver.DeviceAllocation at 0x7fa8187128a0>

¡Y eso es todo! Hemos terminado con el trabajo. PyCUDA se encarga de hacer toda la limpieza por nosotros.