# ¿Por qué PyCUDA?

Hasta ahora hemos visto que si bien CUDA no es un lenguaje imposible de aprender, puede llegar a ser un dolor de cabeza el tener muchos apuntadores y manejar la memoria de un modo tan rudimentario.

Sin embargo hay alternativas que nos permiten trabajar en entornos más agradables, un ejemplo de ellos es [PyCUDA](http://mathema.tician.de/software/pycuda/) creado con [Andreas Klöckner](http://mathema.tician.de/). Básicamente PyCUDA se encarga de mapear todo CUDA dentro de Python. 

Por poner un ejemplo, un código simple sería el siguiente

```python
import pycuda.autoinit
import pycuda.driver as drv
import numpy

from pycuda.compiler import SourceModule
mod = SourceModule("""
__global__ void multiplicar(float *dest, float *a, float *b)
{
  const int i = threadIdx.x;
  dest[i] = a[i] * b[i];
}
""")

multiplicar = mod.get_function("multiplicar")

a = numpy.random.randn(400).astype(numpy.float32)
b = numpy.random.randn(400).astype(numpy.float32)

dest = numpy.zeros_like(a)

multiplicar(
        drv.Out(dest), drv.In(a), drv.In(b),
        block=(400,1,1), grid=(1,1))

print dest-a*b

```

Al correr este programa vamos a obtener un montón de ceros; algo no muy interesante. Sin embargo detrás de escenas sí pasó algo interesante.

- PyCUDA compiló el código fuente y lo cargó a la tarjeta.
- Se asignó memoria automáticamente, además de copiar las cosas de CPU a GPU y de vuelta.
- Por último la limpieza (liberación de memoria) se hace sola.

**Útil ¿cierto?**

# Usando PyCUDA

Para empezar debemos importar e incializar PyCUDA

```python 
import pycuda.driver as cuda
import pycuda.autoinit
from pycuda.compiler import SourceModule
```

## Transferir datos

The next step in most programs is to transfer data onto the device. In PyCuda, you will mostly transfer data from numpy arrays on the host. (But indeed, everything that satisfies the Python buffer interface will work, even a str.) Let’s make a 4x4 array of random numbers:

import numpy
a = numpy.random.randn(4,4)

El siguiente paso es transferir datos al GPU. Principalmente arreglos de numpy. Por ejemplo, tomemos un arreglo de números aleatorios de $4 \times 4$