In [None]:
!pip install pycuda

In [None]:
import numpy as np
import pycuda.driver as cuda
import pycuda.autoinit
from pycuda.compiler import SourceModule

## Produit scalaire

$$
\begin{bmatrix}
a_1,a_2,\dots,a_n
\end{bmatrix}
\times
\begin{bmatrix}
b_1,b_2,\dots,b_n
\end{bmatrix}
=
a_1b_1+a_2b_2+,\dots,+a_nb_n
$$

## Fonction dot_vec en python

In [None]:
def dot_vec(va,vb):
  adim=va.size
  #bdim=vb.size ; bdim == adim
  res=np.zeros(adim)
  for i in range(adim):
    res[i]+=va[i]*vb[i]
  dotprod=sum(res[:])
  return dotprod

## Compléter le kernel

In [None]:
kernels = SourceModule("""
__global__ void dot_vec(float *veca, float *vecb, float *res)
{
    // Todo
}
""")

## Initialisation des vecteurs sur le host

In [None]:
va=np.random.randn(1024)
vb=np.random.randn(1024)
va=va.astype(np.float32)
vb=vb.astype(np.float32)
h_res=...

In [None]:
dot_vec(va,vb)

## Lecture du kernel

In [None]:
kdot_vec=kernels.get_function("dot_vec")

## Allocations mémoire et copie sur le device

In [None]:
g_va=cuda.mem_alloc(va.nbytes)
g_vb=cuda.mem_alloc(vb.nbytes)
#g_res=cuda.mem_alloc(...) TODO
cuda.memcpy_htod(g_va,va)
cuda.memcpy_htod(g_vb,vb)

## Appeler le kernel avec le bon block

In [None]:
kdot_vec(g_va,g_vb,g_res, ,block=(...,...,...))

## Récupération du résultat sur le host

In [None]:
cuda.memcpy_dtoh(h_res,g_res)

## Libération de la mémoire sur le devcice

In [None]:
g_va.free()
g_vb.free()
g_res.free()

## Finalisation du calcul sur le host

In [None]:
dotprod=sum(h_res[:])

## Modifier le kernel pour faire la somme sur le device