# Factorisation de matrice (SGD) avec PyCUDA

Pour mon projet d'éléments Logiciels de Traitement des Données Massives, je me suis intéressé à [cet article](https://arxiv.org/pdf/1610.05838.pdf) qui traite de l'algorithme de Stochastic Gradient Descent (SGD) pour factoriser des matrices, dans un contexte de calcul distribué.

On cherche à factoriser une matrice R (de taille m\*n) en deux matrices plus petites, P (m\*k) et Q (k\*n).

Pour résumer en deux mots le principe du SGD, il s'agit de calculer pour une seule cellule de la matrice l'erreur entre la prédiction et la réalité, puis d'updater les poids en fonction de cette erreur. La possibilité de parallélisation découle du fait que si deux cellules de R ne se trouvent ni dans la même ligne ni dans la même colonne, alors l'ajustement des poids découlant de l'une n'influencera pas sur celle de l'autre.

In [6]:
import pycuda.driver as cuda
import pycuda.autoinit
from pycuda.compiler import SourceModule
import pycuda.gpuarray as gpuarray
import numpy as np

In [None]:
# Pour s'assurer qu'il existe une solution à notre factorisation de matrice, on crée deux matrices aléatoires P et Q
# On les multiplie pour avoir notre matrice R originale



## Calcul de la fonction de perte

\begin{equation*}
\left( \sum_{k=1}^n a_k b_k \right)^2 \leq \left( \sum_{k=1}^n a_k^2 \right) \left( \sum_{k=1}^n b_k^2 \right)
\end{equation*}

\begin{align}
\dot{x} & = \sigma(y-x) \\
\dot{y} & = \rho x - y - xz \\
\dot{z} & = -\beta z + xy
\end{align}

In [None]:
def