<a href="https://colab.research.google.com/github/KOMBOU12/Marius/blob/main/Matrix_Completion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Le but est d'implémenter le code présent dans ce lien avec un jeu de donnée de mon choix : https://colab.research.google.com/drive/1-KStBJ_gHRjRrAwaMj6cBZLymqiEjpnm?usp=sharing

In [17]:
pip install matrix-completion



In [18]:
import numpy as np
from matrix_completion import svt_solve, calc_unobserved_rmse

U = np.random.randn(20, 5)
V = np.random.randn(15, 5)
R = np.random.randn(20, 15) + np.dot(U, V.T)

mask = np.round(np.random.rand(20, 15))
R_hat = svt_solve(R, mask)

print("RMSE:", calc_unobserved_rmse(U, V, R_hat, mask))

RMSE: 2.1877459684965315


Le code génère une matrice de rang faible R avec des valeurs manquantes, utilise l'algorithme **SVT pour imputer les valeurs manquantes**, et évalue la qualité de l'imputation en calculant la RMSE sur les valeurs non observées.

**On refait le code avec de nouvelles données**

On commence par générer des matrices aléatoires $U_{new}$ et $V_{new}$. Puis on crée une matrice de rotation R en ajoutant du bruit gaussien à $U_{new}.V_{new}^{T}$. J'ai choisis dans mon cas de fixer la graine dans un souci de reproductibilité.

In [22]:
import numpy as np
from matrix_completion import svt_solve, calc_unobserved_rmse

np.random.seed(42)  # Fixe la graine pour la reproductibilité

# Generation de nouvelles matrices U, V, et R
U_new = np.random.randn(25, 7)  # U est maintenant 25x7
V_new = np.random.randn(18, 7)  # V est maintenant 18x7
R_new = np.random.randn(25, 18) + np.dot(U_new, V_new.T)  # R est maintenant 25x18 avec une faible structure de rang
R_new

array([[-1.74981085e+00, -3.39658520e-01,  1.66005616e+00,
        -6.88966652e-01,  6.85163036e+00,  1.68987357e+00,
         6.65954957e-01, -2.58271741e+00,  3.36245870e+00,
        -3.56878786e+00,  4.91387005e+00,  5.85112200e-01,
        -5.32017393e+00,  4.06376063e+00,  2.79974728e-01,
        -4.93297473e-01,  8.17948262e-01,  1.07919692e-03],
       [ 1.93434501e+00, -2.13440096e-02, -1.07468339e-01,
        -3.11056326e+00, -4.68562915e+00,  9.23825249e-01,
         1.92496967e+00,  2.71399261e+00, -1.55267062e+00,
         1.61002299e+00, -2.82782627e+00, -1.07871167e+00,
         4.40549612e+00, -1.54347617e+00,  9.83596985e-01,
         1.01017717e+00, -1.60741090e+00,  1.47934323e+00],
       [-7.92077535e+00,  8.71590828e-01,  2.95153995e+00,
         6.68287501e-01,  4.76513581e+00, -4.05814506e+00,
        -8.18447151e-01, -2.05382756e+00,  3.72452117e+00,
        -3.45969848e+00,  3.41136183e+00, -3.07329393e+00,
        -2.52863659e+00,  1.21001059e+00,  1.48581153e

Un masque binaire est appliqué sur R pour simuler des valeurs observées et non observées. La fonction np.round(np.random.rand(20, 15)) crée une matrice de la même taille que $R$ avec des valeurs aléatoires de 0 ou 1, où 1 indique une donnée observée et 0 une donnée manquante.


In [23]:
# Creation d'un nouveau masque pour les valeurs manquantes
mask_new = np.round(np.random.rand(25, 18))

In [24]:
# Application de la SVT pour compléter la matrice
R_hat_new = svt_solve(R_new, mask_new)

# Calcul du RMSE pour les valeurs pas observées
rmse_new = calc_unobserved_rmse(U_new, V_new, R_hat_new, mask_new)

# le nouveau résultat du RMSE
print("New RMSE:", rmse_new)

New RMSE: 2.3857216349273314



$R_{new}$ est de taille 25x18 avec des valeurs fluctuant autour de -10 à 10. La valeur RMSE évalue la différence moyenne au carré entre les valeurs estimées (ou prédites) et les valeurs réelles. Dans ce contexte, une RMSE de 2.38 peut être considérée comme **légèrement bonne** , car cela signifierait que l'erreur représente une petite fraction de la variabilité totale des données.

Pour **améliorer la précision du modèle**, on peut envisager, d'utiliser plus de données d'entraînement, ou d'améliorer la qualité des données utilisées.