## Rapport sur le sujet du Filtrage Collaboratif dans le Système de Recommandation.



### Table des matières
- [Notation](#notation)
- [Propos de l'ensemble de données](#data)
- [1. Factorisation de matrices (MF)](#factorisation-de-matrices-mf)
- [2. Les algorithmes appliqués dans la factorisation matricielle](#lalgorithme-de-la-mf)
   - [2.1a Fonction de Coût](#fonction-cout)
   - [2.1b Les biais](#biais)
     - [La première considération](#consid-1)
     - [La deuxième considération](#consid-2)
   - [2.2a Descente de Gradient (GD)](#gd)
   - [2.2b Difficulté de la (GD)](#dif-gd)
- [3. Recommandations](#recommandations) 
- [Références](#ref)

### Table des morceaux de code
- [Code(1)](#code-1)
- [Code(2)](#code-2)
- [Code(3)](#code-3)
- [Code(4)](#code-4)
- [Code(5)](#code-5)
- [Code(6)](#code-6)
- [Code(7)](#code-7)
- [Code(8)](#code-8)

### Notation
<a id="notation"></a>
\begin{array}{|l|l|l|}
\hline
\text{Notation} & \text{Description} & \text{Python (le cas échéant)} \\
\hline
r(i,j) & \text{scalaire; } = 1 \text{ si l'utilisateur } j \text{ a évalué le film } i, = 0 \text{ sinon} & \\
y(i,j) & \text{scalaire; note donnée par l'utilisateur } j \text{ pour le film } i \text{ (si } r(i,j) = 1 \text{ est défini)} & \\
\mathbf{w}^{(j)} & \text{vecteur; paramètres pour l'utilisateur } j & \\
\mathbf{x}^{(i)} & \text{vecteur; caractéristiques du film } i & \\
b^{(i,j)} & \text{scalaire; paramètre de biais pour le film } i \text{ et l'utilisateur } j & \text{b}\\
b_u^{(j)} & \text{scalaire; paramètre de biais pour l'utilisateur } j &  \\
b_f^{(i)} & \text{scalaire; paramètre de biais pour le film } i  &  \\
b_u & \text{vecteur; paramètres de biais pour l'utilisateur } j & \text{b\_u} \\
b_f & \text{vecteur; paramètres de biais pour le film } i  & \text{b\_f} \\
n_u & \text{nombre d'utilisateurs} & \text{nb\_utilisateurs} \\
n_f & \text{nombre de films} & \text{nb\_films} \\
k & \text{nombre de caractéristiques} & \text{nb\_caracs} \\
\mathbf{X} & \text{matrice de vecteurs } \mathbf{x}^{(i)} & \text{X} \\
\mathbf{W} & \text{matrice de vecteurs } \mathbf{w}^{(j)} & \text{W} \\
\mathbf{B} & \text{matrice de paramètres de biais } b^{(i,j)} & \text{B} \\
\mathbf{R} & \text{matrice des éléments } r(i,j) & \text{R} \\
\mathbf{Y} & \text{matrice des éléments } y(i,j) & \text{Y} \\
\mathbf{\hat{Y}} & \text{matrice approximative de } \mathbf{Y} & \\
\hline
\end{array}

### Propos de l'ensemble de données
<a id="data"></a>

L'ensemble de données est dérivé de l'ensemble de données ["ml-latest-small"](https://grouplens.org/datasets/movielens/latest/) de MovieLens.

Cela contient $n_m = 9724$ films et $n_u = 610$ utilisateurs.

Il est nécessaire de savoir que dans fichier `ratings.csv`, les notes vont de 0.5 à 5 par intervalles de 0.5. Toutes les cellules à 0 signifient que les clients n'ont pas encore donné de note ou n'ont pas voté.

### 1. Factorisation de Matrices (MF).
<a id="factorisation-de-matrices-mf"></a>

L'objectif de la méthode de factorisation de matrices est de décomposer la matrice des évaluations des utilisateurs $Y$, qui stocke les notes $y(i,j)$ du film $i$ par l'utilisateur $j$, en deux matrices distinctes $W$ et $X$. La matrice $W$ contient les vecteurs de paramètres des utilisateurs $\mathbf{w}^{(j)}$, tandis que la matrice $X$ stocke les vecteurs de paramètres des films $\mathbf{x}^{(i)}$
. Ces deux matrices représentent respectivement les approches `user-based` et `items-based`. Le produit scalaire de ces deux matrices, appelé `filtrage collaboratif`, doit être approximativement égal à $Y$. Nous avons une matrice de notations $Y$ de dimension ($n_f$,  $n_u$) , où $Y_{ij}$ représente la note donnée par l'utilisateur $i$ au film $j$. Cette matrice $Y$ contient de nombreuses cellules non notées.

Ainsi, nous pouvons approximer la matrice $Y$ par la formule suivante: [Référence [1]](#ref) $$\hat{Y} = X \cdot W$$ 

Où :
- $W$ est la matrice des paramètres des utilisateurs de dim ($k$ , $n_u$).
- $X$ est la matrice des caractéristiques des films de dim ($n_m$ , $k$).

![Matrix factorisation.jpg](attachment:f0385d5b-3689-4fc5-ad8d-1b4591a4be14.jpg)


$k$ est à la fois le nombre de caractéristiques du film (ex. romance, action, comédie, enfants,...) et le nombre de paramètres utilisateur. Avec un ensemble de données volumineux, un nombre plus élevé de caractéristiques $k$ peut améliorer le système de recommandation.

Les élements du matrix $X$ et du matrix $W$ :
$$
\mathbf{X} = 
\begin{bmatrix}
\mathbf{x}^{(0)} \\
\mathbf{x}^{(1)} \\
\vdots \\
\mathbf{x}^{(n_m-1)} \\
\end{bmatrix} , \quad
\mathbf{W} = 
\begin{bmatrix}
\mathbf{w}^{(0)} & \mathbf{w}^{(1)} & \cdots & \mathbf{w}^{(n_u-1)} \\
\end{bmatrix}
$$ 

Les dimension des vecteurs $\mathbf{x}^{(i)}$ sont ($1$, $k$) et les dimensions des vecteurs $\mathbf{w}^{(j)}$ sont ($k$, $1$).
Par exemple:

![MF.jpg](attachment:36e5d23c-a39a-4fb7-aee5-0ed5c5b3ce4f.jpg)

<a id="normalisation"></a>
**Normalisation de la matrice Y**

Afin de garantir une évaluation homogène, nous procéderons à la normalisation de la matrice $Y$, désignée sous le nom de $\text Ynorm$. Cette étape est cruciale pour standardiser les évaluations et réduire les biais liés à la popularité des films ou à la présence d'utilisateurs totalement nouveaux qui n'ont encore rien évalué, ce qui rend difficile la suggestion de films pour eux.

En effet, les films ayant reçu un grand nombre d'évaluations ont tendance à attirer davantage de votes, tandis que ceux avec peu d'évaluations sont moins susceptibles de recevoir de nouvelles critiques, ce qui peut être attribué à leur popularité relative.

Pour évaluer cet effet, nous calculerons simplement la moyenne et la variance des évaluations pour chaque film. Une faible variance combinée à une moyenne élevée par rapport aux autres films indique que les évaluations sont concentrées, suggérant ainsi une influence significative de la popularité.

La normalisation des évaluations permettra de minimiser l'impact des facteurs externes, tels que la popularité des films, et d'optimiser le modèle. En procédant ainsi, le modèle se concentrera sur les valeurs normalisées plutôt que sur des valeurs absolues, assurant ainsi une analyse plus équilibrée et juste des données.

En calculant la moyenne de chaque film, nous soustrayons l'évaluation actuelle, que $r(i,j)=1$, c'est-à-dire, le film $i$ est noté par l'utilisateur $j$, par la moyenne du film. C'est ainsi que nous calculons la normalisation.
.

$$Ynorm(i,j) = y(i,j) + (-Ymean^{(i)})$$

Où :

- $Ynorm$ est la matrice des notes normalisées de dimension ($n_f$, $n_u$).
- $Ymean$ est la matrice des moyennes des notes pour chaque film de dimension ($n_f$, 1).

La normalisation peut entraîner des valeurs négatives, mais ce n'est pas un problème majeur car on peut ajouter la moyenne des notes après la prédiction.

<span style="color: blue;">Code(1)</span>
<a id="code-1"></a>
```
#Calculer la moyenne notes des films et les notes normalisées
Ymean = np.zeros((Y.shape[0], 1))  
Ynorm = np.zeros(Y.shape)
for i in range(Y.shape[0]):
    Ymean[i]=np.mean(Y[i, R[i, :].astype(bool)])
for i in range(Y.shape[0]):
    for j in range(Y.shape[1]):
        if R[i,j]==1:
           Ynorm[i,j]=Y[i,j]-Ymean[i,0]
```

### 2. Les algorithmes appliqués dans la factorisation matricielle

<a id="lalgorithme-de-la-mf"></a>
#### 2.1a Fonction de coût.
<a id="fonction-cout"></a>
La note prévisionnelle $\hat y(i,j)$ du film $i$ par l'utilisateur $j$, on veut que ces notes approximatives soient très proches de ces notes observées précédentes en affinant le modèle par la méthode des moindres carrés.

En apprenant les deux paramètres $\mathbf w^{(j)}$ et $\mathbf x^{(i)}$ qui minimise la fonction $Coût$:  [Référence [2]](#ref) $$ C(w^{(j)},x^{(i)}) =  \left[ \frac{1}{2}\sum_{(i,j):r(i,j)=1}(\mathbf{w}^{(j)} \cdot \mathbf{x}^{(i)} - y^{(i,j)})^2 \right] $$

On doit comprendre que l'on fait la somme uniquement des éléments notés. Autrement dit, les éléments pour lesquels $\mathbf r(i,j)=1$.

Dans le but de baisser l'overfitting, on ajoute le terme de régularisation avec la constante $\mathbf \lambda$. $$ C(w^{(j)},x^{(i)}) =  \left[ \frac{1}{2}\sum_{(i,j):r(i,j)=1}(\mathbf{w}^{(j)} \cdot \mathbf{x}^{(i)} - y^{(i,j)})^2 \right] +  \frac{1}{2} \lambda (\|\mathbf{w}^{(j)}\|^2 + \|\mathbf{x}^{(i)}\|^2) $$

$$ C(w^{(j)},x^{(i)}) =  \left[ \frac{1}{2}\sum_{(i,j):r(i,j)=1}(\mathbf{w}^{(j)} \cdot \mathbf{x}^{(i)} - y^{(i,j)})^2 \right] +  \underbrace{\left[
\frac{\lambda}{2}\sum_{j=0}^{n_u-1}\sum_{p=0}^{k-1}(\mathbf{w}^{(j)}_p)^2 + \frac{\lambda}{2}\sum_{i=0}^{n_f-1}\sum_{p=0}^{k-1}(\mathbf{x}_p^{(i)})^2
\right]}_{régularisation} $$
La essence du terme de régularisation est de mettre au carré tous les éléments dans les vecteurs $\mathbf w$ et $\mathbf x$ ( vecteurs  $\mathbf k$-dimensionnels), puis faire la somme de tous les éléments carrés. **Je fixe $\lambda$ à 1 pour éviter le surajustement et pour faciliter les calculs.**

Dans la bibliothèque `TensorFlow`, elle nous offre des fonctions pour effectuer des opérations sur les matrices et l'algèbre linéaire beaucoup plus rapidement et de manière plus concise.

<span style="color: blue;">Code(2)</span>
```
def FonctionCout(W,X,Y,R,lambda_):
   """
 Arguments :
   X (ndarray (nb_films, nb_caracs)): matrice des caractéristiques des films
   W (ndarray (nb_caracs, nb_utilisateurs)): matrice des paramètres des utilisateurs
   Y (ndarray (nb_films,nb_utilisateurs)): matrice des évaluations des utilisateurs pour les films
   R (ndarray (nb_films,nb_utilisateurs)): matrice où R(i, j) = 1 si le j-ème utilisateur a évalué le i-ème film
   lambda_ (float): paramètre de régularisation
 Retourne :
   C (float): Coût
   """
   c = ((tf.linalg.matmul(X, W) - Y)*R
   C = 0.5 * tf.reduce_sum(c**2) + (lambda_/2) * (tf.reduce_sum(X**2) + tf.reduce_sum(W**2))
   return C
```
<a id="code-2"></a>

#### 2.1b Biais
<a id="biais"></a>
Probablement, il y aurait une carence si l'on ne tenait compte que de la collaboration entre utilisateurs et films sans considérer les biais. Les biais sont indépendants de toute interaction. En effet, il y a toujours des personnes qui détestent ou adorent un film de manière extrême, même s'ils ne l'ont pas regardé; c'est ce qu'on appelle le biais. Le biais $b^{(i,j)}$ pour l'utilisateur $j$ et le film $i$  contient: $$b^{(i,j)} = b_u^{(j)}+b_f^{(i)}$$

Où : 
- $b_u^{(j)}$ représente la déviation observée de l'utilisateur $j$.
- $b_f^{(i)}$ représente la déviation observée du film $i$.

On peut estimer $b_u^{(j)}$ en soustrayant la moyenne des évaluations de l'utilisateur $j$ par $\mu$ - la moyenne globale des évaluations, $b_f^{(i)}$ en soustrayant la moyenne des notes du film $i$ par $\mu$.



**---La première considération---** <a id="consid-1"></a>

**On considère d'abord les $b^{(i,j)}$ comme des constantes, donc on n'entraîne pas $b^{(i,j)}$ dans la Descent de Gradient.** 
<a id="Consideration-1"></a>

À partir de cela, on obtient une matrice $B$ qui stocke les $b^{(i,j)}$, avec une dimension ($n_f$,  $n_u$).$$\mathbf{B} = 
\begin{bmatrix}
\cdots & \mathbf{b}^{(0,j)} & \cdots \\
\cdots & \mathbf{b}^{(1,j)} & \cdots \\
\vdots & \vdots & \ddots \\
\cdots & \mathbf{b}^{(n_m-1,j)} & \cdots
\end{bmatrix}$$

La formule pour approximer $Y$ est maintenant la suivante : $$\mathbf{\hat{Y}} = \mathbf{XW} + \mathbf{B}$$

Suivant, le fonction de coût : $$ C(w^{(j)},x^{(i)}) =  \left[ \frac{1}{2}\sum_{(i,j):r(i,j)=1}(\mathbf{w}^{(j)} \cdot \mathbf{x}^{(i)} +\mathbf{b}^{(i,j)} - y^{(i,j)})^2 \right] +  \underbrace{\left[
\frac{\lambda}{2}\sum_{j=0}^{n_u-1}\sum_{p=0}^{k-1}(\mathbf{w}^{(j)}_p)^2 + \frac{\lambda}{2}\sum_{i=0}^{n_f-1}\sum_{p=0}^{k-1}(\mathbf{x}_p^{(i)})^2
\right]}_{régularisation} $$

<span style="color: blue;">Code(3)</span>
<a id="code-3"></a>
```
def FonctionCout(W,X,B,Y,R,lambda_):
   """
 Arguments :
   X (ndarray (nb_films, nb_caracs)): matrice des caractéristiques des films
   W (ndarray (nb_caracs, nb_utilisateurs)): matrice des paramètres des utilisateurs
   B (ndarray (nb_films, nb_utilisateurs)) : matrice des parametres de biais.
   Y (ndarray (nb_films,nb_utilisateurs)): matrice des évaluations des utilisateurs pour les films
   R (ndarray (nb_films,nb_utilisateurs)): matrice où R(i, j) = 1 si le j-ème utilisateur a évalué le i-ème film
   lambda_ (float): paramètre de régularisation
 Retourne :
   C (float): Coût
   """
   c = (tf.linalg.matmul(X, W) + B - Y)*R
   C = 0.5 * tf.reduce_sum(c**2) + (lambda_/2) * (tf.reduce_sum(X**2) + tf.reduce_sum(W**2))
   return C
```

**---La deuxième considération---** <a id="consid-2"></a>

**On considère la deuxième considération quand le biais n'est pas constant, donc il va être affine dans la descente de gradient.**

**(A) Cet entraînement peut amener à une précision optimale en ajustant les biais. Nous entraînons deux vecteurs de biais, $b_u$ et $b_f$, en dehors de $w^{(j)}$ et $x^{(i)}$.**

La formule pour approximer $Y$ est maintenant la suivante : $$\mathbf{\hat{Y}} = \mathbf{XW} + \mathbf{b_u} + \mathbf{b_f} $$

La fonction de coût est maintenant : [Référence [3]](#ref) $$ C(\mathbf{w}^{(j)}, \mathbf{x}^{(i)}, \mathbf{b_u}^{(j)}, \mathbf{b_f}^{(i)}) =  \left[ \frac{1}{2}\sum_{(i,j):r(i,j)=1}(\mathbf{w}^{(j)} \cdot \mathbf{x}^{(i)} +b_u^{(j)} + b_f^{(i)} - y^{(i,j)})^2 \right] +  \underbrace{\left[\frac{\lambda}{2}\left( ||\mathbf{w}^{(j)}||^2 + ||\mathbf{x}^{(i)}||^2 + (b_u)^2 + (b_f)^2 \right) \right]
}_{régularisation} $$

$$C(\mathbf{w}^{(j)}, \mathbf{x}^{(i)}, \mathbf{b_u}^{(j)}, \mathbf{b_f}^{(i)}) =  \left[ \frac{1}{2}\sum_{(i,j):r(i,j)=1} \left( \mathbf{w}^{(j)} \cdot \mathbf{x}^{(i)} + b_u^{(j)} + b_f^{(i)} - y^{(i,j)} \right)^2 \right] +  \underbrace{\left[\frac{\lambda}{2}\sum_{j=0}^{n_u-1} \sum_{p=0}^{k-1} (\mathbf{w}^{(j)}_p)^2 + \frac{\lambda}{2} \sum_{i=0}^{n_f-1} \sum_{p=0}^{k-1} (\mathbf{x}_p^{(i)})^2 + \frac{\lambda}{2} \left( \sum_{j=0}^{n_u-1} (b_u^{(j)})^2 + \sum_{i=0}^{n_f-1} (b_f^{(i)})^2 \right)
\right]}_{\text{régularisation}}$$

<span style="color: blue;">Code(4)</span>
<a id="code-4"></a>

```
def FonctionCout_2b(W,X,b_u,b_f,Y,R,lambda_):
   """
 Arguments :
   X (ndarray (nb_films, nb_caracs)): matrice des caractéristiques des films
   W (ndarray (nb_caracs, nb_utilisateurs)): matrice des paramètres des utilisateurs
   b_u (ndarray (1, nb_utilisateur)) : vecteur des parametres de biais.
   b_f (ndarray (nb_films, 1)) : vecteur des parametres de biais.
   Y (ndarray (nb_films,nb_utilisateurs)): matrice des évaluations des utilisateurs pour les films
   R (ndarray (nb_films,nb_utilisateurs)): matrice où R(i, j) = 1 si le j-ème utilisateur a évalué le i-ème film
   lambda_ (float): paramètre de régularisation
 Retourne :
   C (float): Coût
   """
   c = (tf.linalg.matmul(X, W) + b_u + b_f - Y)*R
   C = 0.5 * tf.reduce_sum(c**2) + (lambda_/2) * (tf.reduce_sum(X**2) + tf.reduce_sum(W**2)+tf.reduce_sum(b_u**2)+tf.reduce_sum(b_f**2))
   return C
```

**(B) On considère d'entraîner seulement trois paramètres : $w^{(j)}$, $w^{(j)}$ et la matrice de biais $B$ des $b^{(i,j)}$.**

La formule pour approximer $Y$ est maintenant la suivante : $$\mathbf{\hat{Y}} = \mathbf{XW} + \mathbf{B} $$

La fonction de coût est maintenant : $$C(\mathbf{w}^{(j)}, \mathbf{x}^{(i)}, \mathbf{b}^{(i,j)}) = \left[ \frac{1}{2}\sum_{(i,j):r(i,j)=1} \left( \mathbf{w}^{(j)} \cdot \mathbf{x}^{(i)} + b^{(i,j)} - y^{(i,j)} \right)^2 \right] + \underbrace{\left[\frac{\lambda}{2}\sum_{j=0}^{n_u-1} \sum_{p=0}^{k-1} (\mathbf{w}^{(j)}_p)^2 + \frac{\lambda}{2} \sum_{i=0}^{n_f-1} \sum_{p=0}^{k-1} (\mathbf{x}_p^{(i)})^2 + \frac{\lambda}{2} \sum_{i=0}^{n_f-1} \sum_{j=0}^{n_u-1} (\mathbf{b}^{(i,j)})^2]
\right]}_{\text{régularisation}}$$

<span style="color: blue;">Code(5)</span> <a id="code-5"></a>
```
def FonctionCout_3(W,X,B,Y,R,lambda_):
   """
 Arguments :
   X (ndarray (nb_films, nb_caracs)): matrice des caractéristiques des films
   W (ndarray (nb_caracs, nb_utilisateurs)): matrice des paramètres des utilisateurs
   B (ndarray (nb_films, nb_utilisateurs)) : matrice des parametres de biais.
   Y (ndarray (nb_films,nb_utilisateurs)): matrice des évaluations des utilisateurs pour les films
   R (ndarray (nb_films,nb_utilisateurs)): matrice où R(i, j) = 1 si le j-ème utilisateur a évalué le i-ème film
   lambda_ (float): paramètre de régularisation
 Retourne :
   C (float): Coût
   """
   c = (tf.linalg.matmul(X, W) + B - Y)*R
   C = 0.5 * tf.reduce_sum(c**2) + (lambda_/2) * (tf.reduce_sum(X**2) + tf.reduce_sum(W**2)+tf.reduce_sum(B**2))
   return C
```

#### 2.2a Descente de Gradient
<a id="gd"></a>
**---La première considération---**

Pour minimiser la fonction de coût, on souhaite trouver $W$ et $B$ optimaux en utilisant la descente de gradient. La formule pour entraîner $W$ et $B$ serait :
\begin{align*}
w^{(j)} &= w^{(j)} - \alpha \cdot \frac{\partial C(w^{(j)}, x^{(i)})}{\partial w^{(j)}} \\
x^{(i)} &= x^{(i)} - \alpha \cdot \frac{\partial C(w^{(j)}, x^{(i)})}{\partial x^{(i)}}
\end{align*}



Où :
- $\alpha$ est le taux d'apprentissage ([Adam Optimizer](https://www.geeksforgeeks.org/adam-optimizer/)).
- $\frac{\partial C(w^{(j)}, x^{(i)})}{\partial w^{(j)}}$ = $\left[\sum_{(i,j):r(i,j)=1} ({w}^{(j)} \cdot {x}^{(i)} - y^{(i,j)}) {x}^{(i)} + \lambda {w}^{(j)}\right]$.

- $\frac{\partial C(w^{(j)}, x^{(i)})}{\partial x^{(i)}}$ =  $\left[\sum_{(i,j):r(i,j)=1} ({w}^{(j)} \cdot {x}^{(i)} - y^{(i,j)}) {w}^{(j)} + \lambda {x}^{(i)}\right]$.



`TensorFlow` nous permet d'utiliser  `GrandientTape()` pour enregistrer les opérations utilisées pour calculer le coût. Les fonctions `gradient()`, `apply_gradient()` sont utilisées pour calculer les gradients correspondant au couple ($W$, $X$) et mettre à jour leurs valeurs.

<span style="color: blue;">Code(6)</span>
<a id="code-6"></a>
```
iterations = 500
lambda_ = 1
for iter in range(iterations):
    with tf.GradientTape() as tape:

        # Calculer le coût 
        valeur_cout = FonctionCout(W, X, B, Ynorm, R, lambda_)

    # Utiliser le gradient tape pour récupérer automatiquement les gradients des variables entraînables par rapport à la perte
    grads = tape.gradient(valeur_cout, [X, W])

    # Exécuter une étape de descente de gradient en mettant à jour la valeur des variables pour minimiser la perte
    opti.apply_gradients(zip(grads, [X, W]))
```

**---La deuxième considération---**

**(A)**
On doit encore entraîner deux variables $b_u^{(j)}$ et $b_f^{(i)}$, en plus de $w^{(j)}$ et $x^{(i)}$.
$$\begin{align*}
b_f^{(i)} &= b_f^{(i)} - \alpha \cdot \frac{\partial C(w^{(j)}, x^{(i)}, b_u^{(j)}, b_f^{(i)})}{\partial b_f^{(i)}} \\
b_u^{(j)} &= b_u^{(j)} - \alpha \cdot \frac{\partial C(w^{(j)}, x^{(i)}, b_u^{(j)}, b_f^{(i)})}{\partial b_u^{(j)}}
\end{align*}$$

<span style="color: blue;">Code(7)</span>
<a id="code-7"></a>
<span style="color: blue;"></span>

```
 for iter in range(iterations):
    # Utiliser GradientTape de TensorFlow pour enregistrer les opérations utilisées pour calculer le coût
    with tf.GradientTape() as tape:

        # Calculer le coût 
        valeur_cout = FonctionCout_2b(W, X, b_u,b_f, Y, R, lambda_)

    # Utiliser le gradient tape pour récupérer automatiquement les gradients des variables entraînables par rapport à la perte
    grads = tape.gradient(valeur_cout, [X, W,b_u,b_f])

    # Exécuter une étape de descente de gradient en mettant à jour la valeur des variables pour minimiser la perte
    taux_apprenti.apply_gradients(zip(grads, [X, W,b_u,b_f]))
````

**(B)**
On doit entraîner la variable $b^{(i,j)}$, en plus de $w^{(j)}$ et $x^{(i)}$. 
$$ b^{(i,j)} = b^{(i,j)} - \alpha \cdot \frac{\partial C(w^{(j)}, x^{(i)}, b^{(i,j)})}{\partial b^{(i,j)}} $$

<span style="color: blue;">Code(8)</span>
<a id="code-8"></a>
```
for iter in range(iterations):
    # Utiliser GradientTape de TensorFlow pour enregistrer les opérations utilisées pour calculer le coût
    with tf.GradientTape() as tape:

        # Calculer le coût 
        valeur_cout = FonctionCout_3(W, X, B, Y, R, lambda_)

    # Utiliser le gradient tape pour récupérer automatiquement les gradients des variables entraînables par rapport à la perte
    grads = tape.gradient(valeur_cout, [X, W,B])

    # Exécuter une étape de descente de gradient en mettant à jour la valeur des variables pour minimiser la perte
    taux_apprenti.apply_gradients(zip(grads, [X, W,B]))
```

### 3. Recommandations
<a id="recommandations"></a>
Rappelle : On prédit la note de l'utilisateur en approximant la matrice $Y$
$$\mathbf{\hat{Y}} = \mathbf{XW} + \mathbf{biais} $$


En pratique, On utilise la matrice normalisée de notes pour faire la fonction de coût.
De plus, il y a un doute sur les notes négatives en raison de [la normalisation des notes](#normalisation). Cependant, on peut résoudre cela en réajoutant la moyenne du film correspondant à ces notes. Pour les nouveaux utilisateurs qui n'ont encore évalué aucun film, les évaluations prédites pour eux seront simplement la moyenne des notes attribuées à chaque film. Ainsi, la note prévisionnelle est définie comme suit : 
$$\mathbf{\hat{Y}} = (\mathbf{XW} + \mathbf{biais}) + \mathbf{Ymean} $$

Critique:
- **La première considération** permet de prévoir les préférences des utilisateurs de manière personnalisée. Cela signifie que la prévision des notes dépend des biais ou des habitudes d'évaluation des utilisateurs. Ainsi, il y a presque toujours une déviation entre la note originale et la note prévue.

- **La deuxième considération (A)** se concentre sur l'affinage des paramètres de l'utilisateur et du film pour minimiser la fonction de coût. Cela explique les cas où l'écart entre la note originale et la note prévue peut être important. Cependant, la fonction de coût a tendance à être plus basse que pour la première considération parce que, mis à part les cas où l'écart est important, la différence entre la prédiction et la note originale est presque insignifiante. En revanche, il y a toujours un écart dû à la prédominance des biais dans le cas de la première considération.

- **La deuxième considération (B)** est notée comme étant que le modèle a le coût le plus bas. La matrice de biais B reflète la tendance des évaluations des utilisateurs et des films, et est maintenant entraînée dans la descente de gradient, ce qui permet au modèle de corriger les écarts entre la note originale et la note prévue. En d'autres termes, cette **considération (B)** est une version plus optimisée que **la première considération**.

### 4.Evaluations

- RMSE : $$
RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (\hat{r}_{ui} - r_{ui})^2}
$$


cần tính số lượng evaluation đã được donne ngay từ đầu ( ma trận R ) . (tf.linalg.matmul(X, W) + B - Y)*R ( đây là residus) . Xong rồi chia RMSE cho mu , rồi so sánh phần trăm

## Références
<a id="ref"></a>
1. Lü, L., Medo, M., et al. (2012). Recommender systems. Physics Reports, 519(1), 20-22.
2. Koren, Y., Bell, R., & Volinsky, C. (2009). Matrix Factorization Techniques for Recommender Systems. Computer, 42(8), 32
3. Koren, Y., Bell, R., & Volinsky, C. (2009). Matrix Factorization Techniques for Recommender Systems. Computer, 42(8), 33