## <center> École Polytechnique de Montréal <br> Département Génie Informatique et Génie Logiciel <br>  LOG6308 - Systèmes de recommandations <br> </center>

## <center> TP1 -- Approches collaboratives : utilisateur-utilisateur, item-item, et agglomérative </center>

Le travail doit être fait en **équipe de deux**. 

## Identification de l'équipe: 02_eq28

### Groupe de laboratoire: 02

### Equipe numéro : 28

### Membres:

François Tourigny (2079718)

Gabriel Côté (2082508)

<br>

**Nature de la contribution:** Décrivez brièvement ce qui a été fait par chaque membre de l’équipe. Tous les membres sont censés contribuer au développement. Bien que chaque membre puisse effectuer différentes tâches, vous devez vous efforcer d’obtenir une répartition égale du travail. Soyez précis sur la contribution de chacun.

### Enoncé du TP

Ce notebook se trouve sous l'énoncé général du TP au lien [cours.polymtl.ca/MDesmarais/log6308/20251/Tp/tp1.html](https://cours.polymtl.ca/MDesmarais/log6308/20251/Tp/tp1.html).  Les données sont accessibles de ce lien.<br>

### Jeux de données

Vous avez 3 fichiers à votre disposition:

- 'Data/votes.csv': Matrice de données de 100 000 votes faits par 943 utilisateurs et portant sur 1682 items.
    - **user.id**: Indentifiant de l'utilisateur
    - **item.id**: Identifiant de l'item/film
    - **rating**: vote attribué à l'item par l'utilisateur
    - **timestamp**: Date d'enregistrement du vote (à ignorer pour ce TP) 
- 'Data/items.csv': Matrice de données sur les films
    - **movie.id**: Identifiant du film
    - **movie.title**: Nom du film
    - **release.date**: Date de sortie
    - **video.release.date**: Date de sortie de la video
    - **IMDb.URL**: Lien vers le film
    - les 19 autres champs sont les categories des films qui sont les suivantes:
        "unknown", "Action", "Adventure", "Animation", "Children's", "Comedy", "Crime", "Documentary", "Drama", "Fantasy", "Film-Noir", "Horror", "Musical", "Mystery", "Romance", "Sci-Fi", "Thriller", "War", "Western"
- 'Data/u.csv': Matrice de données sur les utilisateurs
    - **id**: Identififiant de l'utilisateurs
    - **age**: Age de l'utilisateur
    - **gender**: Sexe de l'utilisateur
    - **job**: Emploi de l'utilisateur
    - **zip**: ZIP Code

Attention aux espaces et à la casse des differents champs. 

### Librairies permises

- numpy
- pandas
- seaborn
- matplotlib
- scipy


### Rédaction et remise du rapport

- Ce notebook constitue à la fois votre code et votre rapport. Il contient un squelette pour guider votre travail.

- Complétez directement le notebook, vous êtes libres de créer des nouvelles cellules de code ou de texte.

- <u>**IMPORTANT**</u> Remettez le ZIP contenant les données et le notebook sur Moodle avec le nom `MATRICULE1_MATRICULE2.ipynb` pour le notebook et `MATRICULE1_MATRICULE2.zip` pour le zip.


### CRITÈRES

- La démarche est valide et bien expliquée
- Les réponses sont correctes et commentées
- L'implémentation est performante et repose sur le calcul linéaire lorsqu'approprié
- La présentation est soignée et bien rédigée


### CODE D’HONNEUR

- __Règle 1__:  Le plagiat de code est bien évidemment interdit. Toute utilisation de code doit être référencée adéquatement. Vous __ne pouvez pas__ soumettre un code écrit par quelqu’un d’autre.

- __Règle 2__: Vous êtes libres de discuter des idées et des détails de mise en œuvre avec d'autres équipes. Cependant, vous ne pouvez en aucun cas consulter le code d'une autre équipe ou incorporer leur code dans votre TP.

- __Règle 3__:  Vous ne pouvez pas partager votre code publiquement (par exemple, dans un dépôt GitHub public) tant que le cours n'est pas fini.

## Question 1

### 1. Chargement des assets

#### 1.1. Chargement des librairies

In [4]:
import numpy as np
import pandas as pd
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
import scipy as sp

#### 1.2. Chargement des données

Affichez tous les jeux de données

In [5]:
# TODO  --------------------------------- Préparation des Données ------------------------
## Chargement des votes
votes = pd.read_csv("data/ratings.csv")
# items 
items = pd.read_csv("data/items.csv")
# users
user = pd.read_csv("data/user.csv")
# End TODO

In [None]:
### TODO: Afficher les jeux de donnes
votes.head()
##End TODO

In [None]:
items.head()

In [None]:
user.head()

### 1.3. Calcul de performances

On désire calculer les performances prédictives de quelques approches qui donnent une base de référence: le vote aléatoire, le vote moyen, le vote moyen utilisateur, le vote moyen item et finalement, le vote attendu (moyenne du vote moyen utilisateur et item). Puis rapporter l'erreur quadratique moyenne et l'erreur absolue moyenne (1) sans validation croisée et (2) avec validation croisée de 5 replis. Et enfin, déterminer si la différence entre l'erreur quadratique moyenne obtenue par le vote moyen item et le vote moyen utilisateur est statistiquement significative par un test d'hypothèse et en affichant les résultats visuellement. Pour cela, on procède en plusieurs étapes.


#### 1.3.1. Prétrairements
L’objectif ici est de créer une matrice utilisateurs-items qui, à chaque utilisateur, associe les votes qu’il a attribués aux films.

In [None]:
## Conversion du Pandas Datafram en Matrice Utilisateur Item : MUI
MUI = votes.pivot(index="user.id", columns="item.id", values="rating")
MUI.head()

In [10]:
## Convertir le DF à une matrice numpy
MUI_numpy = MUI.to_numpy()
MUI_numpy_flat = MUI_numpy.reshape(-1)


### 1.3.2. Fonctions de calcul d'erreurs

Afin de calculer l'erreur quadratique moyenne et l'erreur absolue moyenne vous devez utiliser les fonctions ci-dessous. Completez leurs codes.

In [11]:
def RMSE_mat(y_pred, y_true):
    return np.sqrt(np.nanmean((y_pred - y_true) ** 2))

In [12]:
def MAE_mat(y_pred, y_true):
    return np.nanmean(np.abs(y_pred - y_true))

#### 1.3.3. Calcul des performances sans validation croisée

La validation croisée est une technique qui permet d'évaluer les performances d'un modèle/système sur de nouvelles données. Elle permet d'évaluer la capacité d'un modèle à généraliser la comprehension d’un problème. C’est-à-dire, à faire de bonnes prédictions sur des données qu’il n’a pas encore vues. Dans cet exercice, elle nous permet de savoir si l'approche employée permet de prédire correctement les votes attendues. Mais avant d'y arriver, dans cet exercice, afin de bien comprendre l'intérêt de cette technique, il est intéressant de commencer par une approche sans validation croisée (on utilise toutes les données).

Le code ci-dessous permet de calculer les prédictions de votes sans validation croisée. Complétez-le et commentez les résultats.

In [13]:
# TODO
## Vote aleatoire
def vote_aleatoire():
    return np.random.randint(6)

## Vote moyen
def vote_moyen(df):
    return np.nanmean(df)

## Vote moyen utilisateur
def vote_moyen_utilisateurs(df):
    return np.nanmean(df, axis=1)

## Vote moyen item
def vote_moyen_items(df):
    return np.nanmean(df, axis=0)

## Vote Moyen Attendu (Moyenne du vote moyen utilisateur et item)
def vote_moyen_attendu(df):
    return (vote_moyen_utilisateurs(df) + vote_moyen_items(df))/2


#### 1.3.4. Calcul des performances avec validation croisée

Les cellules ci-dessous contiennent le code pour faire la prediction de votes et le calcul des erreurs quadratiques moyennes et erreurs absolue moyenne. Completez le et commentez les resultats.

In [None]:
## Création des indices pour les valeurs différentes de np.nan
indices = np.arange(0, MUI_numpy.shape[0]*MUI_numpy.shape[1])
indices_na = indices[~np.isnan(MUI_numpy_flat)]

## Split Train Test des indices
nbre_replis = 5
np.random.shuffle(indices_na)

idx_split = np.split(indices_na, nbre_replis)

print(indices_na.shape)

In [None]:
## Je construis ma liste d'indice train et test
# Pour faire une cross validation à 5 replis il suffit de remplacer 0 par i
# et itérer de 0 à 4
list_RMSE = []
list_MAE = []

for i in range(nbre_replis):

    MUI_numpy_train_idx = np.concatenate(idx_split[:i] + idx_split[i+1:]) # Liste d'indices train
    MUI_numpy_test_idx = idx_split[i] # Liste d'indices test

    ## J'enlève les valeurs de test de la matrice d'entrainement, et vice versa
    MUI_numpy_train = np.copy(MUI_numpy)
    MUI_numpy_test = np.copy(MUI_numpy)
    
    row_train, col_train = zip(*[(idx//MUI_numpy.shape[1], idx%MUI_numpy.shape[1]) for idx in MUI_numpy_train_idx])
    row_test, col_test = zip(*[(idx//MUI_numpy.shape[1], idx%MUI_numpy.shape[1]) for idx in MUI_numpy_test_idx])

    
    #  Je redonne la structure de matrice aux ensembles de test et d'entrainement
    MUI_numpy_test[row_train, col_train] = np.nan
    MUI_numpy_train[row_test, col_test] = np.nan


    # On s'assure d'avoir les bonnes dimensions
    #print(MUI_numpy_train[~np.isnan(MUI_numpy_train)].shape)
    #print(MUI_numpy_test[~np.isnan(MUI_numpy_test)].shape)

    # Documentation pour np.nanmean : https://numpy.org/doc/stable/reference/generated/numpy.nanmean.html
        
    # --------------------------------- Prédictions des Valeurs Test ---------------------------------
    # Prédiction des votes aléatoires entre 1 et 5 avec une distribution uniforme d'entiers
    votes_alea_pred      = np.full(MUI_numpy_test.shape, vote_aleatoire())

    # Vote Moyen
    # Prédiction des votes grâce à la moyenne des votes de la matrice d'entrainement
    votes_moyenne_pred   = np.full(MUI_numpy_test.shape, vote_moyen(MUI_numpy_train))

    # Vote Moyen Utilisateur
    # Prédiction des votes grâce à la moyenne des votes par utilisateur de la matrice d'entrainement
    votes_moyenne_U_pred = np.tile(vote_moyen_utilisateurs(MUI_numpy_train)[:, np.newaxis], (1, MUI_numpy_test.shape[1]))

    # Vote Moyen Utilisateur
    # Prédiction des votes grâce à la moyenne des votes par item de la matrice d'entrainement
    votes_moyenne_I_pred = np.tile(vote_moyen_items(MUI_numpy_train), (MUI_numpy_test.shape[0], 1))

    # Vote Moyen Attendu (Moyenne du vote moyen utilisateur et item)
    moyenne_U_repeat = np.tile(vote_moyen_utilisateurs(MUI_numpy_train)[:, np.newaxis], (1, MUI_numpy_test.shape[1]))
    moyenne_I_repeat = np.tile(vote_moyen_items(MUI_numpy_train), (MUI_numpy_test.shape[0], 1))

    votes_moyenne_A_pred = (moyenne_U_repeat + moyenne_I_repeat)/2

    # Calcul des RMSE
    list_matrices = [votes_alea_pred, votes_moyenne_pred, votes_moyenne_U_pred, votes_moyenne_I_pred, votes_moyenne_A_pred]

    list_RMSE.append(np.array([RMSE_mat(mat, MUI_numpy_test) for mat in list_matrices]))
    list_MAE.append(np.array([MAE_mat(mat, MUI_numpy_test) for mat in list_matrices]))

list_RMSE = np.array(list_RMSE)
list_MAE = np.array(list_MAE)

print("Résultats pour le vote aléatoire sur l'ensemble de test :")
print("RMSE: ", list_RMSE.mean(axis=0)[0])
print("MAE: ", list_MAE.mean(axis=0)[0],'\n')

print("Résultats pour le vote moyen sur l'ensemble de test :")
print("RMSE: ", list_RMSE.mean(axis=0)[1])
print("MAE: ", list_MAE.mean(axis=0)[1],'\n')

print("Résultats pour le vote moyen utilisateur sur l'ensemble de test :")
print("RMSE: ", list_RMSE.mean(axis=0)[2])
print("MAE: ", list_MAE.mean(axis=0)[2],'\n')

print("Résultats pour le vote moyen item sur l'ensemble de test :")
print("RMSE: ", list_RMSE.mean(axis=0)[3])
print("MAE: ", list_MAE.mean(axis=0)[3],'\n')

print("Résultats pour le vote moyen attendu sur l'ensemble de test :")
print("RMSE: ", list_RMSE.mean(axis=0)[4])
print("MAE: ", list_MAE.mean(axis=0)[4],'\n')

### 1.4. Analysez des resultats

On souhaite analyse et valider les resultats obtenus

#### 1.4.1. Analyse comparatives des resultats

Faites une analyse comparative des résultats  obtenus sans et avec la validation croisée. À quoi s'attendaient-t-on ? Qu'est-ce qu'on a obtenu? Pourquoi ?

In [16]:
#TODO Analayse

#End TODO

#### 1.4.2. Test d'hypothèse
On souhaites déterminer si la différence entre l'erreur quadratique moyenne obtenue par le vote moyen item et le vote moyen utilisateur est statistiquement significative. Faites un test d'hypothèse à cet fin.

In [17]:
# TODO
## t-Test:

# End TODO

## Question 2 - Filtres Collaboratifs

On désire calculer les erreurs des prédictions des approches de filtres collaboratifs item-item et utilisateur-utilisateur. Pour cela, on se propose d'utiliser les fonctions ci-dessous qui permettent de:
 - Calculer la similarité cosinus entre deux vecteurs/matrices ;
 - Predire les votes par l'approche filtrage collaboratifs .

Completez les!

In [104]:
## Similarité Cosinus entre les vecteurs ligne de la matrice A
#  et les vecteurs ligne de la matrice B
def cosinus_matrices(A, B):
    A = A.copy()
    B = B.copy()

    # Remplace les nan par 0, pour ne pas rajouter + de NAN après le produit matriciel
    A = np.nan_to_num(A, nan=0.0)
    B = np.nan_to_num(B, nan=0.0)

    # Matrice colonne des normes de chacuns des vecteurs de A
    col_norm_A = np.linalg.norm(A, axis=1, keepdims=True)

    # Matrice ligne des normes de chacuns des vecteurs de B
    col_norm_B = np.linalg.norm(B, axis=1, keepdims=True).T 

    dot_product = np.dot(A, B.T)
    norm_product = col_norm_A * col_norm_B
    cos_similarity = dot_product / norm_product
    cos_similarity = np.nan_to_num(cos_similarity, nan=0.0)
    cos_similarity[cos_similarity == 1] = 0

    return cos_similarity

In [109]:
def filtre_collaboratif(V, W):

    # Crée une matrice booléenne de la même taille que V. Les éléments qui ne sont pas NaN dans V 
    # (c'est-à-dire les éléments pour lesquels une note existe) sont marqués par 1, et les NaN par 0. 
    # Cette matrice sera utilisée pour s'assurer que seules les notes existantes contribuent aux prédictions.
    Bool_m = (~np.isnan(V))*1 
    #print(Bool_m)

    V = V.copy()
    W = W.copy()
    V_moy = vote_moyen_utilisateurs(V)

    # Les valeurs NaN dans V et W sont remplacées par 0. Cela permet d'effectuer des opérations matricielles numpy sans erreur.
    V = np.nan_to_num(V, nan=0.0)
    W = np.nan_to_num(W, nan=0.0)

    # Calcule la somme des similarités absolues pour chaque utilisateur, mais seulement pour les items qu'ils ont notés (grâce à Bool_m). 
    K = 1 / np.sum(np.abs(W), axis=0)
    # print(np.sum(np.abs(W), axis=0))
    # print(f"K  : {K}")

    # Calcule les notes prédites. 
    #print(f"V  : {V}")
    #print(f"V_moy  : {V_moy}")
    V_res = V - V_moy[:, np.newaxis]
    #print(f"V_res  : {V_res}")
    n_rows, n_columns = V.shape

    V_pred = V.copy()

    for a in range(n_rows):
        for j in range(n_columns):
            # print(W[a].shape)
            # print(V_res[:, j].shape)
            V_pred[a, j] = V_moy[a] + K[a] * np.sum(W[a] * V_res[:, j])

    return V_pred

Maintenant, pour le calcul des differents erreur, procédez par étapes et rapportez, à chaque étape, l'erreur quadratique moyenne et l'erreur absolue moyenne à partir de la matrice de prédiction obtenue à l'aide de la matrice cosinus de similarité.

M_pred = MUI x M_cos

In [None]:
test_mat = np.array([[5, 1, np.nan, 2], [4,1,1,3], [4,2,1,2], [1,4,3,2]])
test_cos = cosinus_matrices(test_mat, test_mat)
print(test_cos)
test_pred = filtre_collaboratif(test_mat, test_cos)
print(test_pred)

## 2 -a) Prédiction avec tous les utilisateurs/items 

Prediction (sans voisins rapprochés) et sans correction pour biais utilisateur/item (sans normaliser en soustrayant la moyenne utilisateur/item)

In [None]:
# TODO
## Approche Utilisateur
# MUI_filled = np.nan_to_num(MUI_numpy, nan=0.0)
M_cosU = cosinus_matrices(MUI_numpy, MUI_numpy)
MUI_U_pred = filtre_collaboratif(MUI_numpy, M_cosU)
print(MUI_numpy)
print(MUI_U_pred)

#End TODO

In [None]:
rmse_U = RMSE_mat(MUI_U_pred, MUI_numpy)
mae_U = MAE_mat(MUI_U_pred, MUI_numpy)
print("RMSE: ", rmse_U)
print("MAE: ", mae_U,'\n')

In [None]:
# TODO

## Approche Item
M_cosI = cosinus_matrices(MUI_numpy.T, MUI_numpy.T)
MUI_I_pred = filtre_collaboratif(MUI_numpy.T, M_cosI).T

#End TODO

In [None]:
rmse_I = RMSE_mat(MUI_I_pred, MUI_numpy)
mae_I = MAE_mat(MUI_I_pred, MUI_numpy)
print("RMSE: ", rmse_I)
print("MAE: ", mae_I,'\n')

## 2 -b) Correction pour biais utilisateur/item. 

Vous pouvez prendre l'ensemble des les valeurs observées dans le calcul des moyennes items et utilisateurs (des précisions sur ce point seront données en classe — voir aussi le bonus)


> Ici le biais utilisé est le Vote moyen.  
Attention (Moyenne du vote moyen utilisateur et item)

In [None]:
#TODO

## Calcul de la moyenne attendue
votes_moyenne_U_pred = vote_moyen_utilisateurs(MUI_numpy)
#print(votes_moyenne_U_pred)

# Vote Moyen Utilisateur
votes_moyenne_I_pred = vote_moyen_items(MUI_numpy)

# # Vote Moyen Attendu (Moyenne du vote moyen utilisateur et item)
moyenne_U_repeat = np.tile(vote_moyen_utilisateurs(MUI_numpy)[:, np.newaxis], (1, MUI_numpy.shape[1]))
moyenne_I_repeat = np.tile(vote_moyen_items(MUI_numpy), (MUI_numpy.shape[0], 1))

# # Notre Baseline
R_moy = (moyenne_U_repeat + moyenne_I_repeat) / 2

#print(R_moy)
rmse = RMSE_mat(R_moy, MUI_numpy)
mae = MAE_mat(R_moy, MUI_numpy)
print("RMSE: ", rmse)
print("MAE: ", mae,'\n')

#End TODO

NB : Il est possible d'utiliser la matrice de vote moyen utilisateur ou item au lieu d'utiliser le vote attendu. Néanmoins le vote attendu donne de meilleurs résultats.

In [None]:
#TODO : Approche Utilisateur
## Calculer la matrice de vote Item-Item sans biais


MUI_WB_U_U = MUI_numpy - moyenne_U_repeat

#Code
cos_U_WB = cosinus_matrices(MUI_WB_U_U, MUI_WB_U_U )
M_pred_U_WB = filtre_collaboratif(MUI_WB_U_U, cos_U_WB)

M_final = M_pred_U_WB + moyenne_U_repeat

rmse_corrected = RMSE_mat(M_final, MUI_numpy)
mae_corrected = MAE_mat(M_final, MUI_numpy)

print("Avec correction des biais - RMSE:", rmse_corrected)
print("Avec correction des biais - MAE:", mae_corrected)


#End TODO

In [None]:
#TODO : Approche Item
## Calculer la matrice de vote Item-Item sans biais


MUI_WB_I_I = MUI_numpy - moyenne_I_repeat

#Code
cos_I_WB = cosinus_matrices(MUI_WB_I_I.T, MUI_WB_I_I.T )
M_pred_I_WB = filtre_collaboratif(MUI_WB_I_I.T, cos_I_WB).T

M_final = M_pred_I_WB + moyenne_I_repeat

rmse_corrected = RMSE_mat(M_final, MUI_numpy)
mae_corrected = MAE_mat(M_final, MUI_numpy)

print("Avec correction des biais - RMSE:", rmse_corrected)
print("Avec correction des biais - MAE:", mae_corrected)


#End TODO

## 2 -c) Ajout de voisins rapprochés

Avec k=100 voisins rapprochés

In [142]:
import numpy as np

def filtre_collaboratif_k_voisins(V, W, k=10):
    """
    Implémente le filtrage collaboratif basé sur l'approche utilisateur-utilisateur (U-U)
    en utilisant uniquement les k plus proches voisins pour la prédiction.
    
    Args:
        V (numpy.ndarray): Matrice des votes (utilisateurs x items)
        W (numpy.ndarray): Matrice de similarité utilisateur-utilisateur
        k (int): Nombre de voisins à prendre en compte

    Returns:
        numpy.ndarray: Matrice des votes prédits
    """
    
    # Crée une matrice booléenne indiquant les votes existants
    Bool_m = (~np.isnan(V)) * 1 

    V = V.copy()
    W = W.copy()
    
    # Calcule la moyenne des votes par utilisateur
    V_moy = vote_moyen_utilisateurs(V)  # moyenne par utilisateur (lignes)
    
    # Remplace les NaN par 0 pour éviter les erreurs dans les calculs matriciels
    V = np.nan_to_num(V, nan=0.0)
    W = np.nan_to_num(W, nan=0.0)

    # Nombre d'utilisateurs et d'items
    n_rows, n_columns = V.shape

    # Initialisation de la matrice des prédictions
    V_pred = V.copy()

    # Parcours des utilisateurs pour calculer leurs prédictions
    for a in range(n_rows):
        # Indices des k plus proches voisins (triés par similarité décroissante)
        voisins_k = np.argsort(-np.abs(W[a]))[1:k+1]  # [1:k+1] pour exclure a lui-même

        # Normalisation : somme des similarités absolues des voisins k
        K_a = 1 / np.sum(np.abs(W[a, voisins_k]) + 1e-8)  # Évite division par zéro
        
        for j in range(n_columns):
            # Prédiction basée uniquement sur les k voisins
            V_pred[a, j] = V_moy[a] + K_a * np.sum(W[a, voisins_k] * (V[voisins_k, j] - V_moy[voisins_k]))

    return V_pred


In [None]:
## Approche Utilisateur
rmse_UU_values = []
mae_UU_values = []
k_values = range(10, 101, 10)

M_cos_WB_UU = cosinus_matrices(MUI_WB_U_U, MUI_WB_U_U)
for n_voisins in k_values:
    M_pred_k_UU = filtre_collaboratif_k_voisins(MUI_WB_U_U, M_cos_WB_UU, n_voisins)
    M_final_k_UU = M_pred_k_UU + moyenne_U_repeat

    rmse_UU = RMSE_mat(M_final_k_UU, MUI_numpy)
    mae_UU = MAE_mat(M_final_k_UU, MUI_numpy)

    rmse_UU_values.append(rmse_UU)
    mae_UU_values.append(mae_UU)

    print(f"Approche Utilisateur (k={n_voisins}) :\nRMSE: {rmse_UU}\nMAE: {mae_UU}")


Approche Utilisateur (k=10) :
RMSE: 0.8888093500340088
MAE: 0.6988697974034259
Approche Utilisateur (k=20) :
RMSE: 0.8916017740261649
MAE: 0.7012879698113621
Approche Utilisateur (k=30) :
RMSE: 0.8961159543878365
MAE: 0.7049645584518293
Approche Utilisateur (k=40) :
RMSE: 0.9002987593996223
MAE: 0.7086344139698807
Approche Utilisateur (k=50) :
RMSE: 0.9040846043968973
MAE: 0.711763539395415
Approche Utilisateur (k=60) :
RMSE: 0.9074289376237801
MAE: 0.71474180301789


In [None]:
# RMSE pour U-U
plt.subplot(1, 2, 1)
plt.plot(k_values, rmse_UU_values, label='RMSE', marker='o', color='b')
plt.plot(k_values, mae_UU_values, label='MAE', marker='o', color='r')
plt.xlabel('Nombre de voisins k')
plt.ylabel('RMSE/MAE')
plt.title('U-U')
plt.legend()

In [None]:
## Approche Item
rmse_II_values = []
mae_II_values = []
k_values = range(10, 101, 10)

M_cos_WB_II = cosinus_matrices(MUI_WB_I_I.T, MUI_WB_I_I.T)
for n_voisins in k_values:
    M_pred_k_II = filtre_collaboratif_k_voisins(MUI_WB_I_I.T, M_cos_WB_II, n_voisins).T
    M_final_k_II = M_pred_k_II + moyenne_I_repeat

    rmse_II = RMSE_mat(M_final_k_II, MUI_numpy)
    mae_II = MAE_mat(M_final_k_II, MUI_numpy)

    rmse_II_values.append(rmse_II)
    mae_II_values.append(mae_II)

    print(f"Approche Utilisateur (k={n_voisins}) :\nRMSE: {rmse_II}\nMAE: {mae_II}")

In [None]:
# RMSE pour I-I
plt.subplot(1, 2, 1)
plt.plot(k_values, rmse_UU_values, label='RMSE', marker='o', color='b')
plt.plot(k_values, mae_UU_values, label='MAE', marker='o', color='r')
plt.xlabel('Nombre de voisins k')
plt.ylabel('RMSE/MAE')
plt.title('I-I')
plt.legend()