## Recommender System - Guide du code et rappel th√©orique

### Structure et ordre d'utilisation

**Mapping**
unzip.py renvoie les datas
constants.py renvoie vers loaders.py

loaders.py renvoie vers coding1.py, userbased.ipynb, contentbased.ipynb, models.py

models.py renvoie vers evaluators.ipynb, hackaton_make_predictions.ipynb, configs.py

configs.py renvoie vers evaluators.ipynb

user_based.ipynb et content_based.ipynb permettent de comprendre la structure des 2 mod√®les, mais ceux-ci sont doubl√©s et utilit√©s √† partir de models.py


**Workflow**
1. Configurer les param√®tres souhait√©s dans Configs.py
2. Run chaque block dans Evaluations.ipynb dans l'ordre
3. Analyser les resultats obtenus dans mlsmm2156/data/small/evaluations

### Description des fichiers et leurs fonctions

#### constants.py

Ce code d√©finit une classe de constantes Constant qui centralise tous les chemins d'acc√®s et noms de colonnes utilis√©s pour manipuler les donn√©es. L'objectif est d'automatiser et d'uniformiser les notations pour tous les fichiers.

Cela comprend les chemins vers les fichiers de contenus (movies.csv), d'√©vidences (ratings.csv), les noms des colonnes importantes (comme userId, movieId, rating), ainsi que l'√©chelle des notes (de 1 √† 5). 

#### loaders.py

Ce code sert √† charger les donn√©es. 

**load_ratings** et **load_movies** : charger les ratings et les movies sous forme de dataframe 
Si surprise_format=True, elle convertit les donn√©es au format requis par la biblioth√®que Surprise, qui est utilis√©e pour impl√©menter et √©valuer des algorithmes de recommandation collaboratifs.
Sinon, elle retourne simplement le fichier des ratings sous forme de DataFrame pandas classique, ce qui est utile pour l'exploration, le pr√©traitement ou l‚Äôanalyse descriptive.

**export_evaluation_report** : permet d‚Äôenregistrer les r√©sultats d‚Äôune √©valuation (sous forme de DataFrame) dans un fichier CSV, avec un nom bas√© sur la date du jour pour √©viter d‚Äô√©craser les anciens rapports. Le fichier est sauvegard√© dans le dossier d√©fini par C.EVALUATION_PATH.

#### coding1.py

Ce code effectue l'analyse exploratoire des donn√©es de notation dans un syst√®me de recommandation. Il commence par charger les jeux de donn√©es (notes et films), puis calcule des statistiques descriptives essentielles : nombre de notes, d'utilisateurs, de films, fr√©quence minimale et maximale de notation par film, valeurs de notes possibles, et nombre de films jamais not√©s. Ensuite, il visualise la distribution des notations par film pour mettre en √©vidence la "long-tail property", caract√©ristique fr√©quente dans les syst√®mes de recommandation (peu de films tr√®s populaires, beaucoup peu not√©s). Enfin, il construit une matrice creuse (sparse matrix) des interactions utilisateur-film, utile pour les algorithmes collaboratifs, et en calcule la sparsit√©, c‚Äôest-√†-dire le taux d'absences d‚Äôinteractions.

#### models.py

L‚Äôid√©e de ce fichier est de combiner plusieurs strat√©gies pour estimer la pr√©f√©rence d‚Äôun utilisateur pour un item donn√©, et de produire des recommandations adapt√©es. Ce fichier inclut √† la fois des mod√®les simples servant de r√©f√©rences, des algorithmes classiques comme la factorisation matricielle (SVD), ainsi qu‚Äôun mod√®le content-based qui exploite des caract√©ristiques d√©taill√©es des items et des m√©thodes d‚Äôapprentissage supervis√© pour pr√©dire les notes.

**get_top_n** : cette fonction transforme une liste brute de pr√©dictions en une liste organis√©e des meilleures recommandations pour chaque utilisateur. Elle prend en entr√©e un ensemble de pr√©dictions (notes estim√©es par un mod√®le pour chaque couple utilisateur-item) et retourne pour chaque utilisateur une liste des items les mieux not√©s selon ces pr√©dictions, limit√©e √† un nombre n choisi. Pour √©viter que des pr√©dictions √† valeur identique se retrouvent toujours dans le m√™me ordre, la fonction introduit un m√©lange al√©atoire avant de trier par ordre d√©croissant, ce qui permet d‚Äôavoir un comportement plus √©quitable. Ce m√©canisme est utile pour obtenir une liste finale qui pourra √™tre pr√©sent√©e √† l‚Äôutilisateur.

**ModelBaseline1** : cette classe pr√©dit toujours la m√™me note fixe (2) pour tous les utilisateurs et items, servant de r√©f√©rence simple

**ModelBaseline2** : cette classe g√©n√®re des pr√©dictions al√©atoires dans la plage des notes possibles, pour simuler un mod√®le sans apprentissage

**ModelBaseline3** : cette classe pr√©dit la moyenne globale des notes observ√©es, ce qui refl√®te une tendance g√©n√©rale sans personnalisation

**ModelBaseline4(SVD)** : impl√©mentation d‚Äôun algorithme plus avanc√©, bas√©e sur la factorisation matricielle dite SVD. Cette m√©thode cherche √† repr√©senter chaque utilisateur et chaque item dans un espace latent de faible dimension, de mani√®re √† mod√©liser les interactions sous-jacentes qui expliquent les √©valuations. Lors de l‚Äôentra√Ænement, ce mod√®le apprend ces repr√©sentations latentes √† partir du jeu de donn√©es. Sa m√©thode estimate utilise ces repr√©sentations pour pr√©dire la note qu‚Äôun utilisateur donnerait √† un item, en calculant un produit scalaire pond√©r√© des vecteurs latents.

**ContentBased** : copie du mod√®le dans le fichier content_based.ipynb -> voir explications l√†-bas

**UserBased** : copie du mod√®le dans le fichier user_based.ipynb -> voir explications l√†-bas

#### user_based.ipynb

//1.Loading Data//
Chargement des donn√©es, cr√©ation du trainset et de l'antitest-set

//2. Explore Surprise's user based algorithm//
Ce code met en ≈ìuvre un algorithme user-user avec moyennes centr√©es (KNNWithMeans) √† l‚Äôaide de la biblioth√®que Surprise. Il permet de visualiser les r√©sultats du mod√®le via une m√©trique choisie et d'analyser les variations des hyperparam√®tres.

Voici les √©tapes cl√©s :
    Le mod√®le est entra√Æn√© sur l‚Äôensemble d‚Äôentra√Ænement trainset.
    Une pr√©diction est ensuite effectu√©e pour l'utilisateur 11 et le film 364, illustrant l‚Äôutilisation du mod√®le pour une recommandation sp√©cifique.
    Une pr√©diction de masse est ensuite g√©n√©r√©e sur l'anti-test set (toutes les paires utilisateur-film inconnues), et les 30 premi√®res sont affich√©es avec la note estim√©e.
    Enfin, la matrice de similarit√© utilisateur-utilisateur est partiellement affich√©e pour visualiser comment les utilisateurs sont corr√©l√©s entre eux selon l‚Äôalgorithme.

//3. Implement and explore a customizable user-based algorithm//
Algorithme de Surprise. Le mod√®le apprend donc une matrice de similarit√© entre utilisateurs, puis pr√©dit les notes d‚Äôun utilisateur pour un film en agissant comme une moyenne pond√©r√©e des notes donn√©es √† ce film par les utilisateurs similaires

**__init__(self, k=3, min_k=1, sim_options={}, kwargs)** : permet d'initialiser les param√®tres 

**fit(self, trainset)** : Cette m√©thode pr√©pare tout ce dont le mod√®le a besoin pour fonctionner : 
il stocke le trainset fourni par Surprise 
puis construit la matrice utilisateur-film ratings_matrix avec des NaN pour les absences de notes
puis calcule la matrice de similarit√© entre utilisateurs selon la m√©thode choisie (msd, jaccard, etc.)
puis calcule les moyennes des notes donn√©es par chaque utilisateur (utile comme base de pr√©diction par d√©faut ou de correction)

**estimate(self, u, i)** : Cette m√©thode pr√©dit la note que l'utilisateur u pourrait donner √† l‚Äôitem (film) i :
Si l‚Äôutilisateur ou le film est inconnu, retourne NaN.
Utilise la moyenne des notes de l'utilisateur u comme pr√©diction de base.
Cherche tous les autres utilisateurs ayant not√© l‚Äôitem i.
Calcule la diff√©rence entre leur note et leur propre moyenne, pond√©r√©e par leur similarit√© avec u.
Prend les k utilisateurs les plus similaires, et combine leur contribution pour ajuster la pr√©diction.
Si le nombre de voisins valides est sup√©rieur √† min_k, la pr√©diction est retourn√©e ; sinon on garde la moyenne de u.

**compute_ratings_matrix(self)** : Cr√©e une matrice dense ratings_matrix, de taille (n_users, n_items), initialis√©e √† NaN. Elle est remplie avec les notes connues du trainset. Elle est utilis√©e pour comparer les utilisateurs entre eux

**compute_similarity_matrix(self)** : Construit la matrice de similarit√© sym√©trique entre utilisateurs :
Si la m√©thode est msd (Mean Squared Difference) : compare les notes communes des utilisateurset applique la formule sim = 1 / (1 + MSD) si le support est suffisant.
Si la m√©thode est jaccard : calcule la similarit√© entre les ensembles de films not√©s (ind√©pendamment des valeurs de note).

Le r√©sultat est une matrice carr√©e sim de taille (n_users, n_users).

**jaccard_similarity(self, row_i, row_j)** : Cette fonction calcule la similarit√© de Jaccard entre deux utilisateurs en se basant uniquement sur les films qu‚Äôils ont not√©s (et non sur la note elle-m√™me)

//4. Compare KNNWithMeans with UserBased//

Ce code compare les pr√©dictions du mod√®le UserBased impl√©ment√© manuellement √† celles du mod√®le KNNWithMeans de Surprise, en utilisant les m√™mes param√®tres de similarit√© (msd, k=3, min_k=2). L‚Äôobjectif est de valider que les deux algorithmes produisent des r√©sultats coh√©rents, ce qui permet de v√©rifier la justesse de l‚Äôimpl√©mentation personnalis√©e du UserBased. Cela sert donc de test d‚Äô√©quivalence entre une version maison et une version de r√©f√©rence.

//5. Compare MSD and Jaccard//

Ce code compare simplement les pr√©dictions faites par la similarit√© MSD et la similarit√© Jaccard, tout deux plac√© dans le mod√®le UserBased

#### content_based

//Explore and select content features//

Ce bloc de code sert √† extraire et construire des caract√©ristiques (features) descriptives √† partir des donn√©es de films pour enrichir le mod√®le de recommandation. Il est utilis√© pour de la recherche mais pas forc√©ment utile.

//Build a Content Based Model//

**class ContentBased**
Ce mod√®le de recommandation bas√© sur le contenu apprend une fonction de notation personnalis√©e pour chaque utilisateur. Il transforme d'abord chaque film en un vecteur de caract√©ristiques (features) descriptives, puis, pour chaque utilisateur, il entra√Æne un mod√®le de r√©gression distinct qui apprend √† pr√©dire les notes de cet utilisateur en se basant sur les caract√©ristiques des films qu'il a d√©j√† √©valu√©s.

**__init__(self, features_method, regressor_method)** : C'est le constructeur de la classe. Il initialise l'algorithme en stockant les m√©thodes choisies pour l'extraction des caract√©ristiques (features_method) et pour le mod√®le de r√©gression (regressor_method). Il appelle √©galement create_content_features une premi√®re fois pour g√©n√©rer le DataFrame global des caract√©ristiques des items (films), qui sera utilis√© par tous les utilisateurs.

**create_content_features(self, features_methods)** : Cette fonction est le "Content Analyzer". Elle charge les informations sur les items (films) et, en fonction des features_methods sp√©cifi√©s (ex: "title_length", "Genre_binary", "Tags" avec TF-IDF), elle construit un DataFrame o√π chaque ligne correspond √† un film et chaque colonne √† une caract√©ristique extraite et pr√©trait√©e (souvent normalis√©e).

**fit(self, trainset)** : C'est le "Profile Learner". Cette m√©thode entra√Æne le mod√®le.

    Elle s'assure d'abord que les content_features sont √† jour (en les recalculant si n√©cessaire, bien que dans votre code actuel, elles soient d√©j√† calcul√©es dans __init__).
    Elle initialise un dictionnaire user_profile pour stocker un mod√®le de r√©gression distinct pour chaque utilisateur.
    Pour chaque utilisateur du trainset :
        Elle r√©cup√®re les films que l'utilisateur a not√©s et leurs notes.
        Elle associe ces films √† leurs caract√©ristiques (issues de self.content_features).
        Elle utilise ces caract√©ristiques comme variables explicatives (X) et les notes de l'utilisateur comme variable cible (y).
        Elle entra√Æne un mod√®le de r√©gression (sp√©cifi√© par self.regressor_method, ex: LinearRegression, RandomForestRegressor) sur ces donn√©es sp√©cifiques √† l'utilisateur.
        Le mod√®le entra√Æn√© pour cet utilisateur est stock√© dans self.user_profile[u]. S'il n'y a pas assez de donn√©es ou si une m√©thode de r√©gression n'est pas sp√©cifi√©e, le profil peut rester None

**estimate(self, u, i)** : C'est le "Scoring Component". Cette m√©thode pr√©dit la note qu'un utilisateur u donnerait √† un item (film) i. Elle v√©rifie d'abord si l'utilisateur et l'item sont connus dans le trainset. Si l'user est inconnu (cad si self.user_profile[u] est None, par exemple pour un utilisateur avec peu de notes), elle retourne la note moyenne globale du trainset. Elle r√©cup√®re les caract√©ristiques de l'item i √† partir de self.content_features. Si l'item n'a pas de caract√©ristiques (n'est pas dans l'index), elle retourne aussi la moyenne globale.
Elle utilise le mod√®le de r√©gression personnel de l'utilisateur u (stock√© dans self.user_profile[u]) pour pr√©dire une note en se basant sur les caract√©ristiques de l'item i. Elle retourne cette note pr√©dite

// Tester pour voir 

**test_contentbased_class** : Cette fonction test_contentbased_class permet de tester rapidement une impl√©mentation du mod√®le de recommandation bas√© sur le contenu (ContentBased)

#### configs.py

Ce fichier agit comme une interface de configuration centralis√©e pour automatiser les exp√©riences. Il permet de changer les mod√®les, m√©thodes, ou param√®tres sans modifier le code principal d‚Äô√©valuation, ce qui rend le syst√®me modulaire et facilement extensible.

#### evaluators.ipynb

\\1. Model Validation Functions//

**load_ratings(surprise_format=False)** : 
Cette fonction charge le fichier de ratings (notes donn√©es par les utilisateurs aux films).
Si surprise_format=True, elle formate les donn√©es pour qu‚Äôelles soient compatibles avec la biblioth√®que Surprise (utilis√©e pour entra√Æner les algorithmes de recommandation).
Sinon, elle retourne simplement un DataFrame pandas brut.

**generate_split_predictions(algo, ratings_dataset, eval_config)** : 
Cette fonction √©value un mod√®le √† l‚Äôaide d‚Äôun √©chantillonnage al√©atoire : elle divise les donn√©es en un ensemble d'entra√Ænement et un ensemble de test (selon test_size).
Elle entra√Æne l‚Äôalgorithme (algo) sur les donn√©es d‚Äôentra√Ænement, puis pr√©dit les notes sur le testset.
Les pr√©dictions obtenues sont ensuite utilis√©es pour calculer des m√©triques de pr√©cision comme MAE ou RMSE.

**generate_loo_top_n(algo, ratings_dataset, eval_config)** : 
Cette fonction utilise la m√©thode du Leave-One-Out (LOO), qui consiste √† cacher une note par utilisateur pour tester la pertinence des recommandations.
Apr√®s entra√Ænement sur les autres notes, l‚Äôalgorithme g√©n√®re des recommandations sur les films non vus.
On extrait les top-N recommandations pour chaque utilisateur et on v√©rifie si l‚Äôitem retir√© en fait partie (ex. via le hit rate).

**generate_full_top_n(algo, ratings_dataset, eval_config)** :
Ici, l‚Äôalgorithme est entra√Æn√© sur la totalit√© des donn√©es disponibles.
Il pr√©dit ensuite les notes sur tous les films que chaque utilisateur n‚Äôa jamais not√©s (anti-testset).
On en extrait les top-N recommandations pour chaque utilisateur.
Cette approche permet d‚Äô√©valuer la qualit√© globale des recommandations, notamment leur originalit√© (ex : avec la m√©trique novelty).

**precompute_information()** : 
Cette fonction calcule des informations utiles pour certaines m√©triques d‚Äô√©valuation.
Elle compte combien de fois chaque film a √©t√© not√©, puis classe les films par popularit√© d√©croissante.
Elle cr√©e un dictionnaire item_to_rank qui associe √† chaque film son rang (1 = le plus populaire).
Ce classement est ensuite utilis√© pour √©valuer la nouveaut√© des recommandations (pr√©f√©rer des films moins vus).

**create_evaluation_report(eval_config, sp_ratings, precomputed_dict, available_metrics)** : 
C‚Äôest la fonction principale qui orchestre l‚Äô√©valuation de tous les mod√®les d√©finis dans EvalConfig.
Elle applique successivement les trois types d‚Äô√©valuation (split, loo, full) et calcule les m√©triques correspondantes.
Pour chaque mod√®le, elle entra√Æne l‚Äôalgorithme, g√©n√®re les pr√©dictions et appelle les fonctions d‚Äô√©valuation ad√©quates.
Elle compile tous les r√©sultats dans un DataFrame r√©sum√©, pr√™t √† √™tre analys√© ou affich√© dans un rapport final.

\\2. Evaluation metrics//

**get_hit_rate(anti_testset_top_n, testset)** : 
Cette fonction calcule le hit rate, elle v√©rifie, pour chaque utilisateur, si le film retir√© du jeu de donn√©es (et plac√© dans le testset) appara√Æt dans ses top-N recommandations (anti_testset_top_n).
Un "hit" (succ√®s) vaut 1 si le film est retrouv√©, sinon c‚Äôest un "fail" (0).
On calcule ensuite la proportion moyenne de succ√®s sur l‚Äôensemble des utilisateurs.
C‚Äôest une mesure simple mais efficace pour √©valuer la capacit√© du syst√®me √† retrouver des films pertinents.

**get_novelty(anti_testset_top_n, item_to_rank)** : 
Cette fonction mesure la nouveaut√© des recommandations en utilisant le rang de popularit√© des films.
Plus un film recommand√© est impopulaire (rang √©lev√©), plus il est consid√©r√© comme "novel" (nouveau).
Elle parcourt toutes les recommandations faites aux utilisateurs, additionne les rangs des films et calcule une moyenne.
Cette moyenne est ensuite normalis√©e par le nombre total de films pour donner un score compris entre 0 et 1.
Plus le score est √©lev√©, plus le syst√®me propose des contenus originaux et rarement vus par les autres.

\\3. Evaluation workflow//

Ce bloc de code sert √† √©valuer un ou plusieurs mod√®les de recommandation d√©finis dans EvalConfig √† l‚Äôaide de diff√©rentes m√©triques. Il commence par charger les donn√©es de notation au format Surprise (sp_ratings) et initialise un dictionnaire vide pour les informations pr√©-calcul√©es (precomputed_dict). Ensuite, la fonction create_evaluation_report est appel√©e pour entra√Æner les mod√®les et calculer les performances selon les m√©triques d√©finies (comme MAE, RMSE, hit_rate, novelty). Enfin, les r√©sultats sont affich√©s √† l‚Äô√©cran puis export√©s gr√¢ce √† export_evaluation_report

### üìê Metriques d'√©valuations rappel

üîπ 1. MAE (Mean Absolute Error) ‚Äì Erreur absolue moyenne

    Objectif : mesurer la pr√©cision moyenne des pr√©dictions du syst√®me, en regardant √† quel point les pr√©dictions sont √©loign√©es des notes r√©elles.

    Formule :
    MAE=1N‚àëi=1N‚à£r^i‚àíri‚à£
    MAE=N1‚Äãi=1‚àëN‚Äã‚à£r^i‚Äã‚àíri‚Äã‚à£

    o√π :

        r^ir^i‚Äã = note pr√©dite

        riri‚Äã = note r√©elle

        NN = nombre total de pr√©dictions

    Interpr√©tation :

        Plus MAE est proche de 0, plus les pr√©dictions sont pr√©cises.

        Une MAE de 0.5 signifie que, en moyenne, les pr√©dictions sont √† 0.5 point d‚Äô√©cart des vraies notes.

üîπ 2. RMSE (Root Mean Squared Error) ‚Äì Racine carr√©e de l'erreur quadratique moyenne

    Objectif : mesurer la pr√©cision globale, mais en p√©nalisant davantage les grandes erreurs.

    Formule :
    RMSE=1N‚àëi=1N(r^i‚àíri)2
    RMSE=N1‚Äãi=1‚àëN‚Äã(r^i‚Äã‚àíri‚Äã)2

    ‚Äã

    Diff√©rence avec MAE :

        RMSE met plus de poids sur les grosses erreurs.

        Exemple : une erreur de 2 compte plus fortement qu‚Äôune erreur de 1, car elle est au carr√©.

üîπ 3. Hit Rate ‚Äì Taux de couverture de l‚Äôutilisateur

    Objectif : mesurer si l‚Äô√©l√©ment que l‚Äôutilisateur a r√©ellement aim√© est pr√©sent dans les recommandations du syst√®me.

    Utilis√© dans : Leave-One-Out (LOO)
    On retire un item que l‚Äôutilisateur a not√©, puis on g√©n√®re des recommandations, et on regarde s‚Äôil est dedans.

    Formule :
    Hit Rate=Nombre de hitsNombre total de tests
    Hit Rate=Nombre total de testsNombre de hits‚Äã

    Exemple :
    Si on fait √ßa pour 100 utilisateurs, et que dans 75 cas le syst√®me a recommand√© l‚Äôitem retir√© ‚Üí Hit Rate = 0.75.

    Int√©r√™t :

        C‚Äôest une m√©trique binaire : est-ce que l‚Äôitem "test" est dans le top-N recommandations ou non ?

        Plus elle est √©lev√©e, mieux le syst√®me retrouve les go√ªts pass√©s des utilisateurs.

üîπ 4. Novelty ‚Äì Nouveaut√©

    Objectif : √©valuer si le syst√®me recommande des choses originales, peu connues, plut√¥t que toujours les m√™mes blockbusters.

    Pourquoi c‚Äôest important ?
    Un syst√®me qui recommande toujours les films les plus populaires est peu utile √† long terme. La "nouveaut√©" incite √† la diversit√© des d√©couvertes.

    Comment c‚Äôest mesur√© ?
    Souvent par :

        Popularit√© inverse : plus un film est populaire, moins il est "novel".

        Calcul bas√© sur le log du nombre de vues :
        Novelty=1‚à£R‚à£‚àëi‚ààR‚àílog‚Å°2(p(i))
        Novelty=‚à£R‚à£1‚Äãi‚ààR‚àë‚Äã‚àílog2‚Äã(p(i))

        o√π p(i)p(i) est la probabilit√© d'apparition de l'item (fr√©quence), et RR l'ensemble des items recommand√©s.

    Interpr√©tation :

        Une valeur plus √©lev√©e = des recommandations moins connues, donc plus "originales".