# 05_Evaluate.ipynb : √âvaluation des recommandations

Ce notebook a pour objectif de mesurer la qualit√© des listes de recommandations g√©n√©r√©es (CF, Content-Based, Hybrid) en les comparant aux interactions r√©elles du jeu de test.

**√âtapes principales :**
1. D√©finition des m√©triques (Precision@K, NDCG@K).
2. Impl√©mentation de fonctions utilitaires pour calculer ces m√©triques.
3. Fonction `evaluate` pour agr√©ger les scores sur tous les utilisateurs.
4. Chargement des fichiers de recommandations et v√©rit√© terrain.
5. Calcul et affichage des r√©sultats par mod√®le.

## 1. Imports des d√©pendances

In [1]:
import numpy as np
import pandas as pd

## 2. Fonctions d'√©valuation
### 2.1. Precision@K

Calcule le ratio d'items dans les k premi√®res positions qui apparaissent dans la v√©rit√© terrain.

In [2]:
def precision_at_k(ranked_list, ground_truth, k):
    """
    :param ranked_list: liste des item_id recommand√©s class√©s
    :param ground_truth: ensemble des item_id r√©ellement vus
    :param k: nombre de positions √† consid√©rer
    :return: pr√©cision
    """
    hit = sum(1 for item in ranked_list[:k] if item in ground_truth)
    return hit / k

### 2.2. DCG@K et NDCG@K

- **DCG@K** : somme des gains pond√©r√©s par le log de la position.
- **IDCG@K** : DCG maximum possible (sc√©nario id√©al).
- **NDCG@K** : DCG normalis√© par IDCG.

In [3]:
def dcg_at_k(ranked_list, ground_truth, k):
    dcg = 0.0
    for i, item in enumerate(ranked_list[:k]):
        if item in ground_truth:
            dcg += 1.0 / np.log2(i + 2)
    return dcg


def idcg_at_k(ground_truth, k):
    ideal_hits = min(len(ground_truth), k)
    return sum(1.0 / np.log2(i + 2) for i in range(ideal_hits))


def ndcg_at_k(ranked_list, ground_truth, k):
    idcg = idcg_at_k(ground_truth, k)
    if idcg == 0:
        return 0.0
    return dcg_at_k(ranked_list, ground_truth, k) / idcg

## 3. Fonction d'√©valuation globale

La fonction `evaluate` parcourt chaque utilisateur, r√©cup√®re ses recommandations et la v√©rit√© terrain, puis calcule la pr√©cision et le NDCG, et renvoie la moyenne globale.

In [4]:
def evaluate(recs_df, truth_df, k=10):
    """
    :param recs_df: DataFrame avec colonnes ['user_id','item_id','rank'] des recommandations
    :param truth_df: DataFrame avec colonnes ['user_id','item_id'] des interactions r√©elles
    :param k: cutoff pour les m√©triques
    :return: dict avec les scores moyens {'precision': ..., 'ndcg': ...}
    """
    users = recs_df['user_id'].unique()
    precisions, ndcgs = [], []
    for u in users:
        preds = recs_df[recs_df.user_id == u].sort_values('rank')['item_id'].tolist()
        actual = set(truth_df[truth_df.user_id == u]['item_id'])
        precisions.append(precision_at_k(preds, actual, k))
        ndcgs.append(ndcg_at_k(preds, actual, k))
    return {
        'precision': np.mean(precisions),
        'ndcg': np.mean(ndcgs)
    }

## 4. Chargement des donn√©es et √©valuation des mod√®les

On charge la v√©rit√© terrain (`interactions_test.csv` ou `small_matrix.csv`) et les fichiers de recommandations (`submission_cf.csv`, etc.), puis on affiche les scores pour chaque approche.

In [5]:
# Chargement de la v√©rit√© terrain
truth = pd.read_csv("../data/small_matrix.csv").rename(columns={"video_id": "item_id"})

# Liste des mod√®les √† √©valuer
models = ["cf", "content", "hybrid"]
for name in models:
    # Chargement des recommandations
    recs = pd.read_csv(f"submission_{name}.csv").rename(columns={"video_id": "item_id"})
    # Calcul des m√©triques
    scores = evaluate(recs, truth, k=10)
    # Affichage des r√©sultats
    print(f"üìä Mod√®le {name.upper()}")
    print(f"  - Precision@10 : {scores['precision']:.4f}")
    print(f"  - NDCG@10      : {scores['ndcg']:.4f}\n")

üìä Mod√®le CF
  - Precision@10 : 0.4505
  - NDCG@10      : 0.4884

üìä Mod√®le CONTENT
  - Precision@10 : 0.4851
  - NDCG@10      : 0.5547

üìä Mod√®le HYBRID
  - Precision@10 : 0.4825
  - NDCG@10      : 0.5262

