# My Content — MVP Recommandation

## Contexte
My Content veut encourager la lecture en recommandant des contenus pertinents.  
Nous développons un premier MVP basé sur un dataset public de logs de navigation (clics), sessions utilisateurs, métadonnées et embeddings d’articles (dataset Globo/G1 utilisé dans les travaux CHAMELEON).

## Objectif MVP
**En tant qu’utilisateur, je reçois une sélection de cinq articles.**

Le MVP doit démontrer :
- qu’on peut recommander **sans données internes** (avec le dataset public),
- qu’on peut gérer le **cold start** (nouveaux utilisateurs) et l’arrivée de **nouveaux articles**,
- qu’on peut **déployer** la solution (Azure Function + interface simple).

## Approche du notebook
Nous commençons par une baseline **transparente et métier**, facile à expliquer et à déployer :
- **Trending** : recommander les articles les plus consultés (fallback cold start user),
- **Item-Item co-clic** : recommander des articles “souvent lus ensemble” dans les sessions (personnalisation légère).

Ensuite, nous mettrons en place un protocole d’évaluation **top-K** (ex. HR@5, MRR@5) adapté aux données implicites, puis nous discuterons l’extension vers une approche hybride exploitant davantage les embeddings.


## Imports & configuration

Cette cellule prépare l’environnement de travail :
- import des bibliothèques (pandas/numpy),
- définition des chemins vers les fichiers du dataset (clics, métadonnées, embeddings),
- définition des constantes du MVP (TOP_K, seed),
- standardisation des noms de colonnes attendues (user, session, item, timestamp).

Objectif : avoir une base stable et lisible avant de charger les données et construire la baseline.


In [2]:

# Imports + config (baseline transparente)

import os
import glob
import pandas as pd
import numpy as np

# Chemins (à adapter)
DATA_DIR = "data"  # ex: dossier où tu as dézippé clicks.zip + metadata + embeddings
CLICKS_DIR = os.path.join(DATA_DIR, "clicks")  # dossier avec les CSV par heure
ARTICLES_META_PATH = os.path.join(DATA_DIR, "articles_metadata.csv")
EMBEDDINGS_PATH = os.path.join(DATA_DIR, "articles_embeddings.pickle")  # optionnel pour plus tard

# Paramètres MVP
TOP_K = 5
SEED = 42
np.random.seed(SEED)

# Colonnes principales (dataset CHAMELEON)
COL_USER = "user_id"
COL_SESSION = "session_id"
COL_ITEM = "click_article_id"
COL_TS = "click_timestamp"  # timestamp du clic (ms)

print("Config OK")
print("Clicks dir:", CLICKS_DIR)
print("Meta path:", ARTICLES_META_PATH)


Config OK
Clicks dir: data/clicks
Meta path: data/articles_metadata.csv


## Lister les fichiers de clics et estimer le volume

Objectifs :
- lister tous les fichiers `clicks` (CSV par heure),
- estimer le volume total (nombre de fichiers, taille disque),
- afficher un aperçu (plus gros fichiers, taille moyenne).


In [6]:

# Cellule — Listing + estimation volume (taille disque)

click_files = sorted(glob.glob(os.path.join(CLICKS_DIR, "*.csv")))
if len(click_files) == 0:
    raise FileNotFoundError(f"Aucun fichier .csv trouvé dans {CLICKS_DIR}")

sizes_bytes = np.array([os.path.getsize(p) for p in click_files], dtype=np.int64)

total_gb = sizes_bytes.sum() / (1024**3)
mean_mb = sizes_bytes.mean() / (1024**2)
median_mb = np.median(sizes_bytes) / (1024**2)
min_mb = sizes_bytes.min() / (1024**2)
max_mb = sizes_bytes.max() / (1024**2)

print(f"Nombre de fichiers: {len(click_files)}")
print(f"Taille totale: {total_gb:.2f} GB")
print(f"Taille moyenne: {mean_mb:.2f} MB | médiane: {median_mb:.2f} MB | min: {min_mb:.2f} MB | max: {max_mb:.2f} MB")

# Affiche les 10 plus gros fichiers
top_n = 10
idx = np.argsort(-sizes_bytes)[:top_n]
top_df = pd.DataFrame({
    "file": [os.path.basename(click_files[i]) for i in idx],
    "size_mb": [sizes_bytes[i] / (1024**2) for i in idx],
    "path": [click_files[i] for i in idx],
})
display(top_df)


Nombre de fichiers: 1
Taille totale: 0.00 GB
Taille moyenne: 0.13 MB | médiane: 0.13 MB | min: 0.13 MB | max: 0.13 MB


Unnamed: 0,file,size_mb,path
0,clicks_sample.csv,0.127996,data/clicks/clicks_sample.csv


## Chargement d’un échantillon de logs de clics (sanity check)

Objectifs :
- vérifier que les fichiers de clics sont bien accessibles (CSV par heure),
- charger un petit échantillon pour inspecter les colonnes et types,
- valider la présence des colonnes clés (user, session, article, timestamp),
- avoir un premier aperçu de la période (min/max timestamp) et du volume.


In [4]:

# Lister les fichiers + charger un échantillon

click_files = sorted(glob.glob(os.path.join(CLICKS_DIR, "*.csv")))
print(f"Nombre de fichiers de clics trouvés: {len(click_files)}")
print("Exemples:", click_files[:3])

# Charge un seul fichier (petit) pour inspection
sample_path = click_files[0]
clicks_sample = pd.read_csv(sample_path)

print("\nFichier échantillon:", os.path.basename(sample_path))
print("Shape:", clicks_sample.shape)
display(clicks_sample.head())

print("\nColonnes:", list(clicks_sample.columns))
print("\nDtypes:\n", clicks_sample.dtypes)

# Vérifie que les colonnes attendues existent
required_cols = {COL_USER, COL_SESSION, COL_ITEM, COL_TS}
missing = required_cols - set(clicks_sample.columns)
print("\nColonnes manquantes:", missing)

# Aperçu rapide des timestamps (si colonne présente)
if COL_TS in clicks_sample.columns:
    ts = pd.to_datetime(clicks_sample[COL_TS], unit="ms", errors="coerce")
    print("\nPériode (échantillon) :")
    print(" - min:", ts.min())
    print(" - max:", ts.max())
    print(" - % NaT:", ts.isna().mean())


Nombre de fichiers de clics trouvés: 1
Exemples: ['data/clicks/clicks_sample.csv']

Fichier échantillon: clicks_sample.csv
Shape: (1883, 12)


Unnamed: 0,user_id,session_id,session_start,session_size,click_article_id,click_timestamp,click_environment,click_deviceGroup,click_os,click_country,click_region,click_referrer_type
0,0,1506825423271737,1506825423000,2,157541,1506826828020,4,3,20,1,20,2
1,0,1506825423271737,1506825423000,2,68866,1506826858020,4,3,20,1,20,2
2,1,1506825426267738,1506825426000,2,235840,1506827017951,4,1,17,1,16,2
3,1,1506825426267738,1506825426000,2,96663,1506827047951,4,1,17,1,16,2
4,2,1506825435299739,1506825435000,2,119592,1506827090575,4,1,17,1,24,2



Colonnes: ['user_id', 'session_id', 'session_start', 'session_size', 'click_article_id', 'click_timestamp', 'click_environment', 'click_deviceGroup', 'click_os', 'click_country', 'click_region', 'click_referrer_type']

Dtypes:
 user_id                int64
session_id             int64
session_start          int64
session_size           int64
click_article_id       int64
click_timestamp        int64
click_environment      int64
click_deviceGroup      int64
click_os               int64
click_country          int64
click_region           int64
click_referrer_type    int64
dtype: object

Colonnes manquantes: set()

Période (échantillon) :
 - min: 2017-10-01 03:00:00.026000
 - max: 2017-10-03 02:35:54.157000
 - % NaT: 0.0


## Charger un sous-ensemble “train/test” (split temporel simple)

Objectif :
- Charger un bloc de fichiers horaires pour itérer vite (ex: N heures pour train, M heures pour test).
- Construire un split réaliste basé sur le temps.


In [9]:

# Charge une fenêtre temporelle (par nombre de fichiers)
# Ajuste N_TRAIN_FILES / N_TEST_FILES selon la puissance de ta machine.

N_TRAIN_FILES = 24
N_TEST_FILES = 6

click_files = sorted(glob.glob(os.path.join(CLICKS_DIR, "*.csv")))
train_files = click_files[:N_TRAIN_FILES]
test_files = click_files[N_TRAIN_FILES:N_TRAIN_FILES + N_TEST_FILES]

def load_clicks(files: list[str]) -> pd.DataFrame:
    # Charge une liste de CSV et garde uniquement les colonnes utiles à la baseline.
    dfs = []
    for p in files:
        df = pd.read_csv(p)
        dfs.append(df[[COL_USER, COL_SESSION, COL_ITEM, COL_TS]])
    return pd.concat(dfs, ignore_index=True)

clicks_train = load_clicks(train_files)
clicks_test = load_clicks(test_files)

print("Train shape:", clicks_train.shape)
print("Test shape :", clicks_test.shape)

# Conversion timestamp en datetime pour tri et contrôles
clicks_train["ts"] = pd.to_datetime(clicks_train[COL_TS], unit="ms", errors="coerce")
clicks_test["ts"] = pd.to_datetime(clicks_test[COL_TS], unit="ms", errors="coerce")

print("Train ts:", clicks_train["ts"].min(), "->", clicks_train["ts"].max())
print("Test  ts:", clicks_test["ts"].min(), "->", clicks_test["ts"].max())


Train shape: (118339, 4)
Test shape : (13216, 4)
Train ts: 2017-10-01 03:00:00.026000 -> 2017-10-24 23:48:51.578000
Test  ts: 2017-10-02 02:36:25.019000 -> 2017-10-11 05:33:25.108000


## Préparation des données (nettoyage minimal)

Objectifs :
- supprimer les lignes invalides (ids manquants, timestamp invalide),
- garantir les types (int),
- trier les clics dans chaque session (ordre chronologique),
- enlever les doublons (même article dans la même session).


In [10]:

# Préparation des données, nettoyage

def prepare_clicks(df: pd.DataFrame) -> pd.DataFrame:
    # Garde uniquement les lignes exploitables
    x = df.dropna(subset=[COL_USER, COL_SESSION, COL_ITEM, "ts"]).copy()

    # Types stables
    x[COL_USER] = x[COL_USER].astype(int)
    x[COL_SESSION] = x[COL_SESSION].astype(int)
    x[COL_ITEM] = x[COL_ITEM].astype(int)

    # Tri chronologique dans chaque session (utile pour next-click)
    x = x.sort_values([COL_SESSION, "ts"], ascending=[True, True])

    # Un article ne doit compter qu'une fois par session
    x = x.drop_duplicates(subset=[COL_SESSION, COL_ITEM], keep="first")
    return x

clicks_train_p = prepare_clicks(clicks_train)
clicks_test_p = prepare_clicks(clicks_test)

print("Train prepared:", clicks_train_p.shape)
print("Test prepared :", clicks_test_p.shape)
display(clicks_train_p.head())


Train prepared: (118339, 5)
Test prepared : (13216, 5)


Unnamed: 0,user_id,session_id,click_article_id,click_timestamp,ts
0,0,1506825423271737,157541,1506826828020,2017-10-01 03:00:28.020
1,0,1506825423271737,68866,1506826858020,2017-10-01 03:00:58.020
2,1,1506825426267738,235840,1506827017951,2017-10-01 03:03:37.951
3,1,1506825426267738,96663,1506827047951,2017-10-01 03:04:07.951
4,2,1506825435299739,119592,1506827090575,2017-10-01 03:04:50.575


## Baseline : Trending (popularité)

Objectifs :
- calculer les articles les plus cliqués dans le train,
- servir ces articles comme recommandation pour tout le monde (cold start).


In [11]:

# Trending pour la baseline

def build_trending(df_train: pd.DataFrame, top_n: int = 2000) -> pd.DataFrame:
    # Compte les clics par article et garde les plus populaires
    vc = df_train[COL_ITEM].value_counts().head(top_n)
    trending_df = vc.rename_axis("article_id").reset_index(name="score")
    trending_df["article_id"] = trending_df["article_id"].astype(int)
    return trending_df

trending = build_trending(clicks_train_p, top_n=2000)
display(trending.head(10))

# Liste utilisée par le recommender
TRENDING_LIST = trending["article_id"].tolist()

def recommend_trending(k: int = TOP_K) -> list[int]:
    # Retourne les K articles les plus populaires
    return TRENDING_LIST[:k]


Unnamed: 0,article_id,score
0,272660,7742
1,207122,7347
2,161178,6660
3,284463,6497
4,160474,5020
5,59758,4565
6,313504,4469
7,119592,4410
8,96663,4245
9,235132,3215


## Baseline : Item-Item co-clic (voisins par article)

Objectifs :
- construire, à partir du train, les articles souvent vus dans la même session,
- produire une table `article_id -> top voisins`,
- proposer des recommandations personnalisées à partir des derniers amrticles vus.


In [20]:

# Item-Item-Co-Click - Recommend from history

# Construit une table item-item basée sur la co-occurrence en session:
# - article_id = article source
# - neighbor_id = article souvent vu avec l'article source
# - co_count = nombre de sessions où ils co-apparaissent
# - rank = position du voisin (1 = meilleur)

def build_item_item_coclick(df_train: pd.DataFrame, k_neighbors: int = 100) -> pd.DataFrame:
    # On ne garde que session + article
    sess_items = df_train[[COL_SESSION, COL_ITEM]].copy()
    sess_items = sess_items.rename(columns={COL_SESSION: "session_id", COL_ITEM: "article_id"})

    # Sécurité: un article ne compte qu'une fois par session
    sess_items = sess_items.drop_duplicates(subset=["session_id", "article_id"], keep="first")

    # Auto-join par session pour obtenir toutes les paires co-cliquées (a,b)
    left = sess_items.rename(columns={"article_id": "a"})
    right = sess_items.rename(columns={"article_id": "b"})
    pairs = left.merge(right, on="session_id", how="inner")

    # On enlève les paires identiques (a == b)
    pairs = pairs[pairs["a"] != pairs["b"]]

    # Compte de co-occurrence: nombre de sessions contenant (a,b)
    counts = (
        pairs.groupby(["a", "b"], as_index=False)
        .size()
        .rename(columns={"size": "co_count"})
    )

    # Top voisins par article a
    counts = counts.sort_values(["a", "co_count"], ascending=[True, False])
    counts["rank"] = counts.groupby("a").cumcount() + 1
    topk = counts[counts["rank"] <= k_neighbors].copy()

    # Format standard
    item_item_df = topk.rename(columns={"a": "article_id", "b": "neighbor_id"})
    return item_item_df[["article_id", "neighbor_id", "rank", "co_count"]]

# Construction de la table item-item
item_item = build_item_item_coclick(clicks_train_p, k_neighbors=100)
display(item_item.head(10))

# Dictionnaire: article_id -> liste des voisins (par ordre de rank)
neighbors_map = (
    item_item.sort_values(["article_id", "rank"])
    .groupby("article_id")["neighbor_id"]
    .apply(list)
    .to_dict()
)

def recommend_item_item_from_history(history: list[int], k: int = TOP_K) -> list[int]:
    # Agrège les voisins des derniers articles vus.
    # Score simple: somme(1/rank) pour les voisins proposés.
    scores = {}
    seen = set(history)

    for item in history[-5:]:
        for rank, neigh in enumerate(neighbors_map.get(item, []), start=1):
            if neigh in seen:
                continue
            scores[neigh] = scores.get(neigh, 0.0) + (1.0 / rank)

    ranked = [aid for aid, _ in sorted(scores.items(), key=lambda t: t[1], reverse=True)]

    # Complète avec trending si nécessaire
    out = []
    for aid in ranked:
        if aid not in out:
            out.append(aid)
        if len(out) >= k:
            return out

    for aid in TRENDING_LIST:
        if aid not in out and aid not in seen:
            out.append(aid)
        if len(out) >= k:
            break

    return out


Unnamed: 0,article_id,neighbor_id,rank,co_count
0,271,205420,1,1
1,290,331293,1,1
2,388,239459,1,1
3,683,313504,1,1
4,1916,59758,1,1
5,1916,64329,2,1
6,1916,95524,3,1
7,1916,95633,4,1
8,1916,118751,5,1
9,1916,156229,6,1


## Où on en est (baseline recommandation)

À ce stade, on a construit deux stratégies simples à partir des clics du **train** :

### 1) Trending (popularité)
- On compte combien de fois chaque article a été cliqué dans le train.
- On trie du plus cliqué au moins cliqué.
- On recommande les **K** premiers à tout le monde.
- Utilité : **fallback** quand on ne sait rien sur l’utilisateur (cold start user).

### 2) Item-Item co-clic (articles “souvent vus ensemble”)
**Item = article**, et **co-clic = co-occurrence dans une même session**.

Exemple de sessions (paniers) :
- S1 : [A, B, C]
- S2 : [A, B]
- S3 : [A, D]

On en déduit que :
- A est souvent associé à B → B est un bon candidat à recommander après A.

### Ce que représente `item_item_coclick` vs `item_item`
- `item_item_coclick` : la **méthode** (calculer des voisinages à partir des co-clics en session).
- `item_item` : le **résultat** (une table / DataFrame) avec, pour chaque article, ses voisins.

Chaque ligne de `item_item` contient typiquement :
- `article_id` : l’article “source” (ex: A)
- `neighbor_id` : un article “voisin” (ex: B)
- `co_count` : nombre de sessions où A et B apparaissent ensemble
- `rank` : position de B parmi les voisins de A (1 = meilleur voisin)

Autrement dit :
> `item_item` = “pour chaque article, les meilleurs articles associés selon les sessions”.

### Comment on recommande pour un utilisateur
1) On récupère l’historique récent de l’utilisateur (ex: [A, C]).
2) On prend les voisins de A et les voisins de C (via `item_item`).
3) On fusionne, on enlève les doublons et les articles déjà vus.
4) On garde les **K** meilleurs candidats.
5) S’il manque des articles, on complète avec **Trending**.


## Évaluation simple (next-click) : HR@5 et MRR@5

Objectif :
- simuler une recommandation en cours de session,
- comparer deux baselines : Trending vs Item-Item co-clic,
- calculer :
  - **HR@5** : le prochain clic est-il dans le top-5 ?
  - **MRR@5** : s’il y est, est-il plutôt en haut de la liste ?


In [18]:



def hr_mrr_at_k(true_item: int, recs: list[int], k: int = TOP_K) -> tuple[float, float]:
    # HR@k = 1 si vrai item dans top-k, sinon 0
    # MRR@k = 1/rang si présent, sinon 0
    topk = recs[:k]
    if true_item in topk:
        rank = topk.index(true_item) + 1
        return 1.0, 1.0 / rank
    return 0.0, 0.0


def evaluate_next_click(
    df_test: pd.DataFrame,
    recommend_fn,
    k: int = TOP_K,
    max_sessions: int | None = 5000,
) -> pd.DataFrame:
    # On évalue sur des sessions de test : pour chaque session, on prend un préfixe et on prédit le prochain clic.
    # On utilise ici "dernier préfixe" : on donne tous les clics sauf le dernier, et on essaie de deviner le dernier.

    rows = []
    sessions = df_test.groupby(COL_SESSION)

    # Option : limiter le nombre de sessions pour aller vite
    session_items = list(sessions)
    if max_sessions is not None:
        session_items = session_items[:max_sessions]

    for session_id, g in session_items:
        items = g[COL_ITEM].astype(int).tolist()

        # Il faut au moins 2 clics pour avoir "contexte -> next item"
        if len(items) < 2:
            continue

        history = items[:-1]
        true_next = items[-1]

        recs = recommend_fn(history, k)
        hr, mrr = hr_mrr_at_k(true_next, recs, k=k)

        rows.append(
            {
                "session_id": int(session_id),
                "history_len": len(history),
                "true_next": int(true_next),
                "HR@5": hr,
                "MRR@5": mrr,
            }
        )

    return pd.DataFrame(rows)


# Wrappers pour unifier les signatures (history, k)
def recommend_trending_from_history(history: list[int], k: int = TOP_K) -> list[int]:
    return recommend_trending(k=k)

def recommend_coclick_from_history(history: list[int], k: int = TOP_K) -> list[int]:
    return recommend_item_item_from_history(history, k=k)


## Pourquoi il y a 2 baselines ici (et ce que fait la cellule)

À ce stade, on a bien **2 baselines**, et la cellule sert uniquement à **les comparer**.

### Baseline 1 — Trending (popularité)
- Même 5 articles pour tout le monde : les plus cliqués dans le train.
- Sert de **plancher** : “au minimum, recommander les articles populaires, ça donne quoi ?”.

### Baseline 2 — Item-Item co-clic (personnalisation simple)
- À partir des derniers articles cliqués dans une session, on recommande des articles **souvent co-cliqués** avec eux.
- Sert de baseline “un cran au-dessus”, tout en restant **très transparente**.

### Ce que fait la cellule d’évaluation
1) Elle lance `evaluate_next_click(...)` avec la baseline **Trending** → on obtient HR@5 et MRR@5 sur des sessions de test.
2) Elle relance la même évaluation avec la baseline **co-clic**.
3) Elle calcule les moyennes et affiche un **résumé** pour comparer les deux.

### Pourquoi on le fait maintenant
Cela permet de dire clairement dans le projet :
- “La baseline popularité fait X”
- “La baseline co-clic fait Y”
- “Donc notre approche apporte (ou non) un gain”

Et ça aide à décider si ça vaut le coup de passer ensuite à une approche plus avancée (embeddings/LightFM).


### Clarification

- Réalité (ground truth) : l’article réellement cliqué ensuite (dans le test).
- Trending : prédiction naïve basée sur la popularité globale.
- Co-clic : prédiction plus personnalisée basée sur les associations d’articles en session.

On compare les prédictions de chaque baseline à la réalité, avec HR@5 / MRR@5.


## Lancer l’évaluation : Trending vs Co-clic

Objectif :
- obtenir un score moyen HR@5 et MRR@5 sur un échantillon de sessions test.


In [19]:

# Évaluation: Trending vs Item-Item co-clic
# On compare les deux baselines sur un sous-ensemble de sessions de test.
# Résultats: moyenne de HR@5 et MRR@5.

# Évalue la baseline Trending
eval_trending = evaluate_next_click(
    clicks_test_p,
    recommend_fn=recommend_trending_from_history,  # wrapper: ignore l'historique, renvoie top popularité
    k=TOP_K,
    max_sessions=5000,  # limite pour itérer vite
)

# Évalue la baseline co-clic
eval_coclick = evaluate_next_click(
    clicks_test_p,
    recommend_fn=recommend_coclick_from_history,  # wrapper: utilise l'historique pour proposer des voisins
    k=TOP_K,
    max_sessions=5000,
)

# Résumé: scores moyens + nombre de sessions évaluées
summary = pd.DataFrame(
    {
        "model": ["Trending", "Item-Item co-clic"],
        "n_sessions": [len(eval_trending), len(eval_coclick)],
        "HR@5": [eval_trending["HR@5"].mean(), eval_coclick["HR@5"].mean()],
        "MRR@5": [eval_trending["MRR@5"].mean(), eval_coclick["MRR@5"].mean()],
    }
)

display(summary)


Unnamed: 0,model,n_sessions,HR@5,MRR@5
0,Trending,4896,0.175449,0.11456
1,Item-Item co-clic,4896,0.39951,0.215203


## Comprendre HR@5 et MRR@5 (évaluation next-click)

### HR@5 (Hit Rate @ 5)
Pour chaque session, on “cache” le dernier clic (le vrai prochain article) et on recommande 5 articles à partir de l’historique.
- **HR@5 = 1** si le vrai article est **dans les 5** recommandations, sinon 0.
- La moyenne (ex: 0.3995) correspond au **% de sessions** où on a “touché juste” dans le top-5.

### MRR@5 (Mean Reciprocal Rank @ 5)
Même principe, mais on prend en compte **la position** du bon article dans le top-5 :
- bon article en **1ère position** → score 1
- en **2e** → 1/2 = 0.5
- en **3e** → 1/3 ≈ 0.33
- … absent du top-5 → 0  
La moyenne résume “à quelle hauteur” on place le bon article quand on le trouve.


## Interprétation des résultats obtenus

| Modèle | HR@5 | MRR@5 |
|---|---:|---:|
| Trending | 0.175 | 0.115 |
| Item-Item co-clic | 0.400 | 0.215 |

### Lecture simple
- **Trending (0.175)** : pour **17.5%** des sessions, le vrai prochain clic est dans les 5 recommandations.
- **Co-clic (0.400)** : pour **40%** des sessions, le vrai prochain clic est dans les 5 recommandations.

### Gain
- Gain absolu HR@5 ≈ **+22 points** (0.400 - 0.175).
- Le co-clic fait environ **2.3× mieux** que Trending (0.400 / 0.175 ≈ 2.28).

### Conclusion MVP
- **Trending** fournit un plancher (popularité seule).
- **Item-Item co-clic** améliore fortement la pertinence et place plus souvent le bon article plus haut (MRR@5 plus élevé).
- Pour une baseline transparente, ces résultats sont **très corrects** et montrent que le signal session est bien exploité.

### Nuances
- Les scores dépendent du split (fenêtre temporelle, taille train/test).
- Ici on a évalué une version simple “dernier clic de session”; on pourra raffiner plus tard (plusieurs positions dans la session).


## Comparer un modèle (ex. Surprise) aux baselines

Oui : quand on testera un modèle “plus avancé” (Surprise ou autre), on le comparera aux baselines.

### Baseline popularité (Trending)
- C’est le **plancher** incontournable.
- Si le modèle ne fait pas mieux que Trending, il ne vaut pas le coût (complexité / déploiement).

### Baseline co-clic (Item-Item)
- Baseline “simple mais forte” en recommandation session-based.
- Si le modèle ne dépasse pas co-clic, il est difficile de le justifier.

### Important pour ce projet
- Le dataset est **implicite + orienté sessions** (next-click).
- Donc l’évaluation restera centrée sur des métriques top-K comme **HR@5** et **MRR@5**,
  sur le même split (temporel ou par sessions) pour comparer équitablement.


## Pourquoi Surprise peut être “hors-sujet méthodo” pour ce dataset

### 1) Surprise est pensé pour des **notes explicites**
Les algorithmes de Surprise (SVD, KNN, etc.) cherchent à prédire une **valeur de rating** (ex : 1 à 5).  
Ici, on n’a pas de notes : on a des **clics** (feedback implicite) et des **sessions**.

-> Pour utiliser Surprise, il faut **inventer** une “note” artificielle (ex : clic = 1).  
Le problème : on ne sait pas quoi faire des **non-clics** (0 ? absent ?) et ces choix peuvent fortement biaiser le modèle.

### 2) Le dataset est **session-based / next-click**
L’objectif naturel ici est de prédire le **prochain clic** dans une session (séquence A → B → C).  
Surprise modélise plutôt une préférence globale user–item et ne capture pas directement la **séquence** et la **récence**.

### 3) Conséquence : perte de temps et risque de résultats moins pertinents
On passe du temps à :
- définir une pseudo-note,
- justifier la transformation,
- tout en n’exploitant pas le signal principal du dataset (sessions / next-click).

-> C’est pour cela que Surprise peut être considéré “hors-sujet” méthodologiquement ici, même s’il est facile à installer.


- **Trending (popularité)** = le **plancher incontournable** : si ton modèle (Surprise ou autre) ne fait pas mieux, il ne vaut pas le coût.

- **Co-clic item-item** = une baseline **simple mais forte** en session-based : si ton modèle ne la dépasse pas, il est difficile de le justifier.

- **Attention** : Surprise est surtout fait pour des **notes explicites**, alors que ton dataset est **implicite + session-based** ; tu peux le tester, mais l’évaluation restera la même idée : **HR@5 / MRR@5** comparés aux baselines sur le **même split**.


## LightFM — Préparation (imports + chargement des embeddings)

Objectifs :
- importer LightFM (modèle hybride implicite),
- charger les embeddings d’articles déjà fournis (250 dimensions),
- inspecter la structure du pickle (selon la source, ce peut être une matrice ou un dict).


In [23]:
# Imports nécessaires au modèle (LightFM) et aux matrices creuses (sparse)
from lightfm import LightFM
from scipy.sparse import csr_matrix
import pickle

# Chargement des embeddings (pickle)
# Selon le dataset, ce pickle peut contenir:
# - soit une matrice numpy (N_articles x 250)
# - soit un dict contenant une matrice + une liste d'ids
with open(EMBEDDINGS_PATH, "rb") as f:
    emb_obj = pickle.load(f)

print("Type embeddings pickle:", type(emb_obj))


ModuleNotFoundError: No module named 'numpy.char'

## LightFM — Construire une table `article_id -> embedding`

Objectifs :
- construire un DataFrame `emb_df` indexé par `article_id`,
- avoir les colonnes d’embeddings `e0..e249`,
- aligner correctement les lignes d'embeddings avec les ids d’articles.


In [None]:
# Chargement des métadonnées articles: permet d'identifier la colonne "article_id"
articles_meta = pd.read_csv(ARTICLES_META_PATH)

print("articles_metadata shape:", articles_meta.shape)
display(articles_meta.head(3))

# Détection (simple) de la colonne id article
possible_id_cols = [c for c in articles_meta.columns if "article" in c and "id" in c]
print("Colonnes candidates pour article_id:", possible_id_cols)

# Choix de la colonne article_id (ajuste si nécessaire)
ARTICLE_ID_COL = "article_id" if "article_id" in articles_meta.columns else possible_id_cols[0]
print("ARTICLE_ID_COL retenue =", ARTICLE_ID_COL)


# Fonction: construire un DataFrame embeddings
# - Si le pickle est un dict: on récupère ids + matrice
# - Si le pickle est une matrice: on suppose qu'elle est dans le même ordre que articles_metadata
def build_embeddings_df(emb_obj, articles_meta: pd.DataFrame, article_id_col: str) -> pd.DataFrame:
    """
    Construit un DataFrame avec une ligne par article:
    - colonne article_id
    - colonnes e0..e(D-1) pour les embeddings
    """
    # Cas 1: pickle = dict
    if isinstance(emb_obj, dict):
        # Cherche une clé d'ids
        ids = None
        for key_ids in ["article_id", "article_ids", "ids"]:
            if key_ids in emb_obj:
                ids = np.array(emb_obj[key_ids]).astype(int)
                break

        # Cherche une clé de matrice embeddings
        mat = None
        for key_mat in ["embeddings", "matrix", "X"]:
            if key_mat in emb_obj:
                mat = np.array(emb_obj[key_mat])
                break

        if ids is None or mat is None:
            raise ValueError("Pickle dict non reconnu: attend des clés ids + matrice embeddings")

        df = pd.DataFrame(mat, columns=[f"e{i}" for i in range(mat.shape[1])])
        df[article_id_col] = ids
        return df

    # Cas 2: pickle = matrice numpy
    mat = np.array(emb_obj)
    if mat.ndim != 2:
        raise ValueError("Pickle embeddings non reconnu: attendu matrice 2D ou dict")

    # Hypothèse simple (fréquente sur ce dataset): embeddings alignés sur articles_metadata
    ids = articles_meta[article_id_col].astype(int).to_numpy()

    if len(ids) != mat.shape[0]:
        raise ValueError(
            f"Mismatch: metadata a {len(ids)} ids mais embeddings a {mat.shape[0]} lignes. "
            "Il faut retrouver l'ordre exact / la liste d'ids."
        )

    df = pd.DataFrame(mat, columns=[f"e{i}" for i in range(mat.shape[1])])
    df[article_id_col] = ids
    return df


# Construction du DataFrame embeddings
emb_df = build_embeddings_df(emb_obj, articles_meta, ARTICLE_ID_COL)
print("emb_df shape:", emb_df.shape)
display(emb_df.head(3))

# On indexe par article_id pour accès rapide
# On enlève d'éventuels doublons d'ids
emb_df = emb_df.drop_duplicates(subset=[ARTICLE_ID_COL]).set_index(ARTICLE_ID_COL)


## LightFM — Construire les mappings et les matrices (interactions + item_features)

Objectifs :
- créer un index dense pour les utilisateurs et articles (LightFM travaille sur 0..n-1),
- construire la matrice `interactions` à partir des clics (implicite),
- construire la matrice `item_features` à partir des embeddings (250D),
- restreindre aux articles présents dans les embeddings (sinon pas de features).


In [None]:
# --- Bloc 1: préparation d'un train user/article minimal pour LightFM
# On prend uniquement (user_id, article_id) et on filtre les articles sans embeddings.
train_df = clicks_train_p[[COL_USER, COL_ITEM, "ts"]].copy()
train_df = train_df.rename(columns={COL_USER: "user_id", COL_ITEM: "article_id"})

train_df["user_id"] = train_df["user_id"].astype(int)
train_df["article_id"] = train_df["article_id"].astype(int)

# Filtrage: on garde uniquement les articles qui ont un embedding
train_df = train_df[train_df["article_id"].isin(emb_df.index)]
print("Train clicks after embedding filter:", train_df.shape)

# --- Bloc 2: création des mappings (id réel -> index)
# LightFM attend des indices 0..n-1.
user_ids = np.sort(train_df["user_id"].unique())
item_ids = np.sort(train_df["article_id"].unique())

user_to_idx = {uid: i for i, uid in enumerate(user_ids)}
item_to_idx = {aid: i for i, aid in enumerate(item_ids)}
idx_to_item = {i: aid for aid, i in item_to_idx.items()}

n_users = len(user_to_idx)
n_items = len(item_to_idx)
print("n_users:", n_users, "| n_items:", n_items)

# --- Bloc 3: construction de la matrice interactions (implicite)
# Ici: interaction = 1 si (user,item) a été cliqué dans le train.
ui = train_df.drop_duplicates(subset=["user_id", "article_id"])

u = ui["user_id"].map(user_to_idx).to_numpy()
i = ui["article_id"].map(item_to_idx).to_numpy()
data = np.ones(len(ui), dtype=np.float32)

interactions = csr_matrix((data, (u, i)), shape=(n_users, n_items))
print("interactions shape:", interactions.shape, "| nnz:", interactions.nnz)

# --- Bloc 4: construction de la matrice item_features (embeddings)
# On construit une matrice (n_items x 250) alignée sur item_to_idx.
emb_cols = [c for c in emb_df.columns if c.startswith("e")]

item_emb_matrix = np.zeros((n_items, len(emb_cols)), dtype=np.float32)
for aid, idx in item_to_idx.items():
    item_emb_matrix[idx] = emb_df.loc[aid, emb_cols].to_numpy(dtype=np.float32)

# Conversion en sparse (LightFM accepte sparse)
item_features = csr_matrix(item_emb_matrix)
print("item_features shape:", item_features.shape)


## LightFM — Entraînement (WARP) + évaluation MVP (par utilisateur)

Objectifs :
- entraîner un modèle LightFM en implicite avec embeddings (hybride),
- évaluer avec un protocole MVP simple:
  - pour chaque user, on prend son **premier clic en test** comme "cible",
  - on recommande top-5 à partir de son historique train,
  - on calcule HR@5 et MRR@5,
  - fallback Trending si user inconnu (cold start).


In [None]:
# --- Bloc 1: entraînement LightFM
# WARP est adapté au ranking implicite (apprendre à mettre les bons items en haut).
model = LightFM(loss="warp", no_components=32, learning_rate=0.05, random_state=SEED)
model.fit(interactions, item_features=item_features, epochs=10, num_threads=4)

# --- Bloc 2: préparation du test "par user"
# On prend le premier clic en test de chaque user comme "vrai prochain item".
test_df = clicks_test_p[[COL_USER, COL_ITEM, "ts"]].copy()
test_df = test_df.rename(columns={COL_USER: "user_id", COL_ITEM: "article_id"})

test_df["user_id"] = test_df["user_id"].astype(int)
test_df["article_id"] = test_df["article_id"].astype(int)
test_df = test_df.sort_values(["user_id", "ts"], ascending=[True, True])

first_test_click = test_df.groupby("user_id", as_index=False).first()[["user_id", "article_id"]]
print("Users with at least 1 click in test:", first_test_click.shape[0])

# --- Fonction métriques: HR@k et MRR@k
# HR@k: 1 si le vrai item est dans le top-k, sinon 0
# MRR@k: 1/rang si présent, sinon 0
def hr_mrr_at_k(true_item: int, recs: list[int], k: int = TOP_K) -> tuple[float, float]:
    topk = recs[:k]
    if true_item in topk:
        rank = topk.index(true_item) + 1
        return 1.0, 1.0 / rank
    return 0.0, 0.0

# --- Pré-calcul: tous les indices items, utile pour scorer rapidement
all_item_idx = np.arange(n_items, dtype=np.int32)

# --- Pré-calcul: historique train par user pour filtrer les items déjà vus
user_seen = (
    train_df.drop_duplicates(subset=["user_id", "article_id"])
    .groupby("user_id")["article_id"]
    .apply(list)
    .to_dict()
)

# --- Fonction recommandation LightFM
# - si user inconnu -> fallback trending
# - sinon, on score tous les items et on prend les meilleurs
# - on filtre les items déjà vus
# - on complète avec trending si nécessaire
def recommend_lightfm(user_id: int, k: int = TOP_K) -> list[int]:
    """
    Recommande top-k articles pour un user:
    - scores LightFM (hybride embeddings)
    - filtrage des items déjà vus
    - fallback trending si besoin
    """
    if user_id not in user_to_idx:
        return recommend_trending(k=k)

    uidx = user_to_idx[user_id]
    scores = model.predict(uidx, all_item_idx, item_features=item_features)

    # On prend plus que k pour pouvoir filtrer les "seen"
    candidate_n = k * 20
    top_idx = np.argpartition(-scores, candidate_n)[:candidate_n]
    top_idx = top_idx[np.argsort(-scores[top_idx])]

    seen = set(user_seen.get(user_id, []))
    recs = []
    for ii in top_idx:
        aid = idx_to_item[int(ii)]
        if aid in seen:
            continue
        recs.append(aid)
        if len(recs) >= k:
            break

    # Complète si on n'a pas assez de recos
    if len(recs) < k:
        for aid in TRENDING_LIST:
            if aid not in seen and aid not in recs:
                recs.append(aid)
            if len(recs) >= k:
                break

    return recs

# --- Bloc 3: boucle d'évaluation
# On compare les recommandations au vrai item test de chaque user.
rows = []
for _, r in first_test_click.iterrows():
    uid = int(r["user_id"])
    true_item = int(r["article_id"])

    recs = recommend_lightfm(uid, k=TOP_K)
    hr, mrr = hr_mrr_at_k(true_item, recs, k=TOP_K)
    rows.append({"user_id": uid, "true_item": true_item, "HR@5": hr, "MRR@5": mrr})

eval_lightfm = pd.DataFrame(rows)

# --- Bloc 4: résumé des scores
summary_lightfm = pd.DataFrame(
    {
        "model": ["LightFM (hybride embeddings)"],
        "n_users_eval": [len(eval_lightfm)],
        "HR@5": [eval_lightfm["HR@5"].mean()],
        "MRR@5": [eval_lightfm["MRR@5"].mean()],
    }
)

display(summary_lightfm)


## LightFM — Pré-calculer les recommandations top-5 par user (pour déploiement simple)

Objectif MVP :
- calculer offline (dans le notebook) les **5 recommandations** pour chaque utilisateur connu du modèle,
- sauvegarder un fichier léger `user_top5.parquet`,
- en production (Azure Function) : faire un **lookup** par `user_id` + fallback Trending.

Remarque :
- on filtre les articles déjà vus dans le train,
- on complète avec Trending si on n’a pas assez de candidats.


In [None]:
# --- Bloc 1: fonction de génération top-k pour un user index (LightFM)
# On réutilise model, item_features, all_item_idx, idx_to_item, user_seen, TRENDING_LIST.

def topk_for_user(uid: int, k: int = TOP_K, candidate_mult: int = 50) -> list[int]:
    """
    Génère top-k recommandations LightFM pour un user connu (uid réel).
    - candidate_mult: on prend k*candidate_mult candidats pour compenser le filtrage "seen".
    """
    if uid not in user_to_idx:
        return recommend_trending(k=k)

    uidx = user_to_idx[uid]
    scores = model.predict(uidx, all_item_idx, item_features=item_features)

    candidate_n = min(len(scores), k * candidate_mult)
    top_idx = np.argpartition(-scores, candidate_n)[:candidate_n]
    top_idx = top_idx[np.argsort(-scores[top_idx])]

    seen = set(user_seen.get(uid, []))
    recs = []

    for ii in top_idx:
        aid = idx_to_item[int(ii)]
        if aid in seen:
            continue
        recs.append(aid)
        if len(recs) >= k:
            break

    # Complète avec trending si besoin
    if len(recs) < k:
        for aid in TRENDING_LIST:
            if aid not in seen and aid not in recs:
                recs.append(aid)
            if len(recs) >= k:
                break

    return recs


# --- Bloc 2: calcul des top-5 pour tous les users du modèle
rows = []
for uid in user_to_idx.keys():
    rows.append({"user_id": int(uid), "recommended_articles": topk_for_user(int(uid), k=TOP_K)})

user_top5 = pd.DataFrame(rows)
display(user_top5.head())

print("Nb users:", len(user_top5))
print("Exemple recos:", user_top5.iloc[0]["recommended_articles"])


## Export artefacts MVP (fichiers à mettre dans Blob)

Objectif :
- sauvegarder les artefacts minimaux nécessaires au serving “lookup-only”.
- fichiers recommandés :
  - `user_top5.parquet` : recommandations pré-calculées
  - `trending.parquet` : fallback cold start
  - (optionnel) `meta.json` : version/infos


In [None]:
import json

ARTIFACTS_DIR = "artifacts_lightfm"
os.makedirs(ARTIFACTS_DIR, exist_ok=True)

# Fichier principal: lookup top-5
user_top5_path = os.path.join(ARTIFACTS_DIR, "user_top5.parquet")
user_top5.to_parquet(user_top5_path, index=False)

# Fallback trending
trending_path = os.path.join(ARTIFACTS_DIR, "trending.parquet")
trending.to_parquet(trending_path, index=False)

# Petit méta (optionnel)
meta = {
    "model": "LightFM_hybrid_embeddings",
    "top_k": TOP_K,
    "n_users": int(len(user_top5)),
    "n_items": int(n_items),
    "loss": "warp",
    "no_components": 32,
    "learning_rate": 0.05,
}
with open(os.path.join(ARTIFACTS_DIR, "meta.json"), "w") as f:
    json.dump(meta, f, indent=2)

print("Artefacts écrits dans:", ARTIFACTS_DIR)
print(" -", user_top5_path)
print(" -", trending_path)
print(" -", os.path.join(ARTIFACTS_DIR, "meta.json"))


In [None]:
# Exemple de logique "serving" en local (identique côté Azure Function)

user_top5_loaded = pd.read_parquet(user_top5_path)
trending_loaded = pd.read_parquet(trending_path)

top5_map = dict(zip(user_top5_loaded["user_id"].astype(int), user_top5_loaded["recommended_articles"]))
trending_list = trending_loaded["article_id"].astype(int).tolist()

def recommend_serving_lookup(user_id: int, k: int = TOP_K) -> tuple[list[int], str]:
    recos = top5_map.get(int(user_id))
    if recos is None:
        return trending_list[:k], "trending"
    return list(recos)[:k], "lightfm_precomputed"

# Test rapide
print(recommend_serving_lookup(user_id=list(top5_map.keys())[0]))
print(recommend_serving_lookup(user_id=-1))


## Scénario 2 — Serving en ligne (Azure Function) : charger le modèle et prédire à la demande

Objectif :
- **ne pas** pré-calculer par user,
- **charger** les artefacts (modèle + matrices + mappings) au démarrage de la Function,
- **inférer en ligne** : `GET /recommend?user_id=...` → renvoie 5 articles.

Principe :
- au *cold start*, on charge et on met en cache :
  - le modèle LightFM,
  - `item_features` (embeddings en sparse),
  - les mappings (`user_to_idx`, `idx_to_item`, `user_seen`),
  - `trending` (fallback).
- à chaque requête :
  - user connu → score + top-5
  - user inconnu → trending


In [None]:
# Export des artefacts pour le serving en ligne
# On sauvegarde tout ce qui est nécessaire pour faire model.predict(...) côté Azure Function.

import os
import pickle
import json
from scipy.sparse import save_npz

ARTIFACTS_DIR = "artifacts_lightfm_online"
os.makedirs(ARTIFACTS_DIR, exist_ok=True)

# 1) Sauvegarde du modèle LightFM
model_path = os.path.join(ARTIFACTS_DIR, "lightfm_model.pkl")
with open(model_path, "wb") as f:
    pickle.dump(model, f, protocol=pickle.HIGHEST_PROTOCOL)

# 2) Sauvegarde des item_features (embeddings) au format sparse .npz
item_features_path = os.path.join(ARTIFACTS_DIR, "item_features.npz")
save_npz(item_features_path, item_features)

# 3) Sauvegarde des mappings indispensables au serving
# - user_to_idx: user_id réel -> index LightFM
# - idx_to_item: index LightFM -> article_id réel
# - user_seen: articles vus par user (pour filtrer les recos déjà vues)
mappings = {
    "user_to_idx": user_to_idx,
    "idx_to_item": idx_to_item,
    "user_seen": user_seen,
    "top_k": TOP_K,
}
mappings_path = os.path.join(ARTIFACTS_DIR, "mappings.pkl")
with open(mappings_path, "wb") as f:
    pickle.dump(mappings, f, protocol=pickle.HIGHEST_PROTOCOL)

# 4) Trending (fallback cold start user)
trending_path = os.path.join(ARTIFACTS_DIR, "trending.parquet")
trending.to_parquet(trending_path, index=False)

# 5) Meta (optionnel mais utile pour debug/traçabilité)
meta = {
    "model": "LightFM_online",
    "loss": "warp",
    "no_components": 32,
    "learning_rate": 0.05,
    "n_users": int(len(user_to_idx)),
    "n_items": int(n_items),
    "top_k": int(TOP_K),
}
meta_path = os.path.join(ARTIFACTS_DIR, "meta.json")
with open(meta_path, "w") as f:
    json.dump(meta, f, indent=2)

print("Artefacts exportés dans:", ARTIFACTS_DIR)
print(" -", model_path)
print(" -", item_features_path)
print(" -", mappings_path)
print(" -", trending_path)
print(" -", meta_path)


## Test local “comme en prod” (charger les artefacts et prédire)

Objectif :
- simuler exactement ce que fera l’Azure Function :
  - charger modèle + matrices + mappings,
  - répondre à un `user_id` en renvoyant 5 articles.


In [None]:
# Test local du serving en ligne (chargement depuis disque)

import pickle
import numpy as np
import pandas as pd
from scipy.sparse import load_npz

# --- Chargement artefacts
with open(model_path, "rb") as f:
    model_loaded = pickle.load(f)

item_features_loaded = load_npz(item_features_path)

with open(mappings_path, "rb") as f:
    m_loaded = pickle.load(f)

user_to_idx_loaded = m_loaded["user_to_idx"]
idx_to_item_loaded = m_loaded["idx_to_item"]
user_seen_loaded = m_loaded["user_seen"]
TOP_K_LOADED = m_loaded["top_k"]

trending_loaded = pd.read_parquet(trending_path)
TRENDING_LIST_LOADED = trending_loaded["article_id"].astype(int).tolist()

# --- Pré-calcul utile
n_items_loaded = item_features_loaded.shape[0]
all_item_idx_loaded = np.arange(n_items_loaded, dtype=np.int32)

# --- Fonction: recommander en ligne
def recommend_online(user_id: int, k: int = TOP_K_LOADED) -> tuple[list[int], str]:
    """
    Reco online:
    - user inconnu -> trending
    - user connu -> scores LightFM + filtrage 'seen' + fallback trending
    """
    if user_id not in user_to_idx_loaded:
        return TRENDING_LIST_LOADED[:k], "trending"

    uidx = user_to_idx_loaded[user_id]
    scores = model_loaded.predict(uidx, all_item_idx_loaded, item_features=item_features_loaded)

    # On prend plus de candidats que k pour pouvoir filtrer les items déjà vus
    candidate_n = min(len(scores), k * 50)
    top_idx = np.argpartition(-scores, candidate_n)[:candidate_n]
    top_idx = top_idx[np.argsort(-scores[top_idx])]

    seen = set(user_seen_loaded.get(user_id, []))
    recs = []

    for ii in top_idx:
        aid = idx_to_item_loaded[int(ii)]
        if aid in seen:
            continue
        recs.append(int(aid))
        if len(recs) >= k:
            break

    # Complète avec trending si besoin
    if len(recs) < k:
        for aid in TRENDING_LIST_LOADED:
            if aid not in seen and aid not in recs:
                recs.append(int(aid))
            if len(recs) >= k:
                break

    return recs, "lightfm_online"

# Test rapide
some_user = next(iter(user_to_idx_loaded.keys()))
print("User connu:", some_user, recommend_online(some_user))
print("User inconnu:", -1, recommend_online(-1))


## Azure Function minimale (HTTP) — fichiers à créer

Objectif :
- exposer un endpoint :
  - `GET /api/recommend?user_id=123`
- charger les artefacts une seule fois (cache global),
- renvoyer un JSON : `{ user_id, recommended_articles, strategy }`.

Hypothèse MVP :
- les artefacts sont présents sur le filesystem de la Function (déploiement simple),
  ou montés / téléchargés depuis Blob (à ajouter ensuite).


## Notes déploiement (MVP)

- Déposer le dossier `artifacts_lightfm_online/` à côté de la Function (ou le copier dans le package).
- Définir la variable d’environnement `ARTIFACTS_DIR` si besoin.
- Exemple d’appel :
  - `GET https://<ton-host>/api/recommend?user_id=123`
  - (optionnel) `&k=5`

Dépendances (requirements.txt) à prévoir pour Azure Functions :
- `azure-functions`
- `pandas`
- `numpy`
- `scipy`
- `lightfm`
- `pyarrow` (si tu lis/écris du parquet)




## Mesurer les temps (MVP) : chargement des artefacts + inférence

Objectif :
- estimer le coût du *cold start* (temps pour charger modèle + matrices + mappings),
- estimer le coût d’une requête *warm* (temps pour scorer + extraire top-5),
- avoir une idée du risque de latence en Azure Functions.


In [None]:
import time
import pickle
import numpy as np
import pandas as pd
from scipy.sparse import load_npz

# --- Bloc 1: mesure du temps de chargement (simule un cold start)
t0 = time.perf_counter()

with open(model_path, "rb") as f:
    model_loaded = pickle.load(f)

item_features_loaded = load_npz(item_features_path)

with open(mappings_path, "rb") as f:
    m_loaded = pickle.load(f)

user_to_idx_loaded = m_loaded["user_to_idx"]
idx_to_item_loaded = m_loaded["idx_to_item"]
user_seen_loaded = m_loaded["user_seen"]
TOP_K_LOADED = int(m_loaded.get("top_k", TOP_K))

trending_loaded = pd.read_parquet(trending_path)
TRENDING_LIST_LOADED = trending_loaded["article_id"].astype(int).tolist()

n_items_loaded = item_features_loaded.shape[0]
all_item_idx_loaded = np.arange(n_items_loaded, dtype=np.int32)

t1 = time.perf_counter()
print(f"Temps de chargement artefacts (cold start simulé): {(t1 - t0):.3f} s")


# --- Bloc 2: fonction de recommandation (identique au serving)
def recommend_online(user_id: int, k: int = TOP_K_LOADED) -> tuple[list[int], str]:
    # Cold start user
    if user_id not in user_to_idx_loaded:
        return TRENDING_LIST_LOADED[:k], "trending"

    uidx = user_to_idx_loaded[user_id]
    scores = model_loaded.predict(uidx, all_item_idx_loaded, item_features=item_features_loaded)

    # Sur-échantillonne pour filtrer les items déjà vus
    candidate_n = min(len(scores), k * 50)
    top_idx = np.argpartition(-scores, candidate_n)[:candidate_n]
    top_idx = top_idx[np.argsort(-scores[top_idx])]

    seen = set(user_seen_loaded.get(user_id, []))
    recs = []

    for ii in top_idx:
        aid = idx_to_item_loaded[int(ii)]
        if aid in seen:
            continue
        recs.append(int(aid))
        if len(recs) >= k:
            break

    # Complète si besoin
    if len(recs) < k:
        for aid in TRENDING_LIST_LOADED:
            if aid not in seen and aid not in recs:
                recs.append(int(aid))
            if len(recs) >= k:
                break

    return recs, "lightfm_online"


# --- Bloc 3: mesure du temps d'inférence (warm)
# On teste sur 1 user connu (si possible) et sur un user inconnu.
known_user = next(iter(user_to_idx_loaded.keys()))
unknown_user = -1

def time_inference(user_id: int, n_runs: int = 20):
    # Petit warm-up (premier appel peut être plus lent)
    recommend_online(user_id)

    times = []
    for _ in range(n_runs):
        t0 = time.perf_counter()
        _ = recommend_online(user_id)
        t1 = time.perf_counter()
        times.append(t1 - t0)

    times = np.array(times)
    print(f"user_id={user_id} | mean={times.mean()*1000:.2f} ms | p95={np.percentile(times,95)*1000:.2f} ms | max={times.max()*1000:.2f} ms")

time_inference(known_user, n_runs=30)
time_inference(unknown_user, n_runs=30)
