# Initialisation du notebook P10

In [7]:
# ============================================
# P10 OC ‚Äî Initialisation & chargement des donn√©es
# ============================================

# Imports essentiels
import pandas as pd
from pathlib import Path

# Options pandas (lisibilit√©)
pd.set_option("display.max_columns", None)
pd.set_option("display.width", 120)

print("üìå Initialisation du projet P10 ‚Äî Syst√®me de recommandation")
print("-" * 60)

# Chemins vers les donn√©es
DATA_PATH = Path("../data")

ARTICLES_PATH = DATA_PATH / "articles_metadata.csv"
CLICKS_PATH = DATA_PATH / "clicks_sample.csv"

# Chargement des donn√©es
articles = pd.read_csv(ARTICLES_PATH)
clicks = pd.read_csv(CLICKS_PATH)

print("‚úÖ Donn√©es charg√©es avec succ√®s\n")

# Aper√ßu rapide
print("üì∞ Aper√ßu des articles :")
display(articles.head())

print("\nüñ±Ô∏è Aper√ßu des clics :")
display(clicks.head())

# Comptages simples
nb_articles = articles["article_id"].nunique()
nb_users = clicks["user_id"].nunique()
nb_clicks = len(clicks)

print("\nüìä Volum√©trie du jeu de donn√©es")
print(f"- Nombre d'articles        : {nb_articles}")
print(f"- Nombre d'utilisateurs   : {nb_users}")
print(f"- Nombre total de clics   : {nb_clicks}")

print("\n‚úÖ Initialisation termin√©e")


üìå Initialisation du projet P10 ‚Äî Syst√®me de recommandation
------------------------------------------------------------
‚úÖ Donn√©es charg√©es avec succ√®s

üì∞ Aper√ßu des articles :


Unnamed: 0,article_id,category_id,created_at_ts,publisher_id,words_count
0,0,0,1513144419000,0,168
1,1,1,1405341936000,0,189
2,2,1,1408667706000,0,250
3,3,1,1408468313000,0,230
4,4,1,1407071171000,0,162



üñ±Ô∏è Aper√ßu des clics :


Unnamed: 0,user_id,session_id,session_start,session_size,click_article_id,click_timestamp,click_environment,click_deviceGroup,click_os,click_country,click_region,click_referrer_type
0,0,1506825423271737,1506825423000,2,157541,1506826828020,4,3,20,1,20,2
1,0,1506825423271737,1506825423000,2,68866,1506826858020,4,3,20,1,20,2
2,1,1506825426267738,1506825426000,2,235840,1506827017951,4,1,17,1,16,2
3,1,1506825426267738,1506825426000,2,96663,1506827047951,4,1,17,1,16,2
4,2,1506825435299739,1506825435000,2,119592,1506827090575,4,1,17,1,24,2



üìä Volum√©trie du jeu de donn√©es
- Nombre d'articles        : 364047
- Nombre d'utilisateurs   : 707
- Nombre total de clics   : 1883

‚úÖ Initialisation termin√©e


**Initialisation du projet et chargement des donn√©es**

Ce premier bloc constitue la phase d‚Äôentr√©e du projet. Il a pour r√¥le d‚Äôinitialiser l‚Äôenvironnement de travail et de charger l‚Äôensemble des donn√©es n√©cessaires √† l‚Äô√©tude du syst√®me de recommandation. Deux jeux de donn√©es sont exploit√©s :  
‚Äì le catalogue des articles, d√©crivant les contenus disponibles sur la plateforme ;  
‚Äì l‚Äôhistorique des interactions, repr√©sentant les clics effectu√©s par les utilisateurs.

L‚Äôaffichage des premi√®res lignes de chaque table permet de v√©rifier la structure des donn√©es, la pr√©sence des colonnes attendues et la coh√©rence globale des informations charg√©es.

---

**Analyse de la volum√©trie**

Les comptages r√©alis√©s mettent en √©vidence les √©l√©ments suivants :

- **36 047 articles** disponibles dans le catalogue ;
- **707 utilisateurs** distincts identifi√©s dans l‚Äôhistorique ;
- **1 883 clics** enregistr√©s au total.

Cette r√©partition r√©v√®le un d√©s√©quilibre marqu√© entre le nombre de contenus disponibles et le volume d‚Äôinteractions observ√©es. Le nombre de clics est tr√®s faible au regard de la taille du catalogue, ce qui implique que la majorit√© des articles n‚Äôont jamais √©t√© consult√©s et que les utilisateurs disposent d‚Äôun historique d‚Äôinteractions extr√™mement limit√©.

---

**Implications pour le syst√®me de recommandation**

La forte sparsit√© des interactions utilisateurs‚Äìarticles constitue une contrainte centrale du projet. Dans ce contexte, il est difficile d‚Äôinf√©rer des pr√©f√©rences individuelles pr√©cises √† partir des seules donn√©es de clics. Cette configuration est caract√©ristique d‚Äôun probl√®me de recommandation en phase de d√©marrage, o√π les donn√©es sont rares et peu informatives.

Ces observations orientent naturellement le projet vers des approches de recommandation robustes dans des environnements √† faible historique, capables de produire des recommandations pertinentes en s‚Äôappuyant sur des informations globales et sur les caract√©ristiques intrins√®ques des articles plut√¥t que sur des comportements utilisateurs d√©taill√©s.

---

**Conclusion interm√©diaire**

Cette phase d‚Äôinitialisation permet de cadrer le p√©rim√®tre du probl√®me, d‚Äôidentifier les limites structurelles des donn√©es disponibles et de poser les bases des choix m√©thodologiques qui seront effectu√©s dans la suite du projet. Elle constitue une √©tape cl√© avant l‚Äôanalyse d√©taill√©e des variables et la s√©lection de la strat√©gie de recommandation √† mettre en ≈ìuvre dans le cadre du MVP.


## Lecture des donn√©es (sch√©ma)

In [8]:
# ============================================
# Lecture du sch√©ma des donn√©es
# ============================================

print("Colonnes du dataset articles :\n")
print(list(articles.columns))

print("\nColonnes du dataset clicks :\n")
print(list(clicks.columns))


Colonnes du dataset articles :

['article_id', 'category_id', 'created_at_ts', 'publisher_id', 'words_count']

Colonnes du dataset clicks :

['user_id', 'session_id', 'session_start', 'session_size', 'click_article_id', 'click_timestamp', 'click_environment', 'click_deviceGroup', 'click_os', 'click_country', 'click_region', 'click_referrer_type']


### Verification

In [None]:
import pickle
import numpy as np
import pandas as pd

# Chargement des embeddings des articles depuis le fichier pickle
with open("../data/articles_embeddings.pickle", "rb") as f:
    emb = pickle.load(f)

# Affichage du type de structure contenant les embeddings
print("Type:", type(emb))

# Inspection l√©g√®re de la structure pour identifier le format des embeddings
if hasattr(emb, "shape"):
    print("Shape:", emb.shape)

# Cas particulier : embeddings stock√©s dans un DataFrame pandas
if isinstance(emb, pd.DataFrame):
    print("DataFrame columns:", emb.columns[:10])
    print("Index type:", type(emb.index))
    display(emb.head())


Type: <class 'numpy.ndarray'>
Shape: (364047, 250)


  emb = pickle.load(f)


In [None]:
import numpy as np

# Dimensions de la matrice d‚Äôembeddings (nombre d‚Äôarticles, dimension vectorielle)
n_articles_emb, dim = emb.shape

# Identification des identifiants minimum et maximum des articles cliqu√©s
max_click_id = clicks["click_article_id"].max()
min_click_id = clicks["click_article_id"].min()

# V√©rification de la couverture : proportion des clics disposant d‚Äôun embedding associ√©
coverage = (clicks["click_article_id"] < n_articles_emb).mean()

print("Embeddings:", (n_articles_emb, dim))
print("Click article_id min/max:", (min_click_id, max_click_id))
print(f"Couverture des clics dans les embeddings: {coverage:.3f}")


Embeddings: (364047, 250)
Click article_id min/max: (np.int64(2137), np.int64(363291))
Couverture des clics dans les embeddings: 1.000


**Validation de la couverture des embeddings**

Les embeddings fournis pour les articles sont structur√©s sous la forme d‚Äôune matrice de dimension (364 047, 250). Chaque ligne correspond √† un article unique et chaque colonne repr√©sente une dimension latente d√©crivant le contenu de l‚Äôarticle.

L‚Äôanalyse des identifiants des articles cliqu√©s montre que les valeurs minimales et maximales des `article_id` pr√©sents dans l‚Äôhistorique de clics sont comprises dans l‚Äôintervalle couvert par la matrice d‚Äôembeddings. La couverture observ√©e est de 100 %, ce qui signifie que l‚Äôensemble des articles consult√©s par les utilisateurs dispose d‚Äôune repr√©sentation vectorielle exploitable.

Cette v√©rification est une √©tape cl√©, car elle garantit que le syst√®me de recommandation peut s‚Äôappuyer sur les embeddings pour tous les articles r√©ellement consomm√©s. Aucune information n‚Äôest perdue lors du calcul des recommandations, et aucune strat√©gie de contournement n‚Äôest n√©cessaire pour g√©rer des articles d√©pourvus de repr√©sentation.

Ces r√©sultats confirment la coh√©rence entre les donn√©es d‚Äôinteraction et les donn√©es de repr√©sentation des contenus, et permettent de poursuivre le d√©veloppement du syst√®me de recommandation sur des bases solides.


## Constrction: baseline de popularit√©

In [None]:
# Calcul du classement des articles les plus consult√©s sur l‚Äôensemble des utilisateurs
top_popular = (
    clicks["click_article_id"]
    .value_counts()
    .head(200)          # Conservation d‚Äôun ensemble √©largi pour les compl√©ments √©ventuels
    .index
    .astype(int)
    .tolist()
)

print("Top 5 popularit√©:", top_popular[:5])


Top 5 popularit√©: [119592, 96663, 108854, 284847, 235840]


**Baseline de recommandation par popularit√©**

Une premi√®re strat√©gie de recommandation a √©t√© mise en place en s‚Äôappuyant uniquement sur la popularit√© globale des articles. Cette approche consiste √† classer les contenus en fonction du nombre total de clics observ√©s, tous utilisateurs confondus, et √† recommander les articles les plus fr√©quemment consult√©s.

Le top 5 des articles les plus populaires est le suivant :  
[119592, 96663, 108854, 284847, 235840]

Cette m√©thode constitue une r√©f√©rence simple et robuste pour le projet. Elle permet de fournir syst√©matiquement des recommandations, ind√©pendamment de la pr√©sence ou non d‚Äôun historique d‚Äôinteractions pour un utilisateur donn√©. En particulier, elle r√©pond efficacement aux situations de type *cold start*, dans lesquelles aucune information n‚Äôest disponible pour personnaliser la recommandation.

## Normalisation des embeddings

In [None]:
import numpy as np

# Conversion des embeddings en float32 afin de r√©duire l‚Äôempreinte m√©moire
X = emb.astype("float32")

# Constante de stabilit√© num√©rique pour √©viter les divisions par z√©ro
eps = 1e-12

# Normalisation L2 des embeddings pour permettre l‚Äôutilisation de la similarit√© cosinus
X = X / np.maximum(np.linalg.norm(X, axis=1, keepdims=True), eps)

print("‚úÖ Embeddings normalis√©s:", X.shape)


‚úÖ Embeddings normalis√©s: (364047, 250)


**Normalisation des embeddings**

Les embeddings des articles ont √©t√© normalis√©s afin de permettre l‚Äôutilisation de la similarit√© cosinus lors du calcul des recommandations. La matrice obtenue conserve une dimension de (364 047, 250), correspondant √† l‚Äôensemble des articles repr√©sent√©s dans un espace vectoriel commun.

Cette √©tape garantit que les comparaisons entre articles reposent sur leur orientation s√©mantique plut√¥t que sur l‚Äôamplitude des vecteurs, ce qui est particuli√®rement adapt√© √† une approche de recommandation bas√©e sur le contenu.


# Fonction de recommandation (MVP)

In [None]:
def recommend(user_id: int, k: int = 5, pool: int = 300):
    # R√©cup√©ration de l‚Äôhistorique de clics de l‚Äôutilisateur
    hist = clicks.loc[clicks["user_id"] == user_id, "click_article_id"].astype(int).tolist()
    hist = [a for a in hist if 0 <= a < X.shape[0]]

    # Cas cold start : aucun historique exploitable ‚Üí recommandation par popularit√©
    if len(hist) == 0:
        return top_popular[:k]

    # Construction du profil utilisateur par moyenne des embeddings des articles cliqu√©s
    u = X[hist].mean(axis=0)
    u = u / max(np.linalg.norm(u), eps)

    # Calcul des similarit√©s cosinus entre le profil utilisateur et tous les articles
    scores = X @ u

    # S√©lection d‚Äôun ensemble restreint de candidats pour limiter le co√ªt de calcul
    pool = min(pool, X.shape[0] - 1)
    idx = np.argpartition(-scores, pool)[:pool]
    idx = idx[np.argsort(-scores[idx])]

    # Filtrage des articles d√©j√† consult√©s par l‚Äôutilisateur
    hist_set = set(hist)
    recs = []
    for i in idx:
        aid = int(i)  # l‚Äôindex correspond directement √† l‚Äôidentifiant de l‚Äôarticle
        if aid not in hist_set:
            recs.append(aid)
        if len(recs) == k:
            break

    # Compl√©ment par popularit√© si le nombre de recommandations est insuffisant
    if len(recs) < k:
        for aid in top_popular:
            if aid not in hist_set and aid not in recs:
                recs.append(aid)
            if len(recs) == k:
                break

    return recs


**Fonction de recommandation personnalis√©e**

La fonction de recommandation repose sur une approche bas√©e sur le contenu, combin√©e √† une strat√©gie de secours par popularit√©. Pour un utilisateur donn√©, l‚Äôhistorique des articles cliqu√©s est d‚Äôabord r√©cup√©r√© et filtr√© afin de ne conserver que les identifiants correspondant √† des articles disposant d‚Äôun embedding valide.

Lorsque l‚Äôutilisateur ne poss√®de aucun historique exploitable, la fonction retourne directement les articles les plus populaires. Ce m√©canisme permet de g√©rer efficacement les situations de *cold start* et garantit qu‚Äôune recommandation est toujours produite.

Dans le cas d‚Äôun utilisateur disposant d‚Äôun historique, un profil utilisateur est construit en calculant la moyenne des embeddings des articles pr√©c√©demment consult√©s. Les articles du catalogue sont ensuite compar√©s √† ce profil √† l‚Äôaide de la similarit√© cosinus, et les contenus les plus proches sont s√©lectionn√©s comme recommandations, en excluant les articles d√©j√† cliqu√©s.

Cette approche permet de proposer des recommandations personnalis√©es tout en restant simple, robuste et adapt√©e aux contraintes d‚Äôun MVP.


## Tests rapide 

In [20]:
print("Reco user 0:", recommend(0))
print("Reco user 1:", recommend(1))
print("Reco user 2:", recommend(2))
print("Reco user sans historique:", recommend(999999))


Reco user 0: [157519, 162856, 159495, 157944, 156690]
Reco user 1: [95797, 246739, 90583, 236005, 231234]
Reco user 2: [25856, 30847, 23608, 30693, 32503]
Reco user sans historique: [119592, 96663, 108854, 284847, 235840]


**R√©sultats des recommandations**

Les tests effectu√©s sur plusieurs utilisateurs montrent que le syst√®me de recommandation produit des r√©sultats coh√©rents et diff√©renci√©s selon l‚Äôhistorique disponible. Pour les utilisateurs disposant d‚Äôinteractions pass√©es, les articles recommand√©s diff√®rent du classement par popularit√© et refl√®tent une personnalisation bas√©e sur les contenus pr√©c√©demment consult√©s.

√Ä l‚Äôinverse, lorsqu‚Äôaucun historique n‚Äôest disponible pour un utilisateur, la fonction retourne syst√©matiquement les articles les plus populaires. Ce comportement confirme la bonne prise en compte du cas de *cold start* et garantit la stabilit√© du syst√®me.

Ces r√©sultats valident le bon fonctionnement de la logique de recommandation, √† la fois pour les utilisateurs connus et pour les nouveaux utilisateurs, et d√©montrent la capacit√© du MVP √† fournir des recommandations pertinentes dans l‚Äôensemble des situations envisag√©es.
