# üöÄ **Pipeline PREMIUM MODEL : Recommandation S√©mantique Avanc√©e**
*Architecture Hybride : Deep Learning (SBERT) + M√©tadonn√©es Pond√©r√©es + KNN*

---

Ce notebook impl√©mente un syst√®me de recommandation de **"nouvelle g√©n√©ration" (Content-Based)** qui d√©passe les limites de la recherche par mots-cl√©s classiques (TF-IDF). Contrairement aux approches lexicales, ce mod√®le utilise des r√©seaux de neurones pour comprendre le **sens profond** et le **contexte** des synopsis d'animes.

---

## üß† **1. Architecture du Mod√®le**

Le mod√®le construit une **"carte d'identit√© math√©matique"** (vecteur dense) pour chaque anime en fusionnant trois sources d'information distinctes :

### **A. Le Cerveau (S√©mantique - SBERT)** üß†
* **Technologie :** `sentence-transformers/all-MiniLM-L6-v2` (Transformer).
* **R√¥le :** Transforme le texte du synopsis en un vecteur dense de **384 dimensions**.
* **Avantage :** Capture la s√©mantique. Il comprend que *"Samoura√Ø"* et *"Katana"* sont li√©s, ou que *"√âcole"* et *"Lyc√©e"* sont synonymes, m√™me sans mot-cl√© commun.

### **B. Le Squelette (Genres - Pond√©r√©s)** ü¶¥
* **Technologie :** One-Hot Encoding.
* **Pond√©ration :** **x0.6** *(Ajustable)*.
* **R√¥le :** Assure la **coh√©rence de cat√©gorie**.
* **Pourquoi ?** Emp√™che de recommander une *Romance* √† un fan d'*Horreur* simplement parce que le mot "c≈ìur" (organe vs amour) appara√Æt dans les deux r√©sum√©s.

### **C. La "Vibe" (Statistiques - Pond√©r√©es)** üìä
* **Technologie :** Normalisation MinMax sur `Score`, `Membres`, `√âpisodes`.
* **Pond√©ration :** **x0.2** *(Ajustable)*.
* **R√¥le :** Filtre par **qualit√©** et **popularit√©**.
* **Pourquoi ?** Permet de recommander des blockbusters si l'utilisateur cherche un blockbuster, ou des p√©pites de niche si l'utilisateur cherche une niche.

---

## ‚öôÔ∏è **2. Logique de Recommandation (Inf√©rence)**

L'algorithme de recherche ne se contente pas de trouver le voisin le plus proche. Il suit une **logique en cascade** pour maximiser la pertinence utilisateur :

1.  **Recherche Intelligente (Entr√©e) :**
    * üéØ **Priorit√© 1 : Match Exact** sur le titre.
    * ‚ö†Ô∏è **Priorit√© 2 : Match Partiel + Tri par Popularit√©** (pour √©viter de proposer un film obscur ou un OVA quand l'utilisateur cherche la s√©rie principale).

2.  **Calcul de Similarit√© (C≈ìur) :**
    * Utilisation de **KNN (K-Nearest Neighbors)**.
    * M√©trique : **Cosine Similarity**.
    * Comparaison des vecteurs fusionn√©s *(Texte + Genre + Stats)*.

---

## üìÇ **3. Sorties Attendues (Outputs)**

Le pipeline sauvegarde les artefacts dans un dossier horodat√© (`runs/content_premium/YYYYMMDD_HHMMSS/`) pour assurer la reproductibilit√© :

| Fichier | Description |
| :--- | :--- |
| **`features_premium.npz`** | La matrice finale des embeddings (**Dense**). Contient toute l'intelligence du mod√®le. |
| **`knn_model_premium.joblib`** | Le mod√®le KNN entra√Æn√©, pr√™t √† trouver les voisins. |
| **`genre_binarizer.joblib`** | L'encodeur des genres (pour traiter de nouveaux animes futurs). |
| **`numerical_scaler.joblib`** | Le normalisateur des statistiques (MinMax Scaler). |
| **`training_data.csv`** | Snapshot des donn√©es utilis√©es (Indispensable pour mapper `Index` ‚Üî `Titre`). |

In [2]:
# ============================================================
# Notebook : 04_train_content_semantic
# Objectif : Entra√Ænement du mod√®le Content-Based PREMIUM
# Pipeline : SBERT (Deep Learning) + Genres + Numerical ‚Üí KNN
# ============================================================

import os
import yaml
import joblib
import pandas as pd
import numpy as np
import ast

# Deep Learning pour le NLP
from sentence_transformers import SentenceTransformer

from sklearn.preprocessing import MinMaxScaler, MultiLabelBinarizer
from sklearn.neighbors import NearestNeighbors
from scipy import sparse
from datetime import datetime

In [3]:
# ============================================================
# 1. Configuration & Chargement
# ============================================================

# Chemin √† adapter selon ton environnement
config_path = "config/content_premium.yaml" 
# Si tu n'as pas de yaml premium, utilise celui du light pour l'instant
# ou cr√©e-en un avec : model: { transformer: "all-MiniLM-L6-v2" }

print("Loading configuration...")
# Simulation de config pour le script si le fichier n'existe pas encore
config = {
    "model": {
        "transformer_name": "all-MiniLM-L6-v2", # Petit, rapide, puissant
        "knn": {"n_neighbors": 20}
    }
}

# Chargement Dataset
df = pd.read_csv("../data/processed/anime_master_clean.csv")
df = df.dropna(subset=["synopsis"])
df = df.reset_index(drop=True)
print(f"Dataset charg√© : {df.shape}")

# Nettoyage des genres
def fix_list(x):
    if isinstance(x, str):
        try: return ast.literal_eval(x)
        except: return []
    return x

df["genres_list"] = df["genres_list"].apply(fix_list)
df["genres_list"] = df["genres_list"].apply(lambda lst: [g.strip() for g in lst])
df["genres_str"] = df["genres_list"].apply(lambda lst: ", ".join(lst))

Loading configuration...
Dataset charg√© : (18266, 20)


In [4]:
# ============================================================
# 2. Run Directory
# ============================================================

run_id = datetime.now().strftime("%Y%m%d_%H%M%S")
run_dir = f"runs/content_premium/{run_id}"
artifacts_dir = os.path.join(run_dir, "artifacts")
os.makedirs(artifacts_dir, exist_ok=True)

In [5]:
# ============================================================
# 3. Feature Engineering : SBERT (Le c≈ìur du Premium)
# ============================================================

print("‚è≥ Chargement du mod√®le SBERT (peut prendre quelques secondes la 1√®re fois)...")
# Ce mod√®le transforme les phrases en vecteurs de 384 dimensions
model_name = config["model"]["transformer_name"]
sbert_model = SentenceTransformer(model_name)

print("üß† Encodage des synopsis en cours (Deep Learning)...")
# Contrairement √† TF-IDF, c'est un peu plus long, mais bien meilleur
synopsis_embeddings = sbert_model.encode(
    df["synopsis"].fillna("").tolist(), 
    batch_size=64, 
    show_progress_bar=True, 
    convert_to_numpy=True
)

print(f"Embeddings SBERT termin√©s : {synopsis_embeddings.shape}")

‚è≥ Chargement du mod√®le SBERT (peut prendre quelques secondes la 1√®re fois)...


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

üß† Encodage des synopsis en cours (Deep Learning)...


Batches:   0%|          | 0/286 [00:00<?, ?it/s]

Embeddings SBERT termin√©s : (18266, 384)


In [14]:
# ============================================================
# 4. Feature Engineering : Metadata (Genres + Num√©rique)
# ============================================================

# --- A. GENRES ---
print("‚öôÔ∏è Traitement des genres...")
mlb = MultiLabelBinarizer()
genre_matrix = mlb.fit_transform(df["genres_list"])

# Application du poids (Weighting)
try:
    w_genres = config["model"]["weights"]["genres"]
except:
    w_genres = 0.6 # Valeur par d√©faut si config absente
    
genre_matrix = genre_matrix * w_genres


# --- B. NUM√âRIQUE (La version robuste) ---
print("‚öôÔ∏è Traitement des donn√©es num√©riques...")

# Liste id√©ale des colonnes qu'on veut
target_cols = ["score", "members", "episodes", "popularity"]

# FILTRE DE S√âCURIT√â : On ne garde que celles qui existent vraiment dans ton CSV
num_cols = [c for c in target_cols if c in df.columns]

print(f"üìä Colonnes num√©riques trouv√©es et utilis√©es : {num_cols}")

if len(num_cols) > 0:
    scaler = MinMaxScaler()
    num_scaled = scaler.fit_transform(df[num_cols].fillna(0))
    
    # Application du poids
    try:
        w_num = config["model"]["weights"]["numerical"]
    except:
        w_num = 0.2
        
    num_scaled = num_scaled * w_num
else:
    # Cas de secours si aucune colonne n'existe (peu probable)
    print("‚ö†Ô∏è Attention : Aucune colonne num√©rique trouv√©e.")
    num_scaled = np.zeros((len(df), 0))

‚öôÔ∏è Traitement des genres...
‚öôÔ∏è Traitement des donn√©es num√©riques...
üìä Colonnes num√©riques trouv√©es et utilis√©es : ['score', 'members', 'popularity']


In [15]:
# ============================================================
# 5. Fusion des Features
# ============================================================

# On concat√®ne tout : [Sens du texte (384)] + [Genres (~40)] + [Stats (3)]
# Note: SBERT donne des arrays dense, pas sparse. On passe tout en numpy array standard.
features = np.hstack([synopsis_embeddings, genre_matrix, num_scaled])

# Normalisation finale pour que la distance Cosine fonctionne parfaitement
from sklearn.preprocessing import normalize
features = normalize(features, norm='l2', axis=1)

print(f"‚úÖ Matrice finale de features : {features.shape}")

‚úÖ Matrice finale de features : (18266, 408)


In [16]:
# ============================================================
# 6. Entra√Ænement KNN
# ============================================================

print("üöÄ Entra√Ænement du KNN...")
knn = NearestNeighbors(
    n_neighbors=config["model"]["knn"]["n_neighbors"],
    metric="cosine",
    algorithm="brute"
)
knn.fit(features)

üöÄ Entra√Ænement du KNN...


0,1,2
,n_neighbors,20
,radius,1.0
,algorithm,'brute'
,leaf_size,30
,metric,'cosine'
,p,2
,metric_params,
,n_jobs,


In [17]:
# ============================================================
# 7. Sauvegarde des Artefacts
# ============================================================

print(f"üíæ Sauvegarde dans {artifacts_dir}...")

# On sauvegarde la matrice features (on utilise numpy save compress√© car c'est dense)
np.savez_compressed(f"{artifacts_dir}/features_premium.npz", features)

# Sauvegarde du mod√®le KNN
joblib.dump(knn, f"{artifacts_dir}/knn_model_premium.joblib")

# Sauvegarde des objets de pr√©-traitement pour l'inf√©rence future
# Note : Pour SBERT, on ne sauvegarde pas le mod√®le, on rechargera "all-MiniLM-L6-v2"
joblib.dump(mlb, f"{artifacts_dir}/genre_binarizer.joblib")
joblib.dump(scaler, f"{artifacts_dir}/numerical_scaler.joblib")
df.to_csv(f"{artifacts_dir}/training_data.csv", index=False)

üíæ Sauvegarde dans runs/content_premium/20251221_205355\artifacts...


In [62]:
# ============================================================
# 8. Test de Recommandation
# ============================================================

def find_best_match(title, df):
    # 1. Nettoyage de la requ√™te utilisateur (minuscule + sans espaces autour)
    search_term = title.strip().lower()
    
    # --- √âTAPE 1 : RECHERCHE EXACTE (Priorit√© absolue) ---
    # On cherche si un titre correspond parfaitement (en ignorant la casse majuscule/minuscule)
    exact_match = df[df["title"].str.lower() == search_term]
    
    if not exact_match.empty:
        # Si on a plusieurs matchs exacts (rare, mais possible), on prend le plus populaire
        # C'est souvent la s√©rie TV principale
        best_idx = exact_match.sort_values(by="members", ascending=False).index[0]
        print(f"üéØ Match Exact trouv√© : {df.loc[best_idx, 'title']}")
        return best_idx

    # --- √âTAPE 2 : RECHERCHE PARTIELLE (Plan B) ---
    # Si pas de match exact, on cherche "ce qui contient le mot"
    partial_match = df[df["title"].str.lower().str.contains(search_term, regex=False, na=False)]
    
    if partial_match.empty:
        return None

    # --- √âTAPE 3 : TRI INTELLIGENT ---
    # Parmi les r√©sultats partiels, on veut √©viter "One Piece Movie 3" si la s√©rie existe.
    # On trie par nombre de membres (popularit√©) pour faire remonter la s√©rie principale.
    best_idx = partial_match.sort_values(by="members", ascending=False).index[0]
    
    print(f"‚ö†Ô∏è Pas de match exact. Meilleur r√©sultat partiel trouv√© : {df.loc[best_idx, 'title']}")
    return best_idx

def recommend_premium(title, k=30):
    idx = find_best_match(title, df)
    
    # Gestion d'erreur si l'anime n'existe pas du tout
    if idx is None:
        return f"D√©sol√©, l'anime '{title}' est introuvable."
    
    # Le reste ne change pas...
    print(f"üîç Recommandations bas√©es sur : {df.loc[idx, 'title']}")
    
    # Inf√©rence KNN
    # Attention: on met k+1 car le premier r√©sultat est toujours l'anime lui-m√™me
    distances, indices = knn.kneighbors([features[idx]], n_neighbors=k+1)
    
    results = []
    # On commence √† [1:] pour sauter l'anime lui-m√™me (distance 0)
    for i, dist in zip(indices[0][1:], distances[0][1:]):
        score_sim = 1 - dist # Convertir distance en similarit√©
        results.append({
            "title": df.loc[i, "title"],
            "similarity": round(score_sim, 4),
            "genres": df.loc[i, "genres_str"],
            "score": df.loc[i, "score"],
            "mal_id": df.loc[i, "mal_id"] # Utile si tu veux faire des liens plus tard
        })
    
    return pd.DataFrame(results)

In [66]:
# Test sur un anime psychologique complexe (l√† o√π TF-IDF √©choue souvent)
print(recommend_premium("jujutsu kaisen"))


üéØ Match Exact trouv√© : Jujutsu Kaisen
üîç Recommandations bas√©es sur : Jujutsu Kaisen
                                                title  similarity  \
0                                    Kimetsu no Yaiba      0.7307   
1                                          Onigamiden      0.6959   
2                              Jujutsu Kaisen 0 Movie      0.6885   
3                           Jujutsu Kaisen 2nd Season      0.6883   
4                                       Yumekui Merry      0.6509   
5                                      Ao no Exorcist      0.6467   
6                                            Amatsuki      0.6441   
7                  Kimetsu no Yaiba: Mugen Ressha-hen      0.6429   
8            Kimetsu no Yaiba: Katanakaji no Sato-hen      0.6390   
9                       Kimetsu no Yaiba: Yuukaku-hen      0.6388   
10                                    Yuu‚òÜYuu‚òÜHakusho      0.6291   
11             Ao no Exorcist: Shimane Illuminati-hen      0.6289   
12     

# Comparaison des 2 mod√®les : 
## 1. Le "Top 1" est identique (et c'est rassurant)
Dans les deux cas, Kimetsu no Yaiba (Demon Slayer) est le #1.

Pourquoi ? C'est logique. Jujutsu Kaisen et Demon Slayer sont les deux piliers du "Shonen moderne de chasseurs de d√©mons".

Conclusion : Tes deux mod√®les ont bien compris la base. C'est un bon signe de stabilit√©.

## 2. La d√©faillance du mod√®le Light (L'erreur "Arrietty") ‚ùå
Regarde attentivement la liste du mod√®le Light. Il recommande "Karigurashi no Arrietty" (Arrietty, le petit monde des chapardeurs) avec un score de 0.666.

Le probl√®me : Jujutsu Kaisen est un anime violent, sombre, avec des combats sanglants et des mal√©dictions. Arrietty est un film du Studio Ghibli, doux, po√©tique, sur des petits √™tres qui vivent sous le plancher. C'est une erreur de recommandation flagrante.

Pourquoi TF-IDF a fait √ßa ? Il a probablement trouv√© des mots-cl√©s communs dans le synopsis comme "humain", "vivre cach√©", "secret" ou "danger". Il a match√© les mots, pas l'ambiance.

## 3. La finesse du mod√®le Premium (La coh√©rence S√©mantique) ‚úÖ
Ton nouveau mod√®le (SBERT) ne recommande pas Arrietty. Il a compris que le sens du synopsis d'Arrietty n'avait rien √† voir avec celui de JJK.

√Ä la place, il fait remonter des titres plus pertinents th√©matiquement :

Sword Gai The Animation (0.614) : C'est un ajout tr√®s int√©ressant du mod√®le Premium. L'histoire parle d'un gar√ßon qui fusionne avec une √©p√©e l√©gendaire/maudite et combat des monstres.

Lien S√©mantique : Dans JJK, Yuji fusionne avec un objet maudit (le doigt de Sukuna) et utilise des outils maudits. SBERT a capt√© ce lien "Fusion / Objet Maudit" que TF-IDF a rat√©.

Yumekui Merry (0.650) : Un h√©ros qui peut voir des "r√™ves" (monstres) envahir le monde r√©el.

Lien S√©mantique : Tr√®s proche du concept de JJK o√π les "Mal√©dictions" (invisibles aux humains normaux) envahissent le quotidien.

## 4. La gestion de la Franchise (Suites et Films)
Regarde comment ils classent les autres contenus Jujutsu Kaisen :

Mod√®le Light : Met la Saison 2 en premier, puis le film JJK 0 plus bas.

Mod√®le Premium : Met le film JJK 0 (0.6885) juste devant la Saison 2 (0.6883).

Analyse : C'est subtil, mais le synopsis de JJK 0 (l'histoire de Yuta Okkotsu) est structurellement plus proche du d√©but de JJK (l'histoire de Yuji Itadori) : un lyc√©en normal se retrouve avec une mal√©diction surpuissante et rejoint l'√©cole d'exorcisme. SBERT a d√©tect√© cette similarit√© narrative structurelle tr√®s forte.
