In [2]:
import numpy as np
import pandas as pd
import ast
import re
from typing import List, Dict, Tuple
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.neighbors import NearestNeighbors
from sklearn.preprocessing import LabelEncoder

class RecipeMLEngine:
    def __init__(self, model_name='paraphrase-multilingual-MiniLM-L12-v2'):
        print(f"ü§ñ Initialisation du moteur ML...")
        self.model = SentenceTransformer(model_name)
        self.embeddings_cache = {}
        self.nn_model = NearestNeighbors(metric='cosine', algorithm='brute')
        self.recipe_ids = []
        self.matrix = None

    def _prepare_text(self, row: Dict) -> str:
        """Combine les champs pour cr√©er une 'empreinte textuelle' riche."""
        # Gestion des ingr√©dients (suite √† votre script de nettoyage)
        ings = row.get('ingredients', [])
        if isinstance(ings, str):
            try: ings = ast.literal_eval(ings)
            except: ings = []
        
        ing_text = ", ".join([i.get('nom', i) if isinstance(i, dict) else str(i) for i in ings])
        
        parts = [
            str(row.get('titre', '')),
            str(row.get('description', '')),
            f"Cuisine {row.get('cuisine', '')}",
            f"Type {row.get('typeRecette', row.get('type_recette', ''))}",
            f"Ingr√©dients: {ing_text}",
            "v√©g√©tarien" if row.get('vegetarien') else ""
        ]
        return ". ".join([p for p in parts if p.strip()])

    def fit(self, recipes_df: pd.DataFrame):
        """Entra√Æne les mod√®les ML sur le dataset complet."""
        print(f"üìä Entra√Ænement sur {len(recipes_df)} recettes...")
        
        texts = recipes_df.apply(self._prepare_text, axis=1).tolist()
        self.matrix = self.model.encode(texts, show_progress_bar=True, convert_to_numpy=True)
        self.recipe_ids = recipes_df['id'].tolist()
        
        # Entra√Ænement du mod√®le de voisinage pour des recherches ultra-rapides
        self.nn_model.fit(self.matrix)
        print("‚úÖ Index de recherche spatiale construit.")

    def recommend_similar(self, recipe_id: int, n_recs: int = 5) -> List[int]:
        """Trouve les IDs des recettes similaires via Scikit-Learn NearestNeighbors."""
        if recipe_id not in self.recipe_ids:
            return []
        
        idx = self.recipe_ids.index(recipe_id)
        query_vec = self.matrix[idx].reshape(1, -1)
        
        distances, indices = self.nn_model.kneighbors(query_vec, n_neighbors=n_recs+1)
        
        # On exclut la premi√®re car c'est la recette elle-m√™me
        similar_ids = [self.recipe_ids[i] for i in indices.flatten() if self.recipe_ids[i] != recipe_id]
        return similar_ids[:n_recs]

    def cluster_and_label(self, n_clusters: int = 5) -> pd.DataFrame:
        """Clusterise les recettes et r√©duit les dimensions pour visualisation."""
        # K-Means pour grouper
        kmeans = KMeans(n_clusters=n_clusters, random_state=42, n_init=10)
        clusters = kmeans.fit_predict(self.matrix)
        
        # PCA pour passer de 384 dimensions √† 2 (Visualisation)
        pca = PCA(n_components=2)
        reduced_coords = pca.fit_transform(self.matrix)
        
        result_df = pd.DataFrame({
            'recipe_id': self.recipe_ids,
            'cluster': clusters,
            'x': reduced_coords[:, 0],
            'y': reduced_coords[:, 1]
        })
        return result_df

    def predict_difficulty_logic(self, recipes_df: pd.DataFrame):
        """
        Exemple de Classification : Pr√©dit si une recette est complexe 
        bas√© sur le nombre d'ingr√©dients et de mots dans la description.
        """
        from sklearn.ensemble import RandomForestClassifier
        
        # Feature Engineering simple
        df = recipes_df.copy()
        df['num_ingredients'] = df['ingredients'].apply(lambda x: len(self._parse_list(x)))
        df['desc_len'] = df['description'].str.len()
        
        # On d√©finit arbitrairement une cible (Target) pour l'exemple
        # 1 si difficile, 0 sinon
        df['target'] = (df['num_ingredients'] > 8) | (df['temps_preparation'] > 45)
        
        X = df[['num_ingredients', 'desc_len', 'temps_preparation']]
        y = df['target']
        
        clf = RandomForestClassifier()
        clf.fit(X, y)
        print("üß† Mod√®le de pr√©diction de complexit√© entra√Æn√©.")
        return clf

    def _parse_list(self, data):
        if not data: return []
        try: return ast.literal_eval(str(data))
        except: return []

# --- EX√âCUTION ---
if __name__ == "__main__":
    try:
        # 1. Charger les donn√©es
        df_recipes = pd.read_csv('recettes_clean.csv')

        # 2. NETTOYAGE DE DERNI√àRE MINUTE (√Ä INS√âRER ICI)
        def clean_data_for_ml(df):
            df = df.copy()
            
            # A. Cr√©ation forc√©e de l'ID s'il manque
            if 'id' not in df.columns:
                df['id'] = range(1, len(df) + 1)
                print("üÜî Colonne 'id' g√©n√©r√©e automatiquement.")

            # B. Correction du d√©calage Temps / Difficult√©
            def fix_row(row):
                diff_str = str(row.get('difficulte', '')).lower()
                # Si la difficult√© contient un chiffre (ex: "20 min" ou "1h30")
                if any(char.isdigit() for char in diff_str):
                    # On extrait tous les chiffres pour le temps
                    numbers = re.findall(r'\d+', diff_str)
                    if numbers:
                        row['temps_preparation'] = int(numbers[0])
                    # On remet une valeur par d√©faut dans difficult√©
                    row['difficulte'] = "Non pr√©cis√©e"
                return row
            
            df = df.apply(fix_row, axis=1)
            
            # C. Remplissage des valeurs vides pour √©viter que le ML ne plante
            df['titre'] = df['titre'].fillna('')
            df['description'] = df['description'].fillna('')
            df['ingredients'] = df['ingredients'].fillna('[]')
            
            return df

        # Application du nettoyage
        df_recipes = clean_data_for_ml(df_recipes)

        # 3. Initialisation et Entra√Ænement
        engine = RecipeMLEngine()
        engine.fit(df_recipes) # L'erreur KeyError: 'id' ne se produira plus ici
        
        # 4. Test de recommandation
        sample_id = df_recipes.iloc[0]['id']
        recs = engine.recommend_similar(sample_id)
        
        print(f"\nüí° Parce que vous avez aim√© '{df_recipes.iloc[0]['titre']}', vous aimerez :")
        for r_id in recs:
            name = df_recipes[df_recipes['id'] == r_id]['titre'].values[0]
            print(f" - {name} (ID: {r_id})")

    except FileNotFoundError:
        print("‚ùå 'recettes_clean.csv' manquant.")

üÜî Colonne 'id' g√©n√©r√©e automatiquement.
ü§ñ Initialisation du moteur ML...




Loading weights:   0%|          | 0/199 [00:00<?, ?it/s]

[1mBertModel LOAD REPORT[0m from: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
Key                     | Status     |  | 
------------------------+------------+--+-
embeddings.position_ids | UNEXPECTED |  | 

[3mNotes:
- UNEXPECTED[3m	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.[0m


üìä Entra√Ænement sur 288 recettes...


Batches:   0%|          | 0/9 [00:00<?, ?it/s]

‚úÖ Index de recherche spatiale construit.

üí° Parce que vous avez aim√© 'P√¢te √† pizza fine', vous aimerez :
 - P√¢te √† pizza √©paisse et moelleuse (ID: 61)
 - P√¢te √† pizza inratable (ID: 9)
 - P√¢te √† pizza pour MAP (machine √† pain) (ID: 19)
 - P√¢te bris√©e vite faite (ID: 62)
 - P√¢te pour cake sal√© (ID: 153)
