# 1) Data engineering

In [None]:
!pip install -q chromadb sentence-transformers mistralai gradio recipe-scrapers

In [None]:
# --- IMPORTS  ---
import os
import json
import uuid
import time
import random
from google.colab import files

import requests
from bs4 import BeautifulSoup
from recipe_scrapers import scrape_me
import pandas as pd
from tqdm import tqdm
from sentence_transformers import SentenceTransformer

import chromadb
from mistralai import Mistral

import gradio as gr

In [None]:
import getpass
api_key = getpass.getpass("Entrez votre cl√© API Mistral :")

In [None]:
nb_pages = 42  # Nombre de pages Marmiton √† parcourir
muffin_dataset = []

print("D√©but de l'extraction...")

# On parcourt les 42 pages de la recherche "muffin" sur Marmiton
for page in range(1, nb_pages + 1):
    print(f"Analyse de la page {page}...")
    search_url = f"https://www.marmiton.org/recettes/recherche.aspx?aqt=muffin&page={page}"

    try:
        # Utilisation d'un User-Agent pour simuler un navigateur et √©viter un blocage
        response = requests.get(search_url, headers={'User-Agent': 'Mozilla/5.0'})
        soup = BeautifulSoup(response.content, 'html.parser')
        links = soup.select("a[href^='/recettes/recette_']")

        # Nettoyage des URLs de la page actuelle
        page_urls = list(set(["https://www.marmiton.org" + link['href'] for link in links]))

        for url in page_urls:
            try:
                scraper = scrape_me(url)
                # On ne filtre que les recettes dont le titre contient "muffin"
                if "muffin" in scraper.title().lower():
                  ing_list = scraper.ingredients()
                  ing_string = ", ".join(ing_list)
                  # Structuration des donn√©es pour l'indexation future dans ChromaDB
                  muffin_dataset.append({
                        "title": scraper.title(),
                        "ingredients": ing_string,
                        "instructions": scraper.instructions(),
                        "time": scraper.total_time(), # en minutes
                        "yield": scraper.yields(), # ex: "12 portions"
                        "url": url,
                        "page" : page
                    })
                # Pause d'une seconde pour respecter le serveur
                time.sleep(1)
            except Exception:
                continue

    except Exception as e:
        print(f"Erreur page {page}: {e}")

# Sauvegarde dans l'espace local de Colab
with open('muffins_marmiton_VF.json', 'w', encoding='utf-8') as f:
    json.dump(muffin_dataset, f, ensure_ascii=False, indent=4)

print(f"\n {len(muffin_dataset)} recettes sauvegard√©es dans muffins_marmiton_VF.json")

# T√©l√©chargement automatique
files.download('muffins_marmiton_VF.json')

# 2, 3) Embedding - Vector store

In [None]:
def load_and_prepare_data(json_path):
    """
    Charge le dataset brut et le transforme en dataframe
    """
    with open(json_path, 'r', encoding='utf-8') as f:
        data = json.load(f)
    df = pd.DataFrame(data)
    return df

In [None]:
EMBEDDING_MODEL_NAME = "paraphrase-multilingual-MiniLM-L12-v2"
COLLECTION_NAME = "royaume_du_muffin"

def create_embeddings_and_store(df):
    """
    Transforme le texte en embeddings et les stocke dans ChromaDB.
    """
    print("ü§ñ Chargement du mod√®le d'embedding...")
    model = SentenceTransformer(EMBEDDING_MODEL_NAME)

    # Concat√©nation Titre + Ingr√©dients pour la recherche
    documents = (df['title'] + " : " + df['ingredients']).tolist()
    # M√©tadonn√©es : On conserve l'int√©gralit√© du DF
    metadatas = df.to_dict(orient='records')
    ids = [str(uuid.uuid4()) for _ in range(len(df))]

    print("‚ö° Vectorisation en cours...")
    embeddings = model.encode(documents).tolist()

    # Stockage ChromaDB
    client = chromadb.Client() # En m√©moire pour le test
    try: client.delete_collection(name=COLLECTION_NAME)
    except: pass

    # Cr√©ation de la collection et indexation des vecteurs
    collection = client.create_collection(name=COLLECTION_NAME)
    collection.add(documents=documents, embeddings=embeddings, metadatas=metadatas, ids=ids)

    print(f"‚úÖ Indexation termin√©e ! {collection.count()} recettes stock√©es.")
    return collection

In [None]:
# 1. Chargement des donn√©es des recettes brutes
df = load_and_prepare_data('muffins_marmiton_VF.json')

# 2. On cr√©e la base 'db' qui servira au Retrieval (RAG)
db = create_embeddings_and_store(df)

# 3. Instance locale du mod√®le pour les futures recherches utilisateurs
model = SentenceTransformer(EMBEDDING_MODEL_NAME)

# 4, 5) Retrieval - Generation

In [None]:
model_mistral = "mistral-small-latest"

def interroger_chef_muffin(query_str):
    # Question de l'utilisateur vectoris√©e
    query_vector = model.encode([query_str]).tolist()

    # 1. RETRIEVAL : On cherche les 5 meilleures recettes dans la base ChromaDB
    search_results = db.query(query_embeddings=query_vector, n_results=5)
    recettes = search_results['metadatas'][0]

    # Podium affich√© pour mes tests en interne, pas pour l'utilisateur externe
    podium_html = "### Podium des Recettes (Sources)\n"
    context_str = ""
    for i, r in enumerate(recettes):
        infos = f"**{i+1}. {r['title']}**\n- üîó [Lien vers la recette]({r['url']})\n\n"
        podium_html += infos
        # On garde le format complet pour le contexte envoy√© au LLM
        context_str += f"--- {r['title']} ---\n{r['time']}\n{r['yield']}\n{r['ingredients']}\n{r['instructions']}\n{r['url']}\n"

    # 2. GENERATION
    prompt_final = f"""
    TU ES "CHEF MUFFIN". TON UNIQUE MISSION EST DE DONNER DES RECETTES COMPL√àTES DE MUFFINS, RIEN D'AUTRE. R√©ponds toujours avec humour et gentillesse : tu es un jeune chef dr√¥le, avec un c√¥t√© Reggaeman !

    ### R√àGLE D'OR :
    NE DEMANDE JAMAIS √† l'utilisateur s'il veut les d√©tails. DONNE-LES TOUT DE SUITE.
    L'utilisateur ne peut pas te r√©pondre, c'est ta SEULE chance de l'aider !

    ### DIRECTIVES STRICTES :
    1. S√âLECTION : Soit l'utilisateur demande des ingr√©dients qui correspondent tr√®s bien √† une recette du [CONTEXTE] en particulier, dans ce cas ne propose QUE CELLE-CI.
    Soit les recettes du [CONTEXTE] sont similaires mais ne correspondent pas parfaitement √† la demande, propose les TOUTES, SEULEMENT SI ELLES CONTIENNENT AU MOINS UN INGREDIENT DE LA DEMANDE, ou si un ingr√©dient est de la bonne famille d'aliments .
    Si la [QUESTION] contient des objets non comestibles ou des ingr√©dients farfelus, ne cherche pas √† les inclure. R√©ponds avec humour que Chef Muffin ne cuisine pas de [OBJET] et propose tes meilleures recettes sucr√©es √† la place.

    2. FORMAT COMPLET : Pour chaque recette choisie, tu DOIS utiliser ce format pr√©cis :
       - ### [Emoji] [Titre exact]
       - **‚è± Dur√©e :** [Dur√©e] | **üßÅ Portions :** [Nombre]

       **Ingr√©dients :**
       [Liste des ingr√©dients avec des tirets]

       **Instructions :**
       [Liste num√©rot√©e des √©tapes]

       üåê Source : [URL]
    3. ANCRAGE : Si l'ingr√©dient pr√©cis n'existe pas dans le contexte, dis honn√™tement que tu ne l'as pas en stock et DONNE LA RECETTE ENTI√àRE imm√©diatement apr√®s.
    4. PAS DE BLA-BLA : √âvite les listes de titres inutiles. Si tu cites une recette, tu donnes ses instructions.
    5. LANGUE : R√©ponds toujours en fran√ßais courant et app√©tissant. Ne fais pas que donner la recette, tu peux la pr√©senter, dire si elle correspond aux ingr√©dients demand√©s ou pas.
    6. Utilise UNIQUEMENT les recettes fournies dans le bloc [CONTEXTE]. N'invente rien et NE MODIFIE JAMAIS une recette.


    [CONTEXTE]
    {context_str}

    [QUESTION]
    {query_str}
    """

    # 3. APPEL √Ä MISTRAL
    client = Mistral(api_key=api_key)

    response = client.chat.complete(
        model=model_mistral,
        messages=[{"role": "user", "content": prompt_final}]
    )

    reponse_llm = response.choices[0].message.content

    return reponse_llm


In [None]:
demo = gr.Interface(
    fn=interroger_chef_muffin,
    inputs=gr.Textbox(label="üåø Qu'est ce que tu veux dans ton muffin, man ?"),
    outputs=gr.Markdown(label="üë®‚Äçüç≥ La parole du Chef Winston"),
    title="Bienvenue dans l'atelier du Chef Winston Muffin ! üáØüá≤ ",
    description="Le Chef √©toil√© qui ne jure que par les muffins üßÅ",
    theme="ocean",
    allow_flagging="never"
)

demo.launch(share=True)

# Alternative : on enrichit les embeddings en identifiant les identifiants principaux de chaque recette

Vous pouvez ex√©cuter toutes ces cellules √† la suite pour obtenir la version alternative.

In [None]:
# --- CONFIGURATION ---
EMBEDDING_MODEL_NAME = "paraphrase-multilingual-MiniLM-L12-v2"
COLLECTION_NAME = "royaume_du_muffin"

client = Mistral(api_key=api_key)
model_embedding = SentenceTransformer(EMBEDDING_MODEL_NAME)

Fonction ***extraire_stars_avec_mistral_robuste*** utilis√©e pour le pr√©-traitement des donn√©es : identifie les ingr√©dients principaux gr√¢ce √† Mistral pour am√©liorer la performance du RAG.

In [None]:
def extraire_stars_avec_mistral_robuste(row, retries=5):
    prompt = f"""
    Analyse cette recette et extrais UNIQUEMENT les 2 ou 3 ingr√©dients signatures.
    Titre : {row['title']}
    Ingr√©dients : {row['ingredients']}
    R√©ponse (mots-cl√©s s√©par√©s par une virgule uniquement) :"""

    for i in range(retries):
        try:
            response = client.chat.complete(
                model="mistral-tiny", # Mod√®le rapide pour l'extraction de mots-cl√©s
                messages=[{"role": "user", "content": prompt}]
            )
            # Pause pour stabiliser le d√©bit de requ√™tes
            time.sleep(0.5)
            # Nettoyage de la r√©ponse pour garantir une uniformit√© dans la base de donn√©es
            return response.choices[0].message.content.strip().lower()

        except Exception as e:
            if "429" in str(e):
                # Strat√©gie de 'Backoff Exponentiel' : on attend
                # (2^i) + un facteur al√©atoire pour √©viter que toutes les requ√™tes ne repartent exactement au m√™me moment
                attente = (2 ** i) + random.random()
                print(f" Trop rapide ! Pause de {attente:.1f}s...")
                time.sleep(attente)
            else:
                print(f"‚ùå Erreur sur '{row['title']}': {e}")
                return ""
    # Si apr√®s 5 tentatives rien ne fonctionne, on renvoie une cha√Æne vide pour ne pas bloquer le script
    return ""

Fonction ***enrichir_batch*** pour g√©n√©rer le dataset final "enrichi" : je l'ai fait par groupes de 100 recettes pour ne pas perdre les donn√©es d√©j√† obtenues en cas de bug. Les ingr√©dients principaux sont r√©p√©t√©s 3 fois dans l'embedding

In [None]:
def enrichir_batch(df, batch_size=100, output_file="muffins_enriched_dataset.json"):
    df = df.copy()
    total_recettes = len(df)

    # On initialise la colonne 'ingr√©dients stars' (principaux) si elle n'existe pas
    if 'star_ingredients' not in df.columns:
        df['star_ingredients'] = ""

    print(f"Lancement du traitement de {total_recettes} muffins par blocs de {batch_size}...")

    for start_idx in range(0, total_recettes, batch_size):
        end_idx = min(start_idx + batch_size, total_recettes)
        print(f"\n Traitement du bloc : {start_idx} √† {end_idx}...")

        # On ne traite que les lignes du bloc
        for idx in tqdm(range(start_idx, end_idx)):
            # On v√©rifie si on n'a pas d√©j√† l'info (pour pouvoir relancer le script apr√®s un crash)
            if not df.loc[idx, 'star_ingredients']:
                df.loc[idx, 'star_ingredients'] = extraire_stars_avec_mistral_robuste(df.iloc[idx])

        # Sauvegarde interm√©diaire apr√®s chaque bloc
        df.to_json(output_file, orient='records', force_ascii=False, indent=4)
        print(f"‚úÖ Bloc termin√© et sauvegard√© dans {output_file}")

    # Une fois fini, on cr√©e la colonne finale pour l'embedding
    df['text_for_embedding'] = df.apply(
        lambda x: f"{x['star_ingredients']} {x['star_ingredients']} {x['star_ingredients']} {x['title']} : {x['ingredients']}",
        axis=1
        )

    # Sauvegarde finale
    df.to_json(output_file, orient='records', force_ascii=False, indent=4)
    print(f"\n Traitement termin√© ! Fichier sauvegard√© : {output_file}")
    return df

Chargement du dataset optimis√© comme pour la version standard


In [None]:
def create_embeddings_and_store_optimized(df):
    print(f"ü§ñ Initialisation de ChromaDB...")

    # On vectorise la colonne 'text_for_embedding' (d√©j√† pr√©par√©e dans le JSON)
    documents = df['text_for_embedding'].astype(str).tolist()
    metadatas = df.to_dict(orient='records')
    ids = [str(uuid.uuid4()) for _ in range(len(df))]

    embeddings = model_embedding.encode(documents, show_progress_bar=True).tolist()

    client_db = chromadb.Client()
    try: client_db.delete_collection(name=COLLECTION_NAME)
    except: pass

    collection = client_db.create_collection(
        name=COLLECTION_NAME,
        metadata={"hnsw:space": "cosine"}
    )

    collection.add(documents=documents, embeddings=embeddings, metadatas=metadatas, ids=ids)
    print(f"‚úÖ Base vectorielle pr√™te : {collection.count()} muffins index√©s.")
    return collection

In [None]:
# On charge directement le fichier pr√©par√©
try:
    df_muffins = pd.read_json("muffins_enriched_dataset.json")
    print("‚úÖ Grimoire charg√© avec succ√®s !")
except:
    print("‚ùå Erreur : le fichier 'muffins_enriched_dataset.json' est introuvable.")

# --- CR√âATION DE LA DB VECTORIELLE ---
db = create_embeddings_and_store_optimized(df_muffins)

In [None]:
model_mistral = "mistral-small-latest"

def interroger_chef_muffin(query_str):
    # Question de l'utilisateur vectoris√©e
    query_vector = model_embedding.encode([query_str]).tolist()

    # 1. RETRIEVAL : On cherche les 5 meilleures recettes dans la base ChromaDB
    search_results = db.query(query_embeddings=query_vector, n_results=5)
    recettes = search_results['metadatas'][0]

    # Podium affich√© pour mes tests en interne, pas pour l'utilisateur externe
    podium_html = "### Podium des Recettes (Sources)\n"
    context_str = ""
    for i, r in enumerate(recettes):
        infos = f"**{i+1}. {r['title']}**\n- üîó [Lien vers la recette]({r['url']})\n\n"
        podium_html += infos
        # On garde le format complet pour le contexte envoy√© au LLM
        context_str += f"--- {r['title']} ---\n{r['time']}\n{r['yield']}\n{r['ingredients']}\n{r['instructions']}\n{r['url']}\n"

    # 2. GENERATION
    prompt_final = f"""
    TU ES "CHEF MUFFIN". TON UNIQUE MISSION EST DE DONNER DES RECETTES COMPL√àTES DE MUFFINS, RIEN D'AUTRE. R√©ponds toujours avec humour et gentillesse : tu es un jeune chef dr√¥le, avec un c√¥t√© Reggaeman !

    ### R√àGLE D'OR :
    NE DEMANDE JAMAIS √† l'utilisateur s'il veut les d√©tails. DONNE-LES TOUT DE SUITE.
    L'utilisateur ne peut pas te r√©pondre, c'est ta SEULE chance de l'aider !

    ### DIRECTIVES STRICTES :
    1. S√âLECTION : Soit l'utilisateur demande des ingr√©dients qui correspondent tr√®s bien √† une recette du [CONTEXTE] en particulier, dans ce cas ne propose QUE CELLE-CI.
    Soit les recettes du [CONTEXTE] sont similaires mais ne correspondent pas parfaitement √† la demande, propose les TOUTES, SEULEMENT SI ELLES CONTIENNENT AU MOINS UN INGREDIENT DE LA DEMANDE, ou si un ingr√©dient est de la bonne famille d'aliments .
    Si la [QUESTION] contient des objets non comestibles ou des ingr√©dients farfelus, ne cherche pas √† les inclure. R√©ponds avec humour que Chef Muffin ne cuisine pas de [OBJET] et propose tes meilleures recettes sucr√©es √† la place.

    2. FORMAT COMPLET : Pour chaque recette choisie, tu DOIS utiliser ce format pr√©cis :
       - ### [Emoji] [Titre exact]
       - **‚è± Dur√©e :** [Dur√©e] | **üßÅ Portions :** [Nombre]

       **Ingr√©dients :**
       [Liste des ingr√©dients avec des tirets]

       **Instructions :**
       [Liste num√©rot√©e des √©tapes]

       üåê Source : [URL]
    3. ANCRAGE : Si l'ingr√©dient pr√©cis n'existe pas dans le contexte, dis honn√™tement que tu ne l'as pas en stock et DONNE LA RECETTE ENTI√àRE imm√©diatement apr√®s.
    4. PAS DE BLA-BLA : √âvite les listes de titres inutiles. Si tu cites une recette, tu donnes ses instructions.
    5. LANGUE : R√©ponds toujours en fran√ßais courant et app√©tissant. Ne fais pas que donner la recette, tu peux la pr√©senter, dire si elle correspond aux ingr√©dients demand√©s ou pas.
    6. Utilise UNIQUEMENT les recettes fournies dans le bloc [CONTEXTE]. N'invente rien et NE MODIFIE JAMAIS une recette.


    [CONTEXTE]
    {context_str}

    [QUESTION]
    {query_str}
    """

    # 3. APPEL √Ä MISTRAL
    client = Mistral(api_key=api_key)

    response = client.chat.complete(
        model=model_mistral,
        messages=[{"role": "user", "content": prompt_final}]
    )

    reponse_llm = response.choices[0].message.content

    return reponse_llm


In [None]:
demo = gr.Interface(
    fn=interroger_chef_muffin,
    inputs=gr.Textbox(label="üåø Qu'est ce que tu veux dans ton muffin, man ? "),
    outputs=gr.Markdown(label="üë®‚Äçüç≥ La parole du Chef Winston"),
    title="Bienvenue dans l'atelier du Chef Winston Muffin ! üáØüá≤ ",
    description="Le Chef √©toil√© qui ne jure que par les muffins üßÅ",
    theme="ocean",
    allow_flagging="never"
)

demo.launch(share=True)