## Vectorisation des textes (text_for_embedding) et stockage dans une base de donnÃ©es vectorielle ##


Je commence par vectoriser les textes en vecteurs mathÃ©matiques en utilisant le modÃ¨le multilingue SentenceTransformers de Hugging Face : paraphrase-multilingual-MiniLM-L12-v2

In [188]:
import pandas as pd
import chromadb
from sentence_transformers import SentenceTransformer
import uuid
import json

# --- CONFIGURATION FRANÃ‡AISE ðŸ‡«ðŸ‡· ---
EMBEDDING_MODEL_NAME = "paraphrase-multilingual-MiniLM-L12-v2"
COLLECTION_NAME = "royaume_du_muffin_6"
FICHIER_JSON = "base_de_donnees.json"

def load_and_simulate_data():
    
    with open(FICHIER_JSON, 'r', encoding='utf-8') as f:
        data = json.load(f)
    return pd.DataFrame(data)


def create_embeddings_and_store(df):
    print("ðŸ¤– Chargement du modÃ¨le d'embedding multilingue...")
    model = SentenceTransformer(EMBEDDING_MODEL_NAME)

    df_copy = df.copy()
    df_copy = df_copy.fillna("")
    
    # On transforme la colonne 'ingredients' (liste) en texte (str)
    # On vÃ©rifie d'abord si c'est bien une liste pour Ã©viter de faire planter le code
    df_copy['ingredients'] = df_copy['ingredients'].apply(
        lambda x: ", ".join(x) if isinstance(x, list) else x
    )
    # ConcatÃ©nation Titre + IngrÃ©dients pour la recherche
    documents = df_copy["text_for_embedding"].tolist()
    metadatas = df_copy.to_dict(orient='records')
    ids = [str(uuid.uuid4()) for _ in range(len(df_copy))]

    print("âš¡ Vectorisation en cours...")
    embeddings = model.encode(documents).tolist()


    # Stockage ChromaDB
    client = chromadb.Client() # En mÃ©moire pour le test
    try: client.delete_collection(name=COLLECTION_NAME)
    except: pass

    collection = client.create_collection(name=COLLECTION_NAME)
    collection.add(documents=documents, embeddings=embeddings, metadatas=metadatas, ids=ids)

    print(f"âœ… Indexation terminÃ©e ! {collection.count()} recettes stockÃ©es.")
    return collection



In [189]:
# --- TEST ---
if __name__ == "__main__":
    df = load_and_simulate_data()
    db = create_embeddings_and_store(df)

ðŸ¤– Chargement du modÃ¨le d'embedding multilingue...
âš¡ Vectorisation en cours...
âœ… Indexation terminÃ©e ! 375 recettes stockÃ©es.


In [203]:
# Test de recherche en franÃ§ais
query = "Je suis fan de pizza"
model = SentenceTransformer(EMBEDDING_MODEL_NAME)
results = db.query(query_embeddings=model.encode([query]).tolist(), n_results=6)
print(f"\nðŸ”Ž Question: '{query}'")

for i, metadata in enumerate(results['metadatas'][0]):
    print(f"ðŸ‘‰ Top {i+1}: {metadata['titre']}")


ðŸ”Ž Question: 'Je suis fan de pizza'
ðŸ‘‰ Top 1: Pizza faÃ§on muffin
ðŸ‘‰ Top 2: Muffins pizzas faciles
ðŸ‘‰ Top 3: Muffins 'pizza'
ðŸ‘‰ Top 4: Muffins burger Ã  l'italienne
ðŸ‘‰ Top 5: Muffin feuilletÃ© tomate aubergine mozzarella
ðŸ‘‰ Top 6: Muffins au fromage Ã  raclette
