In [None]:
# Install packages (restart runtime after)
! pip install -q accelerate bitsandbytes langchain langchain-community sentence-transformers  openpyxl pacmap pypdf
! pip install faiss-cpu --no-cache

# Import this package for embedders
! pip install -U langchain-huggingface

# Use langchain for text splitter (transform)
! pip install -qU langchain-text-splitters

# Install packages
! pip install --quiet langchain_experimental
! pip install langchain-community
! pip install sentence_transformers

# Reranking
! pip install ragatouille



In [None]:
from google.colab import drive
drive.flush_and_unmount()
print('Drive déconnecté')

Drive déconnecté


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


**<h2>1. Load dataset</h2>**

In [None]:
#pre-chunk
import os
import shutil
import time
from urllib.request import urlopen, Request
from urllib.error import HTTPError, URLError
from langchain_community.document_loaders import PyPDFDirectoryLoader

# Fichiers à traiter (URL ou chemins locaux)
files = [
    # URL :
    "https://www.interforum.fr/images/SOL/art/doc/d/d755f11b9031333738323137393333333832313336.pdf", # decoupe
    "https://gastrojura.ch/wp-content/uploads/2021/04/gastrojura_methodes-cuisson-resume.pdf", # technique de cuisson
    "https://www.qoqa.ch/fr/posts/1891.pdf", # Méthode de découpe
    "https://agirtot.org/media/489979/facilitemps.pdf" # cuisine rapide

    # Exemple chemin local
    "/content/drive/MyDrive/BUT/SAE/SAE_IA/recettes.pdf"
    "/content/drive/MyDrive/BUT/SAE/SAE_IA/recettes_mondes.pdf"
]

# Dossier cible pour stocker les PDF
os.makedirs("cuisine_test", exist_ok=True)

# Fonction pour télécharger un PDF depuis une URL
def download_pdf(url, file_path, retries=3, delay=5):
    for attempt in range(retries):
        try:
            req = Request(url, headers={'User-Agent': 'Mozilla/5.0'})
            with urlopen(req) as response, open(file_path, 'wb') as out_file:
                out_file.write(response.read())
            print(f"Successfully downloaded {file_path}")
            return
        except HTTPError as e:
            print(f"HTTP Error: {e.code} for {url}. Retrying in {delay} seconds...")
        except URLError as e:
            print(f"URL Error: {e.reason} for {url}. Retrying in {delay} seconds...")
        except Exception as e:
            print(f"Unexpected error: {e} for {url}. Retrying in {delay} seconds...")

        time.sleep(delay)

    print(f"Failed to download {url} after {retries} attempts.")

# Gérer chaque fichier (URL ou chemin local)
for path in files:
    file_name = os.path.basename(path)
    dest_path = os.path.join("cuisine_test", file_name)

    if path.startswith("http://") or path.startswith("https://"):
        download_pdf(path, dest_path)
    else:
        # C'est un chemin local : on copie simplement
        try:
            shutil.copy(path, dest_path)
            print(f"Copied local file: {path} to {dest_path}")
        except Exception as e:
            print(f"Error copying file {path}: {e}")

# Charger les PDF depuis le dossier
loader = PyPDFDirectoryLoader("cuisine_test")
docs_before_split = loader.load()

avg_doc_length = lambda docs: sum([len(doc.page_content) for doc in docs]) // len(docs)
avg_char_before_split = avg_doc_length(docs_before_split)

print(f'\n{len(docs_before_split)} documents loaded.')
print(f'Average characters per document: {avg_char_before_split}')


Successfully downloaded cuisine_test/d755f11b9031333738323137393333333832313336.pdf
Successfully downloaded cuisine_test/gastrojura_methodes-cuisson-resume.pdf
Successfully downloaded cuisine_test/1891.pdf
HTTP Error: 404 for https://agirtot.org/media/489979/facilitemps.pdf/content/drive/MyDrive/BUT/SAE/SAE_IA/recettes.pdf/content/drive/MyDrive/BUT/SAE/SAE_IA/recettes_mondes.pdf. Retrying in 5 seconds...
HTTP Error: 404 for https://agirtot.org/media/489979/facilitemps.pdf/content/drive/MyDrive/BUT/SAE/SAE_IA/recettes.pdf/content/drive/MyDrive/BUT/SAE/SAE_IA/recettes_mondes.pdf. Retrying in 5 seconds...
HTTP Error: 404 for https://agirtot.org/media/489979/facilitemps.pdf/content/drive/MyDrive/BUT/SAE/SAE_IA/recettes.pdf/content/drive/MyDrive/BUT/SAE/SAE_IA/recettes_mondes.pdf. Retrying in 5 seconds...
Failed to download https://agirtot.org/media/489979/facilitemps.pdf/content/drive/MyDrive/BUT/SAE/SAE_IA/recettes.pdf/content/drive/MyDrive/BUT/SAE/SAE_IA/recettes_mondes.pdf after 3 attem

In [None]:
# A list of dict
print(docs_before_split[4].page_content)

2 
  
 
 
 
La cuisine, un lieu de partage ............................................................................................................................................. 4 
 
  
Par où commencer? 
 Les aliments à avoir dans sa cuisine  ....................................................................................................................... 6 
 Les équipements de base en cuisine  ..................................................................................................................... 8 
On se lance! 
Un petit pas à la fois  ................................................................................................................................................... 9 
Les étapes de la planification des repas  .............................................................................................................. 10 
Trucs et astuces pour repas à l’avance et sans tracas  ...................................................................

In [None]:
print(docs_before_split[0])

page_content='Guide de cuisine pratique 
Ce guide vous sera tout simplement FACILITEMPS! 
TOUT 
SIMPLEMENT 
FACILITEMPS' metadata={'producer': 'Adobe Acrobat Pro 10.1.9', 'creator': 'Adobe Acrobat Pro 10.1.9', 'creationdate': '2019-09-05T15:38:36-04:00', 'author': 'UTILISATEUR', 'moddate': '2019-09-05T15:38:36-04:00', 'title': '', 'source': 'cuisine_test/facilitemps.pdf', 'total_pages': 100, 'page': 0, 'page_label': '1'}


On utilise **RecursiveCharacterTextSplitter**

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 512, # max input lenght of our tokenizer
    chunk_overlap  = 512 // 10,
)
# Return list
docs_after_split = text_splitter.split_documents(docs_before_split)
avg_char_after_split = avg_doc_length(docs_after_split)
print(f'After split, there were {len(docs_after_split)} documents (chunks), with average characters equal to {avg_char_after_split} (average chunk length).')

After split, there were 1067 documents (chunks), with average characters equal to 427 (average chunk length).


**<h2>3. Embeddings & Store</h2>**

In [None]:
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores.utils import DistanceStrategy
import torch
from langchain.vectorstores import FAISS
import faiss

# Embedder
EMBEDDING_MODEL_NAME = "intfloat/multilingual-e5-small"
# autre model a tester si besoin dangvantuan/sentence-camembert-large
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
embedding_model = HuggingFaceEmbeddings(
    model_name=EMBEDDING_MODEL_NAME,
    multi_process=True,
    model_kwargs={"device": device},
    encode_kwargs={"normalize_embeddings": True},  # set True for cosine similarity , super important de normaliser

)

# Save all documents in the database
KNOWLEDGE_VECTOR_DATABASE = FAISS.from_documents(
    docs_after_split, embedding_model, distance_strategy=DistanceStrategy.COSINE
)

# Test the embedder
user_query = "Propose moi une recette de quiche lorraine"
query_vector = embedding_model.embed_query(user_query)

print(f"A list of size : {len(query_vector)}")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


A list of size : 384


In [None]:
drive_path = '/content/drive/MyDrive/BUT/SAE/SAE_IA/cuisine_index'  # Remplacez 'MyDrive/cuisine_index' par le chemin souhaité dans votre Drive

In [None]:
# Save embeddings permet de recuperer le document utilisant la base de données
KNOWLEDGE_VECTOR_DATABASE.save_local(drive_path)

In [None]:
#Ne pas faire pour l'instant

#Pour charger la bdd deja creer
# Load saved embeddings
KNOWLEDGE_VECTOR_DATABASE = FAISS.load_local("cuisine_index", embedding_model, allow_dangerous_deserialization=True)
#si je veux alimenter ma bdd plus tard
# Add new documents [in the future]
KNOWLEDGE_VECTOR_DATABASE.add_documents(docs_after_split)

In [None]:
# Test the retriever, comparaison de vecteur
print(f"\nStarting retrieval for propose moi une recette de quiche lorraine ...")
retrieved_docs = KNOWLEDGE_VECTOR_DATABASE.similarity_search(query="Saumon avec sauce yaourt-menthe", k=10)

print("\n==================================Top document==================================")

print(retrieved_docs[0].page_content)

print("==================================Metadata==================================")

print(retrieved_docs[1].metadata)




Starting retrieval for propose moi une recette de quiche lorraine ...

Un snack parfait en été : merveilleusement  
rafraîchissant et facile à préparer.
Saumon avec sauce 
yaourt-menthe
1. Préchauffez le four à 200 °C. Mélangez dans un saladier le vinaigre avec la menthe, le 
yaourt, le sel et le poivre.
2. Posez le saumon sur une grande feuille d’aluminium. Salez et poivrez le poisson,  
répartissez l’aneth et posez quelques tranches de citron. Refermez la feuille au dessus du 
saumon et formez une papillote. Posez la papillote sur une plaque de cuisson, faites cuire le
{'producer': 'PyPDF', 'creator': 'PyPDF', 'creationdate': '', 'source': 'cuisine_test/nobilia-recettes-internationales-FR.pdf', 'total_pages': 161, 'page': 9, 'page_label': '10'}


In [None]:
# Test the retriever, comparaison de vecteur
print(f"\nStarting retrieval for propose moi une recette de quiche lorraine ...")
retrieved_docs = KNOWLEDGE_VECTOR_DATABASE.similarity_search(query="Donne moi la recette de falafels", k=10)

print("\n==================================Retrieved Documents==================================")

for i, doc in enumerate(retrieved_docs):
    print(f"\nDocument {i + 1}:")
    print(doc.page_content)
    print("==================================Metadata==================================")
    print(doc.metadata)

**<h2>4. Retrieve & Reader - LLM</h2>**


In [None]:
# Add Hugging Face Token
from getpass import getpass
import os
HF_TOKEN = getpass()
os.environ['HUGGINGFACEHUB_API_TOKEN'] = HF_TOKEN

··········


In [None]:
import torch
from huggingface_hub import InferenceClient

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

API_URL = "https://api-inference.huggingface.co/models/mistralai/Mistral-7B-Instruct-v0.3"
client = InferenceClient(API_URL, token="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")

In [None]:
#Create a prompt template
from langchain.prompts import PromptTemplate
prompt_template = """Tu es un expert culinaire spécialisé dans les recettes, la nutrition, ainsi que les techniques de préparation et de cuisson. Utilise uniquement les éléments de contexte suivants pour répondre à la question à la fin. Veuillez suivre les règles suivantes :
Répondre en français.
Si vous ne connaissez pas la réponse, ne tentez pas d'en inventer une. Dites simplement : "Désolé je ne trouve pas la réponse finale."
Si vous trouvez la réponse, rédigez-la de manière claire sans rajouter des éléments extérieures mais seulement basés sur les documents données.
Vous devez répondre pour les recettes avec les ingrédients et la préparation.

Context: {context}

Question: {question}

Helpful Answer:
"""

RAG_PROMPT_TEMPLATE = PromptTemplate(
 template=prompt_template, input_variables=["context", "question"]
)
print(RAG_PROMPT_TEMPLATE)

input_variables=['context', 'question'] input_types={} partial_variables={} template='Tu es un expert culinaire spécialisé dans les recettes, la nutrition, ainsi que les techniques de préparation et de cuisson. Utilise uniquement les éléments de contexte suivants pour répondre à la question à la fin. Veuillez suivre les règles suivantes :\nRépondre en français.\nSi vous ne connaissez pas la réponse, ne tentez pas d\'en inventer une. Dites simplement : "Désolé je ne trouve pas la réponse finale."\nSi vous trouvez la réponse, rédigez-la de manière claire sans rajouter des éléments extérieures mais seulement basés sur les documents données.\nVous devez répondre pour les recettes avec les ingrédients et la préparation.\n\nContext: {context}\n\nQuestion: {question}\n\nHelpful Answer:\n'


In [None]:
#Invoke the LLM
user_query = "Donne moi la recette de Salade de harengs"
retrieved_docs = KNOWLEDGE_VECTOR_DATABASE.similarity_search(query=user_query, k=5)


#Idées questions
#Donne moi la recette d'une quiche lorraine
#Donne moi les trucs et astuces pour économiser
#Peux-tu me donner la recette d'un saumon avec sauce yaourt-menthe
#Quel est le prix du dernier iphone?
#Donne moi la recette de Salade de harengs

In [None]:
retrieved_docs_text = [doc.page_content for doc in retrieved_docs]
context = "\nExtracted documents:\n"
context += "".join([f"Document {str(i)}:::\n" + doc for i, doc in enumerate(retrieved_docs_text)])

#Format the prompt using RAG_PROMPT_TEMPLATE
final_prompt = RAG_PROMPT_TEMPLATE.format(question=user_query, context=context)

In [None]:
#Use client.chat_completion with the formatted prompt
output = client.chat_completion([{"role": "user", "content": final_prompt}])

In [None]:
#Access the generated response
print(output.choices[0].message.content)

Recette de Salade de harengs :

1. Cuisez les pommes de terre dans de l'eau bouillante salée pendant 20–25 minutes. Égouttez-les et coupez-les en rondelles épaisses. Mettez-les dans un saladier, ajoutez-y les betteraves, les oignons nouveaux et mélangez.

(Document 2)

Si vous préférez une version plus étalée :

Salade de harengs superposée :

1. Recouvrez les oignons d’eau froide et laissez-les tremper 15 minutes. Égouttez-les bien, puis mélangez-les avec la crème aigre, le yaourt, le jus de citron et le sucre. Incorporez les pommes, les cornichons, salez et poivrez à volonté.
2. Mettez la moitié des filets de harengs dans un plat. Disposez la moitié des pommes de terre, betteraves, oignons et mélangez. Répétez la même opération pour la seconde moitié d'ingrédients.


-------------------------------------------------