# Bac à sable RAG

Chargement de l'environnement

In [1]:
import logging
import os
import s3fs

from langchain.schema.runnable.config import RunnableConfig
from langchain_core.prompts import PromptTemplate

from src.chain_building.build_chain import build_chain
from src.chain_building.build_chain_validator import build_chain_validator
from src.config import CHATBOT_TEMPLATE, EMB_MODEL_NAME
from src.db_building import (
    load_retriever,
    load_vector_database
)
from src.model_building import build_llm_model
from src.utils.formatting_utilities import add_sources_to_messages, str_to_bool

# Logging configuration
logger = logging.getLogger(__name__)
logging.basicConfig(
    format="%(asctime)s %(message)s",
    datefmt="%Y-%m-%d %I:%M:%S %p",
    level=logging.DEBUG,
)

# Remote file configuration
os.environ['MLFLOW_TRACKING_URI'] = "https://projet-llm-insee-open-data-mlflow.user.lab.sspcloud.fr/"
fs = s3fs.S3FileSystem(client_kwargs={"endpoint_url": f"""https://{os.environ["AWS_S3_ENDPOINT"]}"""})

# PARAMETERS --------------------------------------

os.environ['UVICORN_TIMEOUT_KEEP_ALIVE'] = "0"

model = os.getenv("LLM_MODEL_NAME")
CHROMA_DB_LOCAL_DIRECTORY = "./data/chroma_db"
CLI_MESSAGE_SEPARATOR = f"{80*'-'} \n"
quantization = True
DEFAULT_MAX_NEW_TOKENS = 10
DEFAULT_MODEL_TEMPERATURE = 1
embedding = os.getenv("EMB_MODEL_NAME", EMB_MODEL_NAME)

model_id = "meta-llama/Llama-3.2-3B-Instruct"
LLM_MODEL = os.getenv("LLM_MODEL_NAME", "meta-llama/Llama-3.2-3B-Instruct")
LLM_MODEL = "microsoft/Phi-3.5-mini-instruct"
QUANTIZATION = os.getenv("QUANTIZATION", True)
MAX_NEW_TOKENS = int(os.getenv("MAX_NEW_TOKENS", DEFAULT_MAX_NEW_TOKENS))
MODEL_TEMPERATURE = int(os.getenv("MODEL_TEMPERATURE", DEFAULT_MODEL_TEMPERATURE))
RETURN_FULL_TEXT = os.getenv("RETURN_FULL_TEXT", True)
DO_SAMPLE = os.getenv("DO_SAMPLE", True)
DATABASE_RUN_ID = "32d4150a14fa40d49b9512e1f3ff9e8c"


  from .autonotebook import tqdm as notebook_tqdm


## Ajoute un prompt

In [4]:
from src.model_building.fetch_llm_model import cache_model_from_hf_hub, get_file_system

cache_model_from_hf_hub(
        model_id,
        s3_token = os.environ["AWS_SESSION_TOKEN"],
        hf_token = os.environ['HF_TOKEN']
)

Model meta-llama/Llama-3.2-3B-Instruct found in local cache. 
Putting model meta-llama/Llama-3.2-3B-Instruct on S3.


In [8]:
from src.db_building.corpus_building import (
    build_or_use_from_cache, DEFAULT_LOCATIONS,
)

filesystem = fs
s3_bucket = "projet-llm-insee-open-data"
location_dataset = DEFAULT_LOCATIONS
kwargs = {}

In [None]:
df, all_splits = build_or_use_from_cache(
        filesystem=filesystem,
        s3_bucket=s3_bucket,
        location_dataset=location_dataset,
        model_id=model_id,
        **kwargs
    )

2024-11-12 15:52:39,796 - INFO - Attempting to load chunked documents from s3://projet-llm-insee-open-data/data/chunked_documents/model_id='meta-llama/Llama-3.2-3B-Instruct'/chunk_overlap=None/chunk_size=None/max_pages=None/docs.jsonl
2024-11-12 15:52:39,908 - INFO - Processing data and storing chunked documents and DataFrame
2024-11-12 15:52:39,909 - INFO - Input data extracted from s3://projet-llm-insee-open-data
2024-11-12 15:52:47,976 - INFO - Processing page 1280888 -- 0/43226
2024-11-12 15:52:48,023 - INFO - Processing page 1280890 -- 1/43226
2024-11-12 15:52:48,097 - INFO - Processing page 1280892 -- 2/43226
2024-11-12 15:52:48,142 - INFO - Processing page 1280894 -- 3/43226
2024-11-12 15:52:48,175 - INFO - Processing page 1280896 -- 4/43226
2024-11-12 15:52:48,262 - INFO - Processing page 1280898 -- 5/43226
2024-11-12 15:52:48,311 - INFO - Processing page 1280904 -- 6/43226
2024-11-12 15:52:48,384 - INFO - Processing page 1280900 -- 7/43226
2024-11-12 15:52:48,445 - INFO - Proc

In [None]:
# llm, tokenizer = build_llm_model(
#             model_name=model_id,
#             quantization_config=QUANTIZATION,
#             config=True,
#             token=os.getenv("HF_TOKEN"),
#             streaming=False,
#             generation_args={
#                 "max_new_tokens": 512,
#                 "return_full_text": RETURN_FULL_TEXT,
#                 "do_sample": DO_SAMPLE,
#                 "temperature": MODEL_TEMPERATURE
#             },
#     )

In [5]:
db = load_vector_database(
            filesystem=fs,
            database_run_id=DATABASE_RUN_ID
            # hard coded pour le moment
    )

retriever, vectorstore = load_retriever(
                emb_model_name=embedding,
                persist_directory=CHROMA_DB_LOCAL_DIRECTORY,
                vectorstore=db,
                retriever_params={
                    "search_type": "similarity",
                    "search_kwargs": {"k": 30}
                },
            )

Downloading artifacts: 100%|██████████| 6/6 [04:14<00:00, 42.37s/it]
2024-11-12 15:26:46,600 - INFO - Artifacts downloaded to: /tmp/mlflow/32d4150a14fa40d49b9512e1f3ff9e8c/chroma/chroma
2024-11-12 15:26:46,702 - INFO - Load pretrained SentenceTransformer: OrdalieTech/Solon-embeddings-large-0.1
  db = Chroma(
2024-11-12 15:27:45,908 - INFO - Anonymized telemetry enabled. See                     https://docs.trychroma.com/telemetry for more information.
2024-11-12 15:27:55,650 - INFO - The database (collection insee_data) has been reloaded from directory /tmp/mlflow/32d4150a14fa40d49b9512e1f3ff9e8c/chroma/chroma
2024-11-12 15:27:55,652 - INFO - vectorstore being provided, skipping the reloading


## On repart de zéro

In [None]:
def format_docs(docs: list):
    return "\n\n".join(
        [
            f"""
            Doc {i + 1}:\nTitle: {doc.metadata.get("Header 1")}\n
            Source: {doc.metadata.get("url")}\n
            Content:\n{doc.page_content}
            """
            for i, doc in enumerate(docs)
        ]
    )

In [None]:
system_instructions = """
Tu es un assistant spécialisé dans la statistique publique. Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.

Réponds en FRANCAIS UNIQUEMENT. Utilise une mise en forme au format markdown.

En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.

La réponse doit être développée et citer ses sources (titre et url de la publication) qui sont référencées à la fin. Cite notamment l'url d'origine de la publication, dans un format markdown.

Cite 5 sources maximum.

Tu n'es pas obligé d'utiliser les sources les moins pertinentes.

Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.
"""

question_instructions = """
Voici le contexte sur lequel tu dois baser ta réponse :
Contexte: {context}
---

Voici la question à laquelle tu dois répondre :
Question: {question}

"""


CHATBOT_TEMPLATE = [
    {
        "role": "system",
        "content": system_instructions,
    },
    {"role": "user", "content": question_instructions},
]

RAG_PROMPT_TEMPLATE = tokenizer.apply_chat_template(
    CHATBOT_TEMPLATE, tokenize=False,
    add_generation_prompt=True
)

prompt = PromptTemplate(
    input_variables=["context", "question"], template=RAG_PROMPT_TEMPLATE
)

In [None]:
question1 = "Quelle est la définition du PIB ?"
question2 = "Où trouver les taux de chômage?"

documents_retriever_list1 = retriever.invoke(
    question1
)
retrieved_docs_as_string1 = format_docs(documents_retriever_list1)
documents_retriever_list2 = retriever.invoke(
    question2
)
retrieved_docs_as_string2 = format_docs(documents_retriever_list2)

prompt_injected1 = prompt.format(
    context=retrieved_docs_as_string1, question = question1
)
prompt_injected2 = prompt.format(
    context=retrieved_docs_as_string2, question = question2
)

In [None]:
with open("prompt1.txt", "w") as file:
    file.write(prompt_injected1)

with open("prompt2.txt", "w") as file:
    file.write(prompt_injected2)

In [None]:
print(prompt_injected1)

In [None]:
with open("prompt1.txt", "r") as file:
    prompt_injected1 = file.read()

with open("prompt2.txt", "r") as file:
    prompt_injected2 = file.read()

In [None]:
import torch
from vllm import LLM
from vllm import SamplingParams

LLM_MODEL = model_id
MAX_NEW_TOKEN = 8192
TEMPERATURE = 0.2
REP_PENALTY = 1.1
TOP_P = 0.8

sampling_params = SamplingParams(
        max_tokens=MAX_NEW_TOKEN,
        temperature=TEMPERATURE,
        top_p=TOP_P,
        repetition_penalty=REP_PENALTY,
)

llm = LLM(
        model=LLM_MODEL
    )

In [None]:
outputs = llm.generate(
    [prompt_injected1, prompt_injected2], sampling_params
)

In [None]:
responses = [outputs[i].outputs[0].text for i in range(len(outputs))]

In [None]:
from IPython.display import Markdown, display
def printmd(string):
    display(Markdown(string))

printmd(responses[0])

In [None]:
printmd(responses[1])

## Intégration à langchain

In [None]:
with open("prompt1.txt", "r") as file:
    prompt_injected1 = file.read()

with open("prompt2.txt", "r") as file:
    prompt_injected2 = file.read()

In [None]:
from langchain_community.llms import VLLM

LLM_MODEL = "meta-llama/Llama-3.2-3B-Instruct"
MAX_NEW_TOKEN = 8192
TEMPERATURE = 0.2
REP_PENALTY = 1.1
TOP_P = 0.8

llm = VLLM(model=LLM_MODEL,
           max_new_tokens=MAX_NEW_TOKEN,
           top_p=TOP_P,
           temperature=TEMPERATURE,
           rep_penalty = REP_PENALTY
)

In [None]:
llm.invoke(prompt_injected1)

## Chaines chainlit

In [None]:
from langchain_core.prompts import ChatPromptTemplate

system_instructions = """
Tu es un assistant spécialisé dans la statistique publique. Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.

Réponds en FRANCAIS UNIQUEMENT. Utilise une mise en forme au format markdown.

En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.

La réponse doit être développée et citer ses sources (titre et url de la publication) qui sont référencées à la fin. Cite notamment l'url d'origine de la publication, dans un format markdown.

Cite 5 sources maximum.

Tu n'es pas obligé d'utiliser les sources les moins pertinentes. 

Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.

Voici le contexte sur lequel tu dois baser ta réponse :
Contexte: {context}
"""

question_instructions = """
Voici la question à laquelle tu dois répondre :
Question: {question}

Réponse:
"""

template = f"""
{system_instructions}

{question_instructions}
"""

custom_rag_prompt = PromptTemplate.from_template(template)

In [None]:
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | custom_rag_prompt
    | llm
    | StrOutputParser()
)
answer = rag_chain.invoke("Quelle est la définition du PIB ?")

In [None]:
from IPython.display import Markdown, display
def printmd(string):
    display(Markdown(string))

printmd(answer)

In [None]:
answer

In [None]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

for chunk in rag_chain.stream("Quelle est la définition du PIB?"):
    print(chunk, end="", flush=True)

In [None]:
import torch
from vllm import LLM
from vllm import SamplingParams



sampling_params = SamplingParams(
        max_tokens=MAX_NEW_TOKEN,
        temperature=TEMPERATURE,
        top_p=TOP_P,
        repetition_penalty=REP_PENALTY,
)

llm = LLM(
        model=LLM_MODEL
    )

In [None]:
from vllm import SamplingParams
import pprint

sampling_params = SamplingParams(temperature=0.2, top_p=0.95)
outputs = llm.generate([prompt_injected], sampling_params)

for output in outputs:
   prompt = output.prompt
   generated_text = output.outputs[0].text
   # !r calls repr(), which prints a string inside quotes.
   print()
   print(f"Question: {question!r}")
   pprint.pprint(f"Generated text: {generated_text!r}")


In [None]:
from langchain_community.llms import VLLM

llm = VLLM(model=model_id,
           trust_remote_code=True,  # mandatory for hf models
           max_new_tokens=128,
           top_k=10,
           top_p=0.95,
           temperature=0.8,
           # tensor_parallel_size=... # for distributed inference
)

print(llm("What is the capital of France ?"))

## Utilisation en direct de LLama

In [None]:
device = "cuda:0" if torch.cuda.is_available() else "cpu"

llama_direct = AutoModelForCausalLM.from_pretrained(
    model_id, device_map = "auto", pad_token_id=tokenizer.eos_token_id
).to(device)


CHATBOT_TEMPLATE_bis = [
    {
        "role": "system",
        "content": system_instructions,
    },
    {"role": "user", "content": question_instructions.format(
    context=retrieved_docs_as_string, question = question
)},
]

tokenized_chat = tokenizer.apply_chat_template(
    CHATBOT_TEMPLATE_bis, tokenize=True, add_generation_prompt=True, return_tensors="pt"
).to(device)

In [None]:
print(tokenizer.decode(tokenized_chat[0]))

In [None]:
outputs = llama_direct.generate(tokenized_chat, max_new_tokens=128000) 

In [None]:
print(tokenizer.decode(outputs[0]))

In [None]:
from mdprint import mdprint

In [None]:
response = tokenizer.decode(outputs[0]).split("tion du PIB?<|eot_id|><|start_header_id|>assistant<|end_header_id|>")[-1]

In [None]:
from IPython.display import Markdown, display
def printmd(string):
    display(Markdown(string))

printmd(response)

In [None]:
output#.outputs[0].text

In [None]:
CHATBOT_INSTRUCTION = """
En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.
La réponse doit être développée et citer ses sources.

Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.
"""

USER_INSTRUCTION = """
Voici le contexte sur lequel tu dois baser ta réponse :
Contexte:
{context}
---
Voici la question à laquelle tu dois répondre :
Question: {question}"""

CHATBOT_TEMPLATE = [
    {
        "role": "user",
        "content": """Tu es un assistant spécialisé dans la statistique publique.
    Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.
    Réponds en FRANCAIS UNIQUEMENT.""",
    },
    {"role": "assistant", "content": CHATBOT_INSTRUCTION},
    {"role": "user", "content": USER_INSTRUCTION},
]

RAG_PROMPT_TEMPLATE = tokenizer.apply_chat_template(
            CHATBOT_TEMPLATE, tokenize=False, add_generation_prompt=True
        )
prompt = PromptTemplate(
            input_variables=["context", "question"], template=RAG_PROMPT_TEMPLATE
)


In [None]:
llm.generate(prompt)

In [None]:
rag_chain_from_docs = (
    RunnablePassthrough.assign(context=(lambda x: format_docs(x["context"])))
    | prompt
)

rag_chain_with_source = RunnableParallel(
    {"context": retriever, "question": RunnablePassthrough()}
).assign(answer=rag_chain_from_docs)

question = rag_chain_with_source.invoke("Quelle est la définition du PIB ?")['answer'].to_string()

In [None]:
question

On teste la question en standalone

In [None]:
import torch
from transformers import pipeline

model_id = "meta-llama/Llama-3.1-8B-Instruct"

pipe = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    max_new_tokens=512,
    return_full_text=True,
    device_map="auto",
    do_sample=True,
    temperature=0.2,
)


messages = [
    {"role": "system", "content": "You assist French opendata specialists. You answer in French"},
    {"role": "user", "content": question},
]
outputs = pipe(
    messages,
    max_new_tokens=2000,
)


In [None]:
answer_outside_chain = outputs[0]["generated_text"][-1]

In [None]:
outputs

In [None]:
CHATBOT_TEMPLATE = [
    {
        "role": "system",
        "content": """Tu es un assistant spécialisé dans la statistique publique.
    Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.
    Réponds en FRANCAIS UNIQUEMENT.
    
    En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.
    La réponse doit être développée et citer ses sources.

    Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.
    """,
    },

    {"role": "user", "content": question},
]

outputs2 = pipe(
    messages,
    max_new_tokens=2000,
)
answer_outside_chain2 = outputs2[0]["generated_text"][-1]

In [None]:
outputs2[0][-1]['generated_text'][-1]

## Intégration dans un prompt

conclusion: c'est la galère, il vaut mieux utiliser vllm, cf. projet thomas 

In [None]:
from src.config import CHATBOT_TEMPLATE as chatbottemplate

RAG_PROMPT_TEMPLATE = tokenizer.apply_chat_template(
            chatbottemplate, tokenize=False, add_generation_prompt=True
        )
prompt = PromptTemplate(
            input_variables=["context", "question"], template=RAG_PROMPT_TEMPLATE
)

In [None]:
retrieved_documents = format_docs(
    retriever.invoke("Quelle est la définition du chômage ?")
)


In [None]:
example_messages = prompt.invoke(
    {"context": retrieved_documents, "question": "Quelle est la définition du PIB ?"}
).to_messages()

In [None]:
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
)

retrieved_in_prompt = rag_chain.invoke("Quelle est la définition du PIB ?")

In [None]:
messages = [
    {
        "role": "system",
        "content": """Tu es un assistant spécialisé dans la statistique publique.
    Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.
    Réponds en FRANCAIS UNIQUEMENT.
    En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.
    La réponse doit être développée et citer ses sources.

    Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.    
    """,
    },    
    {"role": "system", "content": "You assist French opendata specialists. You answer in French"},
    {"role": "user", "content": question},
]

pipe = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    max_new_tokens=512,
    return_full_text=True,
    device_map="auto",
    do_sample=True,
    temperature=0.2,
)

outputs = pipe(
    messages,
    max_new_tokens=2000,
)

In [None]:
outputs[0]['generated_text'][-1]['content']

In [None]:
RAG_PROMPT_TEMPLATE = tokenizer.apply_chat_template(
            chatbottemplate, tokenize=False, add_generation_prompt=True
        )
prompt = PromptTemplate(
            input_variables=["context", "question"], template=RAG_PROMPT_TEMPLATE
)

template = [
    {
        "role": "system",
        "content": """Tu es un assistant spécialisé dans la statistique publique.
    Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.
    Réponds en FRANCAIS UNIQUEMENT.
    En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.
    La réponse doit être développée et citer ses sources.

    Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.    
    """,
    },    
    {"role": "user", "content": """
    Voici la question à laquelle tu dois répondre
    Question: {question}
    Context: {context}
    """},

]

In [None]:
prompt.invoke(
    {"context": "filler context", "question": "filler question"}
).to_messages()

In [None]:
pipe = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    max_new_tokens=512,
    return_full_text=True,
    device_map="auto",
    do_sample=True,
    temperature=0.2,
)

outputs = pipe(
    messages,
    max_new_tokens=2000,
)

hf = HuggingFacePipeline(
    pipeline=pipe,
    pad_token_id=pipe.model.config.eos_token_id
)

In [None]:
response_pipeline = hf.invoke(retrieved_in_prompt.to_string())

In [None]:
response_pipeline

## Avec une chaine

In [None]:

rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

In [None]:
for chunk in rag_chain.stream("Quelle est la définition du PIB ?"):
    print(chunk, end="", flush=True)

In [None]:
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnableParallel

rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

rag_chain_from_docs = (
    RunnablePassthrough.assign(context=(lambda x: format_docs(x["context"])))
    | prompt
    | llm
    | StrOutputParser()
)

rag_chain_with_source = RunnableParallel(
    {"context": retriever, "question": RunnablePassthrough()}
).assign(answer=rag_chain_from_docs)

In [None]:
pib = rag_chain_with_source.invoke("Quelle est la définition du PIB ?")

In [None]:
pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    tokenizer=tokenizer,
)

messages = [
    {"role": "system", "content": "You assist French opendata specialists. You answer in French"},
    {"role": "user", "content": question},
]
outputs = pipe(
    messages,
    max_new_tokens=2000,
)
print(outputs[0]["generated_text"][-1])

In [None]:
from langchain_community.llms import HuggingFacePipeline

prompt = PromptTemplate(
    template="""You are an assistant for question-answering tasks.
    Use the following documents to answer the question.
    If you don't know the answer, just say that you don't know.
    Use three sentences maximum and keep the answer concise:
    Question: {question}
    Documents: {documents}
    Answer:
    """,
    input_variables=["question", "documents"],
)


pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    tokenizer=tokenizer,
)

messages = [
    {"role": "system", "content": "You assist French opendata specialists. You answer in French"},
    {"role": "user", "content": "Quelle est la définition du PIB ?"},
]
outputs = pipe(
    messages,
    max_new_tokens=2000,
)
print(outputs[0]["generated_text"][-1])




#llm = HuggingFacePipeline(pipeline=pipe)

In [None]:
llm = HuggingFacePipeline(pipeline=pipe)

In [None]:
PromptTemplate(
    template="""You are an assistant for question-answering tasks.
    Use the following documents to answer the question.
    If you don't know the answer, just say that you don't know.
    Use three sentences maximum and keep the answer concise:
    Question: {question}
    Answer:
    """,
    input_variables=["question", "documents"],
)

In [None]:
chain = build_chain(
        retriever=retriever,
        prompt=prompt,
        llm=llm,
        reranker=None,
    )

In [None]:
hf_pipeline = HuggingFacePipeline(pipeline = pipe)

In [None]:
hf_pipeline.invoke("Donne moi les chiffres du chômage")

In [None]:
from langchain_huggingface import HuggingFacePipeline

pipe = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    max_new_tokens=512,
    return_full_text=True,
    device_map="auto",
    do_sample=True,
    temperature=0.2,
)

llm = HuggingFacePipeline(pipeline=pipe)
x = llm.invoke("je veux les chiffres du chômage en France")

In [None]:
CHATBOT_INSTRUCTION = """
En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.
La réponse doit être développée et citer ses sources.

Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.
"""

USER_INSTRUCTION = """Voici le contexte sur lequel tu dois baser ta réponse :
Contexte:
{context}
---
Voici la question à laquelle tu dois répondre :
Question: {question}"""

CHATBOT_TEMPLATE = [
    {
        "role": "user",
        "content": """Tu es un assistant spécialisé dans la statistique publique.
    Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.
    Réponds en FRANCAIS UNIQUEMENT.""",
    },
    {"role": "assistant", "content": CHATBOT_INSTRUCTION},
    {"role": "user", "content": USER_INSTRUCTION},
]

In [None]:
RAG_PROMPT_TEMPLATE = tokenizer.apply_chat_template(
            CHATBOT_TEMPLATE, tokenize=False, add_generation_prompt=True
        )
prompt = PromptTemplate(
    input_variables=["context", "question"], template=RAG_PROMPT_TEMPLATE
)

In [None]:
chain = (
            RunnablePassthrough.assign(context=(lambda x: format_docs(x["context"])))
            | prompt
            | llm
            | StrOutputParser()
        )

In [None]:
llm, tokenizer = build_llm_model(
            model_name="meta-llama/Llama-3.1-8B-Instruct",
            quantization_config=QUANTIZATION,
            config=True,
            token=os.getenv("HF_TOKEN"),
            streaming=False,
            generation_args={
                "max_new_tokens": 100000,
                "max_length": 100000,
                "return_full_text": RETURN_FULL_TEXT,
                "do_sample": DO_SAMPLE,
                "temperature": MODEL_TEMPERATURE
            },
    )

In [None]:
print(
    llm.invoke("quels sont les chiffres du chômage")
)

In [None]:
retriever.invoke("je veux les chiffres du chomage")

In [None]:
db_docs = db.get()["documents"]
ndocs = f"Ma base de connaissance du site Insee comporte {len(db_docs)} documents"
ndocs

In [None]:
RAG_PROMPT_TEMPLATE = tokenizer.apply_chat_template(
    CHATBOT_TEMPLATE, tokenize=False, add_generation_prompt=True
)
prompt = PromptTemplate(
    input_variables=["context", "question"], template=RAG_PROMPT_TEMPLATE
)


In [None]:
validator = build_chain_validator(
        evaluator_llm=llm, tokenizer=tokenizer
    )

In [None]:
from src.chain_building.build_chain import build_chain

In [None]:
chain = build_chain(
        retriever=retriever,
        prompt=prompt,
        llm=llm,
        reranker="BM25",
    )

In [None]:
for s in chain.stream("Je veux les chiffres du chômage"):
    print(s)

Il y a un problème en ce moment sur la chaine, au niveau de la génération après retrieval. Je vais tester sur un exemple plus minime, à partir de 

* https://python.langchain.com/docs/integrations/llms/huggingface_pipelines/#gpu-inference
* https://python.langchain.com/v0.1/docs/expression_language/interface/#async-stream

In [None]:
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

retrieval_chain = (
    {
        "context": retriever.with_config(run_name="Docs"),
        "question": RunnablePassthrough(),
    }
    | prompt
    | llm
    | StrOutputParser()
)

In [None]:
docs = retriever.invoke("je veux les chiffres du chômage")

In [None]:
# await retrieval_chain.ainvoke("je veux les chiffres du chômage")

In [None]:
retrieval_chain.batch(["je veux les chiffres du chômage", "quelle est la définition de l'inflation"])

In [None]:
answer = retrieval_chain.invoke("je veux les chiffres du chômage")

In [None]:
# chain.invoke("je veux les chiffres du chômage")
# await chain.ainvoke("je veux les chiffres du chômage")
for s in chain.stream("je veux les chiffres du chômage"):
    print(s)
# async for s in chain.astream("je veux les chiffres du chômage"):
#    print(s, end="", flush=True)

In [None]:
def format_docs(docs: list):
    return "\n\n".join(
        [
            f"""
            Doc {i + 1}:\nTitle: {doc.metadata.get("Header 1")}\n
            Source: {doc.metadata.get("url")}\n
            Content:\n{doc.page_content}
            """
            for i, doc in enumerate(docs)
        ]
    )

In [None]:
# stream = retrieval_chain.invoke("donne chiffres chomage")

llm.invoke("donne chiffres chomage")

In [None]:
async for event in retrieval_chain.astream_events(
    "je veux les chiffres du chômage", version="v1", include_names=["Docs", "my_llm"]
):
    kind = event["event"]
    if kind == "on_chat_model_stream":
        print(event["data"]["chunk"].content, end="|")
    elif kind in {"on_chat_model_start"}:
        print()
        print("Streaming LLM:")
    elif kind in {"on_chat_model_end"}:
        print()
        print("Done streaming LLM.")
    elif kind == "on_retriever_end":
        print("--")
        print("Retrieved the following documents:")
        print(event["data"]["output"]["documents"])
    elif kind == "on_tool_end":
        print(f"Ended tool: {event['name']}")
    else:
        pass

In [None]:
import chainlit as cl
import chainlit.data as cl_data
async for chunk in chain.astream(
    "je veux les chiffres du chomage",
    config=RunnableConfig(
        callbacks=[cl.AsyncLangchainCallbackHandler(stream_final_answer=True)]
    ),
):
    if "answer" in chunk:
        await answer_msg.stream_token(chunk["answer"])
        generated_answer = chunk["answer"]

    if "context" in chunk:
        docs = chunk["context"]
        for doc in docs:
            sources.append(doc.metadata.get("url"))
            titles.append(doc.metadata.get("Header 1"))


In [None]:
chain.invoke("Je veux les chiffres du chômage")