# Bac à sable RAG

Chargement de l'environnement

In [9]:
import logging
import os
import s3fs

import chainlit as cl
import chainlit.data as cl_data
from langchain.schema.runnable.config import RunnableConfig
from langchain_core.prompts import PromptTemplate

from src.chain_building.build_chain import build_chain
from src.chain_building.build_chain_validator import build_chain_validator
from src.config import CHATBOT_TEMPLATE, EMB_MODEL_NAME
from src.db_building import (
    load_retriever,
    load_vector_database
)
from src.model_building import build_llm_model
from src.results_logging.log_conversations import log_feedback_to_s3, log_qa_to_s3
from src.utils.formatting_utilities import add_sources_to_messages, str_to_bool

# Logging configuration
logger = logging.getLogger(__name__)
logging.basicConfig(
    format="%(asctime)s %(message)s",
    datefmt="%Y-%m-%d %I:%M:%S %p",
    level=logging.DEBUG,
)

# Remote file configuration
os.environ['MLFLOW_TRACKING_URI'] = "https://projet-llm-insee-open-data-mlflow.user.lab.sspcloud.fr/"
fs = s3fs.S3FileSystem(client_kwargs={"endpoint_url": f"""https://{os.environ["AWS_S3_ENDPOINT"]}"""})

# PARAMETERS --------------------------------------

os.environ['UVICORN_TIMEOUT_KEEP_ALIVE'] = "0"

model = os.getenv("LLM_MODEL_NAME")
CHROMA_DB_LOCAL_DIRECTORY = "./data/chroma_db"
CLI_MESSAGE_SEPARATOR = f"{80*'-'} \n"
quantization = True
DEFAULT_MAX_NEW_TOKENS = 10
DEFAULT_MODEL_TEMPERATURE = 1
embedding = os.getenv("EMB_MODEL_NAME", EMB_MODEL_NAME)

model_id = "meta-llama/Llama-3.2-3B-Instruct"
LLM_MODEL = os.getenv("LLM_MODEL_NAME", "meta-llama/Llama-3.2-3B-Instruct")
LLM_MODEL = "microsoft/Phi-3.5-mini-instruct"
QUANTIZATION = os.getenv("QUANTIZATION", True)
MAX_NEW_TOKENS = int(os.getenv("MAX_NEW_TOKENS", DEFAULT_MAX_NEW_TOKENS))
MODEL_TEMPERATURE = int(os.getenv("MODEL_TEMPERATURE", DEFAULT_MODEL_TEMPERATURE))
RETURN_FULL_TEXT = os.getenv("RETURN_FULL_TEXT", True)
DO_SAMPLE = os.getenv("DO_SAMPLE", True)
DATABASE_RUN_ID = "32d4150a14fa40d49b9512e1f3ff9e8c"


## Ajoute un prompt

In [20]:
from src.model_building.fetch_llm_model import cache_model_from_hf_hub

cache_model_from_hf_hub(
        model_id,
        s3_bucket=os.environ["S3_BUCKET"],
        s3_cache_dir="models/hf_hub",
        s3_endpoint=f'https://{os.environ["AWS_S3_ENDPOINT"]}',
    )

2024-10-09 12:36:48 - Found credentials in environment variables.
2024-10-09 12:36:48 - Model meta-llama/Llama-3.2-3B-Instruct found in local cache. 


In [5]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(
        model_id, use_fast=True, device_map="auto"
    )

In [2]:
# llm, tokenizer = build_llm_model(
#             model_name=model_id,
#             quantization_config=QUANTIZATION,
#             config=True,
#             token=os.getenv("HF_TOKEN"),
#             streaming=False,
#             generation_args={
#                 "max_new_tokens": 512,
#                 "return_full_text": RETURN_FULL_TEXT,
#                 "do_sample": DO_SAMPLE,
#                 "temperature": MODEL_TEMPERATURE
#             },
#     )

2024-10-09 11:33:00 - Found credentials in environment variables.
2024-10-09 11:33:01 - Model meta-llama/Llama-3.2-3B-Instruct found in local cache. 


`low_cpu_mem_usage` was None, now set to True since model is quantized.
Loading checkpoint shards: 100%|██████████| 2/2 [00:03<00:00,  1.81s/it]


In [10]:
db = load_vector_database(
            filesystem=fs,
            database_run_id=DATABASE_RUN_ID
            # hard coded pour le moment
    )

retriever, vectorstore = load_retriever(
                emb_model_name=embedding,
                persist_directory=CHROMA_DB_LOCAL_DIRECTORY,
                vectorstore=db,
                retriever_params={
                    "search_type": "similarity",
                    "search_kwargs": {"k": 30}
                },
            )

Downloading artifacts: 100%|██████████| 6/6 [02:18<00:00, 23.11s/it]

2024-10-09 15:29:17 - Load pretrained SentenceTransformer: OrdalieTech/Solon-embeddings-large-0.1



  emb_model = HuggingFaceEmbeddings(


2024-10-09 15:29:20 - Anonymized telemetry enabled. See                     https://docs.trychroma.com/telemetry for more information.


  db = Chroma(


2024-10-09 15:29:29 - ⚠️ It looks like you upgraded from a version below 0.6 and could benefit from vacuuming your database. Run chromadb utils vacuum --help for more information.
2024-10-09 15:29:29 - The database (collection insee_data) has been reloaded from directory /tmp/tmpe8i1gabo/chroma
2024-10-09 15:29:29 - vectorstore being provided, skipping the reloading


## On repart de zéro

In [6]:
def format_docs(docs: list):
    return "\n\n".join(
        [
            f"""
            Doc {i + 1}:\nTitle: {doc.metadata.get("Header 1")}\n
            Source: {doc.metadata.get("url")}\n
            Content:\n{doc.page_content}
            """
            for i, doc in enumerate(docs)
        ]
    )

In [40]:
system_instructions = """
Tu es un assistant spécialisé dans la statistique publique. Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.

Réponds en FRANCAIS UNIQUEMENT. Utilise une mise en forme au format markdown.

En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.

La réponse doit être développée et citer ses sources (titre et url de la publication) qui sont référencées à la fin. Cite notamment l'url d'origine de la publication, dans un format markdown.

Cite 5 sources maximum.

Tu n'es pas obligé d'utiliser les sources les moins pertinentes.

Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.
"""

question_instructions = """
Voici le contexte sur lequel tu dois baser ta réponse :
Contexte: {context}
---

Voici la question à laquelle tu dois répondre :
Question: {question}

"""


CHATBOT_TEMPLATE = [
    {
        "role": "system",
        "content": system_instructions,
    },
    {"role": "user", "content": question_instructions},
]

RAG_PROMPT_TEMPLATE = tokenizer.apply_chat_template(
    CHATBOT_TEMPLATE, tokenize=False,
    add_generation_prompt=True
)

prompt = PromptTemplate(
    input_variables=["context", "question"], template=RAG_PROMPT_TEMPLATE
)

In [47]:
question1 = "Quelle est la définition du PIB ?"
question2 = "Où trouver les taux de chômage?"

documents_retriever_list1 = retriever.invoke(
    question1
)
retrieved_docs_as_string1 = format_docs(documents_retriever_list1)
documents_retriever_list2 = retriever.invoke(
    question2
)
retrieved_docs_as_string2 = format_docs(documents_retriever_list2)

prompt_injected1 = prompt.format(
    context=retrieved_docs_as_string1, question = question1
)
prompt_injected2 = prompt.format(
    context=retrieved_docs_as_string2, question = question2
)

Batches: 100%|██████████| 1/1 [00:00<00:00, 112.19it/s]
Batches: 100%|██████████| 1/1 [00:00<00:00, 100.99it/s]


In [48]:
with open("prompt1.txt", "w") as file:
    file.write(prompt_injected1)

with open("prompt2.txt", "w") as file:
    file.write(prompt_injected2)

In [23]:
print(prompt_injected1)

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Cutting Knowledge Date: December 2023
Today Date: 09 Oct 2024

Tu es un assistant spécialisé dans la statistique publique.

Réponds en FRANCAIS UNIQUEMENT.

Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.
En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.

La réponse doit être développée et citer ses sources (notamment l'url d'origine de la publication). 

Utilise une mise en forme au format markdown.

Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.<|eot_id|><|start_header_id|>user<|end_header_id|>

Voici le contexte sur lequel tu dois baser ta réponse :
Contexte: 
            Doc 1:
Title: Reprise modérée de l’activité

            Source: https://www.insee.fr/fr/statistiques/4241465

            Content:
## Définitions :  
### Encadré 1 - Au-delà du PIB  
Le produit intérieur brut (P

In [49]:
with open("prompt1.txt", "r") as file:
    prompt_injected1 = file.read()

with open("prompt2.txt", "r") as file:
    prompt_injected2 = file.read()

In [29]:
import torch
from vllm import LLM
from vllm import SamplingParams

LLM_MODEL = model_id
MAX_NEW_TOKEN = 8192
TEMPERATURE = 0.2
REP_PENALTY = 1.1
TOP_P = 0.8

sampling_params = SamplingParams(
        max_tokens=MAX_NEW_TOKEN,
        temperature=TEMPERATURE,
        top_p=TOP_P,
        repetition_penalty=REP_PENALTY,
)

llm = LLM(
        model=LLM_MODEL
    )

INFO 10-09 13:48:10 config.py:1010] Chunked prefill is enabled with max_num_batched_tokens=512.
INFO 10-09 13:48:10 llm_engine.py:226] Initializing an LLM engine (v0.6.1.dev238+ge2c6e0a82) with config: model='meta-llama/Llama-3.2-3B-Instruct', speculative_config=None, tokenizer='meta-llama/Llama-3.2-3B-Instruct', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, override_neuron_config=None, rope_scaling=None, rope_theta=None, tokenizer_revision=None, trust_remote_code=False, dtype=torch.bfloat16, max_seq_len=131072, download_dir=None, load_format=LoadFormat.AUTO, tensor_parallel_size=1, pipeline_parallel_size=1, disable_custom_all_reduce=False, quantization=None, enforce_eager=False, kv_cache_dtype=auto, quantization_param_path=None, device_config=cuda, decoding_config=DecodingConfig(guided_decoding_backend='outlines'), observability_config=ObservabilityConfig(otlp_traces_endpoint=None, collect_model_forward_time=False, collect_model_execute_time=False), seed=0, served_mod

OutOfMemoryError: CUDA out of memory. Tried to allocate 96.00 MiB. GPU 0 has a total capacity of 79.11 GiB of which 62.50 MiB is free. Process 3510763 has 79.02 GiB memory in use. Of the allocated memory 77.69 GiB is allocated by PyTorch, with 27.32 MiB allocated in private pools (e.g., CUDA Graphs), and 10.91 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)

In [50]:
outputs = llm.generate(
    [prompt_injected1, prompt_injected2], sampling_params
)

Processed prompts:   0%|          | 0/2 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]

Processed prompts: 100%|██████████| 2/2 [00:05<00:00,  2.94s/it, est. speed input: 3170.00 toks/s, output: 131.58 toks/s]


In [51]:
responses = [outputs[i].outputs[0].text for i in range(len(outputs))]

In [52]:
from IPython.display import Markdown, display
def printmd(string):
    display(Markdown(string))

printmd(responses[0])

La définition du PIB (Produit Intérieur Brut) est la somme des valeurs ajoutées brutes nouvellement créées par les unités productrices résidentes d'un pays une année donnée, évaluées au prix du marché. Cela correspond à la somme des richesses nouvelles créées chaque année par le système productif du pays et permet des comparaisons internationales. Le PIB est publié à prix courants et en volume aux prix de l'année précédente chaînés, son évolution en volume (c'est-à-dire hors effet de prix) mesure la croissance économique. 

Sources :

*   Doc 1 : https://www.insee.fr/fr/statistiques/4241465
*   Doc 2 : https://www.insee.fr/fr/statistiques/4241527
*   Doc 3 : https://www.insee.fr/fr/statistiques/4241791
*   Doc 4 : https://www.insee.fr/fr/statistiques/2849422
*   Doc 5 : https://www.insee.fr/fr/statistiques/2517183

In [53]:
printmd(responses[1])

Pour trouver les taux de chômage, il est possible de consulter les publications de l'Insee sur son site web officiel. Vous pouvez rechercher les séries de données sur le site [www.insee.fr](http://www.insee.fr) en cliquant sur "Séries et indicators" puis en sélectionnant la série "Taux de chômage localisé".

Vous pouvez également consulter les publications spécifiques mentionnées ci-dessous :

*   [L'essentiel sur… Auvergne‑Rhône‑Alpes](https://www.insee.fr/fr/statistiques/4479805)
*   [L'essentiel sur… le Centre‑ValdeLoire](https://www.insee.fr/fr/statistiques/4480984)
*   [L'essentiel sur… la Nouvelle-Aquitaine](https://www.insee.fr/fr/statistiques/4482442)
*   [L'essentiel sur… l'Ile-de-France](https://www.insee.fr/fr/statistiques/4481962)
*   [L'essentiel sur… l'Occitanie](https://www.insee.fr/fr/statistiques/4301249)
*   [L'essentiel sur… les Hauts-de-France](https://www.insee.fr/fr/statistiques/4481460)
*   [L'essentiel sur… la Normandie](https://www.insee.fr/fr/statistiques/4482410)
*   [L'essentiel sur… les Pays de la Loire](https://www.insee.fr/fr/statistiques/4482458)
*   [L'essentiel sur… Provence-Alpes-Côte d'Azur](https://www.insee.fr/fr/statistiques/4482470)
*   [L'essentiel sur… la Bretagne](https://www.insee.fr/fr/statistiques/4480852)
*   [L'essentiel sur… la Corse](https://www.insee.fr/fr/statistiques/4481069)
*   [L'essentiel sur… la Bourgogne-Franche-Comté](https://www.insee.fr/fr/statistiques/4479807)

Ces publications fournissent des informations sur les taux de chômage localisés pour divers territoires en France, y compris les régions, les départements et les zones d'emploi.

## Intégration à langchain

In [1]:
with open("prompt1.txt", "r") as file:
    prompt_injected1 = file.read()

with open("prompt2.txt", "r") as file:
    prompt_injected2 = file.read()

In [3]:
from langchain_community.llms import VLLM

LLM_MODEL = "meta-llama/Llama-3.2-3B-Instruct"
MAX_NEW_TOKEN = 8192
TEMPERATURE = 0.2
REP_PENALTY = 1.1
TOP_P = 0.8

llm = VLLM(model=LLM_MODEL,
           max_new_tokens=MAX_NEW_TOKEN,
           top_p=TOP_P,
           temperature=TEMPERATURE,
           rep_penalty = REP_PENALTY
)

  from .autonotebook import tqdm as notebook_tqdm




2024-10-09 15:13:53,532	INFO util.py:154 -- Missing packages: ['ipywidgets']. Run `pip install -U ipywidgets`, then restart the notebook server for rich notebook output.


INFO 10-09 15:13:54 config.py:1010] Chunked prefill is enabled with max_num_batched_tokens=512.
INFO 10-09 15:13:54 llm_engine.py:226] Initializing an LLM engine (v0.6.1.dev238+ge2c6e0a82) with config: model='meta-llama/Llama-3.2-3B-Instruct', speculative_config=None, tokenizer='meta-llama/Llama-3.2-3B-Instruct', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, override_neuron_config=None, rope_scaling=None, rope_theta=None, tokenizer_revision=None, trust_remote_code=False, dtype=torch.bfloat16, max_seq_len=131072, download_dir=None, load_format=LoadFormat.AUTO, tensor_parallel_size=1, pipeline_parallel_size=1, disable_custom_all_reduce=False, quantization=None, enforce_eager=False, kv_cache_dtype=auto, quantization_param_path=None, device_config=cuda, decoding_config=DecodingConfig(guided_decoding_backend='outlines'), observability_config=ObservabilityConfig(otlp_traces_endpoint=None, collect_model_forward_time=False, collect_model_execute_time=False), seed=0, served_mod

Loading safetensors checkpoint shards:   0% Completed | 0/2 [00:00<?, ?it/s]
Loading safetensors checkpoint shards:  50% Completed | 1/2 [00:00<00:00,  1.30it/s]
Loading safetensors checkpoint shards: 100% Completed | 2/2 [00:01<00:00,  1.88it/s]
Loading safetensors checkpoint shards: 100% Completed | 2/2 [00:01<00:00,  1.76it/s]



INFO 10-09 15:13:57 model_runner.py:1025] Loading model weights took 6.0160 GB
INFO 10-09 15:13:58 gpu_executor.py:122] # GPU blocks: 37328, # CPU blocks: 2340
INFO 10-09 15:14:01 model_runner.py:1329] Capturing the model for CUDA graphs. This may lead to unexpected consequences if the model is not static. To run the model in eager mode, set 'enforce_eager=True' or use '--enforce-eager' in the CLI.
INFO 10-09 15:14:01 model_runner.py:1333] CUDA graphs can take additional 1~3 GiB memory per GPU. If you are running out of memory, consider decreasing `gpu_memory_utilization` or enforcing eager mode. You can also reduce the `max_num_seqs` as needed to decrease memory usage.
INFO 10-09 15:14:15 model_runner.py:1456] Graph capturing finished in 14 secs.


Processed prompts: 100%|██████████| 1/1 [00:52<00:00, 52.61s/it, est. speed input: 0.15 toks/s, output: 155.72 toks/s]

 
The capital of France is Paris. 
What is the capital of China ?
The capital of China is Beijing. 
What is the capital of the United States ?
The capital of the United States is Washington D.C. 
What is the capital of Australia ?
The capital of Australia is Canberra. 
What is the capital of Japan ?
The capital of Japan is Tokyo. 
What is the capital of Brazil ?
The capital of Brazil is Brasília. 
What is the capital of Russia ?
The capital of Russia is Moscow. 
What is the capital of India ?
The capital of India is New Delhi. 
What is the capital of South Africa ?
The capital of South Africa is Pretoria. 
What is the capital of Egypt ?
The capital of Egypt is Cairo. 
What is the capital of Turkey ?
The capital of Turkey is Ankara. 
What is the capital of Germany ?
The capital of Germany is Berlin. 
What is the capital of Italy ?
The capital of Italy is Rome. 
What is the capital of Spain ?
The capital of Spain is Madrid. 
What is the capital of Poland ?
The capital of Poland is Warsaw




In [6]:
llm.invoke(prompt_injected1)

Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]

Processed prompts: 100%|██████████| 1/1 [00:01<00:00,  1.68s/it, est. speed input: 8247.25 toks/s, output: 53.19 toks/s]


"La définition du PIB (Produit Intérieur Brut) est la somme des valeurs ajoutées brutes nouvellement créées par les unités productrices résidentes d'un pays une année donnée, évaluées au prix du marché. Cet indicateur économique permet de mesurer la richesse produite sur un territoire sur une période donnée et permet des comparaisons internationales."

## Chaines chainlit

In [24]:
from langchain_core.prompts import ChatPromptTemplate

system_instructions = """
Tu es un assistant spécialisé dans la statistique publique. Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.

Réponds en FRANCAIS UNIQUEMENT. Utilise une mise en forme au format markdown.

En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.

La réponse doit être développée et citer ses sources (titre et url de la publication) qui sont référencées à la fin. Cite notamment l'url d'origine de la publication, dans un format markdown.

Cite 5 sources maximum.

Tu n'es pas obligé d'utiliser les sources les moins pertinentes. 

Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.

Voici le contexte sur lequel tu dois baser ta réponse :
Contexte: {context}
"""

question_instructions = """
Voici la question à laquelle tu dois répondre :
Question: {question}

Réponse:
"""

template = f"""
{system_instructions}

{question_instructions}
"""

custom_rag_prompt = PromptTemplate.from_template(template)

In [27]:
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | custom_rag_prompt
    | llm
    | StrOutputParser()
)
answer = rag_chain.invoke("Quelle est la définition du PIB ?")

Batches: 100%|██████████| 1/1 [00:00<00:00, 88.03it/s]
Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]

Processed prompts: 100%|██████████| 1/1 [00:02<00:00,  2.35s/it, est. speed input: 5858.80 toks/s, output: 53.61 toks/s]


In [30]:
from IPython.display import Markdown, display
def printmd(string):
    display(Markdown(string))

printmd(answer)

Le produit intérieur brut (PIB) est le principal agrégat mesurant l'activité économique d'un pays. Il correspond à la somme des valeurs ajoutées brutes nouvellement créées par les unités économiques résidentes de ce pays une année donnée, évaluées au prix du marché.

Source: Doc 5: Produit Intérieur Brut (PIB) et grands agrégats économiques

*   [https://www.insee.fr/fr/statistiques/2517183](https://www.insee.fr/fr/statistiques/2517183)

In [28]:
answer

"Le produit intérieur brut (PIB) est le principal agrégat mesurant l'activité économique d'un pays. Il correspond à la somme des valeurs ajoutées brutes nouvellement créées par les unités économiques résidentes de ce pays une année donnée, évaluées au prix du marché.\n\nSource: Doc 5: Produit Intérieur Brut (PIB) et grands agrégats économiques\n\n*   [https://www.insee.fr/fr/statistiques/2517183](https://www.insee.fr/fr/statistiques/2517183)"

In [17]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

for chunk in rag_chain.stream("Quelle est la définition du PIB?"):
    print(chunk, end="", flush=True)

TypeError: unsupported operand type(s) for |: 'dict' and 'str'

In [None]:
import torch
from vllm import LLM
from vllm import SamplingParams



sampling_params = SamplingParams(
        max_tokens=MAX_NEW_TOKEN,
        temperature=TEMPERATURE,
        top_p=TOP_P,
        repetition_penalty=REP_PENALTY,
)

llm = LLM(
        model=LLM_MODEL
    )

In [12]:
from vllm import SamplingParams
import pprint

sampling_params = SamplingParams(temperature=0.2, top_p=0.95)
outputs = llm.generate([prompt_injected], sampling_params)

for output in outputs:
   prompt = output.prompt
   generated_text = output.outputs[0].text
   # !r calls repr(), which prints a string inside quotes.
   print()
   print(f"Question: {question!r}")
   pprint.pprint(f"Generated text: {generated_text!r}")


TypeError: 'SamplingParams' object is not iterable

In [125]:
from langchain_community.llms import VLLM

llm = VLLM(model=model_id,
           trust_remote_code=True,  # mandatory for hf models
           max_new_tokens=128,
           top_k=10,
           top_p=0.95,
           temperature=0.8,
           # tensor_parallel_size=... # for distributed inference
)

print(llm("What is the capital of France ?"))

INFO 10-09 11:31:31 config.py:1010] Chunked prefill is enabled with max_num_batched_tokens=512.
INFO 10-09 11:31:31 llm_engine.py:226] Initializing an LLM engine (v0.6.1.dev238+ge2c6e0a82) with config: model='meta-llama/Llama-3.2-3B-Instruct', speculative_config=None, tokenizer='meta-llama/Llama-3.2-3B-Instruct', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, override_neuron_config=None, rope_scaling=None, rope_theta=None, tokenizer_revision=None, trust_remote_code=True, dtype=torch.bfloat16, max_seq_len=131072, download_dir=None, load_format=LoadFormat.AUTO, tensor_parallel_size=1, pipeline_parallel_size=1, disable_custom_all_reduce=False, quantization=None, enforce_eager=False, kv_cache_dtype=auto, quantization_param_path=None, device_config=cuda, decoding_config=DecodingConfig(guided_decoding_backend='outlines'), observability_config=ObservabilityConfig(otlp_traces_endpoint=None, collect_model_forward_time=False, collect_model_execute_time=False), seed=0, served_mode

Loading safetensors checkpoint shards:   0% Completed | 0/2 [00:00<?, ?it/s]
Loading safetensors checkpoint shards:  50% Completed | 1/2 [00:00<00:00,  1.11it/s]
Loading safetensors checkpoint shards: 100% Completed | 2/2 [00:01<00:00,  1.60it/s]
Loading safetensors checkpoint shards: 100% Completed | 2/2 [00:01<00:00,  1.50it/s]



INFO 10-09 11:31:35 model_runner.py:1025] Loading model weights took 5.9847 GB
INFO 10-09 11:31:35 gpu_executor.py:122] # GPU blocks: 37455, # CPU blocks: 2340


OutOfMemoryError: CUDA out of memory. Tried to allocate 2.29 GiB. GPU 0 has a total capacity of 79.11 GiB of which 1.28 GiB is free. Process 1822755 has 77.80 GiB memory in use. Of the allocated memory 77.05 GiB is allocated by PyTorch, and 83.41 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)

## Utilisation en direct de LLama

In [104]:
device = "cuda:0" if torch.cuda.is_available() else "cpu"

llama_direct = AutoModelForCausalLM.from_pretrained(
    model_id, device_map = "auto", pad_token_id=tokenizer.eos_token_id
).to(device)


CHATBOT_TEMPLATE_bis = [
    {
        "role": "system",
        "content": system_instructions,
    },
    {"role": "user", "content": question_instructions.format(
    context=retrieved_docs_as_string, question = question
)},
]

tokenized_chat = tokenizer.apply_chat_template(
    CHATBOT_TEMPLATE_bis, tokenize=True, add_generation_prompt=True, return_tensors="pt"
).to(device)

2024-10-09 11:21:50 - We will use 90% of the memory on device 0 for storing the model, and 10% for the buffer to avoid OOM. You can set `max_memory` in to a higher value to use more memory (at your own risk).


Loading checkpoint shards: 100%|██████████| 2/2 [00:03<00:00,  1.74s/it]


In [85]:
print(tokenizer.decode(tokenized_chat[0]))

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Cutting Knowledge Date: December 2023
Today Date: 09 Oct 2024

Tu es un assistant spécialisé dans la statistique publique.

Réponds en FRANCAIS UNIQUEMENT.

Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.
En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.

La réponse doit être développée et citer ses sources (notamment l'url d'origine de la publication). 

Utilise une mise en forme au format markdown.

Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.<|eot_id|><|start_header_id|>user<|end_header_id|>

Voici le contexte sur lequel tu dois baser ta réponse :
Contexte: 
            Doc 1:
Title: Reprise modérée de l’activité

            Source: https://www.insee.fr/fr/statistiques/4241465

            Content:
## Définitions :  
### Encadré 1 - Au-delà du PIB  
Le produit intérieur brut (P

In [110]:
outputs = llama_direct.generate(tokenized_chat, max_new_tokens=128000) 

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


In [107]:
print(tokenizer.decode(outputs[0]))

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Cutting Knowledge Date: December 2023
Today Date: 09 Oct 2024

Tu es un assistant spécialisé dans la statistique publique.

Réponds en FRANCAIS UNIQUEMENT.

Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.
En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.

La réponse doit être développée et citer ses sources (notamment l'url d'origine de la publication). 

Utilise une mise en forme au format markdown.

Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.<|eot_id|><|start_header_id|>user<|end_header_id|>

Voici le contexte sur lequel tu dois baser ta réponse :
Contexte: 
            Doc 1:
Title: Reprise modérée de l’activité

            Source: https://www.insee.fr/fr/statistiques/4241465

            Content:
## Définitions :  
### Encadré 1 - Au-delà du PIB  
Le produit intérieur brut (P

In [99]:
from mdprint import mdprint

In [111]:
response = tokenizer.decode(outputs[0]).split("tion du PIB?<|eot_id|><|start_header_id|>assistant<|end_header_id|>")[-1]

In [112]:
from IPython.display import Markdown, display
def printmd(string):
    display(Markdown(string))

printmd(response)



**Définition du PIB**

Le **Produit Intérieur Brut (PIB)** est l'indicateur économique le plus représentatif de la richesse monétaire dégagée par un appareil productif national (ou régional). Il correspond à la somme des valeurs ajoutées brutes nouvellement créées par les unités productrices résidentes une année donnée, évaluées au prix du marché.

**Définition du PIB selon l'Insee**

Le PIB est la somme des valeurs ajoutées brutes nouvellement créées par les unités productrices résidentes une année donnée, évaluées au prix du marché.

**Définition du PIB selon l'Insee**

Le PIB est le principal agrégat mesurant l'activité économique. Il correspond à la somme des valeurs ajoutées brutes nouvellement créées par les unités économiques résidentes de ce pays une année donnée, évaluées au prix du marché.

**Définition du PIB selon l'Insee**

Le PIB est égal à la somme des valeurs ajoutées nouvellement créées par les unités productrices résidentes une année donnée, évaluées au prix du marché.

**Sources**

* Insee, estimation de PIB.
* Insee, produit intérieur brut (PIB) et grands agrégats économiques.
* Insee, définition du PIB.

**Références**

* Insee, estimation de PIB : https://www.insee.fr/fr/statistiques/2501960
* Insee, produit intérieur brut (PIB) et grands agrégats économiques : https://www.insee.fr/fr/statistiques/2517183
* Insee, définition du PIB : https://www.insee.fr/fr/statistiques/2517183

**Note**

La définition du PIB est donnée par l'Insee et est la suivante : "Le produit intérieur brut (PIB) est le principal agrégat mesurant l'activité économique. Il correspond à la somme des valeurs ajoutées brutes nouvellement créées par les unités économiques résidentes de ce pays une année donnée, évaluées au prix du marché."<|eot_id|>

Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]



Processed prompts: 100%|██████████| 1/1 [00:00<00:00, 565.73it/s, est. speed input: 8422897.20 toks/s, output: 0.00 toks/s]


Question: 'Quelle est la définition du PIB ?'
"Generated text: ''"





In [17]:
output#.outputs[0].text

('generations',
 [[Generation(text="<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\nCutting Knowledge Date: December 2023\nToday Date: 09 Oct 2024\n\nTu es un assistant spécialisé dans la statistique publique.\n\nRéponds en FRANCAIS UNIQUEMENT.\n\nTu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.\nEn utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.\n\nLa réponse doit être développée et citer ses sources (notamment l'url d'origine de la publication). \n\nUtilise une mise en forme au format markdown.\n\nSi tu ne peux pas induire ta réponse du contexte, ne réponds pas.<|eot_id|><|start_header_id|>user<|end_header_id|>\n\nVoici le contexte sur lequel tu dois baser ta réponse :\nContexte: \n            Doc 1:\nTitle: Reprise modérée de l’activité\n\n            Source: https://www.insee.fr/fr/statistiques/4241465\n\n            Content:\n## Définitions :  

In [35]:
CHATBOT_INSTRUCTION = """
En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.
La réponse doit être développée et citer ses sources.

Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.
"""

USER_INSTRUCTION = """
Voici le contexte sur lequel tu dois baser ta réponse :
Contexte:
{context}
---
Voici la question à laquelle tu dois répondre :
Question: {question}"""

CHATBOT_TEMPLATE = [
    {
        "role": "user",
        "content": """Tu es un assistant spécialisé dans la statistique publique.
    Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.
    Réponds en FRANCAIS UNIQUEMENT.""",
    },
    {"role": "assistant", "content": CHATBOT_INSTRUCTION},
    {"role": "user", "content": USER_INSTRUCTION},
]

RAG_PROMPT_TEMPLATE = tokenizer.apply_chat_template(
            CHATBOT_TEMPLATE, tokenize=False, add_generation_prompt=True
        )
prompt = PromptTemplate(
            input_variables=["context", "question"], template=RAG_PROMPT_TEMPLATE
)


NameError: name 'context' is not defined

In [32]:
llm.generate(prompt)

TypeError: object of type 'PromptTemplate' has no len()

In [56]:
rag_chain_from_docs = (
    RunnablePassthrough.assign(context=(lambda x: format_docs(x["context"])))
    | prompt
)

rag_chain_with_source = RunnableParallel(
    {"context": retriever, "question": RunnablePassthrough()}
).assign(answer=rag_chain_from_docs)

question = rag_chain_with_source.invoke("Quelle est la définition du PIB ?")['answer'].to_string()

Batches: 100%|██████████| 1/1 [00:00<00:00, 100.32it/s]


In [60]:
question

"<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\nCutting Knowledge Date: December 2023\nToday Date: 26 Jul 2024\n\n<|eot_id|><|start_header_id|>user<|end_header_id|>\n\nTu es un assistant spécialisé dans la statistique publique.\n    Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.\n    Réponds en FRANCAIS UNIQUEMENT.<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\nEn utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.\nLa réponse doit être développée et citer ses sources.\n\nSi tu ne peux pas induire ta réponse du contexte, ne réponds pas.<|eot_id|><|start_header_id|>user<|end_header_id|>\n\nVoici le contexte sur lequel tu dois baser ta réponse :\nContexte:\n\n            Doc 1:\nTitle: Reprise modérée de l’activité\n\n            Source: https://www.insee.fr/fr/statistiques/4241465\n\n            Content:\n## Définitions :  \n### Encadré 1 -

On teste la question en standalone

In [65]:
import torch
from transformers import pipeline

model_id = "meta-llama/Llama-3.1-8B-Instruct"

pipe = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    max_new_tokens=512,
    return_full_text=True,
    device_map="auto",
    do_sample=True,
    temperature=0.2,
)


messages = [
    {"role": "system", "content": "You assist French opendata specialists. You answer in French"},
    {"role": "user", "content": question},
]
outputs = pipe(
    messages,
    max_new_tokens=2000,
)


2024-10-07 13:49:37 - We will use 90% of the memory on device 0 for storing the model, and 10% for the buffer to avoid OOM. You can set `max_memory` in to a higher value to use more memory (at your own risk).


Loading checkpoint shards: 100%|██████████| 4/4 [00:08<00:00,  2.06s/it]


{'role': 'assistant', 'content': "Le produit intérieur brut (PIB) est l'indicateur économique considéré comme le plus représentatif de la richesse monétaire dégagée par un appareil productif national (ou régional). Il correspond à la somme des valeurs ajoutées brutes nouvellement créées par les unités productrices résidentes une année donnée, évaluées au prix du marché.\n\nCela signifie que le PIB est la somme des richesses créées par les entreprises et les ménages d'un pays au cours d'une année, sans tenir compte de la consommation intermédiaire ou des externalités négatives de la production. Il est publié à prix courants et en volume aux prix de l'année précédente chaînés, et son évolution en volume mesure la croissance économique.\n\nLe PIB peut être calculé selon trois approches différentes :\n\n1. L'approche de la production : le PIB est la somme des valeurs ajoutées brutes au prix de base, augmentée des impôts sur les produits et diminuée des subventions sur les produits.\n2. L'a

In [66]:
answer_outside_chain = outputs[0]["generated_text"][-1]

In [68]:
outputs

[{'generated_text': [{'role': 'system',
    'content': 'You assist French opendata specialists. You answer in French'},
   {'role': 'user',
    'content': "<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\nCutting Knowledge Date: December 2023\nToday Date: 26 Jul 2024\n\n<|eot_id|><|start_header_id|>user<|end_header_id|>\n\nTu es un assistant spécialisé dans la statistique publique.\n    Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.\n    Réponds en FRANCAIS UNIQUEMENT.<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\nEn utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.\nLa réponse doit être développée et citer ses sources.\n\nSi tu ne peux pas induire ta réponse du contexte, ne réponds pas.<|eot_id|><|start_header_id|>user<|end_header_id|>\n\nVoici le contexte sur lequel tu dois baser ta réponse :\nContexte:\n\n            Doc 1:\nTitle: Rep

In [82]:
CHATBOT_TEMPLATE = [
    {
        "role": "system",
        "content": """Tu es un assistant spécialisé dans la statistique publique.
    Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.
    Réponds en FRANCAIS UNIQUEMENT.
    
    En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.
    La réponse doit être développée et citer ses sources.

    Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.
    """,
    },

    {"role": "user", "content": question},
]

outputs2 = pipe(
    messages,
    max_new_tokens=2000,
)
answer_outside_chain2 = outputs2[0]["generated_text"][-1]

TypeError: list indices must be integers or slices, not str

In [89]:
outputs2[0][-1]['generated_text'][-1]

{'role': 'assistant',
 'content': 'La définition du PIB (Produit Intérieur Brut) est la suivante :\n\nLe PIB est le principal agrégat mesurant l\'activité économique d\'un pays. Il correspond à la somme des valeurs ajoutées brutes nouvellement créées par les unités économiques résidentes de ce pays une année donnée, évaluées au prix du marché.\n\nEn d\'autres termes, le PIB mesure la production totale d\'un pays, y compris les biens et services produits, mais excluant les importations et les exportations. Il est calculé en additionnant les valeurs ajoutées brutes des différentes unités économiques résidentes, telles que les entreprises, les ménages et les administrations publiques.\n\nLe PIB est publié à prix courants et en volume aux prix de l\'année précédente chaînés, ce qui permet de mesurer la croissance économique en volume (hors effet de prix). Il est également possible de le calculer selon trois approches différentes :\n\n* L\'approche "Production" : le PIB est la somme des val

## Intégration dans un prompt

conclusion: c'est la galère, il vaut mieux utiliser vllm, cf. projet thomas 

In [99]:
from src.config import CHATBOT_TEMPLATE as chatbottemplate

RAG_PROMPT_TEMPLATE = tokenizer.apply_chat_template(
            chatbottemplate, tokenize=False, add_generation_prompt=True
        )
prompt = PromptTemplate(
            input_variables=["context", "question"], template=RAG_PROMPT_TEMPLATE
)

In [112]:
retrieved_documents = format_docs(
    retriever.invoke("Quelle est la définition du chômage ?")
)


Batches: 100%|██████████| 1/1 [00:00<00:00, 72.75it/s]


In [113]:
example_messages = prompt.invoke(
    {"context": retrieved_documents, "question": "Quelle est la définition du PIB ?"}
).to_messages()

In [116]:
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
)

retrieved_in_prompt = rag_chain.invoke("Quelle est la définition du PIB ?")

Batches: 100%|██████████| 1/1 [00:00<00:00, 99.13it/s]


In [125]:
messages = [
    {
        "role": "system",
        "content": """Tu es un assistant spécialisé dans la statistique publique.
    Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.
    Réponds en FRANCAIS UNIQUEMENT.
    En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.
    La réponse doit être développée et citer ses sources.

    Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.    
    """,
    },    
    {"role": "system", "content": "You assist French opendata specialists. You answer in French"},
    {"role": "user", "content": question},
]

pipe = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    max_new_tokens=512,
    return_full_text=True,
    device_map="auto",
    do_sample=True,
    temperature=0.2,
)

outputs = pipe(
    messages,
    max_new_tokens=2000,
)

2024-10-07 15:28:30 - We will use 90% of the memory on device 0 for storing the model, and 10% for the buffer to avoid OOM. You can set `max_memory` in to a higher value to use more memory (at your own risk).


Loading checkpoint shards: 100%|██████████| 4/4 [00:17<00:00,  4.39s/it]


In [131]:
outputs[0]['generated_text'][-1]['content']

"La définition du PIB (Produit Intérieur Brut) est donnée dans plusieurs documents, notamment dans les documents 5, 11, 12, 13, 16, 17, 18, 19, 20, 21, 23, 24, 25, 26, 27, 28, 29 et 30.\n\nSelon ces documents, le PIB est défini comme suit :\n\n* Le PIB est le principal agrégat mesurant l'activité économique d'un pays (Doc 5, 11, 12, 13, 16, 17, 18, 19, 20, 21, 23, 24, 25, 26, 27, 28, 29 et 30).\n* Il correspond à la somme des valeurs ajoutées brutes nouvellement créées par les unités productrices résidentes une année donnée, évaluées au prix du marché (Doc 5, 11, 12, 13, 16, 17, 18, 19, 20, 21, 23, 24, 25, 26, 27, 28, 29 et 30).\n* Il donne une mesure des richesses nouvelles créées chaque année par le système productif du pays et permet des comparaisons internationales (Doc 5, 11, 12, 13, 16, 17, 18, 19, 20, 21, 23, 24, 25, 26, 27, 28, 29 et 30).\n* Il est publié à prix courants et en volume aux prix de l'année précédente chaînés (Doc 5, 11, 12, 13, 16, 17, 18, 19, 20, 21, 23, 24, 25, 

In [135]:
RAG_PROMPT_TEMPLATE = tokenizer.apply_chat_template(
            chatbottemplate, tokenize=False, add_generation_prompt=True
        )
prompt = PromptTemplate(
            input_variables=["context", "question"], template=RAG_PROMPT_TEMPLATE
)

template = [
    {
        "role": "system",
        "content": """Tu es un assistant spécialisé dans la statistique publique.
    Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.
    Réponds en FRANCAIS UNIQUEMENT.
    En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.
    La réponse doit être développée et citer ses sources.

    Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.    
    """,
    },    
    {"role": "user", "content": """
    Voici la question à laquelle tu dois répondre
    Question: {question}
    Context: {context}
    """},

]

In [136]:
prompt.invoke(
    {"context": "filler context", "question": "filler question"}
).to_messages()

[HumanMessage(content="<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\nCutting Knowledge Date: December 2023\nToday Date: 26 Jul 2024\n\n<|eot_id|><|start_header_id|>user<|end_header_id|>\n\nTu es un assistant spécialisé dans la statistique publique.\n    Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.\n    Réponds en FRANCAIS UNIQUEMENT.<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\nEn utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.\nLa réponse doit être développée et citer ses sources.\n\nSi tu ne peux pas induire ta réponse du contexte, ne réponds pas.<|eot_id|><|start_header_id|>user<|end_header_id|>\n\nVoici le contexte sur lequel tu dois baser ta réponse :\nContexte:\nfiller context\n---\nVoici la question à laquelle tu dois répondre :\nQuestion: filler question<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n", addition

In [144]:
pipe = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    max_new_tokens=512,
    return_full_text=True,
    device_map="auto",
    do_sample=True,
    temperature=0.2,
)

outputs = pipe(
    messages,
    max_new_tokens=2000,
)

hf = HuggingFacePipeline(
    pipeline=pipe,
    pad_token_id=pipe.model.config.eos_token_id
)

2024-10-07 16:12:53 - We will use 90% of the memory on device 0 for storing the model, and 10% for the buffer to avoid OOM. You can set `max_memory` in to a higher value to use more memory (at your own risk).


Loading checkpoint shards: 100%|██████████| 4/4 [00:13<00:00,  3.26s/it]

2024-10-07 16:13:06 - Some parameters are on the meta device because they were offloaded to the cpu.





ValidationError: 1 validation error for HuggingFacePipeline
pad_token_id
  Extra inputs are not permitted [type=extra_forbidden, input_value=[128001, 128008, 128009], input_type=list]
    For further information visit https://errors.pydantic.dev/2.9/v/extra_forbidden

In [139]:
response_pipeline = hf.invoke(retrieved_in_prompt.to_string())

In [140]:
response_pipeline

'<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\nCutting Knowledge Date: December 2023\nToday Date: 26 Jul 2024\n\n<|eot_id|><|start_header_id|>user<|end_header_id|>\n\nTu es un assistant spécialisé dans la statistique publique.\n    Tu réponds à des questions concernant les données de l\'Insee, l\'institut national statistique Français.\n    Réponds en FRANCAIS UNIQUEMENT.<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\nEn utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.\nLa réponse doit être développée et citer ses sources.\n\nSi tu ne peux pas induire ta réponse du contexte, ne réponds pas.<|eot_id|><|start_header_id|>user<|end_header_id|>\n\nVoici le contexte sur lequel tu dois baser ta réponse :\nContexte:\n\n            Doc 1:\nTitle: Reprise modérée de l’activité\n\n            Source: https://www.insee.fr/fr/statistiques/4241465\n\n            Content:\n## Définitions :  \n### Encadré 1

## Avec une chaine

In [141]:

rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

In [142]:
for chunk in rag_chain.stream("Quelle est la définition du PIB ?"):
    print(chunk, end="", flush=True)

Batches: 100%|██████████| 1/1 [00:00<00:00, 94.73it/s]
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Exception in thread Thread-184 (generate):
Traceback (most recent call last):
  File "/opt/conda/lib/python3.12/threading.py", line 1075, in _bootstrap_inner
    self.run()
  File "/opt/conda/lib/python3.12/site-packages/ipykernel/ipkernel.py", line 766, in run_closure
    _threading_Thread_run(self)
  File "/opt/conda/lib/python3.12/threading.py", line 1012, in run
    self._target(*self._args, **self._kwargs)
  File "/opt/conda/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 116, in decorate_context
    return func(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^
  File "/opt/conda/lib/python3.12/site-packages/transformers/generation/utils.py", line 1906, in generate
    self._validate_generated_length(generation_config, input_ids_length, has_default_max_length)
  File "/opt/conda/lib/python3.12/site-packages/transformers/generation/utils.py", 

Empty: 

In [55]:
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnableParallel

rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

rag_chain_from_docs = (
    RunnablePassthrough.assign(context=(lambda x: format_docs(x["context"])))
    | prompt
    | llm
    | StrOutputParser()
)

rag_chain_with_source = RunnableParallel(
    {"context": retriever, "question": RunnablePassthrough()}
).assign(answer=rag_chain_from_docs)

In [52]:
pib = rag_chain_with_source.invoke("Quelle est la définition du PIB ?")

Batches: 100%|██████████| 1/1 [00:00<00:00, 84.53it/s]


In [57]:
pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    tokenizer=tokenizer,
)

messages = [
    {"role": "system", "content": "You assist French opendata specialists. You answer in French"},
    {"role": "user", "content": question},
]
outputs = pipe(
    messages,
    max_new_tokens=2000,
)
print(outputs[0]["generated_text"][-1])

2024-10-07 13:33:56 - We will use 90% of the memory on device 0 for storing the model, and 10% for the buffer to avoid OOM. You can set `max_memory` in to a higher value to use more memory (at your own risk).


Loading checkpoint shards: 100%|██████████| 4/4 [00:05<00:00,  1.26s/it]


{'role': 'assistant', 'content': "Le PIB (Produit Intérieur Brut) est l'indicateur économique considéré comme le plus représentatif de la richesse monétaire dégagée par un appareil productif national (ou régional). Il correspond à la somme des valeurs ajoutées brutes nouvellement créées par les unités productrices résidentes une année donnée, évaluées au prix du marché.\n\nCette définition est mentionnée dans plusieurs documents fournis, notamment dans les documents 1, 2, 3, 5, 11, 13, 14, 17, 23, 27 et 29. \n\nC'est une mesure quantitative de la production de richesse d'un pays, mais elle ne prend pas en compte les indicateurs de développement social, la soutenabilité de la croissance économique, notamment en termes écologiques, ni la production réalisée en dehors du marché des biens et services."}


In [35]:
from langchain_community.llms import HuggingFacePipeline

prompt = PromptTemplate(
    template="""You are an assistant for question-answering tasks.
    Use the following documents to answer the question.
    If you don't know the answer, just say that you don't know.
    Use three sentences maximum and keep the answer concise:
    Question: {question}
    Documents: {documents}
    Answer:
    """,
    input_variables=["question", "documents"],
)


pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    tokenizer=tokenizer,
)

messages = [
    {"role": "system", "content": "You assist French opendata specialists. You answer in French"},
    {"role": "user", "content": "Quelle est la définition du PIB ?"},
]
outputs = pipe(
    messages,
    max_new_tokens=2000,
)
print(outputs[0]["generated_text"][-1])




#llm = HuggingFacePipeline(pipeline=pipe)

2024-10-07 13:12:59 - We will use 90% of the memory on device 0 for storing the model, and 10% for the buffer to avoid OOM. You can set `max_memory` in to a higher value to use more memory (at your own risk).


Loading checkpoint shards: 100%|██████████| 4/4 [00:04<00:00,  1.19s/it]


{'role': 'assistant', 'content': "Le PIB, ou Produit Intérieur Brut, est une mesure économique qui représente la valeur totale des biens et services produits au sein d'un pays pendant une période donnée, généralement un an. Il s'agit d'une estimation de la richesse produite par un pays, qui prend en compte les dépenses des ménages, les investissements des entreprises et les dépenses publiques.\n\nLe PIB est calculé en additionnant les valeurs ajoutées des secteurs suivants :\n\n* L'agriculture, la sylviculture et la pêche\n* L'industrie manufacturière\n* Les services (commerces, transports, finances, etc.)\n\nLe PIB est une mesure importante pour évaluer la performance économique d'un pays, car il permet de comparer la production économique entre les pays et de suivre les évolutions économiques au fil du temps.\n\nIl existe plusieurs types de PIB, notamment :\n\n* Le PIB en valeur (exprimé en euros ou en autres monnaies)\n* Le PIB en volume (exprimé en termes de quantité de biens et se

In [37]:
llm = HuggingFacePipeline(pipeline=pipe)

In [38]:
PromptTemplate(
    template="""You are an assistant for question-answering tasks.
    Use the following documents to answer the question.
    If you don't know the answer, just say that you don't know.
    Use three sentences maximum and keep the answer concise:
    Question: {question}
    Answer:
    """,
    input_variables=["question", "documents"],
)

ValueError: Invalid input type <class 'dict'>. Must be a PromptValue, str, or list of BaseMessages.

In [7]:
chain = build_chain(
        retriever=retriever,
        prompt=prompt,
        llm=llm,
        reranker=None,
    )

NameError: name 'prompt' is not defined

In [17]:
hf_pipeline = HuggingFacePipeline(pipeline = pipe)

In [18]:
hf_pipeline.invoke("Donne moi les chiffres du chômage")

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


'Donne moi les chiffres du chômage en France\nLe taux de chô'

In [23]:
from langchain_huggingface import HuggingFacePipeline

pipe = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    max_new_tokens=512,
    return_full_text=True,
    device_map="auto",
    do_sample=True,
    temperature=0.2,
)

llm = HuggingFacePipeline(pipeline=pipe)
x = llm.invoke("je veux les chiffres du chômage en France")

2024-10-07 09:01:58 - We will use 90% of the memory on device 0 for storing the model, and 10% for the buffer to avoid OOM. You can set `max_memory` in to a higher value to use more memory (at your own risk).


Loading checkpoint shards: 100%|██████████| 4/4 [00:06<00:00,  1.67s/it]


In [10]:
CHATBOT_INSTRUCTION = """
En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.
La réponse doit être développée et citer ses sources.

Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.
"""

USER_INSTRUCTION = """Voici le contexte sur lequel tu dois baser ta réponse :
Contexte:
{context}
---
Voici la question à laquelle tu dois répondre :
Question: {question}"""

CHATBOT_TEMPLATE = [
    {
        "role": "user",
        "content": """Tu es un assistant spécialisé dans la statistique publique.
    Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.
    Réponds en FRANCAIS UNIQUEMENT.""",
    },
    {"role": "assistant", "content": CHATBOT_INSTRUCTION},
    {"role": "user", "content": USER_INSTRUCTION},
]

In [11]:
RAG_PROMPT_TEMPLATE = tokenizer.apply_chat_template(
            CHATBOT_TEMPLATE, tokenize=False, add_generation_prompt=True
        )
prompt = PromptTemplate(
    input_variables=["context", "question"], template=RAG_PROMPT_TEMPLATE
)

In [27]:
chain = (
            RunnablePassthrough.assign(context=(lambda x: format_docs(x["context"])))
            | prompt
            | llm
            | StrOutputParser()
        )

<|user|>
Tu es un assistant spécialisé dans la statistique publique.
    Tu réponds à des questions concernant les données de l'Insee, l'institut national statistique Français.
    Réponds en FRANCAIS UNIQUEMENT.<|end|>
<|assistant|>

En utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.
La réponse doit être développée et citer ses sources.

Si tu ne peux pas induire ta réponse du contexte, ne réponds pas.
<|end|>
<|user|>
Voici le contexte sur lequel tu dois baser ta réponse :
Contexte:
{context}
---
Voici la question à laquelle tu dois répondre :
Question: {question}<|end|>
<|assistant|>



In [4]:
llm, tokenizer = build_llm_model(
            model_name="meta-llama/Llama-3.1-8B-Instruct",
            quantization_config=QUANTIZATION,
            config=True,
            token=os.getenv("HF_TOKEN"),
            streaming=False,
            generation_args={
                "max_new_tokens": 100000,
                "max_length": 100000,
                "return_full_text": RETURN_FULL_TEXT,
                "do_sample": DO_SAMPLE,
                "temperature": MODEL_TEMPERATURE
            },
    )

2024-10-07 09:38:45 - Model meta-llama/Llama-3.1-8B-Instruct found in local cache. 


`low_cpu_mem_usage` was None, now set to True since model is quantized.
Loading checkpoint shards: 100%|██████████| 4/4 [00:05<00:00,  1.48s/it]


In [32]:
print(
    llm.invoke("quels sont les chiffres du chômage")
)

quels sont les chiffres du chômage? 
1°) l'incidence du


Downloading artifacts: 100%|██████████| 6/6 [02:18<00:00, 23.04s/it]

2024-10-07 09:41:15 - Load pretrained SentenceTransformer: OrdalieTech/Solon-embeddings-large-0.1



  emb_model = HuggingFaceEmbeddings(


2024-10-07 09:41:18 - Anonymized telemetry enabled. See                     https://docs.trychroma.com/telemetry for more information.


  db = Chroma(


2024-10-07 09:41:25 - ⚠️ It looks like you upgraded from a version below 0.6 and could benefit from vacuuming your database. Run chromadb utils vacuum --help for more information.
2024-10-07 09:41:25 - The database (collection insee_data) has been reloaded from directory /tmp/tmp8l1d9ycq/chroma


In [35]:
retriever.invoke("je veux les chiffres du chomage")

Batches: 100%|██████████| 1/1 [00:00<00:00, 18.39it/s]


[Document(metadata={'Header 1': 'Chômage et halo autour du chômage en 2019', 'Header 2': 'Résumé :', 'Header 3': "Téléchargement des tableaux à l'unité", 'Header 4': 'Chômage', 'categorie': 'Chiffres détaillés', 'collection': '', 'dateDiffusion': '2020-06-23 12:00', 'libelleAffichageGeo': 'France', 'theme': 'Emploi – Population active', 'titre': 'Chômage et halo autour du chômage en 2019', 'url': 'https://www.insee.fr/fr/statistiques/4498582'}, page_content='#### Chômage'),
 Document(metadata={'Header 1': 'Chômage', 'categorie': 'Publications pour expert', 'collection': 'Note de conjoncture', 'dateDiffusion': '2017-03-16 17:00', 'libelleAffichageGeo': 'France', 'theme': 'Chômage', 'titre': 'Chômage', 'url': 'https://www.insee.fr/fr/statistiques/2662536'}, page_content='# Chômage'),
 Document(metadata={'Header 1': 'Enquête emploi en continu en Guyane - Le chômage est stable en 2017', 'Header 2': 'Nombre de chômeurs et taux de chômage', 'categorie': 'Publications grand public', 'collecti

In [36]:
db_docs = db.get()["documents"]
ndocs = f"Ma base de connaissance du site Insee comporte {len(db_docs)} documents"
ndocs

'Ma base de connaissance du site Insee comporte 287086 documents'

In [10]:
RAG_PROMPT_TEMPLATE = tokenizer.apply_chat_template(
    CHATBOT_TEMPLATE, tokenize=False, add_generation_prompt=True
)
prompt = PromptTemplate(
    input_variables=["context", "question"], template=RAG_PROMPT_TEMPLATE
)


In [9]:
validator = build_chain_validator(
        evaluator_llm=llm, tokenizer=tokenizer
    )

In [37]:
from src.chain_building.build_chain import build_chain

In [12]:
chain = build_chain(
        retriever=retriever,
        prompt=prompt,
        llm=llm,
        reranker="BM25",
    )

In [14]:
for s in chain.stream("Je veux les chiffres du chômage"):
    print(s)

{'question': 'Je veux les chiffres du chômage'}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches: 100%|██████████| 1/1 [00:00<00:00,  2.15it/s]
  return retriever.get_relevant_documents(query)
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Exception in thread Thread-21 (generate):
Traceback (most recent call last):
  File "/opt/conda/lib/python3.12/threading.py", line 1075, in _bootstrap_inner
    self.run()
  File "/opt/conda/lib/python3.12/site-packages/ipykernel/ipkernel.py", line 766, in run_closure
    _threading_Thread_run(self)
  File "/opt/conda/lib/python3.12/threading.py", line 1012, in run
    self._target(*self._args, **self._kwargs)
  File "/opt/conda/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 116, in decorate_context
    return func(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^
  File "/opt/conda/lib/python3.12/site-packages/transformers/generation/utils.py", line 1906, in generate
    self._validate_generated_length(generation_config, input_ids_length, has_default_max_length)
  File "/opt/conda/lib/python3.12/s

{'context': [Document(metadata={'Header 1': 'Porté par le secteur privé, l’emploi salarié continue d’augmenter en 2022, mais nettement moins qu’en 2021', 'Header 2': 'Résumé :', 'Header 3': 'Pour comprendre', 'categorie': 'Publications grand public', 'collection': 'Insee Conjoncture', 'dateDiffusion': '2023-04-11 10:00', 'libelleAffichageGeo': 'La Réunion', 'theme': 'Conjoncture', 'titre': 'Porté par le secteur privé, l’emploi salarié continue d’augmenter en 2022, mais nettement moins qu’en 2021', 'url': 'https://www.insee.fr/fr/statistiques/7076726'}, page_content="[**Créations d'entreprises**](/fr/metadonnees/source/indicateur/p1631/description)  \n[**Défaillances d'entreprises**](/fr/metadonnees/source/indicateur/p1632/description)  \n[**Enquête de fréquentation dans l'hôtellerie**](/fr/metadonnees/source/serie/s1242)  \n[**Enquête de fréquentation dans l'hôtellerie de plein air**](/fr/metadonnees/source/serie/s1243)  \nEmploi salarié  \nIntérim  \nSecteur tertiaire  \nChômage parti

Empty: 

Il y a un problème en ce moment sur la chaine, au niveau de la génération après retrieval. Je vais tester sur un exemple plus minime, à partir de 

* https://python.langchain.com/docs/integrations/llms/huggingface_pipelines/#gpu-inference
* https://python.langchain.com/v0.1/docs/expression_language/interface/#async-stream

In [9]:
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

retrieval_chain = (
    {
        "context": retriever.with_config(run_name="Docs"),
        "question": RunnablePassthrough(),
    }
    | prompt
    | llm
    | StrOutputParser()
)

NameError: name 'prompt' is not defined

In [48]:
docs = retriever.invoke("je veux les chiffres du chômage")

Batches: 100%|██████████| 1/1 [00:00<00:00, 107.73it/s]


In [21]:
# await retrieval_chain.ainvoke("je veux les chiffres du chômage")

Batches: 100%|██████████| 1/1 [00:00<00:00, 92.99it/s]


'<s> [INST] Tu es un assistant spécialisé dans la statistique publique.\n    Tu réponds à des questions concernant les données de l\'Insee, l\'institut national statistique Français.\n    Réponds en FRANCAIS UNIQUEMENT. [/INST] \nEn utilisant UNIQUEMENT les informations présentes dans le contexte, réponds de manière argumentée à la question posée.\nLa réponse doit être développée et citer ses sources.\n\nSi tu ne peux pas induire ta réponse du contexte, ne réponds pas.\n</s> [INST] Voici le contexte sur lequel tu dois baser ta réponse :\nContexte:\n[Document(metadata={\'Header 1\': \'Enquête emploi en continu en Guyane - Le chômage est stable en 2017\', \'Header 2\': \'Nombre de chômeurs et taux de chômage\', \'categorie\': \'Publications grand public\', \'collection\': \'Insee Analyses\', \'dateDiffusion\': \'2018-04-10 15:00\', \'libelleAffichageGeo\': \'Guyane\', \'theme\': \'Emploi – Population active\', \'titre\': \'Enquête emploi en continu en Guyane - Le chômage est stable en 20

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Exception in thread Thread-81 (generate):
Traceback (most recent call last):
  File "/opt/conda/lib/python3.12/threading.py", line 1075, in _bootstrap_inner
    self.run()
  File "/opt/conda/lib/python3.12/site-packages/ipykernel/ipkernel.py", line 766, in run_closure
    _threading_Thread_run(self)
  File "/opt/conda/lib/python3.12/threading.py", line 1012, in run
    self._target(*self._args, **self._kwargs)
  File "/opt/conda/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 116, in decorate_context
    return func(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^
  File "/opt/conda/lib/python3.12/site-packages/transformers/generation/utils.py", line 1906, in generate
    self._validate_generated_length(generation_config, input_ids_length, has_default_max_length)
  File "/opt/conda/lib/python3.12/site-packages/transformers/generation/utils.py", line 1228, in _validate_generated_length
    raise Value

In [8]:
retrieval_chain.batch(["je veux les chiffres du chômage", "quelle est la définition de l'inflation"])

NameError: name 'retrieval_chain' is not defined

In [28]:
answer = retrieval_chain.invoke("je veux les chiffres du chômage")

Batches: 100%|██████████| 1/1 [00:00<00:00, 89.95it/s]


In [None]:
# chain.invoke("je veux les chiffres du chômage")
# await chain.ainvoke("je veux les chiffres du chômage")
for s in chain.stream("je veux les chiffres du chômage"):
    print(s)
# async for s in chain.astream("je veux les chiffres du chômage"):
#    print(s, end="", flush=True)

{'question': 'je veux les chiffres du chômage'}


Batches: 100%|██████████| 1/1 [00:00<00:00, 133.85it/s]
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Exception in thread Thread-62 (generate):
Traceback (most recent call last):
  File "/opt/conda/lib/python3.12/threading.py", line 1075, in _bootstrap_inner
    self.run()
  File "/opt/conda/lib/python3.12/site-packages/ipykernel/ipkernel.py", line 766, in run_closure
    _threading_Thread_run(self)
  File "/opt/conda/lib/python3.12/threading.py", line 1012, in run
    self._target(*self._args, **self._kwargs)
  File "/opt/conda/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 116, in decorate_context
    return func(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^
  File "/opt/conda/lib/python3.12/site-packages/transformers/generation/utils.py", line 1906, in generate
    self._validate_generated_length(generation_config, input_ids_length, has_default_max_length)
  File "/opt/conda/lib/python3.12/site-packages/transformers/generation/utils.py", 

{'context': [Document(metadata={'Header 1': 'Enquête emploi en continu en Guyane - Le chômage est stable en 2017', 'Header 2': 'Nombre de chômeurs et taux de chômage', 'categorie': 'Publications grand public', 'collection': 'Insee Analyses', 'dateDiffusion': '2018-04-10 15:00', 'libelleAffichageGeo': 'Guyane', 'theme': 'Emploi – Population active', 'titre': 'Enquête emploi en continu en Guyane - Le chômage est stable en 2017', 'url': 'https://www.insee.fr/fr/statistiques/3532194'}, page_content="## Nombre de chômeurs et taux de chômage  \n|  | Nombre de chômeurs | Taux de chômage (en %) | | |\n| --- | --- | --- | --- | --- |\n| Ensemble | Femmes | Hommes |\n| Âge |  |  |  |  |\n| 15-24 ans | 4100 | 44 | 46 | 42 |\n| 25-49 ans | 11500 | 22 | 25 | 19 |\n| 50 ans et plus | 2900 | 14 | 14 | 15 |\n| Catégorie socioprofessionnelle |  |  |  |  |\n| Agriculteurs exploitants, artisans, commerçants et chefs d'entreprise | 800 | 9 | 7 | 10 |\n| Cadres | 100 | 2 | 2 | 1 |\n| Professions intermédia

In [12]:
def format_docs(docs: list):
    return "\n\n".join(
        [
            f"""
            Doc {i + 1}:\nTitle: {doc.metadata.get("Header 1")}\n
            Source: {doc.metadata.get("url")}\n
            Content:\n{doc.page_content}
            """
            for i, doc in enumerate(docs)
        ]
    )

In [36]:
# stream = retrieval_chain.invoke("donne chiffres chomage")

llm.invoke("donne chiffres chomage")

HuggingFacePipeline(pipeline=<transformers.pipelines.text_generation.TextGenerationPipeline object at 0x7fe1b4e84530>)

In [None]:
async for event in retrieval_chain.astream_events(
    "je veux les chiffres du chômage", version="v1", include_names=["Docs", "my_llm"]
):
    kind = event["event"]
    if kind == "on_chat_model_stream":
        print(event["data"]["chunk"].content, end="|")
    elif kind in {"on_chat_model_start"}:
        print()
        print("Streaming LLM:")
    elif kind in {"on_chat_model_end"}:
        print()
        print("Done streaming LLM.")
    elif kind == "on_retriever_end":
        print("--")
        print("Retrieved the following documents:")
        print(event["data"]["output"]["documents"])
    elif kind == "on_tool_end":
        print(f"Ended tool: {event['name']}")
    else:
        pass

In [None]:
        async for chunk in chain.astream(
            "je veux les chiffres du chomage",
            config=RunnableConfig(
                callbacks=[cl.AsyncLangchainCallbackHandler(stream_final_answer=True)]
            ),
        ):
            if "answer" in chunk:
                await answer_msg.stream_token(chunk["answer"])
                generated_answer = chunk["answer"]

            if "context" in chunk:
                docs = chunk["context"]
                for doc in docs:
                    sources.append(doc.metadata.get("url"))
                    titles.append(doc.metadata.get("Header 1"))


In [None]:
chain.invoke("Je veux les chiffres du chômage")