In [1]:
import os
import sys
import requests

from dotenv import load_dotenv
import s3fs
from fastapi import FastAPI
from langchain_core.prompts import PromptTemplate
from pydantic import BaseModel
import uvicorn

PROJECT_PATH = '/home/onyxia/work/llm-open-data-insee/'
sys.path.append(os.path.join(PROJECT_PATH, 'src')) 

from config import RAG_PROMPT_TEMPLATE
from model_building import build_llm_model
from chain_building import load_retriever, build_chain

# Load env variables from .env file
load_dotenv()

# S3 configuration
S3_ENDPOINT_URL = "https://" + os.environ["AWS_S3_ENDPOINT"]
fs = s3fs.S3FileSystem(client_kwargs={'endpoint_url': S3_ENDPOINT_URL})

## Query RAG directly

In [4]:
os.environ["HF_TOKEN"] = "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"

In [6]:
from db_building import reload_database_from_local_dir
db = reload_database_from_local_dir(persist_directory="/home/onyxia/work/llm-open-data-insee/data/chroma_db")

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/123 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/20.4k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]



config.json:   0%|          | 0.00/704 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.17k [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/191 [00:00<?, ?B/s]

In [8]:
# Import Chroma DB from S3
from config import RAG_PROMPT_TEMPLATE, EMB_MODEL_NAME, MODEL_NAME

"""DB_PATH_S3 = os.path.join(os.environ["S3_BUCKET"], os.environ["DB_KEY_S3"])
DB_PATH_LOCAL = os.path.join(PROJECT_PATH, "data", "chroma_db")
print("database : " , DB_PATH_LOCAL)
fs.get(DB_PATH_S3, DB_PATH_LOCAL, recursive=True)
"""
# Generate prompt template
prompt = PromptTemplate(input_variables=["context", "question"], template=RAG_PROMPT_TEMPLATE)
# Create a pipeline with tokenizer and LLM
retriever = load_retriever(emb_model_name=EMB_MODEL_NAME, persist_directory = DB_PATH_LOCAL)
llm = build_llm_model(model_name=MODEL_NAME,
                    quantization_config=True, 
                    config=True, 
                    token=os.environ["HF_TOKEN"])
chain = build_chain(retriever, prompt, llm)



tokenizer_config.json:   0%|          | 0.00/1.46k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/493k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.80M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/72.0 [00:00<?, ?B/s]

`low_cpu_mem_usage` was None, now set to True since model is quantized.


Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/111 [00:00<?, ?B/s]

In [10]:
question = "Comment la France a-t-elle gérée le COVID? " 
response = chain.invoke(question)
response

{'context': [Document(page_content=". Enfin, la vaccination, débutée fin décembre 2020, a couvert un nombre rapidement croissant de personnes, en priorité les plus vulnérables. Lors de la rentrée scolaire 2021, près de 50millions de personnes avaient déjà reçu au moins une dose de vaccin. L’épidémie a également eu des impacts indirects sur la santé de la population, en raison notamment des conséquences pour le système de soins. Le nombre de séjours hospitaliers hors Covid-19 a diminué de 13% en 2020, avec la déprogrammation de soins non urgents, un non-recours probable pour certaines maladies comme le cancer, mais aussi une baisse des accidents et des maladies infectieuses hors Covid-19. L’activité des soins de ville a diminué, surtout lors de la première vague. La santé mentale s’est dégradée, notamment chez les jeunes adultes. L’épidémie de Covid-19 est apparue sur le territoire français début 2020. Cet éclairage retrace son évolution jusqu'à début septembre 2021 et analyse certaines

In [16]:
print("Question : " , response["question"])
print("Answer : ", response["answer"])
print("Documents : ", " ".join([f"\nDoc {i} : ({doc.metadata["title"]},{doc.metadata["source"]}) {doc.page_content}" for i, doc in enumerate(response["context"])])) 

Question :  Comment la France a-t-elle gérée le COVID? 
Answer :  La France a géré la crise sanitaire liée au COVID-19 de différentes manières, notamment en mettant en place des mesures de lutte contre la progression de la maladie, telles que le port du masque, le dépistage et la vaccination. La première vague de l'épidémie a débuté en avril 2020 et a été suivie par une série de publications et études épidémiologiques. La France a également traversé d'autres crises sanitaires dans les cinquante dernières années, telles que la grippe de Hong-Kong en 1968-1970, qui a perturbé les transports et la mortalité.

De mars à décembre 2020, le nombre de décès a dépassé de 55600 le nombre attendu, soit un excédent de 95000 décès. Cet excédent est inférieur au nombre de décès attribuables à la Covid-19, estimé entre 130000 et 146000. La France a cherché à travailler avec des opérateurs de téléphonie mobile pour mesurer la population présente dans un territoire donné à un moment donné, notamment po

In [37]:
def extract_context_as_dict(response):
    dict_context = {}
    for i, doc in enumerate(response['context']):
        dict_context[i] = doc.metadata
        dict_context[i]['content'] = doc.page_content
    return dict_context

## Query RAG through locally deployed API

In [38]:
CHATBOT_URL = "https://user-avouacr-879366-user.user.lab.sspcloud.fr/chat"

In [39]:
question = "Je cherche à connaitre le nombre (et eventuellement les caractéristiques) des véhicules 'primes à la conversion' dans plusieurs départements d'occitanie, en particulier l'aveyron."
query = {"question": question}
output = requests.post(CHATBOT_URL, json=query)
print(output)

<Response [200]>


In [44]:
output.json()

{'context': {'0': {'insee_id': 7344780,
   'source': 'https://www.insee.fr/fr/statistiques/7344780',
   'start_index': 19535,
   'title': 'Le Gers, un département rural sous forte influence toulousaine à l’est',
   'content': '. (2) «Le Lot, un département rural dynamisé par l’industrie et le tourisme», Insee Analyses Occitanie no132, avril 2023. (3) «La Lozère, des atouts pour résister aux crises», Insee Analyses Occitanie no131, avril 2023. (4) «Les dynamiques démographiques dans les départements d’Occitanie», Insee Dossier Occitanie no17, janvier 2023. (5) «L’Occitanie, première région française pour le nombre de résidences secondaires», Insee Analyses Occitanie no107, juillet 2021. (6) «Un habitant sur deux potentiellement exposé à de fortes chaleurs à répétition dans les prochaines années», Insee Analyses Occitanie no92, février 2020. (7) Résultats du recensement agricole 2020.'},
  '1': {'insee_id': 6522575,
   'source': 'https://www.insee.fr/fr/statistiques/6522575',
   'start_i