# Chatbot et RAG

üéØ L'objectif de ce notebook est de cr√©er un chatbot bas√© sur du RAG "simple".Les documents vectoris√©s sont en effet de type pdf, sans images ni tableau, et n'int√®gre aucun sommaire.

## 1- Documents loader

Cette premi√®re √©tape consiste √† constituer une base documentaire sur laquelle entrainer notre mod√®le d'IA.
Dans le cas pr√©sent, nous avons utilis√© un extrait du rapport climat 2024 sur la construction bas carbone.

In [None]:
# on installe les packages n√©cessaires (outils) au projet

!pip install pypdf
!pip install langchain_community

In [21]:
# on utilise un loader (diff√©rent selon le type de fichier / le type de contenu √† analyser) pour charger les documents

from langchain_community.document_loaders import PyPDFLoader
loader = PyPDFLoader("../src/Conception et construction bas carbone.pdf")
data = loader.load()
content=data[0]

print(content)

page_content='Conception et construction bas carbone Mat√©riaux bas carbone Le bois, solution de 
stockage carbone dans les constructions Les solutions pr√©fabriqu√©es de Savare, filiale 
sp√©cialis√©e dans la construction bois, sont d√©ploy√©es dans plusieurs projets en cours, 
comme le nouveau b√¢timent tertiaire du CHU de Rennes (Ille-et-Vilaine). In‚ÄôCube, le centre 
de recherche et d‚Äôinnovation de Danone, tr√®s ambitieux du fait de ses innovations 
environnementales, a √©t√© inaugur√© √† Gif-sur-Yvette (Essonne) en 2023. Eiffage Construction 
a eu no- ___ _La branche Construction a mis en place en 2023 une action intitul√©e ¬´ une 
variante bas carbone par offre d√©pos√©e ¬ª pour les appels d‚Äôoffres sup√©rieurs √† 5 millions 
d‚Äôeuros. Les variantes bas carbone seront syst√©matis√©es dans toutes les offres d√®s cette 
ann√©e. tamment recours au bois, utilis√© en √©l√©ment structurel et dans l‚Äôassemblage des 
planchers. Compact, √©quip√© de stores ext√©rieurs et de panneaux

#2- Splitting

Cette seconde √©tape consiste √† d√©couper le texte (nomm√©es "chunk") en petites parties de textes allant pouvoir √™tre vectoris√©es (trait√©es) et utilis√©es par un mod√®le d'IA (et notamment un LLM).

In [22]:
# il existe diff√©rentes strat√©gies de splitter. nous en utiliserons une appel√©e "RecursuveCharacterTextSplitter"
# on d√©finit 2 param√®tres chunk_size pour la taille des chunks et l'overlap correspondant aux mots en commun entre 2 chunks

from langchain.schema import Document

chunk_size=1000
chunk_overlap=200

from langchain_text_splitters import RecursiveCharacterTextSplitter
rc_splitter = RecursiveCharacterTextSplitter(
    separators=["\n\n","\n"," ",""],
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap)

chunks = rc_splitter.split_text(content.page_content)

docs= [Document(page_content=chunk) for chunk in chunks] # note mme - besoin de convertir les chunks qui sont des string en docs avec page_content et meta donn√©es

In [23]:
print(f"Nombre de chunks : {len(docs)}")

Nombre de chunks : 6


#3- Storage et retrieval

Cette troisi√®me √©tape consiste √† vectoriser les chunks pr√©c√©demment cr√©es et les stocker dans une base de donn√©es vectorielle. On utilise pour faire cela des embeddings (r√©seaux de neurones) et on d√©finit un retriever allant comparer selon une m√©thode donn√©e (dans notre cas nous utiliserons la similarit√©) les informations entrantes (input, la question) et la r√©ponse √† donner (output, issu de notre base documentaire).

In [None]:
!pip install langchain_openai
!pip install langchain_chroma

In [11]:
"""
# depuis collab 
from google.colab import userdata
api_key=userdata.get('OPENAI_API_KEY')
"""

"from google.colab import userdata\napi_key=userdata.get('OPENAI_API_KEY')"

In [12]:
""" 
# depuis visual code
""" 

import os
import openai

api_key = os.getenv("OPENAI_API_KEY")

if api_key:
    print("Cl√© API r√©cup√©r√©e avec succ√®s !")
else:
    print("Erreur : La cl√© API n'a pas √©t√© trouv√©e.")

from openai import OpenAI
openai.api_key = api_key


Cl√© API r√©cup√©r√©e avec succ√®s !


### 3.1 - Initialisation de la base de donn√©es vectorielles

In [25]:
from langchain_openai import OpenAIEmbeddings
from langchain_chroma import Chroma

embedding_function = OpenAIEmbeddings(api_key=api_key, model='text-embedding-3-small')

vectorstore = Chroma.from_documents(docs,embedding=embedding_function, persist_directory="./chroma_db") 

# cr√©ation d'un repertoire persitent pour le streamlit
# Deprecated since version langchain-community==0.1.17: Since Chroma 0.4.x the manual persistence method is no longer supported as 
# # docs are automatically persisted.

retriever = vectorstore.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 2}
    )


### 3.2 - Construction d'un prompt template

In [None]:
!pip install langchain
!pip install openai

In [26]:
from langchain.prompts import ChatPromptTemplate, HumanMessagePromptTemplate, SystemMessagePromptTemplate

prompt_template = ChatPromptTemplate.from_messages([
    SystemMessagePromptTemplate.from_template("Tu es un assistant serviable. Consigne pour tes r√©ponses : {guidelines}"),
    HumanMessagePromptTemplate.from_template("{copy}")
])

In [27]:
from langchain.chains.conversation.memory import ConversationBufferWindowMemory

memory = ConversationBufferWindowMemory(k=5, return_messages=True)

In [28]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4", api_key=api_key)

In [29]:
from langchain.chains import ConversationChain #ConversationChain ne fonctionne pas avec un retriever - passer sur un RetrievalQA
from langchain.chains import RetrievalQA

rag_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    chain_type="stuff",
    memory=memory,
    return_source_documents=False, # je n'arrive pas √† faire fonctionner les souces_documents
    output_key="result"  # n√©cessaire pour indiquer que l'on souhaite avoir uniquement ce r√©sultat en m√©moire -- beug sinon
)

### 3.3 - Utilisation de la chaine

In [None]:
# essai sans memoire avec chaine simple - √† ne pas relancer
response = rag_chain.invoke("Qu'est ce que CARL ? ") # OK
print(response.content)

D'apr√®s les documents fournis, CARL est une interface num√©rique utilis√©e dans les m√©tiers de la route depuis 2021. Cependant, les documents ne fournissent pas plus de d√©tails sur les fonctionnalit√©s ou l'usage pr√©cis de cette interface.


In [None]:
# essai sans memoire avec chaine simple - √† ne pas relancer
response = rag_chain.invoke("Qu'est ce que  Nooco ? ") # NOK
print(response.content)

Je suis d√©sol√©, mais les documents fournis ne donnent pas d'informations pr√©cises sur ce qu'est Nooco. Il serait peut-√™tre utile de rechercher des informations suppl√©mentaires pour obtenir une r√©ponse pr√©cise √† cette question.


In [None]:
# essai sans memoire avec chaine simple - √† ne pas relancer
response = rag_chain.invoke("Qui travaille avec Logetex Carbone ? ") # OK
print(response.content)

La branche Construction travaille avec la solution Logetex Carbone.


In [30]:
# essai avec memoire avec RetrievalQA - √† lancer
response = rag_chain({"query": "Quel type d'isolant √† utiliser Eiffage sur le Village des Athl√®tes ??"})
result = response["result"]

print("R√©sultat:", result)


R√©sultat: Eiffage Construction a utilis√© des isolants biosourc√©s √† grande √©chelle sur le chantier du Village des athl√®tes. Plus pr√©cis√©ment, des fa√ßades √† ossature bois ont √©t√© isol√©es avec de la laine de bois.


In [20]:
# essai avec memoire avec RetrievalQA - √† lancer -- v√©rification de la m√©moire
response_2 = rag_chain({"query":"Peux-tu rappeler ce que nous venons de dire ?"})
print(response_2)

{'query': 'Peux-tu rappeler ce que nous venons de dire ?', 'history': [HumanMessage(content="Quel type d'isolant √† utiliser Eiffage sur le Village des Athl√®tes ??", additional_kwargs={}, response_metadata={}), AIMessage(content='Eiffage a utilis√© des isolants biosourc√©s pour le Village des athl√®tes, plus pr√©cis√©ment de la laine de bois.', additional_kwargs={}, response_metadata={})], 'result': "Le rapport climat Eiffage 2024 mentionne plusieurs initiatives pour r√©duire les √©missions de carbone. Nov√©, une coentreprise entre Eiffage et Arcade-VYV, a commenc√© la r√©novation du parc de logements du minist√®re des Arm√©es en janvier 2023. Eiffage va exp√©rimenter la m√©thodologie R√©emploi en r√©novation du label bas carbone, qui favorise l'utilisation de mat√©riaux biosourc√©s et le r√©emploi dans les projets de r√©novation, et qui g√©n√®re des cr√©dits carbone. Cette exp√©rimentation est financ√©e par Icade, en collaboration avec la Coop√©rative Carbone, le minist√®re de la Tra

# 4 - Cr√©ation de l'interface

Voir app.py pour l interface streamlit