# Projets Retrieval-Augmented Generation (RAG)

## Chatbot pour FAQ pour une entreprise de gestion des fonds immobiliers

In [6]:
! pip install langchain
! pip install openai
! pip install -U langchain-community
! pip install yt_dlp
! pip install pydub
! pip install chromadb
! pip install pypdf
! pip install tiktoken
! pip install pypdf



In [None]:
#!conda install -c conda-forge langchain

In [None]:
import os
from langchain.chat_models import ChatOpenAI

# Définir la clé API OpenAI
os.environ["OPENAI_API_KEY"] = "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"

# Initialiser le modèle GPT-4 
llm = ChatOpenAI(model_name="gpt-4", temperature=0)


### 1. Chargement des documents FAQ

In [None]:
# documents internes qui serviront de base pour la FAQ. Ces documents peuvent inclure des informations sur les investissements immobiliers, la gestion des fonds, les procédures, 
# les politiques

In [10]:
from langchain.document_loaders import PyPDFLoader


Document_information_clés = PyPDFLoader("DIC-IR-062024-FR-1-1542.pdf")
Fiche_produit = PyPDFLoader("FP-IR-032025-FR-2-2056.pdf")
pages_DIC = Document_information_clés.load()
pages_FP = Fiche_produit.load()

In [11]:
DIC = pages_DIC[0]
print(DIC.page_content[0:500])

sofidy.com | ÉPARGNE | INVESTISSEMENT | GESTION IMMOBILIÈRE | FUND MANAGEMENT | GESTION PRIVÉE | FINANCEMENT
IMMORENTE
Visa AMF n°20-20 du 27 novembre 2020 - Initiateur du PRIIPS : Sofidy (www.sofidy.com) - Contact : sofidy@sofidy.com / Appeler le 01 69 87 02 00  
pour de plus amples informations - L’ Autorité des marchés financiers (AMF) est chargée du contrôle de Sofidy en ce qui concerne ce document d’informations clés 
Sofidy est agréée en France sous le n°GP-07000042 et réglementée par l’AM


In [13]:
DIC.metadata

{'producer': 'Adobe PDF Library 17.0',
 'creator': 'Adobe InDesign 19.4 (Macintosh)',
 'creationdate': '2024-07-02T12:07:16+02:00',
 'moddate': '2024-07-02T12:07:18+02:00',
 'trapped': '/False',
 'source': 'DIC-IR-062024-FR-1-1542.pdf',
 'total_pages': 3,
 'page': 0,
 'page_label': '1'}

In [14]:
FP = pages_FP[0]
print(FP.page_content[0:500])

Nature juridique : Société Civile de Placement 
Immobilier
Typologie : SCPI de rendement
Thématique :  SCPI diversifiée
Capital :  Variable
Date de création :  1988
Périodicité des 
distributions potentielles 
de revenus : 
Trimestrielle
Prix de 
souscription : 340 €
Minimum 
de souscription :
• Pour les nouveaux associés : 
4 parts
• Pour les associés actuels : 
1 part
Horizon de 
placement : 8 ans
Délai de  
jouissance :
1er jour du troisième mois suivant la date 
d’encaissement de la souscrip


In [15]:
FP.metadata

{'producer': 'Adobe PDF Library 17.0',
 'creator': 'Adobe InDesign 20.1 (Macintosh)',
 'creationdate': '2025-03-05T15:05:06+01:00',
 'moddate': '2025-03-05T15:05:06+01:00',
 'trapped': '/False',
 'source': 'FP-IR-032025-FR-2-2056.pdf',
 'total_pages': 2,
 'page': 0,
 'page_label': '1'}

### 2. Fractionnement des documents (Document Splitting)

In [16]:
from langchain.text_splitter import CharacterTextSplitter, RecursiveCharacterTextSplitter

# Extraction du texte du document DIC
text_DIC = DIC.page_content   


r_splitter = RecursiveCharacterTextSplitter(
    chunk_size=450,
    chunk_overlap=0, 
    separators=["\n\n", "\n", " ", ""]
)

# Appliquer le fractionnement
r_splitter.split_text(text_DIC)

['sofidy.com | ÉPARGNE | INVESTISSEMENT | GESTION IMMOBILIÈRE | FUND MANAGEMENT | GESTION PRIVÉE | FINANCEMENT\nIMMORENTE\nVisa AMF n°20-20 du 27 novembre 2020 - Initiateur du PRIIPS : Sofidy (www.sofidy.com) - Contact : sofidy@sofidy.com / Appeler le 01 69 87 02 00  \npour de plus amples informations - L’ Autorité des marchés financiers (AMF) est chargée du contrôle de Sofidy en ce qui concerne ce document d’informations clés',
 'Sofidy est agréée en France sous le n°GP-07000042 et réglementée par l’AMF - Groupe d’appartenance : Tikehau Capital  \nDate de production du document d’informations clés : 10 juillet 2024\nLe présent document contient des informations essentielles sur le produit d’investissement. Il ne s’agit pas d’un document à caractère commercial.',
 'Ces informations sont fournies conformément à une obligation légale, afin de vous aider à comprendre en quoi consiste ce produit et quels risques, coûts,  \ngains et pertes potentiels y sont associés, et de vous aider à le c

### 3. Vectorstores and Embeddings

In [None]:
# embeddings pour convertir le texte des FAQ en vecteurs, ce qui permettra d'effectuer des recherches basées sur la similarité.

In [None]:
!pip install faiss-cpu

In [None]:
!pip install tf-keras


In [17]:
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
import faiss
import numpy as np

# Créer un modèle d'embedding avec HuggingFace
embedding_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")

# Embedding des documents
doc_texts = [doc.page_content for doc in chunked_documents]
embeddings = [embedding_model.embed_query(text) for text in doc_texts]

# Initialisation de l'index FAISS
dimension = len(embeddings[0])  # Dimension des embeddings
index = faiss.IndexFlatL2(dimension)  # Utilisation de la distance Euclidienne
index.add(np.array(embeddings))

# Créer un vector store FAISS
docstore = FAISS(embedding_function=embedding_model, index=index, docstore=dict(enumerate(chunked_documents)))


  embedding_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")


NameError: name 'chunked_documents' is not defined

### 4. Créer le modèle RAG (Retrieval-Augmented Generation)

In [None]:
# intégrer un modèle de génération de texte comme GPT-2 qui générera des réponses basées sur les documents récupérés.

In [18]:
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA

# Charger le modèle GPT-4 via OpenAI API
llm = ChatOpenAI(model_name="gpt-4", temperature=0)  # GPT-4 pour des réponses précises

# Créer un 'retriever' pour récupérer les documents les plus pertinents
retriever = docstore.as_retriever(search_type="similarity", search_kwargs={"k": 2})

# Créer la chaîne RetrievalQA avec le modèle GPT-4 et le retriever
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",  # Tous les documents récupérés sont envoyés au modèle
    retriever=retriever,
    return_source_documents=True
)

  llm = ChatOpenAI(model_name="gpt-4", temperature=0)  # GPT-4 pour des réponses précises


ValidationError: 1 validation error for ChatOpenAI
  Value error, Did not find openai_api_key, please add an environment variable `OPENAI_API_KEY` which contains it, or pass `openai_api_key` as a named parameter. [type=value_error, input_value={'model_name': 'gpt-4', '...ne, 'http_client': None}, input_type=dict]
    For further information visit https://errors.pydantic.dev/2.10/v/value_error

### 5. Ajouter un système de feedback utilisateur

In [None]:
# Pour améliorer le modèle au fil du temps, un système de feedback permet aux utilisateurs de valider ou d'améliorer les réponses générées. 
# Cela pourrait impliquer de stocker des réponses et de les annoter

In [None]:
# Un dictionnaire pour stocker les retours utilisateurs
feedback_store = {}

def collect_feedback(question, response, feedback):
    feedback_store[question] = {"response": response, "feedback": feedback}
    print("Feedback enregistré :", feedback_store)

# Exemple de collecte de feedback
collect_feedback("Quels sont les frais de souscription ?", "10% HT", "Correct")


 ### 6. Streamlit (Chat)

In [None]:
# Streamlit sera utilisé pour créer une interface où les utilisateurs peuvent poser des questions et obtenir des réponses en temps réel.

In [None]:
import streamlit as st

# Fonction pour interroger le modèle et afficher les réponses
def display_chat():
    st.title("Chatbot FAQ - Gestion des Fonds Immobiliers")
    
    # Entrée utilisateur
    user_question = st.text_input("Posez votre question :")
    
    if user_question:
        # Obtenir la réponse à partir du modèle RAG
        response = qa_chain({"query": user_question})
        
        # Afficher la réponse
        st.write("Réponse :", response['result'])
        
        # Collecter le feedback utilisateur
        feedback = st.radio("Feedback", ["Correct", "Incorrect"])
        
        # Enregistrer le feedback
        if st.button("Envoyer le feedback"):
            collect_feedback(user_question, response['result'], feedback)

# Lancer l'interface Streamlit
if __name__ == '__main__':
    display_chat()


### 7. Amélioration avec l'ajout dynamique de FAQ

In [None]:
# Un autre module permettra l'ajout de nouvelles FAQ à la base de données. 
# Cela pourrait être intégré dans une interface d'administration où de nouvelles questions et réponses peuvent être ajoutées au fil du temps.

In [None]:
def add_new_faq(new_question, new_answer):
    new_doc = Document(page_content=new_answer)
    documents.append(new_doc)
    
    # Réindexer les nouveaux documents
    chunked_documents = text_splitter.split_documents(documents)
    doc_texts = [doc.page_content for doc in chunked_documents]
    embeddings = [embedding_model.embed_query(text) for text in doc_texts]
    index.add(np.array(embeddings))
    
    # Réinitialiser le vector store
    docstore = FAISS(embedding_function=embedding_model, index=index, docstore=dict(enumerate(chunked_documents)))
    print("Nouvelle FAQ ajoutée et base mise à jour.")
