![LangChain](img/langchain.jpeg)

Les syst√®mes **RAG (Retrieval-Augmented Generation)** dans LangChain permettent aux mod√®les de langage de s‚Äôappuyer sur des **connaissances externes** pour produire des r√©ponses plus pr√©cises, actualis√©es et pertinentes.

Contrairement √† un simple LLM qui g√©n√®re une r√©ponse uniquement √† partir de ce qu‚Äôil a appris pendant son entra√Ænement, un syst√®me RAG interroge une base de documents pour retrouver des morceaux d‚Äôinformation pertinents ‚Äì appel√©s **chunks** ‚Äì et les injecte dans le prompt du LLM.

![RAG](img/rag.jpeg)

**Que montre le sch√©ma ci-dessus ?**

Le processus se divise en **deux grandes phases** : **pr√©paration des documents** et **traitement des requ√™tes**.

**Pr√©paration des documents (√† gauche)**
- (1) Un fichier (document source) est divis√© en **chunks**, c‚Äôest-√†-dire en petits segments de texte.
- (2) Chaque chunk est pass√© dans un LLM Embedder, un encodeur qui transforme le texte en un vecteur num√©rique (**embeddings**).
- (3) Ces vecteurs sont ensuite stock√©s dans un Vector Store, une base de donn√©es sp√©cialis√©e pour les recherches par **similarit√© s√©mantique**.

**Traitement des requ√™tes (√† droite)**
- (a) Lorsqu‚Äôun utilisateur emet une requ√™te, celle-ci est √† son tour encod√©e via **le m√™me LLM Embedder** pour obtenir son vecteur.
- (b) Ce vecteur est utilis√© par le **Retriever**, qui compare la requ√™te aux vecteurs des **chunks** pour trouver les plus similaires.
- (c) Les chunks retrouv√©s sont envoy√©s au LLM, qui les utilise comme contexte pour formuler une r√©ponse.


En r√©sum√©, ce fonctionnement est illustr√© par la boucle :

> Requ√™te ‚Üí Encodage ‚Üí Recherche dans la base vectorielle ‚Üí R√©cup√©ration des chunks ‚Üí Passage au LLM ‚Üí R√©ponse contextuelle


# 1. Chargement du mod√®le LLM local
___

Dans cette section, nous chargeons un mod√®le de langage local gr√¢ce √† **Ollama**. Cela permet de travailler avec un **LLM directement sur notre machine**, sans connexion √† une API externe.

Nous utilisons ici la classe `ChatOllama` de **LangChain**, qui nous permet d‚Äôinteragir facilement avec un mod√®le comme **llama3** ainsi qu'un **mod√®le d'embeddings** d√©j√† t√©l√©charg√©s via Ollama.

In [1]:
import os
from IPython.display import display, Markdown, clear_output
from dotenv import load_dotenv
from langchain_ollama import ChatOllama, OllamaEmbeddings
from langchain_deepseek import ChatDeepSeek
from langchain_core.messages import SystemMessage, HumanMessage
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import Chroma
from langchain.chains import ConversationalRetrievalChain

# Chargement des cl√©s d'API se trouvant dans le fichier .env.  
# Ceci permet d'utiliser des mod√®les en ligne comme gpt-x, deepseek-x, etc...
load_dotenv(override=True)

model = ChatOllama(model="llama3", temperature=0)
#model = ChatDeepSeek(model="deepseek-chat", api_key=os.getenv("DEEPSEEK_API_KEY"))

# Mod√®le sp√©cialis√© pour convertir du texte en vecteurs (https://ollama.com/library/nomic-embed-text).
# Il existe d'autres mod√®les d'embeddings (comme "all-MiniLM-L6-v2", "text-embedding-ada-002", etc.) 
# avec des performances et dimensions vari√©es selon les cas d‚Äôusage (recherche s√©mantique, classification, etc.).
embedder = OllamaEmbeddings(model="nomic-embed-text")


# 2. RAG standard
___

Le **RAG standard** consiste √† :
- formuler une requ√™te explicite
- interroger une base de documents vectoris√©e
- utiliser un mod√®le LLM pour g√©n√©rer une r√©ponse √† partir des r√©sultats retrouv√©s. 
 
Ce pipeline est **efficace pour des questions ind√©pendantes, sans contexte conversationnel**.

### 2.1 Pr√©paration des documents

Nous initialisons les chemins n√©cessaires √† la pr√©paration des documents d‚Äôentr√©e.

In [5]:
# R√©cup√®re le chemin absolu du r√©pertoire courant (l√† o√π le script est ex√©cut√©)
current_dir = os.getcwd()

# Nom du fichier texte contenant les comptes rendus de r√©union
file_name = "meeting_reports.txt"

# Construit le chemin complet vers le fichier texte dans le dossier "data"
file_path = os.path.join(current_dir, "data", file_name)

# D√©finit le chemin du r√©pertoire o√π sera stock√©e la base de donn√©es vectorielle (Chroma DB)
db_dir = os.path.join(current_dir, "data", "db")

### 2.2 Initialisation du vector store

Nous v√©rifions ici si la base vectorielle existe d√©j√†.  
Si ce n‚Äôest pas le cas, le fichier source est charg√©, d√©coup√© en morceaux, enrichi de m√©tadonn√©es, puis index√© dans Chroma DB.

In [8]:
if not os.path.exists(db_dir):
    print("Initializing vector store...")

    # Chargement du fichier texte brut contenant les documents
    loader = TextLoader(file_path)
    loaded_document = loader.load()

    # D√©coupage du document en chunks de 1000 caract√®res avec un chevauchement de 0
    # - chunk_size d√©termine la taille maximale de chaque morceau (en nombre de caract√®res ici : 1000)
    # - chunk_overlap permet de conserver un chevauchement entre les morceaux pour √©viter les coupures abruptes, ici il est √† 0, donc sans recouvrement.
    # - RecursiveCharacterTextSplitter est souvent pr√©f√©r√© en pratique pour des documents textuels comme des comptes rendus, 
    #   des articles ou de la documentation technique, car il garde mieux le contexte s√©mantique.
    #   Ce splitter tente d'abord de d√©couper sur les sauts de ligne, puis sur les phrases, puis sur les mots, etc.
    # ... d'autres Text Splitter comme CharachterTextSplitter existent. √Ä approfondir si besoin
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
    chunks = text_splitter.split_documents(loaded_document)

    # Ajout de m√©tadonn√©es √† chaque chunk (utile pour le filtrage ou le suivi de provenance).
    # Ici 2 metadata sont ajout√©s mais il pourrait en y avoir plus.
    for chunk in chunks:
        chunk.metadata["source"] = file_path    # Chemin d'origine du document
        chunk.metadata["category"] = "meeting"  # Cat√©gorie de contenu (√† adapter selon les besoins)

    # Cr√©ation et persistance de la base vectorielle dans le dossier d√©fini
    db = Chroma.from_documents(chunks, embedder, persist_directory=db_dir)

    print("Vector store created !")

### 2.3 Initialisation du moteur de recherche vectorielle

Une fois la base vectorielle Chroma initialis√©e avec les embeddings, nous la transformons en **moteur de recherche (retriever)**.  
Cela permet de retrouver les documents les plus proches s√©mantiquement d‚Äôune question ou d‚Äôune requ√™te.  

In [9]:
# Chargement de la base vectorielle existante, avec liaison avec le m√™me embedder ayant servi pour cr√©er la base vectorielle
db = Chroma(persist_directory=db_dir, embedding_function=embedder)

# Conversion de la base Chroma en "retriever" pour effectuer des recherches par similarit√©
# - search_type="similarity" utilise la distance cosinus entre les vecteurs
# - "k": 3 signifie que l'on souhaite r√©cup√©rer les 3 documents les plus proches
retriever = db.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 3}
)

# üí° Il est aussi possible d‚Äôutiliser d‚Äôautres types de recherche (search_type) :
# - "mmr" (Maximal Marginal Relevance) : √©quilibre entre pertinence et diversit√© des r√©sultats
# - "similarity_score_threshold" : retourne uniquement les documents dont le score d√©passe un certain seuil
#      search_kwargs={"score_threshold": 0.8} permet par exemple de filtrer les r√©sultats peu pertinents
#
# D‚Äôautres param√®tres utiles dans search_kwargs :
# - "fetch_k" : nombre de documents √† r√©cup√©rer avant le tri final (utile avec MMR)
# - "lambda_mult" : pond√©ration entre pertinence et diversit√© dans MMR
# 
# Etc... √† approfondir si besoin

  db = Chroma(persist_directory=db_dir, embedding_function=embedder)


### 2.4 Ex√©cution d‚Äôune requ√™te de recherche

Dans cette √©tape, nous combinons la recherche vectorielle avec un LLM.  
L‚Äôobjectif est de fournir une r√©ponse pertinente √† une question, en s‚Äôappuyant uniquement sur les documents retrouv√©s dans la base vectorielle.  
Le mod√®le est guid√© par un prompt structur√© qui inclut la requ√™te initiale et les contenus des chunks pertinents.

In [10]:
# Requ√™te pos√©e par l'utilisateur
query = "Quels sont les r√©unions concernant la soci√©t√© Neolink ?"

# Recherche des chunks vectoriellement proches de la question
relevant_chunks = retriever.invoke(query)

# Optionnel : affichage manuel des chunks retrouv√©s (utile pour debug ou v√©rification)
# for i, chunk in enumerate(relevant_chunks, 1):
#     print(f"Chunk {i}:\n{chunk.page_content}\n")

# Construction du message d'entr√©e √† envoyer au mod√®le
# Nous incluons la question et le contenu des documents pour contraindre le LLM √† ne r√©pondre qu'en s'appuyant sur ces sources
input_message = (
    "Voici des documents qui vont t'aider √† r√©pondre √† la question : "
    + query
    + "\n\nDocuments pertinents : \n"
    + "\n\n".join([chunk.page_content for chunk in relevant_chunks])
    + "\n\nDonne une r√©ponse bas√©e uniquement sur les documents qui te sont fournis."
)

# Construction du message complet pour le LLM, avec un r√¥le syst√®me et un message utilisateur
messages = [
    SystemMessage(content="Tu es un assistant qui aide √† retrouver tout type d'informations interne √† une entreprise"),
    HumanMessage(content=input_message)
]

result = model.invoke(messages)

display(Markdown(result.content))

En examinant les documents, j'ai trouv√© des informations relatives aux r√©unions de la soci√©t√© Neolink.

Selon le document intitul√© "Calendrier des r√©unions 2022", il y a eu plusieurs r√©unions concernant la soci√©t√© Neolink au cours de l'ann√©e 2022. Voici quelques-unes de ces r√©unions :

* R√©union du conseil d'administration : 15 mars 2022, 10h00
* S√©ance de formation pour les nouveaux employ√©s : 22 mars 2022, 14h00
* R√©union des √©quipes de vente : 5 avril 2022, 9h30
* Assembl√©e g√©n√©rale annuelle : 12 mai 2022, 10h30
* R√©union du comit√© de direction : 26 juillet 2022, 11h00
* S√©ance de r√©troaction des employ√©s : 15 septembre 2022, 14h30

Il est possible que d'autres r√©unions aient eu lieu ou soient pr√©vues, mais ces informations sont bas√©es sur les documents fournis.

Si vous avez d'autres questions ou si vous souhaitez des informations suppl√©mentaires, n'h√©sitez pas √† me demander !

### üß© Exercice

La soci√©t√© NovTech g√®re de nombreux documents internes :
- des rapports d‚Äôincidents (panne, erreur technique, post-mortem),
- des proc√©dures op√©rationnelles (onboarding, acc√®s syst√®me, d√©ploiement‚Ä¶).

Actuellement, les √©quipes perdent du temps √† chercher les bonnes informations √† travers des fichiers √©parpill√©s.

Votre objectif est de construire un assistant bas√© sur l'architecture RAG qui permettra :
- de retrouver rapidement les proc√©dures en cas de besoin,
- de consulter les r√©solutions d‚Äôincidents similaires,
- de r√©pondre √† des questions en langage naturel en s‚Äôappuyant uniquement sur les documents internes.

Pour vous aider, vous pouvez suivre les √©tapes suivantes :
1. Chargement des documents
2. D√©coupage en chunks
3. Indexation vectorielle
4. Recherche contextuelle
5. G√©n√©ration de r√©ponse

‚ÑπÔ∏è Les documents de l'entreprise se trouve dans le dossier `data/novtech`.  
üí™üèª **Bonus** : Rendre possible un filtrage par cat√©gorie dans les recherches

#### 1. chargement des documents

In [None]:
import os
from langchain.document_loaders import TextLoader
from langchain.docstore.document import Document

def load_documents_from_folders(folders):
    all_chunks = []
    all_docs = []
    print("forlders",folders)
    print(os.listdir(folders))
    for folder in os.listdir(folders):
        path_folder = os.path.join(folders,folder)
        for file in os.listdir(path_folder):
            print(file)
            file_path = os.path.join(path_folder, file)
            print(file_path)
            if os.path.isfile(file_path):
                loader = TextLoader(file_path)
                loaded_document = loader.load()
                text_splitter = RecursiveCharacterTextSplitter(chunk_size=800, chunk_overlap=100)
                chunks = text_splitter.split_documents(loaded_document)

    # Ajout de m√©tadonn√©es √† chaque chunk (utile pour le filtrage ou le suivi de provenance).
    # Ici 2 metadata sont ajout√©s mais il pourrait en y avoir plus.
                for chunk in chunks:
                    chunk.metadata["source"] = file_path    # Chemin d'origine du document
                    chunk.metadata["category"] = folder.split("/")[-1]  # Cat√©gorie de contenu (√† adapter selon les besoins)

                all_chunks.extend(chunks)
                all_docs.extend(loaded_document)
    return all_docs

#### 2. Initialisation du db vectoriel

In [2]:
current_dir = os.getcwd()
print(current_dir)

    
folders_path = os.path.join(current_dir,"data/novtech/")


    

c:\Users\User\Desktop\LANGCHAIN_rag


In [14]:
all_loaded_docs = load_documents_from_folders(folders_path)

forlders c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/
['incidents', 'procedures']
incident_01.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_01.txt
incident_02.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_02.txt
incident_03.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_03.txt
incident_04.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_04.txt
incident_05.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_05.txt
incident_06.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_06.txt
incident_07.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_07.txt
incident_08.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_08.txt
incident_09.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_09.txt
incident_10.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_10.txt
inc

In [None]:
 
 # D√©finit le chemin du r√©pertoire o√π sera stock√©e la base de donn√©es vectorielle (Chroma DB)
db_dir_novtech = os.path.join(folders_path, "db_novtech")
# Cr√©ation et persistance de la base vectorielle dans le dossier d√©fini
db = Chroma.from_documents(all_loaded_docs, embedder, persist_directory=db_dir_novtech)

In [16]:
# Chargement de la base vectorielle existante, avec liaison avec le m√™me embedder ayant servi pour cr√©er la base vectorielle
db = Chroma(persist_directory=db_dir_novtech, embedding_function=embedder)

# Conversion de la base Chroma en "retriever" pour effectuer des recherches par similarit√©
# - search_type="similarity" utilise la distance cosinus entre les vecteurs
# - "k": 3 signifie que l'on souhaite r√©cup√©rer les 3 documents les plus proches
retriever = db.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 3}
)

  db = Chroma(persist_directory=db_dir_novtech, embedding_function=embedder)


#### 3 Ex√©cution d‚Äôune requ√™te de recherche

In [17]:
# Votre code ici

# Requ√™te pos√©e par l'utilisateur
query = "Quels sont les incidents concernant le service billing ?"

# Recherche des chunks vectoriellement proches de la question
relevant_chunks = retriever.invoke(query)

# Optionnel : affichage manuel des chunks retrouv√©s (utile pour debug ou v√©rification)
for i, chunk in enumerate(relevant_chunks, 1):
     print(f"Chunk {i}:\n{chunk.page_content}\n")

# Construction du message d'entr√©e √† envoyer au mod√®le
# Nous incluons la question et le contenu des documents pour contraindre le LLM √† ne r√©pondre qu'en s'appuyant sur ces sources
input_message = (
    "Voici des documents qui vont t'aider √† r√©pondre √† la question : "
    + query
    + "\n\nDocuments pertinents : \n"
    + "\n\n".join([chunk.page_content for chunk in relevant_chunks])
    + "\n\nDonne une r√©ponse bas√©e uniquement sur les documents qui te sont fournis."
)

# Construction du message complet pour le LLM, avec un r√¥le syst√®me et un message utilisateur
messages = [
    SystemMessage(content="Tu es un assistant qui aide √† retrouver tout type d'informations interne √† une entreprise"),
    HumanMessage(content=input_message)
]

result = model.invoke(messages)

display(Markdown(result.content))

Selon les rapports d'incident, il y a eu trois incidents concernant le service billing :

* Incident #35 : erreur d√©tect√©e sur service billing, dur√©e 29 minutes, action corrective : red√©marrage du service et ajout de monitoring sp√©cifique.
* Incident #30 : erreur d√©tect√©e sur service billing, dur√©e 39 minutes, action corrective : red√©marrage du service et ajout de monitoring sp√©cifique.
* Incident #37 : erreur d√©tect√©e sur service billing, dur√©e 36 minutes, action corrective : red√©marrage du service et ajout de monitoring sp√©cifique.

En r√©sum√©, il y a eu trois incidents concernant le service billing entre le 31 janvier 2024 et le 7 f√©vrier 2024.

# 3. RAG conversationnel
___

Dans un cadre d‚Äô**interaction continue**, les utilisateurs posent souvent des questions implicites ou r√©f√©rentielles (ex. ‚ÄúEt lui ?‚Äù). Le **RAG conversationnel** ajoute une √©tape cl√© : la **reformulation de la question en prenant en compte l‚Äôhistorique du dialogue**.  

Cette version de RAG permet de maintenir la pertinence des recherches dans la base vectorielle tout en conservant la fluidit√© de la conversation, ce qui la rend adapt√©e aux assistants IA ou aux chatbots avanc√©s.

**Exemple**

Historique de la conversation :
- Utilisateur : *Qui est le CEO de Tesla ?*
- IA : *Elon Musk est le CEO de Tesla*.
- Utilisateur : *Et de SpaceX ?*

‚û°Ô∏è La question ‚ÄúEt de SpaceX ?‚Äù est ambigu√´ seule. Le moteur de recherche (retriever) ne sait pas de quoi il s‚Äôagit exactement.

Avec une reformulation de la question de l'utilisateur cela donnerait : ‚ÄúQui est le CEO de SpaceX ?‚Äù

‚û°Ô∏è R√©sultat : la requ√™te est claire, et la recherche dans la base vectorielle peut retourner les bons documents.

**üëç LangChain facilite ce processus**

LangChain fournit une abstraction pr√™te √† l‚Äôemploi gr√¢ce √† la classe `ConversationalRetrievalChain`.
Cette classe prend automatiquement en charge :
- la reformulation de la question via le LLM
- la recherche dans la base vectorielle
- la g√©n√©ration de la r√©ponse finale √† partir des documents r√©cup√©r√©s et de l‚Äôhistorique

‚û°Ô∏è Elle encapsule ainsi toute la logique conversationnelle d‚Äôun RAG en une seule ligne.

In [8]:
# Cha√Æne RAG avec historique
qa_chain = ConversationalRetrievalChain.from_llm(llm=model, retriever=db.as_retriever())

# Boucle de chat
chat_history = []
while True:
    user_input = input("You: ")
    clear_output(wait=True)                         # Efface l'affichage pr√©c√©dent
    display(Markdown(f"**Vous :** {user_input}"))   # Affiche la requ√™te de l'utilisateur

    if user_input.lower() in ["stop", "exit", "quit"]:
        print("Fin de la conversation.")
        break

    result = qa_chain({"question": user_input, "chat_history": chat_history})
    display(Markdown(result["answer"]))
    chat_history.append((user_input, result["answer"]))

**Vous :** quit

Fin de la conversation.


### üß© Exercice

Repartez de l'exercice pr√©c√©dent (NovTech), et impl√©mentez un assistant de conversation continue.

In [19]:
# Cha√Æne RAG avec historique
qa_chain_novtech = ConversationalRetrievalChain.from_llm(llm=model, retriever=db.as_retriever())

# Boucle de chat
chat_history = []
while True:
    user_input = input("You: ")
    #clear_output(wait=True)                         # Efface l'affichage pr√©c√©dent
    display(Markdown(f"**Vous :** {user_input}"))   # Affiche la requ√™te de l'utilisateur

    if user_input.lower() in ["stop", "exit", "quit"]:
        print("Fin de la conversation.")
        break

    result = qa_chain_novtech.invoke({"question": user_input, "chat_history": chat_history})
    display(Markdown(result["answer"]))
    chat_history.append((user_input, result["answer"]))

**Vous :** quelles sont les proc√©dures pour traiter les incidents du service billing

According to the provided incident reports, the procedures for treating incidents on the service billing are:

1. Red√©marrage du service (Restarting the service)
2. Ajout de monitoring sp√©cifique (Adding specific monitoring)

These two steps are mentioned as the corrective actions taken in all four incident reports (#30, #35, #37, and #45).

**Vous :** stop

Fin de la conversation.


4. Graph DB (Neo4j)

In [1]:
!pip install neo4j

Collecting neo4j
  Downloading neo4j-5.28.1-py3-none-any.whl (312 kB)
Collecting pytz
  Using cached pytz-2025.2-py2.py3-none-any.whl (509 kB)
Installing collected packages: pytz, neo4j
Successfully installed neo4j-5.28.1 pytz-2025.2


In [20]:
from langchain_community.graphs import Neo4jGraph
from langchain_community.chat_models import ChatOllama
from langchain.chains import GraphQAChain
from langchain.prompts import PromptTemplate

# 1. Connexion √† Neo4j
graph = Neo4jGraph(
    url="bolt://localhost:7687",
    username="neo4j",
    password="test1234"
)

# 2. Initialisation du LLM local via Ollama
llm = ChatOllama(model="llama3")  # ou mistral, gemma, etc.

# 3. Texte brut √† injecter
text = """
Albert Einstein √©tait un physicien th√©oricien. Il a d√©velopp√© la th√©orie de la relativit√©. 
Il a re√ßu le prix Nobel de physique en 1921. Il est n√© en Allemagne.
"""

# 4. Prompt d‚Äôextraction d'entit√©s et de relations
extraction_prompt = PromptTemplate.from_template("""
Tu es un assistant qui extrait des faits sous forme de triplets (sujet, relation, objet).
Relation doit √™tre un seul mot ou plusieurs mots s√©par√©s par _.
Voici un texte :

{text}

Donne-moi uniquement des triplets dans ce format :
(Sujet)-[Relation]->(Objet)

Relation doit √™tre un seul mot ou plusieurs mots en anglais s√©par√©s par underscore (_).

Inclue les relations suivantes si elles apparaissent :
- received (pour les prix, r√©compenses)
- received_in_year (pour l'ann√©e o√π un prix a √©t√© re√ßu)
- was_born (lieu de naissance)

Exemples :
(Albert Einstein)-[developed]->(th√©orie de la relativit√©)
(Albert Einstein)-[was_born]->(Allemagne)
(Albert Einstein)-[received]->(prix_Nobel_de_physique)
(Albert Einstein)-[received_in_year]->(1921)
""")

# 5. G√©n√©ration des triplets √† partir du texte
triplet_prompt = extraction_prompt.format(text=text)
response = llm.invoke(triplet_prompt)
print("üîç Triplets g√©n√©r√©s par le LLM :\n", response.content)

# 6. Parser les triplets g√©n√©r√©s (tr√®s basique ici, √† affiner)
lines = response.content.strip().split("\n")
triplets = []
for line in lines:
    if "(" in line and ")-[" in line and "]->(" in line:
        try:
            subj = line.split(")-[")[0].replace("(", "").strip()
            rel = line.split(")-[")[1].split("]->")[0].strip()
            obj = line.split("]->(")[1].replace(")", "").strip()
            triplets.append((subj, rel, obj))
        except Exception as e:
            print(f"‚õî Erreur de parsing : {e} sur la ligne : {line}")

# Suppression compl√®te
graph.query("MATCH (n) DETACH DELETE n")
# 7. Insertion dans Neo4j avec params s√©curis√©s et relation nettoy√©e
for subj, rel, obj in triplets:
    clean_rel = rel.upper().replace(" ", "_").replace("-", "_")
    cypher = (
        "MERGE (a:Entity {name: $subj}) "
        "MERGE (b:Entity {name: $obj}) "
        f"MERGE (a)-[:{clean_rel}]->(b)"
    )
    graph.query(cypher, params={"subj": subj, "obj": obj})

print("‚úÖ Triplets ins√©r√©s dans Neo4j.")
for subj, rel, obj in triplets:
    print(f"({subj}) -[{rel}]-> ({obj})")

# 8. Question sur le graphe : GraphQAChain NE SUPPORTE PAS Neo4jGraph directement.
# On commente cette partie car √ßa provoque une erreur de type.
# qa_chain = GraphQAChain.from_llm(llm=llm, graph=graph, verbose=True)
# question = "Quel prix Albert Einstein a-t-il re√ßu et en quelle ann√©e ?"
# answer = qa_chain.run(question)
# print("\nüì¢ R√©ponse :", answer)

# 9. Exemple d‚Äôinterrogation Cypher directe avec Neo4j via graph.query()
query = """
MATCH (a:Entity)-[r]->(b:Entity)
WHERE a.name = "Albert Einstein" AND type(r) = "RECEIVED"
RETURN b.name AS prix
"""

results = graph.query(query)
print("\nüìä R√©sultat de la requ√™te Cypher :")
for record in results:
    print(record)


üîç Triplets g√©n√©r√©s par le LLM :
 Voici les triplets extraites du texte :

* (Albert Einstein)-[was]->(physicien th√©oricien)
* (Albert Einstein)-[developed]->(th√©orie de la relativit√©)
* (Albert Einstein)-[received]->(prix_Nobel_de_physique)
* (Albert Einstein)-[received_in_year]->(1921)
* (Albert Einstein)-[was_born]->(Allemagne)
‚úÖ Triplets ins√©r√©s dans Neo4j.
(* Albert Einstein) -[was]-> (physicien th√©oricien)
(* Albert Einstein) -[developed]-> (th√©orie de la relativit√©)
(* Albert Einstein) -[received]-> (prix_Nobel_de_physique)
(* Albert Einstein) -[received_in_year]-> (1921)
(* Albert Einstein) -[was_born]-> (Allemagne)

üìä R√©sultat de la requ√™te Cypher :


In [15]:
!pip install networkx

Collecting networkx
  Downloading networkx-3.4.2-py3-none-any.whl (1.7 MB)
Installing collected packages: networkx
Successfully installed networkx-3.4.2


In [18]:
import networkx as nx
from langchain_community.graphs import NetworkxEntityGraph


# Exemple de triplets extraits (sujet, relation, objet)
triplets = [
    ("Albert Einstein", "developed", "th√©orie de la relativit√©"),
    ("Albert Einstein", "was_born", "Allemagne"),
    ("Albert Einstein", "received", "prix Nobel de physique en 1921"),
]

# Cr√©ation d'un graphe orient√©
G = nx.MultiDiGraph()



# Ajout des triplets dans le graphe NetworkX
for subj, rel, obj in triplets:
    G.add_node(subj)
    G.add_node(obj)
    G.add_edge(subj, obj, label=rel)
# G est ton MultiDiGraph avec les triplets
nx_graph = NetworkxEntityGraph(G)
print("‚úÖ Graphe NetworkX cr√©√© avec les triplets.")


‚úÖ Graphe NetworkX cr√©√© avec les triplets.


In [19]:
from langchain.chains import GraphQAChain
from langchain_community.chat_models import ChatOllama

# Initialiser le LLM (local via Ollama, ou autre)
llm = ChatOllama(model="llama3")

# Cr√©er la cha√Æne GraphQAChain √† partir du LLM et du graphe NetworkX
qa_chain = GraphQAChain.from_llm(llm=llm, graph=nx_graph, verbose=True)


# Poser une question
question = "Quel prix Albert Einstein a-t-il re√ßu et en quelle ann√©e ?"
answer = qa_chain.invoke(question)

print("\nüì¢ R√©ponse :", answer)


  answer = qa_chain.run(question)




[1m> Entering new GraphQAChain chain...[0m
Entities Extracted:
[32;1m[1;3mEinstein, Albert[0m
Full Context:
[32;1m[1;3m[0m

[1m> Finished chain.[0m

üì¢ R√©ponse : I don't have this information, so I'll just say "I don't know".
