![LangChain](img/langchain.jpeg)

Les systèmes **RAG (Retrieval-Augmented Generation)** dans LangChain permettent aux modèles de langage de s’appuyer sur des **connaissances externes** pour produire des réponses plus précises, actualisées et pertinentes.

Contrairement à un simple LLM qui génère une réponse uniquement à partir de ce qu’il a appris pendant son entraînement, un système RAG interroge une base de documents pour retrouver des morceaux d’information pertinents – appelés **chunks** – et les injecte dans le prompt du LLM.

![RAG](img/rag.jpeg)

**Que montre le schéma ci-dessus ?**

Le processus se divise en **deux grandes phases** : **préparation des documents** et **traitement des requêtes**.

**Préparation des documents (à gauche)**
- (1) Un fichier (document source) est divisé en **chunks**, c’est-à-dire en petits segments de texte.
- (2) Chaque chunk est passé dans un LLM Embedder, un encodeur qui transforme le texte en un vecteur numérique (**embeddings**).
- (3) Ces vecteurs sont ensuite stockés dans un Vector Store, une base de données spécialisée pour les recherches par **similarité sémantique**.

**Traitement des requêtes (à droite)**
- (a) Lorsqu’un utilisateur emet une requête, celle-ci est à son tour encodée via **le même LLM Embedder** pour obtenir son vecteur.
- (b) Ce vecteur est utilisé par le **Retriever**, qui compare la requête aux vecteurs des **chunks** pour trouver les plus similaires.
- (c) Les chunks retrouvés sont envoyés au LLM, qui les utilise comme contexte pour formuler une réponse.


En résumé, ce fonctionnement est illustré par la boucle :

> Requête → Encodage → Recherche dans la base vectorielle → Récupération des chunks → Passage au LLM → Réponse contextuelle


# 1. Chargement du modèle LLM local
___

Dans cette section, nous chargeons un modèle de langage local grâce à **Ollama**. Cela permet de travailler avec un **LLM directement sur notre machine**, sans connexion à une API externe.

Nous utilisons ici la classe `ChatOllama` de **LangChain**, qui nous permet d’interagir facilement avec un modèle comme **llama3** ainsi qu'un **modèle d'embeddings** déjà téléchargés via Ollama.

In [1]:
import os
from IPython.display import display, Markdown, clear_output
from dotenv import load_dotenv
from langchain_ollama import ChatOllama, OllamaEmbeddings
from langchain_deepseek import ChatDeepSeek
from langchain_core.messages import SystemMessage, HumanMessage
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import Chroma
from langchain.chains import ConversationalRetrievalChain

# Chargement des clés d'API se trouvant dans le fichier .env.  
# Ceci permet d'utiliser des modèles en ligne comme gpt-x, deepseek-x, etc...
load_dotenv(override=True)

model = ChatOllama(model="llama3", temperature=0)
#model = ChatDeepSeek(model="deepseek-chat", api_key=os.getenv("DEEPSEEK_API_KEY"))

# Modèle spécialisé pour convertir du texte en vecteurs (https://ollama.com/library/nomic-embed-text).
# Il existe d'autres modèles d'embeddings (comme "all-MiniLM-L6-v2", "text-embedding-ada-002", etc.) 
# avec des performances et dimensions variées selon les cas d’usage (recherche sémantique, classification, etc.).
embedder = OllamaEmbeddings(model="nomic-embed-text")


# 2. RAG standard
___

Le **RAG standard** consiste à :
- formuler une requête explicite
- interroger une base de documents vectorisée
- utiliser un modèle LLM pour générer une réponse à partir des résultats retrouvés. 
 
Ce pipeline est **efficace pour des questions indépendantes, sans contexte conversationnel**.

### 2.1 Préparation des documents

Nous initialisons les chemins nécessaires à la préparation des documents d’entrée.

In [5]:
# Récupère le chemin absolu du répertoire courant (là où le script est exécuté)
current_dir = os.getcwd()

# Nom du fichier texte contenant les comptes rendus de réunion
file_name = "meeting_reports.txt"

# Construit le chemin complet vers le fichier texte dans le dossier "data"
file_path = os.path.join(current_dir, "data", file_name)

# Définit le chemin du répertoire où sera stockée la base de données vectorielle (Chroma DB)
db_dir = os.path.join(current_dir, "data", "db")

### 2.2 Initialisation du vector store

Nous vérifions ici si la base vectorielle existe déjà.  
Si ce n’est pas le cas, le fichier source est chargé, découpé en morceaux, enrichi de métadonnées, puis indexé dans Chroma DB.

In [8]:
if not os.path.exists(db_dir):
    print("Initializing vector store...")

    # Chargement du fichier texte brut contenant les documents
    loader = TextLoader(file_path)
    loaded_document = loader.load()

    # Découpage du document en chunks de 1000 caractères avec un chevauchement de 0
    # - chunk_size détermine la taille maximale de chaque morceau (en nombre de caractères ici : 1000)
    # - chunk_overlap permet de conserver un chevauchement entre les morceaux pour éviter les coupures abruptes, ici il est à 0, donc sans recouvrement.
    # - RecursiveCharacterTextSplitter est souvent préféré en pratique pour des documents textuels comme des comptes rendus, 
    #   des articles ou de la documentation technique, car il garde mieux le contexte sémantique.
    #   Ce splitter tente d'abord de découper sur les sauts de ligne, puis sur les phrases, puis sur les mots, etc.
    # ... d'autres Text Splitter comme CharachterTextSplitter existent. À approfondir si besoin
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
    chunks = text_splitter.split_documents(loaded_document)

    # Ajout de métadonnées à chaque chunk (utile pour le filtrage ou le suivi de provenance).
    # Ici 2 metadata sont ajoutés mais il pourrait en y avoir plus.
    for chunk in chunks:
        chunk.metadata["source"] = file_path    # Chemin d'origine du document
        chunk.metadata["category"] = "meeting"  # Catégorie de contenu (à adapter selon les besoins)

    # Création et persistance de la base vectorielle dans le dossier défini
    db = Chroma.from_documents(chunks, embedder, persist_directory=db_dir)

    print("Vector store created !")

### 2.3 Initialisation du moteur de recherche vectorielle

Une fois la base vectorielle Chroma initialisée avec les embeddings, nous la transformons en **moteur de recherche (retriever)**.  
Cela permet de retrouver les documents les plus proches sémantiquement d’une question ou d’une requête.  

In [9]:
# Chargement de la base vectorielle existante, avec liaison avec le même embedder ayant servi pour créer la base vectorielle
db = Chroma(persist_directory=db_dir, embedding_function=embedder)

# Conversion de la base Chroma en "retriever" pour effectuer des recherches par similarité
# - search_type="similarity" utilise la distance cosinus entre les vecteurs
# - "k": 3 signifie que l'on souhaite récupérer les 3 documents les plus proches
retriever = db.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 3}
)

# 💡 Il est aussi possible d’utiliser d’autres types de recherche (search_type) :
# - "mmr" (Maximal Marginal Relevance) : équilibre entre pertinence et diversité des résultats
# - "similarity_score_threshold" : retourne uniquement les documents dont le score dépasse un certain seuil
#      search_kwargs={"score_threshold": 0.8} permet par exemple de filtrer les résultats peu pertinents
#
# D’autres paramètres utiles dans search_kwargs :
# - "fetch_k" : nombre de documents à récupérer avant le tri final (utile avec MMR)
# - "lambda_mult" : pondération entre pertinence et diversité dans MMR
# 
# Etc... à approfondir si besoin

  db = Chroma(persist_directory=db_dir, embedding_function=embedder)


### 2.4 Exécution d’une requête de recherche

Dans cette étape, nous combinons la recherche vectorielle avec un LLM.  
L’objectif est de fournir une réponse pertinente à une question, en s’appuyant uniquement sur les documents retrouvés dans la base vectorielle.  
Le modèle est guidé par un prompt structuré qui inclut la requête initiale et les contenus des chunks pertinents.

In [10]:
# Requête posée par l'utilisateur
query = "Quels sont les réunions concernant la société Neolink ?"

# Recherche des chunks vectoriellement proches de la question
relevant_chunks = retriever.invoke(query)

# Optionnel : affichage manuel des chunks retrouvés (utile pour debug ou vérification)
# for i, chunk in enumerate(relevant_chunks, 1):
#     print(f"Chunk {i}:\n{chunk.page_content}\n")

# Construction du message d'entrée à envoyer au modèle
# Nous incluons la question et le contenu des documents pour contraindre le LLM à ne répondre qu'en s'appuyant sur ces sources
input_message = (
    "Voici des documents qui vont t'aider à répondre à la question : "
    + query
    + "\n\nDocuments pertinents : \n"
    + "\n\n".join([chunk.page_content for chunk in relevant_chunks])
    + "\n\nDonne une réponse basée uniquement sur les documents qui te sont fournis."
)

# Construction du message complet pour le LLM, avec un rôle système et un message utilisateur
messages = [
    SystemMessage(content="Tu es un assistant qui aide à retrouver tout type d'informations interne à une entreprise"),
    HumanMessage(content=input_message)
]

result = model.invoke(messages)

display(Markdown(result.content))

En examinant les documents, j'ai trouvé des informations relatives aux réunions de la société Neolink.

Selon le document intitulé "Calendrier des réunions 2022", il y a eu plusieurs réunions concernant la société Neolink au cours de l'année 2022. Voici quelques-unes de ces réunions :

* Réunion du conseil d'administration : 15 mars 2022, 10h00
* Séance de formation pour les nouveaux employés : 22 mars 2022, 14h00
* Réunion des équipes de vente : 5 avril 2022, 9h30
* Assemblée générale annuelle : 12 mai 2022, 10h30
* Réunion du comité de direction : 26 juillet 2022, 11h00
* Séance de rétroaction des employés : 15 septembre 2022, 14h30

Il est possible que d'autres réunions aient eu lieu ou soient prévues, mais ces informations sont basées sur les documents fournis.

Si vous avez d'autres questions ou si vous souhaitez des informations supplémentaires, n'hésitez pas à me demander !

### 🧩 Exercice

La société NovTech gère de nombreux documents internes :
- des rapports d’incidents (panne, erreur technique, post-mortem),
- des procédures opérationnelles (onboarding, accès système, déploiement…).

Actuellement, les équipes perdent du temps à chercher les bonnes informations à travers des fichiers éparpillés.

Votre objectif est de construire un assistant basé sur l'architecture RAG qui permettra :
- de retrouver rapidement les procédures en cas de besoin,
- de consulter les résolutions d’incidents similaires,
- de répondre à des questions en langage naturel en s’appuyant uniquement sur les documents internes.

Pour vous aider, vous pouvez suivre les étapes suivantes :
1. Chargement des documents
2. Découpage en chunks
3. Indexation vectorielle
4. Recherche contextuelle
5. Génération de réponse

ℹ️ Les documents de l'entreprise se trouve dans le dossier `data/novtech`.  
💪🏻 **Bonus** : Rendre possible un filtrage par catégorie dans les recherches

#### 1. chargement des documents

In [None]:
import os
from langchain.document_loaders import TextLoader
from langchain.docstore.document import Document

def load_documents_from_folders(folders):
    all_chunks = []
    all_docs = []
    print("forlders",folders)
    print(os.listdir(folders))
    for folder in os.listdir(folders):
        path_folder = os.path.join(folders,folder)
        for file in os.listdir(path_folder):
            print(file)
            file_path = os.path.join(path_folder, file)
            print(file_path)
            if os.path.isfile(file_path):
                loader = TextLoader(file_path)
                loaded_document = loader.load()
                text_splitter = RecursiveCharacterTextSplitter(chunk_size=800, chunk_overlap=100)
                chunks = text_splitter.split_documents(loaded_document)

    # Ajout de métadonnées à chaque chunk (utile pour le filtrage ou le suivi de provenance).
    # Ici 2 metadata sont ajoutés mais il pourrait en y avoir plus.
                for chunk in chunks:
                    chunk.metadata["source"] = file_path    # Chemin d'origine du document
                    chunk.metadata["category"] = folder.split("/")[-1]  # Catégorie de contenu (à adapter selon les besoins)

                all_chunks.extend(chunks)
                all_docs.extend(loaded_document)
    return all_docs

#### 2. Initialisation du db vectoriel

In [2]:
current_dir = os.getcwd()
print(current_dir)

    
folders_path = os.path.join(current_dir,"data/novtech/")


    

c:\Users\User\Desktop\LANGCHAIN_rag


In [14]:
all_loaded_docs = load_documents_from_folders(folders_path)

forlders c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/
['incidents', 'procedures']
incident_01.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_01.txt
incident_02.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_02.txt
incident_03.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_03.txt
incident_04.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_04.txt
incident_05.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_05.txt
incident_06.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_06.txt
incident_07.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_07.txt
incident_08.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_08.txt
incident_09.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_09.txt
incident_10.txt
c:\Users\User\Desktop\LANGCHAIN_rag\data/novtech/incidents\incident_10.txt
inc

In [None]:
 
 # Définit le chemin du répertoire où sera stockée la base de données vectorielle (Chroma DB)
db_dir_novtech = os.path.join(folders_path, "db_novtech")
# Création et persistance de la base vectorielle dans le dossier défini
db = Chroma.from_documents(all_loaded_docs, embedder, persist_directory=db_dir_novtech)

In [16]:
# Chargement de la base vectorielle existante, avec liaison avec le même embedder ayant servi pour créer la base vectorielle
db = Chroma(persist_directory=db_dir_novtech, embedding_function=embedder)

# Conversion de la base Chroma en "retriever" pour effectuer des recherches par similarité
# - search_type="similarity" utilise la distance cosinus entre les vecteurs
# - "k": 3 signifie que l'on souhaite récupérer les 3 documents les plus proches
retriever = db.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 3}
)

  db = Chroma(persist_directory=db_dir_novtech, embedding_function=embedder)


#### 3 Exécution d’une requête de recherche

In [17]:
# Votre code ici

# Requête posée par l'utilisateur
query = "Quels sont les incidents concernant le service billing ?"

# Recherche des chunks vectoriellement proches de la question
relevant_chunks = retriever.invoke(query)

# Optionnel : affichage manuel des chunks retrouvés (utile pour debug ou vérification)
for i, chunk in enumerate(relevant_chunks, 1):
     print(f"Chunk {i}:\n{chunk.page_content}\n")

# Construction du message d'entrée à envoyer au modèle
# Nous incluons la question et le contenu des documents pour contraindre le LLM à ne répondre qu'en s'appuyant sur ces sources
input_message = (
    "Voici des documents qui vont t'aider à répondre à la question : "
    + query
    + "\n\nDocuments pertinents : \n"
    + "\n\n".join([chunk.page_content for chunk in relevant_chunks])
    + "\n\nDonne une réponse basée uniquement sur les documents qui te sont fournis."
)

# Construction du message complet pour le LLM, avec un rôle système et un message utilisateur
messages = [
    SystemMessage(content="Tu es un assistant qui aide à retrouver tout type d'informations interne à une entreprise"),
    HumanMessage(content=input_message)
]

result = model.invoke(messages)

display(Markdown(result.content))

Selon les rapports d'incident, il y a eu trois incidents concernant le service billing :

* Incident #35 : erreur détectée sur service billing, durée 29 minutes, action corrective : redémarrage du service et ajout de monitoring spécifique.
* Incident #30 : erreur détectée sur service billing, durée 39 minutes, action corrective : redémarrage du service et ajout de monitoring spécifique.
* Incident #37 : erreur détectée sur service billing, durée 36 minutes, action corrective : redémarrage du service et ajout de monitoring spécifique.

En résumé, il y a eu trois incidents concernant le service billing entre le 31 janvier 2024 et le 7 février 2024.

# 3. RAG conversationnel
___

Dans un cadre d’**interaction continue**, les utilisateurs posent souvent des questions implicites ou référentielles (ex. “Et lui ?”). Le **RAG conversationnel** ajoute une étape clé : la **reformulation de la question en prenant en compte l’historique du dialogue**.  

Cette version de RAG permet de maintenir la pertinence des recherches dans la base vectorielle tout en conservant la fluidité de la conversation, ce qui la rend adaptée aux assistants IA ou aux chatbots avancés.

**Exemple**

Historique de la conversation :
- Utilisateur : *Qui est le CEO de Tesla ?*
- IA : *Elon Musk est le CEO de Tesla*.
- Utilisateur : *Et de SpaceX ?*

➡️ La question “Et de SpaceX ?” est ambiguë seule. Le moteur de recherche (retriever) ne sait pas de quoi il s’agit exactement.

Avec une reformulation de la question de l'utilisateur cela donnerait : “Qui est le CEO de SpaceX ?”

➡️ Résultat : la requête est claire, et la recherche dans la base vectorielle peut retourner les bons documents.

**👍 LangChain facilite ce processus**

LangChain fournit une abstraction prête à l’emploi grâce à la classe `ConversationalRetrievalChain`.
Cette classe prend automatiquement en charge :
- la reformulation de la question via le LLM
- la recherche dans la base vectorielle
- la génération de la réponse finale à partir des documents récupérés et de l’historique

➡️ Elle encapsule ainsi toute la logique conversationnelle d’un RAG en une seule ligne.

In [8]:
# Chaîne RAG avec historique
qa_chain = ConversationalRetrievalChain.from_llm(llm=model, retriever=db.as_retriever())

# Boucle de chat
chat_history = []
while True:
    user_input = input("You: ")
    clear_output(wait=True)                         # Efface l'affichage précédent
    display(Markdown(f"**Vous :** {user_input}"))   # Affiche la requête de l'utilisateur

    if user_input.lower() in ["stop", "exit", "quit"]:
        print("Fin de la conversation.")
        break

    result = qa_chain({"question": user_input, "chat_history": chat_history})
    display(Markdown(result["answer"]))
    chat_history.append((user_input, result["answer"]))

**Vous :** quit

Fin de la conversation.


### 🧩 Exercice

Repartez de l'exercice précédent (NovTech), et implémentez un assistant de conversation continue.

In [19]:
# Chaîne RAG avec historique
qa_chain_novtech = ConversationalRetrievalChain.from_llm(llm=model, retriever=db.as_retriever())

# Boucle de chat
chat_history = []
while True:
    user_input = input("You: ")
    #clear_output(wait=True)                         # Efface l'affichage précédent
    display(Markdown(f"**Vous :** {user_input}"))   # Affiche la requête de l'utilisateur

    if user_input.lower() in ["stop", "exit", "quit"]:
        print("Fin de la conversation.")
        break

    result = qa_chain_novtech.invoke({"question": user_input, "chat_history": chat_history})
    display(Markdown(result["answer"]))
    chat_history.append((user_input, result["answer"]))

**Vous :** quelles sont les procédures pour traiter les incidents du service billing

According to the provided incident reports, the procedures for treating incidents on the service billing are:

1. Redémarrage du service (Restarting the service)
2. Ajout de monitoring spécifique (Adding specific monitoring)

These two steps are mentioned as the corrective actions taken in all four incident reports (#30, #35, #37, and #45).

**Vous :** stop

Fin de la conversation.


4. Graph DB (Neo4j)

In [1]:
!pip install neo4j

Collecting neo4j
  Downloading neo4j-5.28.1-py3-none-any.whl (312 kB)
Collecting pytz
  Using cached pytz-2025.2-py2.py3-none-any.whl (509 kB)
Installing collected packages: pytz, neo4j
Successfully installed neo4j-5.28.1 pytz-2025.2


In [20]:
from langchain_community.graphs import Neo4jGraph
from langchain_community.chat_models import ChatOllama
from langchain.chains import GraphQAChain
from langchain.prompts import PromptTemplate

# 1. Connexion à Neo4j
graph = Neo4jGraph(
    url="bolt://localhost:7687",
    username="neo4j",
    password="test1234"
)

# 2. Initialisation du LLM local via Ollama
llm = ChatOllama(model="llama3")  # ou mistral, gemma, etc.

# 3. Texte brut à injecter
text = """
Albert Einstein était un physicien théoricien. Il a développé la théorie de la relativité. 
Il a reçu le prix Nobel de physique en 1921. Il est né en Allemagne.
"""

# 4. Prompt d’extraction d'entités et de relations
extraction_prompt = PromptTemplate.from_template("""
Tu es un assistant qui extrait des faits sous forme de triplets (sujet, relation, objet).
Relation doit être un seul mot ou plusieurs mots séparés par _.
Voici un texte :

{text}

Donne-moi uniquement des triplets dans ce format :
(Sujet)-[Relation]->(Objet)

Relation doit être un seul mot ou plusieurs mots en anglais séparés par underscore (_).

Inclue les relations suivantes si elles apparaissent :
- received (pour les prix, récompenses)
- received_in_year (pour l'année où un prix a été reçu)
- was_born (lieu de naissance)

Exemples :
(Albert Einstein)-[developed]->(théorie de la relativité)
(Albert Einstein)-[was_born]->(Allemagne)
(Albert Einstein)-[received]->(prix_Nobel_de_physique)
(Albert Einstein)-[received_in_year]->(1921)
""")

# 5. Génération des triplets à partir du texte
triplet_prompt = extraction_prompt.format(text=text)
response = llm.invoke(triplet_prompt)
print("🔍 Triplets générés par le LLM :\n", response.content)

# 6. Parser les triplets générés (très basique ici, à affiner)
lines = response.content.strip().split("\n")
triplets = []
for line in lines:
    if "(" in line and ")-[" in line and "]->(" in line:
        try:
            subj = line.split(")-[")[0].replace("(", "").strip()
            rel = line.split(")-[")[1].split("]->")[0].strip()
            obj = line.split("]->(")[1].replace(")", "").strip()
            triplets.append((subj, rel, obj))
        except Exception as e:
            print(f"⛔ Erreur de parsing : {e} sur la ligne : {line}")

# Suppression complète
graph.query("MATCH (n) DETACH DELETE n")
# 7. Insertion dans Neo4j avec params sécurisés et relation nettoyée
for subj, rel, obj in triplets:
    clean_rel = rel.upper().replace(" ", "_").replace("-", "_")
    cypher = (
        "MERGE (a:Entity {name: $subj}) "
        "MERGE (b:Entity {name: $obj}) "
        f"MERGE (a)-[:{clean_rel}]->(b)"
    )
    graph.query(cypher, params={"subj": subj, "obj": obj})

print("✅ Triplets insérés dans Neo4j.")
for subj, rel, obj in triplets:
    print(f"({subj}) -[{rel}]-> ({obj})")

# 8. Question sur le graphe : GraphQAChain NE SUPPORTE PAS Neo4jGraph directement.
# On commente cette partie car ça provoque une erreur de type.
# qa_chain = GraphQAChain.from_llm(llm=llm, graph=graph, verbose=True)
# question = "Quel prix Albert Einstein a-t-il reçu et en quelle année ?"
# answer = qa_chain.run(question)
# print("\n📢 Réponse :", answer)

# 9. Exemple d’interrogation Cypher directe avec Neo4j via graph.query()
query = """
MATCH (a:Entity)-[r]->(b:Entity)
WHERE a.name = "Albert Einstein" AND type(r) = "RECEIVED"
RETURN b.name AS prix
"""

results = graph.query(query)
print("\n📊 Résultat de la requête Cypher :")
for record in results:
    print(record)


🔍 Triplets générés par le LLM :
 Voici les triplets extraites du texte :

* (Albert Einstein)-[was]->(physicien théoricien)
* (Albert Einstein)-[developed]->(théorie de la relativité)
* (Albert Einstein)-[received]->(prix_Nobel_de_physique)
* (Albert Einstein)-[received_in_year]->(1921)
* (Albert Einstein)-[was_born]->(Allemagne)
✅ Triplets insérés dans Neo4j.
(* Albert Einstein) -[was]-> (physicien théoricien)
(* Albert Einstein) -[developed]-> (théorie de la relativité)
(* Albert Einstein) -[received]-> (prix_Nobel_de_physique)
(* Albert Einstein) -[received_in_year]-> (1921)
(* Albert Einstein) -[was_born]-> (Allemagne)

📊 Résultat de la requête Cypher :


In [15]:
!pip install networkx

Collecting networkx
  Downloading networkx-3.4.2-py3-none-any.whl (1.7 MB)
Installing collected packages: networkx
Successfully installed networkx-3.4.2


In [18]:
import networkx as nx
from langchain_community.graphs import NetworkxEntityGraph


# Exemple de triplets extraits (sujet, relation, objet)
triplets = [
    ("Albert Einstein", "developed", "théorie de la relativité"),
    ("Albert Einstein", "was_born", "Allemagne"),
    ("Albert Einstein", "received", "prix Nobel de physique en 1921"),
]

# Création d'un graphe orienté
G = nx.MultiDiGraph()



# Ajout des triplets dans le graphe NetworkX
for subj, rel, obj in triplets:
    G.add_node(subj)
    G.add_node(obj)
    G.add_edge(subj, obj, label=rel)
# G est ton MultiDiGraph avec les triplets
nx_graph = NetworkxEntityGraph(G)
print("✅ Graphe NetworkX créé avec les triplets.")


✅ Graphe NetworkX créé avec les triplets.


In [19]:
from langchain.chains import GraphQAChain
from langchain_community.chat_models import ChatOllama

# Initialiser le LLM (local via Ollama, ou autre)
llm = ChatOllama(model="llama3")

# Créer la chaîne GraphQAChain à partir du LLM et du graphe NetworkX
qa_chain = GraphQAChain.from_llm(llm=llm, graph=nx_graph, verbose=True)


# Poser une question
question = "Quel prix Albert Einstein a-t-il reçu et en quelle année ?"
answer = qa_chain.invoke(question)

print("\n📢 Réponse :", answer)


  answer = qa_chain.run(question)




[1m> Entering new GraphQAChain chain...[0m
Entities Extracted:
[32;1m[1;3mEinstein, Albert[0m
Full Context:
[32;1m[1;3m[0m

[1m> Finished chain.[0m

📢 Réponse : I don't have this information, so I'll just say "I don't know".
