In [1]:
import json
with open("outputs/all_triples2.json", "r", encoding="utf-8") as f:
    all_triples = json.load(f)


In [2]:
from neo4j import GraphDatabase

# ---------- 1. Configuration de la connexion Neo4j ----------
# Remplacez ces valeurs par celles de votre instance Neo4j
uri  = "bolt://localhost:7687"
user = "neo4j"
pwd  = "BNEOsucks8921_"

# Crée un driver Neo4j
driver = GraphDatabase.driver(uri, auth=(user, pwd))


# ---------- 2. Fonction d’insertion d’un triplet dans Neo4j ----------
def insert_triplet(tx, source, relation, target):
    """
    Crée ou récupère deux nœuds (Entity) nommés 'source' et 'target', 
    puis crée (si nécessaire) la relation entre eux.
    Le type de relation est stocké dans la propriété 'type' de l'arc.

    Exemple Cypher généré :
      MERGE (a:Entity {name: $source})
      MERGE (b:Entity {name: $target})
      MERGE (a)-[:RELATION {type: $relation}]->(b)
    """
    query = """
    MERGE (a:Source {name: $source})
    MERGE (b:Target {name: $target})
    MERGE (a)-[:RELATION {type: $relation}]->(b)
    """
    tx.run(query, source=source, relation=relation, target=target)


# ---------- 3. Fonction de chargement de tous les triplets ----------
def load_all_triplets(triplets):
    """
    Parcourt la liste 'triplets' (liste de tuples (source, relation, target))
    et exécute 'insert_triplet' pour chacun d’entre eux dans une même session.
    """
    with driver.session() as session:
        for src, rel, tgt in triplets:
            session.write_transaction(insert_triplet, src, rel, tgt)
    print(f"✅ {len(triplets)} triplets insérés dans Neo4j.")


# ---------- 4. Point d’entrée du script ----------
if __name__ == "__main__":
    # Supposons que vous ayez, dans un autre module, votre liste 'all_triples'
    # Exemple : all_triples = [("Navette autonome", "testée dans", "Toulouse"), ...]
    # Il faut donc importer ou recréer cette liste ici.
    #
    # Si votre extraction a produit un module Python ou un fichier pickle,
    # récupérez la liste de tuples et assignez-la à 'all_triples'.
    #
    # Par exemple, si vous avez sauvegardé vos relations dans un fichier JSON :
    #
    # import json
    # with open("outputs/all_triples.json", "r", encoding="utf-8") as f:
    #     all_triples = json.load(f)
    #
    # Mais ici, illustrons un exemple statique (à remplacer par votre propre liste) :

    # Charge tous les triplets dans Neo4j
    load_all_triplets(all_triples)

    # Ferme le driver une fois terminé
   # driver.close()

  session.write_transaction(insert_triplet, src, rel, tgt)


✅ 493 triplets insérés dans Neo4j.


In [3]:
def fetch_all_triples():
    """
    Récupère l'ensemble des triplets (entité, relation, entité) dans Neo4j.
    """
    query = """
    MATCH (a:Source)-[r:RELATION]->(b:Target)
    RETURN a.name AS source, r.type AS relation, b.name AS target
    """
    triples = []
    with driver.session() as session:
        for record in session.run(query):
            triples.append({
                "source": record["source"],
                "relation": record["relation"],
                "target": record["target"]
            })
    return triples

# Exemple :
all_triples = fetch_all_triples()

In [4]:
# import llama_index
# print(dir(llama_index))

# import llama_index.core
# print(dir(llama_index.core))

# import llama_index.core.indices
# print(dir(llama_index.core.indices))


# import llama_index.indices
# print(dir(llama_index.indices))

# import llama_index.llms
# print(dir(llama_index.llms))

In [5]:
import importlib
import pkgutil

def deep_dir(module):
    results = {}

    def explore(mod, prefix=""):
        name = prefix + (mod.__name__ if hasattr(mod, "__name__") else str(mod))
        try:
            results[name] = dir(mod)
        except Exception:
            results[name] = ["<ERROR>"]

        if hasattr(mod, "__path__"):  # It's a package
            for submod_info in pkgutil.iter_modules(mod.__path__):
                try:
                    submod = importlib.import_module(f"{mod.__name__}.{submod_info.name}")
                    explore(submod, prefix="")
                except Exception as e:
                    results[f"{mod.__name__}.{submod_info.name}"] = [f"<IMPORT ERROR: {e}>"]

    explore(module)
    return results


In [6]:
# import llama_index
# import langchain
# print(deep_dir(langchain))

In [8]:
from llama_index.core.service_context_elements.llm_predictor import LLMPredictor
from llama_index.core import PromptHelper, ServiceContext
from llama_index.cli.rag.base import LLM
from llama_index.core.indices import KnowledgeGraphIndex
#from llama_index.indices.knowledge_graph.schema import KGTable
from llama_index.graph_stores.neo4j import Neo4jPropertyGraphStore
from dotenv import load_dotenv
from llama_index.core.indices import PropertyGraphIndex
import os
import requests
from neo4j import GraphDatabase
import openai
from langchain.llms.base import LLM
from typing import Optional, List, Mapping, Any
from pydantic import BaseModel



In [9]:
# 1) On configure openai pour pointer vers Albert
openai.api_key = 'sk-eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJ1c2VyX2lkIjo4NDAyLCJ0b2tlbl9pZCI6MTQ4OSwiZXhwaXJlc19hdCI6MTc4MDM1MTIwMH0.mOB9Cx4U4G7K5gin0twePc_WauAEPtRWQ0UaK6oUs9I'
openai.api_base = "https://albert.api.etalab.gouv.fr/v1"

In [10]:
class AlbertLLM(LLM, BaseModel):
    """
    Wrapper LangChain pour Albert (API OpenAI-compatible).
    """

    temperature: float = 0.2
    model_name: str = "albert-small"

    class Config:
        """Pour que pydantic accepte les champs supplémentaires (ignorez-les)."""
        extra = "ignore"

    def _call(self, prompt: str, stop: Optional[List[str]] = None) -> str:
        """
        Envoie le prompt à l’API Albert et renvoie le texte généré.
        """
        response = openai.ChatCompletion.create(
            model=self.model_name,
            messages=[{"role": "user", "content": prompt}],
            temperature=self.temperature,
            stop=stop,
            max_tokens=1024,
        )
        return response.choices[0].message.content

    @property
    def _identifying_params(self) -> Mapping[str, Any]:
        return {"model_name": self.model_name, "temperature": self.temperature}

    @property
    def _llm_type(self) -> str:
        return "albert"

In [11]:
# neo4j_retriever.py

import os
from typing import List, Any
from neo4j import GraphDatabase
from langchain.schema import BaseRetriever, Document
from pydantic import PrivateAttr

class Neo4jRetriever(BaseRetriever):
    """
    Retriever LangChain qui interroge Neo4j pour ramener un sous-graphe pertinent.
    """

    # Déclare driver comme attribut privé afin que Pydantic ne l'exige pas comme champ
    _driver: Any = PrivateAttr()

    def __init__(self):
        # Appelle le constructeur de BaseModel
        super().__init__()

        uri = os.getenv("NEO4J_URI")
        user = os.getenv("NEO4J_USER")
        pwd  = os.getenv("NEO4J_PWD")
        self._driver = GraphDatabase.driver(uri, auth=(user, pwd))

    def get_relevant_documents(self, query: str) -> List[Document]:
        """
        1) On extrait des tokens (mots) de la question,
        2) On interroge Neo4j pour chaque token correspondant
           à un nœud Entity.name,
        3) On construit un Document par relation trouvée.
        """
        # Tokenisation basique ; dans la vraie vie, on ferait un NER ou des lowercase+strip
        tokens = [tok.strip() for tok in query.split() if len(tok) > 1]
        seen_relations = set()
        docs: List[Document] = []

        with self._driver.session() as session:
            for tok in tokens:
                cypher = """
                MATCH (n:Entity {name: $name})-[r]-(m:Entity)
                RETURN n.name AS source, type(r) AS rel, m.name AS target
                """
                result = session.run(cypher, name=tok)
                for record in result:
                    src = record["source"]
                    rel = record["rel"]
                    tgt = record["target"]
                    triple_text = f"{src} {rel} {tgt}."
                    if triple_text not in seen_relations:
                        seen_relations.add(triple_text)
                        docs.append(Document(page_content=triple_text))

        return docs

    async def aget_relevant_documents(self, query: str) -> List[Document]:
        # Pour la plupart des usages on peut renvoyer synchrone
        return self.get_relevant_documents(query)

    def __del__(self):
        try:
            self._driver.close()
        except:
            pass


  class Neo4jRetriever(BaseRetriever):
  class Neo4jRetriever(BaseRetriever):


In [None]:
from langchain.prompts import PromptTemplate
from langchain.indexes.vectorstore import RetrievalQA
# ----------------------------------------
# 1. Charger les variables d’environnement
# ----------------------------------------
load_dotenv()

# ----------------------------------------
# 2. Instancier le LLM Albert
# ----------------------------------------
llm = AlbertLLM(temperature=0.2)

# ----------------------------------------
# 3. Créer le prompt template pour la QA
# ----------------------------------------
# {context} = textes du graphe Neo4j
# {question} = question utilisateur
prompt_template = """
Tu es un assistant expert en véhicules autonomes.
Voici le contexte extrait d'un graphe de connaissances :
{context}

Question : {question}

Réponds de façon précise, en t’appuyant seulement sur ces faits. Si ce n’est pas dans le contexte, répond « Désolé, je n’ai pas cette information. ».
"""

prompt = PromptTemplate(
    template=prompt_template,
    input_variables=["context", "question"]
)

# ----------------------------------------
# 4. Instancier le retriever Neo4j personnalisé
# ----------------------------------------
graph_retriever = Neo4jRetriever()

# ----------------------------------------
# 5. Construire la chaîne RetrievalQA
# ----------------------------------------
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",           # on bourre tout le contexte d’un coup
    retriever=graph_retriever,
    return_source_documents=False,
    chain_type_kwargs={"prompt": prompt}
)

# ----------------------------------------
# 6. Boucle interactive
# ----------------------------------------
if __name__ == "__main__":
    print("=== Chat GraphRAG (Neo4j + Albert via LangChain) ===")
    while True:
        question = input("\nPose ta question (ou « exit » pour quitter) : ")
        if question.lower().strip() in ("exit", "quit"):
            break

        # LangChain :
        #  1) graph_retriever.get_relevant_documents(question) → liste de Docs
        #  2) Concatène “context” = sommaire des docs, plus “question” dans le prompt
        #  3) Envoie tout à llm._call(prompt_final) → Albert → génération
        result = qa_chain({"query": question})
        print("\n📝 Réponse :")
        print(result["result"])

=== Chat GraphRAG (Neo4j + Albert via LangChain) ===


  result = qa_chain({"query": question})



📝 Réponse :
Je suis prêt à répondre à votre question. Quelle est la question ?





📝 Réponse :
Désolé, je n'ai pas cette information.





📝 Réponse :
Je connais la MAcif. La MAcif est un projet de véhicule autonome développé par le groupe PSA (Peugeot-Citroën) en collaboration avec l'Institut national de recherche en informatique et en automatique (INRIA) et l'Université de Nice Sophia Antipolis. Le but de ce projet est de développer un véhicule autonome capable de conduire de manière sécuritaire et efficace dans des conditions réelles.





📝 Réponse :
Désolé, je n'ai pas cette information.


In [None]:


# ----------------------------------------
# 2. Définir une classe AlbertLLM qui implémente LLM de llama-index
# ----------------------------------------
class AlbertLLM(LLM):
    """
    Implémentation d'un LLM compatible LlamaIndex, pointant vers Albert API.
    """

    def __init__(self, temperature: float = 0.2):
        self.temperature = temperature

    @property
    def metadata(self) -> dict:
        # Quelques infos génériques ; on peut ajuster si besoin
        return {"model_name": "gpt-3.5-turbo", "max_tokens": 2048}

    def _call(self, prompt: str, **kwargs) -> str:
        """
        Envoie le prompt à l’API Albert (endpoint OpenAI-compatible) et retourne la réponse.
        """
        url = "https://albert.api.etalab.gouv.fr/v1/chat/completions"
        headers = {
            "Authorization": f"Bearer {albert_api_key}",
            "Content-Type": "application/json"
        }
        json_data = {
            "model": "gpt-3.5-turbo",
            "messages": [{"role": "user", "content": prompt}],
            "temperature": self.temperature,
            # Vous pouvez ajouter "max_tokens": 1024, etc., si besoin
        }
        resp = requests.post(url, headers=headers, json=json_data)
        resp.raise_for_status()
        data = resp.json()
        return data["choices"][0]["message"]["content"]

In [None]:

# ----------------------------------------
# 3. Définir un « Predictor » qui implémente BaseLLMPredictor
# ----------------------------------------
class AlbertLLMPredictor(BaseLLMPredictor):
    """
    Wrapper autour d'AlbertLLM pour respecter l'interface BaseLLMPredictor
    (v0.12 de llama-index).
    """

    def __init__(self, llm: AlbertLLM):
        self._llm = llm
        self._callback_manager = CallbackManager()

    @property
    def llm(self) -> LLM:
        return self._llm

    @property
    def callback_manager(self) -> CallbackManager:
        return self._callback_manager

    @property
    def metadata(self) -> LLMMetadata:
        return self._llm.metadata

    def predict(self, prompt: BasePromptTemplate, **prompt_args) -> str:
        """
        Construit une chaîne de caractères à partir du BasePromptTemplate + args,
        puis appelle le LLM pour obtenir la réponse complète.
        """
        # prompt.format(prompt_args) renvoie la chaîne textuelle finale
        text = prompt.format(**prompt_args)
        return self._llm._call(text)

    def stream(self, prompt: BasePromptTemplate, **prompt_args) -> TokenGen:
        """
        Streaming non implémenté (renvoie tout en une fois).
        """
        text = prompt.format(**prompt_args)
        # Pour un vrai streaming, il faudrait appeler l’API Albert en mode stream
        # et yield() chaque token, mais ici on renvoie tout d’un coup :
        yield self._llm._call(text)

    async def apredict(self, prompt: BasePromptTemplate, **prompt_args) -> str:
        """
        Async predict non implémenté : appelle _call synchronously pour l’instant.
        """
        text = prompt.format(**prompt_args)
        return self._llm._call(text)

    async def astream(self, prompt: BasePromptTemplate, **prompt_args) -> TokenAsyncGen:
        """
        Async streaming non implémenté : renvoie tout d’un coup.
        """
        text = prompt.format(**prompt_args)
        yield self._llm._call(text)

NameError: name 'BaseLLMPredictor' is not defined

In [None]:
# ----------------------------------------
# 3. Configurer le LLM Predictor avec AlbertLLM
# ----------------------------------------
llm = AlbertLLM(temperature=0.2)
prompt_helper = PromptHelper()

service_context = ServiceContext.from_defaults(
    llm=llm,
    prompt_helper=prompt_helper
)


TypeError: Can't instantiate abstract class AlbertLLM without an implementation for abstract methods 'achat', 'acomplete', 'astream_chat', 'astream_complete', 'chat', 'complete', 'stream_chat', 'stream_complete'

In [None]:
# ----------------------------------------
# 4. Construire l’index GraphRAG avec LlamaIndex
# ----------------------------------------
graph_index = KnowledgeGraphIndex.from_dicts(
    all_triples,
    service_context=service_context
)


In [None]:
# ----------------------------------------
# 5. Fonction de réponse via GraphRAG + Albert
# ----------------------------------------
def answer_from_graph_index(question: str) -> str:
    """
    Interroge le KnowledgeGraphIndex. LlamaIndex parcourt le graphe interne
    et génère la réponse en appelant AlbertLLM pour la complétion finale.
    """
    response = graph_index.query(question)
    return response.response

In [None]:
# ----------------------------------------
# 6. Exemple d’utilisation
# ----------------------------------------
if __name__ == "__main__":
    q = "Que vise la MACIF dans le domaine du véhicule autonome ?"
    answer = answer_from_graph_index(q)
    print("Question :", q)
    print("Réponse :", answer)

    driver.close()

In [None]:


# 1. Transformer les triples en texte
triples_text = "\n".join(
    f"{t['source']} {t['relation']} {t['target']}." for t in all_triples
)

# 2. Créer un document
documents = [Document(triples_text)]

# 3. Parser les documents
node_parser = SimpleNodeParser()
nodes = node_parser.get_nodes_from_documents(documents)

# 4. Créer un graph store en mémoire
graph_store = SimpleGraphStore()

# 5. Construire l’index KnowledgeGraphIndex
service_context = ServiceContext.from_defaults(llm=OpenAI(temperature=0))
kg_index = KnowledgeGraphIndex(
    nodes=nodes,
    graph_store=graph_store,
    service_context=service_context
)

# 6. Interroger l’index
query = "Quels capteurs sont utilisés par Tesla ?"
response = kg_index.query(query)
print(response)

In [None]:
# ----------------------------------------
# 4. Construire l’index GraphRAG avec LlamaIndex
# ----------------------------------------
# Ici, on crée un KnowledgeGraphIndex directement à partir de la liste de dicts.
graph_index = KnowledgeGraphIndex.from_dicts(
    all_triples,
    service_context=service_context
)

AttributeError: type object 'KnowledgeGraphIndex' has no attribute 'from_dicts'

In [None]:
# import llama_index
# # llamaindex_demo.py (suite)
# # 1) Import du KGTable et KnowledgeGraphIndex
# try:
#     # Pour LlamaIndex 0.8.x
#     from llama_index.indices.knowledge_graph.base import KGTable, KnowledgeGraphIndex
# except ImportError:
#     # Pour LlamaIndex 0.9+ (chemin possible)
#     from llama_index.indices.knowledge_graph.schema import KGTable
#     from llama_index.indices.knowledge_graph.base import KnowledgeGraphIndex

# # 2) Construire la table à partir d'une liste de dicts
# kg_table = KGTable.from_list(all_triples)

# # 3) Reprendre le service_context déjà configuré plus haut
# #    (llm_predictor + prompt_helper)

# # 4) Créer l'index GraphRAG à partir du KGTable
# graph_index = KnowledgeGraphIndex.from_kg_table(
#     kg_table,
#     service_context=service_context
# )

# # 5) Exemple de requête GraphRAG
# def answer_from_graph_index(question: str) -> str:
#     response = graph_index.query(question)
#     return response.response

# if __name__ == "__main__":
#     q = "Que vise la MACIF dans le domaine du véhicule autonome ?"
#     print(answer_from_graph_index(q))


ModuleNotFoundError: No module named 'llama_index.indices.knowledge_graph'