In [30]:
import os 
import pymysql
import re
from langgraph.graph import END
from typing import List,TypedDict, Dict, Any, Optional
from mistralai import Mistral
from dotenv import load_dotenv
from langchain.chat_models import init_chat_model
from langchain_mistralai import MistralAIEmbeddings
from langchain_core.vectorstores import InMemoryVectorStore
from langchain.document_loaders import DirectoryLoader,TextLoader
from langchain import hub
from langgraph.graph import START, StateGraph
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_core.documents import Document
import logging
#logging.basicConfig(level=logging.DEBUG)






In [31]:

load_dotenv()

tracing = os.getenv("LANGSMITH_TRACING")
api_key = os.getenv("LANGSMITH_API_KEY")
Mistral_api_key = Mistral(api_key=os.getenv("MISTRAL_API_KEY"))

# Chemin vers le r√©pertoire contenant les bases de connaissances
DATA_ROOT = "../data"
ECHANGES_PATH = os.path.join(DATA_ROOT, "echanges")
REGLES_PATH = os.path.join(DATA_ROOT, "regles") 
OFFICIAL_DOCS_PATH = os.path.join(DATA_ROOT,"docs_officiels")

# Chat model mistral
llm = init_chat_model("mistral-large-latest", model_provider="mistralai")


DEBUG:asyncio:Using selector: SelectSelector


In [32]:
class DatabaseManager:
    def __init__(self):
        load_dotenv()
        self.config = {
            'user': os.getenv('SQL_USER'),
            'password': os.getenv('SQL_PASSWORD', ''),
            'host': os.getenv('SQL_HOST', 'localhost'),
            'database': os.getenv('SQL_DB'),
            'port': int(os.getenv('SQL_PORT', '3306'))
        }
        if not all([self.config['user'], self.config['host'], self.config['database']]):
            raise ValueError("Variables essentielles manquantes : SQL_USER, SQL_HOST ou SQL_DB.")
        
    
    def tester_connexion(self) -> bool:
        try:
            conn = pymysql.connect(**self.config)
            curseur = conn.cursor()
            curseur.execute("SELECT 1")
            curseur.fetchone()
            curseur.close()
            conn.close()
            print(" Connexion r√©ussie avec pymysql.")
            return True
        except pymysql.Error as erreur:
            print(f" √âchec de la connexion : {erreur}")
            return False
    
    def rechercher_dossier(self, numero_dossier: Optional[str] = None, **kwargs) -> List[Dict[str, Any]]:
        try:
            conn = pymysql.connect(**self.config)
            curseur = conn.cursor(pymysql.cursors.DictCursor)  # Pour des r√©sultats sous forme de dictionnaires
            conditions = []
            parametres = []

            if numero_dossier:
                conditions.append("Numero = %s")
                parametres.append(numero_dossier)

            for cle, valeur in kwargs.items():
                if valeur is not None:
                    conditions.append(f"{cle} = %s")
                    parametres.append(valeur)

            requete = f"SELECT * FROM dossiers WHERE {' AND '.join(conditions) if conditions else '1=1'}"
            curseur.execute(requete, parametres)
            resultats = curseur.fetchall()
            curseur.close()
            conn.close()
            return resultats
        except pymysql.Error as erreur:
            print(f" Erreur de recherche : {erreur}")
            return []
"""  
if __name__ == "__main__":
    try:
        db_manager = DatabaseManager()
        if db_manager.tester_connexion():
            resultats = db_manager.rechercher_dossier(numero_dossier='82-2069')
            print("\nüìã R√©sultats de la recherche :")
            for dossier in resultats:
                print(dossier)
        else:
            print(" √âchec de la connexion.")
    except Exception as e:
        print(f" Erreur critique : {e}")
        traceback.print_exc()
"""

'  \nif __name__ == "__main__":\n    try:\n        db_manager = DatabaseManager()\n        if db_manager.tester_connexion():\n            resultats = db_manager.rechercher_dossier(numero_dossier=\'82-2069\')\n            print("\nüìã R√©sultats de la recherche :")\n            for dossier in resultats:\n                print(dossier)\n        else:\n            print(" √âchec de la connexion.")\n    except Exception as e:\n        print(f" Erreur critique : {e}")\n        traceback.print_exc()\n'

In [33]:
# Fonction pour extraire le num√©ro de dossier de la question
def extract_dossier_number(question: str) -> List[str]:
    # Pattern pour rechercher les num√©ros de dossier (format XX-XXXX ou similaire)
    patterns = [
        r'\b\d{2}-\d{4}\b',  # Format 82-2069
        r'\bdossier\s+(?:n¬∞|num√©ro|numero|n|¬∞|)?\s*(\w+-\w+)\b',  # Format avec "dossier n¬∞ XXX-XXX"
        r'\bdossier\s+(?:n¬∞|num√©ro|numero|n|¬∞|)?\s*(\d+)\b'  # Format avec "dossier n¬∞ XXX"
    ]
    
    results = []
    for pattern in patterns:
        matches = re.findall(pattern, question, re.IGNORECASE)
        if matches:
            results.extend(matches)
    
    return list(set(results))  # √âliminer les doublons
    
   

# Fonction pour rechercher les informations d'un dossier dans la base de donn√©es via DatabaseManager
def search_dossier_in_db(dossier_numbers: List[str]) -> List[Dict[str, Any]]:
    try:
        db_manager = DatabaseManager()
        
        # Tester la connexion avant de proc√©der
        if not db_manager.tester_connexion():
            print("Impossible de se connecter √† la base de donn√©es")
            return []
        
        results = []
        for num in dossier_numbers:
            dossier_results = db_manager.rechercher_dossier(numero_dossier=num)
            results.extend(dossier_results)
        
        return results
    except Exception as e:
        print(f"Erreur lors de la recherche dans la base de donn√©es: {e}")
        return []

        
def db_resultats_to_documents(resultats: List[Dict[str,Any]]) -> List[Document]:
    documents = [] 
    for resultat in resultats:
        #contenu format√© √† partir des donne du dossier
        content = f"""
        - Informations sur le dossier {resultat.get('Numero', 'N/A')}:
        - Nom de l'usager: {resultat.get('nom_usager', 'N/A')}
        - Date de cr√©ation: {resultat.get('date_creation', 'N/A')}
        - Derni√®re modification: {resultat.get('derniere_modification', 'N/A')}
        - Agent affect√©: {resultat.get('agent_affecter', 'N/A')}
        - Instructeur: {resultat.get('instructeur', 'N/A')}
        - Statut actuel: {resultat.get('statut', 'N/A')}
        - Statut visible par l'usager: {resultat.get('statut_visible_usager', 'N/A')}
        - Montant: {resultat.get('montant', 'N/A')} ‚Ç¨
        """
        
        #cr√©ation d'un document Langchain avec le meta data
        doc = Document(
            page_content=content,
            metadata={
                "source": "base_de_donnees",
                "type":"dossier",
                "num√©ro": resultat.get('Numero','N/A'),
                "section":"Informations dossier",
                "page": "1", 
                "update_date": resultat.get('derniere_modification', 'N/A')
                
            }
        )
        
        documents.append(doc)
        
    return documents

In [34]:
#Fonction pour charger tous les documents des diff√©rents dossiers
def load_all_documents():
    all_docs = []
    
    # On va d'abord charger les documents des echanges 
    try:
        echanges_loader = DirectoryLoader(
            ECHANGES_PATH,
            glob="**/*txt",  # Charger tous les .txt, y compris dans les sous-dossiers
            loader_cls=TextLoader,
            loader_kwargs={"encoding": "utf-8"},
            recursive=True  # Charger r√©cursivement dans les sous-dossiers
        )
        echanges_docs = echanges_loader.load()
        for doc in echanges_docs:
            doc.metadata["category"] = "echanges"
        print(f"{len(echanges_docs)} documents d'echanges charg√©s.")
        all_docs.extend(echanges_docs)
    except Exception as e:
        print(f"Erreur lors du chargement des dossiers d'echanges:{e}")
        
    #Ici on va charger les documents des regles
    try:
        regles_loader = DirectoryLoader(
            REGLES_PATH,
            glob="*.txt",
            loader_cls=TextLoader,
            loader_kwargs={"encoding": "utf-8"}
        )
        
        regles_docs = regles_loader.load()
        for doc in regles_docs:
            doc.metadata["category"] = "regles"
        print(f"{len(regles_docs)} documents de regles charg√©s.")
        all_docs.extend(regles_docs)
    except Exception as e:
        print(f"Erreur lors du changement des documents de regles: {e}")
        
    #Ici on va charger les documents des docs_officiels
    try:
        official_docs_loader = DirectoryLoader(
            OFFICIAL_DOCS_PATH,
            glob="*.txt",
            loader_cls=TextLoader,
            loader_kwargs={"encoding": "utf-8"}
        ) 
        official_docs = official_docs_loader.load()
        for doc in official_docs:
            doc.metadata["category"] = "docs_officiels"
        print(f"{len(official_docs)} documents de docs_officiels charg√©s.")
        all_docs.extend(official_docs)
    except Exception as e:
        print(f"Erreur lors du chargement des documetns officiels: {e}")
    
    print(f"Total : {len(all_docs)} documents charg√©s dans la base de connaissances")
    return all_docs
            
docs = load_all_documents()

DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echange1.txt
DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echange10.txt
DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echange11.txt
DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echange12.txt
DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echange13.txt
DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echange14.txt
DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echange15.txt
DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echange16.txt


DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echange17.txt
DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echange18.txt
DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echange19.txt
DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echange2.txt
DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echange20.txt
DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echange21.txt
DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echange22.txt
DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echange23.txt
DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echange24.txt
DEBUG:langchain_community.document_loaders.directory:Processing file: ..\data\echanges\echan

46 documents d'echanges charg√©s.
2 documents de regles charg√©s.
2 documents de docs_officiels charg√©s.
Total : 50 documents charg√©s dans la base de connaissances


In [35]:
# D√©couper les documents en chunks pour un meilleur traitement par le mod√®le
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
all_splits = text_splitter.split_documents(docs)

In [36]:
# Initialiser les embeddings Mistral
embeddings = MistralAIEmbeddings()

DEBUG:urllib3.connectionpool:Resetting dropped connection: huggingface.co
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /mistralai/Mixtral-8x7B-v0.1/resolve/main/tokenizer.json HTTP/1.1" 401 0


In [37]:
# Cr√©er le vectorstore en m√©moire √† partir des chunks et des embeddings
vector_store = InMemoryVectorStore.from_documents(all_splits, embeddings)

DEBUG:httpcore.connection:connect_tcp.started host='api.mistral.ai' port=443 local_address=None timeout=120 socket_options=None
DEBUG:httpcore.connection:connect_tcp.complete return_value=<httpcore._backends.sync.SyncStream object at 0x0000023A045DA9F0>
DEBUG:httpcore.connection:start_tls.started ssl_context=<ssl.SSLContext object at 0x0000023A02D16550> server_hostname='api.mistral.ai' timeout=120
DEBUG:httpcore.connection:start_tls.complete return_value=<httpcore._backends.sync.SyncStream object at 0x0000023A047F78C0>
DEBUG:httpcore.http11:send_request_headers.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_headers.complete
DEBUG:httpcore.http11:send_request_body.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_body.complete
DEBUG:httpcore.http11:receive_response_headers.started request=<Request [b'POST']>
DEBUG:httpcore.http11:receive_response_headers.complete return_value=(b'HTTP/1.1', 200, b'OK', [(b'Date', b'Fri, 04 Apr 2025 10:29:06 GM

In [None]:
# D√©finir le prompt pour la recherche de r√©ponse
prompt = hub.pull("rlm/rag-prompt")

# D√©finition de l'√©tat de l'application
class State(TypedDict):
    question: str
    context: List[Document]  # Liste d'objets Document
    db_results: List[Dict[str,Any]] # R√©sultats de la base de donn√©es
    answer: str

# Fonction de r√©cup√©ration des donn√©es de la base de donn√©es
def search_database(state: State) -> Dict[str, Any]:
    # Extraire les num√©ros de dossier de la question
    dossier_numbers = extract_dossier_number(state["question"])
    
    # Si des num√©ros de dossier sont trouv√©s, rechercher dans la base de donn√©es
    db_results = []
    if dossier_numbers:
        db_results = search_dossier_in_db(dossier_numbers)
    
    return {"db_results": db_results}
 
    
# Fonction de r√©cup√©ration (retrieval) des documents pertinents
def retrieve(state: State) -> Dict[str, Any]:
    try:
        # R√©cup√©rer les 3 documents les plus pertinents depuis le vectorstore
        retrieved_docs = vector_store.similarity_search(state["question"], k=5)
        
        # Convertir les r√©sultats de la base de donn√©es en documents
        db_docs = db_resultats_to_documents(state["db_results"])
        
        # Combiner les documents de la base de donn√©es et les documents du vectorstore
        combined_docs = db_docs + retrieved_docs
        
        return {"context": combined_docs}
    except Exception as e:
        print(f"Erreur dans la fonction retrieve: {e}")
        return {"context": []}  # Retourner une liste vide en cas d'erreur


# Fonction de g√©n√©ration de la r√©ponse
def generate(state: State) -> Dict[str, Any]:
    try:
        # V√©rifier si le contexte est vide
        if not state["context"]:
            return {"answer": "Je n'ai pas trouv√© d'informations pertinentes pour r√©pondre √† votre question."}
        
        # Agr√©gation du contenu des documents r√©cup√©r√©s avec d√©tails sur les sources
        docs_details = []
        for doc in state["context"]:  
            source = doc.metadata.get("source", "Source inconnue")
            category = doc.metadata.get("category", "non classifi√©")
            
            # Traitement sp√©cial pour les documents de la base de donn√©es
            if source == "base_de_donnees":
                file_name = f"Base de donn√©es - Dossier {doc.metadata.get('num√©ro', 'inconnu')}"
                section = doc.metadata.get("section", "Section non sp√©cifi√©e")
                page = "N/A"
                update_date = doc.metadata.get("update_date", "Date non disponible")
            else:
                file_name = os.path.basename(source)
                section = doc.metadata.get("section", "Section non sp√©cifi√©e")
                page = doc.metadata.get("page", "Page non sp√©cifi√©e")
                update_date = doc.metadata.get("update_date", "Date non disponible")

            docs_details.append({
                "content": doc.page_content,
                "file_name": file_name,
                "section": section,
                "page": page,
                "update_date": update_date,
                "category": category
            })

        # Agr√©gation du contenu des documents
        docs_content = "\n\n".join(doc["content"] for doc in docs_details)

        # Formatage des sources avec cat√©gorie, section, page et date
        formatted_sources = "\n".join([
            f"[Document: {doc['file_name']}, Cat√©gorie: {doc['category']}, Section: {doc['section']}, Page: {doc['page']}, Mise √† jour: {doc['update_date']}]"
            for doc in docs_details
        ])
        
        # Instructions syst√®me mises √† jour selon les nouvelles exigences
        system_instructions = (
            "Tu es un instructeur expert du dispositif KAP Num√©rique. Tu r√©ponds √† des questions en te basant uniquement sur les informations fournies dans le contexte.\n\n"
            
            "Consignes de r√©ponse :\n"
            "1. Commence ta r√©ponse en r√©p√©tant la question pos√©e, par exemple : 'En r√©ponse √† votre question : \"[question]\", voici les informations demand√©es :'\n"
            "2. Fournis une r√©ponse concise et structur√©e.\n"
            "3. Utilise des phrases et des listes √† puces pour organiser les informations.\n"
            
            "4. Traitement des questions sur un dossier sp√©cifique :\n"
            "   - V√©rifie d'abord les informations de la base de donn√©es.\n"
            "   - Indique clairement le statut actuel du dossier, la date de derni√®re modification, et les informations pertinentes du demandeur.\n"
            "   - Consulte ensuite les documents officiels et les r√®gles pour expliquer les proc√©dures.\n"
            "   - Examine les exemples d'√©changes similaires pour adapter le style et le contenu de ta r√©ponse.\n"
            
            
            "5. Traitement des questions g√©n√©rales sur le dispositif KAP Num√©rique :\n"
            "   - Consulte en priorit√© les documents officiels puis les r√®gles.\n"
            "   - Utilise les exemples d'√©changes pour adapter le format de ta r√©ponse et son niveau de d√©tail.\n"
            
            "6. Limitations :\n"
            "   - Si la question ne concerne ni le dispositif KAP Num√©rique, ni un b√©n√©ficiaire du programme, indique clairement que tu ne peux pas traiter ce type de demande.\n"
            "   - Exemple: 'Votre demande ne semble pas concerner le dispositif KAP Num√©rique ou l'un de ses b√©n√©ficiaires. Je ne peux malheureusement pas traiter ce type de requ√™te.'\n"
            
            "7. Priorisation des sources :\n"
            "   - Documents officiels ('officiel') > R√®gles ('regles') > √âchanges ('echanges')\n"
            "   - Les informations issues de la base de donn√©es sont prioritaires pour les questions sur un dossier sp√©cifique.\n"
            
            "8. Cites syst√©matiquement les sources avec le format suivant : [Document: Nom du document, Cat√©gorie: Type de document, Section: Nom de la section, Page: Num√©ro de page, Mise √† jour: Date].\n"
        )
        
        # Construction de l'invite utilisateur
        user_prompt = f"Question: {state['question']}\n\nContexte extrait des documents et de la base de donn√©es:\n{docs_content}"
        
        # Messages combinant instructions syst√®me et question de l'utilisateur
        messages = [
            {"role": "system", "content": system_instructions},
            {"role": "user", "content": user_prompt}
        ]
        
        # Appel au mod√®le LLM avec gestion des erreurs
        try:
            response = llm.invoke(messages)
            return {"answer": response.content}
        except Exception as e:
            return {"answer": f"Erreur lors de la g√©n√©ration de la r√©ponse : {e}"}
    except Exception as e:
        print(f"Erreur dans la fonction generate: {e}")
        return{"answer":f"Une erreur s'est produite lors du traitement de votre demande: {e}"}
    
    
# Construction du graphe d'application
def build_graph():
    try:
        # D√©finir les n≈ìuds du graphe
        workflow = StateGraph(State)
        
        # Ajouter les n≈ìuds individuellement pour mieux contr√¥ler
        workflow.add_node("search_database", search_database)
        workflow.add_node("retrieve", retrieve)
        workflow.add_node("generate", generate)
        
        # D√©finir les transitions entre les n≈ìuds
        workflow.add_edge(START, "search_database")
        workflow.add_edge("search_database", "retrieve")
        workflow.add_edge("retrieve", "generate")
        workflow.add_edge("generate", END)
        
        # Compiler le graphe
        return workflow.compile()
    except Exception as e:
        print(f"Erreur lors de la construction du graphe: {e}")
        raise
        





DEBUG:urllib3.connectionpool:Starting new HTTPS connection (1): api.smith.langchain.com:443
DEBUG:urllib3.connectionpool:Starting new HTTPS connection (2): api.smith.langchain.com:443
DEBUG:urllib3.connectionpool:https://api.smith.langchain.com:443 "GET /info HTTP/1.1" 200 672
DEBUG:urllib3.connectionpool:https://api.smith.langchain.com:443 "GET /commits/rlm/rag-prompt/latest HTTP/1.1" 200 844


In [39]:
# On initialise le graphe
graph = build_graph()

if __name__ == "__main__":
    print("Tapez 'exit' pour quitter.")
    
    # Tester d'abord la connexion √† la base de donn√©es
    try:
        db_manager = DatabaseManager()
        if not db_manager.tester_connexion():
            print("Avertissement: Impossible de se connecter √† la base de donn√©es. Les requ√™tes sur les dossiers ne fonctionneront pas.")
    except Exception as e:
        print(f"Erreur lors de l'initialisation de la connexion √† la base de donn√©es: {e}")
    
    while True:
        try:
            user_query = input("\nPosez votre question : ")
            if user_query.lower() in ["exit", "quit"]:
                break
                
            # Initialiser l'√©tat avec des listes vides pour context et db_results
            initial_state = {
                "question": user_query,
                "context": [],
                "db_results": [],
                "answer": ""
            }
            
            # Invoquer le graphe avec gestion d'erreur
            try:
                state = graph.invoke(initial_state)
                print("\nR√©ponse :", state["answer"])
            except Exception as e:
                print(f"\nErreur lors de l'ex√©cution du graphe: {e}")
                
        except KeyboardInterrupt:
            print("\nProgramme interrompu par l'utilisateur.")
            break
        except Exception as e:
            print(f"\nErreur inattendue: {e}")

Tapez 'exit' pour quitter.
 Connexion r√©ussie avec pymysql.
 Connexion r√©ussie avec pymysql.


DEBUG:httpcore.connection:close.started
DEBUG:httpcore.connection:close.complete
DEBUG:httpcore.connection:connect_tcp.started host='api.mistral.ai' port=443 local_address=None timeout=120 socket_options=None
DEBUG:httpcore.connection:connect_tcp.complete return_value=<httpcore._backends.sync.SyncStream object at 0x0000023A0278E5A0>
DEBUG:httpcore.connection:start_tls.started ssl_context=<ssl.SSLContext object at 0x0000023A02D16550> server_hostname='api.mistral.ai' timeout=120
DEBUG:httpcore.connection:start_tls.complete return_value=<httpcore._backends.sync.SyncStream object at 0x0000023A02ED0950>
DEBUG:httpcore.http11:send_request_headers.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_headers.complete
DEBUG:httpcore.http11:send_request_body.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_body.complete
DEBUG:httpcore.http11:receive_response_headers.started request=<Request [b'POST']>
DEBUG:httpcore.http11:receive_response_headers.complete


R√©ponse : En r√©ponse √† votre question : "Depuis le 27 F√©vrier 2025, mon dossier a √©t√© mis en paiement. Quand notre association va-t-elle recevoir sa subvention s'il vous plait? Je ne comprends pas trop les deadlines l√†.", voici les informations demand√©es :

- **Statut actuel du dossier 82-2415** : Mandatement
- **Date de derni√®re modification** : 27/02/2025
- **Informations pertinentes du demandeur** :
  - Nom de l'usager : Kassim Riday
  - Montant : 3200 ‚Ç¨

En r√©ponse √† votre question : "Quand notre association va-t-elle recevoir sa subvention s'il vous plait?" :
- Le statut de votre dossier est actuellement "Mandatement", ce qui signifie que le paiement est en cours de traitement.
- Le paiement devrait √™tre effectu√© dans les jours suivants.

Pour plus d'informations, vous pouvez contacter l'agent affect√© √† votre dossier : anaelle.nimba@cr-reunion.fr.

En vous remerciant de votre compr√©hension.

Cordialement,

[Document: √âchanges, Cat√©gorie: √âchanges, Section: Do

NameError: name 'python' is not defined