In [63]:
import os 
import pymysql
import re
from langgraph.graph import END
from typing import List,TypedDict, Dict, Any, Optional
from mistralai import Mistral
from dotenv import load_dotenv
from langchain.chat_models import init_chat_model
from langchain_mistralai import MistralAIEmbeddings
from langchain_core.vectorstores import InMemoryVectorStore
from langchain.document_loaders import DirectoryLoader,TextLoader
from langchain import hub
from langgraph.graph import START, StateGraph
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_core.documents import Document






In [64]:

load_dotenv()

tracing = os.getenv("LANGSMITH_TRACING")
api_key = os.getenv("LANGSMITH_API_KEY")
Mistral_api_key = Mistral(api_key=os.getenv("MISTRAL_API_KEY"))

# Chemin vers le dossier contenant vos documents
DOCUMENTS_PATH = "../data"

# Chat model mistral
llm = init_chat_model("mistral-large-latest", model_provider="mistralai")


In [65]:
class DatabaseManager:
    def __init__(self):
        load_dotenv()
        self.config = {
            'user': os.getenv('SQL_USER'),
            'password': os.getenv('SQL_PASSWORD', ''),
            'host': os.getenv('SQL_HOST', 'localhost'),
            'database': os.getenv('SQL_DB'),
            'port': int(os.getenv('SQL_PORT', '3306'))
        }
        if not all([self.config['user'], self.config['host'], self.config['database']]):
            raise ValueError("Variables essentielles manquantes : SQL_USER, SQL_HOST ou SQL_DB.")
        

    def tester_connexion(self) -> bool:
        try:
            conn = pymysql.connect(**self.config)
            curseur = conn.cursor()
            curseur.execute("SELECT 1")
            curseur.fetchone()
            curseur.close()
            conn.close()
            print(" Connexion r√©ussie avec pymysql.")
            return True
        except pymysql.Error as erreur:
            print(f" √âchec de la connexion : {erreur}")
            return False

    def rechercher_dossier(self, numero_dossier: Optional[str] = None, **kwargs) -> List[Dict[str, Any]]:
        try:
            conn = pymysql.connect(**self.config)
            curseur = conn.cursor(pymysql.cursors.DictCursor)  # Pour des r√©sultats sous forme de dictionnaires
            conditions = []
            parametres = []

            if numero_dossier:
                conditions.append("Numero = %s")
                parametres.append(numero_dossier)

            for cle, valeur in kwargs.items():
                if valeur is not None:
                    conditions.append(f"{cle} = %s")
                    parametres.append(valeur)

            requete = f"SELECT * FROM dossiers WHERE {' AND '.join(conditions) if conditions else '1=1'}"
            curseur.execute(requete, parametres)
            resultats = curseur.fetchall()
            curseur.close()
            conn.close()
            return resultats
        except pymysql.Error as erreur:
            print(f" Erreur de recherche : {erreur}")
            return []
"""  
if __name__ == "__main__":
    try:
        db_manager = DatabaseManager()
        if db_manager.tester_connexion():
            resultats = db_manager.rechercher_dossier(numero_dossier='82-2069')
            print("\nüìã R√©sultats de la recherche :")
            for dossier in resultats:
                print(dossier)
        else:
            print(" √âchec de la connexion.")
    except Exception as e:
        print(f" Erreur critique : {e}")
        traceback.print_exc()
"""

'  \nif __name__ == "__main__":\n    try:\n        db_manager = DatabaseManager()\n        if db_manager.tester_connexion():\n            resultats = db_manager.rechercher_dossier(numero_dossier=\'82-2069\')\n            print("\nüìã R√©sultats de la recherche :")\n            for dossier in resultats:\n                print(dossier)\n        else:\n            print(" √âchec de la connexion.")\n    except Exception as e:\n        print(f" Erreur critique : {e}")\n        traceback.print_exc()\n'

In [66]:
# Fonction pour extraire le num√©ro de dossier de la question
def extract_dossier_number(question: str) -> List[str]:
    # Pattern pour rechercher les num√©ros de dossier (format XX-XXXX ou similaire)
    patterns = [
        r'\b\d{2}-\d{4}\b',  # Format 82-2069
        r'\bdossier\s+(?:n¬∞|num√©ro|numero|n|¬∞|)?\s*(\w+-\w+)\b',  # Format avec "dossier n¬∞ XXX-XXX"
        r'\bdossier\s+(?:n¬∞|num√©ro|numero|n|¬∞|)?\s*(\d+)\b'  # Format avec "dossier n¬∞ XXX"
    ]
    
    results = []
    for pattern in patterns:
        matches = re.findall(pattern, question, re.IGNORECASE)
        if matches:
            results.extend(matches)
    
    return list(set(results))  # √âliminer les doublons
    
   

# Fonction pour rechercher les informations d'un dossier dans la base de donn√©es via DatabaseManager
def search_dossier_in_db(dossier_numbers: List[str]) -> List[Dict[str, Any]]:
    try:
        db_manager = DatabaseManager()
        
        # Tester la connexion avant de proc√©der
        if not db_manager.tester_connexion():
            print("Impossible de se connecter √† la base de donn√©es")
            return []
        
        results = []
        for num in dossier_numbers:
            dossier_results = db_manager.rechercher_dossier(numero_dossier=num)
            results.extend(dossier_results)
        
        return results
    except Exception as e:
        print(f"Erreur lors de la recherche dans la base de donn√©es: {e}")
        return []

        
def db_resultats_to_documents(resultats: List[Dict[str,Any]]) -> List[Document]:
    documents = [] 
    for resultat in resultats:
        #contenu format√© √† partir des donne du dossier
        content = f"""
        -Informations sur le dossier {resultat.get('Numero', 'N/A')}:
        - Nom de l'usager: {resultat.get('nom_usager', 'N/A')}
        - Date de cr√©ation: {resultat.get('date_creation', 'N/A')}
        - Derni√®re modification: {resultat.get('derniere_modification', 'N/A')}
        - Agent affect√©: {resultat.get('agent_affecter', 'N/A')}
        - Instructeur: {resultat.get('instructeur', 'N/A')}
        - Statut actuel: {resultat.get('statut', 'N/A')}
        - Statut visible par l'usager: {resultat.get('statut_visible_usager', 'N/A')}
        - Montant: {resultat.get('montant', 'N/A')} ‚Ç¨
        """
        
        #cr√©ation d'un document Langchain avec le meta data
        doc = Document(
            page_content=content,
            metadata={
                "source": "base_de_donnees",
                "type":"dossier",
                "num√©ro": resultat.get('Numero','N/A'),
                "section":"Informations dossier",
                "page": "1", 
                "update_date": resultat.get('derniere_modification', 'N/A')
                
            }
        )
        
        documents.append(doc)
        
    return documents

In [67]:
# Charger les documents depuis le dossier "data"
try:
    loader = DirectoryLoader(
        DOCUMENTS_PATH,
        glob="*.txt",  # Charger uniquement les fichiers .txt
        loader_cls=TextLoader,
        loader_kwargs={"encoding": "utf-8"}  # Sp√©cifier l'encodage appropri√©
    )
    docs = loader.load()

    if docs:
        print(f"{len(docs)} documents charg√©s avec succ√®s.")
        for i, doc in enumerate(docs[:5]):  # Afficher les 5 premiers documents
            # Extraire le nom du fichier depuis la m√©tadonn√©e "source"
            source = doc.metadata.get("source", "inconnu")
            file_title = os.path.basename(source)
            print(f"Document {i+1}:")
            print(f"Nom du fichier : {file_title}")
            print("-" * 50)
    else:
        print("Aucun document n'a √©t√© charg√©.")
        # Initialiser docs comme une liste vide pour √©viter les erreurs
        docs = []
except Exception as e:
    print(f"Erreur lors du chargement des documents: {e}")
    docs = []

2 documents charg√©s avec succ√®s.
Document 1:
Nom du fichier : FAQ_kap_numerique.txt
--------------------------------------------------
Document 2:
Nom du fichier : Fiche_action_1.2.5_kap_numerique.txt
--------------------------------------------------


In [68]:
# D√©couper les documents en chunks pour un meilleur traitement par le mod√®le
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
all_splits = text_splitter.split_documents(docs)

In [69]:
# Initialiser les embeddings Mistral
embeddings = MistralAIEmbeddings()



In [70]:
# Cr√©er le vectorstore en m√©moire √† partir des chunks et des embeddings
vector_store = InMemoryVectorStore.from_documents(all_splits, embeddings)

In [71]:
# D√©finir le prompt pour la recherche de r√©ponse
prompt = hub.pull("rlm/rag-prompt")

# D√©finition de l'√©tat de l'application
class State(TypedDict):
    question: str
    context: List[Document]  # Liste d'objets Document
    db_results: List[Dict[str,Any]] # R√©sultats de la base de donn√©es
    answer: str

# Fonction de r√©cup√©ration des donn√©es de la base de donn√©es
def search_database(state: State) -> Dict[str, Any]:
    # Extraire les num√©ros de dossier de la question
    dossier_numbers = extract_dossier_number(state["question"])
    
    # Si des num√©ros de dossier sont trouv√©s, rechercher dans la base de donn√©es
    db_results = []
    if dossier_numbers:
        db_results = search_dossier_in_db(dossier_numbers)
    
    return {"db_results": db_results}
 
    
# Fonction de r√©cup√©ration (retrieval) des documents pertinents
def retrieve(state: State) -> Dict[str, Any]:
    try:
        # R√©cup√©rer les documents pertinents depuis le vectorstore
        retrieved_docs = vector_store.similarity_search(state["question"], k=3)
        
        # Convertir les r√©sultats de la base de donn√©es en documents
        db_docs = db_resultats_to_documents(state["db_results"])
        
        # Combiner les documents de la base de donn√©es et les documents du vectorstore
        combined_docs = db_docs + retrieved_docs
        
        return {"context": combined_docs}
    except Exception as e:
        print(f"Erreur dans la fonction retrieve: {e}")
        return {"context": []}  # Retourner une liste vide en cas d'erreur


# Fonction de g√©n√©ration de la r√©ponse
def generate(state: State) -> Dict[str, Any]:
    try:
        # V√©rifier si le contexte est vide
        if not state["context"]:
            return {"answer": "Je n'ai pas trouv√© d'informations pertinentes pour r√©pondre √† votre question."}
        
        # Agr√©gation du contenu des documents r√©cup√©r√©s avec d√©tails sur les sources
        docs_details = []
        for doc in state["context"]:  
            source = doc.metadata.get("source", "Source inconnue")      
            # Traitement sp√©cial pour les documents de la base de donn√©es
            if source == "base_de_donnees":
                file_name = f"Base de donn√©es - Dossier {doc.metadata.get('numero', 'inconnu')}"
                section = doc.metadata.get("section", "Section non sp√©cifi√©e")
                page = "N/A"
                update_date = doc.metadata.get("update_date", "Date non disponible")
            else:
                file_name = os.path.basename(source)
                section = doc.metadata.get("section", "Section non sp√©cifi√©e")
                page = doc.metadata.get("page", "Page non sp√©cifi√©e")
                update_date = doc.metadata.get("update_date", "Date non disponible")

            docs_details.append({
                "content": doc.page_content,
                "file_name": file_name,
                "section": section,
                "page": page,
                "update_date": update_date
            })

        # Agr√©gation du contenu des documents
        docs_content = "\n\n".join(doc["content"] for doc in docs_details)

        # Formatage des sources avec section, page et date
        formatted_sources = "\n".join([
            f"[Document: {doc['file_name']}, Section: {doc['section']}, Page: {doc['page']}, Mise √† jour: {doc['update_date']}]"
            for doc in docs_details
        ])
        
        # Instructions syst√®me mises √† jour pour inclure la question dans la r√©ponse
        system_instructions = (
            "Tu es un instructeur expert du dispositif KAP Num√©rique. Tu r√©ponds √† des questions en te basant uniquement sur les documents officiels fournis.\n\n"
            "Consignes de r√©ponse :\n"
            "1. Commence ta r√©ponse en r√©p√©tant la question pos√©e, par exemple : 'En r√©ponse √† votre question : \"[question]\", voici les informations demand√©es :'\n"
            "2. Fournis une r√©ponse concise et structur√©e.\n"
            "3. Utilise des phrase et listes √† puces pour organiser les informations.\n"
            "4. Si la question concerne un dossier sp√©cifique, v√©rifie d'abord les informations de la base de donn√©es. Indique clairement le statut actuel du dossier, la date de derni√®re modification, et toute information pertinente sur le demandeur.\n"
            "5.Pour les questions sur le paiement, si le statut est 'Mandatement', indique que le paiement est en cours de traitement et devrait √™tre effectu√© dans les jours suivants.\n"
            "6. Cites syst√©matiquement les sources avec le format suivant : [Document: Nom du document, Section: Nom de la section, Page: Num√©ro de page, Mise √† jour: Date].\n\n"
            
            "Exemple de r√©ponse attendue :\n"
            "Question: Quels types de projets peuvent √™tre financ√©s par KAP Num√©rique ?\n\n"
            "R√©ponse:\n"
            "En r√©ponse √† votre question : \"Quels types de projets peuvent √™tre financ√©s par KAP Num√©rique ?\", voici les informations demand√©es :\n"
            "- Projets de visibilit√© num√©rique et services aux usagers :\n"
            "  - Digitalisation de contenus (logo, charte graphique)\n"
            "  - Cr√©ation ou refonte d‚Äôun site internet ou d‚Äôune solution de vente en ligne\n"
            "  - R√©f√©rencement naturel (SEO)\n"
            "  - Abonnement √† une place de march√©\n"
            "  - D√©veloppement de la pr√©sence sur les r√©seaux sociaux\n"
            "  - D√©veloppement d‚Äôune application mobile\n"
            "  - Mise en place de chatbots\n"
            "  - Projets de s√©curit√© informatique :\n"
            "  - Audits de s√©curit√©, tests d‚Äôintrusion\n"
            "  - S√©curisation des sites internet\n"
            "  - S√©curisation des donn√©es (conformit√© RGPD, correction des failles)\n"
            "  - Assistance √† la cr√©ation de VPN\n"
            "  - Prestation de sauvegarde des donn√©es\n\n"
            "Sources:\n"
            "[Document: FA_1.2.5_kap_numerique.pdf, Section: 3. DESCRIPTION TECHNIQUE, Page: 2, Mise √† jour: Date non disponible]\n"
            "[Document: FAQs-Kap Numerique V2, Section: 3-Projets finan√ßables, Page: 1, Mise √† jour: 04/03/2025]\n\n"
            "Maintenant, r√©ponds √† la question en respectant ce format."
        )
        
        # Construction de l'invite utilisateur
        user_prompt = f"Question: {state['question']}\n\nContexte extrait des documents et de la base de donn√©es:\n{docs_content}"
        
        # Messages combinant instructions syst√®me et question de l'utilisateur
        messages = [
            {"role": "system", "content": system_instructions},
            {"role": "user", "content": user_prompt}
        ]
        
        # Appel au mod√®le LLM avec gestion des erreurs
        try:
            response = llm.invoke(messages)
            return {"answer": response.content}
        except Exception as e:
            return {"answer": f"Erreur lors de la g√©n√©ration de la r√©ponse : {e}"}
    except Exception as e:
        print(f"Erreur dans la fonction generate: {e}")
        return{"answer":f"Une erreur s'est produite lors du traitement de votre demande: {e}"} 

# Construction du graphe d'application
def build_graph():
    try:
        # D√©finir les n≈ìuds du graphe
        workflow = StateGraph(State)
        
        # Ajouter les n≈ìuds individuellement pour mieux contr√¥ler
        workflow.add_node("search_database", search_database)
        workflow.add_node("retrieve", retrieve)
        workflow.add_node("generate", generate)
        
        # D√©finir les transitions entre les n≈ìuds
        workflow.add_edge(START, "search_database")
        workflow.add_edge("search_database", "retrieve")
        workflow.add_edge("retrieve", "generate")
        workflow.add_edge("generate", END)
        
        # Compiler le graphe
        return workflow.compile()
    except Exception as e:
        print(f"Erreur lors de la construction du graphe: {e}")
        raise
        





In [72]:
# On initialise le graphe
graph = build_graph()

if __name__ == "__main__":
    print("Tapez 'exit' pour quitter.")
    
    # Tester d'abord la connexion √† la base de donn√©es
    try:
        db_manager = DatabaseManager()
        if not db_manager.tester_connexion():
            print("Avertissement: Impossible de se connecter √† la base de donn√©es. Les requ√™tes sur les dossiers ne fonctionneront pas.")
    except Exception as e:
        print(f"Erreur lors de l'initialisation de la connexion √† la base de donn√©es: {e}")
    
    while True:
        try:
            user_query = input("\nPosez votre question : ")
            if user_query.lower() in ["exit", "quit"]:
                break
                
            # Initialiser l'√©tat avec des listes vides pour context et db_results
            initial_state = {
                "question": user_query,
                "context": [],
                "db_results": [],
                "answer": ""
            }
            
            # Invoquer le graphe avec gestion d'erreur
            try:
                state = graph.invoke(initial_state)
                print("\nR√©ponse :", state["answer"])
            except Exception as e:
                print(f"\nErreur lors de l'ex√©cution du graphe: {e}")
                
        except KeyboardInterrupt:
            print("\nProgramme interrompu par l'utilisateur.")
            break
        except Exception as e:
            print(f"\nErreur inattendue: {e}")

Tapez 'exit' pour quitter.
 Connexion r√©ussie avec pymysql.
 Connexion r√©ussie avec pymysql.

R√©ponse : En r√©ponse √† votre question : "J'ai d√©pos√© les documents le 19/03/2025 'factures √† valider', je n'ai pas re√ßu de mail ou de notification concernant la suite. Pourriez vous me renseigner concernant ce point la r√©f√©rence est la n¬∞ : 82-2240.", voici les informations demand√©es :

- **Statut actuel du dossier** : Votre dossier est actuellement au statut "Factures √† valider".
- **Derni√®re modification** : La derni√®re modification de votre dossier date du 19/03/2025 √† 09:34.
- **Agent affect√©** : L'agent en charge de votre dossier est boina.moinahadidja@cr-reunion.fr.
- **Instructeur** : L'instructeur de votre dossier est √©galement boina.moinahadidja@cr-reunion.fr.
- **Prochaines √©tapes** :
  - Le service instructeur va contr√¥ler les pi√®ces transmises et les livrables.
  - Une fois les factures valid√©es, le paiement sera effectu√© par la Paierie r√©gionale.
  - Le tr