# üìã D√©monstration NER + RAG pour Fiches de D√©fauts

Ce notebook d√©montre l'utilisation du syst√®me de NER hybride et d'int√©gration RAG pour extraire et compl√©ter automatiquement les fiches de d√©fauts.

## üîß Configuration et imports

In [None]:
import sys
sys.path.append('../src')

from ner_defaut_documents import (
    extract_entities_from_defaut_document,
    generate_rag_completion_prompt,
    display_entities
)
from rag_integration_ner import DefautDocumentRAG, process_document_with_rag_suggestions

import json
from pathlib import Path
from IPython.display import display, Markdown, HTML

## üìÑ √âtape 1 : Charger un document OCR

In [None]:
# Chemin vers le document exemple
doc_path = Path("../data/ocr_results/2291 - GAEC DE VAULEON - DEFAUT_ocr.txt")

# Lire le contenu
with open(doc_path, 'r', encoding='utf-8') as f:
    ocr_text = f.read()

print("üìÑ Document charg√©:")
print("=" * 80)
print(ocr_text)
print("=" * 80)

## ü§ñ √âtape 2 : Extraction des entit√©s avec NER

In [None]:
# Extraire les entit√©s
print("üîç Extraction en cours...\n")
entities = extract_entities_from_defaut_document(ocr_text)

# Afficher les r√©sultats
display_entities(entities)

## üìä √âtape 3 : Visualiser les donn√©es extraites

In [None]:
# Afficher le JSON structur√©
print("üìä Donn√©es structur√©es (JSON):\n")
print(json.dumps(entities, indent=2, ensure_ascii=False))

## üìã √âtape 4 : Analyse des champs manquants

In [None]:
champs_manquants = entities.get('champs_manquants', [])

if champs_manquants:
    display(Markdown(f"### ‚ö†Ô∏è {len(champs_manquants)} champ(s) manquant(s)"))
    
    for i, champ in enumerate(champs_manquants, 1):
        print(f"{i}. {champ}")
else:
    display(Markdown("### ‚úÖ Tous les champs sont remplis !"))

## üí¨ √âtape 5 : G√©n√©ration du prompt RAG

In [None]:
# G√©n√©rer le prompt de compl√©tion
rag_prompt = generate_rag_completion_prompt(entities)

display(Markdown(rag_prompt))

## üéØ √âtape 6 : Initialiser le syst√®me RAG

In [None]:
# Initialiser le RAG
rag = DefautDocumentRAG(ocr_text)

# Obtenir le prompt initial
initial_prompt = rag.get_initial_prompt()

display(Markdown("### ü§ñ Prompt initial du RAG"))
display(Markdown(initial_prompt))

## üí≠ √âtape 7 : Simulation d'un dialogue RAG

In [None]:
# Premier message utilisateur
user_message_1 = "Le num√©ro d'AO est AO-2022-0456"

display(Markdown(f"**üë§ Utilisateur:** {user_message_1}"))

response_1 = rag.chat(user_message_1)

display(Markdown(f"**ü§ñ Assistant:** {response_1}"))

In [None]:
# Deuxi√®me message utilisateur
user_message_2 = "Oui, le document a √©t√© sign√©"

display(Markdown(f"**üë§ Utilisateur:** {user_message_2}"))

response_2 = rag.chat(user_message_2)

display(Markdown(f"**ü§ñ Assistant:** {response_2}"))

## üìä √âtape 8 : Suggestions RAG avanc√©es

In [None]:
# Obtenir les suggestions RAG d√©taill√©es
result_with_suggestions = process_document_with_rag_suggestions(str(doc_path))

display(Markdown("### üéØ Questions sugg√©r√©es pour le RAG"))

for question in result_with_suggestions['rag_suggestions']['questions_a_poser']:
    display(Markdown(f"**Champ:** `{question['champ']}`"))
    display(Markdown(f"**Question:** {question['question']}"))
    display(Markdown(f"**Type:** {question['type']}"))
    
    if 'suggestions' in question:
        display(Markdown(f"**Suggestions:** {', '.join(question['suggestions'])}"))
    
    print("\n---\n")

## üìà √âtape 9 : Statistiques et qualit√©

In [None]:
# Calculer les statistiques
mes = entities.get('mise_en_service', {})
champs_remplis_mes = sum(1 for v in mes.values() if v)
total_champs_mes = len(mes)

tableau = entities.get('tableau_defauts', [])
lignes_completes = sum(1 for item in tableau if item.get('anomalies') and item.get('temps_passe'))
total_lignes = len(tableau)

qualite_ocr = entities.get('qualite_ocr', 'inconnue')

# Afficher les statistiques
stats_html = f"""
<div style="background-color: #f0f0f0; padding: 20px; border-radius: 10px;">
    <h3>üìä Statistiques du document</h3>
    
    <div style="margin: 10px 0;">
        <strong>Mise en Service:</strong><br>
        Champs remplis: {champs_remplis_mes} / {total_champs_mes} 
        ({champs_remplis_mes/total_champs_mes*100:.1f}%)
    </div>
    
    <div style="margin: 10px 0;">
        <strong>Tableau des D√©fauts:</strong><br>
        Lignes compl√®tes: {lignes_completes} / {total_lignes} 
        ({lignes_completes/total_lignes*100:.1f}%)
    </div>
    
    <div style="margin: 10px 0;">
        <strong>Qualit√© OCR:</strong> 
        <span style="color: {'green' if qualite_ocr == 'bonne' else 'orange' if qualite_ocr == 'moyenne' else 'red'};">
            {qualite_ocr.upper()}
        </span>
    </div>
    
    <div style="margin: 10px 0;">
        <strong>Champs manquants:</strong> {len(champs_manquants)}
    </div>
</div>
"""

display(HTML(stats_html))

## üíæ √âtape 10 : Export des donn√©es

In [None]:
# Sauvegarder les r√©sultats
output_dir = Path("../data/ner_results")
output_dir.mkdir(exist_ok=True)

output_file = output_dir / "demo_extraction_result.json"

export_data = {
    "document_source": str(doc_path),
    "entites_extraites": entities,
    "prompt_rag": rag_prompt,
    "suggestions": result_with_suggestions['rag_suggestions']
}

with open(output_file, 'w', encoding='utf-8') as f:
    json.dump(export_data, f, indent=2, ensure_ascii=False)

display(Markdown(f"### ‚úÖ Donn√©es export√©es vers: `{output_file}`"))

## üéì Conclusion

Ce notebook a d√©montr√©:

1. ‚úÖ **Extraction NER** - Utilisation d'un LLM pour extraire les entit√©s structur√©es
2. ‚úÖ **Identification des manques** - D√©tection automatique des champs incomplets
3. ‚úÖ **G√©n√©ration de prompts RAG** - Cr√©ation de questions intelligentes
4. ‚úÖ **Dialogue interactif** - Simulation d'une conversation pour compl√©ter le document
5. ‚úÖ **Statistiques et qualit√©** - √âvaluation de la compl√©tude et de la qualit√© OCR

### üöÄ Prochaines √©tapes

- Int√©grer dans l'interface Streamlit
- Cr√©er une API REST pour l'automatisation
- Ajouter une base de donn√©es pour stocker les documents compl√©t√©s
- Impl√©menter un syst√®me de validation multi-niveaux