# 🎯 Tutorial Pas à Pas : Évaluation SmartRAG avec Ragas

Ce notebook vous guide **étape par étape** pour évaluer votre système SmartRAG en utilisant Ragas via Langfuse.

## 📋 Prérequis
- SmartRAG configuré et connecté à Langfuse
- Clés API Langfuse
- Une clé API pour l'évaluation (OpenAI/Gemini/Claude)
- Questions de test préparées

## 🗂️ Ce que vous allez apprendre
1. **Configurer** l'évaluation avec vos clés API
2. **Préparer** vos questions de référence  
3. **Récupérer** les traces SmartRAG depuis Langfuse
4. **Évaluer** la qualité avec les métriques Ragas
5. **Analyser** les résultats et identifier les améliorations

---

## 🔧 Étape 1 : Configuration initiale

### 1.1 Installation des dépendances

Exécutez cette cellule pour installer tous les packages nécessaires :

In [1]:
# Installation des dépendances (modèles 2025)
!pip install --upgrade pip
!pip install langfuse>=3.0.0 ragas>=0.3.0 pandas matplotlib seaborn python-dotenv
!pip install openai>=1.0.0 google-generativeai>=0.8.0 anthropic>=0.64.0
!pip install datasets>=4.0.0 tqdm>=4.65.0

print("✅ Installation terminée !")

✅ Installation terminée !


### 1.2 Configuration de vos clés API

**📝 Action requise :** Complétez les variables ci-dessous avec vos vraies clés API :

In [2]:
import os
from datetime import datetime, timedelta

# 🔑 LANGFUSE - Remplacez par vos vraies clés
LANGFUSE_PUBLIC_KEY = "pk-lf-b65665b3-76ec-4a73-95ac-91254ae9af8a"  # 👈 Votre clé publique Langfuse
LANGFUSE_SECRET_KEY = "your-openai-api-key"  # 👈 Votre clé secrète Langfuse  
LANGFUSE_BASE_URL = "https://cloud.langfuse.com"    # Ou votre instance privée

# 🤖 LLM pour Ragas - Choisissez UN provider et sa clé
RAGAS_LLM_PROVIDER = "openai"  # openai | gemini | claude

# Clés API pour l'évaluation (uncommentez celle que vous utilisez)
OPENAI_API_KEY = "YOUR_OPENAI_API_KEY_HERE"      # Pour OpenAI GPT-4.1-mini
# GOOGLE_API_KEY = "AIzaSyAP0wVrreVe1xOx4-3S0axSSWBV6uOsCLI"       # Pour Gemini 2.5 Flash 
# ANTHROPIC_API_KEY = "your-openai-api-key"    # Pour Claude 3.5 Haiku

# 🎯 SmartRAG - Paramètres d'évaluation
SMARTRAG_PROJECT_NAME = ""  # Nom de votre projet SmartRAG (ou laissez vide pour tous)
EVALUATION_TIMERANGE = 7   # Nombre de jours à analyser

# Modèles 2025 recommandés
MODEL_MAP = {
    "openai": "gpt-4.1-mini",          # Nouveau modèle 2025, -83% coût
    "gemini": "gemini-2.5-flash",      # Dernière version avec thinking
    "claude": "claude-3-5-haiku-20241022"  # Version 2024 la plus récente
}

RAGAS_MODEL_NAME = MODEL_MAP[RAGAS_LLM_PROVIDER]

print(f"🎯 Configuration choisie:")
print(f"   Provider: {RAGAS_LLM_PROVIDER}")
print(f"   Modèle: {RAGAS_MODEL_NAME}")
print(f"   Projet SmartRAG: {SMARTRAG_PROJECT_NAME or 'Tous'}")
print(f"   Période: {EVALUATION_TIMERANGE} derniers jours")

# Validation des clés
if not LANGFUSE_PUBLIC_KEY.startswith("pk-lf-"):
    print("⚠️  ATTENTION: Remplacez LANGFUSE_PUBLIC_KEY par votre vraie clé")
    
if RAGAS_LLM_PROVIDER == "openai" and not OPENAI_API_KEY.startswith("your-openai-api-key"):
    print("⚠️  ATTENTION: Remplacez OPENAI_API_KEY par votre vraie clé OpenAI")

🎯 Configuration choisie:
   Provider: openai
   Modèle: gpt-4.1-mini
   Projet SmartRAG: Tous
   Période: 7 derniers jours


## 📝 Étape 2 : Préparation des questions de référence

### 2.1 Créer votre jeu de test

Nous allons créer un fichier CSV avec vos questions de test. **Modifiez les exemples ci-dessous** avec vos vraies questions :

In [3]:
import pandas as pd
import os

# 📝 PERSONNALISEZ ces questions avec vos vrais cas d'usage SmartRAG
reference_questions = {
    'question_id': ['Q001', 'Q002', 'Q003'],
    
    'question': [
        "Quelle est la date limite du premier livrable de la personne que Marc Dubois manage et qui est experte en Python ?",
        "Quel est le budget alloué au projet DataScience pour 2025 ?",
        "Qui sont les participants à la réunion de planification du 15 janvier ?"
    ],
    
    'reference_answer': [
        "Sophie Martin, qui est managée par Marc Dubois et experte en Python, doit livrer un premier PoC (Proof of Concept) pour le 1er mars 2025.",
        "Le budget alloué au projet DataScience pour 2025 est de 250 000 euros, réparti entre infrastructure (100k€) et développement (150k€).",
        "Les participants à la réunion de planification du 15 janvier sont : Marc Dubois (chef de projet), Sophie Martin (développeur senior), Alice Dupont (data scientist), et Paul Moreau (product owner)."
    ],
    
    'expected_contexts': [
        "Répertoire équipe|||Compte-rendu de réunion|||Note de cadrage projet",
        "Document budgétaire|||Plan financier 2025|||Validation direction",
        "Calendrier réunions|||Liste participants|||Planning équipe"
    ],
    
    'category': ['Management', 'Finance', 'Planning'],
    'difficulty': ['Moyen', 'Facile', 'Facile']
}

# Création du DataFrame
df_reference = pd.DataFrame(reference_questions)

# Sauvegarde dans le bon répertoire
os.makedirs('./data/reference', exist_ok=True)
reference_path = './data/reference/reference_qa.csv'
df_reference.to_csv(reference_path, index=False, encoding='utf-8')

print(f"✅ Fichier de référence créé: {reference_path}")
print(f"📊 {len(df_reference)} questions préparées")

# Aperçu
print("\n📋 Aperçu de vos questions:")
display(df_reference[['question_id', 'question', 'category']])

print("\n💡 Conseil: Ajoutez plus de questions représentatives de votre usage SmartRAG")

✅ Fichier de référence créé: ./data/reference/reference_qa.csv
📊 3 questions préparées

📋 Aperçu de vos questions:


Unnamed: 0,question_id,question,category
0,Q001,Quelle est la date limite du premier livrable ...,Management
1,Q002,Quel est le budget alloué au projet DataScienc...,Finance
2,Q003,Qui sont les participants à la réunion de plan...,Planning



💡 Conseil: Ajoutez plus de questions représentatives de votre usage SmartRAG


## 🔗 Étape 3 : Connexion à Langfuse et récupération des traces

### 3.1 Test de connexion Langfuse

In [4]:
from langfuse import Langfuse

print("🔗 Connexion à Langfuse...")

try:
    # Connexion
    langfuse_client = Langfuse(
        public_key=LANGFUSE_PUBLIC_KEY,
        secret_key=LANGFUSE_SECRET_KEY, 
        host=LANGFUSE_BASE_URL
    )
    
    # Test simple
    traces = langfuse_client.api.trace.list(limit=1)
    
    print("✅ Connexion Langfuse réussie!")
    print(f"🌐 URL: {LANGFUSE_BASE_URL}")
    
except Exception as e:
    print(f"❌ Erreur de connexion Langfuse: {e}")
    print("\n🔧 Vérifications:")
    print("   1. Vos clés LANGFUSE_PUBLIC_KEY et LANGFUSE_SECRET_KEY sont correctes")
    print("   2. L'URL Langfuse est accessible")
    print("   3. SmartRAG envoie bien des traces à Langfuse")
    raise

🔗 Connexion à Langfuse...
✅ Connexion Langfuse réussie!
🌐 URL: https://cloud.langfuse.com


### 3.2 Récupération des traces SmartRAG

In [12]:
# Définition de la période
end_date = datetime.now() 
start_date = end_date - timedelta(days=EVALUATION_TIMERANGE)

print(f"📅 Recherche des traces SmartRAG:")
print(f"   Période: du {start_date.strftime('%Y-%m-%d %H:%M')} au {end_date.strftime('%Y-%m-%d %H:%M')}")
print(f"   Projet: {SMARTRAG_PROJECT_NAME or 'Tous les projets'}")

# Récupération des traces
all_traces = []
page = 1
total_found = 0

print("\n🔍 Récupération en cours...")

while page <= 10:  # Limite pour éviter les boucles infinies
    try:
        traces_response = langfuse_client.api.trace.list(
            page=page,
            limit=50,
            from_timestamp=start_date,
            to_timestamp=end_date
        )
        
        if not traces_response.data:
            break
            
        page_traces = []
        for trace in traces_response.data:
            # Filtrage par projet SmartRAG si spécifié
            if SMARTRAG_PROJECT_NAME:
                if not (trace.name and SMARTRAG_PROJECT_NAME.lower() in trace.name.lower()):
                    continue
            
            page_traces.append(trace)
        
        all_traces.extend(page_traces)
        total_found += len(page_traces)
        
        print(f"   Page {page}: {len(page_traces)} traces SmartRAG trouvées")
        
        page += 1
        
    except Exception as e:
        print(f"⚠️  Erreur page {page}: {e}")
        break

print(f"\n📊 Résultat: {total_found} traces SmartRAG récupérées")

if total_found == 0:
    print("\n❌ Aucune trace trouvée!")
    print("\n🔧 Vérifications à faire:")
    print("   1. SmartRAG envoie-t-il des traces à Langfuse ?")
    print("   2. La période de recherche est-elle correcte ?")
    print("   3. Le nom du projet SmartRAG correspond-il ?")
    print("\n💡 Conseil: Testez d'abord avec SMARTRAG_PROJECT_NAME = '' pour voir toutes les traces")
else:
    print(f"✅ Prêt pour l'étape suivante!")

📅 Recherche des traces SmartRAG:
   Période: du 2025-08-25 12:36 au 2025-09-01 12:36
   Projet: Tous les projets

🔍 Récupération en cours...
   Page 1: 12 traces SmartRAG trouvées

📊 Résultat: 12 traces SmartRAG récupérées
✅ Prêt pour l'étape suivante!


In [None]:
# 🔬 CELLULE DE DIAGNOSTIC - Analyse rapide d'une trace exemple
# Exécutez cette cellule pour comprendre le format de vos traces SmartRAG

if len(all_traces) > 0:
    print("🔍 === ANALYSE RAPIDE D'UNE TRACE EXEMPLE ===\\n")
    
    sample_trace = all_traces[0]  # Prendre la première trace
    
    print(f"📋 Trace ID: {getattr(sample_trace, 'id', 'N/A')}")
    print(f"📅 Timestamp: {getattr(sample_trace, 'timestamp', 'N/A')}")
    print(f"🏷️  Name: {getattr(sample_trace, 'name', 'N/A')}")
    print(f"👤 User ID: {getattr(sample_trace, 'user_id', 'N/A')}")
    
    # Analyse détaillée de l'input
    print(f\"\\n📥 INPUT:\")
    input_data = getattr(sample_trace, 'input', None)
    print(f\"   Type: {type(input_data)}\")
    if input_data is not None:
        if isinstance(input_data, dict):
            print(f\"   Keys: {list(input_data.keys())}\")
            for key, value in input_data.items():
                print(f\"   {key}: {str(value)[:150]}...\")
        else:
            print(f\"   Contenu: {str(input_data)[:300]}...\")
    else:
        print(\"   ❌ Aucun input\")
    
    # Analyse détaillée de l'output  
    print(f\"\\n📤 OUTPUT:\")
    output_data = getattr(sample_trace, 'output', None)
    print(f\"   Type: {type(output_data)}\")
    if output_data is not None:
        if isinstance(output_data, dict):
            print(f\"   Keys: {list(output_data.keys())}\")
            for key, value in output_data.items():
                print(f\"   {key}: {str(value)[:150]}...\")
        else:
            print(f\"   Contenu: {str(output_data)[:300]}...\")
    else:
        print(\"   ❌ Aucun output\")
    
    # Analyse des observations
    observations = getattr(sample_trace, 'observations', [])
    print(f\"\\n📊 OBSERVATIONS ({len(observations)}):\")
    if observations:
        for i, obs in enumerate(observations[:3]):  # Limiter à 3 pour l'affichage
            obs_name = getattr(obs, 'name', f'obs_{i}')
            obs_type = getattr(obs, 'type', 'unknown')
            print(f\"   [{i+1}] {obs_name} (type: {obs_type})\")
            
            obs_input = getattr(obs, 'input', None)
            obs_output = getattr(obs, 'output', None)
            
            if obs_input:
                print(f\"       Input: {str(obs_input)[:100]}...\")
            if obs_output:
                print(f\"       Output: {str(obs_output)[:100]}...\")
    else:
        print(\"   ❌ Aucune observation\")
    
    # Analyse des métadonnées
    metadata = getattr(sample_trace, 'metadata', {})
    print(f\"\\n📋 METADATA:\")
    if metadata and isinstance(metadata, dict):
        print(f\"   Keys: {list(metadata.keys())}\")
        for key, value in list(metadata.items())[:5]:  # Limiter à 5
            print(f\"   {key}: {str(value)[:100]}...\")
    else:
        print(\"   ❌ Aucune métadonnée\")
    
    print(\"\\n\" + \"=\"*50)
    print(\"💡 CONSEILS SELON VOTRE FORMAT:\")
    print(\"1. Si la question est dans input['message'] → OK\")  
    print(\"2. Si la réponse est dans output['answer'] → OK\")
    print(\"3. Si les données sont dans les observations → Identifier le nom\")
    print(\"4. Si format différent → Ajuster la fonction d'extraction\")
    
else:
    print(\"❌ Aucune trace à analyser\")"

## ⚙️ Étape 4 : Traitement et correspondance des traces

### 4.1 Extraction des composants RAG

In [None]:
from difflib import SequenceMatcher

def extract_smartrag_components(trace):
    """Extrait question, réponse et contextes d'une trace SmartRAG avec diagnostic avancé"""
    
    # 🔍 Diagnostic complet de la trace
    trace_info = {
        'trace_id': getattr(trace, 'id', 'unknown'),
        'timestamp': getattr(trace, 'timestamp', None),
        'name': getattr(trace, 'name', ''),
        'user_id': getattr(trace, 'user_id', None),
        'session_id': getattr(trace, 'session_id', None)
    }
    
    # === EXTRACTION DE LA QUESTION ===
    question = ""
    question_source = "non trouvée"
    
    # Stratégie 1: Input direct
    if hasattr(trace, 'input') and trace.input:
        if isinstance(trace.input, str) and len(trace.input.strip()) > 0:
            question = trace.input.strip()
            question_source = "input (string)"
        elif isinstance(trace.input, dict):
            # Recherche dans les clés courantes
            for key in ['message', 'question', 'query', 'prompt', 'text', 'content']:
                if key in trace.input and trace.input[key]:
                    question = str(trace.input[key]).strip()
                    question_source = f"input['{key}']"
                    break
    
    # Stratégie 2: Métadonnées
    if not question and hasattr(trace, 'metadata') and trace.metadata:
        for key in ['question', 'query', 'user_input', 'message']:
            if key in trace.metadata and trace.metadata[key]:
                question = str(trace.metadata[key]).strip()
                question_source = f"metadata['{key}']"
                break
    
    # Stratégie 3: Première observation avec input
    if not question and hasattr(trace, 'observations'):
        for obs in trace.observations[:3]:  # Limiter aux 3 premières
            if hasattr(obs, 'input') and obs.input:
                if isinstance(obs.input, str) and len(obs.input.strip()) > 10:
                    question = obs.input.strip()
                    question_source = f"observation['{getattr(obs, 'name', 'unknown')}'].input"
                    break
                elif isinstance(obs.input, dict):
                    for key in ['message', 'question', 'query']:
                        if key in obs.input and obs.input[key]:
                            question = str(obs.input[key]).strip()
                            question_source = f"observation['{getattr(obs, 'name', 'unknown')}'].input['{key}']"
                            break
                    if question:
                        break
    
    # === EXTRACTION DE LA RÉPONSE ===
    answer = ""
    answer_source = "non trouvée"
    
    # Stratégie 1: Output direct
    if hasattr(trace, 'output') and trace.output:
        if isinstance(trace.output, str) and len(trace.output.strip()) > 0:
            answer = trace.output.strip()
            answer_source = "output (string)"
        elif isinstance(trace.output, dict):
            # Recherche dans les clés courantes
            for key in ['answer', 'response', 'result', 'content', 'text', 'message']:
                if key in trace.output and trace.output[key]:
                    answer = str(trace.output[key]).strip()
                    answer_source = f"output['{key}']"
                    break
    
    # Stratégie 2: Dernière observation avec output
    if not answer and hasattr(trace, 'observations'):
        for obs in reversed(trace.observations[-3:]):  # 3 dernières en ordre inverse
            if hasattr(obs, 'output') and obs.output:
                if isinstance(obs.output, str) and len(obs.output.strip()) > 10:
                    answer = obs.output.strip()
                    answer_source = f"observation['{getattr(obs, 'name', 'unknown')}'].output"
                    break
                elif isinstance(obs.output, dict):
                    for key in ['answer', 'response', 'result', 'content', 'text']:
                        if key in obs.output and obs.output[key]:
                            answer = str(obs.output[key]).strip()
                            answer_source = f"observation['{getattr(obs, 'name', 'unknown')}'].output['{key}']"
                            break
                    if answer:
                        break
    
    # Stratégie 3: Métadonnées pour la réponse
    if not answer and hasattr(trace, 'metadata') and trace.metadata:
        for key in ['answer', 'response', 'final_answer', 'result']:
            if key in trace.metadata and trace.metadata[key]:
                answer = str(trace.metadata[key]).strip()
                answer_source = f"metadata['{key}']"
                break
    
    # === EXTRACTION DES CONTEXTES ===
    contexts = []
    context_source = "non trouvés"
    
    # Recherche de contextes dans les observations
    if hasattr(trace, 'observations'):
        for obs in trace.observations:
            obs_name = getattr(obs, 'name', '').lower()
            
            # Observations liées au retrieval
            if any(keyword in obs_name for keyword in ['retrieve', 'search', 'context', 'document']):
                if hasattr(obs, 'output') and obs.output:
                    if isinstance(obs.output, list):
                        contexts.extend([str(item) for item in obs.output])
                        context_source = f"observation['{obs_name}'].output"
                    elif isinstance(obs.output, dict) and 'documents' in obs.output:
                        docs = obs.output['documents']
                        if isinstance(docs, list):
                            contexts.extend([str(doc) for doc in docs])
                            context_source = f"observation['{obs_name}'].output['documents']"
    
    # === ASSEMBLAGE DU RÉSULTAT ===
    result = {
        'trace_id': trace_info['trace_id'],
        'timestamp': trace_info['timestamp'],
        'question': question,
        'answer': answer,
        'contexts': contexts,
        'name': trace_info['name'],
        'user_id': trace_info['user_id'],
        'session_id': trace_info['session_id'],
        
        # 🔍 Informations de diagnostic
        'diagnostic': {
            'question_source': question_source,
            'answer_source': answer_source,
            'context_source': context_source,
            'question_length': len(question),
            'answer_length': len(answer),
            'context_count': len(contexts),
            'has_observations': hasattr(trace, 'observations') and len(getattr(trace, 'observations', [])) > 0,
            'observation_count': len(getattr(trace, 'observations', [])),
            'input_type': type(getattr(trace, 'input', None)).__name__,
            'output_type': type(getattr(trace, 'output', None)).__name__
        }
    }
    
    return result

# Traitement de toutes les traces avec diagnostic détaillé
print("⚙️ Traitement avancé des traces SmartRAG...")
print("🔍 Diagnostic des formats de traces activé\n")

processed_traces = []
diagnostic_summary = {
    'total_traces': len(all_traces),
    'question_sources': {},
    'answer_sources': {},
    'context_sources': {},
    'errors': []
}

for i, trace in enumerate(all_traces):
    try:
        components = extract_smartrag_components(trace)
        
        # Collecte des statistiques de diagnostic
        diag = components['diagnostic']
        
        # Comptage des sources
        q_src = diag['question_source']
        a_src = diag['answer_source']
        c_src = diag['context_source']
        
        diagnostic_summary['question_sources'][q_src] = diagnostic_summary['question_sources'].get(q_src, 0) + 1
        diagnostic_summary['answer_sources'][a_src] = diagnostic_summary['answer_sources'].get(a_src, 0) + 1
        diagnostic_summary['context_sources'][c_src] = diagnostic_summary['context_sources'].get(c_src, 0) + 1
        
        # Traces valides (avec question ET réponse)
        if components['question'] and components['answer']:
            processed_traces.append(components)
            
            # Affichage des premières traces pour debug
            if len(processed_traces) <= 3:
                print(f"✅ Trace {i+1}: {components['trace_id'][:8]}...")
                print(f"   Question: {diag['question_source']} ({diag['question_length']} chars)")
                print(f"   Réponse: {diag['answer_source']} ({diag['answer_length']} chars)")
                print(f"   Contextes: {diag['context_source']} ({diag['context_count']} items)")
                print()
        
    except Exception as e:
        error_msg = f"Trace {i+1}: {str(e)}"
        diagnostic_summary['errors'].append(error_msg)
        if len(diagnostic_summary['errors']) <= 3:
            print(f"⚠️  {error_msg}")

print(f"📊 === RÉSUMÉ DU TRAITEMENT ===")
print(f"Total des traces analysées: {diagnostic_summary['total_traces']}")
print(f"✅ Traces valides: {len(processed_traces)}")
print(f"⚠️  Erreurs: {len(diagnostic_summary['errors'])}")

print(f"\n🔍 === DIAGNOSTIC DES FORMATS ===")
print("Sources des QUESTIONS:")
for source, count in sorted(diagnostic_summary['question_sources'].items(), key=lambda x: x[1], reverse=True):
    print(f"   {source}: {count} traces")

print("\nSources des RÉPONSES:")
for source, count in sorted(diagnostic_summary['answer_sources'].items(), key=lambda x: x[1], reverse=True):
    print(f"   {source}: {count} traces")

print("\nSources des CONTEXTES:")
for source, count in sorted(diagnostic_summary['context_sources'].items(), key=lambda x: x[1], reverse=True):
    print(f"   {source}: {count} traces")

# Aperçu des traces traitées
if len(processed_traces) > 0:
    df_traces = pd.DataFrame([{
        'trace_id': t['trace_id'][:8] + '...',
        'question': t['question'][:80] + '...' if len(t['question']) > 80 else t['question'],
        'answer_length': len(t['answer']),
        'question_src': t['diagnostic']['question_source'],
        'answer_src': t['diagnostic']['answer_source']
    } for t in processed_traces])
    
    print("\n📋 Aperçu des traces valides:")
    display(df_traces.head())
    
    print(f"\n💡 Conseil: {len(processed_traces)} traces SmartRAG prêtes pour l'évaluation Ragas!")
    
else:
    print("\n❌ Aucune trace SmartRAG valide trouvée!")
    print("\nLes traces doivent contenir à la fois une question et une réponse.")
    
    print("\n🔧 SOLUTIONS selon le diagnostic:")
    
    # Suggestions basées sur les sources trouvées
    most_common_q = max(diagnostic_summary['question_sources'].items(), key=lambda x: x[1], default=('non trouvée', 0))
    most_common_a = max(diagnostic_summary['answer_sources'].items(), key=lambda x: x[1], default=('non trouvée', 0))
    
    if most_common_q[0] != 'non trouvée' and most_common_a[0] == 'non trouvée':
        print(f"   • Questions trouvées via {most_common_q[0]} mais pas de réponses")
        print(f"   • Vérifiez que SmartRAG enregistre bien les réponses générées")
        print(f"   • La réponse pourrait être dans une autre structure de la trace")
    
    elif most_common_q[0] == 'non trouvée' and most_common_a[0] != 'non trouvée':
        print(f"   • Réponses trouvées via {most_common_a[0]} mais pas de questions")
        print(f"   • Vérifiez que SmartRAG enregistre bien les questions utilisateur")
        
    elif most_common_q[0] == 'non trouvée' and most_common_a[0] == 'non trouvée':
        print(f"   • Ni questions ni réponses détectées dans le format attendu")
        print(f"   • Le format de trace SmartRAG pourrait être différent du standard")
        print(f"   • Examinez manuellement une trace avec la cellule de diagnostic")
        
    print("\n📧 Si le problème persiste, partagez le diagnostic avec l'équipe technique SmartRAG")

### 4.2 Correspondance avec vos questions de référence

In [None]:
def calculate_similarity(text1, text2):
    """Calcule la similarité entre deux questions"""
    return SequenceMatcher(None, text1.lower(), text2.lower()).ratio()

# Correspondance des questions
print("🔗 Correspondance des questions de référence avec les traces SmartRAG...")

matched_pairs = []
similarity_threshold = 0.6  # Seuil de similarité (ajustable)

for _, ref_row in df_reference.iterrows():
    ref_question = ref_row['question']
    best_match = None
    best_similarity = 0
    
    # Recherche de la meilleure correspondance
    for trace in processed_traces:
        similarity = calculate_similarity(ref_question, trace['question'])
        
        if similarity > best_similarity and similarity >= similarity_threshold:
            best_similarity = similarity
            best_match = trace
    
    if best_match:
        match_data = {
            'question_id': ref_row['question_id'],
            'reference_question': ref_row['question'],
            'reference_answer': ref_row['reference_answer'],
            'category': ref_row['category'],
            'difficulty': ref_row['difficulty'],
            
            'trace_id': best_match['trace_id'],
            'actual_question': best_match['question'],
            'actual_answer': best_match['answer'],
            'retrieved_contexts': best_match['contexts'],
            'question_similarity': best_similarity,
            
            'timestamp': best_match['timestamp'],
            'session_id': best_match.get('session_id'),
            'user_id': best_match.get('user_id')
        }
        matched_pairs.append(match_data)
        
        print(f"   ✅ {ref_row['question_id']}: Similarité {best_similarity:.2%}")
    else:
        print(f"   ❌ {ref_row['question_id']}: Aucune correspondance (seuil: {similarity_threshold:.0%})")

df_matched = pd.DataFrame(matched_pairs)

print(f"\n📊 Résultat des correspondances:")
print(f"   🎯 {len(df_matched)}/{len(df_reference)} questions associées")

if len(df_matched) > 0:
    avg_similarity = df_matched['question_similarity'].mean()
    print(f"   📈 Similarité moyenne: {avg_similarity:.1%}")
    
    print("\n📋 Questions trouvées:")
    display(df_matched[['question_id', 'question_similarity', 'category']])
    
    if avg_similarity < 0.8:
        print(f"\n💡 Conseil: Similarité faible ({avg_similarity:.1%}). Vérifiez que vos questions de référence correspondent bien aux questions posées à SmartRAG.")
else:
    print("\n❌ Aucune correspondance trouvée!")
    print("\n🔧 Solutions possibles:")
    print(f"   1. Réduire le seuil: similarity_threshold = 0.4 (actuellement {similarity_threshold})")
    print("   2. Ajuster vos questions de référence pour qu'elles correspondent mieux")
    print("   3. Vérifier que SmartRAG reçoit bien ces questions")

## 🎯 Étape 5 : Évaluation Ragas

### 5.1 Configuration du modèle d'évaluation

In [None]:
# Configuration des modèles pour Ragas selon le provider choisi
print(f"🤖 Configuration du modèle d'évaluation: {RAGAS_LLM_PROVIDER} - {RAGAS_MODEL_NAME}")

if RAGAS_LLM_PROVIDER == "openai":
    import openai
    from langchain_openai import ChatOpenAI, OpenAIEmbeddings
    
    os.environ["OPENAI_API_KEY"] = OPENAI_API_KEY
    
    # Configuration Ragas avec GPT-4.1-mini
    ragas_llm = ChatOpenAI(
        model=RAGAS_MODEL_NAME,
        temperature=0.1
    )
    ragas_embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
    
    print(f"✅ OpenAI configuré: {RAGAS_MODEL_NAME}")
    
elif RAGAS_LLM_PROVIDER == "gemini":
    from langchain_google_genai import ChatGoogleGenerativeAI, GoogleGenerativeAIEmbeddings
    
    os.environ["GOOGLE_API_KEY"] = GOOGLE_API_KEY
    
    ragas_llm = ChatGoogleGenerativeAI(
        model=RAGAS_MODEL_NAME,
        temperature=0.1
    )
    ragas_embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
    
    print(f"✅ Gemini configuré: {RAGAS_MODEL_NAME}")
    
elif RAGAS_LLM_PROVIDER == "claude":
    from langchain_anthropic import ChatAnthropic
    from langchain_openai import OpenAIEmbeddings  # Claude utilise OpenAI pour les embeddings
    
    os.environ["ANTHROPIC_API_KEY"] = ANTHROPIC_API_KEY
    os.environ["OPENAI_API_KEY"] = OPENAI_API_KEY  # Nécessaire pour les embeddings
    
    ragas_llm = ChatAnthropic(
        model=RAGAS_MODEL_NAME,
        temperature=0.1
    )
    ragas_embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
    
    print(f"✅ Claude configuré: {RAGAS_MODEL_NAME}")

# Test rapide du modèle
try:
    test_response = ragas_llm.invoke("Répondez simplement: OK")
    print(f"🔗 Test de connexion: {test_response.content[:20]}...")
    print("✅ Modèle d'évaluation prêt!")
except Exception as e:
    print(f"❌ Erreur de connexion au modèle: {e}")
    print("\n🔧 Vérifications:")
    print(f"   1. Votre clé API {RAGAS_LLM_PROVIDER.upper()} est correcte")
    print(f"   2. Le modèle {RAGAS_MODEL_NAME} est accessible")
    raise

### 5.2 Lancement de l'évaluation Ragas

In [None]:
from datasets import Dataset
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_precision, context_recall

if len(df_matched) == 0:
    print("❌ Impossible d'évaluer: aucune question correspondante trouvée.")
    print("Revenez à l'étape précédente pour ajuster les correspondances.")
else:
    print(f"🎯 Évaluation Ragas de {len(df_matched)} questions avec {RAGAS_MODEL_NAME}...")
    
    # Préparation des données pour Ragas
    eval_questions = df_matched['reference_question'].tolist()
    eval_answers = df_matched['actual_answer'].tolist()
    eval_contexts = [["Contexte SmartRAG"] for _ in range(len(df_matched))]  # Placeholder
    eval_ground_truths = df_matched['reference_answer'].tolist()
    
    # Création du dataset Ragas
    eval_dataset = Dataset.from_dict({
        "question": eval_questions,
        "answer": eval_answers, 
        "contexts": eval_contexts,
        "ground_truth": eval_ground_truths
    })
    
    # Métriques à évaluer
    metrics = [
        faithfulness,      # Fidélité au contexte
        answer_relevancy,  # Pertinence de la réponse 
        context_precision, # Précision du contexte
        context_recall     # Rappel du contexte
    ]
    
    try:
        # 🚀 ÉVALUATION RAGAS
        print("⏳ Évaluation en cours... (peut prendre 1-3 minutes)")
        
        results = evaluate(
            dataset=eval_dataset,
            metrics=metrics,
            llm=ragas_llm,
            embeddings=ragas_embeddings
        )
        
        print("\n🎉 Évaluation terminée!")
        
        # Affichage des résultats
        print("\n📊 === RÉSULTATS RAGAS ===")
        print(f"Modèle utilisé: {RAGAS_LLM_PROVIDER} ({RAGAS_MODEL_NAME})")
        print()
        
        for metric_name, score in results.items():
            if isinstance(score, (list, pd.Series)):
                avg_score = sum(score) / len(score) if score else 0
                print(f"📈 {metric_name:18}: {avg_score:.4f} (moyenne)")
            else:
                print(f"📈 {metric_name:18}: {score:.4f}")
        
        # Fusion avec les données originales
        df_results = df_matched.copy()
        
        for metric_name, scores in results.items():
            if isinstance(scores, (list, pd.Series)):
                df_results[metric_name] = scores
            else:
                df_results[metric_name] = [scores] * len(df_results)
        
        print(f"\n✅ Évaluation de {len(df_results)} questions terminée!")
        
    except Exception as e:
        print(f"❌ Erreur pendant l'évaluation: {e}")
        print("\n🔧 Vérifications possibles:")
        print("   1. Connexion internet stable")
        print("   2. Crédits API suffisants")
        print("   3. Modèle disponible et accessible")
        
        # Créer un DataFrame vide pour continuer
        df_results = df_matched.copy()
        for metric in ['faithfulness', 'answer_relevancy', 'context_precision', 'context_recall']:
            df_results[metric] = None
        
        raise

## 📊 Étape 6 : Analyse des résultats

### 6.1 Visualisation des scores

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration de l'affichage
plt.style.use('default')
sns.set_palette("husl")

if 'df_results' in locals() and len(df_results) > 0:
    
    # Métriques Ragas disponibles
    ragas_metrics = ['faithfulness', 'answer_relevancy', 'context_precision', 'context_recall']
    available_metrics = [m for m in ragas_metrics if m in df_results.columns and df_results[m].notna().any()]
    
    if available_metrics:
        fig, axes = plt.subplots(2, 2, figsize=(15, 10))
        fig.suptitle(f'📊 Résultats Évaluation SmartRAG - {RAGAS_MODEL_NAME}', fontsize=16, fontweight='bold')
        
        # Graphique 1: Scores moyens
        ax1 = axes[0, 0]
        means = [df_results[m].mean() for m in available_metrics]
        colors = sns.color_palette("husl", len(available_metrics))
        bars = ax1.bar(available_metrics, means, color=colors)
        ax1.set_title('🎯 Scores Moyens par Métrique')
        ax1.set_ylabel('Score (0-1)')
        ax1.set_ylim(0, 1)
        
        # Ajout des valeurs sur les barres
        for bar, mean in zip(bars, means):
            ax1.text(bar.get_x() + bar.get_width()/2., bar.get_height() + 0.02,
                    f'{mean:.3f}', ha='center', va='bottom', fontweight='bold')
        
        ax1.tick_params(axis='x', rotation=45)
        
        # Graphique 2: Distribution faithfulness
        ax2 = axes[0, 1]
        if 'faithfulness' in available_metrics:
            faithfulness_scores = df_results['faithfulness'].dropna()
            ax2.hist(faithfulness_scores, bins=10, alpha=0.7, color='skyblue', edgecolor='black')
            ax2.set_title('📈 Distribution Faithfulness')
            ax2.set_xlabel('Score')
            ax2.set_ylabel('Fréquence')
            ax2.axvline(faithfulness_scores.mean(), color='red', linestyle='--', 
                       label=f'Moyenne: {faithfulness_scores.mean():.3f}')
            ax2.legend()
        
        # Graphique 3: Scores par catégorie
        ax3 = axes[1, 0]
        if 'category' in df_results.columns and len(df_results['category'].unique()) > 1:
            category_scores = df_results.groupby('category')['faithfulness'].mean().sort_values(ascending=True)
            category_scores.plot(kind='barh', ax=ax3, color='lightgreen')
            ax3.set_title('📂 Performance par Catégorie')
            ax3.set_xlabel('Score Faithfulness Moyen')
        else:
            ax3.text(0.5, 0.5, 'Pas assez de catégories\npour l\'analyse', 
                    ha='center', va='center', transform=ax3.transAxes, fontsize=12)
            ax3.set_title('📂 Analyse par Catégorie')
        
        # Graphique 4: Corrélation similarité vs performance
        ax4 = axes[1, 1]
        if 'question_similarity' in df_results.columns and 'answer_relevancy' in available_metrics:
            x = df_results['question_similarity']
            y = df_results['answer_relevancy']
            ax4.scatter(x, y, alpha=0.7, s=60, color='purple')
            ax4.set_xlabel('Similarité Question')
            ax4.set_ylabel('Answer Relevancy')
            ax4.set_title('🔗 Similarité vs Performance')
            
            # Ligne de tendance
            z = np.polyfit(x, y, 1)
            p = np.poly1d(z)
            ax4.plot(x, p(x), "r--", alpha=0.8)
        
        plt.tight_layout()
        plt.show()
        
        # Statistiques détaillées
        print("\n📊 === ANALYSE DÉTAILLÉE ===")
        
        for metric in available_metrics:
            values = df_results[metric].dropna()
            if len(values) > 0:
                print(f"\n📈 {metric.upper()}:")
                print(f"   Moyenne: {values.mean():.4f}")
                print(f"   Médiane: {values.median():.4f}")
                print(f"   Min-Max: {values.min():.4f} - {values.max():.4f}")
                
                # Questions problématiques
                if values.min() < 0.5:
                    worst_idx = values.idxmin()
                    worst_question = df_results.loc[worst_idx, 'question_id']
                    print(f"   🔴 Plus faible: {worst_question} ({values.min():.3f})")
                
                # Meilleures questions
                if values.max() > 0.7:
                    best_idx = values.idxmax()
                    best_question = df_results.loc[best_idx, 'question_id']
                    print(f"   🟢 Meilleure: {best_question} ({values.max():.3f})")
        
    else:
        print("❌ Aucune métrique Ragas disponible pour la visualisation")
        
else:
    print("❌ Aucun résultat à analyser")

### 6.2 Recommandations personnalisées

In [None]:
if 'df_results' in locals() and len(df_results) > 0 and available_metrics:
    
    print("🎯 === RECOMMANDATIONS POUR VOTRE SMARTRAG ===")
    print()
    
    # Analyse de la Faithfulness
    if 'faithfulness' in available_metrics:
        faith_mean = df_results['faithfulness'].mean()
        print(f"🔍 FAITHFULNESS (Fidélité): {faith_mean:.3f}")
        
        if faith_mean < 0.5:
            print("   🔴 CRITIQUE: Vos réponses ne sont pas fidèles aux contextes")
            print("   💡 Actions:")
            print("      - Vérifiez la qualité des documents indexés")
            print("      - Améliorez le chunking (taille, overlap)")
            print("      - Ajustez le prompt pour rester fidèle aux sources")
        elif faith_mean < 0.7:
            print("   🟡 MOYEN: Amélioration possible de la fidélité")
            print("   💡 Actions:")
            print("      - Testez différents paramètres de reranking")
            print("      - Optimisez le nombre de contextes récupérés")
        else:
            print("   🟢 EXCELLENT: Vos réponses sont fidèles aux sources!")
    
    # Analyse de Answer Relevancy
    if 'answer_relevancy' in available_metrics:
        rel_mean = df_results['answer_relevancy'].mean()
        print(f"\n💬 ANSWER RELEVANCY (Pertinence): {rel_mean:.3f}")
        
        if rel_mean < 0.6:
            print("   🔴 CRITIQUE: Vos réponses ne répondent pas bien aux questions")
            print("   💡 Actions:")
            print("      - Améliorez votre prompt de génération")
            print("      - Testez un modèle LLM plus performant")
            print("      - Ajoutez des exemples dans le prompt")
        elif rel_mean < 0.8:
            print("   🟡 CORRECT: Place à l'amélioration de la pertinence")
            print("   💡 Actions:")
            print("      - Affinez les instructions du prompt")
            print("      - Testez différentes températures")
        else:
            print("   🟢 EXCELLENT: Vos réponses sont très pertinentes!")
    
    # Analyse Context Precision
    if 'context_precision' in available_metrics:
        prec_mean = df_results['context_precision'].mean()
        print(f"\n🎯 CONTEXT PRECISION (Précision): {prec_mean:.3f}")
        
        if prec_mean < 0.5:
            print("   🔴 CRITIQUE: Trop de contextes non-pertinents récupérés")
            print("   💡 Actions:")
            print("      - Améliorez votre stratégie de retrieval")
            print("      - Ajustez les seuils de similarité")
            print("      - Utilisez un meilleur modèle d'embedding")
        elif prec_mean < 0.7:
            print("   🟡 CORRECT: La précision du retrieval peut être améliorée")
            print("   💡 Actions:")
            print("      - Testez différents modèles d'embedding")
            print("      - Optimisez le reranking")
        else:
            print("   🟢 EXCELLENT: Vos contextes sont très précis!")
    
    # Analyse par difficulté
    if 'difficulty' in df_results.columns:
        print("\n📊 PERFORMANCE PAR DIFFICULTÉ:")
        diff_analysis = df_results.groupby('difficulty').agg({
            'faithfulness': 'mean',
            'answer_relevancy': 'mean'
        }).round(3)
        
        for diff, scores in diff_analysis.iterrows():
            print(f"   {diff}: Fidélité {scores['faithfulness']:.3f}, Pertinence {scores['answer_relevancy']:.3f}")
    
    # Recommandations générales
    print("\n🚀 PROCHAINES ÉTAPES RECOMMANDÉES:")
    print("\n1. 📊 MONITORING CONTINU")
    print("   - Lancez cette évaluation chaque semaine")
    print("   - Suivez l'évolution des métriques")
    print("   - Alertez si les scores baissent")
    
    print("\n2. 🔧 OPTIMISATION TECHNIQUE")
    print("   - A/B testez différentes configurations SmartRAG")
    print("   - Comparez plusieurs modèles LLM")
    print("   - Testez différentes stratégies de chunking")
    
    print("\n3. 📈 AMÉLIORATION CONTINUE")
    print("   - Ajoutez plus de questions de référence")
    print("   - Analysez les échecs pour comprendre les lacunes")
    print("   - Collectez les retours utilisateurs")
    
    print("\n💡 CONSEIL: Exportez ces résultats pour un suivi historique!")

else:
    print("❌ Impossible de générer des recommandations sans résultats d'évaluation")

## 💾 Étape 7 : Export et sauvegarde

### 7.1 Sauvegarde des résultats

In [None]:
if 'df_results' in locals() and len(df_results) > 0:
    
    # Création du dossier de résultats
    os.makedirs('./data/results', exist_ok=True)
    
    # Nom de fichier avec timestamp
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    csv_file = f'./data/results/smartrag_evaluation_{timestamp}.csv'
    json_file = f'./data/results/smartrag_evaluation_{timestamp}_detailed.json'
    
    print(f"💾 Sauvegarde des résultats...")
    
    # Export CSV
    export_columns = [
        'question_id', 'category', 'difficulty', 'question_similarity',
        'reference_question', 'actual_question', 'reference_answer', 'actual_answer'
    ] + available_metrics + [
        'trace_id', 'timestamp', 'session_id', 'user_id'
    ]
    
    # Filtrage des colonnes existantes
    final_columns = [col for col in export_columns if col in df_results.columns]
    df_export = df_results[final_columns].copy()
    
    df_export.to_csv(csv_file, index=False, encoding='utf-8')
    
    # Export JSON détaillé
    json_data = {
        'evaluation_metadata': {
            'evaluation_date': datetime.now().isoformat(),
            'evaluation_period': {
                'start': start_date.isoformat(),
                'end': end_date.isoformat(),
                'days': EVALUATION_TIMERANGE
            },
            'smartrag_project': SMARTRAG_PROJECT_NAME or 'All projects',
            'langfuse_url': LANGFUSE_BASE_URL,
            'evaluation_model': {
                'provider': RAGAS_LLM_PROVIDER,
                'model': RAGAS_MODEL_NAME
            },
            'total_reference_questions': len(df_reference),
            'matched_questions': len(df_results),
            'match_rate': len(df_results) / len(df_reference)
        },
        'summary_metrics': {},
        'detailed_results': df_results.to_dict('records')
    }
    
    # Calcul des métriques de résumé
    for metric in available_metrics:
        values = df_results[metric].dropna()
        if len(values) > 0:
            json_data['summary_metrics'][metric] = {
                'mean': float(values.mean()),
                'median': float(values.median()),
                'std': float(values.std()) if len(values) > 1 else None,
                'min': float(values.min()),
                'max': float(values.max()),
                'count': int(len(values))
            }
    
    # Sauvegarde JSON
    with open(json_file, 'w', encoding='utf-8') as f:
        json.dump(json_data, f, indent=2, ensure_ascii=False, default=str)
    
    print(f"\n✅ Résultats sauvegardés:")
    print(f"   📄 CSV: {csv_file}")
    print(f"   📋 JSON: {json_file}")
    print(f"   📊 {len(df_export)} questions évaluées")
    print(f"   📈 {len(final_columns)} colonnes exportées")
    
    # Aperçu des données exportées
    print("\n📋 Aperçu des résultats exportés:")
    display_columns = ['question_id', 'category'] + [m for m in available_metrics if m in df_export.columns][:3]
    display(df_export[display_columns].head())
    
    # Statistiques finales
    print("\n🎯 === RÉSUMÉ FINAL ===")
    print(f"Provider d'évaluation: {RAGAS_LLM_PROVIDER} - {RAGAS_MODEL_NAME}")
    print(f"Questions évaluées: {len(df_export)}/{len(df_reference)}")
    
    if available_metrics:
        print("\nScores moyens finaux:")
        for metric in available_metrics:
            score = df_results[metric].mean()
            status = "🟢" if score > 0.7 else "🟡" if score > 0.5 else "🔴"
            print(f"   {status} {metric}: {score:.3f}")
    
else:
    print("❌ Aucune donnée à exporter")
    print("\nAssurez-vous d'avoir:")
    print("   1. Des traces SmartRAG dans Langfuse")
    print("   2. Des questions de référence correspondantes")
    print("   3. Une évaluation Ragas réussie")

## 🎉 Félicitations ! Évaluation terminée

Vous avez maintenant une évaluation complète de votre système SmartRAG !

### 📈 Ce que vous avez accompli :
1. ✅ **Configuré** l'évaluation avec les modèles 2025
2. ✅ **Récupéré** vos traces SmartRAG depuis Langfuse  
3. ✅ **Évalué** la qualité avec Ragas
4. ✅ **Analysé** les performances par métrique
5. ✅ **Exporté** les résultats pour suivi

### 🚀 Prochaines étapes recommandées :

**🔄 Automatisation**
- Planifiez cette évaluation chaque semaine
- Créez des alertes si les scores baissent
- Intégrez dans votre CI/CD

**📊 Suivi continu**
- Comparez les résultats dans le temps
- Testez différentes configurations SmartRAG
- A/B testez plusieurs modèles LLM

**🎯 Amélioration**
- Ajoutez plus de questions représentatives
- Analysez les questions avec les plus mauvais scores
- Optimisez votre pipeline RAG selon les résultats

---

### 💡 Conseils pour aller plus loin :

1. **Diversifiez vos tests** : Ajoutez des questions de différentes catégories et difficultés
2. **Surveillez les tendances** : Utilisez les exports JSON pour analyser l'évolution
3. **Comparez les modèles** : Testez GPT-4.1-mini vs Gemini 2.5 vs Claude 3.5
4. **Optimisez selon les métriques** :
   - **Faithfulness faible** → Améliorer le retrieval
   - **Answer relevancy faible** → Optimiser le prompt
   - **Context precision faible** → Ajuster les seuils

**🎯 Votre SmartRAG est maintenant sous surveillance qualité !**

---

*💾 N'oubliez pas de sauvegarder ce notebook avec vos configurations pour reproduire l'évaluation facilement.*