# üìä √âvaluation Comparative des Architectures Conversationnelles

Ce notebook pr√©sente une structure d'√©valuation compl√®te pour les trois architectures exp√©rimentales d√©velopp√©es pour EasyTransfert. Il d√©crit les m√©triques communes d'√©valuation et fournit un cadre pour comparer les performances de chaque architecture.

## üéØ Objectifs de l'√âvaluation

1. **Quantifier les performances** de chaque architecture
2. **Identifier les forces et faiblesses** de chaque approche
3. **Guider la s√©lection** de l'architecture optimale selon le contexte
4. **√âtablir des benchmarks** pour les am√©liorations futures

<a href="https://colab.research.google.com/github/AmedBah/memoire/blob/main/notebooks/evaluation/04_evaluation_comparative_architectures.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## üöÄ Configuration pour Google Colab

**Note**: Cette section est sp√©cifique √† Google Colab. Si vous ex√©cutez ce notebook localement, vous pouvez ignorer ces cellules.

In [None]:
# V√©rifier le type de runtime
import os
import sys

# D√©tecter si on est sur Colab
IS_COLAB = 'google.colab' in sys.modules

if IS_COLAB:
    print("‚úì Ex√©cution sur Google Colab")
    
    # V√©rifier le type de GPU
    import torch
    if torch.cuda.is_available():
        gpu_name = torch.cuda.get_device_name(0)
        print(f"‚úì GPU d√©tect√©: {gpu_name}")
        print(f"‚úì M√©moire GPU: {torch.cuda.get_device_properties(0).total_memory / 1e9:.2f} GB")
        
        # Recommandations selon le GPU
        if 'T4' in gpu_name:
            print("\n‚ö†Ô∏è  GPU T4 d√©tect√© (16 GB): Convient pour ce notebook mais les temps d'entra√Ænement seront plus longs")
        elif 'V100' in gpu_name or 'A100' in gpu_name:
            print(f"\n‚úì {gpu_name}: Parfait pour ce notebook!")
    else:
        print("\n‚ùå ATTENTION: Aucun GPU d√©tect√©!")
        print("   Pour activer le GPU: Runtime > Change runtime type > GPU")
        print("   Pour Colab Pro: Choisir 'High-RAM' ou 'Premium GPU'")
else:
    print("‚úì Ex√©cution locale")
    import torch
    if torch.cuda.is_available():
        print(f"‚úì GPU disponible: {torch.cuda.get_device_name(0)}")
    else:
        print("‚ö†Ô∏è  Aucun GPU d√©tect√© - l'entra√Ænement sera tr√®s lent")

In [None]:
# Monter Google Drive (uniquement sur Colab)
if IS_COLAB:
    from google.colab import drive
    drive.mount('/content/drive')
    
    # D√©finir le chemin vers les donn√©es
    # OPTION 1: Donn√©es dans Google Drive
    # DATA_DIR = '/content/drive/MyDrive/memoire/data'
    
    # OPTION 2: Cloner le repo et utiliser les donn√©es locales
    print("\nüì• Clonage du repository...")
    !git clone https://github.com/AmedBah/memoire.git /content/memoire
    DATA_DIR = '/content/memoire/data'
    
    print(f"\n‚úì R√©pertoire de donn√©es: {DATA_DIR}")
    
    # V√©rifier que les donn√©es sont pr√©sentes
    if os.path.exists(DATA_DIR):
        print("‚úì Donn√©es trouv√©es!")
        !ls -lh {DATA_DIR}
    else:
        print(f"‚ùå ERREUR: R√©pertoire {DATA_DIR} non trouv√©!")
        print("   Veuillez soit:")
        print("   1. Copier le dossier 'data' dans votre Google Drive")
        print("   2. Ou le repository sera clon√© automatiquement")
else:
    # Ex√©cution locale
    DATA_DIR = '../../data'
    print(f"‚úì R√©pertoire de donn√©es local: {DATA_DIR}")

In [None]:
# Fonction helper pour obtenir les chemins de donn√©es
def get_data_path(relative_path):
    """Obtenir le chemin absolu d'un fichier de donn√©es"""
    return os.path.join(DATA_DIR, relative_path)

# Exemples de chemins
print("Chemins de donn√©es configur√©s:")
print(f"  Conversations: {get_data_path('conversations/conversation_1000_finetune.jsonl')}")
print(f"  FAQs: {get_data_path('faqs/faq_easytransfert.json')}")
print(f"  Op√©rateurs: {get_data_path('operators/operators_info.json')}")
print(f"  Proc√©dures: {get_data_path('procedures/procedures_resolution.json')}")
print(f"  Expressions: {get_data_path('expressions/expressions_ivoiriennes.json')}")
print(f"  Documents: {get_data_path('documents/doc.txt.txt')}")

## üìã Table des M√©triques d'√âvaluation

Les m√©triques sont organis√©es en trois cat√©gories principales :

1. **M√©triques Techniques** : Performance syst√®me et ressources
2. **M√©triques de Qualit√©** : Qualit√© des r√©ponses et pertinence
3. **M√©triques M√©tier** : Impact sur le service client

## üîß M√©triques Techniques

Les m√©triques techniques √©valuent les performances syst√®me et l'utilisation des ressources.

### 1. Latence (Temps de R√©ponse)

**Description :** Temps √©coul√© entre la soumission d'une requ√™te et la r√©ception de la r√©ponse compl√®te.

**Unit√© :** Millisecondes (ms) ou Secondes (s)

**Calcul :**
```python
latence = temps_fin_r√©ponse - temps_d√©but_requ√™te
```

**Importance :** Une faible latence am√©liore l'exp√©rience utilisateur et permet de traiter plus de requ√™tes.

**Benchmarks par architecture :**
- **Architecture 1** : ~2-3 secondes
- **Architecture 2** : ~3-5 secondes (150-200ms r√©cup√©ration + 2-3s g√©n√©ration)
- **Architecture 3** : ~4-7 secondes (overhead agentique)

**M√©triques d√©riv√©es :**
- Latence moyenne (mean)
- Latence m√©diane (median)
- Latence percentile 95 (p95)
- Latence percentile 99 (p99)
- √âcart-type (std)

---

### 2. Throughput (D√©bit)

**Description :** Nombre de requ√™tes trait√©es par unit√© de temps.

**Unit√© :** Requ√™tes par seconde (req/s)

**Calcul :**
```python
throughput = nombre_requ√™tes / temps_total
```

**Importance :** Indique la capacit√© de l'architecture √† g√©rer la charge.

**Benchmarks attendus :**
- **Architecture 1** : ~0.3-0.5 req/s (latence faible)
- **Architecture 2** : ~0.2-0.3 req/s
- **Architecture 3** : ~0.15-0.25 req/s (plus complexe)

---

### 3. Utilisation M√©moire

**Description :** Quantit√© de m√©moire RAM et VRAM utilis√©e pendant l'ex√©cution.

**Unit√© :** M√©gaoctets (MB) ou Gigaoctets (GB)

**Composants mesur√©s :**
- **RAM** : Mod√®le, donn√©es, cache
- **VRAM** : Mod√®le sur GPU, activations
- **Stockage** : Base vectorielle (ChromaDB)

**Benchmarks par architecture :**
- **Architecture 1** : ~50 MB (adaptateurs LoRA seuls)
- **Architecture 2** : ~150-300 MB (base vectorielle + mod√®le)
- **Architecture 3** : ~200-400 MB (outils + agent + base)

---

### 4. Co√ªt Computationnel

**Description :** Ressources de calcul n√©cessaires (CPU/GPU).

**M√©triques :**
- **FLOPs** : Op√©rations en virgule flottante
- **Utilisation GPU** : Pourcentage d'utilisation
- **Co√ªt par requ√™te** : Co√ªt infrastructure par requ√™te

**Importance :** D√©termine le co√ªt op√©rationnel et la scalabilit√©.

## üéØ M√©triques de Qualit√©

Les m√©triques de qualit√© √©valuent la pertinence et la fiabilit√© des r√©ponses g√©n√©r√©es.

### 1. Pertinence des R√©ponses

**Description :** Degr√© auquel la r√©ponse est appropri√©e et r√©pond √† la question pos√©e.

**M√©thodes d'√©valuation :**

#### a) √âvaluation Humaine
- √âchelle de 1 √† 5
- Crit√®res : coh√©rence, compl√©tude, utilit√©
- N√©cessite annotateurs form√©s

#### b) Similarit√© S√©mantique
```python
# Cosine similarity entre r√©ponse et r√©f√©rence
from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2')
embedding_reponse = model.encode(reponse_generee)
embedding_reference = model.encode(reponse_reference)
score_pertinence = util.cos_sim(embedding_reponse, embedding_reference)
```

#### c) BERTScore
- Utilise embeddings contextuels
- Plus robuste que BLEU/ROUGE
- Score de pr√©cision, rappel, F1

**Seuils d'acceptabilit√© :**
- Excellent : > 0.85
- Bon : 0.70 - 0.85
- Acceptable : 0.50 - 0.70
- Insuffisant : < 0.50

---

### 2. Factualit√© et Hallucinations

**Description :** Mesure la v√©racit√© des informations fournies et d√©tecte les inventions (hallucinations).

**Taux d'hallucination :**
```python
taux_hallucination = (nombre_reponses_avec_erreurs / nombre_total_reponses) * 100
```

**Types d'hallucinations :**
1. **Intrins√®ques** : Information contradictoire avec la source
2. **Extrins√®ques** : Information non v√©rifiable dans les sources

**M√©thodes de d√©tection :**
- V√©rification contre base de connaissances
- Cross-r√©f√©rencement avec sources cit√©es
- Validation par API de donn√©es op√©rationnelles

**Benchmarks attendus :**
- **Architecture 1** : Taux √©lev√© (~20-40%) - pas de sources
- **Architecture 2** : Taux moyen (~5-15%) - RAG mais pas de validation
- **Architecture 3** : Taux faible (~2-8%) - validation par outils

---

### 3. Compl√©tude (Couverture des Informations)

**Description :** Proportion des informations pertinentes incluses dans la r√©ponse.

**Calcul :**
```python
completude = (elements_informatifs_presents / elements_informatifs_attendus) * 100
```

**√âl√©ments √©valu√©s :**
- Toutes les √©tapes d'une proc√©dure mentionn√©es
- Informations contextuelles (frais, d√©lais, limites)
- Avertissements ou pr√©cautions

**Exemple - Transfert MTN vers Orange :**
- ‚úÖ Montant min/max
- ‚úÖ Frais de transaction
- ‚úÖ Format de l'identifiant
- ‚úÖ D√©lai de traitement
- ‚úÖ √âtapes de la proc√©dure

---

### 4. Tra√ßabilit√© (Citation des Sources)

**Description :** Capacit√© √† fournir et r√©f√©rencer les sources d'information.

**M√©triques :**
- **Taux de citation** : % de r√©ponses avec sources
- **Pr√©cision des sources** : Sources cit√©es sont correctes
- **Pertinence des sources** : Sources cit√©es sont pertinentes

**Calcul :**
```python
taux_citation = (reponses_avec_sources / total_reponses) * 100
precision_sources = (sources_correctes / sources_citees) * 100
```

**Benchmarks par architecture :**
- **Architecture 1** : 0% (aucune tra√ßabilit√©)
- **Architecture 2** : ~80-95% (sources RAG)
- **Architecture 3** : ~90-100% (cycle ReAct transparent)

---

### 5. Coh√©rence et Consistance

**Description :** Les r√©ponses √† des questions similaires sont coh√©rentes entre elles.

**Test :** Poser la m√™me question reformul√©e plusieurs fois

**Calcul :**
```python
# Similarit√© entre N r√©ponses √† la m√™me question
from itertools import combinations
import numpy as np

similarities = []
for r1, r2 in combinations(reponses, 2):
    sim = calculate_similarity(r1, r2)
    similarities.append(sim)
    
score_coherence = np.mean(similarities)
```

**Seuil acceptable :** > 0.75

---

### 6. Adaptation Linguistique

**Description :** Capacit√© √† comprendre et utiliser les expressions locales (ivoiriennes).

**Test :** Requ√™tes avec expressions ivoiriennes
- "Mon go n'est pas arriv√©" (mon argent)
- "D√®h, je veux cotiser" (transaction de groupe)
- "C'est combien le gb√™?" (quel est le prix/tarif)

**M√©triques :**
- Taux de compr√©hension : % requ√™tes comprises
- Utilisation appropri√©e dans les r√©ponses

## üíº M√©triques M√©tier (Business)

Les m√©triques m√©tier √©valuent l'impact sur le service client et les objectifs d'entreprise.

### 1. Taux de R√©solution au Premier Contact

**Description :** Proportion de requ√™tes r√©solues sans n√©cessiter d'intervention humaine ou d'escalade.

**Calcul :**
```python
taux_resolution = (requetes_resolues / total_requetes) * 100
```

**Crit√®res de r√©solution :**
- R√©ponse compl√®te et correcte
- Client satisfait (pas de relance)
- Pas de transfert vers agent humain

**Objectifs :**
- **Architecture 1** : ~40-60% (limit√©e aux cas simples)
- **Architecture 2** : ~60-75% (meilleure fiabilit√©)
- **Architecture 3** : ~75-90% (gestion cas complexes)

---

### 2. Score de Satisfaction Client

**Description :** Mesure la satisfaction des utilisateurs avec les r√©ponses re√ßues.

**M√©thodes de collecte :**
1. **Feedback explicite** : Pouce haut/bas apr√®s chaque r√©ponse
2. **CSAT (Customer Satisfaction Score)** : √âchelle 1-5
3. **NPS (Net Promoter Score)** : Probabilit√© de recommandation

**Calcul CSAT :**
```python
csat = (notes_4_et_5 / total_reponses) * 100
```

**Benchmarks :**
- Excellent : CSAT > 80%
- Bon : CSAT 60-80%
- √Ä am√©liorer : CSAT < 60%

---

### 3. Taux d'Escalade (Transfert vers Agent Humain)

**Description :** Proportion de conversations transf√©r√©es √† un agent humain.

**Calcul :**
```python
taux_escalade = (conversations_escaladees / total_conversations) * 100
```

**Raisons d'escalade :**
- Agent ne peut pas r√©soudre
- Demande client explicite
- Cas complexe ou sensible
- Probl√®me technique

**Objectifs :**
- **Architecture 1** : ~40-60% (limitations importantes)
- **Architecture 2** : ~25-40% (meilleure couverture)
- **Architecture 3** : ~10-25% (autonomie maximale)

---

### 4. Temps Moyen de R√©solution

**Description :** Dur√©e moyenne pour r√©soudre compl√®tement une requ√™te client.

**Calcul :**
```python
temps_moyen = (somme_durees_conversations / nombre_conversations_resolues)
```

**Composants :**
- Temps de latence syst√®me
- Nombre d'√©changes n√©cessaires
- Temps de lecture client

**Objectifs :**
- R√©ponse imm√©diate : < 1 minute
- R√©solution simple : 2-3 minutes
- R√©solution complexe : 5-10 minutes

---

### 5. Taux de Containment

**Description :** Capacit√© de l'assistant √† g√©rer les requ√™tes de bout en bout sans sortir du syst√®me.

**Calcul :**
```python
taux_containment = ((total_conversations - escalades - abandons) / total_conversations) * 100
```

**Importance :** R√©duction des co√ªts op√©rationnels

---

### 6. R√©duction de la Charge des Agents

**Description :** Pourcentage de requ√™tes g√©r√©es par l'assistant vs agents humains.

**Impact :**
- **R√©duction co√ªts** : Moins d'agents n√©cessaires
- **Disponibilit√© 24/7** : Service continu
- **Agents focalis√©s** : Cas complexes uniquement

**Calcul ROI :**
```python
economies_annuelles = (requetes_automatisees * cout_requete_agent) - cout_infrastructure
roi = (economies_annuelles / cout_developpement) * 100
```

## üî¨ M√©thodologie d'√âvaluation Comparative

### Dataset de Test

Pour une √©valuation juste, utiliser un ensemble de test standardis√© :

**Composition recommand√©e :**
- **100-200 requ√™tes** couvrant tous les cas d'usage
- **Distribution :**
  - 40% : Questions simples (FAQ)
  - 30% : Requ√™tes proc√©durales (how-to)
  - 20% : Cas complexes (multi-√©tapes)
  - 10% : Cas edge/difficiles

**Cat√©gories de requ√™tes :**
1. Informations g√©n√©rales (horaires, limites, frais)
2. Proc√©dures de transfert
3. R√©solution de probl√®mes
4. V√©rification de statut
5. Questions sur op√©rateurs sp√©cifiques

### Protocole d'√âvaluation

**√âtapes :**
1. Ex√©cuter chaque requ√™te sur les 3 architectures
2. Enregistrer toutes les m√©triques
3. Faire √©valuer les r√©ponses par annotateurs
4. Calculer les statistiques agr√©g√©es
5. Analyser les r√©sultats par cat√©gorie

**Conditions de test :**
- M√™me environnement hardware
- M√™me version des mod√®les
- M√™me base de connaissances
- Mesures r√©p√©t√©es (3-5 fois) pour stabilit√©

## üìä Framework de Comparaison

### Tableau Comparatif des Architectures

| M√©trique | Architecture 1 | Architecture 2 | Architecture 3 | Objectif |
|----------|----------------|----------------|----------------|---------|
| **TECHNIQUES** | | | | |
| Latence moyenne | ~2-3s | ~3-5s | ~4-7s | < 5s |
| Throughput | ~0.3-0.5 req/s | ~0.2-0.3 req/s | ~0.15-0.25 req/s | > 0.2 req/s |
| M√©moire (RAM) | ~50 MB | ~150-300 MB | ~200-400 MB | < 500 MB |
| **QUALIT√â** | | | | |
| Pertinence | 0.65-0.75 | 0.75-0.85 | 0.80-0.90 | > 0.80 |
| Taux hallucination | 20-40% | 5-15% | 2-8% | < 10% |
| Compl√©tude | 60-70% | 75-85% | 85-95% | > 80% |
| Tra√ßabilit√© | 0% | 80-95% | 90-100% | > 80% |
| **M√âTIER** | | | | |
| Taux r√©solution | 40-60% | 60-75% | 75-90% | > 70% |
| CSAT | 60-70% | 70-80% | 80-90% | > 75% |
| Taux escalade | 40-60% | 25-40% | 10-25% | < 30% |
| Temps r√©solution | 2-3 min | 3-5 min | 3-7 min | < 5 min |

## üíª Impl√©mentation : Structure de Code pour l'√âvaluation

Voici un exemple de structure de code pour impl√©menter l'√©valuation comparative.

### 1. Installation des D√©pendances

In [None]:
# Installation des biblioth√®ques n√©cessaires
!pip install numpy pandas matplotlib seaborn
!pip install sentence-transformers bert-score
!pip install scikit-learn

### 2. Dataset de Test Standardis√©

In [None]:
# Dataset de test avec requ√™tes repr√©sentatives
test_queries = [
    # Questions simples (FAQ)
    {"query": "Bonjour, c'est quoi EasyTransfert ?", "category": "general", "complexity": "simple"},
    {"query": "Quels sont les frais de transaction ?", "category": "general", "complexity": "simple"},
    {"query": "Quelle est la limite de transfert MTN ?", "category": "operator", "complexity": "simple"},
    {"query": "Les horaires de service client ?", "category": "general", "complexity": "simple"},
    
    # Requ√™tes proc√©durales
    {"query": "Comment faire un transfert de MTN vers Orange ?", "category": "procedure", "complexity": "medium"},
    {"query": "Comment r√©initialiser mon mot de passe ?", "category": "procedure", "complexity": "medium"},
    {"query": "√âtapes pour cr√©er un compte ?", "category": "procedure", "complexity": "medium"},
    
    # R√©solution de probl√®mes
    {"query": "Mon transfert n'est pas arriv√©, que faire ?", "category": "troubleshooting", "complexity": "complex"},
    {"query": "J'ai envoy√© au mauvais num√©ro, puis-je annuler ?", "category": "troubleshooting", "complexity": "complex"},
    {"query": "Erreur: num√©ro invalide, comment corriger ?", "category": "troubleshooting", "complexity": "complex"},
    
    # V√©rification statut (Architecture 3)
    {"query": "V√©rifier le statut du transfert EFB.ABC123456", "category": "status", "complexity": "medium"},
    {"query": "Mon argent est o√π ? Ref: EFB.XYZ789012", "category": "status", "complexity": "medium"},
    
    # Expressions ivoiriennes
    {"query": "D√®h, mon go n'est pas arriv√©", "category": "local", "complexity": "medium"},
    {"query": "C'est combien le gb√™ pour Orange ?", "category": "local", "complexity": "simple"},
    
    # Cas complexes
    {"query": "Diff√©rence entre transfert direct et via EasyTransfert ? Lequel est moins cher ?", "category": "complex", "complexity": "complex"},
    {"query": "Puis-je transf√©rer 500000 FCFA de MTN vers Wave un dimanche soir ?", "category": "complex", "complexity": "complex"},
]

print(f"Dataset de test : {len(test_queries)} requ√™tes")
print(f"Distribution par complexit√©:")
for complexity in ['simple', 'medium', 'complex']:
    count = len([q for q in test_queries if q['complexity'] == complexity])
    print(f"  - {complexity.capitalize()}: {count} ({count/len(test_queries)*100:.1f}%)")

### 3. Classe d'√âvaluation des M√©triques

In [None]:
import time
import numpy as np
from sentence_transformers import SentenceTransformer, util
from typing import Dict, List

class ArchitectureEvaluator:
    """Classe pour √©valuer les performances d'une architecture"""
    
    def __init__(self, architecture_name: str):
        self.architecture_name = architecture_name
        self.embedding_model = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2')
        self.results = []
        
    def evaluate_query(self, query: str, chat_function, reference_answer: str = None) -> Dict:
        """√âvalue une requ√™te unique"""
        
        # M√©triques techniques
        start_time = time.time()
        response = chat_function(query)
        latency = (time.time() - start_time) * 1000  # en ms
        
        result = {
            'query': query,
            'response': response,
            'latency_ms': latency,
            'response_length': len(response.split()),
        }
        
        # M√©triques de qualit√© (si r√©f√©rence disponible)
        if reference_answer:
            emb_response = self.embedding_model.encode(response, convert_to_tensor=True)
            emb_reference = self.embedding_model.encode(reference_answer, convert_to_tensor=True)
            similarity = util.cos_sim(emb_response, emb_reference).item()
            result['relevance_score'] = similarity
            
        self.results.append(result)
        return result
    
    def evaluate_dataset(self, test_queries: List, chat_function, num_runs: int = 3):
        """√âvalue l'ensemble du dataset de test"""
        
        print(f"\nüîç √âvaluation de {self.architecture_name}")
        print("=" * 80)
        
        for idx, test_case in enumerate(test_queries):
            query = test_case['query']
            print(f"\nRequ√™te {idx+1}/{len(test_queries)}: {query[:60]}...")
            
            # Ex√©cuter plusieurs fois pour stabilit√©
            latencies = []
            for run in range(num_runs):
                result = self.evaluate_query(query, chat_function)
                latencies.append(result['latency_ms'])
            
            print(f"  Latence: {np.mean(latencies):.0f}ms (¬±{np.std(latencies):.0f}ms)")
            
        return self.compute_aggregate_metrics()
    
    def compute_aggregate_metrics(self) -> Dict:
        """Calcule les m√©triques agr√©g√©es"""
        
        latencies = [r['latency_ms'] for r in self.results]
        response_lengths = [r['response_length'] for r in self.results]
        
        metrics = {
            'architecture': self.architecture_name,
            'num_queries': len(self.results),
            
            # M√©triques techniques
            'latency_mean': np.mean(latencies),
            'latency_median': np.median(latencies),
            'latency_std': np.std(latencies),
            'latency_p95': np.percentile(latencies, 95),
            'latency_p99': np.percentile(latencies, 99),
            'throughput': 1000 / np.mean(latencies),  # req/s
            
            # M√©triques de r√©ponse
            'response_length_mean': np.mean(response_lengths),
            'response_length_std': np.std(response_lengths),
        }
        
        # M√©triques de qualit√© (si disponibles)
        relevance_scores = [r.get('relevance_score') for r in self.results if 'relevance_score' in r]
        if relevance_scores:
            metrics['relevance_mean'] = np.mean(relevance_scores)
            metrics['relevance_std'] = np.std(relevance_scores)
        
        return metrics
    
    def print_summary(self, metrics: Dict):
        """Affiche un r√©sum√© des m√©triques"""
        
        print(f"\n\nüìä R√âSUM√â - {metrics['architecture'].upper()}")
        print("=" * 80)
        print(f"\nüîß M√âTRIQUES TECHNIQUES:")
        print(f"  Latence moyenne    : {metrics['latency_mean']:.0f}ms (¬±{metrics['latency_std']:.0f}ms)")
        print(f"  Latence m√©diane    : {metrics['latency_median']:.0f}ms")
        print(f"  Latence P95        : {metrics['latency_p95']:.0f}ms")
        print(f"  Latence P99        : {metrics['latency_p99']:.0f}ms")
        print(f"  Throughput         : {metrics['throughput']:.2f} req/s")
        
        print(f"\nüìù M√âTRIQUES DE R√âPONSE:")
        print(f"  Longueur moyenne   : {metrics['response_length_mean']:.1f} mots (¬±{metrics['response_length_std']:.1f})")
        
        if 'relevance_mean' in metrics:
            print(f"\nüéØ M√âTRIQUES DE QUALIT√â:")
            print(f"  Pertinence moyenne : {metrics['relevance_mean']:.3f} (¬±{metrics['relevance_std']:.3f})")
        
        print("=" * 80)

### 4. √âvaluation Comparative des 3 Architectures

In [None]:
# Exemple d'utilisation pour comparer les 3 architectures
# NOTE: Remplacer par les vraies fonctions de chat de chaque architecture

# Simulation des fonctions de chat (√† remplacer)
def chat_arch1(query):
    """Fonction de chat Architecture 1 (√† connecter au vrai mod√®le)"""
    # return model_arch1.chat(query)
    time.sleep(2.5)  # Simulation latence
    return "R√©ponse simul√©e de l'Architecture 1"

def chat_arch2(query):
    """Fonction de chat Architecture 2 (√† connecter au vrai mod√®le)"""
    # return rag_chat(query)
    time.sleep(4.0)  # Simulation latence
    return "R√©ponse simul√©e de l'Architecture 2 avec sources"

def chat_arch3(query):
    """Fonction de chat Architecture 3 (√† connecter au vrai mod√®le)"""
    # return agentic_chat(query)
    time.sleep(5.5)  # Simulation latence
    return "R√©ponse simul√©e de l'Architecture 3 avec cycle ReAct"

# Cr√©er les √©valuateurs
evaluator1 = ArchitectureEvaluator("Architecture 1 - Fine-tuning Simple")
evaluator2 = ArchitectureEvaluator("Architecture 2 - RAG Standard")
evaluator3 = ArchitectureEvaluator("Architecture 3 - RAG-Agentique")

# √âvaluer chaque architecture (utiliser subset pour test rapide)
test_subset = test_queries[:5]  # Pour test rapide, utiliser [:5]

print("\n" + "="*80)
print("üöÄ D√âBUT DE L'√âVALUATION COMPARATIVE")
print("="*80)

metrics1 = evaluator1.evaluate_dataset(test_subset, chat_arch1, num_runs=1)
evaluator1.print_summary(metrics1)

metrics2 = evaluator2.evaluate_dataset(test_subset, chat_arch2, num_runs=1)
evaluator2.print_summary(metrics2)

metrics3 = evaluator3.evaluate_dataset(test_subset, chat_arch3, num_runs=1)
evaluator3.print_summary(metrics3)

### 5. Visualisation Comparative

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Cr√©er DataFrame comparatif
comparison_df = pd.DataFrame([
    metrics1,
    metrics2,
    metrics3
])

# Visualisations
fig, axes = plt.subplots(2, 2, figsize=(15, 10))
fig.suptitle('Comparaison des Performances des Architectures', fontsize=16, fontweight='bold')

# 1. Latence moyenne
axes[0, 0].bar(comparison_df['architecture'], comparison_df['latency_mean'], color=['#3498db', '#e74c3c', '#2ecc71'])
axes[0, 0].set_ylabel('Latence (ms)')
axes[0, 0].set_title('Latence Moyenne')
axes[0, 0].tick_params(axis='x', rotation=15)

# 2. Throughput
axes[0, 1].bar(comparison_df['architecture'], comparison_df['throughput'], color=['#3498db', '#e74c3c', '#2ecc71'])
axes[0, 1].set_ylabel('Requ√™tes/seconde')
axes[0, 1].set_title('Throughput (D√©bit)')
axes[0, 1].tick_params(axis='x', rotation=15)

# 3. Latence P95 et P99
x = range(len(comparison_df))
width = 0.35
axes[1, 0].bar([i - width/2 for i in x], comparison_df['latency_p95'], width, label='P95', color='#3498db')
axes[1, 0].bar([i + width/2 for i in x], comparison_df['latency_p99'], width, label='P99', color='#e74c3c')
axes[1, 0].set_ylabel('Latence (ms)')
axes[1, 0].set_title('Latence Percentiles')
axes[1, 0].set_xticks(x)
axes[1, 0].set_xticklabels(comparison_df['architecture'], rotation=15)
axes[1, 0].legend()

# 4. Longueur des r√©ponses
axes[1, 1].bar(comparison_df['architecture'], comparison_df['response_length_mean'], color=['#3498db', '#e74c3c', '#2ecc71'])
axes[1, 1].set_ylabel('Nombre de mots')
axes[1, 1].set_title('Longueur Moyenne des R√©ponses')
axes[1, 1].tick_params(axis='x', rotation=15)

plt.tight_layout()
plt.savefig('comparison_architectures.png', dpi=300, bbox_inches='tight')
plt.show()

print("\n‚úÖ Graphiques sauvegard√©s : comparison_architectures.png")

### 6. Export des R√©sultats

In [None]:
# Exporter les r√©sultats en CSV
comparison_df.to_csv('evaluation_results.csv', index=False)
print("\n‚úÖ R√©sultats export√©s : evaluation_results.csv")

# Afficher tableau comparatif
print("\n" + "="*80)
print("üìä TABLEAU COMPARATIF FINAL")
print("="*80)
print(comparison_df[['architecture', 'latency_mean', 'latency_median', 'throughput', 'response_length_mean']].to_string(index=False))
print("="*80)

## üéØ Recommandations Finales

### S√©lection de l'Architecture Selon le Contexte

#### Choisir Architecture 1 si :
- ‚úÖ Budget limit√© / POC rapide
- ‚úÖ Requ√™tes tr√®s simples et r√©p√©titives
- ‚úÖ Besoin de latence ultra-faible
- ‚úÖ Donn√©es d'entra√Ænement de qualit√© disponibles
- ‚ùå Mais : Risque d'hallucinations √©lev√©

#### Choisir Architecture 2 si :
- ‚úÖ Besoin de fiabilit√© et tra√ßabilit√©
- ‚úÖ Base de connaissances √©volutive
- ‚úÖ Balance performance/complexit√©
- ‚úÖ R√©duction des hallucinations prioritaire
- ‚ùå Mais : Limit√© pour requ√™tes multi-√©tapes

#### Choisir Architecture 3 si :
- ‚úÖ Service client complet et automatis√©
- ‚úÖ Requ√™tes complexes n√©cessitant raisonnement
- ‚úÖ Besoin d'acc√®s donn√©es op√©rationnelles
- ‚úÖ Maximisation de l'autonomie
- ‚úÖ Budget infrastructure suffisant
- ‚ö†Ô∏è N√©cessite infrastructure robuste et maintenance

### M√©triques Prioritaires par Objectif

**Si priorit√© = Co√ªt :**
- Minimiser : Utilisation m√©moire, co√ªt computationnel
- ‚Üí **Architecture 1**

**Si priorit√© = Fiabilit√© :**
- Maximiser : Factualit√©, tra√ßabilit√©, pertinence
- ‚Üí **Architecture 2 ou 3**

**Si priorit√© = Autonomie :**
- Maximiser : Taux r√©solution, taux containment
- Minimiser : Taux escalade
- ‚Üí **Architecture 3**

**Si priorit√© = Performance :**
- Minimiser : Latence
- Maximiser : Throughput
- ‚Üí **Architecture 1**

## üìö R√©f√©rences et Ressources

### M√©triques NLP
- **BLEU** : Papineni et al. (2002) - "BLEU: a Method for Automatic Evaluation of Machine Translation"
- **ROUGE** : Lin (2004) - "ROUGE: A Package for Automatic Evaluation of Summaries"
- **BERTScore** : Zhang et al. (2020) - "BERTScore: Evaluating Text Generation with BERT"

### M√©triques RAG
- **RAGAS** : Framework d'√©valuation RAG (Retrieval-Augmented Generation Assessment)
- **Faithfulness** : Mesure de fid√©lit√© aux sources
- **Answer Relevancy** : Pertinence de la r√©ponse √† la question

### Outils d'√âvaluation
- **Sentence-Transformers** : Similarit√© s√©mantique
- **Hugging Face Evaluate** : Biblioth√®que de m√©triques
- **MLflow** : Tracking d'exp√©rimentations
- **Weights & Biases** : Monitoring et comparaison

### Benchmarks Conversationnels
- **DSTC** : Dialog System Technology Challenge
- **ConvAI** : Conversational Intelligence Challenge
- **MultiWOZ** : Multi-Domain Wizard-of-Oz dataset

## üìù Notes Finales

### Bonnes Pratiques d'√âvaluation

1. **√âvaluation Continue** : Ne pas √©valuer qu'une fois, mais r√©guli√®rement
2. **Donn√©es R√©elles** : Utiliser des vraies requ√™tes clients quand possible
3. **√âvaluation Humaine** : Combiner m√©triques automatiques et jugement humain
4. **A/B Testing** : Tester en production avec √©chantillons r√©els
5. **Monitoring** : Suivre m√©triques en temps r√©el post-d√©ploiement

### Limitations de l'√âvaluation Automatique

- Les m√©triques automatiques ne capturent pas toute la qualit√©
- L'√©valuation humaine reste le gold standard
- Le contexte m√©tier est crucial pour interpr√©ter les r√©sultats
- Les m√©triques doivent √™tre adapt√©es au cas d'usage sp√©cifique

### Prochaines √âtapes

1. Adapter ce notebook aux architectures impl√©ment√©es
2. Enrichir le dataset de test avec vraies requ√™tes EasyTransfert
3. Mettre en place √©valuation humaine avec annotateurs
4. Int√©grer tracking avec Weights & Biases ou MLflow
5. D√©ployer monitoring en production

---

## üìû Contact et Support

Pour toute question sur l'√©valuation ou les architectures :

- **Projet** : EasyTransfert - KAYBIC AFRICA
- **Documentation** : Voir `ARCHITECTURE_README.md`
- **Support** : 2522018730 (WhatsApp 24h/24)

---

*Ce notebook fait partie du projet de m√©moire sur les syst√®mes conversationnels pour EasyTransfert*