# üöÄ Syst√®me de Q&A Ultra-Rapide sur Transcription Vocale

Ce notebook impl√©mente un syst√®me de questions-r√©ponses rapide bas√© sur :
- **Sentence Transformers** : Embeddings multilingues fran√ßais
- **FAISS** : Recherche vectorielle ultra-rapide
- Temps de r√©ponse : ~50-200ms

---

## üì¶ 1. Installation des d√©pendances

In [1]:
!pip install sentence-transformers faiss-cpu numpy

Collecting faiss-cpu
  Downloading faiss_cpu-1.13.1-cp310-abi3-macosx_14_0_arm64.whl.metadata (7.6 kB)
Downloading faiss_cpu-1.13.1-cp310-abi3-macosx_14_0_arm64.whl (3.4 MB)
[2K   [38;2;114;156;31m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m3.4/3.4 MB[0m [31m1.3 MB/s[0m eta [36m0:00:00[0m[36m0:00:01[0m[36m0:00:01[0m:01[0m0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.13.1


In [2]:
import numpy as np
from sentence_transformers import SentenceTransformer
import faiss
from typing import List, Tuple
import re
import time
import random

W1218 09:00:01.907000 87432 site-packages/torch/distributed/elastic/multiprocessing/redirects.py:29] NOTE: Redirects are currently not supported in Windows or MacOs.


## üîß 2. Classe FastQASystem

In [3]:
class FastQASystem:
    """Syst√®me de Q&A ultra-rapide bas√© sur la recherche vectorielle"""
    
    def __init__(self, model_name: str = 'paraphrase-multilingual-MiniLM-L12-v2'):
        """
        Initialise le syst√®me avec un mod√®le d'embeddings.
        
        Args:
            model_name: Nom du mod√®le SentenceTransformer
                       Options: 
                       - 'paraphrase-multilingual-MiniLM-L12-v2' (rapide, bon)
                       - 'paraphrase-multilingual-mpnet-base-v2' (plus lent, meilleur)
        """
        print(f"üì¶ Chargement du mod√®le {model_name}...")
        self.model = SentenceTransformer(model_name)
        self.index = None
        self.segments = []
        print("‚úì Mod√®le charg√©!")
        
    def prepare_transcription(self, transcription: str, window_size: int = 1) -> List[str]:
        """
        D√©coupe la transcription en segments avec contexte.
        
        Args:
            transcription: Texte de la transcription
            window_size: Nombre de phrases avant/apr√®s √† inclure pour le contexte
            
        Returns:
            Liste de segments avec contexte
        """
        # D√©coupe par phrases
        sentences = re.split(r'[.!?]+', transcription)
        sentences = [s.strip() for s in sentences if s.strip()]
        
        segments = []
        
        # Cr√©e des segments avec fen√™tre de contexte
        for i, sentence in enumerate(sentences):
            context = []
            
            # Ajoute les phrases pr√©c√©dentes
            for j in range(max(0, i - window_size), i):
                context.append(sentences[j])
            
            # Phrase actuelle
            context.append(sentence)
            
            # Ajoute les phrases suivantes
            for j in range(i + 1, min(len(sentences), i + window_size + 1)):
                context.append(sentences[j])
            
            segments.append(' '.join(context))
        
        return segments
    
    def index_transcription(self, transcription: str, window_size: int = 1):
        """
        Indexe la transcription pour recherche rapide.
        
        Args:
            transcription: Texte de la transcription
            window_size: Taille de la fen√™tre de contexte
        """
        print("\nüîÑ Pr√©paration des segments...")
        self.segments = self.prepare_transcription(transcription, window_size)
        print(f"   ‚Üí {len(self.segments)} segments cr√©√©s")
        
        print("üîÑ Encodage des segments...")
        start = time.time()
        embeddings = self.model.encode(
            self.segments, 
            show_progress_bar=True,
            convert_to_numpy=True
        )
        print(f"   ‚Üí Encodage termin√© en {time.time() - start:.2f}s")
        
        print("üîÑ Cr√©ation de l'index FAISS...")
        dimension = embeddings.shape[1]
        self.index = faiss.IndexFlatIP(dimension)  # Inner Product pour similarit√© cosinus
        
        # Normalise pour utiliser la similarit√© cosinus
        faiss.normalize_L2(embeddings)
        self.index.add(embeddings)
        
        print(f"‚úì Indexation termin√©e! ({self.index.ntotal} vecteurs)")
    
    def search(self, question: str, top_k: int = 3) -> List[Tuple[str, float]]:
        """
        Recherche les segments les plus pertinents.
        
        Args:
            question: Question pos√©e
            top_k: Nombre de r√©sultats √† retourner
            
        Returns:
            Liste de tuples (segment, score de similarit√©)
        """
        if self.index is None:
            raise ValueError("Le syst√®me n'a pas √©t√© index√©. Appelle d'abord index_transcription()")
        
        # Encode la question
        question_embedding = self.model.encode([question], convert_to_numpy=True)
        faiss.normalize_L2(question_embedding)
        
        # Recherche dans l'index
        scores, indices = self.index.search(question_embedding, top_k)
        
        results = []
        for idx, score in zip(indices[0], scores[0]):
            results.append((self.segments[idx], float(score)))
        
        return results
    
    def answer(self, question: str, min_confidence: float = 0.3) -> dict:
        """
        R√©pond √† la question de mani√®re naturelle.
        
        Args:
            question: Question pos√©e
            min_confidence: Score minimum pour consid√©rer la r√©ponse valide
            
        Returns:
            Dictionnaire avec 'answer', 'confidence', 'time_ms'
        """
        start = time.time()
        
        results = self.search(question, top_k=1)
        
        elapsed_ms = (time.time() - start) * 1000
        
        if not results:
            return {
                'answer': "D√©sol√©, je n'ai pas trouv√© d'information sur ce sujet.",
                'confidence': 0.0,
                'time_ms': elapsed_ms
            }
        
        best_match, score = results[0]
        
        if score < min_confidence:
            return {
                'answer': "Hmm, je ne suis pas s√ªr d'avoir compris ta question. Peux-tu reformuler ?",
                'confidence': score,
                'time_ms': elapsed_ms
            }
        
        answer = self._format_answer(best_match, score)
        
        return {
            'answer': answer,
            'confidence': score,
            'time_ms': elapsed_ms,
            'raw_segment': best_match
        }
    
    def _format_answer(self, text: str, confidence: float) -> str:
        """Ajoute un peu de naturel √† la r√©ponse"""
        text = text.strip()
        
        if confidence > 0.8:
            prefixes = ["Voil√† : ", "Ah oui ! ", "Exactement : ", ""]
        elif confidence > 0.5:
            prefixes = ["D'apr√®s ce que j'ai : ", "Il semblerait que : ", ""]
        else:
            prefixes = ["Je pense que : ", "Peut-√™tre que : "]
        
        prefix = random.choice(prefixes)
        return f"{prefix}{text}"

## üìù 3. Exemple de transcription

In [4]:
# Transcription d'exemple (remplace par ta vraie transcription)
transcription_exemple = """
John est arriv√© ce matin avec son bob rose flashy, cette sacr√© canaille. 
Tout le monde a rigol√© en le voyant. 
Il a dit que c'√©tait un cadeau de sa grand-m√®re Josette.
Marie portait une casquette bleue marine tr√®s √©l√©gante.
Le bob de John est vraiment voyant, on ne peut pas le manquer.
On l'a surnomm√© le flamant rose apr√®s √ßa.
Sophie a apport√© des croissants pour tout le monde.
Les croissants venaient de la boulangerie du coin de la rue.
Pierre a racont√© une blague mais personne n'a ri.
Il √©tait un peu vex√© mais il a fait semblant de rire aussi.
La r√©union a commenc√© √† 9h pr√©cises.
Le directeur a annonc√© de bonnes nouvelles sur les ventes du trimestre.
"""

print("üìÑ Transcription charg√©e!")
print(f"Longueur: {len(transcription_exemple)} caract√®res")

üìÑ Transcription charg√©e!
Longueur: 663 caract√®res


## üöÄ 4. Initialisation et indexation

In [5]:
# Initialise le syst√®me
qa_system = FastQASystem()

üì¶ Chargement du mod√®le paraphrase-multilingual-MiniLM-L12-v2...


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/645 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

‚úì Mod√®le charg√©!


In [6]:
# Indexe la transcription
qa_system.index_transcription(transcription_exemple, window_size=1)


üîÑ Pr√©paration des segments...
   ‚Üí 12 segments cr√©√©s
üîÑ Encodage des segments...


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

   ‚Üí Encodage termin√© en 0.97s
üîÑ Cr√©ation de l'index FAISS...
‚úì Indexation termin√©e! (12 vecteurs)


## üí¨ 5. Test avec des questions

In [7]:
# Liste de questions de test
questions_test = [
    "De quelle couleur est le bob de John ?",
    "Qui porte une casquette ?",
    "Quel surnom a √©t√© donn√© √† John ?",
    "Qui a apport√© des croissants ?",
    "D'o√π viennent les croissants ?",
    "√Ä quelle heure a commenc√© la r√©union ?",
    "Qu'a annonc√© le directeur ?",
]

In [8]:
# Test des questions
print("="*70)
print("üß™ TEST DU SYST√àME DE Q&A")
print("="*70 + "\n")

for question in questions_test:
    result = qa_system.answer(question)
    
    print(f"‚ùì Q: {question}")
    print(f"üí¨ R: {result['answer']}")
    print(f"üìä Confiance: {result['confidence']:.2%}")
    print(f"‚ö° Temps: {result['time_ms']:.0f}ms")
    print("-" * 70 + "\n")

üß™ TEST DU SYST√àME DE Q&A

‚ùì Q: De quelle couleur est le bob de John ?
üí¨ R: D'apr√®s ce que j'ai : John est arriv√© ce matin avec son bob rose flashy, cette sacr√© canaille Tout le monde a rigol√© en le voyant
üìä Confiance: 60.32%
‚ö° Temps: 695ms
----------------------------------------------------------------------

‚ùì Q: Qui porte une casquette ?
üí¨ R: Je pense que : Marie portait une casquette bleue marine tr√®s √©l√©gante Le bob de John est vraiment voyant, on ne peut pas le manquer On l'a surnomm√© le flamant rose apr√®s √ßa
üìä Confiance: 43.25%
‚ö° Temps: 337ms
----------------------------------------------------------------------

‚ùì Q: Quel surnom a √©t√© donn√© √† John ?
üí¨ R: Il semblerait que : John est arriv√© ce matin avec son bob rose flashy, cette sacr√© canaille Tout le monde a rigol√© en le voyant Il a dit que c'√©tait un cadeau de sa grand-m√®re Josette
üìä Confiance: 56.27%
‚ö° Temps: 14ms
----------------------------------------------------------

## üîç 6. Recherche avanc√©e (top 3 r√©sultats)

In [9]:
# Exemple de recherche avec plusieurs r√©sultats
question = "Parle-moi de John"
results = qa_system.search(question, top_k=3)

print(f"üîç Question: {question}\n")
print("Top 3 r√©sultats:\n")

for i, (segment, score) in enumerate(results, 1):
    print(f"{i}. Score: {score:.2%}")
    print(f"   {segment}\n")

üîç Question: Parle-moi de John

Top 3 r√©sultats:

1. Score: 62.43%
   John est arriv√© ce matin avec son bob rose flashy, cette sacr√© canaille Tout le monde a rigol√© en le voyant

2. Score: 56.93%
   John est arriv√© ce matin avec son bob rose flashy, cette sacr√© canaille Tout le monde a rigol√© en le voyant Il a dit que c'√©tait un cadeau de sa grand-m√®re Josette

3. Score: 49.57%
   Le bob de John est vraiment voyant, on ne peut pas le manquer On l'a surnomm√© le flamant rose apr√®s √ßa Sophie a apport√© des croissants pour tout le monde



## üéØ 7. Test interactif

In [10]:
# Pose ta propre question ici
ma_question = "De quelle couleur est le bob de John ?"  # Modifie cette ligne

result = qa_system.answer(ma_question)

print(f"‚ùì Question: {ma_question}")
print(f"üí¨ R√©ponse: {result['answer']}")
print(f"\nüìä D√©tails:")
print(f"   - Confiance: {result['confidence']:.2%}")
print(f"   - Temps: {result['time_ms']:.0f}ms")
if 'raw_segment' in result:
    print(f"   - Segment source: {result['raw_segment']}")

‚ùì Question: De quelle couleur est le bob de John ?
üí¨ R√©ponse: John est arriv√© ce matin avec son bob rose flashy, cette sacr√© canaille Tout le monde a rigol√© en le voyant

üìä D√©tails:
   - Confiance: 60.32%
   - Temps: 53ms
   - Segment source: John est arriv√© ce matin avec son bob rose flashy, cette sacr√© canaille Tout le monde a rigol√© en le voyant


## üìä 8. Benchmark de performance

In [11]:
# Test de performance sur plusieurs questions
import statistics

times = []
for _ in range(20):
    for q in questions_test:
        result = qa_system.answer(q)
        times.append(result['time_ms'])

print("üìä STATISTIQUES DE PERFORMANCE")
print("=" * 40)
print(f"Temps moyen:  {statistics.mean(times):.1f}ms")
print(f"Temps m√©dian: {statistics.median(times):.1f}ms")
print(f"Temps min:    {min(times):.1f}ms")
print(f"Temps max:    {max(times):.1f}ms")
print(f"\nüéØ Total de {len(times)} requ√™tes test√©es")

üìä STATISTIQUES DE PERFORMANCE
Temps moyen:  12.8ms
Temps m√©dian: 12.8ms
Temps min:    9.8ms
Temps max:    60.1ms

üéØ Total de 140 requ√™tes test√©es
