# üîç Diagnostic et Correction de la Recherche Vectorielle RAG

Ce notebook diagnostique et corrige le probl√®me de recherche vectorielle dans le syst√®me RAG qui emp√™che de trouver "Mondial Tissus".

## Probl√®me identifi√© :
- ‚úÖ Recherche textuelle simple fonctionne : trouve "mondial tissus" 
- ‚ùå Recherche vectorielle √©choue : `'str' object has no attribute 'get'`

## Objectif :
Corriger le bug de recherche vectorielle pour que le Chat RAG puisse trouver "Mondial Tissus"

In [1]:
# Import Required Libraries
import sys
import os
import pickle
import pandas as pd
from pathlib import Path

# Ajouter le r√©pertoire rag_app au path (version Jupyter)
current_dir = os.getcwd()
sys.path.insert(0, current_dir)

try:
    from rag_app.core.vector_database import VectorDatabase
    print("‚úÖ Imports RAG r√©ussis")
except ImportError as e:
    print(f"‚ùå Erreur d'import RAG: {e}")
    print(f"üìÅ R√©pertoire actuel: {current_dir}")
    print(f"üìã Contenu du r√©pertoire:")
    for item in os.listdir(current_dir):
        print(f"   {item}")

import warnings
warnings.filterwarnings('ignore')

‚úÖ Imports RAG r√©ussis


In [2]:
# Charger la base vectorielle
db_path = 'data/docs/vector_db.pkl'

if os.path.exists(db_path):
    with open(db_path, 'rb') as f:
        db = pickle.load(f)
    
    print(f"üìä Base vectorielle charg√©e : {len(db.documents)} documents")
    
    # Examiner la structure des documents
    if db.documents:
        sample_doc = db.documents[0]
        print(f"üìã Structure du premier document:")
        print(f"   Type: {type(sample_doc)}")
        print(f"   Cl√©s: {list(sample_doc.keys()) if isinstance(sample_doc, dict) else 'Non-dict'}")
        
        # V√©rifier les m√©tadonn√©es
        if isinstance(sample_doc, dict) and 'metadata' in sample_doc:
            metadata = sample_doc['metadata']
            print(f"   M√©tadonn√©es type: {type(metadata)}")
            if isinstance(metadata, dict):
                print(f"   Cl√©s m√©tadonn√©es: {list(metadata.keys())}")
            
else:
    print("‚ùå Base vectorielle non trouv√©e")

üìä Base vectorielle charg√©e : 498 documents
üìã Structure du premier document:
   Type: <class 'dict'>
   Cl√©s: ['text', 'metadata', 'timestamp', 'type']
   M√©tadonn√©es type: <class 'dict'>
   Cl√©s m√©tadonn√©es: ['source', 'title', 'category', 'project', 'author', 'date', 'description', 'tags', 'priority', 'status']


In [3]:
# Test de recherche textuelle simple
def test_simple_text_search(query, documents):
    """Recherche textuelle simple dans les documents."""
    results = []
    
    for i, doc in enumerate(documents):
        if isinstance(doc, dict):
            text = doc.get('text', '').lower()
            metadata = doc.get('metadata', {})
            source = metadata.get('source', f'Document_{i}') if isinstance(metadata, dict) else f'Document_{i}'
        else:
            text = str(doc).lower()
            source = f'Document_{i}'
        
        if query.lower() in text:
            results.append((i, source, text[:100] + "..."))
    
    return results

# Test avec "mondial tissus"
query = "mondial tissus"
text_results = test_simple_text_search(query, db.documents)

print(f"üîç Recherche textuelle '{query}': {len(text_results)} r√©sultats")
for i, (idx, source, excerpt) in enumerate(text_results):
    print(f"  üìÑ {idx}: {os.path.basename(source)}")
    print(f"      Extrait: {excerpt}")
    print()

üîç Recherche textuelle 'mondial tissus': 2 r√©sultats
  üìÑ 21: M401_annonce_.pdf
      Extrait: ‚Ä¢ d√©veloppeur.euse confirm√©.e  
groupe mondial tissus  
3.33.3 √©toile(s) sur 5  
69140 rillieux -la-...

  üìÑ 25: M401_LM_MondialTissus_DevConfirm√©.pdf
      Extrait: cyril sauret  
60, route de feurs  
69170 tarare  
 
07.86.09.87.81  
sauretcyril@outlook.fr  
 
   ...



In [4]:
# Test de recherche vectorielle avec debug
def debug_vector_search(vector_db, query, top_k=5):
    """Test la recherche vectorielle avec diagnostic d√©taill√©."""
    print(f"üîç Debug recherche vectorielle pour: '{query}'")
    
    try:
        # V√©rifier l'√©tat de la base vectorielle
        print(f"üìä Documents dans la base: {len(vector_db.documents)}")
        print(f"üìä Vecteurs initialis√©s: {vector_db.vectors is not None}")
        
        if vector_db.vectorizer is None:
            print("‚ùå Vectorizer non initialis√©")
            return []
        
        # Essayer la recherche
        results = vector_db.search(query, top_k=top_k)
        print(f"‚úÖ Recherche r√©ussie: {len(results)} r√©sultats")
        
        # Examiner les r√©sultats
        for i, result in enumerate(results):
            print(f"üìÑ R√©sultat {i+1}:")
            print(f"   Type: {type(result)}")
            
            if isinstance(result, dict):
                print(f"   Cl√©s: {list(result.keys())}")
                metadata = result.get('metadata', {})
                if isinstance(metadata, dict):
                    source = metadata.get('source', 'N/A')
                    print(f"   Source: {os.path.basename(source)}")
                else:
                    print(f"   M√©tadonn√©es: {metadata} (type: {type(metadata)})")
            else:
                print(f"   Contenu: {str(result)[:100]}...")
        
        return results
        
    except Exception as e:
        print(f"‚ùå Erreur lors de la recherche vectorielle: {e}")
        import traceback
        traceback.print_exc()
        return []

# Test de la recherche vectorielle
print("=" * 60)
vector_results = debug_vector_search(db, "COSERVICES")

üîç Debug recherche vectorielle pour: 'COSERVICES'
üìä Documents dans la base: 498
üìä Vecteurs initialis√©s: True
‚úÖ Recherche r√©ussie: 3 r√©sultats
üìÑ R√©sultat 1:
   Type: <class 'dict'>
   Cl√©s: ['document', 'similarity']
   Source: A
üìÑ R√©sultat 2:
   Type: <class 'dict'>
   Cl√©s: ['document', 'similarity']
   Source: A
üìÑ R√©sultat 3:
   Type: <class 'dict'>
   Cl√©s: ['document', 'similarity']
   Source: A


In [6]:
# Debug sp√©cifique de l'erreur 'str' object has no attribute 'get'
def fix_vector_search_bug(vector_db):
    """Analyse et corrige le bug de recherche vectorielle."""
    print("üîß DIAGNOSTIC DU BUG 'str' object has no attribute 'get'")
    print("=" * 60)
    
    # Examiner les documents pour identifier le probl√®me
    problematic_docs = []
    
    for i, doc in enumerate(vector_db.documents):
        if not isinstance(doc, dict):
            problematic_docs.append((i, type(doc), str(doc)[:100]))
        elif 'metadata' in doc:
            metadata = doc['metadata']
            if not isinstance(metadata, dict):
                problematic_docs.append((i, f"metadata is {type(metadata)}", str(metadata)[:100]))
    
    if problematic_docs:
        print(f"‚ùå Documents probl√©matiques trouv√©s: {len(problematic_docs)}")
        for i, (idx, issue, content) in enumerate(problematic_docs[:3]):
            print(f"   {idx}: {issue}")
            print(f"       Contenu: {content}...")
    else:
        print("‚úÖ Tous les documents semblent avoir une structure correcte")
    
    # Essayer de corriger la structure si n√©cessaire
    if problematic_docs:
        print("\nüîß Tentative de correction...")
        corrected_docs = []
        
        for doc in vector_db.documents:
            if isinstance(doc, dict):
                # S'assurer que metadata est un dict
                if 'metadata' in doc and not isinstance(doc['metadata'], dict):
                    doc['metadata'] = {'source': str(doc['metadata'])}
                corrected_docs.append(doc)
            else:
                # Convertir les non-dict en dict
                corrected_docs.append({
                    'text': str(doc),
                    'metadata': {'source': f'converted_doc_{len(corrected_docs)}'},
                    'timestamp': '',
                    'type': 'converted'
                })
        
        vector_db.documents = corrected_docs
        print(f"‚úÖ Structure corrig√©e: {len(corrected_docs)} documents")
        return True
    
    return False

# Appliquer le fix
fix_applied = fix_vector_search_bug(db)

üîß DIAGNOSTIC DU BUG 'str' object has no attribute 'get'
‚úÖ Tous les documents semblent avoir une structure correcte


In [7]:
# Test apr√®s correction
if fix_applied:
    print("\nüß™ TEST APR√àS CORRECTION")
    print("=" * 40)
    
    # Re-tester la recherche vectorielle
    vector_results_fixed = debug_vector_search(db, "mondial tissus")
    
    if vector_results_fixed:
        print("\nüéâ SUCC√àS! La recherche vectorielle fonctionne maintenant!")
        
        # Sauvegarder la base corrig√©e
        try:
            with open(db_path, 'wb') as f:
                pickle.dump(db, f)
            print("üíæ Base vectorielle corrig√©e sauvegard√©e")
        except Exception as e:
            print(f"‚ùå Erreur sauvegarde: {e}")
    else:
        print("‚ùå La correction n'a pas r√©solu le probl√®me")
        
else:
    print("\n‚úÖ Aucune correction n√©cessaire")
    print("Le probl√®me de recherche vectorielle pourrait √™tre ailleurs")


‚úÖ Aucune correction n√©cessaire
Le probl√®me de recherche vectorielle pourrait √™tre ailleurs


In [None]:
# Comparaison finale des r√©sultats
print("\nüìä COMPARAISON RECHERCHE TEXTUELLE vs VECTORIELLE")
print("=" * 60)

# R√©capitulatif des r√©sultats textuels
print(f"üî§ Recherche textuelle:")
print(f"   R√©sultats: {len(text_results)}")
for i, (idx, source, excerpt) in enumerate(text_results):
    print(f"   üìÑ {os.path.basename(source)}")

# R√©capitulatif des r√©sultats vectoriels
print(f"\nüîç Recherche vectorielle:")
if 'vector_results_fixed' in locals() and vector_results_fixed:
    print(f"   R√©sultats: {len(vector_results_fixed)}")
    for i, result in enumerate(vector_results_fixed):
        if isinstance(result, dict) and 'metadata' in result:
            source = result['metadata'].get('source', 'N/A')
            print(f"   üìÑ {os.path.basename(source)}")
        else:
            print(f"   üìÑ R√©sultat {i+1}")
else:
    print("   ‚ùå √âchec ou pas de correction appliqu√©e")

print(f"\nüéØ CONCLUSION:")
if len(text_results) > 0:
    print("‚úÖ Les documents contenant 'Mondial Tissus' existent dans la base")
    if 'vector_results_fixed' in locals() and vector_results_fixed:
        print("‚úÖ La recherche vectorielle fonctionne apr√®s correction")
        print("üöÄ Le Chat RAG devrait maintenant trouver 'Mondial Tissus'")
    else:
        print("‚ùå La recherche vectorielle a encore des probl√®mes")
        print("üîß Une investigation plus pouss√©e est n√©cessaire")
else:
    print("‚ùå Aucun document contenant 'Mondial Tissus' trouv√©")
    print("üîß Le probl√®me est dans l'indexation des documents")


üìä COMPARAISON RECHERCHE TEXTUELLE vs VECTORIELLE
üî§ Recherche textuelle:
   R√©sultats: 2
   üìÑ M401_annonce_.pdf
   üìÑ M401_LM_MondialTissus_DevConfirm√©.pdf

üîç Recherche vectorielle:
   ‚ùå √âchec ou pas de correction appliqu√©e

üéØ CONCLUSION:
‚úÖ Les documents contenant 'Mondial Tissus' existent dans la base
‚ùå La recherche vectorielle a encore des probl√®mes
üîß Une investigation plus pouss√©e est n√©cessaire


: 