In [None]:
# Notebook 2: Embedding and FAISS Index
# Ce notebook montre comment cr√©er des embeddings et un index FAISS

# Cellule 1: Imports
import sys
sys.path.append('../src')

from modules.embeddings import EmbeddingModel
from modules.retrieval import FAISSRetriever
from modules.config import config
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

print("‚úÖ Modules import√©s")

# Cellule 2: Initialiser le mod√®le d'embedding
embedding_model = EmbeddingModel()
print(f"Mod√®le: {embedding_model.model_name}")
print(f"Dimension: {embedding_model.get_embedding_dimension()}")

# Cellule 3: Tester avec des exemples simples
sample_texts = [
    "L'intelligence artificielle transforme notre monde",
    "Le machine learning permet aux machines d'apprendre",
    "Les r√©seaux de neurones sont inspir√©s du cerveau humain",
    "Python est un langage de programmation populaire",
    "La cuisine fran√ßaise est r√©put√©e dans le monde entier"
]

# G√©n√©rer les embeddings
embeddings = embedding_model.encode(sample_texts)
print(f"\nüìä Shape des embeddings: {embeddings.shape}")
print(f"Type: {embeddings.dtype}")

# Cellule 4: Visualiser les embeddings (r√©duction en 2D avec PCA)
pca = PCA(n_components=2)
embeddings_2d = pca.fit_transform(embeddings)

plt.figure(figsize=(10, 8))
plt.scatter(embeddings_2d[:, 0], embeddings_2d[:, 1], s=100)

for i, txt in enumerate(sample_texts):
    plt.annotate(
        txt[:30] + "...", 
        (embeddings_2d[i, 0], embeddings_2d[i, 1]),
        fontsize=9
    )

plt.title("Visualisation des embeddings (PCA 2D)")
plt.xlabel("Composante 1")
plt.ylabel("Composante 2")
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Cellule 5: Calculer les similarit√©s
from sklearn.metrics.pairwise import cosine_similarity

similarities = cosine_similarity(embeddings)
print("\nüîç Matrice de similarit√© cosinus:")
print(similarities)

# Trouver les paires les plus similaires
for i in range(len(sample_texts)):
    for j in range(i+1, len(sample_texts)):
        sim = similarities[i][j]
        print(f"\nSimilarit√© entre:")
        print(f"  '{sample_texts[i][:40]}'")
        print(f"  '{sample_texts[j][:40]}'")
        print(f"  Score: {sim:.4f}")

# Cellule 6: Cr√©er un index FAISS
retriever = FAISSRetriever()

# Cr√©er l'index avec nos exemples
metadata = [
    {'chunk_id': f'chunk_{i}', 'content': txt, 'document_name': 'example.txt'}
    for i, txt in enumerate(sample_texts)
]

retriever.create_index(embeddings, metadata)
print(f"\n‚úÖ Index FAISS cr√©√© avec {retriever.index.ntotal} vecteurs")

# Cellule 7: Tester la recherche
query = "Comment fonctionnent les r√©seaux de neurones ?"
print(f"\nüîç Question: {query}")

results = retriever.search(query, top_k=3)

print("\nüìã R√©sultats:")
for i, result in enumerate(results, 1):
    print(f"\n{i}. Score: {result['score']:.4f}")
    print(f"   Contenu: {result['content']}")
    print(f"   Chunk ID: {result['chunk_id']}")

# Cellule 8: Charger des chunks r√©els (du notebook pr√©c√©dent)
import json

chunks_file = config.CHUNKS_DIR / "votre_document.pdf_chunks.json"

if chunks_file.exists():
    with open(chunks_file, 'r', encoding='utf-8') as f:
        chunks = json.load(f)
    
    print(f"\nüìÑ Chunks charg√©s: {len(chunks)}")
    
    # G√©n√©rer les embeddings
    chunk_texts = [chunk['content'] for chunk in chunks]
    chunk_embeddings = embedding_model.encode(chunk_texts)
    
    # Cr√©er l'index
    retriever_full = FAISSRetriever()
    retriever_full.create_index(chunk_embeddings, chunks)
    
    print(f"‚úÖ Index cr√©√© avec {retriever_full.index.ntotal} vecteurs")
    
    # Sauvegarder
    retriever_full.save_index()
    print(f"‚úÖ Index sauvegard√© dans {config.INDEX_DIR}")
else:
    print("‚ö†Ô∏è Aucun fichier de chunks trouv√©. Ex√©cutez d'abord le notebook 01.")

# Cellule 9: Test de recherche sur l'index complet
if 'retriever_full' in locals():
    test_query = "Quel est le sujet principal du document ?"
    print(f"\nüîç Question: {test_query}")
    
    results = retriever_full.search(test_query, top_k=5)
    
    print("\nüìã Top 5 r√©sultats:")
    for i, result in enumerate(results, 1):
        print(f"\n{i}. {result['document_name']} - Chunk {result['chunk_index']}")
        print(f"   Score: {result['score']:.4f}")
        print(f"   Extrait: {result['content'][:150]}...")

# Cellule 10: Statistiques de l'index
if 'retriever_full' in locals():
    print("\nüìä Statistiques de l'index:")
    print(f"Nombre total de vecteurs: {retriever_full.index.ntotal}")
    print(f"Dimension des vecteurs: {retriever_full.dimension}")
    print(f"Nombre de documents uniques: {len(set(c['document_name'] for c in retriever_full.metadata))}")
    
    # Distribution des chunks par document
    from collections import Counter
    doc_counts = Counter(c['document_name'] for c in retriever_full.metadata)
    
    print("\nüìö R√©partition des chunks par document:")
    for doc, count in doc_counts.items():
        print(f"  {doc}: {count} chunks")