In [None]:
# Notebook de d√©monstration - Learning Assistant RAG
# Ce notebook montre comment utiliser le syst√®me programmatiquement

# ========================================
# Cellule 1: Setup et imports
# ========================================
import sys
from pathlib import Path
sys.path.append('../src')

from modules.ingestion import DocumentIngestion
from modules.chunking import TextChunker
from modules.embeddings import EmbeddingModel
from modules.retrieval import FAISSRetriever
from modules.learning_generator import LearningResponseGenerator
from modules.learning_config import learning_config
from modules.config import config

print("‚úÖ Tous les modules import√©s")

# ========================================
# Cellule 2: Initialiser les composants
# ========================================
print("üöÄ Initialisation du Learning Assistant...")

ingestion = DocumentIngestion()
chunker = TextChunker()
retriever = FAISSRetriever()
generator = LearningResponseGenerator()

print("‚úÖ Composants initialis√©s")
print(f"üìä Mod√®le d'embedding : {retriever.embedding_model.model_name}")
print(f"ü§ñ Mod√®le de g√©n√©ration : {generator.model_name}")

# ========================================
# Cellule 3: Cr√©er un cours d'exemple
# ========================================
sample_course = """
COURS : INTRODUCTION AU MACHINE LEARNING

Chapitre 1: Qu'est-ce que le Machine Learning ?

Le Machine Learning (apprentissage automatique) est une branche de l'intelligence 
artificielle qui permet aux ordinateurs d'apprendre √† partir de donn√©es sans √™tre 
explicitement programm√©s. Il existe trois types principaux :

1. Apprentissage Supervis√©
Dans l'apprentissage supervis√©, le mod√®le apprend √† partir de donn√©es √©tiquet√©es.
On fournit au mod√®le des exemples avec leurs r√©ponses correctes.

Exemples d'algorithmes supervis√©s :
- R√©gression lin√©aire : pour pr√©dire des valeurs continues
- Arbres de d√©cision : pour la classification
- R√©seaux de neurones : pour des t√¢ches complexes

2. Apprentissage Non-Supervis√©
L'apprentissage non-supervis√© travaille avec des donn√©es non √©tiquet√©es.
Le mod√®le cherche √† d√©couvrir des structures cach√©es dans les donn√©es.

Exemples :
- Clustering (K-means) : regrouper des donn√©es similaires
- R√©duction de dimensionnalit√© (PCA) : simplifier les donn√©es

3. Apprentissage par Renforcement
Le mod√®le apprend en interagissant avec un environnement et en recevant
des r√©compenses ou des p√©nalit√©s.

Chapitre 2: Les R√©seaux de Neurones

Un r√©seau de neurones est inspir√© du cerveau humain. Il est compos√© de :
- Couche d'entr√©e : re√ßoit les donn√©es
- Couches cach√©es : traite l'information
- Couche de sortie : produit le r√©sultat

Le processus d'apprentissage utilise la r√©tropropagation (backpropagation).

Chapitre 3: Gradient Descent

Le gradient descent est un algorithme d'optimisation. Il fonctionne en suivant
les √©tapes suivantes :

1. Initialiser les param√®tres du mod√®le
2. Calculer l'erreur (loss function)
3. Calculer le gradient (direction de la descente)
4. Mettre √† jour les param√®tres
5. R√©p√©ter jusqu'√† convergence

Il existe plusieurs variantes :
- Batch Gradient Descent
- Stochastic Gradient Descent (SGD)
- Mini-batch Gradient Descent
"""

# Sauvegarder le cours
course_path = config.DOCUMENTS_DIR / "cours_ml.txt"
with open(course_path, 'w', encoding='utf-8') as f:
    f.write(sample_course)

print(f"‚úÖ Cours d'exemple cr√©√© : {course_path}")

# ========================================
# Cellule 4: Indexer le cours
# ========================================
print("\nüìö Indexation du cours...")

# Extraction
doc_info = ingestion.process_document(course_path)
print(f"‚úÖ Texte extrait : {doc_info['num_characters']} caract√®res")

# Chunking
chunks = chunker.create_chunks_with_metadata(
    doc_info['content'],
    doc_info['filename']
)
print(f"‚úÖ {len(chunks)} chunks cr√©√©s")

# Embeddings
chunk_texts = [c['content'] for c in chunks]
embeddings = retriever.embedding_model.encode(chunk_texts)
print(f"‚úÖ Embeddings g√©n√©r√©s : {embeddings.shape}")

# Indexation
retriever.create_index(embeddings, chunks)
retriever.save_index()
print(f"‚úÖ Index FAISS cr√©√© et sauvegard√©")

# ========================================
# Cellule 5: Fonction de test p√©dagogique
# ========================================
def ask_learning_question(
    question: str, 
    level: str = 'intermediate',
    verbose: bool = True
):
    """
    Pose une question au Learning Assistant
    
    Args:
        question: La question
        level: beginner, intermediate, advanced
        verbose: Afficher les d√©tails
    """
    if verbose:
        print(f"\n{'='*80}")
        print(f"üéì Niveau : {level.upper()}")
        print(f"‚ùì Question : {question}")
        print(f"{'='*80}\n")
    
    # D√©tecter le type de question
    q_type = learning_config.detect_question_type(question)
    if verbose:
        print(f"üìë Type de question d√©tect√© : {q_type}\n")
    
    # Rechercher
    chunks = retriever.search(question, top_k=5)
    if verbose:
        print(f"üîç {len(chunks)} passages r√©cup√©r√©s\n")
    
    # G√©n√©rer la r√©ponse
    result = generator.generate_pedagogical_answer(
        question=question,
        context_chunks=chunks,
        learning_level=level
    )
    
    # Afficher
    if verbose:
        print(f"üí° R√âPONSE :")
        print(f"{'-'*80}")
        print(result['answer'])
        print(f"{'-'*80}\n")
        
        print(f"üìö Sources utilis√©es : {result['context_used']}")
        
        if result.get('follow_up_suggestions'):
            print(f"\nüí≠ Questions de suivi sugg√©r√©es :")
            for i, sugg in enumerate(result['follow_up_suggestions'], 1):
                print(f"   {i}. {sugg}")
    
    return result

# ========================================
# Cellule 6: Test niveau D√âBUTANT
# ========================================
print("\n" + "="*80)
print("TEST 1 : NIVEAU D√âBUTANT")
print("="*80)

result1 = ask_learning_question(
    "C'est quoi le machine learning ?",
    level='beginner'
)

# ========================================
# Cellule 7: Test niveau INTERM√âDIAIRE
# ========================================
print("\n" + "="*80)
print("TEST 2 : NIVEAU INTERM√âDIAIRE")
print("="*80)

result2 = ask_learning_question(
    "Comment fonctionne un r√©seau de neurones ?",
    level='intermediate'
)

# ========================================
# Cellule 8: Test niveau AVANC√â
# ========================================
print("\n" + "="*80)
print("TEST 3 : NIVEAU AVANC√â")
print("="*80)

result3 = ask_learning_question(
    "Explique le processus de gradient descent en d√©tail",
    level='advanced'
)

# ========================================
# Cellule 9: Test COMPARAISON
# ========================================
print("\n" + "="*80)
print("TEST 4 : COMPARAISON")
print("="*80)

result4 = ask_learning_question(
    "Quelle est la diff√©rence entre apprentissage supervis√© et non supervis√© ?",
    level='intermediate'
)

# ========================================
# Cellule 10: Test EXEMPLE
# ========================================
print("\n" + "="*80)
print("TEST 5 : DEMANDE D'EXEMPLES")
print("="*80)

result5 = ask_learning_question(
    "Donne-moi des exemples d'algorithmes supervis√©s",
    level='beginner'
)

# ========================================
# Cellule 11: Statistiques du syst√®me
# ========================================
print("\n" + "="*80)
print("üìä STATISTIQUES DU SYST√àME")
print("="*80)

print(f"\nüìö Cours index√©s :")
print(f"   - Nombre total de chunks : {retriever.index.ntotal}")
print(f"   - Dimension des vecteurs : {retriever.dimension}")

from collections import Counter
doc_counts = Counter(c['document_name'] for c in retriever.metadata)
print(f"\nüìÑ R√©partition :")
for doc, count in doc_counts.items():
    print(f"   - {doc} : {count} chunks")

# ========================================
# Cellule 12: Analyser les types de questions
# ========================================
test_questions = [
    "C'est quoi le deep learning ?",
    "Comment fonctionne la backpropagation ?",
    "Donne-moi un exemple de clustering",
    "Quelle est la diff√©rence entre CNN et RNN ?",
    "Quelles sont les √©tapes pour entra√Æner un mod√®le ?",
    "Explique pourquoi on utilise la normalisation"
]

print("\n" + "="*80)
print("üîç ANALYSE DES TYPES DE QUESTIONS")
print("="*80 + "\n")

for question in test_questions:
    q_type = learning_config.detect_question_type(question)
    print(f"‚ùì {question}")
    print(f"   ‚Üí Type : {q_type}\n")

# ========================================
# Cellule 13: Export des r√©sultats
# ========================================
import json
from datetime import datetime

# Pr√©parer les r√©sultats
test_results = {
    'timestamp': datetime.now().isoformat(),
    'system_info': {
        'embedding_model': retriever.embedding_model.model_name,
        'llm_model': generator.model_name,
        'total_chunks': retriever.index.ntotal
    },
    'tests': [
        {
            'question': result1.get('answer', '')[:100] + '...',
            'level': 'beginner',
            'type': result1.get('question_type', 'N/A')
        },
        {
            'question': result2.get('answer', '')[:100] + '...',
            'level': 'intermediate',
            'type': result2.get('question_type', 'N/A')
        },
        {
            'question': result3.get('answer', '')[:100] + '...',
            'level': 'advanced',
            'type': result3.get('question_type', 'N/A')
        }
    ]
}

# Sauvegarder
output_path = config.DATA_DIR / f"test_results_{datetime.now().strftime('%Y%m%d_%H%M%S')}.json"
with open(output_path, 'w', encoding='utf-8') as f:
    json.dump(test_results, f, ensure_ascii=False, indent=2)

print(f"‚úÖ R√©sultats export√©s : {output_path}")

print("\n" + "="*80)
print("‚úÖ D√âMO TERMIN√âE")
print("="*80)