# 🧪 Test LlamaStack dans OpenShift AI

Ce notebook teste la fonctionnalité LlamaStack avec le modèle Llama-3.2-1B-Instruct déployé sur OpenShift AI.

## 📋 Prérequis
- Namespace: `llama-instruct-32-1b-demo`
- LlamaStackDistribution: `lsd-llama-32-1b-instruct`
- InferenceService: `llama-32-1b-instruct`

## 🔗 Services utilisés
- `lsd-llama-32-1b-instruct-service:8321` (LlamaStack)
- `llama-32-1b-instruct-predictor:80` (vLLM)

In [None]:
# Installation des dépendances
!pip install llama-stack-client fire requests

In [None]:
# Import des librairies
import requests
import json
from llama_stack_client import Client, Agent, AgentEventLogger
import uuid
import os

print("✅ Librairies importées")

## 🔍 Test 1: Vérification des services

In [None]:
# Test de connexion à LlamaStack
llamastack_url = "http://lsd-llama-32-1b-instruct-service:8321"

print(f"🔗 Test de connexion à LlamaStack: {llamastack_url}")

try:
    response = requests.get(f"{llamastack_url}/v1/models", timeout=10)
    print(f"✅ Status: {response.status_code}")
    
    if response.status_code == 200:
        models = response.json()
        print("📋 Modèles disponibles:")
        for model in models.get('data', []):
            print(f"  - {model.get('identifier', 'N/A')} ({model.get('model_type', 'N/A')})")
    else:
        print(f"❌ Erreur: {response.text}")
        
except Exception as e:
    print(f"❌ Erreur de connexion: {e}")

In [None]:
# Test de connexion à vLLM
vllm_url = "http://llama-32-1b-instruct-predictor:80"

print(f"🔗 Test de connexion à vLLM: {vllm_url}")

try:
    response = requests.get(f"{vllm_url}/v1/models", timeout=10)
    print(f"✅ Status: {response.status_code}")
    
    if response.status_code == 200:
        models = response.json()
        print("📋 Modèles vLLM disponibles:")
        for model in models.get('data', []):
            print(f"  - {model.get('id', 'N/A')}")
    else:
        print(f"❌ Erreur: {response.text}")
        
except Exception as e:
    print(f"❌ Erreur de connexion: {e}")

## 🤖 Test 2: Client LlamaStack

In [None]:
# Connexion au client LlamaStack
try:
    client = Client(base_url=llamastack_url)
    print("✅ Client LlamaStack connecté")
    
    # Lister les modèles
    models = client.models.list()
    print(f"📋 {len(models)} modèles trouvés:")
    for model in models:
        print(f"  - {model.identifier} ({model.model_type})")
        
except Exception as e:
    print(f"❌ Erreur client LlamaStack: {e}")

In [None]:
# Vérifier les bases vectorielles
try:
    vector_dbs = client.vector_dbs.list()
    print(f"🗄️ {len(vector_dbs)} bases vectorielles trouvées:")
    for db in vector_dbs:
        print(f"  - {db.identifier}")
        
    if not vector_dbs:
        print("ℹ️ Aucune base vectorielle trouvée (normal si pas encore d'ingestion)")
        
except Exception as e:
    print(f"❌ Erreur bases vectorielles: {e}")

## 💬 Test 3: Agent LlamaStack

In [None]:
# Créer un agent LlamaStack
try:
    # Trouver le modèle LLM
    llm_model = None
    for model in models:
        if model.model_type == "llm":
            llm_model = model
            break
    
    if llm_model:
        print(f"🤖 Modèle LLM trouvé: {llm_model.identifier}")
        
        # Créer un agent simple (sans RAG pour l'instant)
        agent = Agent(
            client,
            model=llm_model.identifier,
            instructions="Tu es un assistant IA utile et amical."
        )
        print("✅ Agent LlamaStack créé")
        
        # Test simple
        session_id = agent.create_session(session_name=f"test_session_{uuid.uuid4().hex[:8]}")
        print(f"📝 Session créée: {session_id}")
        
        # Question simple
        response = agent.create_turn(
            messages=[{"role": "user", "content": "Bonjour, comment allez-vous ?"}],
            session_id=session_id,
            stream=True
        )
        
        print("💬 Réponse:")
        for log in AgentEventLogger().log(response):
            if hasattr(log, 'content') and log.content:
                print(log.content, end='', flush=True)
        print()
        
    else:
        print("❌ Aucun modèle LLM trouvé")
        
except Exception as e:
    print(f"❌ Erreur agent: {e}")

## 🔧 Test 4: Test direct vLLM

In [None]:
# Test direct de l'API vLLM
print("🔧 Test direct de l'API vLLM")

try:
    # Test de chat completion
    chat_payload = {
        "model": "llama-32-1b-instruct",
        "messages": [
            {"role": "user", "content": "Explique-moi ce qu'est l'intelligence artificielle en 2 phrases."}
        ],
        "max_tokens": 150,
        "temperature": 0.7
    }
    
    response = requests.post(
        f"{vllm_url}/v1/chat/completions",
        json=chat_payload,
        timeout=30
    )
    
    if response.status_code == 200:
        result = response.json()
        print("✅ Réponse vLLM:")
        print(result['choices'][0]['message']['content'])
    else:
        print(f"❌ Erreur vLLM: {response.status_code}")
        print(response.text)
        
except Exception as e:
    print(f"❌ Erreur test vLLM: {e}")

## 📊 Résumé des tests

In [None]:
print("🎉 Tests terminés !")
print("\n📋 Prochaines étapes:")
print("1. Si les tests passent, déployer la pipeline d'ingestion RAG")
print("2. Tester la fonctionnalité RAG avec des documents")
print("3. Utiliser le use case assurance")
print("\n🔗 Services testés:")
print(f"  - LlamaStack: {llamastack_url}")
print(f"  - vLLM: {vllm_url}")
print("\n📚 Documentation:")
print("  - README RAG: llamastack/rag/README.md")
print("  - Scripts de déploiement: deploy-rag.sh, deploy-assurance.sh")

## 🆕 Test 5: Enregistrement de la base vectorielle (selon doc Red Hat)

Test de l'approche recommandée par la documentation Red Hat pour enregistrer une base vectorielle.


In [None]:
# Test 5: Enregistrement de la base vectorielle selon la doc Red Hat
print("🔧 Test 5: Enregistrement de la base vectorielle")

# Configuration selon la documentation Red Hat
vector_db_id = "assurance_minio_db"
embedding_model_id = "granite-embedding-125m"
embedding_dimension = 125
provider_id = "milvus"

try:
    # Enregistrer la base vectorielle avec l'approche recommandée
    print(f"📝 Enregistrement de la base vectorielle: {vector_db_id}")
    
    result = client.vector_dbs.register(
        vector_db_id=vector_db_id,
        embedding_model=embedding_model_id,
        embedding_dimension=embedding_dimension,
        provider_id=provider_id,
    )
    
    print(f"✅ Base vectorielle enregistrée: {result}")
    
    # Vérifier que la base est bien enregistrée
    vector_dbs = client.vector_dbs.list()
    print(f"🗄️ Bases vectorielles disponibles: {len(vector_dbs)}")
    for db in vector_dbs:
        print(f"  - {db.get('id', 'N/A')}: {db.get('name', 'N/A')}")
        
except Exception as e:
    print(f"❌ Erreur lors de l'enregistrement: {e}")
    print(f"Type d'erreur: {type(e).__name__}")


## 🆕 Test 6: Agent RAG avec outil knowledge_search

Test de l'agent RAG avec l'outil `builtin::rag/knowledge_search` selon la documentation Red Hat.


In [None]:
# Test 6: Agent RAG avec outil knowledge_search
print("🤖 Test 6: Agent RAG avec outil knowledge_search")

try:
    # Créer un agent RAG avec l'outil recommandé par la doc Red Hat
    print("🔧 Création de l'agent RAG...")
    
    rag_agent = Agent(
        client,
        model="llama-32-1b-instruct",
        instructions="Tu es un assistant IA utile et amical spécialisé dans l'assurance.",
        tools=[
            {
                "name": "builtin::rag/knowledge_search",
                "args": {"vector_db_ids": [vector_db_id]},
            }
        ],
        config={
            "max_tokens": 100,
            "temperature": 0.7
        }
    )
    
    print("✅ Agent RAG créé avec l'outil knowledge_search")
    
    # Créer une session
    session_id = rag_agent.create_session(session_name=f"rag_test_{uuid.uuid4().hex[:8]}")
    print(f"📝 Session créée: {session_id}")
    
    # Test avec une question sur l'assurance
    prompt = "Quelles sont les conditions générales d'assurance auto d'AXA ?"
    print(f"❓ Question: {prompt}")
    
    response = rag_agent.create_turn(
        messages=[{"role": "user", "content": prompt}],
        session_id=session_id,
        stream=True,
    )
    
    print("📤 Réponse de l'agent RAG:")
    for log in AgentEventLogger().log(response):
        log.print()
        
except Exception as e:
    print(f"❌ Erreur lors de la création de l'agent RAG: {e}")
    print(f"Type d'erreur: {type(e).__name__}")


## 🆕 Test 7: Requête vectorielle directe

Test de la requête vectorielle directe avec `client.vector_io.query()` selon la documentation Red Hat.


In [None]:
# Test 7: Requête vectorielle directe
print("🔍 Test 7: Requête vectorielle directe")

try:
    # Test de requête vectorielle directe selon la doc Red Hat
    print(f"🔍 Requête dans la base vectorielle: {vector_db_id}")
    
    query_result = client.vector_io.query(
        vector_db_id=vector_db_id,
        query="assurance auto AXA conditions générales",
    )
    
    print(f"✅ Résultat de la requête vectorielle:")
    print(f"Type: {type(query_result)}")
    print(f"Contenu: {query_result}")
    
    # Si c'est une liste, afficher les éléments
    if isinstance(query_result, list):
        print(f"📄 Nombre de documents trouvés: {len(query_result)}")
        for i, doc in enumerate(query_result[:3]):  # Afficher les 3 premiers
            print(f"  Document {i+1}: {doc}")
    elif isinstance(query_result, dict):
        print(f"📄 Clés disponibles: {list(query_result.keys())}")
        
except Exception as e:
    print(f"❌ Erreur lors de la requête vectorielle: {e}")
    print(f"Type d'erreur: {type(e).__name__}")
    
    # Test alternatif avec une requête plus simple
    try:
        print("\n🔄 Test alternatif avec requête simple...")
        query_result_simple = client.vector_io.query(
            vector_db_id=vector_db_id,
            query="assurance",
        )
        print(f"✅ Résultat simple: {query_result_simple}")
    except Exception as e2:
        print(f"❌ Erreur requête simple: {e2}")
