# Session 1 – Démarrage du Chat (Foundry Local)

Ce notebook initialise Foundry Local, télécharge l'alias du modèle préféré, et effectue à la fois une complétion de chat standard et une complétion de chat en streaming.


# Scénario
Cette session présente le strict minimum pour faire répondre un petit modèle linguistique local via Foundry Local. Vous allez :
- Installer les dépendances du SDK / client.
- Initialiser le gestionnaire Foundry Local pour un alias choisi (par défaut : `phi-3.5-mini`).
- Appliquer un correctif défensif pour gérer les champs optionnels dans les métadonnées du modèle.
- Envoyer une requête standard de complétion de chat.
- Diffuser une réponse, token par token.

L'objectif est de valider votre environnement local et le chemin réseau avant de passer à RAG, au routage ou aux agents.


### Explication : Installation des dépendances
Installe les packages Python nécessaires pour ce flux de discussion minimal :
- `foundry-local-sdk` : Gérer les modèles locaux et le cycle de vie des services.
- `openai` : Abstraction client familière pour les complétions de chat.
- `rich` : Affichage amélioré pour une sortie plus claire dans les notebooks.

Relancer est sans danger (idempotent). Passez cette étape si votre environnement dispose déjà de ces packages.


In [1]:
# Install required libraries (idempotent)
!pip install -q foundry-local-sdk openai rich

### Explication : Importations principales
Introduit les modules utilisés dans tout le notebook :
- `FoundryLocalManager` pour interagir avec l'environnement d'exécution du modèle local.
- Client `OpenAI` afin que nous puissions réutiliser l'interface API de complétion de chat familière.
- `rich.print` pour des sorties stylisées.

Aucun appel réseau ne se produit ici—cela prépare simplement l'espace de noms.


In [2]:
import os
from foundry_local import FoundryLocalManager
from openai import OpenAI
from rich import print

### Explication : Initialisation du gestionnaire et correctif de métadonnées
Initialise `FoundryLocalManager` pour l'alias choisi et applique un correctif défensif pour gérer avec souplesse les réponses du service où `promptTemplate` pourrait être `null`.

Résultats clés :
- Confirme l'état du service et le point de terminaison.
- Liste les modèles mis en cache (vérifie le stockage local).
- Résout l'ID concret du modèle pour l'alias (utilisé dans les appels de chat ultérieurs).

Si vous rencontrez des problèmes de validation dans les métadonnées brutes du service, ce modèle montre comment les assainir sans modifier le SDK.


In [3]:
# Catalog-safe manager initialization (handles null promptTemplate values)
import os
from foundry_local import FoundryLocalManager
from foundry_local.models import FoundryModelInfo
from openai import OpenAI
from rich import print

# Monkeypatch to tolerate service responses where promptTemplate is null
_original_from_list_response = FoundryModelInfo.from_list_response

def _safe_from_list_response(response):  # type: ignore
    try:
        if isinstance(response, dict) and response.get("promptTemplate") is None:
            # Normalize to empty dict so pydantic validation passes
            response["promptTemplate"] = {}
    except Exception as e:  # pragma: no cover
        print(f"[yellow]Warning: safe wrapper encountered issue normalizing promptTemplate: {e}[/yellow]")
    return _original_from_list_response(response)

# Apply patch only once
if getattr(FoundryModelInfo.from_list_response, "__name__", "") != "_safe_from_list_response":
    FoundryModelInfo.from_list_response = staticmethod(_safe_from_list_response)  # type: ignore

ALIAS = os.getenv('FOUNDRY_LOCAL_ALIAS', 'phi-3.5-mini')
manager = FoundryLocalManager(ALIAS)
print(f'[bold green]Service running:[/bold green] {manager.is_service_running()}')
print(f'Endpoint: {manager.endpoint}')
print('Cached models:', manager.list_cached_models())
model_id = manager.get_model_info(ALIAS).id
print(f'Using model id: {model_id}')

### Explication : Complétion de chat basique
Crée un client compatible avec `OpenAI` pointant vers l'endpoint local de Foundry et effectue une seule complétion de chat non‑streamée. Points d'attention :
- S'assurer que le modèle répond sans erreur.
- Valider la latence / le format de sortie.
- Garder `max_tokens` modeste pour économiser les ressources.

Si cela échoue, vérifiez à nouveau que le service Foundry Local est en cours d'exécution et que l'alias se résout correctement.


In [4]:
client = OpenAI(base_url=manager.endpoint, api_key=manager.api_key or 'not-needed')
prompt = 'List two benefits of local inference for privacy.'
resp = client.chat.completions.create(model=model_id, messages=[{'role':'user','content':prompt}], max_tokens=120, temperature=0.5)
print(resp.choices[0].message.content)

### Explication : Complétion de chat en streaming
Démontre le streaming de tokens pour améliorer la latence perçue et l'expérience utilisateur interactive. La boucle imprime des deltas incrémentaux au fur et à mesure qu'ils arrivent :
- Utile pour les interfaces de chat où une sortie partielle précoce est importante.
- Permet de mesurer le débit des tokens par rapport à la latence de complétion totale.

Vous pouvez adapter ce modèle pour accumuler des tokens, mettre à jour un widget de progression ou interrompre la génération en cours.


In [5]:
# Streaming example
stream = client.chat.completions.create(model=model_id, messages=[{'role':'user','content':'Give a one-sentence definition of edge AI.'}], stream=True, max_tokens=60, temperature=0.4)
for chunk in stream:
    delta = chunk.choices[0].delta
    if delta and delta.content:
        print(delta.content, end='', flush=True)
print()


---

**Avertissement** :  
Ce document a été traduit à l'aide du service de traduction automatique [Co-op Translator](https://github.com/Azure/co-op-translator). Bien que nous nous efforcions d'assurer l'exactitude, veuillez noter que les traductions automatisées peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue d'origine doit être considéré comme la source faisant autorité. Pour des informations critiques, il est recommandé de recourir à une traduction humaine professionnelle. Nous déclinons toute responsabilité en cas de malentendus ou d'interprétations erronées résultant de l'utilisation de cette traduction.
