# Session 1 – Chat Bootstrap (Foundry Local)

Den här notebooken startar Foundry Local, laddar ner den föredragna modellaliasen och utför både en standard- och en strömmande chattkomplettering.


# Scenario
Den här sessionen introducerar det absolut nödvändigaste för att få en lokal liten språkmodell att svara via Foundry Local. Du kommer att:
- Installera SDK / klientberoenden.
- Initiera Foundry Local-hanteraren för ett valt alias (standard: `phi-3.5-mini`).
- Använda en defensiv monkey-patch för att tolerera valfria fält i modellmetadata.
- Skicka en standardförfrågan för chattkomplettering.
- Strömma ett svar token för token.

Målet är att validera din lokala runtime och nätverksväg innan du går vidare till RAG, routing eller agenter.


### Förklaring: Installation av beroenden
Installerar de Python-paket som krävs för detta minimala chattflöde:
- `foundry-local-sdk`: Hanterar lokala modeller och tjänstelivscykel.
- `openai`: Bekant klientabstraktion för chattkompletteringar.
- `rich`: Snygg utskrift för tydligare notebook-utmatning.

Att köra igen är säkert (idempotent). Hoppa över om din miljö redan har dessa.


In [1]:
# Install required libraries (idempotent)
!pip install -q foundry-local-sdk openai rich

### Förklaring: Kärnimporter
Importerar moduler som används i hela notebooken:
- `FoundryLocalManager` för att interagera med den lokala modellens runtime.
- `OpenAI`-klient så att vi kan återanvända den välbekanta API-ytan för chattkomplettering.
- `rich.print` för formaterad output.

Inga nätverksanrop sker här—detta förbereder bara namnområdet.


In [2]:
import os
from foundry_local import FoundryLocalManager
from openai import OpenAI
from rich import print

### Förklaring: Initialisering av Manager & Metadata Patch
Initierar `FoundryLocalManager` för det valda aliaset och tillämpar en defensiv monkey-patch för att hantera tjänstsvar där `promptTemplate` kan vara `null` på ett smidigt sätt.

Viktiga resultat:
- Bekräftar tjänstens status och slutpunkt.
- Listar cachade modeller (verifierar lokal lagring).
- Löser det konkreta modell-ID:t för aliaset (används i senare chattanrop).

Om du stöter på valideringsproblem i rå metadata från tjänsten, visar detta mönster hur man kan sanera utan att behöva göra en fork av SDK:n.


In [3]:
# Catalog-safe manager initialization (handles null promptTemplate values)
import os
from foundry_local import FoundryLocalManager
from foundry_local.models import FoundryModelInfo
from openai import OpenAI
from rich import print

# Monkeypatch to tolerate service responses where promptTemplate is null
_original_from_list_response = FoundryModelInfo.from_list_response

def _safe_from_list_response(response):  # type: ignore
    try:
        if isinstance(response, dict) and response.get("promptTemplate") is None:
            # Normalize to empty dict so pydantic validation passes
            response["promptTemplate"] = {}
    except Exception as e:  # pragma: no cover
        print(f"[yellow]Warning: safe wrapper encountered issue normalizing promptTemplate: {e}[/yellow]")
    return _original_from_list_response(response)

# Apply patch only once
if getattr(FoundryModelInfo.from_list_response, "__name__", "") != "_safe_from_list_response":
    FoundryModelInfo.from_list_response = staticmethod(_safe_from_list_response)  # type: ignore

ALIAS = os.getenv('FOUNDRY_LOCAL_ALIAS', 'phi-3.5-mini')
manager = FoundryLocalManager(ALIAS)
print(f'[bold green]Service running:[/bold green] {manager.is_service_running()}')
print(f'Endpoint: {manager.endpoint}')
print('Cached models:', manager.list_cached_models())
model_id = manager.get_model_info(ALIAS).id
print(f'Using model id: {model_id}')

### Förklaring: Grundläggande Chat Completion
Skapar en `OpenAI`-kompatibel klient som pekar på den lokala Foundry-endpunkten och utför en enkel icke-strömmande chattsession. Fokus här:
- Säkerställ att modellen svarar utan fel.
- Validera latens / output-format.
- Håll `max_tokens` blygsamt för att spara resurser.

Om detta misslyckas, kontrollera igen att Foundry Local-tjänsten körs och att aliaset löser korrekt.


In [4]:
client = OpenAI(base_url=manager.endpoint, api_key=manager.api_key or 'not-needed')
prompt = 'List two benefits of local inference for privacy.'
resp = client.chat.completions.create(model=model_id, messages=[{'role':'user','content':prompt}], max_tokens=120, temperature=0.5)
print(resp.choices[0].message.content)

### Förklaring: Streaming Chat Completion
Visar tokenströmning för förbättrad upplevd latens och interaktiv användarupplevelse. Loopen skriver ut inkrementella förändringar när de anländer:
- Användbart för chattgränssnitt där tidigt partiellt resultat är viktigt.
- Gör det möjligt att mäta tokenflöde jämfört med fullständig slutföringslatens.

Du kan anpassa detta mönster för att samla tokens, uppdatera en framstegsindikator eller avbryta mitt i genereringen.


In [5]:
# Streaming example
stream = client.chat.completions.create(model=model_id, messages=[{'role':'user','content':'Give a one-sentence definition of edge AI.'}], stream=True, max_tokens=60, temperature=0.4)
for chunk in stream:
    delta = chunk.choices[0].delta
    if delta and delta.content:
        print(delta.content, end='', flush=True)
print()


---

**Ansvarsfriskrivning**:  
Detta dokument har översatts med hjälp av AI-översättningstjänsten [Co-op Translator](https://github.com/Azure/co-op-translator). Även om vi strävar efter noggrannhet, bör det noteras att automatiska översättningar kan innehålla fel eller felaktigheter. Det ursprungliga dokumentet på dess originalspråk bör betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi ansvarar inte för eventuella missförstånd eller feltolkningar som uppstår vid användning av denna översättning.
