# Сесија 1 – Покретање Чета (Foundry Local)

Овај нотебук покреће Foundry Local, преузима пожељни модел алијаса и извршава стандардно и стриминг завршавање чета.


# Сценарио
Ова сесија представља апсолутни минимум за покретање малог локалног језичког модела преко Foundry Local. Урадићете следеће:
- Инсталираћете SDK / зависности клијента.
- Иницијализоваћете Foundry Local менаџер за изабрани алијас (подразумевано: `phi-3.5-mini`).
- Применићете одбрамбени monkey‑patch како бисте толерисали опционална поља у метаподацима модела.
- Пошаљете стандардни захтев за завршетак ћаскања.
- Стримујете одговор, токен по токен.

Циљ је да потврдите ваш локални runtime и мрежни пут пре него што пређете на RAG, рутирање или агенте.


### Објашњење: Инсталација зависности
Инсталира Python пакете потребне за овај минимални ток разговора:
- `foundry-local-sdk`: Управљање локалним моделима и животним циклусом услуга.
- `openai`: Позната апстракција клијента за завршетке разговора.
- `rich`: Лепо форматирање за јаснији излаз у бележници.

Поновно покретање је безбедно (идемпотентно). Прескочите ако ваше окружење већ има ове пакете.


In [1]:
# Install required libraries (idempotent)
!pip install -q foundry-local-sdk openai rich

### Објашњење: Основни Увоз
Уноси модуле који се користе кроз целу свеску:
- `FoundryLocalManager` за интерфејс са локалним окружењем модела.
- `OpenAI` клијент како бисмо могли поново да користимо познату API површину за завршетак разговора.
- `rich.print` за стилизовани излаз.

Овде се не дешавају мрежни позиви—ово само припрема простор имена.


In [2]:
import os
from foundry_local import FoundryLocalManager
from openai import OpenAI
from rich import print

### Објашњење: Иницијализација менаџера и исправка метаподатака
Иницијализује `FoundryLocalManager` за изабрани алијас и примењује дефанзивни monkey‑patch како би се елегантно обрадили одговори сервиса где `promptTemplate` може бити `null`.

Кључни резултати:
- Потврђује стање сервиса и крајњу тачку.
- Наводи кеширане моделе (проверава локалну меморију).
- Решава конкретан ID модела за алијас (користи се у каснијим позивима за ћаскање).

Ако наиђете на проблеме са валидацијом у сировим метаподацима сервиса, овај образац показује како да их очистите без раздвајања SDK-а.


In [3]:
# Catalog-safe manager initialization (handles null promptTemplate values)
import os
from foundry_local import FoundryLocalManager
from foundry_local.models import FoundryModelInfo
from openai import OpenAI
from rich import print

# Monkeypatch to tolerate service responses where promptTemplate is null
_original_from_list_response = FoundryModelInfo.from_list_response

def _safe_from_list_response(response):  # type: ignore
    try:
        if isinstance(response, dict) and response.get("promptTemplate") is None:
            # Normalize to empty dict so pydantic validation passes
            response["promptTemplate"] = {}
    except Exception as e:  # pragma: no cover
        print(f"[yellow]Warning: safe wrapper encountered issue normalizing promptTemplate: {e}[/yellow]")
    return _original_from_list_response(response)

# Apply patch only once
if getattr(FoundryModelInfo.from_list_response, "__name__", "") != "_safe_from_list_response":
    FoundryModelInfo.from_list_response = staticmethod(_safe_from_list_response)  # type: ignore

ALIAS = os.getenv('FOUNDRY_LOCAL_ALIAS', 'phi-3.5-mini')
manager = FoundryLocalManager(ALIAS)
print(f'[bold green]Service running:[/bold green] {manager.is_service_running()}')
print(f'Endpoint: {manager.endpoint}')
print('Cached models:', manager.list_cached_models())
model_id = manager.get_model_info(ALIAS).id
print(f'Using model id: {model_id}')

### Објашњење: Основно завршавање разговора
Креира `OpenAI`-компатибилног клијента који се повезује на локални Foundry крајњи чвор и извршава једно завршавање разговора без стриминга. Фокус овде:
- Осигурајте да модел одговара без грешке.
- Потврдите кашњење / формат излаза.
- Држите `max_tokens` умереним ради очувања ресурса.

Ако ово не успе, поново проверите да ли је Foundry Local услуга покренута и да ли се алијас исправно разрешава.


In [4]:
client = OpenAI(base_url=manager.endpoint, api_key=manager.api_key or 'not-needed')
prompt = 'List two benefits of local inference for privacy.'
resp = client.chat.completions.create(model=model_id, messages=[{'role':'user','content':prompt}], max_tokens=120, temperature=0.5)
print(resp.choices[0].message.content)

### Објашњење: Стримовање завршетка разговора
Приказује стримовање токена за побољшану перцепцију кашњења и интерактивни кориснички интерфејс. Петља исписује постепене промене како стижу:
- Корисно за корисничке интерфејсе за разговоре где је рани делимични излаз важан.
- Омогућава вам да измерите проток токена у односу на кашњење потпуне завршнице.

Овај образац можете прилагодити за акумулирање токена, ажурирање виджета за напредак или прекид генерисања на пола пута.


In [5]:
# Streaming example
stream = client.chat.completions.create(model=model_id, messages=[{'role':'user','content':'Give a one-sentence definition of edge AI.'}], stream=True, max_tokens=60, temperature=0.4)
for chunk in stream:
    delta = chunk.choices[0].delta
    if delta and delta.content:
        print(delta.content, end='', flush=True)
print()


---

**Одрицање од одговорности**:  
Овај документ је преведен помоћу услуге за превођење уз помоћ вештачке интелигенције [Co-op Translator](https://github.com/Azure/co-op-translator). Иако настојимо да обезбедимо тачност, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом изворном језику треба сматрати меродавним извором. За критичне информације препоручује се професионални превод од стране људи. Не сносимо одговорност за било каква погрешна тумачења или неспоразуме који могу произаћи из коришћења овог превода.
