Skip to content
Mike edited this page May 28, 2026 · 1 revision

About

xlocllm закрывает задачу локального inference без внешнего API: Python код выбирает модель, группирует ее в runtime, поднимает локальный bridge на 127.0.0.1 и отдает совместимые с OpenAI endpoints.

Что внутри

  • ModelInfo - запись каталога модели с runtime, hardware и task metadata.
  • Unit - capability/model пара, например LLM + Qwen или embedding + multilingual-e5-small.
  • Runtime - набор units, которые должны жить и запускаться вместе.
  • Bridge / NativeBridge - локальный HTTP control plane для выбранного режима.

Runtime modes

Режим Как включить Где выполняется модель Когда выбирать
native xlocllm.mode = "native" или default локальные native engines: llama.cpp/GGUF, ONNX Runtime серверные и production Python сценарии, RAG, CPU/GPU локально
webgpu with xlocllm.webgpu: или @xlocllm.webgpu paired browser window, WebGPU/WebNN если доступно демо и browser-backed inference с GPU
web with xlocllm.web: или @xlocllm.web paired browser window, CPU/WASM fallback модели без WebGPU, легкие Transformers.js задачи

Глобально SDK различает mode="native" и mode="web"; webgpu и web - это scoped helpers, которые выставляют browser device defaults (webgpu или wasm) для создаваемых units.

Локальное состояние

По умолчанию xlocllm хранит bridge metadata, native engine/model cache, vector stores и browser profiles:

  • Windows: %LOCALAPPDATA%\xlocllm
  • Linux/macOS: $XDG_STATE_HOME/xlocllm или ~/.local/state/xlocllm

Environment variables:

Переменная Назначение
XLOCLLM_HOME переопределить state/cache directory
XLOCLLM_WEB_URL использовать кастомный web runtime URL
XLOCLLM_LOG_LEVEL уровень логов uvicorn
XLOCLLM_NATIVE_DISABLE_INSTALL=1 запретить managed native dependency install и падать с диагностикой

Источники

Clone this wiki locally