Skip to content

Quickstart

Mike edited this page May 28, 2026 · 2 revisions

Quickstart

Установка

pip install xlocllm

Опционально, если нужен официальный OpenAI клиент:

pip install "xlocllm[openai]"

Development install из репозитория:

python -m pip install -e .\python\xlocllm[dev,openai]

Первый запуск

import xlocllm

llm = xlocllm.unit("LLM", "Qwen-3.5-0.8b")
emb = xlocllm.unit("embedding", "multilingual-e5-small")

runtime = xlocllm.runtime([llm, emb], port=1146)
runtime.install()
runtime.run()

print(runtime.url)       # http://127.0.0.1:1146/v1
print(runtime.status())  # состояние bridge/runtime

В native режиме недостающие engine-зависимости и model artifacts скачиваются в cache при первом runtime.run().

Native + OpenAI library for quick dev

import xlocllm
from openai import OpenAI

unit = xlocllm.unit("LLM", "Qwen-3.5-0.8b", quant="q4")
unit1 = xlocllm.unit("embedding", "multilingual-e5-small")

rt = xlocllm.runtime([unit, unit1], mode="native", port=1146)
rt.run()

# Дальше обычный код с официальной OpenAI library.
# Для тестов меняется только адрес клиента на локальный xlocllm endpoint.
client = OpenAI(base_url=rt.url, api_key="xlocllm")
response = client.chat.completions.create(
    model=unit.model,
    messages=[{"role": "user", "content": "What is lidar?"}],
    max_tokens=64,
)
print(response.choices[0].message.content)

rt.close()

Это один из самых удобных quick-dev сценариев: существующий код, который уже использует официальную openai библиотеку, можно направить на локальный xlocllm runtime простой заменой base_url. Runtime может содержать сразу несколько units, например LLM и embeddings, а модели при этом запускаются нативно через локальные engines, а не в браузере.

Быстрый RAG

import xlocllm

emb = xlocllm.unit("embedding", "multilingual-e5-small")
rag = xlocllm.rag(emb=emb, name="kb")
llm = xlocllm.unit("LLM", "Qwen-3.5-0.8b-fp32", rag=rag)

with xlocllm.runtime([llm]) as runtime:
    runtime.run()
    rag.add(["xlocllm stores vectors in the active runtime storage."], ids=["storage"])
    print(runtime.chat("Where does xlocllm store vectors?"))

Дальше: основные сущности и подбор модели.

Clone this wiki locally