Quickstart

Установка

pip install xlocllm

Опционально, если нужен официальный OpenAI клиент:

pip install "xlocllm[openai]"

Development install из репозитория:

python -m pip install -e .\python\xlocllm[dev,openai]

Первый запуск

import xlocllm

llm = xlocllm.unit("LLM", "Qwen-3.5-0.8b")
emb = xlocllm.unit("embedding", "multilingual-e5-small")

runtime = xlocllm.runtime([llm, emb], port=1146)
runtime.install()
runtime.run()

print(runtime.url)       # http://127.0.0.1:1146/v1
print(runtime.status())  # состояние bridge/runtime

В native режиме недостающие engine-зависимости и model artifacts скачиваются в cache при первом runtime.run().

Native + OpenAI library for quick dev

import xlocllm
from openai import OpenAI

unit = xlocllm.unit("LLM", "Qwen-3.5-0.8b", quant="q4")
unit1 = xlocllm.unit("embedding", "multilingual-e5-small")

rt = xlocllm.runtime([unit, unit1], mode="native", port=1146)
rt.run()

# Дальше обычный код с официальной OpenAI library.
# Для тестов меняется только адрес клиента на локальный xlocllm endpoint.
client = OpenAI(base_url=rt.url, api_key="xlocllm")
response = client.chat.completions.create(
    model=unit.model,
    messages=[{"role": "user", "content": "What is lidar?"}],
    max_tokens=64,
)
print(response.choices[0].message.content)

rt.close()

Это один из самых удобных quick-dev сценариев: существующий код, который уже использует официальную openai библиотеку, можно направить на локальный xlocllm runtime простой заменой base_url. Runtime может содержать сразу несколько units, например LLM и embeddings, а модели при этом запускаются нативно через локальные engines, а не в браузере.

Быстрый RAG

import xlocllm

emb = xlocllm.unit("embedding", "multilingual-e5-small")
rag = xlocllm.rag(emb=emb, name="kb")
llm = xlocllm.unit("LLM", "Qwen-3.5-0.8b-fp32", rag=rag)

with xlocllm.runtime([llm]) as runtime:
    runtime.run()
    rag.add(["xlocllm stores vectors in the active runtime storage."], ids=["storage"])
    print(runtime.chat("Where does xlocllm store vectors?"))

Дальше: основные сущности и подбор модели.

Quickstart

Quickstart

Установка

Первый запуск

Native + OpenAI library for quick dev

Быстрый RAG

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!