Qolda Deployment with LMDeploy

Introduction

Qolda is ISSAI's latest open-source vision-language model fine-tuned for multimodal understanding. The model is available on HuggingFace at issai/Qolda.

This Docker setup deploys Qolda using lmdeploy for serving the model via API.

Prerequisites

Docker
Docker Compose
NVIDIA GPU with CUDA support
NVIDIA Container Toolkit

Quick Start

The Qolda model is open source and publicly available. No authentication is required!

Build and Run with Docker Compose

docker-compose up -d

Build and Run with Docker

# Build the image
docker build -t qolda-lmdeploy .

# Run the container
docker run -d \
  --name qolda-lmdeploy \
  --gpus all \
  -p 23333:23333 \
  --shm-size 8g \
  -v huggingface-cache:/root/.cache/huggingface \
  qolda-lmdeploy

Configuration

You can customize the deployment by modifying environment variables in docker-compose.yml:

MODEL_NAME: The HuggingFace model to deploy (default: issai/Qolda)
SERVER_PORT: API server port (default: 23333)
BACKEND: Inference backend (default: pytorch)
TP: Tensor parallelism degree (default: 1)
SESSION_LEN: Maximum session length (default: 32768)

Usage

Once the container is running, you can access the API at http://localhost:23333.

Web Interface with Open WebUI

For a user-friendly web interface, we recommend using Open WebUI:

Install Open WebUI using Docker:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Open your browser and navigate to http://localhost:3000
In Open WebUI settings, add a new connection:
- API Base URL: http://host.docker.internal:23333/v1
- Model: issai/Qolda
Start chatting with Qolda through an intuitive web interface!

Example API Request

curl http://localhost:23333/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "issai/Qolda",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

Logs

View container logs:

docker-compose logs -f

Or with Docker:

docker logs -f qolda-lmdeploy

Stop and Remove

docker-compose down

Or with Docker:

docker stop qolda-lmdeploy
docker rm qolda-lmdeploy

Troubleshooting

Model Download Issues

The first run will download the Qolda model from HuggingFace (no authentication required)
This may take some time depending on your internet connection
Model files are cached in a Docker volume to avoid re-downloading
Ensure you have sufficient disk space for the model (~8GB)

GPU Errors

Ensure NVIDIA drivers are properly installed
Verify NVIDIA Container Toolkit is configured correctly
Check GPU availability with: docker run --rm --gpus all nvidia/cuda:12.4.0-base-ubuntu22.04 nvidia-smi

Notes

Adjust shm_size if you encounter shared memory errors
Ensure your GPU has sufficient VRAM for the model (minimum 8GB recommended)
Qolda is fully open source and can be freely used and modified

Qolda-ны LMDeploy арқылы пайдалану

Qolda туралы

Qolda - ISSAI-дің мультимодальды түсіну үшін жетілдірілген ең соңғы ашық коды бар көру-тілдік моделі. Модель HuggingFace-те issai/Qolda сілтемесі арқылы қолжетімді.

Осы Docker орнатылымы Qolda моделін API қызметі ретінде пайдалану үшін lmdeploy арқылы орналастырады.

Талаптар

Docker
Docker Compose
CUDA қолдауымен NVIDIA GPU
NVIDIA Container Toolkit

Старт

Qolda моделі ашық және көпшілікке қолжетімді. Аутентификация қажет емес!

Docker Compose арқылы құрастыру және іске қосу

docker-compose up -d

Docker арқылы құрастыру және іске қосу

# Образды құрастыру
docker build -t qolda-lmdeploy .

# Контейнерді іске қосу
docker run -d \
  --name qolda-lmdeploy \
  --gpus all \
  -p 23333:23333 \
  --shm-size 8g \
  -v huggingface-cache:/root/.cache/huggingface \
  qolda-lmdeploy

Конфигурация

docker-compose.yml файлындағы орта айнымалыларын өзгерту арқылы орналастыруды өзгертуге болады:

MODEL_NAME: Орналастырылатын HuggingFace моделі (негізгісі: issai/Qolda)
SERVER_PORT: API сервер порты (негізгісі: 23333)
BACKEND: Инференс бэкенді (негізгісі: pytorch)
TP: Тензор параллелизм дәрежесі (негізгісі: 1)
SESSION_LEN: Максималды сессия ұзындығы (негізгісі: 32768)

Қалай пайдалану керек

Контейнер іске қосылғаннан кейін, API-ге http://localhost:23333 сілтемесі арқылы қол жеткізуге болады.

Open WebUI арқылы веб-интерфейс құрастыру

Пайдаланушыға ыңғайлы веб-интерфейс үшін Open WebUI пайдалануды ұсынамыз:

Open WebUI-ді Docker арқылы орнатыңыз:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Браузеріңізді ашып, http://localhost:3000 сілтемесіне өтіңіз
Open WebUI параметрлерінде жаңа қосылым қосыңыз:
- API Base URL: http://host.docker.internal:23333/v1
- Model: issai/Qolda
Интуитивті веб-интерфейс арқылы Qolda-мен сөйлесуді бастаңыз!

API call мысалы

curl http://localhost:23333/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "issai/Qolda",
    "messages": [{"role": "user", "content": "Сәлем!"}]
  }'

Логтар

Контейнер логтарын келесі команда арлықы көруге болады:

docker-compose logs -f

Немесе Docker арқылы:

docker logs -f qolda-lmdeploy

Тоқтату және жою

docker-compose down

Немесе Docker арқылы:

docker stop qolda-lmdeploy
docker rm qolda-lmdeploy

Ақаулықтарды шешу

Модельді жүктеу мәселелері

Бірінші іске қосу кезінде Qolda моделі HuggingFace-тен жүктеліп алынады (аутентификация қажет емес)
Бұл интернет байланысыңызға байланысты біраз уақыт алуы мүмкін
Модель файлдары қайта жүктемеу үшін Docker томында кэштеледі
Модель үшін жеткілікті дискілік орын бар екеніне көз жеткізіңіз (~8GB)

GPU қателері

NVIDIA драйверлері дұрыс орнатылғанына көз жеткізіңіз
NVIDIA Container Toolkit дұрыс конфигурацияланғанын тексеріңіз
GPU қолжетімділігін келесі команда арқылы тексеріңіз: docker run --rm --gpus all nvidia/cuda:12.4.0-base-ubuntu22.04 nvidia-smi

Ескертулер

Ортақ жад қателері туындаса, shm_size параметрін реттеңіз
GPU-да модель үшін жеткілікті VRAM бар екеніне көз жеткізіңіз (минимум 8GB ұсынылады)
Qolda толығымен ашық, оны еркін пайдалануға және өзгертуге болады

Развертывание Qolda с помощью LMDeploy

Информация о модели Qolda

Qolda — это открытая визуально-языковая модель, дообученная для мультимодального понимания. Модель доступна на HuggingFace по ссылке issai/Qolda.

Эта настройка Docker развертывает Qolda, используя lmdeploy для использования модели через API.

Требования

Docker
Docker Compose
NVIDIA GPU с поддержкой CUDA
NVIDIA Container Toolkit

Старт

Модель Qolda является открытой и общедоступной. Аутентификация не требуется!

Сборка и запуск с помощью Docker Compose

docker-compose up -d

Сборка и запуск с помощью Docker

# Сборка образа
docker build -t qolda-lmdeploy .

# Запуск контейнера
docker run -d \
  --name qolda-lmdeploy \
  --gpus all \
  -p 23333:23333 \
  --shm-size 8g \
  -v huggingface-cache:/root/.cache/huggingface \
  qolda-lmdeploy

Конфигурация

Вы можете настроить развертывание, изменив переменные окружения в docker-compose.yml:

MODEL_NAME: Модель HuggingFace для развертывания (по умолчанию: issai/Qolda)
SERVER_PORT: Порт API-сервера (по умолчанию: 23333)
BACKEND: Бэкенд для вывода (по умолчанию: pytorch)
TP: Степень параллелизма тензоров (по умолчанию: 1)
SESSION_LEN: Максимальная длина сессии (по умолчанию: 32768)

Как использовать

После запуска контейнера вы можете получить доступ к API по адресу http://localhost:23333.

Веб-интерфейс с Open WebUI

Для удобного веб-интерфейса мы рекомендуем использовать Open WebUI:

Установите Open WebUI с помощью Docker:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Откройте браузер и перейдите по адресу http://localhost:3000
В настройках Open WebUI добавьте новое подключение:
- API Base URL: http://host.docker.internal:23333/v1
- Model: issai/Qolda
Начните общаться с Qolda через интуитивный веб-интерфейс!

Пример API-запроса

curl http://localhost:23333/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "issai/Qolda",
    "messages": [{"role": "user", "content": "Привет!"}]
  }'

Логи

Просмотр логов контейнера:

docker-compose logs -f

Или с помощью Docker:

docker logs -f qolda-lmdeploy

Остановка и удаление

docker-compose down

Или с помощью Docker:

docker stop qolda-lmdeploy
docker rm qolda-lmdeploy

Устранение неполадок

Проблемы с загрузкой модели

При первом запуске модель Qolda будет скачиваться с HuggingFace (аутентификация не требуется)
Это может занять некоторое время в зависимости от вашего интернет-соединения
Файлы модели кэшируются в томе Docker, чтобы избежать повторной загрузки
Убедитесь, что у вас достаточно дискового пространства для модели (~8ГБ)

Ошибки GPU

Убедитесь, что драйверы NVIDIA установлены правильно
Проверьте, что NVIDIA Container Toolkit настроен корректно
Проверьте доступность GPU с помощью: docker run --rm --gpus all nvidia/cuda:12.4.0-base-ubuntu22.04 nvidia-smi

Примечания

Настройте shm_size, если возникают ошибки разделяемой памяти
Убедитесь, что ваш GPU имеет достаточно VRAM для модели (рекомендуется минимум 8ГБ)
Qolda полностью открытая и может свободно использоваться и модифицироваться

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
.dockerignore		.dockerignore
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
docker-compose.yml		docker-compose.yml

IS2AI/Qolda-deployment

Folders and files

Latest commit

History

Repository files navigation

Qolda Deployment with LMDeploy

Introduction

Prerequisites

Quick Start

Build and Run with Docker Compose

Build and Run with Docker

Configuration

Usage

Web Interface with Open WebUI

Example API Request

Logs

Stop and Remove

Troubleshooting

Model Download Issues

GPU Errors

Notes

Qolda-ны LMDeploy арқылы пайдалану

Qolda туралы

Талаптар

Старт

Docker Compose арқылы құрастыру және іске қосу

Docker арқылы құрастыру және іске қосу

Конфигурация

Қалай пайдалану керек

Open WebUI арқылы веб-интерфейс құрастыру

API call мысалы

Логтар

Тоқтату және жою

Ақаулықтарды шешу

Модельді жүктеу мәселелері

GPU қателері

Ескертулер

Развертывание Qolda с помощью LMDeploy

Информация о модели Qolda

Требования

Старт

Сборка и запуск с помощью Docker Compose

Сборка и запуск с помощью Docker

Конфигурация

Как использовать

Веб-интерфейс с Open WebUI

Пример API-запроса

Логи

Остановка и удаление

Устранение неполадок

Проблемы с загрузкой модели

Ошибки GPU

Примечания

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages