Skip to content

yandex-datasphere/llm_deploy

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Запуск открытых LLM в облаке Yandex Cloud

Данный репозиторий содержит несколько примеров того, как можно развернуть открытые большие языковые модели (LLM) в своём облаке Yandex Cloud.

Вы можете запустить LLM на ресурсах с CPU или с GPU, выбрав один из приведённых ниже способов деплоймента.

CPU/GPU Библиотека Инструкции Комментарии
CPU Google localllm Читать Используем квантизированные модели для ускорения работы
GPU vLLM Читать Работает только на GPU
CPU/GPU FastAPI Читать NOT OAI compatible, 1 parallel request max
CPU Ollama Читать NOT OAI compatible, >1 parallel requests, Как?

Запускать маленькие модельки, подобные qwen:0.5b можно даже на самой маленькой конфигурации c1.4 с очень быстрым tps.

Описанные выше способы предоставляют OpenAI-совместимое API, что позволяет использовать развёрнутые таким образом модели из большинства популярных фреймворков. Пример использования моделей из LangChain содержится в examples/langchain_demo.py.

Ollama не поддерживает OpenAI-совместимое API, но его также можно использовать с langchain через библиотеку langchain-ollama.

About

Examples for Deploying Open-Source LLMs on DataSphere

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published