Данный репозиторий содержит несколько примеров того, как можно развернуть открытые большие языковые модели (LLM) в своём облаке Yandex Cloud.
Вы можете запустить LLM на ресурсах с CPU или с GPU, выбрав один из приведённых ниже способов деплоймента.
CPU/GPU | Библиотека | Инструкции | Комментарии |
---|---|---|---|
CPU | Google localllm | Читать | Используем квантизированные модели для ускорения работы |
GPU | vLLM | Читать | Работает только на GPU |
CPU/GPU | FastAPI | Читать | NOT OAI compatible, 1 parallel request max |
CPU | Ollama | Читать | NOT OAI compatible, >1 parallel requests, Как? |
Запускать маленькие модельки, подобные qwen:0.5b можно даже на самой маленькой конфигурации c1.4 с очень быстрым tps.
Описанные выше способы предоставляют OpenAI-совместимое API, что позволяет использовать развёрнутые таким образом модели из большинства популярных фреймворков. Пример использования моделей из LangChain содержится в examples/langchain_demo.py.
Ollama не поддерживает OpenAI-совместимое API, но его также можно использовать с langchain через библиотеку langchain-ollama.