【grps接入trtllm】通过GPRS+TensorRT-LLM+Tokenizers.cpp实现纯C++版高性能OpenAI LLM服务,支持chat和function call模式,支持ai agent,支持分布式多卡推理,支持多模态,支持gradio聊天界面。
openai
multi-modal
function-call
ai-agent
llm
llama-index
chatglm
tensorrt-llm
qwen2
qwen-vl
llama3
internvl2
-
Updated
Nov 3, 2024 - C++