is support multi node in triton inference server?

is support multi node in triton inference server? 

i build llama-7b for tensorrtllm_backend and execute triton inference server
i have a 4 GPUS but triton inference server load only 1 GPUS

image
nvcr.io/nvidia/tritonserver:23.10-trtllm-python-py3

build (llama2)
```
python build.py --model_dir ${model_directory} \
                --dtype float16 \
                --use_gpt_attention_plugin bfloat16 \
                --use_inflight_batching \
                --paged_kv_cache \
                --remove_input_padding \
                --use_gemm_plugin float16 \
                --output_dir engines/fp16/1-gpu/
```

run
```
tritonserver --model-repo=/tensorrtllm_backend/triton_model_repo --disable-auto-complete-config
```

<img width="592" alt="image" src="https://github.com/triton-inference-server/tensorrtllm_backend/assets/13213180/57e79ddf-e6dd-43cc-bf1b-b354e227055f">


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

is support multi node in triton inference server? #75

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

is support multi node in triton inference server? #75

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions