[MLI-4665] Update vllm upgrade process #713

meher-m · 2025-09-23T20:31:35Z

Pull Request Summary

What is this PR changing? Why is this change being made? Any caveats you'd like to highlight? Link any relevant documents, links, or screenshots here if applicable.

Test Plan and Usage Guide

How did you validate that your PR works correctly? How do you run or demo the code? Provide enough detail so a reviewer can reasonably reproduce the testing procedure. Paste example command line invocations if applicable.

export TARGET_TAG=0.10.2-test-rc1 
export IMAGE=692474966980.dkr.ecr.us-west-2.amazonaws.com/vllm:${TARGET_TAG} 
export MODEL=meta-llama/Meta-Llama-3.1-8B-Instruct && export MODEL_PATH=/data/model_files/$MODEL
docker kill vllm; docker rm vllm;
docker run \                                                                                                                                 
    --runtime nvidia \                                                                                                                                                                           
    --shm-size=16gb \                                                                                                                                                                            
    --gpus '"device=1,2,3,4"' \                                                                                                                                                                  
    -v $MODEL_PATH:/workspace/model_files:ro -v /data/dmchoi:/data:ro \                                                                                                                          
    -p 5005:5005 \                                                                                                                                                                               
    --name vllm \                                                                                                                                                                                
    ${IMAGE} \                                                                                                                                                                                   
    python -m vllm_server --model model_files --served-model-name $MODEL model_files  --tensor-parallel-size 4 --port 5005 --disable-log-requests --uvicorn-log-level info --gpu-memory-utilizati
on 0.8 --enforce-eager

and then run tests:

curl -X POST localhost:5005/v1/chat/completions -H "Content-Type: application/json" \
          -d "{\"model\":\"$MODEL\", \"messages\":[{\"role\": \"user\", \"content\": \"Hey, what's the temperature in Paris right now?\"}],\"max_tokens\":100,\"temperature\":0.2,\"guided_regex\":\"Sean.*\"}"

and

curl -X POST localhost:5005/v1/responses -H "Content-Type: application/json" \
          -d "{\"model\":\"$MODEL\", \"input\":[{\"role\": \"user\", \"content\": \"Hey, what's the temperature in Paris right now?\"}],\"max_tokens\":100,\"temperature\":0.2,\"guided_regex\":\"Sean.*\"}"

model-engine/model_engine_server/inference/vllm/build_and_upload_image.sh

dmchoiboi · 2025-09-23T21:32:58Z

model-engine/model_engine_server/inference/vllm/vllm_server.py

-
 def parse_args(parser: FlexibleArgumentParser):
    parser = make_arg_parser(parser)
    parser.add_argument("--attention-backend", type=str, help="The attention backend to use")


you can remove run_server_worker and run_server, and just use run_server from vllm

dmchoiboi · 2025-09-25T18:59:05Z

model-engine/model_engine_server/infra/gateways/resources/k8s_resource_types.py

            FORWARDER_STORAGE_LIMIT=FORWARDER_STORAGE_USAGE,
            USER_CONTAINER_PORT=USER_CONTAINER_PORT,
-            FORWARDER_EXTRA_ROUTES=flavor.extra_routes,
+            FORWARDER_SYNC_ROUTES=[flavor.predict_route] + flavor.routes,


I think we need to add flavor.extra_routes here for backwards compatibility since the data models are saved to the database

missed a spot for sync routes

dmchoiboi

Could you make this change for CPU sync and stream endpoints as well?

dmchoiboi

we're missing changes to the domain + database models

https://github.com/scaleapi/llm-engine/blob/55ff1dac87912b68a86c8f8e560a33847a7dcc99/model-engine/model_engine_server/domain/entities/model_bundle_entity.py#L154
https://github.com/scaleapi/llm-engine/blob/55ff1dac87912b68a86c8f8e560a33847a7dcc99/model-engine/model_engine_server/db/models/hosted_model_inference.py#L149

The database model change will require a db migration script to be created. I realize the Readme doesn't have instructions, but you should be able to follow https://alembic.sqlalchemy.org/en/latest/tutorial.html#running-our-second-migration. Could actually add that to db/migrations/README as well

model-engine/model_engine_server/db/migrations/README

dmchoiboi · 2025-09-25T20:08:38Z

model-engine/model_engine_server/infra/gateways/resources/k8s_resource_types.py

            COMMAND=flavor.streaming_command,
-            PREDICT_ROUTE=flavor.predict_route,
-            STREAMING_PREDICT_ROUTE=flavor.streaming_predict_route,
+            # PREDICT_ROUTE=flavor.predict_route,


…nhanced routes and we replaced it with ROUTES for the sync and streaming routes

…itonenhanced and lws ones that need it based on type. wont get used though

model-engine/model_engine_server/domain/use_cases/llm_model_endpoint_use_cases.py

integration_tests/rest_api_utils.py

model-engine/model_engine_server/infra/repositories/db_model_bundle_repository.py

initial changes

5111db5

meher-m self-assigned this Sep 23, 2025

meher-m commented Sep 23, 2025

View reviewed changes

model-engine/model_engine_server/inference/vllm/build_and_upload_image.sh Show resolved Hide resolved

dmchoiboi reviewed Sep 23, 2025

View reviewed changes

meher-m added 4 commits September 25, 2025 18:13

Merge branch 'main' into meher-m/vllm-upgrade

3c42d1e

reverting some forwarder changes that aren't needed

71b5d99

remove some other unneeded stuff

8d30ab3

not sure

22a0cf9

dmchoiboi reviewed Sep 25, 2025

View reviewed changes

adding cpu

28cea65

dmchoiboi reviewed Sep 25, 2025

View reviewed changes

meher-m added 6 commits September 25, 2025 19:39

add column

6ea87b4

add file for db model change

5d8a634

update readme instructions

5229c55

fix column name

1b7414c

reformat

494ea1e

remove unused commits

43b5054

dmchoiboi reviewed Sep 25, 2025

View reviewed changes

model-engine/model_engine_server/db/migrations/README Outdated Show resolved Hide resolved

dmchoiboi reviewed Sep 25, 2025

View reviewed changes

dmchoiboi approved these changes Sep 25, 2025

View reviewed changes

meher-m added 2 commits September 25, 2025 20:10

fix

a2e4b50

fix readme

8c4930f

meher-m changed the title ~~Update vllm upgrade process~~ [MLI-4665] Update vllm upgrade process Sep 25, 2025

meher-m added 6 commits September 25, 2025 20:22

fix types

ff8766b

leave the existing variables for backwards compatibility

4b2103e

edit types

29877c3

remove EXTRA ROUTES completely. its not used by the async or triton e…

24cc393

…nhanced routes and we replaced it with ROUTES for the sync and streaming routes

adding FORWARDER_SYNC_ROUTES and FORWARDER_STREAMING_ROUTES to the tr…

68fd91d

…itonenhanced and lws ones that need it based on type. wont get used though

change to pass unit tests

8b623b3

meher-m added 8 commits September 26, 2025 15:48

update orm

cbb0e05

test change

fd3ad7a

change test bundle

9b59d4d

add debug logs

fa1a5b3

trying to fix

edcf542

changes

3397278

cleanup debug code

c849a5e

reformat

ca603dd

meher-m commented Sep 26, 2025

View reviewed changes

model-engine/model_engine_server/domain/use_cases/llm_model_endpoint_use_cases.py Outdated Show resolved Hide resolved

meher-m commented Sep 26, 2025

View reviewed changes

integration_tests/rest_api_utils.py Outdated Show resolved Hide resolved

meher-m commented Sep 26, 2025

View reviewed changes

model-engine/model_engine_server/infra/repositories/db_model_bundle_repository.py Outdated Show resolved Hide resolved

meher-m added 4 commits September 26, 2025 23:27

remove 1

9a5f789

remove 2

6affb1a

revert 3

b25e7a7

reorder params

dcca5a8

meher-m requested a review from dmchoiboi September 29, 2025 20:48

dmchoiboi approved these changes Sep 30, 2025

View reviewed changes

meher-m merged commit da85235 into main Sep 30, 2025
7 checks passed

meher-m deleted the meher-m/vllm-upgrade branch September 30, 2025 16:11

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[MLI-4665] Update vllm upgrade process #713

[MLI-4665] Update vllm upgrade process #713

Uh oh!

meher-m commented Sep 23, 2025 •

edited

Loading

Uh oh!

Uh oh!

dmchoiboi Sep 23, 2025 •

edited

Loading

Uh oh!

dmchoiboi Sep 25, 2025

Uh oh!

dmchoiboi Sep 25, 2025

Uh oh!

dmchoiboi left a comment

Uh oh!

dmchoiboi left a comment •

edited

Loading

Uh oh!

Uh oh!

dmchoiboi Sep 25, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

[MLI-4665] Update vllm upgrade process #713

[MLI-4665] Update vllm upgrade process #713

Uh oh!

Conversation

meher-m commented Sep 23, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Pull Request Summary

Test Plan and Usage Guide

Uh oh!

Uh oh!

dmchoiboi Sep 23, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

dmchoiboi Sep 25, 2025

Choose a reason for hiding this comment

Uh oh!

dmchoiboi Sep 25, 2025

Choose a reason for hiding this comment

Uh oh!

dmchoiboi left a comment

Choose a reason for hiding this comment

Uh oh!

dmchoiboi left a comment • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Uh oh!

dmchoiboi Sep 25, 2025

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

meher-m commented Sep 23, 2025 •

edited

Loading

dmchoiboi Sep 23, 2025 •

edited

Loading

dmchoiboi left a comment •

edited

Loading