-
Notifications
You must be signed in to change notification settings - Fork 35
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
一些关于TTFT的问题 #18
Comments
|
(1)我看到您确实自己实现了算子,但我看到您在vllm中也调用了新的算子,我以为二者最终调用的kernel是一致的,如果不一致并且收益来源于kernel的变化,这样的比较是否不公平? |
(1) 在论文实验中我们为了公平比较所以让 vllm 也调用了新的算子,此前我理解成了你直接跑的官方的 vllm |
那我理解的就是distserve在和vllm的prefill使用相同的配置的情况下,即tp、pp、卡数一致的情况下,由于rate的不同,会导致distserve的TTFT latency高一点 |
论文中比较的 metric 是 goodput,即同时满足 TTFT 和 TPOT 的 SLO request 才能算作 effective throughput。 |
谢谢!非常感谢! |
请问,你们在做prefill的时候是否会只做prefill,还是会出现prefill和decode混合执行的情况
我对您的vllm的理解是这样的:优先TTFT,也就是说有了prefill的request会优先执行prefill,prefill和decode是不会混合执行的,每次生成一个token的时候进行一次调度,我执行的是您在readme中写的distserve-baseline-vllm分支
基于这样的理解,我没有想清楚,为什么TTFT会加快,对于distserve-prefill-66B而言,distserve-prefill采用tp4,vllm也采用tp4,vllm优先执行TTFT,那为什么distserve会提升TTFT呢
感谢您的回答
The text was updated successfully, but these errors were encountered: