为什么推理速度会随着会话增多，逐渐变慢？ #12

tanguofu · 2023-07-11T08:31:21Z

测试 web_demo.py 随着会话增多，推理速度会变得非常慢，但是修改了 use_fast=False, 为 True 之后， https://github.com/baichuan-inc/Baichuan-13B/blob/main/web_demo.py#L25 速度正常了，

请教下这个为什么影响了推理的速度？

The text was updated successfully, but these errors were encountered:

steamfeifei · 2023-07-12T07:04:06Z

同问

steamfeifei · 2023-07-12T07:09:31Z

我修改了use_fast=True，仍然是速度很慢啊

CaptainDP · 2023-07-12T09:21:56Z

我修改了use_fast=True，仍然是速度很慢啊
是的，我也遇到了同样的问题，修改了use_fast=True，速度依然很慢

chenxiangzhen · 2023-07-12T09:23:07Z

我修改了use_fast=True，仍然是速度很慢啊

是的，我也遇到了同样的问题，修改了use_fast=True，推理速度会随着会话增多，逐渐变慢

liaoweiguo · 2023-07-12T10:17:24Z

model.chat(tokenizer, messages, stream=True)
改为
model.chat(tokenizer, messages[-6:], stream=True)

限制输出token

steamfeifei · 2023-07-12T10:24:11Z

model.chat(tokenizer, messages, stream=True) 改为 model.chat(tokenizer, messages[-6:], stream=True)

限制输出token

哈哈，一样的想法，但是这个还受到chat回复内容量的影响。感觉可以出个动态规则。
希望官方出一个更好的策略，参考chatglm2就行

zhm-super · 2023-07-13T09:08:06Z

model.chat(tokenizer, messages, stream=True) 改为 model.chat(tokenizer, messages[-6:], stream=True)

限制输出token

用了这个方法但是对话了两句之后速度还是有明显的下降

liaoweiguo · 2023-07-14T01:51:05Z

现在输入6条历史记录，你可以限制更少。我在4090上挺快的，8位量化
messages[-6:]。messages[-2:]

steamfeifei · 2023-07-14T02:26:46Z

现在输入6条历史记录，你可以限制更少。我在4090上挺快的，8位量化 messages[-6:]。messages[-2:]

你用了几块GPU，8bit的，我这一块跑不起来

zhm-super · 2023-07-14T02:29:04Z

现在输入6条历史记录，你可以限制更少。我在4090上挺快的，8位量化
messages[-6:]。messages[-2:]

我现在单卡部署8位量化速度正常了，之前是auto自动分配到两块32G的V100上，速度很慢，不知道是什么问题

zhm-super · 2023-07-14T02:29:26Z

现在输入6条历史记录，你可以限制更少。我在4090上挺快的，8位量化 messages[-6:]。messages[-2:]

你用了几块GPU，8bit的，我这一块跑不起来

一块32G的，运行8bit能跑

steamfeifei · 2023-07-14T02:30:15Z

现在输入6条历史记录，你可以限制更少。我在4090上挺快的，8位量化 messages[-6:]。messages[-2:]

你用了几块GPU，8bit的，我这一块跑不起来

一块32G的，运行8bit能跑

额我这是3090 24G的，一块还跑不起来

steamfeifei · 2023-07-14T02:46:36Z

现在输入6条历史记录，你可以限制更少。我在4090上挺快的，8位量化 messages[-6:]。messages[-2:]

你用了几块GPU，8bit的，我这一块跑不起来

一块32G的，运行8bit能跑

额我这是3090 24G的，一块还跑不起来

多卡又跑不起来了，无论8b还是4b的
Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cuda:1!

EircYangQiXin · 2023-07-14T06:42:43Z

现在输入6条历史记录，你可以限制更少。我在4090上挺快的，8位量化
messages[-6:]。messages[-2:]

我现在单卡部署8位量化速度正常了，之前是auto自动分配到两块32G的V100上，速度很慢，不知道是什么问题

我也是这个问题，单卡V100 启动 chat 模型，速度嘎嘎快，用双卡V100 32G 启动速度还变慢了，，

EircYangQiXin · 2023-07-14T06:54:24Z

现在输入6条历史记录，你可以限制更少。我在4090上挺快的，8位量化
messages[-6:]。messages[-2:]

我现在单卡部署8位量化速度正常了，之前是auto自动分配到两块32G的V100上，速度很慢，不知道是什么问题

有多张显卡的情况下，怎么单卡启动？

steamfeifei · 2023-07-14T09:53:37Z

开头设置环境，指定卡index
os.environ["CUDA_VISIBLE_DEVICES"] = "3,4,5"

rogerus · 2023-07-15T08:26:41Z

基于transformer的话就是这样的吧。如果想推理速度和context length无关的话，可以用RWKV。

jizs · 2023-07-27T04:11:37Z

上下文多了以后，推理速度大幅异常降低的情况和mpt很像，二者都是用了alibi，貌似没有用alibi的项目就没有这种bug，这显然不是transformer本身的问题

tanguofu mentioned this issue Jul 13, 2023

模型部署到服务器推理部署刚启动时对话速度很快，对话几句之后速度变得很慢，请问是什么原因？ #51

Closed

jameswu2014 closed this as completed Jul 17, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

为什么推理速度会随着会话增多，逐渐变慢？ #12

为什么推理速度会随着会话增多，逐渐变慢？ #12

tanguofu commented Jul 11, 2023 •

edited

steamfeifei commented Jul 12, 2023

steamfeifei commented Jul 12, 2023

CaptainDP commented Jul 12, 2023

chenxiangzhen commented Jul 12, 2023

liaoweiguo commented Jul 12, 2023

steamfeifei commented Jul 12, 2023

zhm-super commented Jul 13, 2023

liaoweiguo commented Jul 14, 2023

steamfeifei commented Jul 14, 2023

zhm-super commented Jul 14, 2023

zhm-super commented Jul 14, 2023

steamfeifei commented Jul 14, 2023

steamfeifei commented Jul 14, 2023

EircYangQiXin commented Jul 14, 2023

EircYangQiXin commented Jul 14, 2023

steamfeifei commented Jul 14, 2023

rogerus commented Jul 15, 2023

jizs commented Jul 27, 2023

为什么推理速度会随着会话增多，逐渐变慢？ #12

为什么推理速度会随着会话增多，逐渐变慢？ #12

Comments

tanguofu commented Jul 11, 2023 • edited

steamfeifei commented Jul 12, 2023

steamfeifei commented Jul 12, 2023

CaptainDP commented Jul 12, 2023

chenxiangzhen commented Jul 12, 2023

liaoweiguo commented Jul 12, 2023

steamfeifei commented Jul 12, 2023

zhm-super commented Jul 13, 2023

liaoweiguo commented Jul 14, 2023

steamfeifei commented Jul 14, 2023

zhm-super commented Jul 14, 2023

zhm-super commented Jul 14, 2023

steamfeifei commented Jul 14, 2023

steamfeifei commented Jul 14, 2023

EircYangQiXin commented Jul 14, 2023

EircYangQiXin commented Jul 14, 2023

steamfeifei commented Jul 14, 2023

rogerus commented Jul 15, 2023

jizs commented Jul 27, 2023

tanguofu commented Jul 11, 2023 •

edited