optimize pytorch engine inference with falcon model #1234

grimoire · 2024-03-04T02:49:16Z

Fix falcon tp

before

concurrency: 256
elapsed_time: 184.839s

first token latency(s)(min, max, ave): 0.645, 13.974, 4.690
per-token latency(s) percentile(50, 75, 95, 99): [0.139, 0.147, 0.263, 0.414]

number of prompt tokens: 242197
number of completion tokens: 220686
token throughput (completion token): 1193.938 token/s
token throughput (prompt + completion token): 2504.254 token/s
RPS (request per second): 5.410 req/s
RPM (request per minute): 324.607 req/min


after

concurrency: 256
elapsed_time: 128.932s

first token latency(s)(min, max, ave): 0.270, 10.948, 3.440
per-token latency(s) percentile(50, 75, 95, 99): [0.095, 0.102, 0.232, 0.441]

number of prompt tokens: 242197
number of completion tokens: 220686
token throughput (completion token): 1711.640 token/s
token throughput (prompt + completion token): 3590.119 token/s
RPS (request per second): 7.756 req/s
RPM (request per minute): 465.360 req/min


Only tested on origin falcon-7b

lvhan028 · 2024-03-04T03:22:46Z

lmdeploy/pytorch/models/gemma.py

@@ -100,7 +100,7 @@ def __rotary_emb_fn(query_states, key_states, value_states):
                scaling_factor=scaling_factor,
                out_q=query_states[None],
                out_k=key_states[None])
-            return query_states, key_states, value_states
+            return query_states[0], key_states[0], value_states


在未修改之前，这里带来的问题是什么？

没有带来问题，不过 q_state 和 k_state 会从 3d 变成 4d，我觉得是个潜在风险

RunningLeon

LGTM

grimoire added 2 commits March 4, 2024 10:40

optimize falcon

d61e32a

Merge branch 'main' into torch-optimize-falcon

2e34ad8

lvhan028 reviewed Mar 4, 2024

View reviewed changes

lvhan028 requested a review from RunningLeon March 4, 2024 04:20

lvhan028 added the Bug:P1 label Mar 4, 2024

lvhan028 approved these changes Mar 4, 2024

View reviewed changes

lvhan028 changed the title ~~Torch optimize falcon~~ optimize pytorch engine inference with falcon model Mar 4, 2024

checkout trust_remote_code

f5ed266

RunningLeon approved these changes Mar 4, 2024

View reviewed changes

lvhan028 merged commit a6e8188 into InternLM:main Mar 4, 2024
5 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

optimize pytorch engine inference with falcon model #1234

optimize pytorch engine inference with falcon model #1234

grimoire commented Mar 4, 2024

lvhan028 Mar 4, 2024

grimoire Mar 4, 2024

RunningLeon left a comment

optimize pytorch engine inference with falcon model #1234

optimize pytorch engine inference with falcon model #1234

Conversation

grimoire commented Mar 4, 2024

lvhan028 Mar 4, 2024

Choose a reason for hiding this comment

grimoire Mar 4, 2024

Choose a reason for hiding this comment

RunningLeon left a comment

Choose a reason for hiding this comment