Inference speed #107

PrateekPal641 · 2024-05-03T13:46:29Z

When running Gemini 34B on A100 I get only 10 tokens/sec, when I can get 40 tokens per sec in llama-70B running on same GPU
Any changes I can make to increase the inference speed??

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Inference speed #107

Inference speed #107

PrateekPal641 commented May 3, 2024

Inference speed #107

Inference speed #107

Comments

PrateekPal641 commented May 3, 2024