使用本地部署的模型效率如何改进 #448

Phoenix0809 · 2025-12-04T03:35:50Z

Phoenix0809
Dec 4, 2025

使用本地部署的模型Qwen2.5-14B-Instruct-GPTQ-Int8在配置中添加"rope_scaling": {
"factor": 3.0,
"original_max_position_embeddings": 32768,
"type": "yarn"
}
来适配报告的长文本，但是效率实在是太慢了，而且在执行生成报告时会阻塞我其他项目的模型调用，导致其他项目超时，请问该怎么优化或解决？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

使用本地部署的模型效率如何改进 #448

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

Uh oh!

使用本地部署的模型效率如何改进 #448

Uh oh!

Phoenix0809 Dec 4, 2025

Replies: 0 comments

Phoenix0809
Dec 4, 2025