Skip to content

lmdeploy教程疑问 - KV Cache量化和W4A16量化怎么叠加? #376

@melonwine

Description

@melonwine

lmdeploy教程量化部分 分别介绍了如何做KV Cache量化和W4A16量化,两者结果都得到turbomind格式的模型。
但怎么把这两者结合起来?比如在KV Cache量化的结果上做W4A16量化。
lmdeploy lite calibratelmdeploy lite auto_awq都𣎴接受turbomind格式的模型,该如何去叠加?

另外,如果想把量化后的模型和别人共享,怎么把turbomind格式的转换成hugging face格式的?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions