PatternKV: Flattening KV Representation Expands Quantization Headroom

Implementation of PatternKV: Flattening KV Representation Expands Quantization Headroom

Setup

Rackages required:

conda create -n patternkv python=3.10
conda activate patternkv
pip install --upgrade pip  # enable PEP 660 support
pip install -e .

CUDA implementation:

cd quant && pip install -e .

Example

Load model with PatternKV:

import torch
import random
from models.llama_patternkv import LlamaForCausalLM_PatternKV
from transformers import LlamaConfig, AutoTokenizer, Qwen2Config, MistralConfig
from datasets import load_dataset

model_name = "your path to Llama3"

config = LlamaConfig.from_pretrained(model_name)

config.k_bits = 2 
config.v_bits = 2
config.group_size = 128 
config.residual_length = 128 
config.use_flash = True
config.num_k_base = 32
config.num_v_base = 32


model = LlamaForCausalLM_PatternKV.from_pretrained(
    pretrained_model_name_or_path=model_name,
    config=config,
    low_cpu_mem_usage=True,
    torch_dtype=torch.float16,
).cuda()

enc = AutoTokenizer.from_pretrained(
    model_name, 
    use_fast=False, 
    trust_remote_code=True)

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
models		models
quant		quant
.DS_Store		.DS_Store
README.md		README.md
example.py		example.py
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PatternKV: Flattening KV Representation Expands Quantization Headroom

Setup

Example

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

PatternKV: Flattening KV Representation Expands Quantization Headroom

Setup

Example

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages