In [1]:
from hqq.core.quantize import (
    BaseQuantizeConfig, 
    HQQLinear
)
from hqq.models.hf.base import AutoHQQHFModel
from lm_eval.models.huggingface import HFLM

import gc
import lm_eval
import pandas as pd
import torch

In [2]:
def quantize(model: torch.nn.Module, group_size: int, scale_dtype: torch.dtype) -> torch.nn.Module:
    qconfig = BaseQuantizeConfig(
        nbits = 4,
        group_size = group_size,
        axis = 1,
        quant_zero = False,
    )

    # Use RTN quantization (no HQQ algorithm).
    qconfig["weight_quant_params"]["optimize"] = False

    AutoHQQHFModel.quantize_model(model, quant_config=qconfig, compute_dtype=torch.float32, device="cuda")

    # Simulate low-precision scale dtypes by round-trip conversion
    if scale_dtype != torch.float32:
        for linear in filter(lambda m: isinstance(m, HQQLinear), model.modules()):
            linear.meta['scale'] = linear.meta['scale'].to(scale_dtype).to(torch.float32)
            linear.meta['zero'] = linear.meta['zero'].to(scale_dtype).to(torch.float32)

    return model
    

In [3]:
group_sizes = [None, 32, 64, 128, 256]
scale_dtypes = [torch.float32, torch.float16, torch.bfloat16]

result_rows = []

for group_size in group_sizes:
    for scale_dtype in scale_dtypes if group_size is not None else [None]:
        print(f"Testing group_size={group_size}, scale_dtype={scale_dtype}...")
        
        hflm = HFLM(
            #pretrained = "microsoft/Phi-3-mini-4k-instruct",
            pretrained = "google/gemma-2b",
            device = "cuda",
            max_length = 2048,
        )

        if group_size is not None and scale_dtype is not None:
            quantize(hflm.model, group_size = group_size, scale_dtype = scale_dtype)

        gc.collect()
        torch.cuda.empty_cache()
        
        results = lm_eval.simple_evaluate(
            model = hflm,
            tasks = ["wikitext"],
            num_fewshot = 0,
        )['results']
        
        del hflm
        
        result_rows.append({
            "group_size": group_size,
            "scale_dtype": scale_dtype,
            "word_perplexity": results['wikitext']['word_perplexity,none']
        })

        print(result_rows[-1])

result_df = pd.DataFrame.from_records(result_rows)
result_df

2024-06-25:10:47:42,979 INFO     [huggingface.py:162] Using device 'cuda'


Testing group_size=None, scale_dtype=None...




config.json:   0%|          | 0.00/627 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/13.5k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.95G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/67.1M [00:00<?, ?B/s]

`config.hidden_act` is ignored, you should use `config.hidden_activation` instead.
Gemma's activation function will be set to `gelu_pytorch_tanh`. Please, use
`config.hidden_activation` if you want to override this behaviour.
See https://github.com/huggingface/transformers/pull/29402 for more details.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/137 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/33.6k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/4.24M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.5M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/636 [00:00<?, ?B/s]

2024-06-25:10:49:29,399 INFO     [huggingface.py:273] Model type is 'gemma', a BOS token will be used as Gemma underperforms without it.
2024-06-25:10:49:29,605 INFO     [evaluator.py:131] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234
Repo card metadata block was not found. Setting CardData to empty.
2024-06-25:10:49:34,310 INFO     [task.py:395] Building contexts for wikitext on rank 0...
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 945.15it/s]
2024-06-25:10:49:34,380 INFO     [evaluator.py:362] Running loglikelihood_rolling requests
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

{'group_size': None, 'scale_dtype': None, 'word_perplexity': 15.937837625212639}
Testing group_size=32, scale_dtype=torch.float32...




Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

2024-06-25:10:50:01,329 INFO     [huggingface.py:273] Model type is 'gemma', a BOS token will be used as Gemma underperforms without it.
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 4922.03it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [00:00<00:00, 154.04it/s]
2024-06-25:10:50:02,870 INFO     [evaluator.py:131] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234
Repo card metadata block was not found. Setting CardData to empty.
2024-06-25:10:50:07,

{'group_size': 32, 'scale_dtype': torch.float32, 'word_perplexity': 16.60041899416348}
Testing group_size=32, scale_dtype=torch.float16...




Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

2024-06-25:10:51:01,078 INFO     [huggingface.py:273] Model type is 'gemma', a BOS token will be used as Gemma underperforms without it.
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 4183.11it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [00:00<00:00, 287.33it/s]
2024-06-25:10:51:02,246 INFO     [evaluator.py:131] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234
Repo card metadata block was not found. Setting CardData to empty.
2024-06-25:10:51:06,

{'group_size': 32, 'scale_dtype': torch.float16, 'word_perplexity': 16.598585300104553}
Testing group_size=32, scale_dtype=torch.bfloat16...




Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

2024-06-25:10:51:59,988 INFO     [huggingface.py:273] Model type is 'gemma', a BOS token will be used as Gemma underperforms without it.
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 5246.96it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [00:00<00:00, 283.95it/s]
2024-06-25:10:52:01,149 INFO     [evaluator.py:131] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234
Repo card metadata block was not found. Setting CardData to empty.
2024-06-25:10:52:05,

{'group_size': 32, 'scale_dtype': torch.bfloat16, 'word_perplexity': 16.614811228653455}
Testing group_size=64, scale_dtype=torch.float32...




Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

2024-06-25:10:52:58,660 INFO     [huggingface.py:273] Model type is 'gemma', a BOS token will be used as Gemma underperforms without it.
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 4957.49it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [00:00<00:00, 323.39it/s]
2024-06-25:10:52:59,742 INFO     [evaluator.py:131] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234
Repo card metadata block was not found. Setting CardData to empty.
2024-06-25:10:53:04,

{'group_size': 64, 'scale_dtype': torch.float32, 'word_perplexity': 18.16199412991154}
Testing group_size=64, scale_dtype=torch.float16...




Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

2024-06-25:10:53:57,817 INFO     [huggingface.py:273] Model type is 'gemma', a BOS token will be used as Gemma underperforms without it.
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 5134.89it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [00:00<00:00, 311.61it/s]
2024-06-25:10:53:58,930 INFO     [evaluator.py:131] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234
Repo card metadata block was not found. Setting CardData to empty.
2024-06-25:10:54:03,

{'group_size': 64, 'scale_dtype': torch.float16, 'word_perplexity': 18.15976221447611}
Testing group_size=64, scale_dtype=torch.bfloat16...




Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

2024-06-25:10:54:56,533 INFO     [huggingface.py:273] Model type is 'gemma', a BOS token will be used as Gemma underperforms without it.
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 2590.24it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [00:00<00:00, 308.30it/s]
2024-06-25:10:54:57,638 INFO     [evaluator.py:131] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234
Repo card metadata block was not found. Setting CardData to empty.
2024-06-25:10:55:02,

{'group_size': 64, 'scale_dtype': torch.bfloat16, 'word_perplexity': 18.143062491216615}
Testing group_size=128, scale_dtype=torch.float32...




Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

2024-06-25:10:55:55,628 INFO     [huggingface.py:273] Model type is 'gemma', a BOS token will be used as Gemma underperforms without it.
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 5092.76it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [00:00<00:00, 396.54it/s]
2024-06-25:10:55:56,621 INFO     [evaluator.py:131] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234
Repo card metadata block was not found. Setting CardData to empty.
2024-06-25:10:56:01,

{'group_size': 128, 'scale_dtype': torch.float32, 'word_perplexity': 18.83537783888739}
Testing group_size=128, scale_dtype=torch.float16...




Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

2024-06-25:10:56:54,907 INFO     [huggingface.py:273] Model type is 'gemma', a BOS token will be used as Gemma underperforms without it.
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 5139.31it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [00:00<00:00, 358.13it/s]
2024-06-25:10:56:55,938 INFO     [evaluator.py:131] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234
Repo card metadata block was not found. Setting CardData to empty.
2024-06-25:10:57:00,

{'group_size': 128, 'scale_dtype': torch.float16, 'word_perplexity': 18.833921791419556}
Testing group_size=128, scale_dtype=torch.bfloat16...




Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

2024-06-25:10:57:53,622 INFO     [huggingface.py:273] Model type is 'gemma', a BOS token will be used as Gemma underperforms without it.
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 5721.16it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [00:00<00:00, 408.69it/s]
2024-06-25:10:57:54,616 INFO     [evaluator.py:131] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234
Repo card metadata block was not found. Setting CardData to empty.
2024-06-25:10:57:59,

{'group_size': 128, 'scale_dtype': torch.bfloat16, 'word_perplexity': 18.84277287923962}
Testing group_size=256, scale_dtype=torch.float32...




Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

2024-06-25:10:58:51,972 INFO     [huggingface.py:273] Model type is 'gemma', a BOS token will be used as Gemma underperforms without it.
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 5860.62it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [00:00<00:00, 404.56it/s]
2024-06-25:10:58:52,955 INFO     [evaluator.py:131] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234
Repo card metadata block was not found. Setting CardData to empty.
2024-06-25:10:58:57,

{'group_size': 256, 'scale_dtype': torch.float32, 'word_perplexity': 19.852184376540393}
Testing group_size=256, scale_dtype=torch.float16...




Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

2024-06-25:10:59:50,878 INFO     [huggingface.py:273] Model type is 'gemma', a BOS token will be used as Gemma underperforms without it.
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 5095.61it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [00:00<00:00, 376.02it/s]
2024-06-25:10:59:51,927 INFO     [evaluator.py:131] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234
Repo card metadata block was not found. Setting CardData to empty.
2024-06-25:10:59:56,

{'group_size': 256, 'scale_dtype': torch.float16, 'word_perplexity': 19.848994232070204}
Testing group_size=256, scale_dtype=torch.bfloat16...




Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

2024-06-25:11:00:49,586 INFO     [huggingface.py:273] Model type is 'gemma', a BOS token will be used as Gemma underperforms without it.
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 74/74 [00:00<00:00, 5429.52it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [00:00<00:00, 399.10it/s]
2024-06-25:11:00:50,593 INFO     [evaluator.py:131] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234
Repo card metadata block was not found. Setting CardData to empty.
2024-06-25:11:00:55,

{'group_size': 256, 'scale_dtype': torch.bfloat16, 'word_perplexity': 19.871647188905396}


Unnamed: 0,group_size,scale_dtype,word_perplexity
0,,,15.937838
1,32.0,torch.float32,16.600419
2,32.0,torch.float16,16.598585
3,32.0,torch.bfloat16,16.614811
4,64.0,torch.float32,18.161994
5,64.0,torch.float16,18.159762
6,64.0,torch.bfloat16,18.143062
7,128.0,torch.float32,18.835378
8,128.0,torch.float16,18.833922
9,128.0,torch.bfloat16,18.842773


In [4]:
result_df = pd.DataFrame.from_records(result_rows)
result_df.pivot_table(index='scale_dtype', columns='group_size', sort=False)

Unnamed: 0_level_0,word_perplexity,word_perplexity,word_perplexity,word_perplexity
group_size,32.0,64.0,128.0,256.0
scale_dtype,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
torch.float32,16.600419,18.161994,18.835378,19.852184
torch.float16,16.598585,18.159762,18.833922,19.848994
torch.bfloat16,16.614811,18.143062,18.842773,19.871647


In [5]:
result_df

Unnamed: 0,group_size,scale_dtype,word_perplexity
0,,,15.937838
1,32.0,torch.float32,16.600419
2,32.0,torch.float16,16.598585
3,32.0,torch.bfloat16,16.614811
4,64.0,torch.float32,18.161994
5,64.0,torch.float16,18.159762
6,64.0,torch.bfloat16,18.143062
7,128.0,torch.float32,18.835378
8,128.0,torch.float16,18.833922
9,128.0,torch.bfloat16,18.842773
