In [1]:
import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers # requires transformers==4.35.2
device = torch.device('cuda:0')

In [2]:
print(transformers.__version__)

4.43.3


In [3]:
# draft_model_name = "deepseek-ai/deepseek-coder-1.3b-instruct"
# draft_model_name ="codellama/CodeLlama-7b-hf"
# draft_model_name = "bigcode/starcoderbase-1b"
draft_model_name = "Qwen/Qwen1.5-0.5B-Chat"
# draft_model_name = "facebook/opt-125m"

draft_model = AutoModelForCausalLM.from_pretrained(draft_model_name, trust_remote_code=True, torch_dtype=torch.float16, use_flash_attention_2=True).to(device)#, load_in_4bit=True)
print(draft_model.device)

The model was loaded with use_flash_attention_2=True, which is deprecated and may be removed in a future release. Please use `attn_implementation="flash_attention_2"` instead.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.


cuda:0


In [4]:
# model_name = "deepseek-ai/deepseek-coder-6.7b-instruct"
# model_name="codellama/CodeLlama-70b-hf"
# model_name = "bigcode/starcoderbase"
model_name = "Qwen/Qwen1.5-7B-Chat"
# model_name = "facebook/opt-6.7b"

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True, torch_dtype=torch.float16, use_flash_attention_2=True).to(device)#, load_in_4bit=True)#  , use_flash_attention=True)

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/243 [00:00<?, ?B/s]

In [5]:
from datasets import load_dataset

ds = load_dataset("HuggingFaceH4/mt_bench_prompts", split="train")

Downloading readme:   0%|          | 0.00/1.49k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/30.1k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/80 [00:00<?, ? examples/s]

In [6]:
import difflib

@torch.no_grad()
def find_candidate_pred_tokens(input_ids, max_ngram_size=3, num_pred_tokens=10):
    input_length = input_ids.size(1)

    # Ensure max_ngram_size and num_pred_tokens are valid
    if max_ngram_size <= 0 or num_pred_tokens <= 0 or max_ngram_size > input_length:
        raise ValueError("Invalid max_ngram_size or num_pred_tokens")

    for ngram_size in range(max_ngram_size, 0, -1):
        # Extract the last n tokens as our search ngram
        ngram = input_ids[0, -ngram_size:].tolist()

        # Create sliding windows of size ngram_size
        windows = input_ids.unfold(dimension=1, size=ngram_size, step=1)

        # Convert ngram to a tensor for comparison
        ngram_tensor = torch.tensor(ngram, device=input_ids.device).unsqueeze(0)

        # Find where the windows match the ngram
        matches = (windows == ngram_tensor).all(dim=2)

        # Get the indices of matches
        match_indices = matches.nonzero(as_tuple=True)[1]

        # Iterate through match indices to find a valid continuation
        for idx in match_indices:
            start_idx = idx + ngram_size
            end_idx = start_idx + num_pred_tokens
            # Ensure we don't go beyond the length of input_ids and avoid self-match
            # if end_idx <= input_length and start_idx < input_length - ngram_size:
            #     return input_ids[0, start_idx:end_idx]
            if start_idx < input_length - ngram_size:
                return input_ids[0, start_idx:min(end_idx, input_length)]

    # If no match is found, return an empty tensor
    return torch.tensor([100], dtype=torch.long, device=input_ids.device)

In [7]:
from transformers.generation.candidate_generator import CandidateGenerator, _crop_past_key_values
from transformers.generation.stopping_criteria import StoppingCriteria
from transformers.generation.configuration_utils import GenerationConfig
from typing import Tuple, Optional
import time

class PromptLookupCandidateGenerator(CandidateGenerator):
    def __init__(self, input_ids, ngram_size=3, num_pred_tokens=10):
        self.orig_input_len = input_ids.shape[-1]
        self.ngram_size = ngram_size
        self.num_pred_tokens = num_pred_tokens
        self.last_predicted = 0
    
    def get_candidates(self, input_ids: torch.LongTensor) -> Tuple[torch.LongTensor, Optional[torch.FloatTensor]]:
        # print("Getting candidates")
        new_tokens = find_candidate_pred_tokens(input_ids, self.ngram_size, self.num_pred_tokens).unsqueeze(0)
        self.last_predicted = new_tokens.shape[-1]
        
        return torch.cat(
            (
                input_ids,
                new_tokens
            ),
            dim=-1
        ), None
    
    def update_candidate_strategy(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, num_matches: int): # Maybe use the number of matches/scores to have a threshold
        pass
        # if num_matches == self.last_predicted:
        #     self.num_pred_tokens *= 1.5
        # else:
        #     self.num_pred_tokens /= 1.5
        # self.num_pred_tokens = int(self.num_pred_tokens)
        # self.num_pred_tokens = min(self.num_pred_tokens, 100)
        # self.num_pred_tokens = max(self.num_pred_tokens, 1)

class NumRunsStoppingCriteria(StoppingCriteria):
    def __init__(self, max_num_runs=4):
        self.max_num_runs = 4
        self.num_runs = 0

    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> torch.BoolTensor:
        self.num_runs += 1
        return self.num_runs >= self.max_num_runs

class ScoreStoppingCriteria:
    def __init__(self, min_score):
        self.min_score = min_score

    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> torch.BoolTensor:
        if not(scores):
            # print("No scores")
            return False
        else:
            ...
            # print("Got scores scores stopping: ", scores[0].shape, len(scores))
        scores_tensor = torch.stack(scores, dim=0)
        softmax_scores = F.softmax(scores_tensor, 2)
        # print(softmax_scores)
        return (softmax_scores.max(dim=2).values < self.min_score).any().item()


def _get_default_candidate_generator_generator(generator: CandidateGenerator):
    def _get_candidate_generator(self, **kwargs):
        return generator
    return _get_candidate_generator

class TwoLayerLookupCandidateGenerator(CandidateGenerator):
    def __init__(self, tokenizer, prompt_tokens, draft_model, input_ids, use_score_check=False, min_score=0, scores_count=0, num_runs=4, **diff_prompt_args):
        self.tokenizer = tokenizer
        self.prompt_tokens = prompt_tokens
        self.draft_model = draft_model
        self.input_ids = input_ids
        self.candidate_generator = PromptLookupCandidateGenerator(
            self.input_ids, 
            **diff_prompt_args
        )
        self.draft_model.generation_config.pad_token_id = tokenizer.pad_token_id
        
        self.past_key_values = None
        self.num_runs = num_runs

        self.draft_model._get_candidate_generator = (_get_default_candidate_generator_generator(self.candidate_generator)).__get__(self.draft_model, type(self.draft_model))

        self.start_token_index = self.input_ids.shape[-1]
        self.min_score = min_score
        self.scores_count = scores_count

        self.use_score_check = use_score_check
    
    def get_candidates(self, input_ids: torch.LongTensor) -> Tuple[torch.LongTensor, Optional[torch.FloatTensor]]:
        if self.past_key_values:
            self.past_key_values = _crop_past_key_values(self.draft_model, self.past_key_values, input_ids.shape[-1] - 1)

        stopping_criteria = [NumRunsStoppingCriteria(self.num_runs), 
                            ]
        if self.use_score_check:
            stopping_criteria = [NumRunsStoppingCriteria(self.num_runs), 
                                 ScoreStoppingCriteria(self.min_score)
                                ]

        # if self.past_key_values:
        #     print(self.past_key_values[0][0].shape)

        if self.past_key_values: 
            generation = self.draft_model.generate(
                inputs=input_ids,
                attention_mask=torch.ones(input_ids.shape[-1], device=input_ids.device).unsqueeze(0),
                prompt_lookup_num_tokens=1,
                max_new_tokens=1000,
                stopping_criteria=stopping_criteria,
                past_key_values=self.past_key_values,
                use_cache=True,
                # output_logits=True,
                output_scores=True,
                return_dict_in_generate=True
            )
        else:
            generation = self.draft_model.generate(
                inputs=input_ids,
                attention_mask=torch.ones(input_ids.shape[-1], device=input_ids.device).unsqueeze(0),
                prompt_lookup_num_tokens=1,
                max_new_tokens=1000,
                stopping_criteria=stopping_criteria,
                use_cache=True,
                # output_logits=True,
                output_scores=True,
                return_dict_in_generate=True
            )
        # print("Scores: ", generation.scores)

        self.pred_tokens_count = generation.sequences.shape[-1] - input_ids.shape[-1]
        self.past_key_values = generation.past_key_values
        self.past_top_scores = torch.stack(generation.scores, dim=1).max(dim=1).values[0]

        return generation.sequences, torch.stack(generation.scores, dim=1)

    def update_candidate_strategy(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, num_matches: int):
        if num_matches == self.pred_tokens_count:
            if self.scores_count == 0:
                self.min_score = 0
            else:
                self.min_score = (self.scores_count / self.scores_count + 1) * (self.min_score)
        else:
            if self.scores_count == 0:
                self.min_score = self.past_top_scores[-num_matches]
            else:
                self.min_score = (self.scores_count / (self.scores_count + 1)) * (self.min_score) + (1 / (self.scores_count + 1)) * (self.past_top_scores[-1])
        self.scores_count += 1
        pass 

In [8]:
def print_update(dictionary):
    for key in dictionary:
        print("\t", key, ": ", dictionary[key][-1])
    print("======")

In [11]:
from tqdm import tqdm
from transformers import TextStreamer, StopStringCriteria
from rapidfuzz.distance import Levenshtein

# lookup_tokens = [10, 20, 40, 60]
# lookup_tokens = [20, 40, 80, 120]
# lookup_tokens = [100, 120]
lookup_tokens = [5, 10, 20]
stats = {lt: {"method": [], "method_with_score_cutoff": [0], "assisted": [], "pld": [], "regular": [], "lev_similarity": [0], "generated_tokens": [0]} for lt in lookup_tokens}

global_min_score = 0
global_scores_count = 0

regular_get_candidate_generator = model._get_candidate_generator

# for row in tqdm(ds):

#     # Regular
#     prev_messages = []
#     start_time = time.perf_counter()
    
#     for message in row['prompt']:
#         prev_messages += [{
#             "role": "user",
#             "content": message
#         }]
#         inputs = tokenizer.apply_chat_template(prev_messages, return_tensors="pt", add_generation_prompt=True, tokenize=True).to(model.device)
#         starting_input_tokens = inputs.shape[-1]
#         max_new_tokens = 500
#         regular_outputs = model.generate(
#             input_ids=inputs,
#             max_new_tokens=max_new_tokens,
#             return_dict_in_generate=True,
#             output_scores=True,
#             # streamer=TextStreamer(tokenizer)
#             # stopping_criteria=[StopStringCriteria(tokenizer, ["\n"])]
#         )
#         new_text = tokenizer.batch_decode(regular_outputs.sequences[:, starting_input_tokens:])[0]
#         prev_messages += [{
#             "role": "assistant",
#             "content": new_text
#         }]
        
#     end_time = time.perf_counter()
#     for lt in lookup_tokens:
#         stats[lt]["regular"] = end_time - start_time

#     print("Regular: ", end_time - start_time)

#     # Assisted
#     prev_messages = []
#     start_time = time.perf_counter()
    
#     for message in row['prompt']:
#         prev_messages += [{
#             "role": "user",
#             "content": message
#         }]
#         inputs = tokenizer.apply_chat_template(prev_messages, return_tensors="pt", add_generation_prompt=True, tokenize=True).to(model.device)
#         starting_input_tokens = inputs.shape[-1]
#         max_new_tokens = 500
#         assisted_outputs = model.generate(
#             input_ids=inputs,
#             max_new_tokens=max_new_tokens,
#             return_dict_in_generate=True,
#             output_scores=True,
#             assistant_model=draft_model
#             # streamer=TextStreamer(tokenizer)
#             # stopping_criteria=[StopStringCriteria(tokenizer, ["\n"])]
#         )
#         new_text = tokenizer.batch_decode(assisted_outputs.sequences[:, starting_input_tokens:])[0]
#         prev_messages += [{
#             "role": "assistant",
#             "content": new_text
#         }]
        
#     end_time = time.perf_counter()
#     for lt in lookup_tokens:
#         stats[lt]["assisted"] = end_time - start_time

#     print("Assisted: ", end_time - start_time)

for lt in lookup_tokens:
    for row in tqdm(ds):
        # input_text = f"Article: {row['article']} Summary: "
        # inputs = tokenizer(input_text, return_tensors="pt").input_ids.to(model.device)

        # PLD
        prev_messages = []
        start_time = time.perf_counter()

        model._get_candidate_generator = (regular_get_candidate_generator).__get__(model, type(model))
        
        for message in row['prompt']:
            prev_messages += [{
                "role": "user",
                "content": message
            }]
            inputs = tokenizer.apply_chat_template(prev_messages, return_tensors="pt", add_generation_prompt=True, tokenize=True).to(model.device)
            starting_input_tokens = inputs.shape[-1]
            max_new_tokens = 500
            pld_outputs = model.generate(
                input_ids=inputs,
                max_new_tokens=max_new_tokens,
                return_dict_in_generate=True,
                output_scores=True,
                prompt_lookup_num_tokens=lt
                # streamer=TextStreamer(tokenizer)
                # stopping_criteria=[StopStringCriteria(tokenizer, ["\n"])]
            )
            new_text = tokenizer.batch_decode(pld_outputs.sequences[:, starting_input_tokens:])[0]
            prev_messages += [{
                "role": "assistant",
                "content": new_text
            }]
            
        end_time = time.perf_counter()
        stats[lt]["pld"] = end_time - start_time

        print("PLD: ", end_time - start_time)

        # Two Layer
        prev_answers = []
        start_time = time.perf_counter()
        two_layer_candidate_generator = TwoLayerLookupCandidateGenerator(
            tokenizer,
            inputs.shape[-1],
            draft_model,
            inputs,
            use_score_check=False,
            min_score=global_min_score,
            scores_count=global_scores_count,
            ngram_size=5,
            num_pred_tokens=lt,
        )
        model._get_candidate_generator = (_get_default_candidate_generator_generator(two_layer_candidate_generator)).__get__(model, type(model))
        for message in row['prompt']:
            prev_messages += [{
                "role": "user",
                "content": message
            }]
            inputs = tokenizer.apply_chat_template(prev_messages, return_tensors="pt", add_generation_prompt=True, tokenize=True).to(model.device)
            starting_input_tokens = inputs.shape[-1]
            max_new_tokens = 500
            pld_outputs = model.generate(
                input_ids=inputs,
                max_new_tokens=max_new_tokens,
                return_dict_in_generate=True,
                output_scores=True,
                prompt_lookup_num_tokens=lt
                # streamer=TextStreamer(tokenizer)
                # stopping_criteria=[StopStringCriteria(tokenizer, ["\n"])]
            )
            new_text = tokenizer.batch_decode(pld_outputs.sequences[:, starting_input_tokens:])[0]
            prev_messages += [{
                "role": "assistant",
                "content": new_text
            }]
        end_time = time.perf_counter()
        stats[lt]["method"] = end_time - start_time

        print("Two layer: ", end_time - start_time)
print(stats)

  0%|                                                                                                                                                     | 0/80 [00:00<?, ?it/s]

PLD:  21.20741204544902


  1%|█▋                                                                                                                                         | 1/80 [00:54<1:12:12, 54.84s/it]

Two layer:  33.62809154391289
PLD:  15.661539539694786


  2%|███▌                                                                                                                                         | 2/80 [01:31<57:36, 44.31s/it]

Two layer:  21.27992955967784
PLD:  11.33556728810072


  4%|█████▎                                                                                                                                       | 3/80 [02:01<48:02, 37.44s/it]

Two layer:  17.922274239361286
PLD:  20.291657604277134


  5%|███████                                                                                                                                      | 4/80 [02:43<50:04, 39.54s/it]

Two layer:  22.458569638431072
PLD:  14.88307935744524


  6%|████████▊                                                                                                                                    | 5/80 [03:25<50:32, 40.43s/it]

Two layer:  27.138103436678648
PLD:  9.746613912284374


  8%|██████████▌                                                                                                                                  | 6/80 [03:53<44:19, 35.95s/it]

Two layer:  17.48620219156146
PLD:  14.389646213501692


  9%|████████████▎                                                                                                                                | 7/80 [04:19<40:05, 32.96s/it]

Two layer:  12.417252704501152
PLD:  4.9923518262803555


 10%|██████████████                                                                                                                               | 8/80 [04:32<31:47, 26.49s/it]

Two layer:  7.6437262780964375
PLD:  3.413222175091505


 11%|███████████████▊                                                                                                                             | 9/80 [04:41<25:01, 21.15s/it]

Two layer:  5.993277184665203
PLD:  3.8354230485856533


 12%|█████████████████▌                                                                                                                          | 10/80 [04:50<20:08, 17.27s/it]

Two layer:  4.740656938403845
PLD:  17.71028469502926


 14%|███████████████████▎                                                                                                                        | 11/80 [05:38<30:49, 26.80s/it]

Two layer:  30.698339089751244
PLD:  6.852732449769974


 15%|█████████████████████                                                                                                                       | 12/80 [06:03<29:38, 26.15s/it]

Two layer:  17.804272186011076
PLD:  24.031056087464094


 16%|██████████████████████▊                                                                                                                     | 13/80 [06:45<34:40, 31.06s/it]

Two layer:  18.320917800068855
PLD:  20.76954321563244


 18%|████████████████████████▌                                                                                                                   | 14/80 [07:38<41:18, 37.56s/it]

Two layer:  31.802658304572105
PLD:  4.184992220252752


 19%|██████████████████████████▎                                                                                                                 | 15/80 [07:47<31:24, 28.99s/it]

Two layer:  4.960079811513424
PLD:  14.997045170515776


 20%|████████████████████████████                                                                                                                | 16/80 [08:23<33:01, 30.97s/it]

Two layer:  20.552011597901583
PLD:  21.75048964843154


 21%|█████████████████████████████▊                                                                                                              | 17/80 [09:19<40:25, 38.50s/it]

Two layer:  34.25993860140443
PLD:  7.978204492479563


 22%|███████████████████████████████▌                                                                                                            | 18/80 [09:45<35:56, 34.78s/it]

Two layer:  18.14305367693305
PLD:  9.03472026064992


 24%|█████████████████████████████████▎                                                                                                          | 19/80 [10:12<33:02, 32.50s/it]

Two layer:  18.153390288352966
PLD:  20.628328423947096


 25%|███████████████████████████████████                                                                                                         | 20/80 [11:03<37:58, 37.98s/it]

Two layer:  30.107453510165215
PLD:  1.6930520460009575


 26%|████████████████████████████████████▊                                                                                                       | 21/80 [11:07<27:22, 27.84s/it]

Two layer:  2.518699027597904
PLD:  3.333499889820814


 28%|██████████████████████████████████████▌                                                                                                     | 22/80 [11:14<20:59, 21.72s/it]

Two layer:  4.123066984117031
PLD:  14.2913414016366


 29%|████████████████████████████████████████▎                                                                                                   | 23/80 [11:54<25:45, 27.12s/it]

Two layer:  25.40584922209382
PLD:  2.584837179630995


 30%|██████████████████████████████████████████                                                                                                  | 24/80 [12:04<20:22, 21.83s/it]

Two layer:  6.898925770074129
PLD:  2.746682956814766


 31%|███████████████████████████████████████████▊                                                                                                | 25/80 [12:09<15:35, 17.01s/it]

Two layer:  3.0239234752953053
PLD:  6.283638957887888


 32%|█████████████████████████████████████████████▌                                                                                              | 26/80 [12:24<14:43, 16.36s/it]

Two layer:  8.56688179075718
PLD:  1.3630288317799568


 34%|███████████████████████████████████████████████▎                                                                                            | 27/80 [12:31<11:50, 13.40s/it]

Two layer:  5.125551734119654
PLD:  4.257033117115498


 35%|█████████████████████████████████████████████████                                                                                           | 28/80 [12:43<11:26, 13.20s/it]

Two layer:  8.491542860865593
PLD:  5.8637370355427265


 36%|██████████████████████████████████████████████████▊                                                                                         | 29/80 [12:58<11:33, 13.59s/it]

Two layer:  8.618744056671858
PLD:  10.937928605824709


 38%|████████████████████████████████████████████████████▌                                                                                       | 30/80 [13:30<15:59, 19.19s/it]

Two layer:  21.32077521085739
PLD:  15.559635989367962


 39%|██████████████████████████████████████████████████████▎                                                                                     | 31/80 [14:11<21:00, 25.73s/it]

Two layer:  25.442233119159937
PLD:  2.659469373524189


 40%|████████████████████████████████████████████████████████                                                                                    | 32/80 [14:17<15:42, 19.64s/it]

Two layer:  2.7483425587415695
PLD:  9.66430427134037


 41%|█████████████████████████████████████████████████████████▊                                                                                  | 33/80 [14:38<15:40, 20.02s/it]

Two layer:  11.2367487475276
PLD:  17.179945219308138


 42%|███████████████████████████████████████████████████████████▌                                                                                | 34/80 [15:05<17:04, 22.27s/it]

Two layer:  10.343402929604053
PLD:  6.601163260638714


 44%|█████████████████████████████████████████████████████████████▎                                                                              | 35/80 [15:18<14:34, 19.44s/it]

Two layer:  6.242639906704426
PLD:  14.986363176256418


 45%|███████████████████████████████████████████████████████████████                                                                             | 36/80 [15:55<18:11, 24.82s/it]

Two layer:  22.369843173772097
PLD:  8.283586107194424


 46%|████████████████████████████████████████████████████████████████▊                                                                           | 37/80 [16:15<16:42, 23.31s/it]

Two layer:  11.52585930377245
PLD:  10.289707068353891


 48%|██████████████████████████████████████████████████████████████████▌                                                                         | 38/80 [16:41<16:52, 24.11s/it]

Two layer:  15.659621767699718
PLD:  9.302694708108902


 49%|████████████████████████████████████████████████████████████████████▎                                                                       | 39/80 [16:55<14:29, 21.20s/it]

Two layer:  5.126329589635134
PLD:  11.871961552649736


 50%|██████████████████████████████████████████████████████████████████████                                                                      | 40/80 [17:16<14:02, 21.06s/it]

Two layer:  8.842560570687056
PLD:  18.33468671515584


 51%|███████████████████████████████████████████████████████████████████████▊                                                                    | 41/80 [17:46<15:24, 23.69s/it]

Two layer:  11.511395681649446
PLD:  13.89144216477871


 52%|█████████████████████████████████████████████████████████████████████████▌                                                                  | 42/80 [18:16<16:09, 25.52s/it]

Two layer:  15.890528991818428
PLD:  15.446841292083263


 54%|███████████████████████████████████████████████████████████████████████████▎                                                                | 43/80 [18:44<16:18, 26.44s/it]

Two layer:  13.150863982737064
PLD:  15.163606014102697


 55%|█████████████████████████████████████████████████████████████████████████████                                                               | 44/80 [19:18<17:10, 28.63s/it]

Two layer:  18.56569204479456
PLD:  21.224749833345413


 56%|██████████████████████████████████████████████████████████████████████████████▊                                                             | 45/80 [19:56<18:22, 31.50s/it]

Two layer:  16.965178467333317
PLD:  18.605896700173616


 57%|████████████████████████████████████████████████████████████████████████████████▌                                                           | 46/80 [20:37<19:23, 34.21s/it]

Two layer:  21.944723654538393
PLD:  16.352782052010298


 59%|██████████████████████████████████████████████████████████████████████████████████▎                                                         | 47/80 [21:08<18:22, 33.40s/it]

Two layer:  15.15133586898446
PLD:  14.635150764137506


 60%|████████████████████████████████████████████████████████████████████████████████████                                                        | 48/80 [21:34<16:31, 31.00s/it]

Two layer:  10.74438614398241
PLD:  18.461426742374897


 61%|█████████████████████████████████████████████████████████████████████████████████████▊                                                      | 49/80 [22:16<17:50, 34.52s/it]

Two layer:  24.281103916466236
PLD:  11.678085811436176


 62%|███████████████████████████████████████████████████████████████████████████████████████▌                                                    | 50/80 [22:42<15:53, 31.77s/it]

Two layer:  13.676334887742996
PLD:  2.727322965860367


 64%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 51/80 [22:48<11:42, 24.22s/it]

Two layer:  3.8782979547977448
PLD:  3.904228739440441


 65%|███████████████████████████████████████████████████████████████████████████████████████████                                                 | 52/80 [22:58<09:11, 19.69s/it]

Two layer:  5.1977119743824005
PLD:  2.762428857386112


 66%|████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 53/80 [23:02<06:51, 15.25s/it]

Two layer:  2.147277258336544
PLD:  5.730332303792238


 68%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 54/80 [23:12<05:54, 13.62s/it]

Two layer:  4.0657515451312065
PLD:  4.145225137472153


 69%|████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 55/80 [23:22<05:08, 12.33s/it]

Two layer:  5.1934932097792625
PLD:  0.9857722520828247


 70%|██████████████████████████████████████████████████████████████████████████████████████████████████                                          | 56/80 [23:24<03:47,  9.47s/it]

Two layer:  1.8064874559640884
PLD:  5.296507228165865


 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 57/80 [23:32<03:21,  8.77s/it]

Two layer:  1.8414270766079426
PLD:  1.2970751374959946


 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 58/80 [23:40<03:11,  8.69s/it]

Two layer:  7.198250912129879
PLD:  11.999931558966637


 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 59/80 [24:11<05:23, 15.40s/it]

Two layer:  19.04703591018915
PLD:  13.011862084269524


 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 60/80 [24:40<06:27, 19.39s/it]

Two layer:  15.705241300165653
PLD:  17.002562407404184


 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 61/80 [25:19<08:01, 25.36s/it]

Two layer:  22.273101817816496
PLD:  21.8494975566864


 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 62/80 [26:09<09:49, 32.75s/it]

Two layer:  28.135137241333723
PLD:  23.121474616229534


 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 63/80 [26:57<10:33, 37.24s/it]

Two layer:  24.600901681929827
PLD:  7.53808781132102


 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 64/80 [27:18<08:40, 32.54s/it]

Two layer:  14.022584326565266
PLD:  18.797970816493034


 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 65/80 [28:01<08:55, 35.70s/it]

Two layer:  24.281264528632164
PLD:  17.76217856630683


 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 66/80 [28:46<08:56, 38.30s/it]

Two layer:  26.591024160385132
PLD:  12.424513399600983


 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                      | 67/80 [29:33<08:51, 40.90s/it]

Two layer:  34.55873428285122
PLD:  20.832047689706087


 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 68/80 [30:21<08:38, 43.21s/it]

Two layer:  27.753127548843622
PLD:  16.3907714150846


 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 69/80 [31:05<07:58, 43.47s/it]

Two layer:  27.702808815985918
PLD:  21.290490590035915


 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 70/80 [31:59<07:43, 46.36s/it]

Two layer:  31.800801102072
PLD:  19.34951962530613


 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 71/80 [32:46<06:59, 46.65s/it]

Two layer:  27.965975746512413
PLD:  19.419409278780222


 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 72/80 [33:36<06:21, 47.65s/it]

Two layer:  30.561711881309748
PLD:  25.70745811238885


 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 73/80 [34:40<06:07, 52.51s/it]

Two layer:  38.158768970519304
PLD:  21.438829071819782


 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 74/80 [35:33<05:15, 52.62s/it]

Two layer:  31.417748048901558
PLD:  23.755652226507664


 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 75/80 [36:31<04:32, 54.50s/it]

Two layer:  35.13327282294631
PLD:  23.68974906206131


 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 76/80 [37:29<03:41, 55.46s/it]

Two layer:  34.02059431746602
PLD:  21.25443460792303


 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 77/80 [38:21<02:42, 54.29s/it]

Two layer:  30.303239218890667
PLD:  22.74275830388069


 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 78/80 [39:16<01:49, 54.58s/it]

Two layer:  32.50794818997383
PLD:  22.964774407446384


 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 79/80 [40:08<00:53, 53.89s/it]

Two layer:  29.303379893302917
PLD:  17.777805659919977


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 80/80 [40:52<00:00, 30.66s/it]


Two layer:  26.091006353497505


  0%|                                                                                                                                                     | 0/80 [00:00<?, ?it/s]

PLD:  23.127286482602358


  1%|█▋                                                                                                                                         | 1/80 [00:55<1:13:08, 55.55s/it]

Two layer:  32.421487998217344
PLD:  19.33775270357728


  2%|███▍                                                                                                                                       | 2/80 [01:39<1:03:16, 48.67s/it]

Two layer:  24.51266097649932
PLD:  10.45722508430481


  4%|█████▎                                                                                                                                       | 3/80 [02:06<49:51, 38.85s/it]

Two layer:  16.716759588569403
PLD:  21.013287130743265


  5%|███████                                                                                                                                      | 4/80 [03:06<59:51, 47.25s/it]

Two layer:  39.10777182877064
PLD:  12.504549466073513


  6%|████████▊                                                                                                                                    | 5/80 [03:43<54:20, 43.48s/it]

Two layer:  24.284008119255304
PLD:  13.507015440613031


  8%|██████████▌                                                                                                                                  | 6/80 [04:30<55:07, 44.69s/it]

Two layer:  33.53997161984444
PLD:  15.129815459251404


  9%|████████████▎                                                                                                                                | 7/80 [04:58<47:39, 39.17s/it]

Two layer:  12.655784264206886
PLD:  5.196672268211842


 10%|██████████████                                                                                                                               | 8/80 [05:10<36:50, 30.70s/it]

Two layer:  7.361782759428024
PLD:  5.4545400738716125


 11%|███████████████▊                                                                                                                             | 9/80 [05:23<29:40, 25.07s/it]

Two layer:  7.251302693039179
PLD:  4.487133145332336


 12%|█████████████████▌                                                                                                                          | 10/80 [05:33<23:50, 20.43s/it]

Two layer:  5.549394764006138
PLD:  14.524166356772184


 14%|███████████████████▎                                                                                                                        | 11/80 [06:22<33:19, 28.98s/it]

Two layer:  33.85368037596345
PLD:  17.822374545037746


 15%|█████████████████████                                                                                                                       | 12/80 [07:04<37:39, 33.23s/it]

Two layer:  25.104565992951393
PLD:  23.29398564249277


 16%|██████████████████████▊                                                                                                                     | 13/80 [07:56<43:09, 38.64s/it]

Two layer:  27.810354307293892
PLD:  21.12835242599249


 18%|████████████████████████▌                                                                                                                   | 14/80 [08:48<47:10, 42.89s/it]

Two layer:  31.578221295028925
PLD:  2.5035583563148975


 19%|██████████████████████████▎                                                                                                                 | 15/80 [08:56<34:55, 32.25s/it]

Two layer:  5.067639485001564
PLD:  15.963615648448467


 20%|████████████████████████████                                                                                                                | 16/80 [09:36<36:54, 34.60s/it]

Two layer:  24.098658952862024
PLD:  25.297338996082544


 21%|█████████████████████████████▊                                                                                                              | 17/80 [10:34<43:38, 41.57s/it]

Two layer:  32.476443096995354
PLD:  6.178003042936325


 22%|███████████████████████████████▌                                                                                                            | 18/80 [11:07<40:27, 39.15s/it]

Two layer:  27.327195167541504
PLD:  11.200561560690403


 24%|█████████████████████████████████▎                                                                                                          | 19/80 [11:41<38:18, 37.69s/it]

Two layer:  23.091159213334322
PLD:  21.269464261829853


 25%|███████████████████████████████████                                                                                                         | 20/80 [12:39<43:34, 43.58s/it]

Two layer:  36.03591572120786
PLD:  1.8337135538458824


 26%|████████████████████████████████████▊                                                                                                       | 21/80 [12:44<31:29, 32.02s/it]

Two layer:  3.231216285377741
PLD:  4.995022915303707


 28%|██████████████████████████████████████▌                                                                                                     | 22/80 [12:56<25:13, 26.09s/it]

Two layer:  7.279223911464214
PLD:  15.144329160451889


 29%|████████████████████████████████████████▎                                                                                                   | 23/80 [13:36<28:44, 30.26s/it]

Two layer:  24.82316955551505
PLD:  2.429885771125555


 30%|██████████████████████████████████████████                                                                                                  | 24/80 [13:42<21:23, 22.92s/it]

Two layer:  3.384732559323311
PLD:  4.055831845849752


 31%|███████████████████████████████████████████▊                                                                                                | 25/80 [13:48<16:25, 17.91s/it]

Two layer:  2.1705636605620384
PLD:  5.02200734987855


 32%|█████████████████████████████████████████████▌                                                                                              | 26/80 [14:02<15:02, 16.71s/it]

Two layer:  8.866400830447674
PLD:  1.9318006746470928


 34%|███████████████████████████████████████████████▎                                                                                            | 27/80 [14:10<12:25, 14.07s/it]

Two layer:  5.982747569680214
PLD:  5.4587083496153355


 35%|█████████████████████████████████████████████████                                                                                           | 28/80 [14:22<11:44, 13.55s/it]

Two layer:  6.888939585536718
PLD:  5.607845142483711


 36%|██████████████████████████████████████████████████▊                                                                                         | 29/80 [14:40<12:30, 14.71s/it]

Two layer:  11.80372028797865
PLD:  15.080299828201532


 38%|████████████████████████████████████████████████████▌                                                                                       | 30/80 [15:18<18:07, 21.76s/it]

Two layer:  23.124400921165943
PLD:  13.88871868699789


 39%|██████████████████████████████████████████████████████▎                                                                                     | 31/80 [15:47<19:29, 23.88s/it]

Two layer:  14.92307235300541
PLD:  2.610344674438238


 40%|████████████████████████████████████████████████████████                                                                                    | 32/80 [15:57<15:46, 19.71s/it]

Two layer:  7.379280384629965
PLD:  9.227444633841515


 41%|█████████████████████████████████████████████████████████▊                                                                                  | 33/80 [16:15<15:11, 19.40s/it]

Two layer:  9.441486328840256
PLD:  16.884764280170202


 42%|███████████████████████████████████████████████████████████▌                                                                                | 34/80 [16:54<19:18, 25.18s/it]

Two layer:  21.78643898665905
PLD:  6.568356655538082


 44%|█████████████████████████████████████████████████████████████▎                                                                              | 35/80 [17:07<16:10, 21.58s/it]

Two layer:  6.594035405665636
PLD:  8.703271351754665


 45%|███████████████████████████████████████████████████████████████                                                                             | 36/80 [17:28<15:44, 21.47s/it]

Two layer:  12.513478174805641
PLD:  15.363792672753334


 46%|████████████████████████████████████████████████████████████████▊                                                                           | 37/80 [17:59<17:21, 24.22s/it]

Two layer:  15.279233109205961
PLD:  9.378404822200537


 48%|██████████████████████████████████████████████████████████████████▌                                                                         | 38/80 [18:17<15:39, 22.36s/it]

Two layer:  8.644461020827293
PLD:  10.203545182943344


 49%|████████████████████████████████████████████████████████████████████▎                                                                       | 39/80 [18:39<15:12, 22.26s/it]

Two layer:  11.827648006379604
PLD:  3.4970055669546127


 50%|██████████████████████████████████████████████████████████████████████                                                                      | 40/80 [18:56<13:40, 20.52s/it]

Two layer:  12.939046807587147
PLD:  19.62954429909587


 51%|███████████████████████████████████████████████████████████████████████▊                                                                    | 41/80 [19:34<16:48, 25.85s/it]

Two layer:  18.67999342083931
PLD:  16.625506836920977


 52%|█████████████████████████████████████████████████████████████████████████▌                                                                  | 42/80 [20:04<17:09, 27.08s/it]

Two layer:  13.31024868413806
PLD:  18.80366577208042


 54%|███████████████████████████████████████████████████████████████████████████▎                                                                | 43/80 [20:41<18:30, 30.01s/it]

Two layer:  18.046990305185318
PLD:  15.420204039663076


 55%|█████████████████████████████████████████████████████████████████████████████                                                               | 44/80 [21:17<19:05, 31.82s/it]

Two layer:  20.601592265069485
PLD:  18.740155771374702


 56%|██████████████████████████████████████████████████████████████████████████████▊                                                             | 45/80 [22:00<20:39, 35.40s/it]

Two layer:  25.03245162591338
PLD:  17.01502376422286


 57%|████████████████████████████████████████████████████████████████████████████████▌                                                           | 46/80 [22:41<20:52, 36.83s/it]

Two layer:  23.12472165375948
PLD:  17.295039385557175


 59%|██████████████████████████████████████████████████████████████████████████████████▎                                                         | 47/80 [23:15<19:52, 36.12s/it]

Two layer:  17.187768179923296
PLD:  18.957978159189224


 60%|████████████████████████████████████████████████████████████████████████████████████                                                        | 48/80 [23:51<19:10, 35.94s/it]

Two layer:  16.54755175113678
PLD:  22.91455940157175


 61%|█████████████████████████████████████████████████████████████████████████████████████▊                                                      | 49/80 [24:40<20:35, 39.87s/it]

Two layer:  26.12625628709793
PLD:  13.314394179731607


 62%|███████████████████████████████████████████████████████████████████████████████████████▌                                                    | 50/80 [25:09<18:23, 36.78s/it]

Two layer:  16.255218770354986
PLD:  2.4682342559099197


 64%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 51/80 [25:20<13:56, 28.86s/it]

Two layer:  7.908388618379831
PLD:  2.3398170359432697


 65%|███████████████████████████████████████████████████████████████████████████████████████████                                                 | 52/80 [25:26<10:17, 22.05s/it]

Two layer:  3.8144838623702526
PLD:  3.0713916420936584


 66%|████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 53/80 [25:31<07:38, 16.96s/it]

Two layer:  2.0246130265295506
PLD:  4.822819009423256


 68%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 54/80 [25:38<06:03, 13.98s/it]

Two layer:  2.193272888660431
PLD:  3.723894104361534


 69%|████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 55/80 [25:47<05:13, 12.56s/it]

Two layer:  5.509261664003134
PLD:  1.0240987427532673


 70%|██████████████████████████████████████████████████████████████████████████████████████████████████                                          | 56/80 [25:48<03:40,  9.20s/it]

Two layer:  0.3365714065730572
PLD:  4.009921375662088


 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 57/80 [25:55<03:10,  8.30s/it]

Two layer:  2.2072206623852253
PLD:  7.778990052640438


 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 58/80 [26:15<04:23, 11.99s/it]

Two layer:  12.811168756335974
PLD:  8.4096216596663


 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 59/80 [26:32<04:43, 13.50s/it]

Two layer:  8.60837010666728
PLD:  13.778270971029997


 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 60/80 [26:59<05:46, 17.32s/it]

Two layer:  12.460727270692587
PLD:  17.839024759829044


 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 61/80 [27:40<07:45, 24.50s/it]

Two layer:  23.402107175439596
PLD:  21.477235313504934


 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 62/80 [28:32<09:52, 32.90s/it]

Two layer:  31.043773353099823
PLD:  20.872941844165325


 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 63/80 [29:21<10:41, 37.74s/it]

Two layer:  28.146166253834963
PLD:  14.646780896931887


 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 64/80 [29:57<09:52, 37.00s/it]

Two layer:  20.6366924084723
PLD:  18.887433398514986


 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 65/80 [30:39<09:37, 38.53s/it]

Two layer:  23.20091162994504
PLD:  16.396950885653496


 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 66/80 [31:26<09:37, 41.25s/it]

Two layer:  31.185633677989244
PLD:  23.68602754175663


 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                      | 67/80 [32:22<09:53, 45.62s/it]

Two layer:  32.12691646069288
PLD:  23.213879473507404


 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 68/80 [33:17<09:40, 48.41s/it]

Two layer:  31.697288125753403
PLD:  17.826465282589197


 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 69/80 [34:01<08:36, 46.99s/it]

Two layer:  25.861386992037296
PLD:  19.484111718833447


 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 70/80 [34:53<08:05, 48.60s/it]

Two layer:  32.85362112894654
PLD:  17.82432008162141


 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 71/80 [35:37<07:04, 47.22s/it]

Two layer:  26.169435422867537
PLD:  21.810765497386456


 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 72/80 [36:31<06:34, 49.35s/it]

Two layer:  32.53101620823145
PLD:  26.918150320649147


 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 73/80 [37:34<06:12, 53.25s/it]

Two layer:  35.427675135433674
PLD:  25.30848090723157


 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 74/80 [38:33<05:30, 55.15s/it]

Two layer:  34.252302546054125
PLD:  25.26098470389843


 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 75/80 [39:39<04:51, 58.29s/it]

Two layer:  40.355488169938326
PLD:  25.341655548661947


 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 76/80 [40:43<03:59, 59.90s/it]

Two layer:  38.308948282152414
PLD:  22.823525100946426


 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 77/80 [41:36<02:54, 58.09s/it]

Two layer:  31.045201987028122
PLD:  26.04157618060708


 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 78/80 [42:35<01:56, 58.35s/it]

Two layer:  32.9267479814589
PLD:  26.760519415140152


 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 79/80 [43:39<00:59, 59.99s/it]

Two layer:  37.05981992557645
PLD:  20.639488022774458


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 80/80 [44:25<00:00, 33.32s/it]


Two layer:  25.328891586512327


  0%|                                                                                                                                                     | 0/80 [00:00<?, ?it/s]

PLD:  25.31605790928006


  1%|█▋                                                                                                                                         | 1/80 [01:01<1:20:39, 61.26s/it]

Two layer:  35.939352568238974
PLD:  18.430372152477503


  2%|███▍                                                                                                                                       | 2/80 [01:40<1:02:43, 48.25s/it]

Two layer:  20.706309616565704
PLD:  14.593065306544304


  4%|█████▎                                                                                                                                       | 3/80 [02:13<52:48, 41.14s/it]

Two layer:  18.09651693329215
PLD:  23.55292559042573


  5%|███████                                                                                                                                      | 4/80 [03:07<58:49, 46.44s/it]

Two layer:  31.01639449223876
PLD:  15.667198222130537


  6%|████████▊                                                                                                                                    | 5/80 [03:50<56:32, 45.23s/it]

Two layer:  27.398856300860643
PLD:  14.90272219479084


  8%|██████████▌                                                                                                                                  | 6/80 [04:28<52:48, 42.81s/it]

Two layer:  23.223552033305168
PLD:  15.792885527014732


  9%|████████████▎                                                                                                                                | 7/80 [05:00<47:29, 39.03s/it]

Two layer:  15.450173258781433
PLD:  5.182918582111597


 10%|██████████████                                                                                                                               | 8/80 [05:11<36:25, 30.35s/it]

Two layer:  6.581863548606634
PLD:  3.8338223323225975


 11%|███████████████▊                                                                                                                             | 9/80 [05:21<28:21, 23.96s/it]

Two layer:  6.0752249248325825
PLD:  4.514391452074051


 12%|█████████████████▌                                                                                                                          | 10/80 [05:30<22:29, 19.28s/it]

Two layer:  4.280807580798864
PLD:  12.961640544235706


 14%|███████████████████▎                                                                                                                        | 11/80 [06:01<26:24, 22.97s/it]

Two layer:  18.371670972555876
PLD:  8.95885856822133


 15%|█████████████████████                                                                                                                       | 12/80 [06:33<28:54, 25.51s/it]

Two layer:  22.361585844308138
PLD:  27.28148141875863


 15%|█████████████████████                                                                                                                       | 12/80 [07:21<41:41, 36.79s/it]


KeyboardInterrupt: 

In [12]:
import json
stats_file = open("stats_qwen_mtbench.json", "w+")
stats_file.write(json.dumps(stats))
stats_file.close()