In [1]:
import os
if not os.path.exists("/scratch/sarthak"):
    os.makedirs("/scratch/sarthak")

os.environ["HF_HOME"] = "/scratch/sarthak/"

In [2]:
import torch
import torch.nn.functional as F
from transformers import T5ForConditionalGeneration, T5Tokenizer, AutoModelForSeq2SeqLM
from typing import List, Tuple, Optional
import time
import numpy as np
import datasets

In [3]:
# # WMT16 EN-DE dataset
# def preprocess_function_ende(examples, tokenizer, args, train_args, prefix="translate English to German: "):
#     if train_args.debug:
#         all_text = examples['translation'][:2]
#     else:
#         all_text = examples['translation']
        
#     inputs = []
#     targets = []
#     for excerpt in all_text:
#         en_text = prefix + excerpt['en']
#         de_text = excerpt['de']

#         inputs.append(en_text)
#         targets.append(de_text)
            
#     padding = 'max_length'
#     model_inputs = tokenizer(
#         inputs,
#         max_length=args.source_max_length,
#         padding=padding,
#         truncation=True,
#         return_tensors="pt",
#     )
#     # Tokenize targets with the `text_target` keyword argument
#     labels = tokenizer(
#         text_target=targets,
#         max_length=args.train_target_max_length,
#         padding=padding,
#         truncation=True,
    #     return_tensors="pt",
    # )

    # if padding == "max_length":
    #             labels["input_ids"] = [
    #                 [(l if l != tokenizer.pad_token_id else -100) for l in label] for label in labels["input_ids"]
    #             ]

    # model_inputs["labels"] = labels["input_ids"]
    # model_inputs["decoder_attention_mask"] = labels["attention_mask"]
    # return model_inputs

en_gr_dataset = datasets.load_dataset('wmt16', 'de-en', split='validation')

# Base Speculative

In [4]:
class SpeculativeDecoder:
    def __init__(
        self,
        target_model_name = "google-t5/t5-3b",
        draft_model_name = "google-t5/t5-small",
        gamma = 4,
        temperature = 1.0
    ):
        self.gamma = gamma

        self.temperature = temperature

        self.tokenizer = T5Tokenizer.from_pretrained(target_model_name)
        self.target_model = AutoModelForSeq2SeqLM.from_pretrained(target_model_name, device_map='auto')

        self.draft_model = T5ForConditionalGeneration.from_pretrained(draft_model_name, device_map='auto')

        self.target_model.eval()
        self.draft_model.eval()

    def get_draft_logits(
        self,
        input_ids: torch.Tensor,
        attention_mask: torch.Tensor,
        decoder_input_ids: torch.Tensor,
        gamma: int
    ) -> Tuple[torch.Tensor, torch.Tensor]:
        """Get draft logits for gamma tokens"""
        draft_tokens = []
        draft_probs = []
        current_decoder_ids = decoder_input_ids

        # Generate gamma tokens from the draft model
        for _ in range(gamma):
            with torch.no_grad():
                outputs = self.draft_model(
                    input_ids=input_ids,
                    attention_mask=attention_mask,
                    decoder_input_ids=current_decoder_ids,
                    return_dict=True,
                )
                logits = outputs.logits[:, -1, :]  # Get logits for last position
                probs = logits
                # probs = F.softmax(logits, dim=-1)

                token_id = torch.argmax(probs, dim=-1)
                prob = probs.gather(-1, token_id.unsqueeze(-1)).squeeze(-1)

                draft_tokens.append(token_id.item())
                draft_probs.append(prob.item())

                # Update decoder inputs for next iteration
                current_decoder_ids = torch.cat(
                    [current_decoder_ids, token_id.view(1, 1)],
                    dim=1
                )

                if token_id.item() == self.tokenizer.eos_token_id:
                    break

        return draft_tokens, draft_probs, outputs.logits.squeeze(0)

    def get_target_probs(
        self,
        input_ids: torch.Tensor,
        attention_mask: torch.Tensor,
        decoder_input_ids: torch.Tensor,
        draft_tokens: torch.Tensor,
    ) -> torch.Tensor:
        """Get target probabilities for the draft tokens in parallel."""
        with torch.no_grad():
            # Add draft tokens to decoder input
            full_decoder_ids = torch.cat([decoder_input_ids, draft_tokens.unsqueeze(0)], dim=1)
            # print(input_ids_batched.shape, attention_mask_batched.shape, padded_decoder_ids.shape)
            # decoder_mask = torch.triu(
            #     torch.ones((full_decoder_ids.shape[1], full_decoder_ids.shape[1] + 1))
            # )
            # decoder_mask = decoder_mask[-(len(draft_tokens) + 1):, :-1]
            # decoder_mask = 1 - decoder_mask
            
            # the shapes that we want to see are:
            # torch.Size([11, 12]) torch.Size([1, 12])
            # torch.Size([11, 12]) torch.Size([11, 12])
            # torch.Size([11, 32128])
            # torch.Size([11, 32128]) torch.Size([11, 32128])

            # What im getting
            # torch.Size([1, 12]) torch.Size([1, 12])
            # torch.Size([1, 12]) torch.Size([1, 12])
            # torch.Size([1, 11, 32128])


            decoder_mask = torch.ones(full_decoder_ids.shape[1])
            decoder_mask = decoder_mask.unsqueeze(0)


            # print(decoder_mask.shape, full_decoder_ids.shape)

            # conver to a batched input
            # input_ids = input_ids.repeat(len(draft_tokens) + 1, 1)
            # attention_mask = attention_mask.repeat(len(draft_tokens) + 1, 1)
            # full_decoder_ids = full_decoder_ids.repeat(len(draft_tokens) + 1, 1)

            # print(decoder_mask.shape, full_decoder_ids.shape)


            outputs = self.target_model(
                input_ids=input_ids,
                attention_mask=attention_mask,
                decoder_input_ids=full_decoder_ids,
                decoder_attention_mask=decoder_mask,
                return_dict=True
            )

            
            # dim_0_indices = torch.arange(len(draft_tokens) + 1)
            # dim_1_indices = torch.arange(len(draft_tokens) + 1) + full_decoder_ids.shape[1] - 1 - len(draft_tokens)
            # logits = outputs.logits[dim_0_indices, dim_1_indices, :]
            logits = outputs.logits[:, -(len(draft_tokens) + 1):, :]
            logits = logits.squeeze(0)

            # print(logits.shape)
            
            # Get probabilities for positions before each draft token
            # logits = outputs.logits[:, -(len(draft_tokens) + 1):-1, :]
            target_probs = F.softmax(logits, dim=-1)

            # print(target_probs.shape, target_probs.squeeze(0).shape)
            

            return target_probs.squeeze(0), logits

    def verify_tokens(
        self,
        target_probs: torch.Tensor,
        draft_tokens: torch.Tensor,
        draft_probs: torch.Tensor,
    ) -> int:
        """Determine number of accepted tokens"""
        # Get target probabilities for the draft tokens
        # get the probabilities of the tokens at the indices of the draft tokens
        target_probs_draft_tokens = torch.gather(target_probs, 1, draft_tokens.unsqueeze(0))
        # Calculate acceptance ratios
        acceptance_ratios = target_probs_draft_tokens / draft_probs.clamp(min=1e-10)

        # Sample uniform random numbers 
        random_nums = torch.rand_like(acceptance_ratios)
        acceptance_mask = random_nums <= acceptance_ratios

        num_accepted = (acceptance_mask.cumsum(dim=-1) == torch.arange(1, len(acceptance_ratios) + 1)).sum().item()

        return num_accepted

    def translate(
        self,
        source_text: str,
        max_length: int = 128
    ) -> str:
        """Translate source text using speculative decoding."""
        # Encode source text
        encoder_inputs = self.tokenizer(
            f"translate English to German: {source_text}",
            return_tensors="pt",
            padding=True
        )

        # Initialize with start token
        decoder_input_ids = torch.tensor([[self.tokenizer.pad_token_id]])

        output = self.target_model(
            input_ids=encoder_inputs.input_ids,
            attention_mask=encoder_inputs.attention_mask,
            decoder_input_ids=decoder_input_ids,
            return_dict=True
        )

        probs = output.logits[:, -1, :]
                    
        probs = F.softmax(probs / (self.temperature + 1e-13), dim=-1)
        token_id = torch.multinomial(probs, num_samples=1)

        decoder_input_ids = torch.tensor([[self.tokenizer.pad_token_id, token_id.item()]])

        total_tokens = 0
        accepted_tokens = 0

        while decoder_input_ids.shape[1] < max_length:
            # Get draft tokens autoregressively
            draft_tokens, draft_probs, draft_logits = self.get_draft_logits(
                encoder_inputs.input_ids,
                encoder_inputs.attention_mask,
                decoder_input_ids,
                self.gamma
            )

            draft_tokens = torch.tensor(draft_tokens)
            draft_probs = torch.tensor(draft_probs)

            # softmax the draft probs
            draft_probs = F.softmax(draft_probs / (self.temperature + 1e-13), dim=-1)

            if len(draft_tokens) == 0:
                raise ValueError("Draft tokens not generated.")

            # Get target probabilities in parallel
            # start = time.time()
            target_probs, target_logits = self.get_target_probs(
                encoder_inputs.input_ids,
                encoder_inputs.attention_mask,
                decoder_input_ids,
                draft_tokens
            )
            # target probs are the logits but with softmax applied

            # Verify tokens
            n_accepted = self.verify_tokens(target_probs, draft_tokens, draft_probs)
            # Accept verified tokens
            if n_accepted > 0:
                decoder_input_ids = torch.cat([
                    decoder_input_ids,
                    draft_tokens[:n_accepted].unsqueeze(0)
                ], dim=1)
                
            with torch.no_grad():
                # n_rejected = self.gamma - n_accepted
                n_rejected = len(draft_tokens) - n_accepted 
                total_tokens += len(draft_tokens)
                accepted_tokens += n_accepted

                if n_rejected > 0:
                    probs = target_logits[-n_rejected, :] #- draft_logits[1-n_rejected, :]
                else:
                    probs = target_logits[-1, :]
                    
                probs = F.softmax(probs / (self.temperature + 1e-13), dim=-1)
                # probs /= max(self.temperature, 1e-13)
                # probs_max = torch.where(probs > 0, probs, torch.zeros_like(probs))
                # probs_max_sum = torch.sum(probs_max)
                # probs = probs_max / max(probs_max_sum, 1e-13)
                
                token_id = torch.multinomial(probs, num_samples=1).unsqueeze(0)

                decoder_input_ids = torch.cat([decoder_input_ids, token_id], dim=1)

            # Check for end of sequence
            if decoder_input_ids[0][-1].item() == self.tokenizer.eos_token_id:
                break

            # # or if a full stop is generated
            # if decoder_input_ids[0][-1].item() == self.tokenizer.convert_tokens_to_ids('.'):
            #     break

        # Decode translation
        translation = self.tokenizer.decode(
            decoder_input_ids[0],
            skip_special_tokens=True,
            clean_up_tokenization_spaces=True
        )
        perc_accepted = accepted_tokens / total_tokens * 100
        return translation, perc_accepted

In [5]:
# just translate using the big model
big_model = AutoModelForSeq2SeqLM.from_pretrained("google-t5/t5-3b", device_map='auto')

tokenizer = T5Tokenizer.from_pretrained("google-t5/t5-3b")

source_text = "translate English to German: Formula One cars are the world's fastest regulated road-course racing cars, owing to very high cornering speeds achieved by generating large amounts of aerodynamic downforce, much of which is generated by front and rear wings."
# source_text = "translate English to German: India is also reportedly hoping for a deal on defence collaboration between the two nations."
start = time.time()

input_ids = tokenizer(source_text, return_tensors="pt").input_ids.to(big_model.device)
decoder_input_ids = torch.tensor([[tokenizer.pad_token_id]], device=big_model.device)  # Start with PAD token
eos_token_id = tokenizer.eos_token_id

output_tokens = []
while True:
    # Predict the next token
    outputs = big_model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
    next_token_logits = outputs.logits[:, -1, :]  # Get logits for the last token
    next_token_id = torch.argmax(next_token_logits, dim=-1)  # Greedy decoding

    # Append the generated token to the decoder input
    decoder_input_ids = torch.cat([decoder_input_ids, next_token_id.unsqueeze(0)], dim=-1)
    output_tokens.append(next_token_id.item())

    # Break the loop if the EOS token is generated
    if next_token_id.item() == eos_token_id:
        break

big_translation = tokenizer.decode(output_tokens, skip_special_tokens=True)

# Print the results
print("Big model translation: ", big_translation)
print("Time taken: ", time.time() - start)


xonsh: For full traceback set: $XONSH_SHOW_TRACEBACK = True
NameError: name 'AutoModelForSeq2SeqLM' is not defined


In [4]:
speculative_decoder1 = SpeculativeDecoder(gamma=6, temperature=0.0)
speculative_decoder2 = SpeculativeDecoder(gamma=6, temperature=0.5)
speculative_decoder3 = SpeculativeDecoder(gamma=6, temperature=1.0)

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


In [5]:
source_text = "Formula One cars are the world's fastest regulated road-course racing cars, owing to very high cornering speeds achieved by generating large amounts of aerodynamic downforce, much of which is generated by front and rear wings."
# source_text = "India is also reportedly hoping for a deal on defence collaboration between the two nations."
speculative_decoder1.translate(source_text)
start = time.time()
speculative_translation, pc = speculative_decoder1.translate(source_text)
end = time.time()
print(f"Speculative translation: {speculative_translation}")
print(f"Percentage tokens accepted: {pc:.2f}%")
print(f"Time taken: {end - start:.4f} seconds")

Speculative translation: Die For 1erFahrzeug sind die schnellstener reguliterenn Renwagen der, da sehr hohekeln Geschwindigkeiten erreicht, die die Erzeug von  Mengen aerocher Abungskrafterzeug, die von vorne hinten von vorne hinterngelb Flügel erzeugt werden
Percentage tokens accepted: 19.39%
Time taken: 6.5364 seconds


In [6]:
# source_text = "India is also reportedly hoping for a deal on defence collaboration between the two nations."
speculative_decoder2.translate(source_text)
start = time.time()
speculative_translation, pc = speculative_decoder2.translate(source_text)
end = time.time()
print(f"Speculative translation: {speculative_translation}")
print(f"Percentage tokens accepted: {pc:.2f}%")
print(f"Time taken: {end - start:.4f} seconds")

Speculative translation: Die Formel 1 das amsten regulitierte Renauto der Welt aufgrund der sehr hohen Kurvengeschwindigkeiten, die durch die Erzeugung vongroßen Menge von aerodynamischer Abschwächung erzielt werden die meisten durch Vorund undflügel erzeugt werden.
Percentage tokens accepted: 50.60%
Time taken: 3.3020 seconds


In [7]:
# source_text = "India is also reportedly hoping for a deal on defence collaboration between the two nations."
speculative_decoder3.translate(source_text)
start = time.time()
speculative_translation, pc = speculative_decoder3.translate(source_text)
end = time.time()
print(f"Speculative translation: {speculative_translation}")
print(f"Percentage tokens accepted: {pc:.2f}%")
print(f"Time taken: {end - start:.4f} seconds")

Speculative translation: Die Formel 1 ist Spitzenklasse, die weltweit am schnellsten reguliert ist, aufgrund der sehr hohen Kurvengeschwindigkeiten, die durch einen hohen aerodynamischen Abstützen erreicht werden, der größtenteil durch Vor- und Hinterflügel erzeugt wird
Percentage tokens accepted: 84.21%
Time taken: 2.3587 seconds


# Normal

In [5]:
class NormalDecoder:
    def __init__(
        self,
        model_name: str = "google-t5/t5-3b",
        device: str = "cuda" if torch.cuda.is_available() else "cpu",
    ):
        self.device = device

        # Initialize tokenizer and model
        self.tokenizer = T5Tokenizer.from_pretrained(model_name)
        # self.model = T5ForConditionalGeneration.from_pretrained(model_name).to(device)
        self.model = AutoModelForSeq2SeqLM.from_pretrained(model_name, device_map='auto')
        self.model.eval()

    def get_logits(
        self,
        input_ids: torch.Tensor,
        attention_mask: torch.Tensor,
        decoder_input_ids: torch.Tensor
    ) -> torch.Tensor:
        """Get logits from model for the last token."""
        with torch.no_grad():
            outputs = self.model(
                input_ids=input_ids,
                attention_mask=attention_mask,
                decoder_input_ids=decoder_input_ids,
                return_dict=True
            )
            return outputs.logits[:, -1, :]

    def sample_token(self, logits: torch.Tensor, temperature: float = 1.0) -> Tuple[torch.Tensor, torch.Tensor]:
        """Sample a token from logits using temperature sampling."""
        if temperature == 0:
            # Greedy sampling
            token_id = torch.argmax(logits, dim=-1)
            prob = torch.ones_like(token_id, dtype=torch.float)
        else:
            # Temperature sampling
            probs = F.softmax(logits / temperature, dim=-1)
            token_id = torch.multinomial(probs, num_samples=1).squeeze(-1)
            prob = probs.gather(-1, token_id.unsqueeze(-1)).squeeze(-1)
        return token_id, prob

    def translate(
        self,
        source_text: str,
        max_length: int = 128,
        temperature: float = 0.7
    ) -> str:
        """Translate source text using the normal T5 model."""
        # Encode source text
        encoder_inputs = self.tokenizer(
            f"translate English to German: {source_text}",
            return_tensors="pt",
            padding=True
        ).to(self.device)

        # Initialize decoder input with start token
        decoder_input_ids = torch.tensor([[self.tokenizer.pad_token_id]], device=self.device)

        while decoder_input_ids.shape[1] < max_length:
            # Generate logits for the next token
            logits = self.get_logits(
                encoder_inputs.input_ids,
                encoder_inputs.attention_mask,
                decoder_input_ids
            )

            # Sample a token
            token_id, _ = self.sample_token(logits, temperature)

            # Add token to the decoder input
            decoder_input_ids = torch.cat(
                [decoder_input_ids, token_id.view(1, 1)],
                dim=1
            )

            # Break if end token is generated
            if token_id.item() == self.tokenizer.eos_token_id:
                break

        # Decode and return translation
        translation = self.tokenizer.decode(
            decoder_input_ids[0],
            skip_special_tokens=True,
            clean_up_tokenization_spaces=True
        )
        return translation


In [7]:
# speculative_decoder = SpeculativeDecoder()
# normal_decoder = NormalDecoder()

# source_text = "He said Lamb made the fateful 911 call sometime after that." # spec does not work

# speculative_decoder.translate(source_text)
# start = time.time()
# speculative_translation, pc = speculative_decoder.translate(source_text)
# end = time.time()
# print(f"Speculative translation: {speculative_translation}")
# print(f"Percentage tokens accepted: {pc:.2f}%")
# print(f"Time taken: {end - start:.4f} seconds")

# start = time.time()
# normal_translation = normal_decoder.translate(source_text)
# end = time.time()
# print(f"Normal translation: {normal_translation}")
# print(f"Time taken: {end - start:.4f} seconds")

In [7]:
# Initialize decoder
from tqdm import tqdm

speculative_decoder = SpeculativeDecoder(gamma=7, temperature=1.0)
normal_decoder = NormalDecoder()

spec_total_time = 0
normal_total_time = 0
total_iters = 0

for i in tqdm(en_gr_dataset['translation'][:30]):
    source_text = i['en']
    target_text = i['de']
    
    # Time the translation
    start_time = time.time()
    spec_translation, pc = speculative_decoder.translate(source_text)
    end_time = time.time()

    spec_time = end_time - start_time

    # spec_total_time += spec_time
    
    start_time = time.time()
    normal_translation = normal_decoder.translate(source_text)
    end_time = time.time()

    normal_time = end_time - start_time

    # normal_total_time += normal_time

    print(f"Source: {source_text}")
    print(f"Normal Translation: {normal_translation}")
    print(f"Time taken: {normal_time:.2f} seconds")
    print(f"Speculative Translation: {spec_translation}")
    print(f"Time taken: {spec_time:.2f} seconds")
    print(f"Percentage tokens accepted: {pc:.2f}%")
    
    print(f"Target: {target_text}")

    # if normal_time - spec_time > -0.1:
    spec_total_time += spec_time
    normal_total_time += normal_time
    total_iters += 1

print(f"\nAverage time taken for normal decoding: {normal_total_time / total_iters:.2f} seconds")
print(f"Average time taken for speculative decoding: {spec_total_time / total_iters:.2f} seconds")
print(f"Average speedup over {total_iters} iterations: {normal_total_time / spec_total_time:.2f}x")

  3%|▎         | 1/30 [00:03<01:31,  3.16s/it]

Source: India and Japan prime ministers meet in Tokyo
Normal Translation: Indiens und Japans Premierminister treffen sich in Tokio
Time taken: 1.42 seconds
Speculative Translation: Indien und Japans Premierminister treffen sich Tokio
Time taken: 1.73 seconds
Percentage tokens accepted: 68.75%
Target: Die Premierminister Indiens und Japans trafen sich in Tokio.


  7%|▋         | 2/30 [00:11<02:51,  6.12s/it]

Source: India's new prime minister, Narendra Modi, is meeting his Japanese counterpart, Shinzo Abe, in Tokyo to discuss economic and security ties, on his first major foreign visit since winning May's election.
Normal Translation: Der neue indische Ministerpräsident Narendra Modi trifft in Tokio auf seinem ersten großen Auslandsbesuch nach dem Wahlsieg im Mai mit seinem japanischen Amtskollegen Shinzo Abe, um über die wirtschaftlichen und Sicherheitsbeziehungen zu sprechen.
Time taken: 5.71 seconds
Speculative Translation: In Indiens neuer Premierminister Narendra Modi trifft sein japanisches Amtkollege Shinzo Ab, um über wirtschaftliche und Sicherheitsbeziehungen zu diskutieren, und das in seinemersten großen Auslandsbesuch seit dem Wahlsieg im Mai.
Time taken: 2.47 seconds
Percentage tokens accepted: 81.97%
Target: Indiens neuer Premierminister Narendra Modi trifft bei seinem ersten wichtigen Auslandsbesuch seit seinem Wahlsieg im Mai seinen japanischen Amtskollegen Shinzo Abe in Tok

 10%|█         | 3/30 [00:16<02:27,  5.48s/it]

Source: Mr Modi is on a five-day trip to Japan to strengthen economic ties with the third largest economy in the world.
Normal Translation: Herr Modi ist auf einer fünftägigen Reise nach Japan, um die wirtschaftlichen Beziehungen zu der drittgrößten Volkswirtschaft der Welt zu verstärken.
Time taken: 3.25 seconds
Speculative Translation: Herr Modi ist auf einer fünftägigen Reise nach Japan, um die wirtschaftlichen Beziehungen zurdrittgrößten Volkswirtschaft Welt zu stärke.
Time taken: 1.47 seconds
Percentage tokens accepted: 80.00%
Target: Herr Modi befindet sich auf einer fünftägigen Reise nach Japan, um die wirtschaftlichen Beziehungen mit der drittgrößten Wirtschaftsnation der Welt zu festigen.


 13%|█▎        | 4/30 [00:18<01:48,  4.17s/it]

Source: High on the agenda are plans for greater nuclear co-operation.
Normal Translation: Eine hohe Priorität besitzt das Vorhaben einer verstärkten nuklearen Zusammenarbeit.
Time taken: 1.56 seconds
Speculative Translation: Zu den Schwerpunkten der Agenda gehören die mehr Zusammenarbeit im Bereich der Kernenergie.
Time taken: 0.59 seconds
Percentage tokens accepted: 100.00%
Target: Pläne für eine stärkere kerntechnische Zusammenarbeit stehen ganz oben auf der Tagesordnung.


 17%|█▋        | 5/30 [00:21<01:39,  3.98s/it]

Source: India is also reportedly hoping for a deal on defence collaboration between the two nations.
Normal Translation: Das Land hofft, ebenfalls künftig mit China eine Zusammenarbeit im Bereich der Verteidigungstechnik eingehen zu können.
Time taken: 2.42 seconds
Speculative Translation: Indien hofft ebenfalls auf eine Vereinbarung über die der Verteidigungszusammenarbeit zwischen den beiden Nationen.
Time taken: 1.22 seconds
Percentage tokens accepted: 86.67%
Target: Berichten zufolge hofft Indien darüber hinaus auf einen Vertrag zur Verteidigungszusammenarbeit zwischen den beiden Nationen.


 20%|██        | 6/30 [00:26<01:39,  4.15s/it]

Source: Karratha police arrest 20-year-old after high speed motorcycle chase
Normal Translation: Die Karratha-Polizei verhaftet einen 20-Jährigen nach einer Radjagd
Time taken: 1.90 seconds
Speculative Translation: InternationalesKonferenztreffen inratha-urkundlicher ffentlichkeitkontakte der deutschen mit demösterreichischen Ministerpräsidenten Schweiz.
Time taken: 2.59 seconds
Percentage tokens accepted: 30.43%
Target: Polizei von Karratha verhaftet 20-Jährigen nach schneller Motorradjagd


 23%|██▎       | 7/30 [00:31<01:44,  4.55s/it]

Source: A motorcycle has been seized after it was ridden at 125km/h in a 70km/h zone and through bushland to escape police in the Pilbara.
Normal Translation: Das Foto der Autobahn A1 in Düsseldorf zeigt das Auto auf einer Bahn mit druckvoller Aufschrift "Wendiger Autobahn" auf der Straßenseite.
Time taken: 3.03 seconds
Speculative Translation: Mittlerweile wurde ein Motorrad erworben, nachdem es in einer 70 km/h Zone weiter  und durch Buschlandgefahren wurde um der Polizei der Pilbara zuentkommen.
Time taken: 2.34 seconds
Percentage tokens accepted: 62.71%
Target: Ein Motorrad wurde beschlagnahmt, nachdem der Fahrer es mit 125 km/h in einer 70 km/h-Zone und durch Buschland gefahren hatte, um der Polizei in Bilbara zu entkommen.


 27%|██▋       | 8/30 [00:36<01:43,  4.69s/it]

Source: Traffic police on patrol in Karratha this morning tried to pull over a blue motorcycle when they spotted it reaching 125km/h as it pulled out of a service station on Bathgate Road.
Normal Translation: Seit heute ist es auch einmal im 50jährigen Jubiläum der ersten große PR-Kampagne der Firma AGI (Australian Geographic Information Agency).
Time taken: 2.79 seconds
Speculative Translation: Unfallsberichte von vielen RC-Anhängern, Fahrer und Fahrer die esgeschickt haben,Empfänger zu schicken haben Grund für die nderung derRegeln.
Time taken: 2.21 seconds
Percentage tokens accepted: 60.38%
Target: Verkehrspolizisten in Karratha versuchten heute morgen, ein blaues Motorrad zu stoppen, nachdem sie es dabei beobachtet hatten, wie es mit 125 km/h eine Tankstelle auf der Bathdate Road verließ.


 30%|███       | 9/30 [00:44<02:01,  5.81s/it]

Source: Police say the rider then failed to stop and continued on to Burgess Road before turning into bushland, causing the officers to lose sight of it.
Normal Translation: Nach Angaben der Polizei hat der Fahrer die Haltestelle verfehlt und fuhr auf die Burgess Road weiter, bevor er sich in Buschland verwandelte und die Polizeibeamten den Fahrer aus den Augen verloren.
Time taken: 4.74 seconds
Speculative Translation: Schon damalsfand der Fahrer dieinstitutiven Regeln, die heutztage ergriffen wurden. Ganz im Gegenteil,fanden die ersten Regeln der Regeln, die er erkannte. Ein großer Teil der Regeln, Bedingung und ffentlichkeit, wurden von den verschiedenengesellschaftlichen Gruppen erarbeitt
Time taken: 3.52 seconds
Percentage tokens accepted: 72.41%
Target: Die Polizei berichtet, dass der Fahrer die Haltesignale dann ignorierte und weiter auf der Burgess Road fuhr, bevor er in das Buschland abbog, wo die Beamten es aus den Augen verloren.


 33%|███▎      | 10/30 [00:49<01:47,  5.36s/it]

Source: The motorcycle and a person matching the description of the rider was then spotted at a house on Walcott Way in Bulgarra.
Normal Translation: Das Motorrad und eine Person, die der Beschreibung des Fahrers entsprach, wurden dann in einem Haus auf der Walcott Way in Bulgarra gesehen.
Time taken: 2.98 seconds
Speculative Translation: B. ein Motorrad und eine Person, die der Beschreibung des Fahrers entspricht, wurde bei einem Haus auf der Walcott Way in Bulgarra gesehen.
Time taken: 1.36 seconds
Percentage tokens accepted: 82.86%
Target: Das Motorrad sowie eine Person, die der Beschreibung des Fahrers entsprach wurden später bei einem Haus im Walcott Way in Bulgarra gesehen.


 37%|███▋      | 11/30 [00:53<01:36,  5.10s/it]

Source: Karratha Police have charged a 20-year-old man with failing to stop and reckless driving.
Normal Translation: In den letzten Wochen hat die Polizei in Karratha einen 20-jährigen Mann wegen Nichtanhaltens und Fahrverhaltensverbrechen verhaftet.
Time taken: 2.95 seconds
Speculative Translation: Sinatra hat einen 20-jährigen Mannwegen angeklag fürfahrlässiges Fahren und Nichthaltevermögen an den Tag gelegt
Time taken: 1.57 seconds
Percentage tokens accepted: 59.52%
Target: Die Polizei von Karratha beschuldigt einen 20-jährigen Mann der Nichtbeachtung eines Haltesignals sowie rücksichtslosen Fahrens.


 40%|████      | 12/30 [00:59<01:36,  5.35s/it]

Source: He is due to appear in Karratha Magistrates Court on September 23.
Normal Translation: Der Fall steht noch an, und er wird am 23. September vor dem Gericht in Karratha erscheinen.
Time taken: 1.99 seconds
Speculative Translation: Im letzten Jahrtrafen hat er die afrikanische Regierung angekt. 2004 hater seinenDienst als Präsident dervergleichungorganisation kodiniert. Anders als in der letzten Zeit hatte er gleich zwei Jahre in der deutschen Regierung.
Time taken: 3.92 seconds
Percentage tokens accepted: 50.51%
Target: Er soll am 23. September vor dem Amtsgericht in Karratha erscheinen.


 43%|████▎     | 13/30 [01:01<01:13,  4.31s/it]

Source: The motorcycle was seized and impounded for three months.
Normal Translation: Das Motorrad war für drei Monate aufbewahrt worden.
Time taken: 1.22 seconds
Speculative Translation: Das Motorrad wurde beschlagnahmt und drei Monate lang beschlagnahmt.
Time taken: 0.70 seconds
Percentage tokens accepted: 100.00%
Target: Das Motorrad wurde sichergestellt und für drei Monate beschlagnahmt.


 47%|████▋     | 14/30 [01:05<01:04,  4.01s/it]

Source: George Webster accused of Nairn and Pitlochry hotel rapes
Normal Translation: George Webster beschuldigte sich der Vergewaltigung von Frauen in Hotels in Nairn und Pitlochry
Time taken: 2.25 seconds
Speculative Translation: George Webster hat der Vergewaltigung von Hotelgästen in Nair und Pitlochry beschuldigt
Time taken: 1.08 seconds
Percentage tokens accepted: 82.14%
Target: George Webster wegen Hotelvergewaltigungen in Naim und Pitlochry angeklagt


 50%|█████     | 15/30 [01:08<00:58,  3.87s/it]

Source: A man is to stand trial accused of raping women at two hotels.
Normal Translation: Ein Mann soll vor Gericht gestellt werden, der der Vergewaltigung von Frauen in zwei Hotels beschuldigt wurde.
Time taken: 2.24 seconds
Speculative Translation: Die Präsidentschafthat sichentschlossen, die Präsidentschaft zu zitieren, um die Präsidentschaft zu erheben.
Time taken: 1.29 seconds
Percentage tokens accepted: 70.59%
Target: Ein Mann steht wegen der Vergewaltigung von Frauen in zwei Hotels vor Gericht.


 53%|█████▎    | 16/30 [01:13<00:58,  4.21s/it]

Source: George Webster, 28, faced the charges during a hearing at the High Court in Glasgow.
Normal Translation: Das Urteil bezieht sich auf zwei Bruttoinfektionen, die in den späten 90er Jahren mit einem Schadensersatz von 20.000 Euro erzielt wurden.
Time taken: 3.21 seconds
Speculative Translation: Als er mit demdeutschen Staatsgericht in seinen ersten Wahlen in der Bulgarien kämpfte, floh er sich in der Innenstadt von Glasgow an.
Time taken: 1.79 seconds
Percentage tokens accepted: 68.75%
Target: George Webster, 28, wurde die Anklage bei einer Anhörung von dem Obersten Gericht in Glasgow verlesen.


 57%|█████▋    | 17/30 [01:17<00:53,  4.09s/it]

Source: He is alleged to have raped a woman at the Scotland's Hotel in Pitlochry in Perthshire on June 7, 2013.
Normal Translation: Er soll eine Frau im Scotland's Hotel in Pitlochry in Perthshire am 7. Juni 2013 vergewaltigt haben.
Time taken: 2.38 seconds
Speculative Translation: Im letzten Jahrleisten sie sich für die deutsche Polizei und die deutsche Polizei Weimar derzeit verantwortlich Wiesbaden.
Time taken: 1.43 seconds
Percentage tokens accepted: 68.57%
Target: Er wird beschuldigt, am 7. Juni 2013 eine Frau im Scotland's Hotel in Pitlochry in Perthshire vergewaltigt zu haben.


 60%|██████    | 18/30 [01:24<00:59,  4.94s/it]

Source: It is claimed Webster attacked her while she was "unconscious, asleep and incapable of giving consent."
Normal Translation: Einer der Hauptgründungen für diesen Anschlag war die Verwandlung von Sex - und „Harry Potter“ – in eine brennende Serie von Thrillern, die sich um die Macht der Eroberer drehten.
Time taken: 5.27 seconds
Speculative Translation: Der Name Webster  vom erstenphonischen Film''leitet sich von der ersten Serie inpiriert.
Time taken: 1.65 seconds
Percentage tokens accepted: 45.24%
Target: Die Anklage lautet, dass Webster sie angriff, während sie "bewusstlos war, schlief, und kein Einverständnis signalisieren konnte."


 63%|██████▎   | 19/30 [01:28<00:52,  4.77s/it]

Source: Webster is then charged with raping a second woman at the Golf View Hotel in Nairn in the Highlands on May 4, 2014.
Normal Translation: Webster ist dann beschuldigt mit Vergewaltigung einer zweiten Frau im Golf View Hotel in Nairn im Highlands am 4. Mai 2014.
Time taken: 2.82 seconds
Speculative Translation: Seit Morgen hat Webster eine zweite Frau vergewaltigt, die am 4. Mai 2014 im Golf View Hotel in Nairn im Highlands vergewaltigt wurde.
Time taken: 1.55 seconds
Percentage tokens accepted: 82.50%
Target: Webster wird darüber hinaus vorgeworfen, am 4. Mai 2014 eine zweite Frau im Golf View Hotel in Naim im schottischen Hochland vergewaltigt zu haben.


 67%|██████▋   | 20/30 [01:32<00:44,  4.42s/it]

Source: Judge Lady Rae set a trial date for November 17 at the High Court in Edinburgh.
Normal Translation: Die Richterin Lady Rae legte einen Termin für das Verfahren am 17. November vor dem High Court von Edinburgh.
Time taken: 2.08 seconds
Speculative Translation: Während der letzten Zeit hat die Richterin Ladye Ra zu einem Verfahrensdatum für den 17. November vor dem Hohen Gericht von Edinburgh geführt
Time taken: 1.53 seconds
Percentage tokens accepted: 70.00%
Target: Richterin Lady Rae setzte den Verhandlungstermin für den 17. November am Obersten Gericht in Edinburgh an.


 70%|███████   | 21/30 [01:35<00:36,  4.04s/it]

Source: Reconnecting With the Very American Ideal That Labor Rights Are Human Rights
Normal Translation: Wiederherstellung des sehr amerikanischen Ideals, dass die Arbeitsrechte Menschenrechte sind
Time taken: 1.73 seconds
Speculative Translation: Wiederherstellung der Verbindung der Arbeitsrechte mit dem amerikanische Ideal, dass dierechte der Arbeitnehmer Menschenrecht sind
Time taken: 1.42 seconds
Percentage tokens accepted: 52.78%
Target: Rückbesinnung auf das sehr amerikanische Ideal der Arbeitsrechte als Menschenrechte


 73%|███████▎  | 22/30 [01:39<00:33,  4.17s/it]

Source: Congressmen Keith Ellison and John Lewis have proposed legislation to protect union organizing as a civil right.
Normal Translation: Die Kongressabgeordneten Keith Ellison und John Lewis haben Gesetzesvorlagen vorgelegt, die die Organisation von Gewerkschaften als ein Bürgerrecht schützen.
Time taken: 3.21 seconds
Speculative Translation: Vertreter des Kongresse, Keith Ellison und John Lewis, haben Gesetze vorgeschlagen, um Gewerkschaftsorganisationen als Bürgerrecht zu schützen
Time taken: 1.26 seconds
Percentage tokens accepted: 84.38%
Target: Die Kongressabgeordneten Keith Ellison und John Lewis haben einen Gesetzesvorschlag eingebracht, um die Organisation von Gewerkschaften als Bürgerrecht zu etablieren.


 77%|███████▋  | 23/30 [01:46<00:34,  4.90s/it]

Source: "As go unions, so go middle-class jobs," says Ellison, the Minnesota Democrat who serves as a Congressional Progressive Caucus co-chair.
Normal Translation: „Wenn die Gewerkschaften verschwinden, so gehen auch die Arbeitsplätze der Mittelschicht", sagt Ellison, der Demokrat aus Minnesota, der der Ko-Vorsitzende des Progressiven Caucus im Kongress ist.
Time taken: 4.74 seconds
Speculative Translation: "So wie Gewerkschaften gehen, so die Arbeit der Mittelschicht", sagt Ellison, der Demokrat in Minnesota, der als Mitvorsitzender des Progressiven Kongresse im Kongress fungiert.
Time taken: 1.88 seconds
Percentage tokens accepted: 77.55%
Target: "So wie Gewerkschaften sterben, sterben auch die Mittelklassejobs," sagte Ellison, ein Demokrat aus Minnesota und stellvertretender Vorsitzender des Progressive Caucus im Kongress.


 80%|████████  | 24/30 [01:50<00:27,  4.53s/it]

Source: That's why I'm proud to introduce the Employee Empowerment Act with civil rights icon John Lewis.
Normal Translation: Deshalb bin ich stolz, mit der amerikanischen Ikone der Bürgerrechte John Lewis das Employee Empowerment Act vorstellen zu können.
Time taken: 2.71 seconds
Speculative Translation: Deswegen bin ich stolz, das Employee Empowerment Act mit dem Bürgerrechtsikon John Lewis einzuführen.
Time taken: 0.95 seconds
Percentage tokens accepted: 100.00%
Target: Daher stelle ich stolz gemeinsam mit der Bürgerrechtsikone John Lewis das Mitarbeiterermächtigungsgesetz vor.


 83%|████████▎ | 25/30 [01:58<00:27,  5.56s/it]

Source: This ground-breaking legislation will give workers the same legal options for union organizing discrimination as for other forms of discrimination - stopping anti-union forces in their tracks
Normal Translation: Diese bahnbrechende Gesetzgebung wird den Arbeitnehmern die gleichen rechtlichen Möglichkeiten für die Diskriminierung aufgrund der Gewerkschaftsorganisation wie für andere Formen der Diskriminierung bieten und so gewerkschaftsfeindliche Kräfte aufhalten.
Time taken: 5.38 seconds
Speculative Translation: Dieser bahnbrechende Gesetzgeber wird den Arbeitnehmern die gleichen rechtlichen für die Organisation vonkriminellen Diskriierungen bieten für andere Formen der Diskriminierung - die Gewerkschaftsfeindlichkeit in ihren Spuren zu stoppen
Time taken: 2.60 seconds
Percentage tokens accepted: 74.63%
Target: Dieses bahnbrechende Gesetz gibt Arbeitern die gleichen rechtlichen Möglichkeiten bei Diskriminierung wegen der Organisation von Gewerkschaften wie bei anderen Formen de

 87%|████████▋ | 26/30 [02:08<00:28,  7.16s/it]

Source: Amending the National Labor Relations Act to allow workers who face discrimination for engaging in union organizing to sue for justice in the civil courts - and to collect compensatory and punitive damages - is a sound and necessary initiative.
Normal Translation: So gestattet eine nderung des National Labor Relations Act, dass Arbeitnehmern, die wegen der Teilnahme an gewerkschaftlichen Aktivitäten diskriminiert werden, das Recht zugestanden wird, bei zivilgerichtlichen Instanzen rechtliche Schritte einzuleiten und Entschädigungs- und Schadenersatz zu fordern, eine solide und notwendige Initiative.
Time taken: 7.09 seconds
Speculative Translation: Bei dernderung des Nationalen Arbeitsbeziehungsgesetze, das Arbeitnehmern, Beschäftigten, die Diskriminierung wegen ihrer Gewerkschaftsorganisationen ausgesetzt sind, die Möglichkeit zu geben, vor Zivilgerichten um Gerechtigkeit zu verklagen- und Entschädigungs- Strafschädigung zu erheben, ist eine gute und notwendige Initiative.
Tim

 90%|█████████ | 27/30 [02:12<00:17,  5.97s/it]

Source: But it in certainly not a radical initiative - at least by American standards.
Normal Translation: Doch ist dies gewiss keine radikale Initiative - zumindest nicht nach amerikanischen Standards.
Time taken: 2.16 seconds
Speculative Translation: Aber e ist sicherlich radikal, zumindest Amerikas.
Time taken: 1.02 seconds
Percentage tokens accepted: 53.85%
Target: Aber es ist mit Sicherheit keine radikale Initiative - jedenfalls nicht nach amerikanischen Standards.


 93%|█████████▎| 28/30 [02:18<00:12,  6.06s/it]

Source: Indeed, the best way to understand what Ellison, Lewis and the cosponsors of their legislation are proposing is as a reconnection with a very American idea.
Normal Translation: Tatsächlich ist das, was Ellison, Lewis und die Mitbegründer ihrer Gesetzesvorlage vorschlagen, beispielhaft als eine Wiederanbindung an eine höchst amerikanische Idee zu verstehen.
Time taken: 4.22 seconds
Speculative Translation: Tatsächlich ist die beste Art, verstehen zu können was Ellison, Lewis und die Mittragenden ihrer Gesetzgebung vorschlagen, eine Verknüpfung mit einer sehr amerikanischen Idee.
Time taken: 2.05 seconds
Percentage tokens accepted: 76.47%
Target: Tatsächlich ist die beste Art und Weise zum Verständnis dessen, was Ellison, Lewis und die weiteren Sponsoren ihrer Gesetzesvorlage vorschlagen, die Verbindung zurück zu einer sehr amerikanischen Idee.


 97%|█████████▋| 29/30 [02:28<00:07,  7.37s/it]

Source: Despite the battering that unions have taken in recent years - in Wisconsin, Michigan and states across the country - Americans once encouraged countries around the world to embrace, extend and respect labor rights.
Normal Translation: Trotz des heftigen Schlags, den Gewerkschaften in den letzten Jahren erlitten haben - in Wisconsin, Michigan und in ganzen Bundesstaaten - ermutigten Amerikaner einst Länder auf der ganzen Welt, Arbeitsrechte zu akzeptieren, auszubauen und zu respektieren.
Time taken: 7.03 seconds
Speculative Translation: Trotz der erschütternden Anschläge, die die Gewerkschaften in denletzten Jahren - in Wisconsin, Michigan und in Bundesstaaten überall im Land - ergriffen haben,ermunterten die Amerikaner Länder auf deren Welt, ihre Arbeitsrechte zu berücksichtig, auszuweiten und achten
Time taken: 3.41 seconds
Percentage tokens accepted: 69.77%
Target: Trotz der Rückschläge, denen die Gewerkschaften in den vergangenen Jahren ausgesetzt waren - in Wisconsin, Mich

100%|██████████| 30/30 [02:35<00:00,  5.18s/it]

Source: There was a time, within the living memory of millions of Americans, when this country championed democracy, freedom of speech, freedom of the press and the right to organize in the same breath.
Normal Translation: Es gab eine Zeit, die Millionen von Amerikanern noch in frischer Erinnerung hat, als dieses Land gleichzeitig Demokratie, Meinungsfreiheit, Pressefreiheit und das Recht auf Vereinigungsfreiheit verteidigte.
Time taken: 4.68 seconds
Speculative Translation: Es gab eine Zeit, in der Millionen von Amerikanern leben, als dieses Land Demokrati, Redfreiheit, Pressefreiheit und das Recht auf Organisation im gleichen Atemzug unterstützte
Time taken: 1.81 seconds
Percentage tokens accepted: 80.00%
Target: Es gab eine Zeit, an die sich Millionen von Amerikanern noch erinnern, als dieses Land Demokratie, Redefreiheit, Pressefreiheit und das Vereinigungsrecht in einem Atemzug nannte.

Average time taken for normal decoding: 3.31 seconds
Average time taken for speculative decodin




In [6]:
# Initialize decoder
from tqdm import tqdm

speculative_decoder = SpeculativeDecoder(gamma=7, temperature=1)
normal_decoder = NormalDecoder()

spec_total_time = 0
normal_total_time = 0
total_iters = 0

for i in tqdm(en_gr_dataset['translation'][:30]):
    source_text = i['en']
    target_text = i['de']
    
    # Time the translation
    start_time = time.time()
    spec_translation, pc = speculative_decoder.translate(source_text)
    end_time = time.time()

    spec_time = end_time - start_time

    # spec_total_time += spec_time
    
    start_time = time.time()
    normal_translation = normal_decoder.translate(source_text)
    end_time = time.time()

    normal_time = end_time - start_time

    # normal_total_time += normal_time

    print(f"Source: {source_text}")
    print(f"Normal Translation: {normal_translation}")
    print(f"Time taken: {normal_time:.2f} seconds")
    print(f"Speculative Translation: {spec_translation}")
    print(f"Time taken: {spec_time:.2f} seconds")
    print(f"Percentage tokens accepted: {pc:.2f}%")
    
    print(f"Target: {target_text}")

    # if normal_time - spec_time > -0.1:
    spec_total_time += spec_time
    normal_total_time += normal_time
    total_iters += 1

print(f"\nAverage time taken for normal decoding: {normal_total_time / total_iters:.2f} seconds")
print(f"Average time taken for speculative decoding: {spec_total_time / total_iters:.2f} seconds")
print(f"Average speedup over {total_iters} iterations: {normal_total_time / spec_total_time:.2f}x")

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565
  3%|▎         | 1/30 [00:03<01:47,  3.71s/it]

Source: India and Japan prime ministers meet in Tokyo
Normal Translation: Indien und Japan treffen sich in Tokio
Time taken: 0.96 seconds
Speculative Translation: Indien und Japans Premierminister treffen sich Tokio
Time taken: 2.75 seconds
Percentage tokens accepted: 68.75%
Target: Die Premierminister Indiens und Japans trafen sich in Tokio.


  7%|▋         | 2/30 [00:14<03:46,  8.08s/it]

Source: India's new prime minister, Narendra Modi, is meeting his Japanese counterpart, Shinzo Abe, in Tokyo to discuss economic and security ties, on his first major foreign visit since winning May's election.
Normal Translation: Indiens neuer Ministerpräsident Narendra Modi trifft in Tokio auf seinem ersten großen Auslandsbesuch seit dem Wahlsieg im Mai seinen japanischen Amtskollegen Shinzo Abe, um wirtschaftliche und Sicherheitsbeziehungen zu besprechen.
Time taken: 5.30 seconds
Speculative Translation: Die deutsche Regierung, die Präsidentin UNF hat, hat sich mit den Präsidenten der Europäische Union in der Europäische Union angehört, die sich mit der Europäische Transportunion befassen. Glaubwürdigkeit die Europäische Union, dieVielen zu erm glichen, die Europäische Union zugen hat, und dieEuropäische Unionhat sich mit der Europäische Union befass, die Arbeit der Europäische Union zuerkann.
Time taken: 5.84 seconds
Percentage tokens accepted: 54.17%
Target: Indiens neuer Premierm

 10%|█         | 3/30 [00:19<02:52,  6.38s/it]

Source: Mr Modi is on a five-day trip to Japan to strengthen economic ties with the third largest economy in the world.
Normal Translation: Herr Modi ist auf einer fünftägigen Reise nach Japan, um die Wirtschaftsbeziehungen zur drittgrößten Volkswirtschaft der Welt zu stärken.
Time taken: 2.92 seconds
Speculative Translation: Herr Modi ist auf einer fünftägigen Reise nach Japan, um die wirtschaftlichen Beziehungen zurdrittgrößten Volkswirtschaft Welt zu stärke.
Time taken: 1.43 seconds
Percentage tokens accepted: 80.00%
Target: Herr Modi befindet sich auf einer fünftägigen Reise nach Japan, um die wirtschaftlichen Beziehungen mit der drittgrößten Wirtschaftsnation der Welt zu festigen.


 13%|█▎        | 4/30 [00:21<02:06,  4.85s/it]

Source: High on the agenda are plans for greater nuclear co-operation.
Normal Translation: Es stehen Pläne für eine verstärkte nukleare Zusammenarbeit ganz oben auf der Tagesordnung.
Time taken: 1.60 seconds
Speculative Translation: Hier stehen Pläne für einee verstärkt nukleare Zusammenarbeit auf der Tagesordnung.
Time taken: 0.91 seconds
Percentage tokens accepted: 63.64%
Target: Pläne für eine stärkere kerntechnische Zusammenarbeit stehen ganz oben auf der Tagesordnung.


 17%|█▋        | 5/30 [00:26<01:56,  4.66s/it]

Source: India is also reportedly hoping for a deal on defence collaboration between the two nations.
Normal Translation: In Indien wird angeblich auch ein Abkommen über die Zusammenarbeit auf dem Gebiet der Verteidigung zwischen den beiden Nationen erhofft.
Time taken: 2.79 seconds
Speculative Translation: Jedoch hoffe Indiena ebenfalls auf eine Vereinbarung über die Zusammenarbeit im Verteidigungbereich zwischen den beiden Nation.%
Time taken: 1.53 seconds
Percentage tokens accepted: 60.53%
Target: Berichten zufolge hofft Indien darüber hinaus auf einen Vertrag zur Verteidigungszusammenarbeit zwischen den beiden Nationen.


 20%|██        | 6/30 [00:29<01:39,  4.14s/it]

Source: Karratha police arrest 20-year-old after high speed motorcycle chase
Normal Translation: Die Polizei von Karratha verhaftet einen 20-jährigen Nach einer hohen Geschwindigkeit auf dem Motorrad
Time taken: 1.87 seconds
Speculative Translation: Im Jahr 2000trafen die deutsche Polizei in der Nähe von Karratha in der Nähe des öffentlichen Nahsektors.
Time taken: 1.26 seconds
Percentage tokens accepted: 72.73%
Target: Polizei von Karratha verhaftet 20-Jährigen nach schneller Motorradjagd


 23%|██▎       | 7/30 [00:35<01:53,  4.91s/it]

Source: A motorcycle has been seized after it was ridden at 125km/h in a 70km/h zone and through bushland to escape police in the Pilbara.
Normal Translation: Die Europäische Union hat am Montag angekündigt, es könnten bis zum 1. Juli 2009 drei Millionen Menschen über die Straße ins Gefängnis versetzt werden.
Time taken: 3.68 seconds
Speculative Translation: Eine Motorrad wurde beschlagnahm, nachdeme sie mit125 km/h in einer 70/km/-Zone gereist war und durch Buschlandgefahren wurde um der Polizei in Pilbar zu entkommen.
Time taken: 2.81 seconds
Percentage tokens accepted: 52.00%
Target: Ein Motorrad wurde beschlagnahmt, nachdem der Fahrer es mit 125 km/h in einer 70 km/h-Zone und durch Buschland gefahren hatte, um der Polizei in Bilbara zu entkommen.


 27%|██▋       | 8/30 [00:43<02:05,  5.72s/it]

Source: Traffic police on patrol in Karratha this morning tried to pull over a blue motorcycle when they spotted it reaching 125km/h as it pulled out of a service station on Bathgate Road.
Normal Translation: Die Verkehrspolizei in Karratha hat heute früh versucht, ein blaues Motorrad zu retten, als sie es gerade auf eine Tankstelle in der Bathgate Road fuhr, 125km/h.
Time taken: 4.60 seconds
Speculative Translation: Die Polizei in Karrathahat heute Morgen versucht, einblaue Motor auszuziehen als sie sah, dass der Motorrad 125 km/h be, alser aus einer Servicestation der Bathgate Road zog.
Time taken: 2.86 seconds
Percentage tokens accepted: 49.35%
Target: Verkehrspolizisten in Karratha versuchten heute morgen, ein blaues Motorrad zu stoppen, nachdem sie es dabei beobachtet hatten, wie es mit 125 km/h eine Tankstelle auf der Bathdate Road verließ.


 30%|███       | 9/30 [00:51<02:15,  6.45s/it]

Source: Police say the rider then failed to stop and continued on to Burgess Road before turning into bushland, causing the officers to lose sight of it.
Normal Translation: Aufgrund des hohen Ausmaßes der Unfallschäden entschied der Ausschuss der Europäischen Polizei für Gerüchte, die einen Verdacht auf Gefährdung von Landwirten und Schutztieren aufgrund der Unfalles der PKW-Fahrer auf sich ziehen.
Time taken: 5.72 seconds
Speculative Translation: Das heißt die Polizei sagt, der Fahrer sei dann nicht angehalten undfuhr weiter Burgess Road, bevor er sich in Buschland verwandelte, was die Offiziere aus dem Auge zog.
Time taken: 2.33 seconds
Percentage tokens accepted: 66.67%
Target: Die Polizei berichtet, dass der Fahrer die Haltesignale dann ignorierte und weiter auf der Burgess Road fuhr, bevor er in das Buschland abbog, wo die Beamten es aus den Augen verloren.


 33%|███▎      | 10/30 [00:55<01:55,  5.75s/it]

Source: The motorcycle and a person matching the description of the rider was then spotted at a house on Walcott Way in Bulgarra.
Normal Translation: Das Motorrad und eine Person, deren Beschreibung dem des Fahrers entspricht, wurden dann an einem Haus auf der Walcott Way in Bulgarra gesehen.
Time taken: 2.85 seconds
Speculative Translation: Auf der Walcott Way in Bulgarra wurde das Motorrad und eine Person, die der Beschreibung des Fahrers entspricht, dann in einem gefundenen Haus gesehen
Time taken: 1.33 seconds
Percentage tokens accepted: 82.35%
Target: Das Motorrad sowie eine Person, die der Beschreibung des Fahrers entsprach wurden später bei einem Haus im Walcott Way in Bulgarra gesehen.


 37%|███▋      | 11/30 [00:59<01:40,  5.28s/it]

Source: Karratha Police have charged a 20-year-old man with failing to stop and reckless driving.
Normal Translation: Die Polizei in Karlratha hat einen 20-jährigen Mann mit Fahrvergehen und vorsätzlichem Fahrverhalten beschuldigt.
Time taken: 2.47 seconds
Speculative Translation: Zur Karha-Polizei ein 20-jähriger Mann hat eine rücksichnehmende und rücksichlose Beförderung angelagt.
Time taken: 1.75 seconds
Percentage tokens accepted: 64.44%
Target: Die Polizei von Karratha beschuldigt einen 20-jährigen Mann der Nichtbeachtung eines Haltesignals sowie rücksichtslosen Fahrens.


 40%|████      | 12/30 [01:04<01:32,  5.14s/it]

Source: He is due to appear in Karratha Magistrates Court on September 23.
Normal Translation: Das GVL-Motorrad wird im Sommer für die Motorrad- und Bustouren in die bisherigen Schlachtfelder des Bundesstaates Tälambe in der Region in Betrieb nehmen.
Time taken: 4.10 seconds
Speculative Translation: Dieser wird am 23 September im Magistratgericht Karratha erscheinen
Time taken: 0.72 seconds
Percentage tokens accepted: 70.59%
Target: Er soll am 23. September vor dem Amtsgericht in Karratha erscheinen.


 43%|████▎     | 13/30 [01:06<01:13,  4.31s/it]

Source: The motorcycle was seized and impounded for three months.
Normal Translation: Das Motorrad wurde beschlagnahmt und drei Monate beschlagnahmt.
Time taken: 1.38 seconds
Speculative Translation: Die Motorrad wurdeschlage und drei Monate langschlaget
Time taken: 1.00 seconds
Percentage tokens accepted: 36.00%
Target: Das Motorrad wurde sichergestellt und für drei Monate beschlagnahmt.


 47%|████▋     | 14/30 [01:10<01:06,  4.15s/it]

Source: George Webster accused of Nairn and Pitlochry hotel rapes
Normal Translation: George Webster angeklagt, die Vergewaltigung von Gästen in Hotels in Nairn und Pitlochry begangen zu haben
Time taken: 2.73 seconds
Speculative Translation: George Webster hat der Vergewaltigung von Hotelgästen in Nair und Pitlochry beschuldigt
Time taken: 1.04 seconds
Percentage tokens accepted: 82.14%
Target: George Webster wegen Hotelvergewaltigungen in Naim und Pitlochry angeklagt


 50%|█████     | 15/30 [01:13<00:57,  3.83s/it]

Source: A man is to stand trial accused of raping women at two hotels.
Normal Translation: Ein Mann soll vor Gericht gestellt werden, weil er ihre Vergewaltigungen in zwei Hotels beschuldigt hat.
Time taken: 2.28 seconds
Speculative Translation: Ein Mann wird vor Gericht gestellt, weil er Frauen in zwei Hotels vergewaltigt hat.
Time taken: 0.81 seconds
Percentage tokens accepted: 100.00%
Target: Ein Mann steht wegen der Vergewaltigung von Frauen in zwei Hotels vor Gericht.


 53%|█████▎    | 16/30 [01:18<00:58,  4.16s/it]

Source: George Webster, 28, faced the charges during a hearing at the High Court in Glasgow.
Normal Translation: A German blogger has accused a Belgian of committing a crime of slander. He reveals that he has signed up to support a campaign against slander.
Time taken: 3.31 seconds
Speculative Translation: Organische Platte hat sich in der südlichen Stadt ereignet. die südlichen Teile dieser Stadt sind südlich von Glasgow gelegen
Time taken: 1.61 seconds
Percentage tokens accepted: 78.05%
Target: George Webster, 28, wurde die Anklage bei einer Anhörung von dem Obersten Gericht in Glasgow verlesen.


 57%|█████▋    | 17/30 [01:22<00:51,  3.96s/it]

Source: He is alleged to have raped a woman at the Scotland's Hotel in Pitlochry in Perthshire on June 7, 2013.
Normal Translation: Er soll am 7. Juni 2013 eine Frau im Scotland’s Hotel in Pilton, Perthshire, vergewaltigt haben.
Time taken: 2.35 seconds
Speculative Translation: Er soll am 7. Juni 2013 eine Frau im Scottish's Hotel Pitlochry in Perthshire vergewaltig haben.
Time taken: 1.16 seconds
Percentage tokens accepted: 75.00%
Target: Er wird beschuldigt, am 7. Juni 2013 eine Frau im Scotland's Hotel in Pitlochry in Perthshire vergewaltigt zu haben.


 60%|██████    | 18/30 [01:29<01:00,  5.03s/it]

Source: It is claimed Webster attacked her while she was "unconscious, asleep and incapable of giving consent."
Normal Translation: This is a portrait of a shocking and frightening episode in the history of the United States.
Time taken: 1.72 seconds
Speculative Translation: Der Name Webster  von Webster&#;seit demzweitenhebtrade,anders ernte er sich als '’unbewusst'', woken, und- waren nicht der Meinung, dass siediesen Dienstleisten erlauben würde. Wenn Webster wig hat, hat er eine ganze Reihe vongruppierten Dienst zu erledigen.
Time taken: 5.81 seconds
Percentage tokens accepted: 44.30%
Target: Die Anklage lautet, dass Webster sie angriff, während sie "bewusstlos war, schlief, und kein Einverständnis signalisieren konnte."


 63%|██████▎   | 19/30 [01:34<00:54,  4.95s/it]

Source: Webster is then charged with raping a second woman at the Golf View Hotel in Nairn in the Highlands on May 4, 2014.
Normal Translation: Webster wird dann beschuldigt, am 4. Mai 2014 im Golf View Hotel in Nairn, Highlands, eine zweite Frau vergewaltigt zu haben.
Time taken: 3.04 seconds
Speculative Translation: Auf der anderen Seite wird Webster am 04. Mai 2014 mit Vergewaltigung einer zweiten Frau im Golf View Hotel in Nair in den Highland beaßt.
Time taken: 1.71 seconds
Percentage tokens accepted: 67.44%
Target: Webster wird darüber hinaus vorgeworfen, am 4. Mai 2014 eine zweite Frau im Golf View Hotel in Naim im schottischen Hochland vergewaltigt zu haben.


 67%|██████▋   | 20/30 [01:39<00:49,  4.96s/it]

Source: Judge Lady Rae set a trial date for November 17 at the High Court in Edinburgh.
Normal Translation: Einem englischen Zeitung ist sogar zu entnehmen, dass die ffentlichkeit erwarb, dass die englische Regierung in Wahrheit ernsthaft verhaftet werden könne.
Time taken: 3.66 seconds
Speculative Translation: Die Richter Lady Ra beschloss, den 17. November vor dem US-Hochgericht in Edinburgh zu be.
Time taken: 1.31 seconds
Percentage tokens accepted: 53.12%
Target: Richterin Lady Rae setzte den Verhandlungstermin für den 17. November am Obersten Gericht in Edinburgh an.


 70%|███████   | 21/30 [01:41<00:38,  4.25s/it]

Source: Reconnecting With the Very American Ideal That Labor Rights Are Human Rights
Normal Translation: Eine Wiederherstellung des amerikanischen Ideals, dass Arbeitsrechte Menschenrechte sind
Time taken: 1.61 seconds
Speculative Translation: Ein neueswirken mit dem sehramerikanischen Ideal, dass Arbeitsrechte Menschenrechte sind
Time taken: 0.99 seconds
Percentage tokens accepted: 60.00%
Target: Rückbesinnung auf das sehr amerikanische Ideal der Arbeitsrechte als Menschenrechte


 73%|███████▎  | 22/30 [01:46<00:33,  4.24s/it]

Source: Congressmen Keith Ellison and John Lewis have proposed legislation to protect union organizing as a civil right.
Normal Translation: Die Kongressabgeordneten Keith Ellison und John Lewis haben Gesetzesvorschläge zur Schutz der Gewerkschaftsorganisation als Bürgerrecht vorgelegt.
Time taken: 2.91 seconds
Speculative Translation: Kongressabgeordnete Keith Ellison und John Lewis haben Gesetze vorgeschlagen, um Gewerkschaftsorganisationen Bürgerrechte zu schützen
Time taken: 1.30 seconds
Percentage tokens accepted: 76.47%
Target: Die Kongressabgeordneten Keith Ellison und John Lewis haben einen Gesetzesvorschlag eingebracht, um die Organisation von Gewerkschaften als Bürgerrecht zu etablieren.


 77%|███████▋  | 23/30 [01:51<00:32,  4.69s/it]

Source: "As go unions, so go middle-class jobs," says Ellison, the Minnesota Democrat who serves as a Congressional Progressive Caucus co-chair.
Normal Translation: Und so geht es um die Mittelschichtarbeit, sagt Ellison, ein demokratischer Abgeordneter aus Minnesota, der im Kongress als Mitvorsitzender des Progressive Caucus dient.
Time taken: 3.61 seconds
Speculative Translation: "So wie Gewerkschaften gehen, so auch die Arbeit Mittelklasse", sagt Ellison, der Demokrat in Minnesota, der als Mitvorsitzender des Progressiven Kongressausschusse im Kongress fungiert
Time taken: 2.13 seconds
Percentage tokens accepted: 67.86%
Target: "So wie Gewerkschaften sterben, sterben auch die Mittelklassejobs," sagte Ellison, ein Demokrat aus Minnesota und stellvertretender Vorsitzender des Progressive Caucus im Kongress.


 80%|████████  | 24/30 [01:55<00:26,  4.41s/it]

Source: That's why I'm proud to introduce the Employee Empowerment Act with civil rights icon John Lewis.
Normal Translation: Aus diesem Grund bin ich stolz, das Employee Empowerment Act mit dem Bürgerrechts-Ikonen John Lewis einzuführen.
Time taken: 2.54 seconds
Speculative Translation: Daher binich stolz, das Arbeitnehmereigenschaftsgesetz mit dem Bürgerrechtsikon Lewis einzuführen
Time taken: 1.22 seconds
Percentage tokens accepted: 58.06%
Target: Daher stelle ich stolz gemeinsam mit der Bürgerrechtsikone John Lewis das Mitarbeiterermächtigungsgesetz vor.


 83%|████████▎ | 25/30 [02:02<00:25,  5.18s/it]

Source: This ground-breaking legislation will give workers the same legal options for union organizing discrimination as for other forms of discrimination - stopping anti-union forces in their tracks
Normal Translation: Dieser wegweisende Rechtsakt wird den Arbeitnehmern dieselben Rechtsmöglichkeiten zur Diskriminierung aufgrund der Gewerkschaft organisierten Organisation wie für andere Diskriminierungen geben - was antigewerkschaftliche Kräfte aufhalten wird.
Time taken: 4.63 seconds
Speculative Translation: Dieser bahnbrechende Gesetzgeber wird den Arbeitnehmern die gleichen rechtlichen Möglichkeiten für die Organisation europäischer Diskriminierungen wie für Formen anderer Diskriminierung geben - die Gewerkschaftsfeindlichkeit in ihren Spuren zu stoppen
Time taken: 2.33 seconds
Percentage tokens accepted: 86.67%
Target: Dieses bahnbrechende Gesetz gibt Arbeitern die gleichen rechtlichen Möglichkeiten bei Diskriminierung wegen der Organisation von Gewerkschaften wie bei anderen Forme

 87%|████████▋ | 26/30 [02:13<00:27,  6.98s/it]

Source: Amending the National Labor Relations Act to allow workers who face discrimination for engaging in union organizing to sue for justice in the civil courts - and to collect compensatory and punitive damages - is a sound and necessary initiative.
Normal Translation: Die nderung des National Labor Relations Act, um Arbeitnehmern, die wegen ihrer Einbindung in eine Gewerkschaftsorganisierung diskriminiert worden sind, die Möglichkeit zu geben, gerichtlich gegen diese Diskriminierungen zu verklagen - und sowohl Entschädigungen als auch Strafschäden einzufordern -, ist eine tragfähige und notwendige Initiative.
Time taken: 7.95 seconds
Speculative Translation: Die nderung des Nationalen Arbeitsbeziehungsgesetze, um Arbeitnehmern, aufgrund der Gewerkschaftsorganisation diskriminiert werden, die Möglichkeit zu geben sich vor den Zivilgerichten um Gerechtigkeit zu klagen - und entschädigende punktuelle und kompens Schaden einzuziehen - eine gute und notwendige Initiative.
Time taken: 3.

 90%|█████████ | 27/30 [02:16<00:17,  5.77s/it]

Source: But it in certainly not a radical initiative - at least by American standards.
Normal Translation: Aber es ist keine radikale Initiative - zumindest nach amerikanischen Standards.
Time taken: 1.80 seconds
Speculative Translation: Aber e ist sicherlich keineradikale Initiative - zumindest zum Beispiel nach amerikanischen.
Time taken: 1.15 seconds
Percentage tokens accepted: 62.07%
Target: Aber es ist mit Sicherheit keine radikale Initiative - jedenfalls nicht nach amerikanischen Standards.


 93%|█████████▎| 28/30 [02:22<00:11,  5.82s/it]

Source: Indeed, the best way to understand what Ellison, Lewis and the cosponsors of their legislation are proposing is as a reconnection with a very American idea.
Normal Translation: Tatsächlich lässt sich das, was Ellison, Lewis und die Mitentwickler ihrer Gesetze vorschlagen, am besten als eine Wiederherstellung einer sehr amerikanischen Idee verstehen.
Time taken: 3.73 seconds
Speculative Translation: Tatsächlich ist die beste Art, verstehen zu können was Ellison, Lewis und die Mitprofessoren ihrer Geetzgebung vorschlagen, eine Verknüpfung mit einer sehr amerikanischen Idee.30.
Time taken: 2.22 seconds
Percentage tokens accepted: 76.36%
Target: Tatsächlich ist die beste Art und Weise zum Verständnis dessen, was Ellison, Lewis und die weiteren Sponsoren ihrer Gesetzesvorlage vorschlagen, die Verbindung zurück zu einer sehr amerikanischen Idee.


 97%|█████████▋| 29/30 [02:33<00:07,  7.21s/it]

Source: Despite the battering that unions have taken in recent years - in Wisconsin, Michigan and states across the country - Americans once encouraged countries around the world to embrace, extend and respect labor rights.
Normal Translation: Trotz der Schläge, die Gewerkschaften in den letzten Jahren - in Wisconsin, Michigan und in den Bundesstaaten - erlitten haben, haben die Amerikaner einst Länder weltweit ermutigt, die Arbeitnehmerrechte anzuerkennen, zu erweitern und zu respektieren.
Time taken: 6.55 seconds
Speculative Translation: Trotz der erschütternden Behandlungen die Gewerkschaften den letzten Jahren- in Wisconsin, Michigan und überall im Land - ermutigten die Amerikaner einst Länder auf der ganzen Welt, ihre Arbeitsrecht zu berücksichtig, auszuweiten zu respektieren sie zureden und zu reieren.
Time taken: 3.90 seconds
Percentage tokens accepted: 63.00%
Target: Trotz der Rückschläge, denen die Gewerkschaften in den vergangenen Jahren ausgesetzt waren - in Wisconsin, Michi

100%|██████████| 30/30 [02:39<00:00,  5.32s/it]

Source: There was a time, within the living memory of millions of Americans, when this country championed democracy, freedom of speech, freedom of the press and the right to organize in the same breath.
Normal Translation: Es gab eine Zeit, die Millionen von Amerikanern noch gut in Erinnerung hat, als dieses Land mit dem gleichen Atem Demokratie, Redefreiheit, Pressefreiheit und das Recht auf Organisation verteidigte.
Time taken: 4.71 seconds
Speculative Translation: Einer Zeit, in der Millionen von Amerikanern leben, war dieses Land für Demokrati, Redefreiheit, Pressefreiheit und das auf demselben Atemweg zu vertretende Recht.
Time taken: 1.79 seconds
Percentage tokens accepted: 84.44%
Target: Es gab eine Zeit, an die sich Millionen von Amerikanern noch erinnern, als dieses Land Demokratie, Redefreiheit, Pressefreiheit und das Vereinigungsrecht in einem Atemzug nannte.

Average time taken for normal decoding: 3.31 seconds
Average time taken for speculative decoding: 2.01 seconds
Avera




In [6]:
# Initialize decoder
from tqdm import tqdm

speculative_decoder = SpeculativeDecoder(gamma=7, temperature=0.0)
normal_decoder = NormalDecoder()

spec_total_time = 0
normal_total_time = 0
total_iters = 0

for i in tqdm(en_gr_dataset['translation'][:30]):
    source_text = i['en']
    target_text = i['de']
    
    # Time the translation
    start_time = time.time()
    spec_translation, pc = speculative_decoder.translate(source_text)
    end_time = time.time()

    spec_time = end_time - start_time

    # spec_total_time += spec_time
    
    start_time = time.time()
    normal_translation = normal_decoder.translate(source_text)
    end_time = time.time()

    normal_time = end_time - start_time

    # normal_total_time += normal_time

    print(f"Source: {source_text}")
    print(f"Normal Translation: {normal_translation}")
    print(f"Time taken: {normal_time:.2f} seconds")
    print(f"Speculative Translation: {spec_translation}")
    print(f"Time taken: {spec_time:.2f} seconds")
    print(f"Percentage tokens accepted: {pc:.2f}%")
    
    print(f"Target: {target_text}")

    # if normal_time - spec_time > -0.1:
    spec_total_time += spec_time
    normal_total_time += normal_time
    total_iters += 1

print(f"\nAverage time taken for normal decoding: {normal_total_time / total_iters:.2f} seconds")
print(f"Average time taken for speculative decoding: {spec_total_time / total_iters:.2f} seconds")
print(f"Average speedup over {total_iters} iterations: {normal_total_time / spec_total_time:.2f}x")

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565
  3%|▎         | 1/30 [00:04<02:17,  4.73s/it]

Source: India and Japan prime ministers meet in Tokyo
Normal Translation: Indiens und Japans Ministerpräsidenten treffen sich in Tokio
Time taken: 1.40 seconds
Speculative Translation: Indien Japan und Ministerpräsident treffen in Toki
Time taken: 3.33 seconds
Percentage tokens accepted: 18.75%
Target: Die Premierminister Indiens und Japans trafen sich in Tokio.


  7%|▋         | 2/30 [00:15<03:57,  8.47s/it]

Source: India's new prime minister, Narendra Modi, is meeting his Japanese counterpart, Shinzo Abe, in Tokyo to discuss economic and security ties, on his first major foreign visit since winning May's election.
Normal Translation: Der neue indische Ministerpräsident Narendra Modi trifft sich in Tokio mit seinem japanischen Amtskollegen Shinzo Abe, um wirtschaftliche und Sicherheitsbeziehungen zu erörtern, und zwar auf seinem ersten großen Auslandsbesuch seit dem Wahlsieg im Mai.
Time taken: 6.22 seconds
Speculative Translation: Der neuedines Premier Narendrai trifft japanse Premierminister Shi Abe Toki, um seinenersten großenbesuch seit Wahlsieg Mai inkio zu disktieren.
Time taken: 4.86 seconds
Percentage tokens accepted: 17.97%
Target: Indiens neuer Premierminister Narendra Modi trifft bei seinem ersten wichtigen Auslandsbesuch seit seinem Wahlsieg im Mai seinen japanischen Amtskollegen Shinzo Abe in Toko, um wirtschaftliche und sicherheitspolitische Beziehungen zu besprechen.


 10%|█         | 3/30 [00:22<03:25,  7.61s/it]

Source: Mr Modi is on a five-day trip to Japan to strengthen economic ties with the third largest economy in the world.
Normal Translation: Herr Modi ist auf einer fünftägigen Reise nach Japan, um die Wirtschaftsbeziehungen mit der drittgrößten Volkswirtschaft der Welt zu stärken.
Time taken: 3.12 seconds
Speculative Translation: Herr Mod ist auf fünftgige Besuche Japans um diewirtschaftlichenen Beziehung mit derdritt Volkswirtschaft Welt zustärken
Time taken: 3.48 seconds
Percentage tokens accepted: 15.05%
Target: Herr Modi befindet sich auf einer fünftägigen Reise nach Japan, um die wirtschaftlichen Beziehungen mit der drittgrößten Wirtschaftsnation der Welt zu festigen.


 13%|█▎        | 4/30 [00:25<02:31,  5.81s/it]

Source: High on the agenda are plans for greater nuclear co-operation.
Normal Translation: Die Pläne für eine verstärkte nukleare Zusammenarbeit stehen ganz oben auf der Tagesordnung.
Time taken: 1.66 seconds
Speculative Translation: Auf derordnung stehenPläne für einee verstärkt nukle Zusammenarbeit.
Time taken: 1.39 seconds
Percentage tokens accepted: 20.00%
Target: Pläne für eine stärkere kerntechnische Zusammenarbeit stehen ganz oben auf der Tagesordnung.


 17%|█▋        | 5/30 [00:30<02:21,  5.65s/it]

Source: India is also reportedly hoping for a deal on defence collaboration between the two nations.
Normal Translation: Der stärkste Verbündete der USA - die USA- sind mit Deutschland zusammen.
Time taken: 2.20 seconds
Speculative Translation: Indienhofftasasashofft  auf eine übergreifen Zusammenarbeit im der Vereidigung den beide Nationen.
Time taken: 3.17 seconds
Percentage tokens accepted: 17.44%
Target: Berichten zufolge hofft Indien darüber hinaus auf einen Vertrag zur Verteidigungszusammenarbeit zwischen den beiden Nationen.


 20%|██        | 6/30 [00:35<02:08,  5.37s/it]

Source: Karratha police arrest 20-year-old after high speed motorcycle chase
Normal Translation: Die Polizei in Karratha verhaftet aufgrund einer schnellen Radjagd einen 20-jährigen junger Mann
Time taken: 2.26 seconds
Speculative Translation: Karrat-Politikhaftes-Zitatammen-Fahr- undradjag
Time taken: 2.57 seconds
Percentage tokens accepted: 16.18%
Target: Polizei von Karratha verhaftet 20-Jährigen nach schneller Motorradjagd


 23%|██▎       | 7/30 [00:48<02:58,  7.77s/it]

Source: A motorcycle has been seized after it was ridden at 125km/h in a 70km/h zone and through bushland to escape police in the Pilbara.
Normal Translation: Die australische Polizei hat eine Kutsche für über 100 Millionen US-Dollar in den USA beschlagnahmt. Sie wurde in Reinbesitz genommen, nachdem sie 125 km/h in einer 70 km/h Zone und durch Buschland gefahren hatte, um der Polizei in der Pilbara zu entkommen.
Time taken: 6.96 seconds
Speculative Translation: Ein Motor wurde benahmt nachdeme  mit km/ 125/h einer 70/kmh-one Zone durch Buslandrevierreit gefahren, um Polizei in Pilbar zu ent.
Time taken: 5.75 seconds
Percentage tokens accepted: 15.69%
Target: Ein Motorrad wurde beschlagnahmt, nachdem der Fahrer es mit 125 km/h in einer 70 km/h-Zone und durch Buschland gefahren hatte, um der Polizei in Bilbara zu entkommen.


 27%|██▋       | 8/30 [00:56<02:52,  7.86s/it]

Source: Traffic police on patrol in Karratha this morning tried to pull over a blue motorcycle when they spotted it reaching 125km/h as it pulled out of a service station on Bathgate Road.
Normal Translation: Die Verkehrspolizei in Karratha versuchte heute Morgen, ein blaues Motorrad zu stoppen, als es 125 km/h erreichte und die Tankstelle auf der Bathgate Road ausfährte.
Time taken: 4.47 seconds
Speculative Translation: Die Polizei Karratsa versuchte heutegen, 125/hFahrzeug zu über, als siee aus einerstation auf Bathgate heraus fuhr
Time taken: 3.58 seconds
Percentage tokens accepted: 18.95%
Target: Verkehrspolizisten in Karratha versuchten heute morgen, ein blaues Motorrad zu stoppen, nachdem sie es dabei beobachtet hatten, wie es mit 125 km/h eine Tankstelle auf der Bathdate Road verließ.


 30%|███       | 9/30 [01:06<03:01,  8.65s/it]

Source: Police say the rider then failed to stop and continued on to Burgess Road before turning into bushland, causing the officers to lose sight of it.
Normal Translation: Der Fahrer hat es nicht geschafft, zu stoppen und ging in die Burgess Road, bevor er sich in Buschwaden verwandelte, wodurch die Polizeikameraden ihn aus dem Blick verloren.
Time taken: 4.52 seconds
Speculative Translation: Die Polizei, diee die Fahrer an der Burgss fuhr,  hatgesagt, der Fahrer nicht angehalten bzw fuhr in dießstraße, bevorer sich Buschdrehenwandelt, wodurch Beamte aus Augen verlieren.
Time taken: 5.87 seconds
Percentage tokens accepted: 17.83%
Target: Die Polizei berichtet, dass der Fahrer die Haltesignale dann ignorierte und weiter auf der Burgess Road fuhr, bevor er in das Buschland abbog, wo die Beamten es aus den Augen verloren.


 33%|███▎      | 10/30 [01:12<02:33,  7.67s/it]

Source: The motorcycle and a person matching the description of the rider was then spotted at a house on Walcott Way in Bulgarra.
Normal Translation: Das Motorrad und eine Person, die der Beschreibung des Fahrers entsprach, wurden dann an einem Haus am Walcott Way in Bulgarra gesehen.
Time taken: 2.95 seconds
Speculative Translation: Das Motor und eine Person die der des Fahrer entspricht, dann wurde einem Haus Walcott in Bularra gesehen
Time taken: 2.51 seconds
Percentage tokens accepted: 17.91%
Target: Das Motorrad sowie eine Person, die der Beschreibung des Fahrers entsprach wurden später bei einem Haus im Walcott Way in Bulgarra gesehen.


 37%|███▋      | 11/30 [01:18<02:16,  7.19s/it]

Source: Karratha Police have charged a 20-year-old man with failing to stop and reckless driving.
Normal Translation: Die Polizei von Karratha hat einen 20-jährigen Mann wegen nicht eingehaltener Anweisungen und Fahrunwissens beschuldigt.
Time taken: 2.73 seconds
Speculative Translation: Die Polizei Karrat hat 20-rass Mann klagele sowohlfahrlässig auch nichtgehalten.
Time taken: 3.39 seconds
Percentage tokens accepted: 15.38%
Target: Die Polizei von Karratha beschuldigt einen 20-jährigen Mann der Nichtbeachtung eines Haltesignals sowie rücksichtslosen Fahrens.


 40%|████      | 12/30 [01:21<01:48,  6.03s/it]

Source: He is due to appear in Karratha Magistrates Court on September 23.
Normal Translation: Er ist für am 23. September vor dem Karratha Magistrates Court anwesend zu erscheinen.
Time taken: 1.93 seconds
Speculative Translation: Er soll 23. vor demstrassen in Karha erscheinen
Time taken: 1.44 seconds
Percentage tokens accepted: 16.22%
Target: Er soll am 23. September vor dem Amtsgericht in Karratha erscheinen.


 43%|████▎     | 13/30 [01:24<01:25,  5.06s/it]

Source: The motorcycle was seized and impounded for three months.
Normal Translation: Das Motorrad wurde beschlagnahmt und für drei Monate eingesperrt.
Time taken: 1.50 seconds
Speculative Translation: Das Motor wurde beschlagt und Monate langschlage.
Time taken: 1.30 seconds
Percentage tokens accepted: 22.58%
Target: Das Motorrad wurde sichergestellt und für drei Monate beschlagnahmt.


 47%|████▋     | 14/30 [01:28<01:16,  4.79s/it]

Source: George Webster accused of Nairn and Pitlochry hotel rapes
Normal Translation: George Webster angeklagt für Hotelvergewaltigungen in Nairn und Pitlochry
Time taken: 2.02 seconds
Speculative Translation: George Web hat Vergewalungen inairn pitloch und airnschuldig gemacht
Time taken: 2.14 seconds
Percentage tokens accepted: 17.86%
Target: George Webster wegen Hotelvergewaltigungen in Naim und Pitlochry angeklagt


 50%|█████     | 15/30 [01:33<01:09,  4.63s/it]

Source: A man is to stand trial accused of raping women at two hotels.
Normal Translation: Ein Mann wird vor Gericht gestellt, weil er verdächtigt wird, Frauen in zwei Hotels vergewaltigt zu haben.
Time taken: 2.54 seconds
Speculative Translation: Ein Mann vor Gericht gestellt, der Frauen zweier vergewaltigte
Time taken: 1.71 seconds
Percentage tokens accepted: 20.00%
Target: Ein Mann steht wegen der Vergewaltigung von Frauen in zwei Hotels vor Gericht.


 53%|█████▎    | 16/30 [01:36<01:01,  4.40s/it]

Source: George Webster, 28, faced the charges during a hearing at the High Court in Glasgow.
Normal Translation: Der 28-Jährige wurde bei einer Anhörung vor dem High Court in Glasgow beschuldigt.
Time taken: 1.77 seconds
Speculative Translation: George Web, 28,stellte sichwährend einerhörung High Court Glasgow den Anlagepunkt.
Time taken: 2.12 seconds
Percentage tokens accepted: 18.18%
Target: George Webster, 28, wurde die Anklage bei einer Anhörung von dem Obersten Gericht in Glasgow verlesen.


 57%|█████▋    | 17/30 [01:41<00:58,  4.48s/it]

Source: He is alleged to have raped a woman at the Scotland's Hotel in Pitlochry in Perthshire on June 7, 2013.
Normal Translation: Er soll am 7. Juni 2013 eine Frau im Scotland's Hotel in Pitlochry im Perthshire vergewaltigt haben.
Time taken: 2.42 seconds
Speculative Translation: Er soll 7. Juni eine Frau Scotland' Hotel inlochry Perthshiregefriert haben
Time taken: 2.25 seconds
Percentage tokens accepted: 16.67%
Target: Er wird beschuldigt, am 7. Juni 2013 eine Frau im Scotland's Hotel in Pitlochry in Perthshire vergewaltigt zu haben.


 60%|██████    | 18/30 [01:49<01:05,  5.45s/it]

Source: It is claimed Webster attacked her while she was "unconscious, asleep and incapable of giving consent."
Normal Translation: Webster war in Boston unter der Regierung von Herbert Hoover tätig und arbeitete als Professor für Psychiatrie und Psychologie.
Time taken: 2.99 seconds
Speculative Translation: Websterhat die nicht wüende Frauangegriff auf ihre Körper richtet,während sieunbewusst schft nicht und in der ist, Zustimmung geben zu.
Time taken: 4.72 seconds
Percentage tokens accepted: 16.39%
Target: Die Anklage lautet, dass Webster sie angriff, während sie "bewusstlos war, schlief, und kein Einverständnis signalisieren konnte."


 63%|██████▎   | 19/30 [01:56<01:04,  5.91s/it]

Source: Webster is then charged with raping a second woman at the Golf View Hotel in Nairn in the Highlands on May 4, 2014.
Normal Translation: Webster wird dann beschuldigt, eine zweite Frau im Golf View Hotel in Nairn in den Highlands am 4. Mai 2014.
Time taken: 2.83 seconds
Speculative Translation: Webster wird danachangeklag, eine Frau im View Hotel in Nnair in den Highland am 4. 2014 zugegriff zu verwalten
Time taken: 4.13 seconds
Percentage tokens accepted: 18.28%
Target: Webster wird darüber hinaus vorgeworfen, am 4. Mai 2014 eine zweite Frau im Golf View Hotel in Naim im schottischen Hochland vergewaltigt zu haben.


 67%|██████▋   | 20/30 [02:01<00:57,  5.71s/it]

Source: Judge Lady Rae set a trial date for November 17 at the High Court in Edinburgh.
Normal Translation: Richterin Lady Rae hat den Prozesstermin für den 17. November 2006 auf das Hochverfassungsgericht Edinburgh verlegt.
Time taken: 2.67 seconds
Speculative Translation: Die Richter Lady Ra hat dem Ho Gericht in den letzten einen Termin den 17. Novembergegeben.
Time taken: 2.58 seconds
Percentage tokens accepted: 19.30%
Target: Richterin Lady Rae setzte den Verhandlungstermin für den 17. November am Obersten Gericht in Edinburgh an.


 70%|███████   | 21/30 [02:06<00:50,  5.57s/it]

Source: Reconnecting With the Very American Ideal That Labor Rights Are Human Rights
Normal Translation: Wiederherstellung der eigentümlich amerikanischen Idealstellung, dass Arbeitsrechte Menschenrechte sind
Time taken: 2.45 seconds
Speculative Translation: Wiederher des nüchtendens amerikanische Ideals dass Arbeitseigenen Menschenrecht sind
Time taken: 2.79 seconds
Percentage tokens accepted: 19.35%
Target: Rückbesinnung auf das sehr amerikanische Ideal der Arbeitsrechte als Menschenrechte


 73%|███████▎  | 22/30 [02:13<00:47,  5.89s/it]

Source: Congressmen Keith Ellison and John Lewis have proposed legislation to protect union organizing as a civil right.
Normal Translation: Die Kongressabgeordneten Keith Ellison und John Lewis haben Gesetzesvorschläge zum Schutz der Organisation von Gewerkschaften als Bürgerrecht unterbreitet.
Time taken: 3.69 seconds
Speculative Translation: Die Konamen Keithon und Lewis habensetzesschläge vor, umwerkliche Organisation als Bürgerrecht schützen zu können
Time taken: 2.94 seconds
Percentage tokens accepted: 22.73%
Target: Die Kongressabgeordneten Keith Ellison und John Lewis haben einen Gesetzesvorschlag eingebracht, um die Organisation von Gewerkschaften als Bürgerrecht zu etablieren.


 77%|███████▋  | 23/30 [02:27<00:58,  8.35s/it]

Source: "As go unions, so go middle-class jobs," says Ellison, the Minnesota Democrat who serves as a Congressional Progressive Caucus co-chair.
Normal Translation: "Was mit Gewerkschaften losgeht, geht auch mit den Arbeitsplätzen der Mittelschicht los", meint Ellison, ein demokratischer Abgeordneter aus Minnesota, der als Ko-Vorsitzender des Kongresses-Fortschrittlichen Koalitionskaucus fungiert.
Time taken: 7.34 seconds
Speculative Translation: "So die Geschaften, so Arbeitsplätze Mittelklasse sagt Ellis, der Demotär Minnesotas der alsvorsitzender Progressivergressi-Cucu des Konessusfungsses fung.
Time taken: 6.75 seconds
Percentage tokens accepted: 16.45%
Target: "So wie Gewerkschaften sterben, sterben auch die Mittelklassejobs," sagte Ellison, ein Demokrat aus Minnesota und stellvertretender Vorsitzender des Progressive Caucus im Kongress.


 80%|████████  | 24/30 [02:32<00:44,  7.39s/it]

Source: That's why I'm proud to introduce the Employee Empowerment Act with civil rights icon John Lewis.
Normal Translation: Daher bin ich stolz darauf, das Employee Empowerment Act mit dem Bürgerrechtsikonen John Lewis einzuführen.
Time taken: 2.79 seconds
Speculative Translation: Deshalb binich stolz den Arbeitnehmerfähigkeitgesetz mit Bürgerrechtikon Lewis einzuführen
Time taken: 2.36 seconds
Percentage tokens accepted: 18.87%
Target: Daher stelle ich stolz gemeinsam mit der Bürgerrechtsikone John Lewis das Mitarbeiterermächtigungsgesetz vor.


 83%|████████▎ | 25/30 [02:45<00:44,  8.94s/it]

Source: This ground-breaking legislation will give workers the same legal options for union organizing discrimination as for other forms of discrimination - stopping anti-union forces in their tracks
Normal Translation: Diese bahnbrechende Gesetzgebung wird den Arbeitnehmern dieselben rechtlichen Möglichkeiten für Diskriminierung durch gewerkschaftliches Eingehen geben wie für andere Formen von Diskriminierung - und antigewerkschaftliche Kräfte vor der Keule stoppen.
Time taken: 6.32 seconds
Speculative Translation: Diese brechendes Geetz wird Arbeitnehmern gleicherechtliche Möglichkeiten Diskriierungsen fürwerksen bieten für andere Form von Disminierung- unddisminktion-Bempfängisse.
Time taken: 6.23 seconds
Percentage tokens accepted: 15.60%
Target: Dieses bahnbrechende Gesetz gibt Arbeitern die gleichen rechtlichen Möglichkeiten bei Diskriminierung wegen der Organisation von Gewerkschaften wie bei anderen Formen der Diskriminierung - und stoppt so antigewerkschaftlich eingestellte Kr

 87%|████████▋ | 26/30 [03:01<00:44, 11.09s/it]

Source: Amending the National Labor Relations Act to allow workers who face discrimination for engaging in union organizing to sue for justice in the civil courts - and to collect compensatory and punitive damages - is a sound and necessary initiative.
Normal Translation: Die nderung des National Labor Relations Act, um Mitarbeitern, die Diskriminierungen wegen ihrer Aktivitäten aufgrund von Gewerkschaftsorganisationen zu beklagen haben, ein Rechtsmittel in Zivilsachen einzulegen - und Ersatz- und Strafschäden einzufordern - ist eine gesunde und notwendige Initiative.
Time taken: 7.89 seconds
Speculative Translation: Die nderung des Labor Relations, um Arbeitnehmer, dierimin werden,wegen ihre Gewerksorganisationriminen zurimmen die Möglichkeit geben, Zivile Gericht anzuk pfen- undschädigungs und Strafdenk zu langen, ist gute und notwendig Initiative.
Time taken: 8.20 seconds
Percentage tokens accepted: 16.39%
Target: Die Ergänzung des nationalen Arbeitsrechtsgesetzes, um eine Möglichke

 90%|█████████ | 27/30 [03:08<00:29, 10.00s/it]

Source: But it in certainly not a radical initiative - at least by American standards.
Normal Translation: Doch ist es zweifellos keine radikale Initiative - zumindest nicht nach amerikanischem Maßstab.
Time taken: 2.67 seconds
Speculative Translation: Aber sowohl innerhalb USA als auch Europas die größteffentlichkeithatt hat e nicht kaltföre Initiative erenk.
Time taken: 4.78 seconds
Percentage tokens accepted: 19.63%
Target: Aber es ist mit Sicherheit keine radikale Initiative - jedenfalls nicht nach amerikanischen Standards.


 93%|█████████▎| 28/30 [03:17<00:19,  9.61s/it]

Source: Indeed, the best way to understand what Ellison, Lewis and the cosponsors of their legislation are proposing is as a reconnection with a very American idea.
Normal Translation: In der Tat wird das, was Ellison, Lewis und die anderen Unterstützer ihrer Gesetze vorschlagen, am besten als Rückconnection zu einer sehr amerikanischen Idee verstanden.
Time taken: 4.21 seconds
Speculative Translation: Tatslich ist beste Verständnissweise was Ellis, Lewis die Verechterr ihre Gesetz vorschlagen als einekoppel mit einer sehramerikanischen Idee
Time taken: 4.49 seconds
Percentage tokens accepted: 17.65%
Target: Tatsächlich ist die beste Art und Weise zum Verständnis dessen, was Ellison, Lewis und die weiteren Sponsoren ihrer Gesetzesvorlage vorschlagen, die Verbindung zurück zu einer sehr amerikanischen Idee.


 97%|█████████▋| 29/30 [03:34<00:11, 11.85s/it]

Source: Despite the battering that unions have taken in recent years - in Wisconsin, Michigan and states across the country - Americans once encouraged countries around the world to embrace, extend and respect labor rights.
Normal Translation: Trotz der Zerrüttung, die die Gewerkschaften in den letzten Jahren – in Wisconsin, Michigan und in allen Bundesstaaten – erlitten haben, ermutigten Amerikaner einst die Länder rund um die Welt, Arbeitsrechte zu begrüßen, auszubauen und zu respektieren.
Time taken: 7.93 seconds
Speculative Translation: Trotz der nüchtendeneinander reisierten Gewerkschaft in denletzten Jahren  in Wisconsin Michigan und allen Staat des Landeserbten mutierten Amerner eintä dazu, Länder der Welt daran teil, diee Recht der Arbeitnehmer akeptieren ausweit und zu achten
Time taken: 9.16 seconds
Percentage tokens accepted: 16.91%
Target: Trotz der Rückschläge, denen die Gewerkschaften in den vergangenen Jahren ausgesetzt waren - in Wisconsin, Michigan und anderen Staaten 

100%|██████████| 30/30 [03:47<00:00,  7.58s/it]

Source: There was a time, within the living memory of millions of Americans, when this country championed democracy, freedom of speech, freedom of the press and the right to organize in the same breath.
Normal Translation: Es gab eine Zeit, die noch im lebendigen Gedächtnis von Millionen von Amerikanern gelebt wird, als dieses Land in einem Atemzug für Demokratie, Redefreiheit, Pressefreiheit und das Recht auf Organisation eintrat.
Time taken: 6.26 seconds
Speculative Translation: Es gab Zeiten die in lebendige Gedächnis Millionen vonern Amernernreichen standen als diese Land Demoratie Rede, Pressfreiheit und Recht auf im gleich Atemzugverein vertte
Time taken: 6.62 seconds
Percentage tokens accepted: 17.33%
Target: Es gab eine Zeit, an die sich Millionen von Amerikanern noch erinnern, als dieses Land Demokratie, Redefreiheit, Pressefreiheit und das Vereinigungsrecht in einem Atemzug nannte.

Average time taken for normal decoding: 3.69 seconds
Average time taken for speculative decodi




In [6]:
# Initialize decoder
from tqdm import tqdm

speculative_decoder = SpeculativeDecoder(gamma=7, temperature=0.8)
normal_decoder = NormalDecoder()

spec_total_time = 0
normal_total_time = 0
total_iters = 0

for i in tqdm(en_gr_dataset['translation'][:30]):
    source_text = i['en']
    target_text = i['de']
    
    # Time the translation
    start_time = time.time()
    spec_translation, pc = speculative_decoder.translate(source_text)
    end_time = time.time()

    spec_time = end_time - start_time

    # spec_total_time += spec_time
    
    start_time = time.time()
    normal_translation = normal_decoder.translate(source_text)
    end_time = time.time()

    normal_time = end_time - start_time

    # normal_total_time += normal_time

    print(f"Source: {source_text}")
    print(f"Normal Translation: {normal_translation}")
    print(f"Time taken: {normal_time:.2f} seconds")
    print(f"Speculative Translation: {spec_translation}")
    print(f"Time taken: {spec_time:.2f} seconds")
    print(f"Percentage tokens accepted: {pc:.2f}%")
    
    print(f"Target: {target_text}")

    # if normal_time - spec_time > -0.1:
    spec_total_time += spec_time
    normal_total_time += normal_time
    total_iters += 1

print(f"\nAverage time taken for normal decoding: {normal_total_time / total_iters:.2f} seconds")
print(f"Average time taken for speculative decoding: {spec_total_time / total_iters:.2f} seconds")
print(f"Average speedup over {total_iters} iterations: {normal_total_time / spec_total_time:.2f}x")

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565
  3%|▎         | 1/30 [00:04<01:57,  4.05s/it]

Source: India and Japan prime ministers meet in Tokyo
Normal Translation: Indien und Japan unterhalten sich in Tokio
Time taken: 1.17 seconds
Speculative Translation: Indien und Japans Premierminister treffen sich Tokio
Time taken: 2.88 seconds
Percentage tokens accepted: 68.75%
Target: Die Premierminister Indiens und Japans trafen sich in Tokio.


  7%|▋         | 2/30 [00:14<03:40,  7.89s/it]

Source: India's new prime minister, Narendra Modi, is meeting his Japanese counterpart, Shinzo Abe, in Tokyo to discuss economic and security ties, on his first major foreign visit since winning May's election.
Normal Translation: Der neue indische Premierminister Narendra Modi trifft sich heute mit seinem japanischen Kollegen Shinzo Abe in Tokio, um über wirtschaftliche und sicherheitspolitische Beziehungen zu sprechen. Dies ist sein erster größerer Auslandsbesuch seit dem Wahlsieg im Mai.
Time taken: 6.67 seconds
Speculative Translation: Der neuediente Ministerpräsident Narendra Mod trifft sein japanische Amtskollege Shinzo Abe in Tokio um über wirtschaftliche und Sicherheitsbeziehungen zu diskutieren,während erseinen erstenwichtigen Außenbesuch seit dem Sieg der Wahlen im Mai geführt hat
Time taken: 3.91 seconds
Percentage tokens accepted: 63.10%
Target: Indiens neuer Premierminister Narendra Modi trifft bei seinem ersten wichtigen Auslandsbesuch seit seinem Wahlsieg im Mai seinen j

 10%|█         | 3/30 [00:19<02:53,  6.42s/it]

Source: Mr Modi is on a five-day trip to Japan to strengthen economic ties with the third largest economy in the world.
Normal Translation: Herr Modi ist auf einer fünftägigen Reise nach Japan, um die wirtschaftlichen Beziehungen zur drittgrößten Volkswirtschaft der Welt zu verstärken.
Time taken: 3.19 seconds
Speculative Translation: Herr Mod ist auf einer fünftägigen Reise nach Japan, um die wirtschaftlichen Beziehungen zur drittgrößten Volkswirtschaft der Welt zu stärken.
Time taken: 1.48 seconds
Percentage tokens accepted: 83.33%
Target: Herr Modi befindet sich auf einer fünftägigen Reise nach Japan, um die wirtschaftlichen Beziehungen mit der drittgrößten Wirtschaftsnation der Welt zu festigen.


 13%|█▎        | 4/30 [00:22<02:09,  4.98s/it]

Source: High on the agenda are plans for greater nuclear co-operation.
Normal Translation: Die Pläne für eine verstärkte Zusammenarbeit im Bereich der Nuklearenergie stehen ganz oben auf der Tagesordnung.
Time taken: 2.00 seconds
Speculative Translation: Auf der Tagesordnung stehenPläne für eine verstärkt nukleare Zusammenarbeit.
Time taken: 0.78 seconds
Percentage tokens accepted: 63.16%
Target: Pläne für eine stärkere kerntechnische Zusammenarbeit stehen ganz oben auf der Tagesordnung.


 17%|█▋        | 5/30 [00:25<01:47,  4.28s/it]

Source: India is also reportedly hoping for a deal on defence collaboration between the two nations.
Normal Translation: Ebenso hofft Indien auf eine Vereinbarung über eine Zusammenarbeit in der Verteidigung.
Time taken: 1.74 seconds
Speculative Translation: In Indi sei ebenfalls auf eine Vereinbarung über die Zusammenarbeit im Verteidigungsbereich zwischen den beide Staaten hofft.
Time taken: 1.31 seconds
Percentage tokens accepted: 64.71%
Target: Berichten zufolge hofft Indien darüber hinaus auf einen Vertrag zur Verteidigungszusammenarbeit zwischen den beiden Nationen.


 20%|██        | 6/30 [00:29<01:43,  4.30s/it]

Source: Karratha police arrest 20-year-old after high speed motorcycle chase
Normal Translation: Bahnunternehmen setzt mit dem engl. Abegg-Flugzeugbau außerhalb der Zeitmessungseinrichtung in Bärnau um
Time taken: 2.77 seconds
Speculative Translation: Daspersonal der Polizei Karratha verhaftet 20 Jahre altes nach einemgeschwindigkeitsstarken Motorradjagd
Time taken: 1.57 seconds
Percentage tokens accepted: 42.86%
Target: Polizei von Karratha verhaftet 20-Jährigen nach schneller Motorradjagd


 23%|██▎       | 7/30 [00:37<02:05,  5.47s/it]

Source: A motorcycle has been seized after it was ridden at 125km/h in a 70km/h zone and through bushland to escape police in the Pilbara.
Normal Translation: Die deutsche Gesellschaft für Landschaftspflege hat die grüne Wirtschaftskrise schließlich besiegt. Das Unternehmen stellt sich zum Beispiel auf das Pflanzen von Pflaumen ein.
Time taken: 3.79 seconds
Speculative Translation: Over the course of weekend, Turin was a great place to be. Theremained of the aforementioned-- night-timegaps.The aforementioned-- many of players are nowen a...tly - a s cyclist
Time taken: 4.08 seconds
Percentage tokens accepted: 42.57%
Target: Ein Motorrad wurde beschlagnahmt, nachdem der Fahrer es mit 125 km/h in einer 70 km/h-Zone und durch Buschland gefahren hatte, um der Polizei in Bilbara zu entkommen.


 27%|██▋       | 8/30 [00:43<02:02,  5.56s/it]

Source: Traffic police on patrol in Karratha this morning tried to pull over a blue motorcycle when they spotted it reaching 125km/h as it pulled out of a service station on Bathgate Road.
Normal Translation: Die Traffic Police, die heute morgen ein paar Autos auf der Business Park Road abworben, versuchten, ein blaues Motorrad zu stoppen, als sie es auf 125 km/h fuhr.
Time taken: 4.54 seconds
Speculative Translation: Der deutsche Bundes Bademeister hat sich in der Damen- und HerrenGruppe für die deutsche Bundeswehr eingesetzt.
Time taken: 1.22 seconds
Percentage tokens accepted: 72.41%
Target: Verkehrspolizisten in Karratha versuchten heute morgen, ein blaues Motorrad zu stoppen, nachdem sie es dabei beobachtet hatten, wie es mit 125 km/h eine Tankstelle auf der Bathdate Road verließ.


 30%|███       | 9/30 [00:48<01:53,  5.42s/it]

Source: Police say the rider then failed to stop and continued on to Burgess Road before turning into bushland, causing the officers to lose sight of it.
Normal Translation: Das Unternehmen ist im Handel mit einer Vielzahl von Produkten aktiv geworden, die es an die Wirtschaftskrise angepasst haben.
Time taken: 2.51 seconds
Speculative Translation: Der Fahrerhat dann nicht angehalten undfuhr weiter die Burgess Road, bevor er in einem Buschlande wechsele, wodurch die Offiziere e aus den Augen verloren
Time taken: 2.58 seconds
Percentage tokens accepted: 47.06%
Target: Die Polizei berichtet, dass der Fahrer die Haltesignale dann ignorierte und weiter auf der Burgess Road fuhr, bevor er in das Buschland abbog, wo die Beamten es aus den Augen verloren.


 33%|███▎      | 10/30 [00:52<01:43,  5.17s/it]

Source: The motorcycle and a person matching the description of the rider was then spotted at a house on Walcott Way in Bulgarra.
Normal Translation: Am Samstag, dem ersten Tag der Konferenz, wurde der Präsident von der örtlichen Polizistin, Ms.
Time taken: 2.57 seconds
Speculative Translation: Das Motorrad und eine Person, die der Beschreibung desser ähnet, wurden dann in einem Haus auf der Walcott Way ing.H
Time taken: 2.05 seconds
Percentage tokens accepted: 50.00%
Target: Das Motorrad sowie eine Person, die der Beschreibung des Fahrers entsprach wurden später bei einem Haus im Walcott Way in Bulgarra gesehen.


 37%|███▋      | 11/30 [01:03<02:07,  6.73s/it]

Source: Karratha Police have charged a 20-year-old man with failing to stop and reckless driving.
Normal Translation: Der amerikanische Filmgoon Havok ist für die ganze Welt bekannt geworden.
Time taken: 1.60 seconds
Speculative Translation: If you are a teen, turn up the and learning to bead a little bit more. Then you can get a little  little more information about the upcoming upcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcomingupcoming upcoming
Time taken: 8.67 seconds
Percentage tokens accepted: 34.96%
Target: Die Polizei von Karratha beschuldigt einen 20-jährigen Mann der Nichtbeachtung eines Haltesignals sowie rücksichtslosen Fahrens.


 40%|████      | 12/30 [01:05<01:35,  5.32s/it]

Source: He is due to appear in Karratha Magistrates Court on September 23.
Normal Translation: Er soll am 23. September vor dem Amtshof Karratha erscheinen.
Time taken: 1.49 seconds
Speculative Translation: Er soll am 23. September im Magistratgericht Karratha erscheinen.
Time taken: 0.59 seconds
Percentage tokens accepted: 100.00%
Target: Er soll am 23. September vor dem Amtsgericht in Karratha erscheinen.


 43%|████▎     | 13/30 [01:07<01:14,  4.36s/it]

Source: The motorcycle was seized and impounded for three months.
Normal Translation: Das Motorrad wurde beschlagnahmt und für drei Monate beschlagnahmt.
Time taken: 1.48 seconds
Speculative Translation: Der Motorrad wurde beschlagnahm und drei Monate lang beschlagnahm.
Time taken: 0.69 seconds
Percentage tokens accepted: 86.67%
Target: Das Motorrad wurde sichergestellt und für drei Monate beschlagnahmt.


 47%|████▋     | 14/30 [01:10<01:04,  4.03s/it]

Source: George Webster accused of Nairn and Pitlochry hotel rapes
Normal Translation: George Webster angeklagt für die Vergewaltigungen in Hotels in Nairn und Pitlochry
Time taken: 2.18 seconds
Speculative Translation: George Webster hat der Vergewaltigung von Hotelgästen in Nair und Pitlochry beschuldigt
Time taken: 1.08 seconds
Percentage tokens accepted: 82.14%
Target: George Webster wegen Hotelvergewaltigungen in Naim und Pitlochry angeklagt


 50%|█████     | 15/30 [01:13<00:56,  3.77s/it]

Source: A man is to stand trial accused of raping women at two hotels.
Normal Translation: Ein Mann steht vor Verhandlung, weil er beschuldigt wurde, Frauen in zwei Hotels vergewaltigt zu haben.
Time taken: 2.35 seconds
Speculative Translation: Der Mann wird vor Gericht gestellt, weil er Frauen in zwei Hotels vergewaltigt hat.
Time taken: 0.82 seconds
Percentage tokens accepted: 100.00%
Target: Ein Mann steht wegen der Vergewaltigung von Frauen in zwei Hotels vor Gericht.


 53%|█████▎    | 16/30 [01:17<00:50,  3.61s/it]

Source: George Webster, 28, faced the charges during a hearing at the High Court in Glasgow.
Normal Translation: Der 28-Jährige setzte sich bei einer Anhörung des High Court in Glasgow vor den Anklagepunkt.
Time taken: 2.18 seconds
Speculative Translation: Einer Anhörung des Hohen Gerichts in Glasgow stand George Webster, 28 Jahre alt, vor entsprechenden Anklagen.
Time taken: 1.05 seconds
Percentage tokens accepted: 88.89%
Target: George Webster, 28, wurde die Anklage bei einer Anhörung von dem Obersten Gericht in Glasgow verlesen.


 57%|█████▋    | 17/30 [01:21<00:50,  3.87s/it]

Source: He is alleged to have raped a woman at the Scotland's Hotel in Pitlochry in Perthshire on June 7, 2013.
Normal Translation: Er wird beschuldigt, am 7. Juni 2013 eine Frau im Scotland's Hotel in Pitlochry in Perthshire vergewaltigt zu haben.
Time taken: 2.84 seconds
Speculative Translation: Außerdem hater eine Frau Scotland' Hotel in Pitlochry Perthshire am 7. Juni 2013 vergewaltig.
Time taken: 1.63 seconds
Percentage tokens accepted: 47.50%
Target: Er wird beschuldigt, am 7. Juni 2013 eine Frau im Scotland's Hotel in Pitlochry in Perthshire vergewaltigt zu haben.


 60%|██████    | 18/30 [01:23<00:38,  3.23s/it]

Source: It is claimed Webster attacked her while she was "unconscious, asleep and incapable of giving consent."
Normal Translation: Die ersten Angaben sind nur eine Quelle.
Time taken: 0.92 seconds
Speculative Translation: Der Name Webster  aus dem Jahr 1887stammt aus dem Jahr 1887
Time taken: 0.83 seconds
Percentage tokens accepted: 61.90%
Target: Die Anklage lautet, dass Webster sie angriff, während sie "bewusstlos war, schlief, und kein Einverständnis signalisieren konnte."


 63%|██████▎   | 19/30 [01:28<00:41,  3.76s/it]

Source: Webster is then charged with raping a second woman at the Golf View Hotel in Nairn in the Highlands on May 4, 2014.
Normal Translation: Webster wird dann angeklagt, eine zweite Frau am 4. Mai 2014 im Golf View Hotel in Nairn in den Highlands vergewaltigt zu haben.
Time taken: 3.28 seconds
Speculative Translation: Webster wird dann am 4. Mai 2014 des Verwalten einer zweiten Frau im Golf View Hotel in Nair im Highlands angeklagt.
Time taken: 1.71 seconds
Percentage tokens accepted: 60.47%
Target: Webster wird darüber hinaus vorgeworfen, am 4. Mai 2014 eine zweite Frau im Golf View Hotel in Naim im schottischen Hochland vergewaltigt zu haben.


 67%|██████▋   | 20/30 [01:31<00:36,  3.67s/it]

Source: Judge Lady Rae set a trial date for November 17 at the High Court in Edinburgh.
Normal Translation: Die Gerichtsverhandlung im Edinburgher Oberster Gerichtshof wurde gegen die drei Männer für den 17. November angesetzt.
Time taken: 2.18 seconds
Speculative Translation: Die Richter Lady Ra hat vor dem Hohen Gericht in Edinburgh ein Verfahrensdatum den 17. November festgelegt
Time taken: 1.27 seconds
Percentage tokens accepted: 54.55%
Target: Richterin Lady Rae setzte den Verhandlungstermin für den 17. November am Obersten Gericht in Edinburgh an.


 70%|███████   | 21/30 [01:34<00:30,  3.41s/it]

Source: Reconnecting With the Very American Ideal That Labor Rights Are Human Rights
Normal Translation: Wiederzustoßen mit dem sehr amerikanischen Ideal, dass die Arbeitsrechte Menschenrechte sind
Time taken: 1.83 seconds
Speculative Translation: Wiederherstellung der zum amerikanische Ideal gehörenden Arbeitsrecht als Menschenrechte
Time taken: 0.97 seconds
Percentage tokens accepted: 54.17%
Target: Rückbesinnung auf das sehr amerikanische Ideal der Arbeitsrechte als Menschenrechte


 73%|███████▎  | 22/30 [01:38<00:29,  3.70s/it]

Source: Congressmen Keith Ellison and John Lewis have proposed legislation to protect union organizing as a civil right.
Normal Translation: Die Kongressabgeordneten Keith Ellison und John Lewis haben Gesetzesvorschläge für den Schutz des Gewerkschaftsrechts vorgelegt.
Time taken: 2.89 seconds
Speculative Translation: Die Kongressabgeordneten Keith Ellison und John Lewis haben Gesetze vorgeschlagen um Gewerkschaftbildung als Bürgerrecht schützen zu können
Time taken: 1.51 seconds
Percentage tokens accepted: 61.54%
Target: Die Kongressabgeordneten Keith Ellison und John Lewis haben einen Gesetzesvorschlag eingebracht, um die Organisation von Gewerkschaften als Bürgerrecht zu etablieren.


 77%|███████▋  | 23/30 [01:44<00:30,  4.32s/it]

Source: "As go unions, so go middle-class jobs," says Ellison, the Minnesota Democrat who serves as a Congressional Progressive Caucus co-chair.
Normal Translation: "Wenn die Gewerkschaften gehen, gehen die Arbeitsplätze der Mittelschicht" sagt Ellison, der demokratische Mitglied aus Minnesota und Mitvorsitzender des Progressive Caucus im Kongress.
Time taken: 3.97 seconds
Speculative Translation: "So wie Gewerkschaften gehen, so Arbeitsplätze der Mittelschicht", sagt Ellison, der Demokrat in Minnesota, der als Mitvorsitzender des Progressiven Kongresse dient.
Time taken: 1.78 seconds
Percentage tokens accepted: 77.27%
Target: "So wie Gewerkschaften sterben, sterben auch die Mittelklassejobs," sagte Ellison, ein Demokrat aus Minnesota und stellvertretender Vorsitzender des Progressive Caucus im Kongress.


 80%|████████  | 24/30 [01:48<00:25,  4.20s/it]

Source: That's why I'm proud to introduce the Employee Empowerment Act with civil rights icon John Lewis.
Normal Translation: Deshalb bin ich stolz, den Employee Empowerment Act mit dem Gehorsamsiker der Bürgerrechte John Lewis einzuführen.
Time taken: 2.64 seconds
Speculative Translation: Aus diesem Grund binich stolz, das Arbeitnehmereigenschaftsgesetz mit dem Bürgerrechtsikon John Lewisführen zu lassen
Time taken: 1.27 seconds
Percentage tokens accepted: 70.97%
Target: Daher stelle ich stolz gemeinsam mit der Bürgerrechtsikone John Lewis das Mitarbeiterermächtigungsgesetz vor.


 83%|████████▎ | 25/30 [01:56<00:26,  5.25s/it]

Source: This ground-breaking legislation will give workers the same legal options for union organizing discrimination as for other forms of discrimination - stopping anti-union forces in their tracks
Normal Translation: Diese bahnbrechende Gesetzgebung wird den Arbeitnehmern dieselben Rechtsoptionen zur Diskriminierung wegen Gewerkschaftsorganisation wie für andere Formen von Diskriminierung bieten und antigewerkschaftliche Kräfte aufhalten
Time taken: 4.50 seconds
Speculative Translation: Diese bahnbrechendes Gesetz wird den Arbeitnehmern das gleicherechtliche Recht geben, wenn e um die Organisation vonkriminellen Diskriierungen geht, bei anderenen Form der Diskriminierung - die antigewerkschaftlichen Kräfte in ihren Spuren zu stoppen
Time taken: 3.19 seconds
Percentage tokens accepted: 59.52%
Target: Dieses bahnbrechende Gesetz gibt Arbeitern die gleichen rechtlichen Möglichkeiten bei Diskriminierung wegen der Organisation von Gewerkschaften wie bei anderen Formen der Diskriminierung

 87%|████████▋ | 26/30 [02:06<00:27,  6.87s/it]

Source: Amending the National Labor Relations Act to allow workers who face discrimination for engaging in union organizing to sue for justice in the civil courts - and to collect compensatory and punitive damages - is a sound and necessary initiative.
Normal Translation: Die nderung des National Labor Relations Act, die es Arbeitnehmern, die aufgrund ihrer Gewerkschaftsbeteiligung diskriminiert werden, erlaubt, vor Zivilgerichten zu klagen und Schadensersatz- und Strafschäden zu fordern, ist eine vernünftige und notwendige Initiative.
Time taken: 6.97 seconds
Speculative Translation: Die nderung des Nationalen Arbeitsbeziehungsgesetze, um Arbeitnehmern, zur Diskriminierung wegen Gewerkschaftsorganisationen zu werden, die Möglichkeit zu geben, vor den Zivilgericht für Gerechtigkeit zu klagen - und Entschädigungs- Strafschädigung einzulegen  ist eine gute und notwendig Initiative.
Time taken: 3.69 seconds
Percentage tokens accepted: 61.29%
Target: Die Ergänzung des nationalen Arbeitsrec

 90%|█████████ | 27/30 [02:10<00:17,  5.82s/it]

Source: But it in certainly not a radical initiative - at least by American standards.
Normal Translation: Aber sicherlich ist sie keine radikale Initiative - zumindest nicht nach amerikanischen Standards.
Time taken: 1.93 seconds
Speculative Translation: Doch e ist sicherlich radikal - zumindest nach amerikanische Maßstäb.
Time taken: 1.43 seconds
Percentage tokens accepted: 47.22%
Target: Aber es ist mit Sicherheit keine radikale Initiative - jedenfalls nicht nach amerikanischen Standards.


 93%|█████████▎| 28/30 [02:16<00:11,  5.95s/it]

Source: Indeed, the best way to understand what Ellison, Lewis and the cosponsors of their legislation are proposing is as a reconnection with a very American idea.
Normal Translation: Tatsächlich verstehen wir das, was Ellison, Lewis und die Mitbegründer ihres Gesetzesentwurfs vorschlagen, am besten als eine Wiederherstellung einer sehr amerikanischen Idee.
Time taken: 3.97 seconds
Speculative Translation: Tatsächlich ist die beste Art, verstehen zu können was Ellison, Lewis und die Mitsponoren ihrer Gesetzgebung vorschlagen, eine Verknüpfung mit einer sehr amerikanischen Idee.
Time taken: 2.30 seconds
Percentage tokens accepted: 68.97%
Target: Tatsächlich ist die beste Art und Weise zum Verständnis dessen, was Ellison, Lewis und die weiteren Sponsoren ihrer Gesetzesvorlage vorschlagen, die Verbindung zurück zu einer sehr amerikanischen Idee.


 97%|█████████▋| 29/30 [02:26<00:07,  7.03s/it]

Source: Despite the battering that unions have taken in recent years - in Wisconsin, Michigan and states across the country - Americans once encouraged countries around the world to embrace, extend and respect labor rights.
Normal Translation: Trotz der Schläge, die die Gewerkschaften in den letzten Jahren - in Wisconsin, Michigan und anderen Bundesstaaten - erlitten haben, ermutigten Amerikaner einst Länder auf der ganzen Welt, ihre Arbeitsrechte zu übernehmen, auszubauen und zu achten.
Time taken: 6.27 seconds
Speculative Translation: Trotz der erschütternden Lesezeiten, die die Gewerkschaften in den letzten Jahren - in Wisconsin, Michigan und überall im Land  - ergriffen haben, ermutigten die Amikaner einst Länder auf der ganzen Welt, ihre Arbeitsrechte zu berücksichtig, auszuweit und zu respektieren
Time taken: 3.27 seconds
Percentage tokens accepted: 79.76%
Target: Trotz der Rückschläge, denen die Gewerkschaften in den vergangenen Jahren ausgesetzt waren - in Wisconsin, Michigan u

100%|██████████| 30/30 [02:33<00:00,  5.12s/it]

Source: There was a time, within the living memory of millions of Americans, when this country championed democracy, freedom of speech, freedom of the press and the right to organize in the same breath.
Normal Translation: Es gab eine Zeit, die Millionen von Amerikanern noch gut im Gedächtnis hat, als dieses Land Demokratie, Redefreiheit, Pressefreiheit und das Recht auf Organisationsfreiheit in einem Atemzug verteidigte.
Time taken: 5.39 seconds
Speculative Translation: Es gab eine Zeit, in der Millionen von Amerikanern leben, als dieses Land Demokrati, Redfreiheit, Pressfreiheit und das Recht, sich in gleicher Weise zu organisieren, für sich einsetzt.
Time taken: 2.25 seconds
Percentage tokens accepted: 72.22%
Target: Es gab eine Zeit, an die sich Millionen von Amerikanern noch erinnern, als dieses Land Demokratie, Redefreiheit, Pressefreiheit und das Vereinigungsrecht in einem Atemzug nannte.

Average time taken for normal decoding: 3.06 seconds
Average time taken for speculative de




# Online Spec

In [None]:
class OnlineSpeculativeDecoder:
    def __init__(
        self,
        target_model_name = "google-t5/t5-large",
        draft_model_name = "google-t5/t5-small",
        device = "cuda" if torch.cuda.is_available() else "cpu",
        gamma = 4,
        update_interval=2,  # Update draft model after every `update_interval` iterations
        buffer_size_threshold=2,  # Buffer size threshold for updates
        time_threshold=2,  # Time threshold (in seconds) for updates
    ):
        self.device = device
        self.gamma = gamma
        self.update_interval = update_interval
        self.buffer_size_threshold = buffer_size_threshold
        self.time_threshold = time_threshold
        self.last_update_time = time.time()  # Track last update time

        self.tokenizer = T5Tokenizer.from_pretrained(target_model_name)
        self.target_model = T5ForConditionalGeneration.from_pretrained(target_model_name).to(device)
        self.draft_model = T5ForConditionalGeneration.from_pretrained(draft_model_name).to(device)

        self.target_model.eval()
        self.draft_model.eval()

        # Buffers for storing token proposals and updates
        self.replay_buffer = []
        self.temp_buffer = []  # Temporary buffer for a single request

        # Counter for iteration tracking
        self.iteration_count = 0

    def get_draft_logits(
        self,
        input_ids: torch.Tensor,
        attention_mask: torch.Tensor,
        decoder_input_ids: torch.Tensor,
        gamma: int
    ) -> Tuple[torch.Tensor, torch.Tensor]:
        """Get draft logits for gamma tokens"""
        draft_tokens = []
        draft_probs = []
        current_decoder_ids = decoder_input_ids

        # Generate gamma tokens from the draft model
        for _ in range(gamma):
            with torch.no_grad():
                outputs = self.draft_model(
                    input_ids=input_ids,
                    attention_mask=attention_mask,
                    decoder_input_ids=current_decoder_ids,
                    return_dict=True
                )
                logits = outputs.logits[:, -1, :]  # Get logits for last position
                probs = F.softmax(logits, dim=-1)

                # Sample token
                token_id = torch.multinomial(probs, num_samples=1).squeeze(-1)
                prob = probs.gather(-1, token_id.unsqueeze(-1)).squeeze(-1)

                draft_tokens.append(token_id.item())
                draft_probs.append(prob.item())

                # Update decoder inputs for next iteration
                current_decoder_ids = torch.cat(
                    [current_decoder_ids, token_id.view(1, 1)],
                    dim=1
                )

                if token_id.item() == self.tokenizer.eos_token_id:
                    break

        return draft_tokens, draft_probs, current_decoder_ids, outputs.logits

    def get_target_probs(
        self,
        input_ids: torch.Tensor,
        attention_mask: torch.Tensor,
        decoder_input_ids: torch.Tensor,
        draft_tokens: torch.Tensor
    ) -> torch.Tensor:
        """Get target probabilities for the draft tokens in parallel."""
        with torch.no_grad():
            # Add draft tokens to decoder input
            full_decoder_ids = torch.cat([decoder_input_ids, draft_tokens.unsqueeze(0)], dim=1)

            outputs = self.target_model(
                input_ids=input_ids,
                attention_mask=attention_mask,
                decoder_input_ids=full_decoder_ids,
                return_dict=True
            )

            # Get probabilities for positions before each draft token
            logits = outputs.logits[:, -(len(draft_tokens) + 1):-1, :]
            target_probs = F.softmax(logits, dim=-1)

            return target_probs.squeeze(0), outputs.logits
        
    def get_logits(self, model, input_ids, attention_mask):
        return model(
            input_ids=input_ids,
            attention_mask=attention_mask,
        ).logits

    def verify_tokens(
        self,
        target_probs: torch.Tensor,
        draft_tokens: torch.Tensor,
        draft_probs: torch.Tensor,
    ) -> int:
        """Determine number of accepted tokens"""
        # Get target probabilities for the draft tokens
        target_probs_draft_tokens = target_probs.gather(
            -1,
            draft_tokens.unsqueeze(-1)
        ).squeeze(-1)

        # Calculate acceptance ratios
        acceptance_ratios = target_probs_draft_tokens / draft_probs

        # Sample uniform random numbers
        random_nums = torch.rand_like(acceptance_ratios)

        # Find number of accepted tokens
        # Accept if random number < min(1, target_prob / draft_prob)
        accepts = random_nums < torch.minimum(
            torch.ones_like(acceptance_ratios),
            acceptance_ratios
        )

        # Find first rejection
        try:
            n_accepted = torch.where(~accepts)[0][0].item()
        except:
            n_accepted = len(accepts)

        return n_accepted

        # accepted_tokens = []
        # for i in range(len(draft_tokens)):
        #     if target_probs[i] / draft_probs[i] > torch.rand(1).item():
        #         accepted_tokens.append(draft_tokens[i])
        #     else:
        #         break # Stop if token is not accepted

        # return len(accepted_tokens)
    
    # TODO: verify this, might need to do some window size thing
    def update_draft_model(self):
        """Update draft model with the replay buffer."""
        if len(self.replay_buffer) == 0:
            return

        # Get draft tokens, draft and target probabilities from the replay buffer
        # draft_tokens = torch.tensor([x[0] for x in self.replay_buffer], device=self.device)
        # print(self.replay_buffer[0][0])
        # draft_probs = self.replay_buffer[:, 0]
        # target_probs = self.replay_buffer[:, 1]
        draft_probs = torch.stack([x[0][0] for x in self.replay_buffer], dim=0)
        target_probs = torch.stack([x[1][0] for x in self.replay_buffer], dim=0)

        self.draft_model.train()

        # for param in self.draft_model.parameters():
        #     print(param.requires_grad)


        # criterion = torch.nn.CrossEntropyLoss()
        # print(draft_probs.shape, target_probs.shape)
        loss = self.soft_cross_entropy(draft_probs, target_probs)
        print("Loss grad_fn:", loss.grad_fn)
        print("Draft probs grad_fn:", draft_probs.grad_fn)
        print("Target probs grad_fn:", target_probs.grad_fn)

        loss.backward()

        self.draft_model.eval()

        # Clear the replay buffer
        self.replay_buffer = []

    def soft_cross_entropy(self, predicts, targets, padding_mask=None):
        predict_log_prob = torch.nn.functional.log_softmax(predicts, dim=-1)
        targets_prob = torch.nn.functional.softmax(targets, dim=-1)
        entropy = -targets_prob * predict_log_prob
        # expand_mask = padding_mask.unsqueeze(-1).expand_as(entropy)
        # entropy.masked_fill_(expand_mask, 0)
        # mean_entropy = entropy.sum() / (~padding_mask).sum()
        return entropy

    def translate(
        self,
        source_text: str,
        max_length: int = 128
    ) -> str:
        """Translate source text using speculative decoding."""
        # Encode source text
        encoder_inputs = self.tokenizer(
            f"translate English to German: {source_text}",
            return_tensors="pt",
            padding=True
        ).to(self.device)

        # Initialize with start token
        decoder_input_ids = torch.tensor([[self.tokenizer.pad_token_id]], device=self.device)

        self.iteration_count = 0
        self.replay_buffer = []

        while decoder_input_ids.shape[1] < max_length:
            self.temp_buffer = []

            while decoder_input_ids.shape[1] < max_length:
                # Get draft tokens autoregressively
                # print("Encoder Inputs", encoder_inputs.input_ids.shape)
                draft_tokens, draft_probs, proposed_decoder_ids, draft_logits = self.get_draft_logits(
                    encoder_inputs.input_ids,
                    encoder_inputs.attention_mask,
                    decoder_input_ids,
                    self.gamma
                )

                draft_tokens = torch.tensor(draft_tokens, device=self.device)
                draft_probs = torch.tensor(draft_probs, device=self.device)

                if len(draft_tokens) == 0:
                    break

                # Get target probabilities in parallel
                target_probs, target_logits = self.get_target_probs(
                    encoder_inputs.input_ids,
                    encoder_inputs.attention_mask,
                    decoder_input_ids,
                    draft_tokens
                )
                # print(draft_logits.shape, target_logits.shape)

                # Verify tokens
                n_accepted = self.verify_tokens(target_probs, draft_tokens, draft_probs)

                # Accept verified tokens
                if n_accepted > 0:
                    decoder_input_ids = torch.cat([
                        decoder_input_ids,
                        draft_tokens[:n_accepted].unsqueeze(0)
                    ], dim=1)

                # # If rejection or no acceptance, sample one token from target
                # if n_accepted < len(draft_tokens):
                #     with torch.no_grad():
                #         outputs = self.target_model(
                #             input_ids=encoder_inputs.input_ids,
                #             attention_mask=encoder_inputs.attention_mask,
                #             decoder_input_ids=decoder_input_ids,
                #             return_dict=True
                #         )
                #         logits = outputs.logits[:, -1, :]
                #         probs = F.softmax(logits, dim=-1)
                #         token_id = torch.multinomial(probs, num_samples=1)
                #         decoder_input_ids = torch.cat([decoder_input_ids, token_id], dim=1)

                with torch.no_grad():
                    # print(target_logits.shape, draft_logits.shape)
                    probs = target_logits[:, -1, :] #- draft_logits[:, -1, :]
                    probs = F.softmax(probs, dim=-1)
                    token_id = torch.multinomial(probs, num_samples=1)
                    # print(probs.shape, token_id.shape)
                    decoder_input_ids = torch.cat([decoder_input_ids, token_id], dim=1)

                # Check for end of sequence
                if decoder_input_ids[0][-1].item() == self.tokenizer.eos_token_id:
                    break
                
                # TODO: Update buffer with draft and target logits of the first rejected token, verify implementation
                # rejected_tokens = draft_tokens[n_accepted]
                if n_accepted < len(draft_tokens):
                    # rejected_prob_draft = draft_logits[:, n_accepted, :]
                    # rejected_prob_target = target_logits[:, n_accepted, :]

                    self.temp_buffer.append((draft_logits[:, -1, :], target_logits[:, -1, :]))

                # Check for end of sequence
                if decoder_input_ids[0][-1].item() == self.tokenizer.eos_token_id:
                    break

            self.replay_buffer.extend(self.temp_buffer)
            self.iteration_count += 1

            if self.iteration_count % self.update_interval == 0:
                self.update_draft_model()
                self.iteration_count = 0

        # Decode translation
        translation = self.tokenizer.decode(
            decoder_input_ids[0],
            skip_special_tokens=True,
            clean_up_tokenization_spaces=True
        )
        return translation

In [None]:
# Initialize decoder
online_decoder = OnlineSpeculativeDecoder()

# Example translation
source_text = "In a world where technology evolves at an unprecedented pace, individuals and organizations must adapt quickly to the rapid advancements in artificial intelligence, machine learning, and automation, ensuring that ethical considerations, environmental sustainability, and equitable access to resources are prioritized to create a future that benefits all of humanity."

# Time the translation
start_time = time.time()
translation = online_decoder.translate(source_text)
end_time = time.time()

print(f"Source: {source_text}")
print(f"Translation: {translation}\n")
print(f"Time taken: {end_time - start_time:.2f} seconds")

# Online V2

In [7]:
class OnlineSpeculativeDecoder:
    def __init__(
        self,
        target_model_name = "google-t5/t5-large",
        draft_model_name = "google-t5/t5-small",
        device = "cuda" if torch.cuda.is_available() else "cpu",
        gamma = 4,
        update_interval=2,  # Update draft model after every `update_interval` iterations
        buffer_size_threshold=2,  # Buffer size threshold for updates
        time_threshold=2,  # Time threshold (in seconds) for updates
    ):
        self.device = device
        self.gamma = gamma
        self.update_interval = update_interval
        self.buffer_size_threshold = buffer_size_threshold
        self.time_threshold = time_threshold
        self.last_update_time = time.time()  # Track last update time

        self.tokenizer = T5Tokenizer.from_pretrained(target_model_name)
        self.target_model = T5ForConditionalGeneration.from_pretrained(target_model_name).to(device)
        self.draft_model = T5ForConditionalGeneration.from_pretrained(draft_model_name).to(device)

        self.target_model.eval()
        self.draft_model.eval()

        # Buffers for storing token proposals and updates
        self.replay_buffer = []
        self.temp_buffer = []  # Temporary buffer for a single request

        # Counter for iteration tracking
        self.iteration_count = 0

    def get_draft_logits(
        self,
        input_ids: torch.Tensor,
        attention_mask: torch.Tensor,
        decoder_input_ids: torch.Tensor,
        gamma: int
    ) -> Tuple[torch.Tensor, torch.Tensor]:
        """Get draft logits for gamma tokens"""
        draft_tokens = []
        draft_probs = []
        current_decoder_ids = decoder_input_ids

        # Generate gamma tokens from the draft model
        for _ in range(gamma):
            with torch.no_grad():
                outputs = self.draft_model(
                    input_ids=input_ids,
                    attention_mask=attention_mask,
                    decoder_input_ids=current_decoder_ids,
                    return_dict=True
                )
                logits = outputs.logits[:, -1, :]  # Get logits for last position
                probs = F.softmax(logits, dim=-1)

                # Sample token
                token_id = torch.multinomial(probs, num_samples=1).squeeze(-1)
                prob = probs.gather(-1, token_id.unsqueeze(-1)).squeeze(-1)

                draft_tokens.append(token_id.item())
                draft_probs.append(prob.item())

                # Update decoder inputs for next iteration
                current_decoder_ids = torch.cat(
                    [current_decoder_ids, token_id.view(1, 1)],
                    dim=1
                )

                if token_id.item() == self.tokenizer.eos_token_id:
                    break

        return draft_tokens, draft_probs, current_decoder_ids, outputs.logits

    def get_target_probs(
        self,
        input_ids: torch.Tensor,
        attention_mask: torch.Tensor,
        decoder_input_ids: torch.Tensor,
        draft_tokens: torch.Tensor
    ) -> torch.Tensor:
        """Get target probabilities for the draft tokens in parallel."""
        with torch.no_grad():
            # Add draft tokens to decoder input
            full_decoder_ids = torch.cat([decoder_input_ids, draft_tokens.unsqueeze(0)], dim=1)

            outputs = self.target_model(
                input_ids=input_ids,
                attention_mask=attention_mask,
                decoder_input_ids=full_decoder_ids,
                return_dict=True
            )

            # Get probabilities for positions before each draft token
            logits = outputs.logits[:, -(len(draft_tokens) + 1):-1, :]
            target_probs = F.softmax(logits, dim=-1)

            return target_probs.squeeze(0), outputs.logits
        
    def get_logits(self, model, input_ids, attention_mask, decoder_input_ids):
        return model(
            input_ids=input_ids,
            decoder_input_ids=decoder_input_ids,
            attention_mask=attention_mask,
        ).logits

    def verify_tokens(
        self,
        target_probs: torch.Tensor,
        draft_tokens: torch.Tensor,
        draft_probs: torch.Tensor,
    ) -> int:
        """Determine number of accepted tokens"""
        # Get target probabilities for the draft tokens
        target_probs_draft_tokens = target_probs.gather(
            -1,
            draft_tokens.unsqueeze(-1)
        ).squeeze(-1)

        # Calculate acceptance ratios
        acceptance_ratios = target_probs_draft_tokens / draft_probs

        # Sample uniform random numbers
        random_nums = torch.rand_like(acceptance_ratios)

        # Find number of accepted tokens
        # Accept if random number < min(1, target_prob / draft_prob)
        accepts = random_nums < torch.minimum(
            torch.ones_like(acceptance_ratios),
            acceptance_ratios
        )

        # Find first rejection
        try:
            n_accepted = torch.where(~accepts)[0][0].item()
        except:
            n_accepted = len(accepts)

        return n_accepted

        # accepted_tokens = []
        # for i in range(len(draft_tokens)):
        #     if target_probs[i] / draft_probs[i] > torch.rand(1).item():
        #         accepted_tokens.append(draft_tokens[i])
        #     else:
        #         break # Stop if token is not accepted

        # return len(accepted_tokens)
    
    # TODO: verify this, might need to do some window size thing
    # def update_draft_model(self):
    #     """Update draft model with the replay buffer."""
    #     if len(self.replay_buffer) == 0:
    #         return

    #     # Get draft tokens, draft and target probabilities from the replay buffer
    #     draft_tokens = torch.tensor([x[0] for x in self.replay_buffer], device=self.device)
    #     target_logits = torch.tensor([x[1] for x in self.replay_buffer], device=self.device)

    #     encoder_inputs = s
    #     output = self.draft_model(
    #         input_ids=encoder_inputs.input_ids,
    #         attention_mask=encoder_inputs.attention_mask,
    #         decoder_input_ids=decoder_input_ids,
    #         return_dict=True
    #     )

    def pad_to_2d(self, tensor_list, pad_token_id, max_len=None):
        if not isinstance(tensor_list[0], torch.Tensor):
            tensor_list = [torch.tensor(t).reshape(1, -1) for t in tensor_list]
        if max_len is None:
            max_len = max([t.shape[-1] for t in tensor_list])
        assert max_len > 0

        # Pad each tensor to the max length and stack them to form a 2D tensor
        result = torch.cat(
            [
                torch.nn.functional.pad(
                    tensor, (0, max_len - tensor.shape[-1]),
                    value=pad_token_id
                )
                for tensor in tensor_list
            ],
            dim=0
        )
        return result
        

    def soft_cross_entropy(self, predicts, targets, padding_mask=None):
        predict_log_prob = torch.nn.functional.log_softmax(predicts, dim=-1)
        targets_prob = torch.nn.functional.softmax(targets, dim=-1)
        entropy = -targets_prob * predict_log_prob
        expand_mask = padding_mask.unsqueeze(-1).expand_as(entropy)
        entropy.masked_fill_(expand_mask, 0)
        mean_entropy = entropy.sum() / (~padding_mask).sum()
        return mean_entropy

    def translate_dataset(
        self,
        sentences: List[str],
        max_length: int = 128
    ) -> List[str]:
        """Translate dataset using online speculative decoding."""

        self.iteration_count = 0
        self.replay_buffer = []

        translated_data = []

        for source_text in sentences:
            # Encode source text
            encoder_inputs = self.tokenizer(
                f"translate English to German: {source_text}",
                return_tensors="pt",
                padding=True
            ).to(self.device)

            # Initialize with start token
            decoder_input_ids = torch.tensor([[self.tokenizer.pad_token_id]], device=self.device)
            self.temp_buffer = []

            while decoder_input_ids.shape[1] < max_length:

                # Check for end of sequence
                if decoder_input_ids[0][-1].item() == self.tokenizer.eos_token_id:
                    break

                # Get draft tokens autoregressively
                # print("Encoder Inputs", encoder_inputs.input_ids.shape)
                draft_tokens, draft_probs, proposed_decoder_ids, draft_logits = self.get_draft_logits(
                    encoder_inputs.input_ids,
                    encoder_inputs.attention_mask,
                    decoder_input_ids,
                    self.gamma
                )

                draft_tokens = torch.tensor(draft_tokens, device=self.device)
                draft_probs = torch.tensor(draft_probs, device=self.device)

                if len(draft_tokens) == 0:
                    break

                # Get target probabilities in parallel
                target_probs, target_logits = self.get_target_probs(
                    encoder_inputs.input_ids,
                    encoder_inputs.attention_mask,
                    decoder_input_ids,
                    draft_tokens
                )
                # print(draft_logits.shape, target_logits.shape)

                # Verify tokens
                n_accepted = self.verify_tokens(target_probs, draft_tokens, draft_probs)

                # Accept verified tokens
                if n_accepted > 0:
                    decoder_input_ids = torch.cat([
                        decoder_input_ids,
                        draft_tokens[:n_accepted].unsqueeze(0)
                    ], dim=1)

                with torch.no_grad():
                    # print(target_logits.shape, draft_logits.shape)
                    probs = target_logits[:, -1, :] #- draft_logits[:, -1, :]
                    probs = F.softmax(probs, dim=-1)
                    token_id = torch.multinomial(probs, num_samples=1)
                    # print(probs.shape, token_id.shape)
                    decoder_input_ids = torch.cat([decoder_input_ids, token_id], dim=1)
                
                # rejected_tokens = draft_tokens[n_accepted]
                if n_accepted < len(draft_tokens):

                    self.temp_buffer.append((encoder_inputs, decoder_input_ids, target_logits, n_accepted))

            self.replay_buffer.extend(self.temp_buffer)
            self.iteration_count += 1

            if self.iteration_count % self.update_interval == 0:
                # self.update_draft_model()
                self.draft_model.train()
                
                # finetune over collected tokens and logits
                encoder_input_ids = self.pad_to_2d([x[0].input_ids for x in self.replay_buffer], 0)
                encoder_attention_mask = torch.stack([x[0].attention_mask[0] for x in self.replay_buffer], dim=0)
                decoder_input_ids = self.pad_to_2d([x[1] for x in self.replay_buffer], 0, 512)

                print(encoder_input_ids.shape, encoder_attention_mask.shape, decoder_input_ids.shape)

                target_logits = [x[2] for x in self.replay_buffer]
                for i in range(len(target_logits)):
                    temp = torch.zeros(1, 32128, device=self.device).repeat(512 - target_logits[i].shape[1], 1).unsqueeze(0)
                    target_logits[i] = torch.cat([target_logits[i], temp], dim=1)

                n_accepted_tokens = [x[3] for x in self.replay_buffer]

                # CUDA out of memory error
                draft_logits = self.get_logits(self.draft_model, encoder_input_ids, encoder_attention_mask, decoder_input_ids).float()

                # need to get loss only using the wrong tokens
                # TODO: check if we need to ignore the pad tokens in the mask
                mask = torch.ones_like(decoder_input_ids, dtype=torch.bool)
                for i in range(len(n_accepted_tokens)):
                    mask[i, n_accepted_tokens[i]:] = False
                loss = self.soft_cross_entropy(draft_logits, target_logits, mask)
                loss.backward()

                self.draft_model.eval()
                self.replay_buffer = []
                self.iteration_count = 0

            # Decode translation
            translation = self.tokenizer.decode(
                decoder_input_ids[0],
                skip_special_tokens=True,
                clean_up_tokenization_spaces=True
            )
            translated_data.append(translation)
        return translated_data

In [8]:
# Initialize decoder
online_decoder = OnlineSpeculativeDecoder()

# Example translation
source_text = "In a world where technology evolves at an unprecedented pace, individuals and organizations must adapt quickly to the rapid advancements in artificial intelligence, machine learning, and automation, ensuring that ethical considerations, environmental sustainability, and equitable access to resources are prioritized to create a future that benefits all of humanity."
sents = [source_text] * 10
# Time the translation
start_time = time.time()
translation = online_decoder.translate_dataset(sents)
end_time = time.time()

for i, sent in enumerate(sents):
    print(f"Source: {sent}")
    print(f"Translation: {translation[i]}\n")
print(f"Time taken: {end_time - start_time:.2f} seconds")

spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.39M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.21k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.95G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/147 [00:00<?, ?B/s]

torch.Size([28, 69]) torch.Size([28, 69]) torch.Size([28, 512])


OutOfMemoryError: CUDA out of memory. Tried to allocate 56.00 MiB. GPU 0 has a total capacity of 10.75 GiB of which 40.50 MiB is free. Including non-PyTorch memory, this process has 10.71 GiB memory in use. Of the allocated memory 9.81 GiB is allocated by PyTorch, and 111.82 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)