#### !nvidia-smi

In [2]:
# !pip install datasets 
# !pip install ipywidgets widgetsnbextension pandas-profiling
# !pip install peft
# !pip install trl
# !pip install transformers[torch] -U
# !pip install accelerate -U
# !pip install bitsandbytes

# # be sure to install right flash-attn, we use torch compiled with CUDA 12.1, no ABI, python 3.9, Linux x86_64 architecture
# !pip install flash-attn -U --no-build-isolation
 
# !pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.5.3/flash_attn-2.5.3+cu122torch2.2cxx11abiFALSE-cp310-cp310-linux_x86_64.whl --no-build-isolation 

In [3]:
# !pip install transformers

### Clean GPU

In [1]:
# # Run this to clean GPU memory
import torch
from numba import cuda
device = cuda.get_current_device()
device.reset()
torch.cuda.empty_cache()

In [2]:
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig,HfArgumentParser,TrainingArguments,pipeline, logging
from peft import LoraConfig, PeftModel, prepare_model_for_kbit_training, get_peft_model
import os,torch
from accelerate import Accelerator
from trl import SFTTrainer
from datasets import Dataset, load_dataset, load_from_disk
import copy

## Load dataset & configure templates

- *Can be skipped if dataset already on disk* 

In [8]:
dataset = load_dataset("json",name="SumeCzech", data_files="./sumeczech/sumeczech-1.0-test.jsonl", split="train", num_proc=64)
# dataset = load_dataset("json",name="TranslatedInstruct", data_files="./datasets/translated_dataset.jsonl", split="train")
dataset = dataset.shuffle(seed=69)
print(len(dataset))

44454


In [9]:
# use only first 1000 examples
dataset = dataset.select(range(1000))

In [10]:
import random

def formatting_prompts_func(example, in_type, out_type):
    """
    Prepare the input text for the model
    in_type: ["abstract", "text"] what to summarize from
    out_type: ["abstract","headline"] what to summarize to
    """

    try:
        in_text = example[in_type]
        out_text = example[out_type]
    except:
        print("ERROR")
        print(example)

    def param_type_to_czech(param_type):
        if param_type == "abstract":
            return "abstrakt"
        elif param_type == "headline":
            return "nadpis"
        else:
            return param_type

    task_instructions = {
        ("text", "abstract"): [
            "Sumarizuj vstupní {in_type} na stručný {out_type}.",
#             "Vytvoř výstižný {out_type} na základě zadaného {in_type}.",
            "Přeformuluj zadaný {in_type} na stručný {out_type}.",
            "Zpracuj vstupní {in_type} a napiš výstižný {out_type}.",
#             "Shrň podstatné informace ze vstupního {in_type} do {out_type}."
        ],
        ("text", "headline"): [
            "Sumarizuj vstupní {in_type} na výstižný {out_type}.",
#             "Vytvoř poutavý {out_type} na základě zadaného {in_type}.",
            "Přeformuluj zadaný {in_type} na stručný {out_type}.",
            "Zpracuj vstupní {in_type} a napiš výstižný {out_type}.",
#             "Shrň podstatné informace ze vstupního {in_type} do poutavého {out_type}."
        ],
        ("abstract", "headline"): [
            "Sumarizuj vstupní {in_type} na výstižný {out_type}.",
#             "Vytvoř poutavý {out_type} na základě zadaného {in_type}.",
            "Přeformuluj zadaný {in_type} na stručný {out_type}.",
            "Zpracuj vstupní {in_type} a napiš výstižný {out_type}.",
#             "Shrň podstatné informace ze vstupního {in_type} do poutavého {out_type}."
        ]
    }

    task_instruction = random.choice(task_instructions[(in_type, out_type)]).format(
        in_type=param_type_to_czech(in_type),
        out_type=param_type_to_czech(out_type))
    
    return {
        "messages": [
            {"role": "system", "content": task_instruction},
            {"role": "user", "content": in_text},
            {"role": "assistant", "content": out_text}
        ]
    } 

#     text = f"""### Instrukce:
# {task_instruction}

# ### Vstup:
# {in_text}

# ### Výstup:
# {out_text}
# <|endoftext|>[EOS]"""

#     text = f"""<|begin_of_text|><|start_header_id|>system<|end_header_id|>

# { task_instruction }<|eot_id|><|start_header_id|>user<|end_header_id|>

# { in_text }<|eot_id|><|start_header_id|>assistant<|end_header_id|>

# {{ model_answer_1 }}<|eot_id|><|start_header_id|>user<|end_header_id|>"""

#     return {"text": text}

### Data preparation for sumeczech

In [12]:
dataset_text_to_abstract = copy.deepcopy(dataset)
dataset_abstract_to_headline = copy.deepcopy(dataset)
dataset_text_to_headline = copy.deepcopy(dataset)

In [13]:
# transform dataset so it has only field "text" with formatted prompts
dataset_text_to_abstract = dataset_text_to_abstract.map(
    formatting_prompts_func,
    remove_columns=dataset_text_to_abstract.column_names,
    num_proc=64,
    batched=False,
    fn_kwargs={"in_type":"text", "out_type": "abstract"}
)
dataset_abstract_to_headline = dataset_abstract_to_headline.map(
    formatting_prompts_func,
    remove_columns=dataset_abstract_to_headline.column_names,
    num_proc=64,
    batched=False,
    fn_kwargs={"in_type":"abstract", "out_type": "headline"}
)
dataset_text_to_headline = dataset_text_to_headline.map(
    formatting_prompts_func,
    remove_columns=dataset_text_to_headline.column_names,
    num_proc=64,
    batched=False,
    fn_kwargs={"in_type":"text", "out_type": "headline"}
)

In [14]:
print(dataset_text_to_abstract[69]["messages"])

[{'content': 'Zpracuj vstupní text a napiš výstižný abstrakt.', 'role': 'system'}, {'content': 'Alena Valterová přitom bývala svého času docela známá postava, hlavně když hned\npo roce 1989 založila Politickou stranu žen a matek. V posledních letech\nvšak na politiku rezignovala, žila spíše v izolaci a snažila se hlavně vydělávat\nna sebe i své poslední nezaopatřené dítě. Celkem měla se dvěma manžely čtyři\nděti a vychovávala je v podstatě sama.\nJe tomu něco přes rok, co jsem s paní Valterovou dělala rozhovor pro\nčasopis Marianne. Ten ale nikdy nevyšel. Proč? Požadavek redakce zněl: "Přepiš\nto tak, aby bylo vidět, že si svůj život voře sama." Hm. To se mi příčilo – na\njednu stranu jsem si sice trošinku myslela, že si toho Alena Valterová nemusela\nna svá bedra nakládat tolik, ale na druhé straně se podle mě jen dožadovala\npodpory, na kterou měla coby matka čtyř dětí od společnosti nárok. Dělala to\novšem donkichotsky, s ohnivým rozhořčením, protože se upínala k vizi, ve\nkterou kr

In [15]:
print(dataset_abstract_to_headline[69]["messages"])

[{'content': 'Zpracuj vstupní abstrakt a napiš výstižný nadpis.', 'role': 'system'}, {'content': 'Je to už pár týdnů, co jsem se dozvěděla, že zemřela paní Alena Valterová. Od paní Zdenky Petákové, která se chystala napsat nekrolog, ale také už s odstupem mnoha měsíců. V druhé půlce roku 2008, kdy dobrovolně odešla ze života ve věku 55 let, totiž nikdo tuhle smutnou zprávu nešířil.', 'role': 'user'}, {'content': 'Dožívají se feministky v průměru nižšího věku?', 'role': 'assistant'}]


In [16]:
print(dataset_text_to_headline[69]["messages"])

[{'content': 'Zpracuj vstupní text a napiš výstižný nadpis.', 'role': 'system'}, {'content': 'Alena Valterová přitom bývala svého času docela známá postava, hlavně když hned\npo roce 1989 založila Politickou stranu žen a matek. V posledních letech\nvšak na politiku rezignovala, žila spíše v izolaci a snažila se hlavně vydělávat\nna sebe i své poslední nezaopatřené dítě. Celkem měla se dvěma manžely čtyři\nděti a vychovávala je v podstatě sama.\nJe tomu něco přes rok, co jsem s paní Valterovou dělala rozhovor pro\nčasopis Marianne. Ten ale nikdy nevyšel. Proč? Požadavek redakce zněl: "Přepiš\nto tak, aby bylo vidět, že si svůj život voře sama." Hm. To se mi příčilo – na\njednu stranu jsem si sice trošinku myslela, že si toho Alena Valterová nemusela\nna svá bedra nakládat tolik, ale na druhé straně se podle mě jen dožadovala\npodpory, na kterou měla coby matka čtyř dětí od společnosti nárok. Dělala to\novšem donkichotsky, s ohnivým rozhořčením, protože se upínala k vizi, ve\nkterou krom

In [17]:
from datasets import concatenate_datasets

dataset_new = concatenate_datasets([dataset_text_to_abstract, dataset_abstract_to_headline, dataset_text_to_headline])

In [None]:
dataset_new.save_to_disk("datasets/sumeczech-test-Llama-3t-prompt-format", num_proc=64)
print(dataset_new)
# TODO: filter to max 2k sequence

Saving the dataset (0/64 shards):   0%|          | 0/3000 [00:00<?, ? examples/s]

Saving the dataset (0/64 shards):   0%|          | 0/3000 [00:00<?, ? examples/s]

## Load model & configure training 
- load model into the GPU
- confogire LORA

In [13]:
base_model_name = "meta-llama/Meta-Llama-3-8B-Instruct"
new_model_path = "Llama-3-8b-ft-Sumeczech"

from huggingface_hub import login
login(token="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") # HF token TODO: zahodit do pice lebo public repo xd

Token has not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /storage/praha1/home/jurajdedic/.cache/huggingface/token
Login successful


In [4]:
import transformers

config = transformers.AutoConfig.from_pretrained(base_model_name, trust_remote_code=True)
model = transformers.AutoModelForCausalLM.from_pretrained(
    base_model_name,
    config=config,
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
)

tokenizer = transformers.AutoTokenizer.from_pretrained(
    base_model_name, 
    trust_remote_code=True,
    padding="max_length"
)

model.config.pretraining_tp = 1
# model.gradient_checkpointing_enable()


Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [5]:
# tokenizer.padding_side = 'right'
tokenizer.pad_token = tokenizer.eos_token
# tokenizer.add_eos_token = True
# tokenizer.bos_token, tokenizer.eos_token

In [7]:
print(model)

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(128256, 4096)
    (layers): ModuleList(
      (0-31): 32 x LlamaDecoderLayer(
        (self_attn): LlamaSdpaAttention(
          (q_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (k_proj): Linear(in_features=4096, out_features=1024, bias=False)
          (v_proj): Linear(in_features=4096, out_features=1024, bias=False)
          (o_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear(in_features=4096, out_features=14336, bias=False)
          (up_proj): Linear(in_features=4096, out_features=14336, bias=False)
          (down_proj): Linear(in_features=14336, out_features=4096, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): LlamaRMSNorm()
        (post_attention_layernorm): LlamaRMSNorm()
      )
    )
    (norm): LlamaRMSNorm()
  )
  (lm_head)

### Filtering the dataset using tokenizer

- *Can be skipped if dataset already on disk*

In [6]:
def is_good_length(example):
    messages = example['messages']
    
    text_ids = tokenizer.apply_chat_template(messages, tokenize=True, return_tensors="pt", padding=True)
    
    encoded_length = text_ids.shape[1]
    
    if encoded_length < (2048):
        return True
    return False

In [28]:
print("Dataset samples before filtering:", len(dataset_new))
dataset_new = dataset_new.filter(is_good_length, num_proc=64)
print("Dataset samples after filtering:", len(dataset_new))

Dataset samples before filtering: 3000


Filter (num_proc=64):   0%|          | 0/3000 [00:00<?, ? examples/s]

Dataset samples after filtering: 2881


In [131]:
print(dataset)

Dataset({
    features: ['messages'],
    num_rows: 129104
})


In [29]:
dataset_new.save_to_disk("datasets/sumeczech-test-Llama-3t-prompt-format", num_proc=64)

Saving the dataset (0/64 shards):   0%|          | 0/2881 [00:00<?, ? examples/s]

### If processed dataset on disk use this to load

In [7]:
dataset = load_from_disk("datasets/sumeczech-full-filter-Llama-3t-prompt-format")

dataset_eval = load_from_disk("datasets/sumeczech-test-Llama-3t-prompt-format")

Loading dataset from disk:   0%|          | 0/64 [00:00<?, ?it/s]

Loading dataset from disk:   0%|          | 0/64 [00:00<?, ?it/s]

In [8]:
print(dataset)
print(dataset_eval)

Dataset({
    features: ['messages'],
    num_rows: 129104
})
Dataset({
    features: ['messages'],
    num_rows: 2881
})


In [9]:
import torch
from transformers import Conv1D

def get_specific_layer_names(model):
    # Create a list to store the layer names
    layer_names = []
    
    # Recursively visit all modules and submodules
    for name, module in model.named_modules():
        # Check if the module is an instance of the specified layers
        if isinstance(module, (torch.nn.Linear, torch.nn.Embedding, torch.nn.Conv2d, Conv1D)):
            # model name parsing 

            layer_names.append('.'.join(name.split('.')[4:]).split('.')[0])
    
    return layer_names

list(set(get_specific_layer_names(model)))

['',
 'gate_proj',
 'up_proj',
 'k_proj',
 'v_proj',
 'o_proj',
 'q_proj',
 'down_proj']

In [10]:
print(model)

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(128256, 4096)
    (layers): ModuleList(
      (0-31): 32 x LlamaDecoderLayer(
        (self_attn): LlamaSdpaAttention(
          (q_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (k_proj): Linear(in_features=4096, out_features=1024, bias=False)
          (v_proj): Linear(in_features=4096, out_features=1024, bias=False)
          (o_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear(in_features=4096, out_features=14336, bias=False)
          (up_proj): Linear(in_features=4096, out_features=14336, bias=False)
          (down_proj): Linear(in_features=14336, out_features=4096, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): LlamaRMSNorm()
        (post_attention_layernorm): LlamaRMSNorm()
      )
    )
    (norm): LlamaRMSNorm()
  )
  (lm_head)

In [11]:
peft_config = LoraConfig(
    lora_alpha=32, # TODO: Mozno zmenit
    lora_dropout=0.02,
    r=16, # TODO: Mozno zmenit
    bias="none",
    task_type="CAUSAL_LM",
    target_modules=["up_proj", "down_proj", "k_proj", "q_proj", "v_proj", "o_proj", 'gate_proj'] #TODO: wte maybe
)
model = get_peft_model(model, peft_config)

In [None]:
# Hyperparameters
training_arguments = TrainingArguments(
    output_dir="./results",
    num_train_epochs=2, # TODO: uvidime kolko bude stacit
    per_device_train_batch_size=1, # TODO: mozno zmenit
    gradient_accumulation_steps=1, # TODO: mozno zmenit
    optim="paged_adamw_32bit", # adamw_torch_fused
    save_strategy="epoch",
    evaluation_strategy="steps",
    eval_steps=1000,
    logging_steps=50,
    learning_rate=3e-5,
    weight_decay=0.000025,
    fp16=False,
    bf16=True,
    max_grad_norm=0.3,
    max_steps=-1,
    warmup_ratio=0.06,
    group_by_length=False, #could cause the oscillation in loss (https://github.com/artidoro/qlora/issues/228)
    lr_scheduler_type="constant",
    report_to="tensorboard",
)

# Setting sft parameters
trainer = SFTTrainer(
    model=model,
    train_dataset=dataset,
    eval_dataset=dataset_eval,
    peft_config=peft_config,
    max_seq_length= 2048, # maximum pre BUT Tiny LLama
    tokenizer=tokenizer,
    args=training_arguments,
    packing=False,
#     dataset_text_field="text",
#     neftune_noise_alpha=5, #should improve the performance but needs to be tested
)

Map:   0%|          | 0/129104 [00:00<?, ? examples/s]

## Train

In [None]:
def print_trainable_parameters(model):
    """
    Prints the number of trainable parameters in the model.
    """
    trainable_params = 0
    all_param = 0
    for _, param in model.named_parameters():
        all_param += param.numel()
        if param.requires_grad:
            trainable_params += param.numel()
    print(
        f"trainable params: {trainable_params} || all params: {all_param} || trainable%: {100 * trainable_params / all_param}"
    )

print_trainable_parameters(trainer.model)

print("Training...")
trainer.train()

## Save the model

In [None]:
trainer.model.save_pretrained(new_model_path)
trainer.tokenizer.save_pretrained(new_model_path)

## Preparing for inference

- build prompt
- load the saved model

In [5]:
# test_dataset = load_from_disk("datasets/sumeczech_test-40k-3t-prompt-format-filter_1.5kseq")
# print(len(test_dataset))

Loading dataset from disk:   0%|          | 0/64 [00:00<?, ?it/s]

129356


In [12]:
from huggingface_hub import login
login(token="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") # HF token TODO: zahodit do pice lebo public repo xd

Token has not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /storage/praha1/home/jurajdedic/.cache/huggingface/token
Login successful


In [14]:
base_model = AutoModelForCausalLM.from_pretrained(
    base_model_name, 
    device_map="auto",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
)
base_model.tie_weights()

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

In [16]:
lora_config = LoraConfig.from_pretrained(new_model_path)
new_model = get_peft_model(base_model, lora_config)
new_model.bfloat16()

PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): LlamaForCausalLM(
      (model): LlamaModel(
        (embed_tokens): Embedding(128256, 4096)
        (layers): ModuleList(
          (0-31): 32 x LlamaDecoderLayer(
            (self_attn): LlamaSdpaAttention(
              (q_proj): lora.Linear(
                (base_layer): Linear(in_features=4096, out_features=4096, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.02, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=4096, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=4096, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
              )
              (k_proj): lora.Linear(
                (base_layer): Linear(in_features

In [17]:
new_tokenizer = AutoTokenizer.from_pretrained(new_model_path)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [18]:
logging.set_verbosity(logging.CRITICAL)
# pipe = pipeline(task="text-generation", model=new_model, tokenizer=new_tokenizer, torch_dtype=torch.bfloat16, device_map="auto", max_length=256)

### Pick the input sample

In [44]:
example = dataset_eval[1950]["messages"][:2]
# example = example_raw.split("### Výstup:")[0] + "### Výstup:"
print(example)
# print(example_raw.split("### Výstup:")[1])

[{'content': 'Přeformuluj zadaný text na stručný nadpis.', 'role': 'system'}, {'content': 'Vleče se to jako na magistrátu. I takový příměr by se v Praze mohl ujmout kvůli tomu, jak dlouho trvá vyjednávání o nové koalici. Ta původní se rozpadla na začátku listopadu. A ani nyní v lednu není jisté, jak bude nová vláda složená.Navenek se TOP 09, ODS, Trojkoalice, nezávislí exprimátora Tomáše Hudečka a piráti tváří, že jednání běží hladce dál. Vnitřní vztahy však již zasáhly spory o program.Přesto v pondělí předseda klubu TOP 09 Václav Novotný oznámil, že se posunuli o krok dál. "Už jsme ve fázi, kdy můžeme vytvořit další skupinu, která se jmenuje koaliční mechanismy. Z toho vidíte, že směřujeme ke konkrétní konstrukci koalice," uvedl Novotný.Primátorem by se mohl stát exnáměstek Jiří Nouza či Václav Novotný. Rozložení sil v radě třeba lídr Trojkoalice Petr Štěpánek (SZ) nekomentoval, nicméně by v ní měla usednout TOP 09, Trojkoalice a piráti. ODS a nezávislí "hudečkovci" budou jejich menši

In [45]:
terminators = [
    new_tokenizer.eos_token_id,
#     pipe.tokenizer.convert_tokens_to_ids("."),
    new_tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

In [21]:
# def get_tokens_as_list(word_list):
#     "Converts a sequence of words into a list of tokens"
#     tokens_list = []
#     for word in word_list:
#         tokenized_word = new_tokenizer([word], add_special_tokens=False).input_ids[0]
#         tokens_list.append(tokenized_word)
#     return tokens_list


# bad_words_ids = get_tokens_as_list(word_list=["#"])

### Pipeline - use generate since pipe is wrapper around generate

### Encode the input sample

In [46]:
example_encoded = new_tokenizer.apply_chat_template(example, tokenize=True, return_tensors="pt", padding=True).to(torch.device("cuda"))
print(example)

[{'content': 'Přeformuluj zadaný text na stručný nadpis.', 'role': 'system'}, {'content': 'Vleče se to jako na magistrátu. I takový příměr by se v Praze mohl ujmout kvůli tomu, jak dlouho trvá vyjednávání o nové koalici. Ta původní se rozpadla na začátku listopadu. A ani nyní v lednu není jisté, jak bude nová vláda složená.Navenek se TOP 09, ODS, Trojkoalice, nezávislí exprimátora Tomáše Hudečka a piráti tváří, že jednání běží hladce dál. Vnitřní vztahy však již zasáhly spory o program.Přesto v pondělí předseda klubu TOP 09 Václav Novotný oznámil, že se posunuli o krok dál. "Už jsme ve fázi, kdy můžeme vytvořit další skupinu, která se jmenuje koaliční mechanismy. Z toho vidíte, že směřujeme ke konkrétní konstrukci koalice," uvedl Novotný.Primátorem by se mohl stát exnáměstek Jiří Nouza či Václav Novotný. Rozložení sil v radě třeba lídr Trojkoalice Petr Štěpánek (SZ) nekomentoval, nicméně by v ní měla usednout TOP 09, Trojkoalice a piráti. ODS a nezávislí "hudečkovci" budou jejich menši

### usable output

In [47]:
with torch.cuda.amp.autocast():
    generation_output = new_model.generate(
        input_ids=example_encoded,
        max_new_tokens=256,
#         num_beams=5,
        do_sample=True,
#         top_k=10,
        temperature=0.6,
        top_p=0.9,
#         top_p=0.975,
#         temperature=0.1,
#         repetition_penalty=1.2,
#         penalty_alpha=0.6,
        num_return_sequences=1,
#       eos_token_id=terminators,
        eos_token_id=terminators,
    )
op = new_tokenizer.decode(generation_output[0], skip_special_tokens=False)
print(op)

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Přeformuluj zadaný text na stručný nadpis.<|eot_id|><|start_header_id|>user<|end_header_id|>

Vleče se to jako na magistrátu. I takový příměr by se v Praze mohl ujmout kvůli tomu, jak dlouho trvá vyjednávání o nové koalici. Ta původní se rozpadla na začátku listopadu. A ani nyní v lednu není jisté, jak bude nová vláda složená.Navenek se TOP 09, ODS, Trojkoalice, nezávislí exprimátora Tomáše Hudečka a piráti tváří, že jednání běží hladce dál. Vnitřní vztahy však již zasáhly spory o program.Přesto v pondělí předseda klubu TOP 09 Václav Novotný oznámil, že se posunuli o krok dál. "Už jsme ve fázi, kdy můžeme vytvořit další skupinu, která se jmenuje koaliční mechanismy. Z toho vidíte, že směřujeme ke konkrétní konstrukci koalice," uvedl Novotný.Primátorem by se mohl stát exnáměstek Jiří Nouza či Václav Novotný. Rozložení sil v radě třeba lídr Trojkoalice Petr Štěpánek (SZ) nekomentoval, nicméně by v ní měla usednout TOP 09, Trojk

## Notes

Prvé trénovanie:
 -   alpha: 16, r: 8, batch_size: 4
 - výsledky: nanič
 - pri trénovaní sa loss postupne znižovala z 3.1 na 1.7, nasledoval spike na cca 2.8 potom loss postupne klesal 
 - a toto sa opakovalo do konca (250 krokov, cca 4 takéto spiky)
 
Ďalšie pokusy:
 - len ABSTRACT2HEADLINE
 - alpha: 16, r: 64, batch_size:8, group_by_length = False
 - opäť neúspech, menej oscilácie v loss
 
 - možno zaujímavé pozireť aj: https://github.com/philschmid/deep-learning-pytorch-huggingface/blob/main/training/peft-flan-t5-int8-summarization.ipynb
   - trénujú to cez Sequence2SequenceTrainer

In [70]:
print(new_tokenizer)

PreTrainedTokenizerFast(name_or_path='csmpt7b-ft-SumeCzech', vocab_size=64000, model_max_length=2048, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'eos_token': '[EOS]', 'unk_token': '[UNK]', 'pad_token': '[EOS]'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("<|endoftext|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	64000: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	64001: AddedToken("[EOS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}


In [None]:
new_tokenizer.decode(torch.tensor([2]), skip_special_tokens=False)