In [4]:
!nvidia-smi

Mon Apr 29 23:34:13 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.14              Driver Version: 550.54.14      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  NVIDIA A40                     On  |   00000000:61:00.0 Off |                    0 |
|  0%   59C    P0             86W /  300W |   45297MiB /  46068MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                

In [2]:
# !pip install datasets 
# !pip install ipywidgets widgetsnbextension pandas-profiling
# !pip install peft
# !pip install trl
# !pip install transformers[torch] -U
# !pip install accelerate -U
# !pip install bitsandbytes

# be sure to install right flash-attn, we use torch compiled with CUDA 12.1, no ABI, python 3.9, Linux x86_64 architecture
#!pip install flash-attn -U --no-build-isolation
 
# !pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.5.3/flash_attn-2.5.3+cu122torch2.2cxx11abiFALSE-cp310-cp310-linux_x86_64.whl --no-build-isolation 

### Clean GPU

In [1]:
# # Run this to clean GPU memory
import torch
from numba import cuda
device = cuda.get_current_device()
device.reset()
torch.cuda.empty_cache()

In [2]:
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig,HfArgumentParser,TrainingArguments,pipeline, logging
from peft import LoraConfig, PeftModel, prepare_model_for_kbit_training, get_peft_model
import os,torch
from accelerate import Accelerator
from trl import SFTTrainer
from datasets import Dataset, load_dataset, load_from_disk
import copy

## Load dataset & configure templates

- *Can be skipped if dataset already on disk* 

In [None]:
# dataset = load_dataset("json",name="SumeCzech", data_files="./sumeczech/sumeczech-1.0-dev.jsonl", split="train", num_proc=32)
dataset = load_dataset("json",name="TranslatedInstruct", data_files="./sumeczech/sumeczech-1.0-dev.jsonl", split="train")
print(len(dataset))

In [5]:
# # use only first 1000 examples
dataset = dataset.select(range(40000))

In [None]:
def formatting_prompts_func(example, in_type, out_type):
    """
    Prepare the input text for the model
    in_type: ["abstract", "text"] what to summarize from
    out_type: ["abstract","headline"] what to summarize to
    """

    try:
        in_text = example[in_type]
        out_text = example[out_type]
    except:
        print("ERROR")
        print(example)
    
    def param_type_to_czech(param_type):
        if param_type == "abstract":
            return "abstrakt"
        elif param_type == "headline":
            return "nadpis"
        else:
            return param_type
    
    text = """### Instrukce:
Použij zadaný vstup a napiš stručný výstup k splnění níže uvedeného úkolu:

### Úkol:
Sumarizuj vstupní {in_type} na {out_type}.

### Vstup:
{in_text}

### Výstup:
{out_text}
<|endoftext|>[EOS]""".format(
        in_type=param_type_to_czech(in_type), 
        out_type=param_type_to_czech(out_type),
        in_text=in_text,
        out_text=out_text,
    )
    
    
    
    return {"text": text}

### Data preparation for sumeczech

In [13]:
# dataset_text_to_abstract = copy.deepcopy(test_dataset)
# dataset_abstract_to_headline = copy.deepcopy(test_dataset)
# dataset_text_to_headline = copy.deepcopy(test_dataset)

In [14]:
# transform dataset so it has only field "text" with formatted prompts
dataset_text_to_abstract = dataset_text_to_abstract.map(
    formatting_prompts_func,
    remove_columns=dataset_text_to_abstract.column_names,
    num_proc=64,
    batched=False,
    fn_kwargs={"in_type":"text", "out_type": "abstract"}
)
dataset_abstract_to_headline = dataset_abstract_to_headline.map(
    formatting_prompts_func,
    remove_columns=dataset_abstract_to_headline.column_names,
    num_proc=64,
    batched=False,
    fn_kwargs={"in_type":"abstract", "out_type": "headline"}
)
dataset_text_to_headline = dataset_text_to_headline.map(
    formatting_prompts_func,
    remove_columns=dataset_text_to_headline.column_names,
    num_proc=64,
    batched=False,
    fn_kwargs={"in_type":"text", "out_type": "headline"}
)

Map (num_proc=64):   0%|          | 0/44454 [00:00<?, ? examples/s]

Map (num_proc=64):   0%|          | 0/44454 [00:00<?, ? examples/s]

Map (num_proc=64):   0%|          | 0/44454 [00:00<?, ? examples/s]

In [15]:
print(dataset_text_to_abstract[69]["text"])

### Instrukce:
Použij zadaný vstup a napiš stručný výstup k splnění níže uvedeného úkolu:

### Úkol:
Sumarizuj vstupní text na abstrakt.

### Vstup:
Výrobci se podle KPMG stále více orientují na klasické problémy, jako jsou růst na rozvíjejících se trzích, optimalizace spalovacích motorů, standardizované platformy nebo racionalizace produkce. V porovnání s loňským průzkumem značně klesla očekávání kladená na služby mobility, ale překvapivě také konektivitu aut a technologie samořiditelných automobilů.Hledáte nové auto a nechce se vám běhat po autobazarech? Vyberte si svůj nový vůz z nejširší nabídky na trhu v klidu domova na Automodul.cz."Zdá se, že většina respondentů nedoceňuje důležitost technologií připojení vozidel na internet a automatického řízení, i když si jsou vědomi toho, že tyto trendy jsou nejvíce vidět a přitahují nejvíce pozornosti ze strany průmyslu a médií," uvedl partner v české pobočce KPMG Jan Linhart, odpovědný za služby pro automobilový průmysl. Například samořidi

In [16]:
print(dataset_abstract_to_headline[69]["text"])

### Instrukce:
Použij zadaný vstup a napiš stručný výstup k splnění níže uvedeného úkolu:

### Úkol:
Sumarizuj vstupní abstrakt na nadpis.

### Vstup:
Při rozhodování o koupi nového vozu se dvě třetiny zájemců rozhodují podle spotřeby a přes polovinu jich přihlíží k životnosti a bezpečnostním inovacím. Naopak alternativní paliva a připojení k internetu jsou spíše na okraji zájmu. Vyplývá to z průzkumu poradenské firmy KPMG mezi 200 manažery velkých automobilek.

### Výstup:
O internet v autě je menší zájem, než se čekalo
<|endoftext|>[EOS]


In [17]:
print(dataset_text_to_headline[69]["text"])

### Instrukce:
Použij zadaný vstup a napiš stručný výstup k splnění níže uvedeného úkolu:

### Úkol:
Sumarizuj vstupní text na nadpis.

### Vstup:
Výrobci se podle KPMG stále více orientují na klasické problémy, jako jsou růst na rozvíjejících se trzích, optimalizace spalovacích motorů, standardizované platformy nebo racionalizace produkce. V porovnání s loňským průzkumem značně klesla očekávání kladená na služby mobility, ale překvapivě také konektivitu aut a technologie samořiditelných automobilů.Hledáte nové auto a nechce se vám běhat po autobazarech? Vyberte si svůj nový vůz z nejširší nabídky na trhu v klidu domova na Automodul.cz."Zdá se, že většina respondentů nedoceňuje důležitost technologií připojení vozidel na internet a automatického řízení, i když si jsou vědomi toho, že tyto trendy jsou nejvíce vidět a přitahují nejvíce pozornosti ze strany průmyslu a médií," uvedl partner v české pobočce KPMG Jan Linhart, odpovědný za služby pro automobilový průmysl. Například samořidite

In [18]:
from datasets import concatenate_datasets

dataset_new = concatenate_datasets([dataset_text_to_abstract, dataset_abstract_to_headline, dataset_text_to_headline])

### Data preparation for instruct translated

In [7]:
def formatting_prompts_func(example):
    """
    Prepare the input text for the model
    """
    sys_val = example["conversations"][0]["value"]
    input_text = example["conversations"][1]["value"]
    response = example["conversations"][2]["value"]
#     in_text="###MISSING###"
#     out_text="###MISSING###"
    
#     try:
#         in_text = example['abstract']
#         out_text = example['headline']
#     except:
# #         print("hehe something went wrong")
#         pass
    return {"text": 
f"""### System:
{sys_val}

### Uživatel:
{input_text}

### Asistent:
{response}
<|endoftext|>[EOS]"""}

In [8]:
# transform dataset so it has only field "text" with formatted prompts
dataset = dataset.map(
    formatting_prompts_func,
    remove_columns=dataset.column_names,
    num_proc=64,
    batched=False,
)

In [12]:
print(dataset[41]["text"])

### System:
Jsi asistentka AI. Uživatel vám dá úkol. Vaším cílem je dokončit úkol tak věrně, jak můžete. Při plnění úkolu myslet krok za krokem a ospravedlnit své kroky.

### Uživatel:
Odpovězte na otázku.

Co je nejvíce pravděpodobné, že celkový výsledek z hodu pár kostek?

### Asistent:
Abychom mohli odpovědět na tuto otázku, musíme najít součet, který se vyskytuje nejčastěji při házení pár kostek. Takhle to děláme krok za krokem:

Krok 1: Pochopte problém
Máme dvě kostky, každá má 6 tváří očíslovaných od 1 do 6. Musíme najít nejpravděpodobnější součet, když jsou obě kostky hozeny.

Krok 2: Vypočítejte možné výsledky
Na každé zemře celkem 6 tváří, takže při házení dvou kostek máme 6 x 6 = 36 možných výsledků.

Krok 3: Určete součty
Seznam všech možných kombinací a jejich součtů při házení dvou kostek:

(1,1) = 2
(1, 2) = 3
(1, 3) = 4
(1, 4) = 5
(1,5) = 6
(1, 6) = 7
(2,1) = 3
(2, 2) = 4
(2, 3) = 5
(2, 4) = 6
(2,5) = 7
(2, 6) = 8
(3,1) = 4
(3, 2) = 5
(3, 3) = 6
(3, 4) = 7
(3,5) = 8
(3,

## Load model & configure training 
- load model into the GPU
- confogire LORA

In [6]:
base_model_name = "BUT-FIT/csmpt7b"
new_model_path = "csmpt7b-ft-SumeCzech"

from huggingface_hub import login
login(token="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") # HF token TODO: zahodit do pice lebo public repo xd

Token has not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /storage/praha1/home/jurajdedic/.cache/huggingface/token
Login successful


In [8]:
import transformers

config = transformers.AutoConfig.from_pretrained(base_model_name, trust_remote_code=True)
model = transformers.AutoModelForCausalLM.from_pretrained(
    base_model_name,
    config=config,
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
)

tokenizer = transformers.AutoTokenizer.from_pretrained(
    base_model_name, 
    trust_remote_code=True,
#     padding="max_length"
)

model.config.pretraining_tp = 1
# model.gradient_checkpointing_enable()




Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [9]:
tokenizer.padding_side = 'right'
tokenizer.pad_token = tokenizer.eos_token
tokenizer.add_eos_token = True
tokenizer.bos_token, tokenizer.eos_token

(None, '[EOS]')

### Filtering the dataset using tokenizer

- *Can be skipped if dataset already on disk*

In [10]:
def is_good_length(example):
    text = example['text']
    
    text_ids = tokenizer.encode(text, return_tensors="pt",padding=True)
    
    encoded_length = text_ids.shape[1]
    
    if encoded_length < (2048):
        return True
    return False

In [18]:
print("Dataset samples before filtering:", len(dataset))
dataset = dataset.filter(is_good_length, num_proc=64)
print("Dataset samples after filtering:", len(dataset))

Dataset samples before filtering: 18408


Filter (num_proc=64):   0%|          | 0/18408 [00:00<?, ? examples/s]

Token indices sequence length is longer than the specified maximum sequence length for this model (2627 > 2048). Running this sequence through the model will result in indexing errors
Token indices sequence length is longer than the specified maximum sequence length for this model (2974 > 2048). Running this sequence through the model will result in indexing errors
Token indices sequence length is longer than the specified maximum sequence length for this model (3042 > 2048). Running this sequence through the model will result in indexing errors
Token indices sequence length is longer than the specified maximum sequence length for this model (4297 > 2048). Running this sequence through the model will result in indexing errors
Token indices sequence length is longer than the specified maximum sequence length for this model (2560 > 2048). Running this sequence through the model will result in indexing errors
Token indices sequence length is longer than the specified maximum sequence leng

Dataset samples after filtering: 18386


In [19]:
dataset.save_to_disk("datasets/translated_dataset_2kseq", num_proc=64)

Saving the dataset (0/64 shards):   0%|          | 0/18386 [00:00<?, ? examples/s]

### If processed dataset on disk use this to load

In [12]:
dataset = load_from_disk("datasets/translated_dataset_2kseq")
print(len(dataset))

Loading dataset from disk:   0%|          | 0/64 [00:00<?, ?it/s]

18386


In [13]:
import torch
from transformers import Conv1D

def get_specific_layer_names(model):
    # Create a list to store the layer names
    layer_names = []
    
    # Recursively visit all modules and submodules
    for name, module in model.named_modules():
        # Check if the module is an instance of the specified layers
        if isinstance(module, (torch.nn.Linear, torch.nn.Embedding, torch.nn.Conv2d, Conv1D)):
            # model name parsing 

            layer_names.append('.'.join(name.split('.')[4:]).split('.')[0])
    
    return layer_names

list(set(get_specific_layer_names(model)))

['', 'Wqkv', 'out_proj', 'down_proj', 'up_proj']

In [11]:
print(model)

NameError: name 'model' is not defined

In [16]:
peft_config = LoraConfig(
    lora_alpha=256, # TODO: Mozno zmenit
    lora_dropout=0.02,
    r=128, # TODO: Mozno zmenit
    bias="none",
    task_type="CAUSAL_LM",
    target_modules=["out_proj","Wqkv", "up_proj", "down_proj"] #TODO: wte maybe
)
model = get_peft_model(model, peft_config)

In [17]:
# Hyperparameters
training_arguments = TrainingArguments(
    output_dir="./results",
    num_train_epochs=6, # TODO: uvidime kolko bude stacit
    per_device_train_batch_size=2, # TODO: mozno zmenit
    gradient_accumulation_steps=2, # TODO: mozno zmenit
    optim="paged_adamw_32bit", # adamw_torch_fused
    save_strategy="epoch",
    logging_steps=50,
    learning_rate=3e-5,
    weight_decay=0.000025,
    fp16=False,
    bf16=True,
    max_grad_norm=0.3,
    max_steps=-1,
    warmup_ratio=0.06,
    group_by_length=False, #could cause the oscillation in loss (https://github.com/artidoro/qlora/issues/228)
    lr_scheduler_type="constant",
    report_to="tensorboard",
)

# Setting sft parameters
trainer = SFTTrainer(
    model=model,
    train_dataset=dataset,
    peft_config=peft_config,
    max_seq_length= 2048, # maximum pre BUT Tiny LLama
    tokenizer=tokenizer,
    args=training_arguments,
    packing=False,
    dataset_text_field="text",
#     neftune_noise_alpha=5, #should improve the performance but needs to be tested
)

Map:   0%|          | 0/18386 [00:00<?, ? examples/s]

## Train

In [20]:
def print_trainable_parameters(model):
    """
    Prints the number of trainable parameters in the model.
    """
    trainable_params = 0
    all_param = 0
    for _, param in model.named_parameters():
        all_param += param.numel()
        if param.requires_grad:
            trainable_params += param.numel()
    print(
        f"trainable params: {trainable_params} || all params: {all_param} || trainable%: {100 * trainable_params / all_param}"
    )

print_trainable_parameters(trainer.model)

print("Training...")
trainer.train()

trainable params: 268435456 || all params: 6973304832 || trainable%: 3.8494725595268515
Training...


Step,Training Loss
50,3.1687
100,2.7127
150,2.4009
200,2.3853
250,2.4599
300,2.3049
350,2.3466
400,2.313
450,2.2843
500,2.2949


IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)

IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)

IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)

IOPub message rate exceed

TrainOutput(global_step=27576, training_loss=1.9706282464877605, metrics={'train_runtime': 24596.1788, 'train_samples_per_second': 4.485, 'train_steps_per_second': 1.121, 'total_flos': 1.7838902483863142e+18, 'train_loss': 1.9706282464877605, 'epoch': 5.999347329489829})

## Save the model

In [21]:
trainer.model.save_pretrained(new_model_path)
trainer.tokenizer.save_pretrained(new_model_path)



('csmpt7b-ft-SumeCzech/tokenizer_config.json',
 'csmpt7b-ft-SumeCzech/special_tokens_map.json',
 'csmpt7b-ft-SumeCzech/tokenizer.json')

## Preparing for inference

- build prompt
- load the saved model

In [7]:
test_dataset = load_from_disk("datasets/sumeczech_test-40k-3t-prompt-format-filter_1.5kseq")
print(len(test_dataset))

Loading dataset from disk:   0%|          | 0/64 [00:00<?, ?it/s]

129356


In [8]:
base_model_name = "BUT-FIT/csmpt7b"
# new_model_path = "csmpt7b-InstructCS-r128-256"
new_model_path = "BUT-FIT/csmpt7b"

from huggingface_hub import login
login(token="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") # HF token TODO: zahodit do pice lebo public repo xd

Token has not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /storage/praha1/home/jurajdedic/.cache/huggingface/token
Login successful


In [None]:
base_model = AutoModelForCausalLM.from_pretrained(
    base_model_name, 
    device_map="auto",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
)
base_model.tie_weights()

The model weights are not tied. Please use the `tie_weights` method before using the `infer_auto_device` function.


Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]

In [None]:
new_model = base_model

In [7]:
lora_config = LoraConfig.from_pretrained(new_model_path)
new_model = get_peft_model(base_model, lora_config)
new_model.bfloat16()

PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): MPTForCausalLM(
      (transformer): MPTModel(
        (wte): SharedEmbedding(64002, 4096)
        (emb_drop): Dropout(p=0, inplace=False)
        (blocks): ModuleList(
          (0-31): 32 x MPTBlock(
            (norm_1): LPLayerNorm((4096,), eps=1e-05, elementwise_affine=True)
            (attn): MultiheadAttention(
              (Wqkv): lora.Linear(
                (base_layer): Linear(in_features=4096, out_features=12288, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.02, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=4096, out_features=128, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=128, out_features=12288, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): Para

In [12]:
new_tokenizer = AutoTokenizer.from_pretrained(new_model_path)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [13]:
logging.set_verbosity(logging.CRITICAL)
# pipe = pipeline(task="text-generation", model=new_model, tokenizer=new_tokenizer, torch_dtype=torch.bfloat16, device_map="auto", max_length=256)

### Pick the input sample

In [19]:
example_raw = test_dataset[100002]["text"]
example = example_raw.split("### Výstup:")[0] + "### Výstup:"
print(example)
# print(example_raw.split("### Výstup:")[1])

### Instrukce:
Použij zadaný vstup a napiš stručný výstup k splnění níže uvedeného úkolu:

### Úkol:
Sumarizuj vstupní text na nadpis.

### Vstup:
O prodeji koksoven by mělo být rozhodnuto v řádu několika týdnů, stejný prostor si firma nechává na rozhodnutí o budoucnosti jednoho ze svých čtyř dolů. V úvahu přichází zachování jeho provozu i postupný útlum. Jde o součást rozsáhlých úsporných opatření a systémových změn, které firma oznámila v květnu kvůli špatné ekonomické situaci.
"Proces prodeje společnosti OKK Koksovny úspěšně pokračuje. Jednáme s několika zájemci, kteří mají v úmyslu zachovat provoz koksoven," uvedl mediální zástupce OKK Vladimír Bystrov.
Kolem Dolu Paskov však panuje složitější situace. Pokud se společnosti NWR nepodaří důl prodat, hrozí jeho zavření. "Zatím se nám pro něj nepodařilo najít kupce a pravděpodobnost, že se nějaký objeví, je minimální," řekl mluvčí OKD Vladislav Sobol. Dodal, že těžaři proto chtějí dokončit zátěžové testy a podklady pro představenstvo, 

In [None]:
terminators = [
    pipe.tokenizer.eos_token_id,
    pipe.tokenizer.convert_tokens_to_ids("."),
    pipe.tokenizer.convert_tokens_to_ids("<|endoftext|>")
]

In [21]:
def get_tokens_as_list(word_list):
    "Converts a sequence of words into a list of tokens"
    tokens_list = []
    for word in word_list:
        tokenized_word = new_tokenizer([word], add_special_tokens=False).input_ids[0]
        tokens_list.append(tokenized_word)
    return tokens_list


bad_words_ids = get_tokens_as_list(word_list=["#"])

### Pipeline - use generate since pipe is wrapper around generate

### Encode the input sample

In [10]:
def make_chat(input_text: str, sys_prompt: str=""):
    
    return f"""### System:
{sys_prompt}

### Uživatel:
{input_text}

### Asistent:
"""

In [35]:
example = make_chat(
    "Jak by někdo popsal sentiment tohoto tweetu?\n@hummingbird604 yea...stává se hodně b/c mé bývalé exhibicionistické kariéry...mám volné vstupenky do většiny filmů...končí s 2 vzít peeps",
    "Jsi asistentka AI. Budete mít úkol. Musíte vytvořit podrobnou a dlouhou odpověď."
)
example_encoded = new_tokenizer.encode(example, return_tensors="pt").to(torch.device("cuda"))
print(example)

### System:
Jsi asistentka AI. Budete mít úkol. Musíte vytvořit podrobnou a dlouhou odpověď.

### Uživatel:
Jak by někdo popsal sentiment tohoto tweetu?
@hummingbird604 yea...stává se hodně b/c mé bývalé exhibicionistické kariéry...mám volné vstupenky do většiny filmů...končí s 2 vzít peeps

### Asistent:



### usable output

In [40]:
with torch.cuda.amp.autocast():
    generation_output = new_model.generate(
        input_ids=example_encoded,
        max_new_tokens=64,
#         num_beams=5,
        do_sample=True,
        top_k=10,
#         top_p=0.975,
#         temperature=0.1,
#         repetition_penalty=1.2,
#         penalty_alpha=0.6,
        num_return_sequences=1,
#       eos_token_id=terminators,
        eos_token_id=new_model.config.eos_token_id,
    )
op = new_tokenizer.decode(generation_output[0], skip_special_tokens=False)
print(op)

### System:
Jsi asistentka AI. Budete mít úkol. Musíte vytvořit podrobnou a dlouhou odpověď.

### Uživatel:
Jak by někdo popsal sentiment tohoto tweetu?
@hummingbird604 yea...stává se hodně b/c mé bývalé exhibicionistické kariéry...mám volné vstupenky do většiny filmů...končí s 2 vzít peeps

### Asistent:
Proč jste se rozhodl být asistentem AI?
@ABC_AI: Jsem AI asistent.
A: No, to je velmi zajímavé.
A: Ne, jsem opravdu zvědavý.
A: Jak jste se sem dostali?
a: Byl jsem na pohovoru.
B: Byl jsem na pohovoru.


## Notes

Prvé trénovanie:
 -   alpha: 16, r: 8, batch_size: 4
 - výsledky: nanič
 - pri trénovaní sa loss postupne znižovala z 3.1 na 1.7, nasledoval spike na cca 2.8 potom loss postupne klesal 
 - a toto sa opakovalo do konca (250 krokov, cca 4 takéto spiky)
 
Ďalšie pokusy:
 - len ABSTRACT2HEADLINE
 - alpha: 16, r: 64, batch_size:8, group_by_length = False
 - opäť neúspech, menej oscilácie v loss
 
 - možno zaujímavé pozireť aj: https://github.com/philschmid/deep-learning-pytorch-huggingface/blob/main/training/peft-flan-t5-int8-summarization.ipynb
   - trénujú to cez Sequence2SequenceTrainer

In [70]:
print(new_tokenizer)

PreTrainedTokenizerFast(name_or_path='csmpt7b-ft-SumeCzech', vocab_size=64000, model_max_length=2048, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'eos_token': '[EOS]', 'unk_token': '[UNK]', 'pad_token': '[EOS]'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("<|endoftext|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	64000: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	64001: AddedToken("[EOS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}


In [None]:
new_tokenizer.decode(torch.tensor([2]), skip_special_tokens=False)