In [3]:
!nvidia-smi

Tue Apr 30 12:10:23 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.14              Driver Version: 550.54.14      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  NVIDIA A40                     On  |   00000000:61:00.0 Off |                    0 |
|  0%   42C    P0             38W /  300W |      31MiB /  46068MiB |      5%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                

In [4]:
# !pip install datasets 
# !pip install ipywidgets widgetsnbextension pandas-profiling
# !pip install peft
# !pip install trl
# !pip install transformers[torch] -U
# !pip install accelerate -U
# !pip install bitsandbytes

# # be sure to install right flash-attn, we use torch compiled with CUDA 12.1, no ABI, python 3.9, Linux x86_64 architecture
# !pip install flash-attn -U --no-build-isolation
 
# !pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.5.3/flash_attn-2.5.3+cu122torch2.2cxx11abiFALSE-cp310-cp310-linux_x86_64.whl --no-build-isolation 

In [5]:
# !pip install transformers

### Clean GPU

In [6]:
# # Run this to clean GPU memory
import torch
from numba import cuda
device = cuda.get_current_device()
device.reset()
torch.cuda.empty_cache()

In [7]:
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig,HfArgumentParser,TrainingArguments,pipeline, logging
from peft import LoraConfig, PeftModel, prepare_model_for_kbit_training, get_peft_model
import os,torch
from accelerate import Accelerator
from trl import SFTTrainer
from datasets import Dataset, load_dataset, load_from_disk
import copy

## Load dataset & configure templates

- *Can be skipped if dataset already on disk* 

In [36]:
# dataset = load_dataset("json",name="SumeCzech", data_files="./sumeczech/sumeczech-1.0-dev.jsonl", split="train", num_proc=64)
dataset_openorca = load_dataset("json",name="TranslatedInstruct", data_files="./datasets/translated_dataset_open-orca.jsonl", split="train")
dataset_dolly = load_dataset("json",name="TranslatedDolly", data_files="./datasets/translated_dataset_dolly-databricks.jsonl", split="train")
dataset_openorca = dataset_openorca.shuffle(seed=69)
dataset_dolly = dataset_dolly.shuffle(seed=69)
print(len(dataset_openorca), len(dataset_dolly))

18408 14973


In [41]:
# use only first 1000 examples
# dataset = dataset.select(range(1000))

In [10]:
import random

def formatting_prompts_func(example, in_type, out_type):
    """
    Prepare the input text for the model
    in_type: ["abstract", "text"] what to summarize from
    out_type: ["abstract","headline"] what to summarize to
    """

    try:
        in_text = example[in_type]
        out_text = example[out_type]
    except:
        print("ERROR")
        print(example)

    def param_type_to_czech(param_type):
        if param_type == "abstract":
            return "abstrakt"
        elif param_type == "headline":
            return "nadpis"
        else:
            return param_type

    task_instructions = {
        ("text", "abstract"): [
            "Sumarizuj vstupní {in_type} na stručný {out_type}.",
            "Vytvoř výstižný {out_type} na základě zadaného {in_type}.",
            "Přeformuluj zadaný {in_type} do stručného {out_type}.",
            "Zpracuj vstupní {in_type} a napiš výstižný {out_type}.",
            "Shrň podstatné informace ze vstupního {in_type} do {out_type}."
        ],
        ("text", "headline"): [
            "Sumarizuj vstupní {in_type} na výstižný {out_type}.",
            "Vytvoř poutavý {out_type} na základě zadaného {in_type}.",
            "Přeformuluj zadaný {in_type} do stručného {out_type}.",
            "Zpracuj vstupní {in_type} a napiš výstižný {out_type}.",
            "Shrň podstatné informace ze vstupního {in_type} do poutavého {out_type}."
        ],
        ("abstract", "headline"): [
            "Sumarizuj vstupní {in_type} na výstižný {out_type}.",
            "Vytvoř poutavý {out_type} na základě zadaného {in_type}.",
            "Přeformuluj zadaný {in_type} do stručného {out_type}.",
            "Zpracuj vstupní {in_type} a napiš výstižný {out_type}.",
            "Shrň podstatné informace ze vstupního {in_type} do poutavého {out_type}."
        ]
    }

    task_instruction = random.choice(task_instructions[(in_type, out_type)])

    text = f"""### Instrukce:
{task_instruction}

### Vstup:
{in_text}

### Výstup:
{out_text}
<|endoftext|>[EOS]"""

    return {"text": text}

### Data preparation for sumeczech

In [24]:
dataset_text_to_abstract = copy.deepcopy(dataset)
dataset_abstract_to_headline = copy.deepcopy(dataset)
dataset_text_to_headline = copy.deepcopy(dataset)

In [25]:
# transform dataset so it has only field "text" with formatted prompts
dataset_text_to_abstract = dataset_text_to_abstract.map(
    formatting_prompts_func,
    remove_columns=dataset_text_to_abstract.column_names,
    num_proc=64,
    batched=False,
    fn_kwargs={"in_type":"text", "out_type": "abstract"}
)
dataset_abstract_to_headline = dataset_abstract_to_headline.map(
    formatting_prompts_func,
    remove_columns=dataset_abstract_to_headline.column_names,
    num_proc=64,
    batched=False,
    fn_kwargs={"in_type":"abstract", "out_type": "headline"}
)
dataset_text_to_headline = dataset_text_to_headline.map(
    formatting_prompts_func,
    remove_columns=dataset_text_to_headline.column_names,
    num_proc=64,
    batched=False,
    fn_kwargs={"in_type":"text", "out_type": "headline"}
)

Map (num_proc=64):   0%|          | 0/44567 [00:00<?, ? examples/s]

Map (num_proc=64):   0%|          | 0/44567 [00:00<?, ? examples/s]

Map (num_proc=64):   0%|          | 0/44567 [00:00<?, ? examples/s]

In [None]:
print(dataset_text_to_abstract[69]["text"])

In [33]:
print(dataset_abstract_to_headline[69]["text"])

### Instrukce:
Zpracuj vstupní {in_type} a napiš výstižný {out_type}.

### Vstup:
S kolty proklatě nízko u pasu se můžete prohánět ve westernové takticko-akční střílečce Desperados: Cooper"s Revenge. A nyní navíc pěkně v češtině.

### Výstup:
Desperados II: Cooper"s Revenge
<|endoftext|>[EOS]


In [34]:
print(dataset_text_to_headline[69]["text"])

### Instrukce:
Přeformuluj zadaný {in_type} do stručného {out_type}.

### Vstup:
Jelikož jsem náruživým fanouškem jakýchkoliv taktických her, nemohl jsem
minout tento skvost, jež je pokračovatelem prvního dílu Desperados:
Wanted Dead or Alive. Ihned po jejím spuštěním mně bylo jasné, tohle je
hra mých snů a hru snů přece nebudu hrát v cizím jazyce. Pustil jsem se
do díla a o několik dnů později předkládám hotovou češtinu k této úžasné
hře. V tomto pokračování se chopíte všech známých postav z minulého dílu
hry a tedy Coopera, Doktora McCoye, Kate O"Hary, Sama, Sancheze a
Indiána Hawkeyho. Projdete s nimi 14 obsáhlých levelů vyprávějící příběh
Cooperovi pomsty za vraždu svého bratra.
Instalace je jednoduchá. Řiďte se pokyny v instalátoru. V případě
jakýchkoliv problémů se spuštěním nebo hraním počeštěné hry se můžete
ozvat do diskuze nebo na můj email. Stejně tak, najdete-li nějaké
nesrovnalosti, například text nekorespondující se skutečným děním ve hře
(samozřejmě se to může stát, prot

In [30]:
from datasets import concatenate_datasets

dataset_new = concatenate_datasets([dataset_text_to_abstract, dataset_abstract_to_headline, dataset_text_to_headline])

In [35]:
dataset_new.save_to_disk("datasets/sumeczech-full-3t-prompt-format", num_proc=64)
# TODO: filter to max 2k sequence

Saving the dataset (0/64 shards):   0%|          | 0/133701 [00:00<?, ? examples/s]

### Data preparation for instruct translated: openorca

In [37]:
def formatting_prompts_func(example):
    """
    Prepare the input text for the model
    """
    sys_val = example["conversations"][0]["value"]
    input_text = example["conversations"][1]["value"]
    response = example["conversations"][2]["value"]
#     in_text="###MISSING###"
#     out_text="###MISSING###"
    
#     try:
#         in_text = example['abstract']
#         out_text = example['headline']
#     except:
# #         print("hehe something went wrong")
#         pass
    return {"text": 
f"""### System:
{sys_val}

### Uživatel:
{input_text}

### Asistent:
{response}<|endoftext|>[EOS]"""}

In [38]:
# transform dataset so it has only field "text" with formatted prompts
dataset_openorca = dataset_openorca.map(
    formatting_prompts_func,
    remove_columns=dataset_openorca.column_names,
    num_proc=64,
    batched=False,
)

Map (num_proc=64):   0%|          | 0/18408 [00:00<?, ? examples/s]

In [42]:
print(dataset_openorca[421]["text"])

### System:
Jsi asistentka AI. Uživatel vám dá úkol. Vaším cílem je dokončit úkol tak věrně, jak můžete. Při plnění úkolu myslet krok za krokem a ospravedlnit své kroky.

### Uživatel:
Pokračujte v psaní následujícího textu.

Samantha byla schopna úspěšně množit a prodávat několik párů hrdliček, ale Sarah nemohla, protože 
Vyberte si z: [-] Samantha byla nekvalifikovaná na manipulaci se zvířaty.Sarah nebyla schopná zacházet se zvířaty.;

### Asistent:
Samantha byla schopna úspěšně množit a prodávat několik párů hrdliček, ale Sarah nemohla, protože Sarah byla nekvalifikovaná v zacházení se zvířaty.

Krok 1: Přečtěte si daný text a pochopte kontext.
V této souvislosti je Samantha schopna chovat hrdličky a prodávat je, zatímco Sarah není schopna.

Krok 2: Analyzovat možnosti
Možnost 1: [-] Samantha byla nekvalifikovaná při manipulaci se zvířaty.
Možnost 2: [-] Sára nebyla schopná zacházet se zvířaty.

Krok 3: Zvolte vhodnou volbu na základě kontextu
Vzhledem k tomu, Samantha byla schopna 

### Data preparation for instruct translated: dolly

In [43]:
def formatting_prompts_func(example):
    """
    Prepare the input text for the model
    """
    instruction = example["instruction"]
    context = example.get("context", "")  # Handle missing context
    response = example["response"]
    category = example["category"]
    
    prompt = "Odpovězte na danou instrukci na základě poskytnutého kontextu (pokud nějaký je).\n\n"
    prompt += f"### Instrukce: \n{instruction}\n"
    
    if context:
        prompt += f"### Kontext:\n{context}\n"
    
    prompt += f"### Odpoved:\n{response}"
    prompt += f"<|endoftext|>[EOS]"
    
    return {"text": prompt}

In [44]:
# transform dataset so it has only field "text" with formatted prompts
dataset_dolly = dataset_dolly.map(
    formatting_prompts_func,
    remove_columns=dataset_dolly.column_names,
    num_proc=64,
    batched=False,
)

Map (num_proc=64):   0%|          | 0/14973 [00:00<?, ? examples/s]

In [49]:
print(dataset_dolly[424]["text"])

Odpovězte na danou instrukci na základě poskytnutého kontextu (pokud nějaký je).

### Instrukce: 
Jaké součásti reprodukce zvuku jsou důležité v domácím prostředí?
### Odpoved:
Chcete-li přesně reprodukovat zvuk doma, důležité věci, na které se zaměřit jsou umístění reproduktorů, umístění posluchače, tvar místnosti a materiály uvnitř místnosti. Například umístění reproduktorů by mělo být v souladu s pokyny pro nastavení, například stereo reproduktory budou umístěny ve stejném úhlu a výšce k posluchači, umístěné několik stop od jakýchkoli stěn. Tvar místnosti a materiály definují, jak se zvuk odráží v prostoru, s cílem snížit překrývající se echo z plochých povrchů.<|endoftext|>[EOS]


#### Saved to disk for easier loading

In [None]:
dataset_dolly.save_to_disk("./datasets/dolly-databricks_format")
dataset_openorca.save_to_disk("./datasets/open-orca_format")

Saving the dataset (0/1 shards):   0%|          | 0/14973 [00:00<?, ? examples/s]

## Load model & configure training 
- load model into the GPU
- confogire LORA

In [6]:
dataset_dolly = load_from_disk("./datasets/dolly-databricks_format")
print(len(dataset_dolly))

dataset_openorca = load_from_disk("./datasets/open-orca_format")
print(len(dataset_openorca))

14973
18408


In [7]:
from datasets import concatenate_datasets

dataset_new = concatenate_datasets([dataset_dolly, dataset_openorca])
print(len(dataset_new))

33381


In [8]:
base_model_name = "BUT-FIT/CSTinyLlama-1.2B"
new_model_path = "CSTinyLlama-1.2B-Instruct"

from huggingface_hub import login
login(token="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") # HF token TODO: zahodit do pice lebo public repo xd

Token has not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /storage/praha1/home/xhorni20/.cache/huggingface/token
Login successful


In [9]:
import transformers

config = transformers.AutoConfig.from_pretrained(base_model_name, trust_remote_code=True)
model = transformers.AutoModelForCausalLM.from_pretrained(
    base_model_name,
    config=config,
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
)

tokenizer = transformers.AutoTokenizer.from_pretrained(
    base_model_name, 
    trust_remote_code=True,
    padding="max_length"
)

model.config.pretraining_tp = 1
# model.gradient_checkpointing_enable()
tokenizer.padding_side = 'right'
tokenizer.pad_token = tokenizer.eos_token
tokenizer.add_eos_token = True
tokenizer.bos_token, tokenizer.eos_token

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


(None, '[EOS]')

### Filtering the dataset using tokenizer

- *Can be skipped if dataset already on disk*

In [10]:
def is_good_length(example):
    text = example['text']
    
    text_ids = tokenizer.encode(text, return_tensors="pt",padding=True)
    
    encoded_length = text_ids.shape[1]
    
    if encoded_length < (2048):
        return True
    return False

In [11]:
print("Dataset samples before filtering:", len(dataset_new))
dataset_new = dataset_new.filter(is_good_length, num_proc=64)
print("Dataset samples after filtering:", len(dataset_new))

Dataset samples before filtering: 33381
Dataset samples after filtering: 33369


In [12]:
import torch
from transformers import Conv1D

def get_specific_layer_names(model):
    # Create a list to store the layer names
    layer_names = []
    
    # Recursively visit all modules and submodules
    for name, module in model.named_modules():
        # Check if the module is an instance of the specified layers
        if isinstance(module, (torch.nn.Linear, torch.nn.Embedding, torch.nn.Conv2d, Conv1D)):
            # model name parsing 

            layer_names.append('.'.join(name.split('.')[4:]).split('.')[0])
    
    return layer_names

list(set(get_specific_layer_names(model)))

['',
 'v_proj',
 'down_proj',
 'gate_proj',
 'k_proj',
 'o_proj',
 'up_proj',
 'q_proj']

In [13]:
print(model)

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(64002, 2048)
    (layers): ModuleList(
      (0-21): 22 x LlamaDecoderLayer(
        (self_attn): LlamaSdpaAttention(
          (q_proj): Linear(in_features=2048, out_features=2048, bias=False)
          (k_proj): Linear(in_features=2048, out_features=256, bias=False)
          (v_proj): Linear(in_features=2048, out_features=256, bias=False)
          (o_proj): Linear(in_features=2048, out_features=2048, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear(in_features=2048, out_features=5632, bias=False)
          (up_proj): Linear(in_features=2048, out_features=5632, bias=False)
          (down_proj): Linear(in_features=5632, out_features=2048, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): LlamaRMSNorm()
        (post_attention_layernorm): LlamaRMSNorm()
      )
    )
    (norm): LlamaRMSNorm()
  )
  (lm_head): Line

In [14]:
peft_config = LoraConfig(
    lora_alpha=128, # TODO: Mozno zmenit
    lora_dropout=0.02,
    r=64, # TODO: Mozno zmenit
    bias="none",
    task_type="CAUSAL_LM",
    target_modules=["gate_proj","k_proj","v_proj", "q_proj","o_proj", "up_proj", "down_proj"] #TODO: wte maybe
)
model = get_peft_model(model, peft_config)

In [15]:
# Hyperparameters
training_arguments = TrainingArguments(
    output_dir="./results",
    num_train_epochs=6, # TODO: uvidime kolko bude stacit
    per_device_train_batch_size=4, # TODO: mozno zmenit
    gradient_accumulation_steps=4, # TODO: mozno zmenit
    optim="paged_adamw_32bit", # adamw_torch_fused
    save_strategy="epoch",
    logging_steps=25,
    learning_rate=6e-5,
    weight_decay=0.000025,
    fp16=False,
    bf16=True,
    max_grad_norm=0.3,
    max_steps=-1,
    warmup_ratio=0.06,
    group_by_length=False, #could cause the oscillation in loss (https://github.com/artidoro/qlora/issues/228)
    lr_scheduler_type="constant",
    report_to="tensorboard",
)

# Setting sft parameters
trainer = SFTTrainer(
    model=model,
    train_dataset=dataset_new,
    peft_config=peft_config,
    max_seq_length= 2048, # maximum pre BUT Tiny LLama
    tokenizer=tokenizer,
    args=training_arguments,
    packing=False,
    dataset_text_field="text",
#     neftune_noise_alpha=5, #should improve the performance but needs to be tested
)

## Train

In [16]:
def print_trainable_parameters(model):
    """
    Prints the number of trainable parameters in the model.
    """
    trainable_params = 0
    all_param = 0
    for _, param in model.named_parameters():
        all_param += param.numel()
        if param.requires_grad:
            trainable_params += param.numel()
    print(
        f"trainable params: {trainable_params} || all params: {all_param} || trainable%: {100 * trainable_params / all_param}"
    )

print_trainable_parameters(trainer.model)

print("Training...")
trainer.train()

trainable params: 50462720 || all params: 1281591296 || trainable%: 3.9375048939158837
Training...


Step,Training Loss
25,3.3272
50,2.7873
75,2.5886
100,2.5262
125,2.4191
150,2.4448
175,2.4408
200,2.4315
225,2.3364
250,2.3634


IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)



## Save the model

In [None]:
trainer.model.save_pretrained(new_model_path)
trainer.tokenizer.save_pretrained(new_model_path)

## Preparing for inference

- build prompt
- load the saved model

In [5]:
test_dataset = load_from_disk("datasets/sumeczech_test-40k-3t-prompt-format-filter_1.5kseq")
print(len(test_dataset))

Loading dataset from disk:   0%|          | 0/64 [00:00<?, ?it/s]

129356


In [9]:
base_model_name = "BUT-FIT/CSTinyLlama-1.2B"
new_model_path = "CSTinyLlama-1.2B-Instruct"

from huggingface_hub import login
login(token="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") # HF token TODO: zahodit do pice lebo public repo xd

Token has not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /storage/praha1/home/xhorni20/.cache/huggingface/token
Login successful


In [10]:
base_model = AutoModelForCausalLM.from_pretrained(
    base_model_name, 
    device_map="auto",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
)
base_model.tie_weights()

In [11]:
lora_config = LoraConfig.from_pretrained(new_model_path)
new_model = get_peft_model(base_model, lora_config)
new_model.bfloat16()

PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): LlamaForCausalLM(
      (model): LlamaModel(
        (embed_tokens): Embedding(64002, 2048)
        (layers): ModuleList(
          (0-21): 22 x LlamaDecoderLayer(
            (self_attn): LlamaSdpaAttention(
              (q_proj): lora.Linear(
                (base_layer): Linear(in_features=2048, out_features=2048, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.02, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=2048, out_features=64, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=64, out_features=2048, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
              )
              (k_proj): lora.Linear(
                (base_layer): Linear(in_features=

In [12]:
new_tokenizer = AutoTokenizer.from_pretrained(new_model_path)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [13]:
logging.set_verbosity(logging.CRITICAL)
# pipe = pipeline(task="text-generation", model=new_model, tokenizer=new_tokenizer, torch_dtype=torch.bfloat16, device_map="auto", max_length=256)

### Pick the input sample

In [None]:
example_raw = test_dataset[100002]["text"]
example = example_raw.split("### Výstup:")[0] + "### Výstup:"
print(example)
# print(example_raw.split("### Výstup:")[1])

In [None]:
terminators = [
    pipe.tokenizer.eos_token_id,
    pipe.tokenizer.convert_tokens_to_ids("."),
    pipe.tokenizer.convert_tokens_to_ids("<|endoftext|>")
]

In [18]:
def get_tokens_as_list(word_list):
    "Converts a sequence of words into a list of tokens"
    tokens_list = []
    for word in word_list:
        tokenized_word = new_tokenizer([word], add_special_tokens=False).input_ids[0]
        tokens_list.append(tokenized_word)
    return tokens_list


bad_words_ids = get_tokens_as_list(word_list=["#"])

### Pipeline - use generate since pipe is wrapper around generate

### Encode the input sample

In [29]:
from typing import Union

def make_chat1(input_text: str, sys_prompt: str=""):
    
    return f"""### System:
{sys_prompt}

### Uživatel:
{input_text}

### Asistent:
"""

def make_chat2(ins: str, context: Union[str | None] = None):
    """
    Prepare the input text for the model during inference
    """
    instruction = ins
    context = context  # Handle missing context

    prompt = "Odpovězte na danou instrukci na základě poskytnutého kontextu (pokud nějaký je).\n\n"
    prompt += f"### Instrukce: \n{instruction}\n"

    if context:
        prompt += f"### Kontext:\n{context}\n"

    prompt += "### Odpoved:\n"

    return prompt

In [119]:
example = make_chat1(
    "Jak by někdo popsal sentiment tohoto tweetu?\n@hummingbird604 yea...stává se hodně b/c mé bývalé exhibicionistické kariéry...mám volné vstupenky do většiny filmů...končí s 2 vzít peeps",
    "Jsi asistentka AI. Budete mít úkol. Musíte vytvořit podrobnou a dlouhou odpověď."
)
example = make_chat2(
    "Jaké je hlavní město Austrálie?"
)
example_encoded = new_tokenizer.encode(example, return_tensors="pt").to(torch.device("cuda"))
print(example)

Odpovězte na danou instrukci na základě poskytnutého kontextu (pokud nějaký je).

### Instrukce: 
Jaké je hlavní město Austrálie?
### Odpoved:



### usable output

In [127]:
new_model = new_model.to(torch.device("cuda"))

with torch.cuda.amp.autocast():
    generation_output = new_model.generate(
        input_ids=example_encoded,
        max_new_tokens=128,
#         num_beams=5,
        do_sample=True,
        top_k=15,
        top_p=0.99,
#         temperature=0.1,
        repetition_penalty=1.5,
#         penalty_alpha=0.6,
        num_return_sequences=1,
#       eos_token_id=terminators,
        eos_token_id=new_model.config.eos_token_id,
    )
op = new_tokenizer.decode(generation_output[0], skip_special_tokens=False)
print(op)

Odpovězte na danou instrukci na základě poskytnutého kontextu (pokud nějaký je).

### Instrukce: 
Jaké je hlavní město Austrálie?
### Odpoved:
Melbourne. #comment=1;&q... ----
"Neříkal jsem vám někdy už tohle slovo?" zeptal se jeden z mužů v uniformě urostlého důstojníka s plnovousem a za ním následovala řada důstojníků po dvou až třech vedle sebe ve dvojstupu seřazených podle hodností nad sebou od nejvyšších hodnostních stupínků pod nimi k nejnižšímu stupni první hodnosti před plukovníkem přes nižší důstojnictvo kolem nižších šarží ke kapitánovi do poslední skupiny kapit


## Notes

Prvé trénovanie:
 -   alpha: 16, r: 8, batch_size: 4
 - výsledky: nanič
 - pri trénovaní sa loss postupne znižovala z 3.1 na 1.7, nasledoval spike na cca 2.8 potom loss postupne klesal 
 - a toto sa opakovalo do konca (250 krokov, cca 4 takéto spiky)
 
Ďalšie pokusy:
 - len ABSTRACT2HEADLINE
 - alpha: 16, r: 64, batch_size:8, group_by_length = False
 - opäť neúspech, menej oscilácie v loss
 
 - možno zaujímavé pozireť aj: https://github.com/philschmid/deep-learning-pytorch-huggingface/blob/main/training/peft-flan-t5-int8-summarization.ipynb
   - trénujú to cez Sequence2SequenceTrainer

In [70]:
print(new_tokenizer)

PreTrainedTokenizerFast(name_or_path='csmpt7b-ft-SumeCzech', vocab_size=64000, model_max_length=2048, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'eos_token': '[EOS]', 'unk_token': '[UNK]', 'pad_token': '[EOS]'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("<|endoftext|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	64000: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	64001: AddedToken("[EOS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}


In [None]:
new_tokenizer.decode(torch.tensor([2]), skip_special_tokens=False)