In [4]:
!nvidia-smi

Mon Apr 29 10:30:43 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.14              Driver Version: 550.54.14      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  NVIDIA A40                     On  |   00000000:61:00.0 Off |                    0 |
|  0%   59C    P0             87W /  300W |   40110MiB /  46068MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                

### Clean GPU

In [1]:
# # Run this to clean GPU memory
import torch
from numba import cuda
device = cuda.get_current_device()
device.reset()
torch.cuda.empty_cache()

## Load dataset & configure templates

In [2]:
from datasets import load_dataset

# dataset = load_dataset("json",name="SumeCzech", data_files="./sumeczech/sumeczech-1.0-dev.jsonl", split="train", num_proc=32)
dataset = load_dataset("json",name="TranslatedInstruct", data_files="./datasets/translated_dataset.jsonl", split="train")
print(len(dataset))

18408


In [3]:
# use only first 1000 examples
# dataset = dataset.select(range(40000))

In [2]:
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig,HfArgumentParser,TrainingArguments,pipeline, logging
from peft import LoraConfig, PeftModel, prepare_model_for_kbit_training, get_peft_model
import os,torch
from accelerate import Accelerator
from trl import SFTTrainer
from datasets import Dataset

In [5]:
def formatting_prompts_func(example):
    """
    Prepare the input text for the model
    """
    sys_val = example["conversations"][0]["value"]
    input_text = example["conversations"][1]["value"]
    response = example["conversations"][2]["value"]
#     in_text="###MISSING###"
#     out_text="###MISSING###"
    
#     try:
#         in_text = example['abstract']
#         out_text = example['headline']
#     except:
# #         print("hehe something went wrong")
#         pass
    return {"text": 
f"""### System:
{sys_val}

### Uživatel:
{input_text}

### Asistent:
{response}
<|endoftext|>[EOS]"""}

In [6]:
# transform dataset so it has only field "text" with formatted prompts
dataset = dataset.map(
    formatting_prompts_func,
    remove_columns=dataset.column_names,
    num_proc=64,
    batched=False,
)

In [7]:
print(dataset[69]["text"])

### System:
Jsi asistentka AI. Poskytněte detailní odpověď, takže uživatel nemusí hledat venku, aby pochopil odpověď.

### Uživatel:
Informace: - Střední Asie nebo Střední Asie je hlavním regionem asijského kontinentu a táhne se od Kaspického moře na západě po Čínu na východě a od Afghánistánu na jihu po Rusko na severu. Je také hovorově označován jako "stans" (jako šest zemí, které jsou obecně považovány za v rámci regionu, mají všechny názvy končící perskou příponou "-stan," což znamená "země") a je v rámci širšího euroasijského kontinentu.  - Kazachstán (dále jen "Qazaqstan," "Kazachstan"), oficiálně Kazachstánská republika ("Qazaqstan Respwblïkas" "Respublika Kazachstán"), je transkontinentální zemí severní střední Asie a východní Evropy. Kazachstán je největší pevninou na světě, a devátá největší na světě, s oblastí. Kazachstán je ekonomicky dominantním národem střední Asie, který vytváří 60% HDP regionu, především prostřednictvím ropného/plynového průmyslu. Má také obrovské miner

In [8]:
base_model_name = "BUT-FIT/CSTinyLlama-1.2B"
new_model_path = "CSTinyLlama-1.2B-ft-SumeCzech"

from huggingface_hub import login
login(token="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") # HF token TODO: zahodit do pice lebo public repo xd

Token has not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /storage/praha1/home/jurajdedic/.cache/huggingface/token
Login successful


## Load model & configure training 
- load model into the GPU
- confogire LORA

In [9]:
# model.config.use_cache = False
# model.config.pretraining_tp = 1

import transformers

model = transformers.AutoModelForCausalLM.from_pretrained(
    base_model_name,
    device_map="auto",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
)

tokenizer = transformers.AutoTokenizer.from_pretrained(
    base_model_name, 
    trust_remote_code=True,
#     padding="max_length"
)

model.gradient_checkpointing_enable()

# qlora for collab test
# model = prepare_model_for_kbit_training(model)

model.config.pretraining_tp = 1

# fix some fp16 issue
tokenizer.padding_side = 'right'
tokenizer.pad_token = tokenizer.eos_token
tokenizer.add_eos_token = True
tokenizer.bos_token, tokenizer.eos_token

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


(None, '[EOS]')

In [10]:
import torch
from transformers import Conv1D

def get_specific_layer_names(model):
    # Create a list to store the layer names
    layer_names = []
    
    # Recursively visit all modules and submodules
    for name, module in model.named_modules():
        # Check if the module is an instance of the specified layers
        if isinstance(module, (torch.nn.Linear, torch.nn.Embedding, torch.nn.Conv2d, Conv1D)):
            # model name parsing 

            layer_names.append('.'.join(name.split('.')[4:]).split('.')[0])
    
    return layer_names

list(set(get_specific_layer_names(model)))

['',
 'up_proj',
 'o_proj',
 'down_proj',
 'gate_proj',
 'k_proj',
 'q_proj',
 'v_proj']

In [11]:
print(model)

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(64002, 2048)
    (layers): ModuleList(
      (0-21): 22 x LlamaDecoderLayer(
        (self_attn): LlamaSdpaAttention(
          (q_proj): Linear(in_features=2048, out_features=2048, bias=False)
          (k_proj): Linear(in_features=2048, out_features=256, bias=False)
          (v_proj): Linear(in_features=2048, out_features=256, bias=False)
          (o_proj): Linear(in_features=2048, out_features=2048, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear(in_features=2048, out_features=5632, bias=False)
          (up_proj): Linear(in_features=2048, out_features=5632, bias=False)
          (down_proj): Linear(in_features=5632, out_features=2048, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): LlamaRMSNorm()
        (post_attention_layernorm): LlamaRMSNorm()
      )
    )
    (norm): LlamaRMSNorm()
  )
  (lm_head): Line

In [13]:
peft_config = LoraConfig(
    lora_alpha=256, # TODO: Mozno zmenit
    lora_dropout=0.1,
    r=128, # TODO: Mozno zmenit
    bias="none",
    task_type="CAUSAL_LM",
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj","gate_proj", "up_proj", "down_proj"] #TODO: Mozno pridat aj dalsie
)
model = get_peft_model(model, peft_config)

In [14]:
from transformers import TrainerCallback
import time
import torch
from torch.utils.tensorboard import SummaryWriter

class MemoryTrackerCallback(TrainerCallback):
    def __init__(self, log_dir):
        self.start_time = None
        self.step_times = []
        self.memory_usages = []
        self.summary_writer = SummaryWriter(log_dir)  # Initialize SummaryWriter

    def on_step_begin(self, args, state, control, **kwargs):
        self.start_time = time.time()

    def on_step_end(self, args, state, control, model, **kwargs):
        step_time = time.time() - self.start_time
        self.step_times.append(step_time)

        memory_usage = torch.cuda.max_memory_allocated() / (1024 ** 3)  # Convert to GB
        self.memory_usages.append(memory_usage)

        # Log step time and memory usage to TensorBoard
        global_step = state.global_step
        self.summary_writer.add_scalar("step_time", step_time, global_step)
        self.summary_writer.add_scalar("memory_usage", memory_usage, global_step)

    def on_train_end(self, args, state, control, **kwargs):
        self.summary_writer.close()  # Close the SummaryWriter
    
def print_trainable_parameters(model):
    """
    Prints the number of trainable parameters in the model.
    """
    trainable_params = 0
    all_param = 0
    for _, param in model.named_parameters():
        all_param += param.numel()
        if param.requires_grad:
            trainable_params += param.numel()
    print(
        f"trainable params: {trainable_params} || all params: {all_param} || trainable%: {100 * trainable_params / all_param}"
    )

In [15]:
log_dir = "./results"
memory_tracker = MemoryTrackerCallback(log_dir + "/runs")

# Hyperparameters
training_arguments = TrainingArguments(
    output_dir=log_dir,
    num_train_epochs=4, # TODO: uvidime kolko bude stacit
    per_device_train_batch_size=8, # TODO: mozno zmenit
    gradient_accumulation_steps=2, # TODO: mozno zmenit
    optim="paged_adamw_32bit",
    save_strategy="epoch",
    logging_steps=30,
    learning_rate=1e-4,
    weight_decay=0.005,
#     fp16=False,
    bf16=True,
    max_grad_norm=0.3,
    max_steps=-1,
    warmup_ratio=0.06,
    group_by_length=False, #could cause the oscillation in loss (https://github.com/artidoro/qlora/issues/228)
    lr_scheduler_type="constant",
    report_to="tensorboard",
)

# Setting sft parameters
trainer = SFTTrainer(
    model=model,
    train_dataset=dataset,
    peft_config=peft_config,
    max_seq_length= 2048, # maximum pre BUT Tiny LLama
    tokenizer=tokenizer,
    args=training_arguments,
    packing=False,
    dataset_text_field="text",
#     callbacks=[memory_tracker],
#     neftune_noise_alpha=5, #should improve the performance but needs to be tested
)

## Train

In [16]:
print_trainable_parameters(trainer.model)

print("Training...")
trainer.train()

trainable params: 100925440 || all params: 1332054016 || trainable%: 7.57667773136311
Training...


Step,Training Loss
30,2.9808
60,2.5143
90,2.4321
120,2.4436
150,2.3744
180,2.3494
210,2.3652
240,2.2748
270,2.3422
300,2.3167


TrainOutput(global_step=4600, training_loss=2.0363021203745966, metrics={'train_runtime': 9702.8581, 'train_samples_per_second': 7.589, 'train_steps_per_second': 0.474, 'total_flos': 3.1805350294880256e+17, 'train_loss': 2.0363021203745966, 'epoch': 3.9982616253802696})

## Save the model

In [17]:
trainer.model.save_pretrained(new_model_path)
trainer.tokenizer.save_pretrained(new_model_path)

('CSTinyLlama-1.2B-ft-SumeCzech/tokenizer_config.json',
 'CSTinyLlama-1.2B-ft-SumeCzech/special_tokens_map.json',
 'CSTinyLlama-1.2B-ft-SumeCzech/tokenizer.json')

In [None]:
from tensorboard import notebook
log_dir = "./results/runs"
notebook.start("--logdir {} --port 4000".format(log_dir))

## Preparing for inference

- build prompt
- load the saved model

In [3]:
base_model_name = "BUT-FIT/CSTinyLlama-1.2B"
new_model_path = "CSTinyLlama-1.2B-ft-InstructCS-r128-256"

from huggingface_hub import login
login(token="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") # HF token TODO: zahodit do pice lebo public repo xd


base_model = AutoModelForCausalLM.from_pretrained(
    base_model_name, 
    device_map="auto",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
)

Token has not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /storage/praha1/home/jurajdedic/.cache/huggingface/token
Login successful


In [4]:
lora_config = LoraConfig.from_pretrained(new_model_path)
new_model = get_peft_model(base_model, lora_config)

In [5]:
new_tokenizer = AutoTokenizer.from_pretrained(new_model_path)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [6]:
logging.set_verbosity(logging.CRITICAL)
# pipe = pipeline(task="text-generation", model=new_model, tokenizer=new_tokenizer, torch_dtype=torch.bfloat16, device_map="auto", max_length=256)

In [19]:
def make_chat(input_text: str, sys_prompt: str=""):
    
    return f"""### System:
{sys_prompt}

### Uživatel:
{input_text}

### Asistent:
"""

In [8]:
def get_tokens_as_list(word_list):
    "Converts a sequence of words into a list of tokens"
    tokens_list = []
    for word in word_list:
        tokenized_word = new_tokenizer([word], add_special_tokens=False).input_ids[0]
        tokens_list.append(tokenized_word)
    return tokens_list


bad_words_ids = get_tokens_as_list(word_list=["#"])

### Generate

In [35]:
example = make_chat(
    "Jaké je hlavní město Francie?",
    "Jsi asistentka AI. Uživatel vám dá úkol. Vaším cílem je dokončit úkol tak věrně, jak můžete."
)
example_encoded = new_tokenizer.encode(example, return_tensors="pt",padding=True).to(torch.device("cuda"))
print(example)

### System:
Jsi asistentka AI. Uživatel vám dá úkol. Vaším cílem je dokončit úkol tak věrně, jak můžete.

### Uživatel:
Jaké je hlavní město Francie?

### Asistent:



In [45]:
with torch.cuda.amp.autocast():
    generation_output = new_model.generate(
        input_ids=example_encoded,
        max_new_tokens=200,
        do_sample=True,
#         num_beams=5,
        top_k=10,
        top_p=0.99,
        repetition_penalty=1.3,
#         temperature=0.15,
        num_return_sequences=1,
        eos_token_id=new_tokenizer.eos_token_id,
    )
# print(generation_output[0])
op = new_tokenizer.decode(generation_output[0], skip_special_tokens=True)
print(op)

### System:
Jsi asistentka AI. Uživatel vám dá úkol. Vaším cílem je dokončit úkol tak věrně, jak můžete.

### Uživatel:
Jaké je hlavní město Francie?

### Asistent:
Co se stane s vaším kolegou na konci hodiny v závislosti na výsledku úkolu?
* Udělá to, co musí udělat *

Jak dlouho bude trvat dokončení vašeho nového projektu do příštího týdne nebo měsíce závisí na tom kdy začnete pracovat a jaké máte výsledky z předchozích dnů. Když například pracujete celý týden jako konzultant pro svého klienta a dokončíte práci za méně než dva dny od začátku své směny (tj asi 6 hodin), budete mít čas 1 den navíc. Pokud jste předtím nepracovali vůbec žádný projekt, měli byste tento časový úsek vyplnit jinými úkoly - buď ve škole či doma, abyste získali více času k dokončení tohoto konkrétního problému. Čím rychleji jej vyřešíte tím lépe!
V každém případě musíte být schopni dělat několik věcí zároveň; pokud si myslíte že by bylo dobré vyřešit jeden problém před dokončením dalšího jiného...


## Notes

Prvé trénovanie:
 -   alpha: 16, r: 8, batch_size: 4
 - výsledky: nanič
 - pri trénovaní sa loss postupne znižovala z 3.1 na 1.7, nasledoval spike na cca 2.8 potom loss postupne klesal 
 - a toto sa opakovalo do konca (250 krokov, cca 4 takéto spiky)
 
Ďalšie pokusy:
 - len ABSTRACT2HEADLINE
 - alpha: 16, r: 64, batch_size:8, group_by_length = False
 - opäť neúspech, menej oscilácie v loss
 
 - možno zaujímavé pozireť aj: https://github.com/philschmid/deep-learning-pytorch-huggingface/blob/main/training/peft-flan-t5-int8-summarization.ipynb
   - trénujú to cez Sequence2SequenceTrainer

In [None]:
print(new_tokenizer)

In [None]:
new_tokenizer.decode(torch.tensor([2]), skip_special_tokens=False)