## Training Simba model

Notebook to detail steps of training/fine-tuning/inference of the model used for Simba

In [1]:
from datasets import load_dataset
import torch
from transformers import AutoModelForCausalLM, BitsAndBytesConfig, AutoTokenizer, TrainingArguments
from peft import LoraConfig
from trl import SFTTrainer
import os

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
dataset = load_dataset('json', data_files='train_inst_dataset.jsonl')
dataset = dataset['train']
dataset.set_format("torch", device="cuda")

**Training datapoint example**

{"original": "Kannst du folgenden Zeitungsartikel vereinfachen: 'Ein Netzwerkfehler sorgte Dienstagvormittag für den Ausfall von 120 der 275 Lifte in den Wiener U-Bahn-Stationen. Die Störung sei in der Nacht auf Dienstag um 3.47 Uhr eingetreten, berichtete ORF Wien . Durch den Netzwerkfehler ist wenig später in den betroffenen Liften die Notruffunktion ausgefallen. Aus Sicherheitsgründen habe man die Aufzüge gestoppt, sagte eine Sprecherin der Wiener Linien. Nur jene Stationen, die mit Aufsichtspersonal besetzt sind, seien nicht betroffen, da dort keine Gefahr bestehe, dass Personen unbemerkt stecken blieben bzw. zu Schaden kämen, hieß es. Nach der Reparatur des Systems wurden die Aufzüge schrittweise wieder in Gang gesetzt. Um 10.30 Uhr waren laut Wiener Linien alle ausgefallenen Aufzüge wieder in Betrieb. Was zu dem Defekt führte, ist derzeit noch Gegenstand von Untersuchungen. Für die Fahrgäste war die Sperre zwar ärgerlich, besondere Vorfälle gab es aber nicht, bestätigte auch die Wiener Rettung auf Nachfrage des KURIER. Der nächste Ausfall ist geplant: Ab 30. April wird die U4 von Hütteldorf bis Hietzing gesperrt .'", "simplification": "In den Wiener U-Bahn-Stationen ist von 18. auf 19. April ein technischer-Fehler aufgetreten. Durch diesen Fehler sind in den betroffenen Aufzügen die Notrufsignale ausgefallen. Aus Sicherheitsgründen waren viele Aufzüge außer Betrieb. Das war in Stationen, wo es keine Aufsichts-Person gab. In den Stationen, wo es eine Aufsicht gibt, wurden keine Aufzüge gestoppt, da keine Gefahr für die Menschen war. Nach der Reparatur von dem technischen Problem wurden schrittweise die Aufzüge wieder in Betrieb genommen. Was der Auslöser für diesen Fehler war, wird noch untersucht. Für die Menschen war die Sperre zwar ärgerlich, aber zum Glück gab es keine Verletzten."}

In [3]:
base_model_name = "jphme/em_german_leo_mistral"
device_map = {"": 0}

base_model = AutoModelForCausalLM.from_pretrained(
    base_model_name,
    #quantization_config=bnb_config,
    torch_dtype=torch.float16,
    device_map=device_map,
    #trust_remote_code=True,
    #use_auth_token=True
)
#base_model.config.use_cache = False

Loading checkpoint shards: 100%|██████████| 2/2 [00:04<00:00,  2.33s/it]


In [4]:
output_dir = "./mistral_fine_tuned_feb24"

training_args = TrainingArguments(output_dir=output_dir[2:], learning_rate=3e-5, warmup_steps=20, lr_scheduler_type="cosine", adam_beta1=0.9, adam_beta2=0.95)
device = "cuda:0" if torch.cuda.is_available() else "cpu"

# bnb_config = BitsAndBytesConfig(
#     load_in_4bit=True,
#     bnb_4bit_quant_type="nf4",
#     bnb_4bit_compute_dtype=torch.float16,
# )

# More info: https://github.com/huggingface/transformers/pull/24906
#base_model.config.pretraining_tp = 1 

peft_config = LoraConfig(
    lora_alpha=16,
    lora_dropout=0.1,
    r=64,
    bias="none",
    task_type="CAUSAL_LM",
)

tokenizer = AutoTokenizer.from_pretrained(base_model_name)#, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right" 

training_args = TrainingArguments(
    output_dir=output_dir,
    per_device_train_batch_size=1,
    gradient_accumulation_steps=4,
    learning_rate=3e-5,
    logging_steps=10,
    max_steps=500
    #num_train_epochs=1
)

#(output_dir="mistral_fine_tune_1011", learning_rate=3e-5, warmup_steps=20, lr_scheduler_type="cosine", adam_beta1=0.9, adam_beta2=0.95)
#max_seq_length = 512

#Du bist ein hilfreicher Assistent. USER: <instruction> ASSISTANT:

def formatting_prompts_func(example):
    #print(example)
    output_texts = []
    for i in range(len(example['original'])):
        text = f"Du bist ein hilfreicher Assistent. USER: {example['original'][i]} ASSISTANT: {example['simplification'][i]}"
        output_texts.append(text)
    return output_texts

trainer = SFTTrainer(
    model=base_model,
    train_dataset=dataset,
    peft_config=peft_config,
    tokenizer=tokenizer,
    #max_seq_length=
    formatting_func=formatting_prompts_func,
    args=training_args,
)





In [5]:
trainer.train()

Step,Training Loss
10,1.5315
20,1.4548
30,1.4166
40,1.3346
50,1.3581
60,1.3867
70,1.3319
80,1.2923
90,1.2696
100,1.3131


TrainOutput(global_step=500, training_loss=1.2665534152984619, metrics={'train_runtime': 1008.9171, 'train_samples_per_second': 1.982, 'train_steps_per_second': 0.496, 'total_flos': 7.254548169488794e+16, 'train_loss': 1.2665534152984619, 'epoch': 0.21})

In [6]:
output_dir = os.path.join(output_dir, "final_checkpoint")
trainer.model.save_pretrained(output_dir)

### Merging model

In [8]:
from peft import AutoPeftModelForCausalLM, PeftModel
#import torch
from transformers import AutoModelForCausalLM

In [11]:
adapter_model_name="/home/freya/simplification/mistral_fine_tuned_feb24/final_checkpoint/"
base_model_name = "jphme/em_german_leo_mistral"
model = AutoModelForCausalLM.from_pretrained(base_model_name)#, device_map="auto")
model = PeftModel.from_pretrained(model, adapter_model_name)#, #device_map="auto")

model = model.merge_and_unload()

Loading checkpoint shards: 100%|██████████| 2/2 [00:05<00:00,  2.94s/it]


In [12]:
model.half()
model.save_pretrained("merged_model_mistral_fine_tuned_feb24")

In [8]:
# Push to HF
from huggingface_hub import HfApi
api = HfApi()

api.upload_folder(
    folder_path="merged_model_mistral_fine_tuned_feb24",
    repo_id="hiig-piai/simba-v01b_merged",
    repo_type="model",
)


### Inference

In [1]:
prompt_format = "Du bist ein hilfreicher Assistent. USER: Kannst du folgenden Zeitungsartikel vereinfachen: '" 
prompt_format2 = "' ASSISTANT: "

In [2]:
text5 = """Schulen, Kitas, Bürgerämter: Am Mittwoch dürften viele Berlinerinnen und Berliner Einschränkungen bemerken - wegen eines Warnstreiks der Beschäftigten des öffentlichen Dienstes. Gewerkschaften fordern 10,5 Prozent mehr Lohn.

Notbetreuung in Schulen, geschlossene Kitas, eingeschränkte Besetzung der Bürgerämter: Am Mittwoch hat ein Warnstreik der Berliner Beschäftigten, die unter den Tarifvertrag der Länder fallen, begonnen. Es sei mit Unterrichtsausfall an zahlreichen Schulen zu rechnen, sagte ein Sprecher der beteiligten Gewerkschaft Erziehung und Wissenschaft (GEW) am Morgen. Mindestens 100 Kitas blieben geschlossen, sagte ein Verdi-Sprecher dem rbb.

Zum Warnstreik aufgerufen sind die Beschäftigten der Senatsverwaltungen und Bezirksämter, die Schulen und Hochschulen, die Polizeidienststellen, die Feuerwehr, die Kitas und die forstwirtschaftlichen Betriebe des Landes Berlin, wie die Gewerkschaften Verdi, Erziehung und Wissenschaft (GEW), der Polizei (GdP) und IG Bau gemeinsam mitteilten.

Begleitet wird der Streik in Berlin von einer Demo am Vormittag. Sie beginnt am Wittenbergplatz und zieht dann bis zum Platz des 18. März. Die Organisatoren rechnen eigenen Angaben zufolge mit Tausenden Teilnehmern. Auch in den anderen Stadtstaaten Bremen und Hamburg sind die Beschäftigten des öffentlichen Diensts zu Arbeitsniederlegungen aufgerufen.
"""

In [3]:
# Cleaning output (this might be able to be done more cleverly, i.e. maybe there's some model params that do the same thing?)
# ensure output is not cut off mid-sentence
# ensure output doesn't have repetitive content

import re

def split_into_sentences(text):
  # from here: https://github.com/brjezierski/scrapers/blob/51da6fa87879217c5676df87a5f28873ee8e0826/preprocess.py#L88C1-L100C19 
 
  sentences = re.split(r"(?<!\w\.\w.)(?<![0-9]\.)(?<![0-9][0-9]\.)(?<![A-Z]\.)(?<![A-Z][a-z]\.)(?<=\.|\?|\!)\s", text)
  sentences = [s for s in sentences if s]
  return sentences

from difflib import SequenceMatcher as SM

def remove_repetitive_output(raw_output):

    output_sents = split_into_sentences(raw_output.split("ASSISTANT: ")[1])

    outputs = ""
    sentences = list()

    for x in range(1,len(output_sents)):
        if SM(None,output_sents[x-1],output_sents[x]).ratio() < 0.6:
            if output_sents[x-1][-1] == ".":
                if output_sents[x-1].replace("\n", "") not in sentences:
                    outputs += output_sents[x-1].replace("\n", "") + " "
                    sentences.append(output_sents[x-1].replace("\n", ""))
    
    return outputs


In [6]:
# Load model if not already loaded
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model="merged_model_mistral_fine_tuned_feb24"

model = AutoModelForCausalLM.from_pretrained(model, device_map="auto", torch_dtype=torch.bfloat16)

base_model_name = "jphme/em_german_leo_mistral"

tokenizer = AutoTokenizer.from_pretrained(base_model_name)#, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token

Loading checkpoint shards: 100%|██████████| 3/3 [00:05<00:00,  1.96s/it]


In [8]:
device = "cuda:0" if torch.cuda.is_available() else "cpu"

inputs = tokenizer(prompt_format + text5 + prompt_format2, return_tensors="pt").to(device)
outputs = model.generate(input_ids=inputs["input_ids"], attention_mask=inputs["attention_mask"], max_new_tokens=200, pad_token_id=tokenizer.eos_token_id)
decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)

remove_repetitive_output(decoded)

' Am Mittwoch haben in Berlin viele Beschäftigte des öffentlichen Dienstes gestreikt. Das bedeutet, dass sie nicht gearbeitet haben. Die Beschäftigten haben gestreikt, weil sie mehr Geld bekommen wollen. Sie fordern 10,5 Prozent mehr Lohn. Das bedeutet, dass sie 10,5 Prozent mehr Geld bekommen sollen. '

### GPTQ quantization

In [1]:
# Load calibration dataset (unseen training examples)

import pickle
formatted_calibrate_ds = pickle.load(open("calibrated_ds.p", "rb"))

In [3]:
from transformers import AutoModelForCausalLM, AutoTokenizer
from optimum.gptq import GPTQQuantizer, load_quantized_model
import torch

fine_tuned_model = "merged_model_mistral_fine_tuned_feb24"
base_model_name = "jphme/em_german_leo_mistral"

#Load model on CPU
tokenizer = AutoTokenizer.from_pretrained(base_model_name)
model = AutoModelForCausalLM.from_pretrained(fine_tuned_model, torch_dtype=torch.float16)#.to(device)



Loading checkpoint shards: 100%|██████████| 3/3 [00:02<00:00,  1.17it/s]


In [4]:
quantizer = GPTQQuantizer(bits=4, group_size=128, dataset=formatted_calibrate_ds[:150], cache_examples_on_gpu=False)#, block_name_to_quantize = "model.decoder.layers", model_seqlen = 2048)
quantized_model = quantizer.quantize_model(model, tokenizer)

Quantizing model.layers blocks : 100%|██████████| 32/32 [18:13<00:00, 34.19s/it]
Found modules on cpu/disk. Using Exllama/Exllamav2 backend requires all the modules to be on GPU. Setting `disable_exllama=True`


In [6]:
model.save_pretrained(fine_tuned_model+"-gptq", safe_serialization=True)
tokenizer.save_pretrained(fine_tuned_model+"-gptq")

('merged_model_mistral_fine_tuned_feb24-gptq/tokenizer_config.json',
 'merged_model_mistral_fine_tuned_feb24-gptq/special_tokens_map.json',
 'merged_model_mistral_fine_tuned_feb24-gptq/tokenizer.json')

In [7]:
# Push to HF
from huggingface_hub import HfApi
api = HfApi()

api.upload_folder(
    folder_path=fine_tuned_model+"-gptq",
    repo_id="hiig-piai/simba-v01b_merged_gptq",
    repo_type="model",
)


model.safetensors: 100%|██████████| 4.16G/4.16G [03:33<00:00, 19.5MB/s] 


CommitInfo(commit_url='https://huggingface.co/hiig-piai/simba-v01b_merged_gptq/commit/4613d8656c36a8bb3899d8d68c7b0545f76c771f', commit_message='Upload folder using huggingface_hub', commit_description='', oid='4613d8656c36a8bb3899d8d68c7b0545f76c771f', pr_url=None, pr_revision=None, pr_num=None)