# Fine-tuning TinyLlama on English questions to German translation

This notebook represents the fine-tuning of TinyLlama on English question to German translation.

The dataset is the following: https://www.kaggle.com/datasets/aditya01233/german-english-neural-machine-translation-dataset

In [1]:
!pip install accelerate peft bitsandbytes transformers trl

Collecting peft
  Downloading peft-0.12.0-py3-none-any.whl.metadata (13 kB)
Collecting bitsandbytes
  Downloading bitsandbytes-0.43.3-py3-none-manylinux_2_24_x86_64.whl.metadata (3.5 kB)
Collecting trl
  Downloading trl-0.9.6-py3-none-any.whl.metadata (12 kB)
Collecting datasets (from trl)
  Downloading datasets-2.20.0-py3-none-any.whl.metadata (19 kB)
Collecting tyro>=0.5.11 (from trl)
  Downloading tyro-0.8.5-py3-none-any.whl.metadata (8.2 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch>=1.10.0->accelerate)
  Using cached nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.1.105 (from torch>=1.10.0->accelerate)
  Using cached nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch>=1.10.0->accelerate)
  Using cached nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu1

In [None]:
# from huggingface_hub import notebook_login
# notebook_login()

In [2]:
# load the required packages.

import torch
from datasets import load_dataset, Dataset
from peft import LoraConfig, AutoPeftModelForCausalLM
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, TrainingArguments
from trl import SFTTrainer
import os

In [3]:
# dataset="burkelibbey/colors"
model_id="TinyLlama/TinyLlama-1.1B-Chat-v1.0"
output_model="tinyllama-colorist-v1"

## Read data from csv and display some statistics - EDA

In [14]:
import pandas as pd

dataset_path = "GERMAN_ENGLISH_TRANSLATION.csv"

df_translation = pd.read_csv(dataset_path, index_col=0)
df_translation.head()

Unnamed: 0,ENGLISH,GERMAN
0,hi,hallo
1,hi,gru gott
2,run,lauf
3,wow,potzdonner
4,wow,donnerwetter


### Data preparation

In [None]:
# # we need to reformat the data in teh ChatML format.

# def formatted_train(input,response)->str:
#     return f"<|user|>\n{input}</s>\n<|assistant|>\n{response}</s>"

In [15]:
# we need to reformat the data in teh ChatML format.

def formatted_train(input, en_text, de_text)->str:
    return f"""<|user|>\nBitte übersetzen Sie den folgenden Text von Englisch ins Deutsche:
Englisch: {en_text}
Deutsch:</s>\n<|assistant|>\n{de_text}</s>"""

In [16]:
def prepare_train_data(dataset_path):
    # data = load_dataset(data_id, split="train")
    # data_df = data.to_pandas()

    df_translation = pd.read_csv(dataset_path, index_col=0)
    # df_translation.head()
    df_translation["text"] = df_translation[["ENGLISH", "GERMAN"]].apply(
        lambda x: """<|user|>Bitte übersetzen Sie den folgenden Text von Englisch ins Deutsche:
Englisch:\n""" + x["ENGLISH"] + "\nDeutsch:</s>\n<|assistant|>\n" + x["GERMAN"] + "</s>", axis=1)

    print("view some data:")
    print(df_translation.head())

    data = Dataset.from_pandas(df_translation)
    return data

In [17]:
dataset_path = "GERMAN_ENGLISH_TRANSLATION.csv"
data = prepare_train_data(dataset_path)

view some data:
  ENGLISH        GERMAN                                               text
0      hi         hallo  <|user|>Bitte übersetzen Sie den folgenden Tex...
1      hi      gru gott  <|user|>Bitte übersetzen Sie den folgenden Tex...
2     run          lauf  <|user|>Bitte übersetzen Sie den folgenden Tex...
3     wow    potzdonner  <|user|>Bitte übersetzen Sie den folgenden Tex...
4     wow  donnerwetter  <|user|>Bitte übersetzen Sie den folgenden Tex...


In [20]:
data

Dataset({
    features: ['ENGLISH', 'GERMAN', 'text', '__index_level_0__'],
    num_rows: 152820
})

In [19]:
data[0]

{'ENGLISH': 'hi',
 'GERMAN': 'hallo',
 'text': '<|user|>Bitte übersetzen Sie den folgenden Text von Englisch ins Deutsche:\nEnglisch:\nhi\nDeutsch:</s>\n<|assistant|>\nhallo</s>',
 '__index_level_0__': 0}

### Model the Model (not the base version)

In [21]:
def get_model_and_tokenizer(mode_id):

    tokenizer = AutoTokenizer.from_pretrained(mode_id)
    tokenizer.pad_token = tokenizer.eos_token
    bnb_config = BitsAndBytesConfig(
        load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype="float16", bnb_4bit_use_double_quant=True
    )
    model = AutoModelForCausalLM.from_pretrained(
        mode_id, quantization_config=bnb_config, device_map="auto"
    )
    model.config.use_cache=False
    model.config.pretraining_tp=1
    return model, tokenizer

In [None]:
# !pip install -i https://test.pypi.org/simple/bitsandbytes

In [22]:
model, tokenizer = get_model_and_tokenizer(model_id)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/1.29k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.84M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/551 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/608 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.20G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

### Setting up the LoRA

In [24]:
peft_config = LoraConfig(
        r=8, lora_alpha=16, lora_dropout=0.05, bias="none", task_type="CAUSAL_LM"
    )

In [25]:
training_arguments = TrainingArguments(
        output_dir=output_model,
        per_device_train_batch_size=16,
        gradient_accumulation_steps=4,
        optim="paged_adamw_32bit",
        learning_rate=2e-4,
        lr_scheduler_type="cosine",
        save_strategy="epoch",
        logging_steps=10,
        num_train_epochs=3,
        max_steps=250,
        fp16=True,
        # push_to_hub=True
    )

In [26]:
trainer = SFTTrainer(
        model=model,
        train_dataset=data,
        peft_config=peft_config,
        dataset_text_field="text",
        args=training_arguments,
        tokenizer=tokenizer,
        packing=False,
        max_seq_length=1024
    )


Deprecated positional argument(s) used in SFTTrainer, please use the SFTConfig to set these arguments instead.


Map:   0%|          | 0/152820 [00:00<?, ? examples/s]

max_steps is given, it will override any value given in num_train_epochs


In [27]:
trainer.train()

Step,Training Loss
10,2.2405
20,1.4803
30,1.0127
40,0.8956
50,0.7982
60,0.7918
70,0.7745
80,0.7687
90,0.78
100,0.7528


TrainOutput(global_step=250, training_loss=0.8585827121734619, metrics={'train_runtime': 565.984, 'train_samples_per_second': 28.269, 'train_steps_per_second': 0.442, 'total_flos': 7720562858065920.0, 'train_loss': 0.8585827121734619, 'epoch': 0.10469011725293133})

### Merging the LoRA with the base model

In [32]:
from peft import AutoPeftModelForCausalLM, PeftModel
from transformers import AutoModelForCausalLM
import torch
import os

model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16, load_in_8bit=False,
                                             device_map="auto",
                                             trust_remote_code=True)

model_path = "/content/tinyllama-colorist-v1/checkpoint-250"

peft_model = PeftModel.from_pretrained(model, model_path, from_transformers=True, device_map="auto")

model = peft_model.merge_and_unload()

In [33]:
model

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(32000, 2048)
    (layers): ModuleList(
      (0-21): 22 x LlamaDecoderLayer(
        (self_attn): LlamaSdpaAttention(
          (q_proj): Linear(in_features=2048, out_features=2048, bias=False)
          (k_proj): Linear(in_features=2048, out_features=256, bias=False)
          (v_proj): Linear(in_features=2048, out_features=256, bias=False)
          (o_proj): Linear(in_features=2048, out_features=2048, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear(in_features=2048, out_features=5632, bias=False)
          (up_proj): Linear(in_features=2048, out_features=5632, bias=False)
          (down_proj): Linear(in_features=5632, out_features=2048, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): LlamaRMSNorm()
        (post_attention_layernorm): LlamaRMSNorm()
      )
    )
    (norm): LlamaRMSNorm()
  )
  (lm_head): Line

In [None]:
# TODO: save models locally

# model.push_to_hub("Promptengineering/tinyllama-colorist-v0", token = "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") # Online saving
# tokenizer.push_to_hub("Promptengineering/tinyllama-colorist-v0", token = "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") # Online saving

model.safetensors:   0%|          | 0.00/2.20G [00:00<?, ?B/s]

README.md:   0%|          | 0.00/5.17k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/Promptengineering/tinyllama-colorist-v0/commit/937a4c795099d3f9e108de8120c4c1bb9d20af50', commit_message='Upload tokenizer', commit_description='', oid='937a4c795099d3f9e108de8120c4c1bb9d20af50', pr_url=None, pr_revision=None, pr_num=None)

### Inference from the LLM

In [34]:
from transformers import GenerationConfig
from time import perf_counter

def generate_response(user_input):

  prompt = formatted_prompt(user_input)

  inputs = tokenizer([prompt], return_tensors="pt")
  generation_config = GenerationConfig(penalty_alpha=0.6,do_sample = True,
      top_k=5,temperature=0.5,repetition_penalty=1.2,
      max_new_tokens=12,pad_token_id=tokenizer.eos_token_id
  )
  start_time = perf_counter()

  inputs = tokenizer(prompt, return_tensors="pt").to('cuda')

  outputs = model.generate(**inputs, generation_config=generation_config)
  print(tokenizer.decode(outputs[0], skip_special_tokens=True))
  output_time = perf_counter() - start_time
  print(f"Time taken for inference: {round(output_time,2)} seconds")

In [None]:
# def formatted_prompt(question)-> str:
#     return f"<|user|>\n{question}</s>\n<|assistant|>"

In [36]:
def formatted_prompt(en_question)-> str:
    return f"""<|user|>\nBitte übersetzen Sie den folgenden Text von Englisch ins Deutsche:
Englisch: {en_question}
Deutsch:</s>\n<|assistant|>"""

In [37]:
generate_response(user_input='Since when do you have a headache?')

<|user|>
Bitte übersetzen Sie den folgenden Text von Englisch ins Deutsche:
Englisch: Since when do you have a headache?
Deutsch: 
<|assistant|>
Sie haben schon seit weniger als einer Stunde
Time taken for inference: 0.97 seconds


In [38]:
generate_response(user_input='When did your fever start?')

<|user|>
Bitte übersetzen Sie den folgenden Text von Englisch ins Deutsche:
Englisch: When did your fever start?
Deutsch: 
<|assistant|>
Wie lange war dein krankenstand auf
Time taken for inference: 0.66 seconds


In [39]:
generate_response(user_input='Have you noticed any swelling in your legs?')

<|user|>
Bitte übersetzen Sie den folgenden Text von Englisch ins Deutsche:
Englisch: Have you noticed any swelling in your legs?
Deutsch: 
<|assistant|>
Hast du jemals etwas im legen ges
Time taken for inference: 1.0 seconds


In [40]:
generate_response(user_input='Are you feeling nauseous frequently?')

<|user|>
Bitte übersetzen Sie den folgenden Text von Englisch ins Deutsche:
Englisch: Are you feeling nauseous frequently?
Deutsch: 
<|assistant|>
Sind du regelmäßig mit dem schla
Time taken for inference: 0.64 seconds


In [41]:
generate_response(user_input='Do you have difficulty breathing at night?')

<|user|>
Bitte übersetzen Sie den folgenden Text von Englisch ins Deutsche:
Englisch: Do you have difficulty breathing at night?
Deutsch: 
<|assistant|>
Ihr hat einen schweren schlafproble
Time taken for inference: 0.85 seconds


In [42]:
generate_response(user_input='When did you first notice the rash?')

<|user|>
Bitte übersetzen Sie den folgenden Text von Englisch ins Deutsche:
Englisch: When did you first notice the rash?
Deutsch: 
<|assistant|>
Was war das erste mal, dass du die ras
Time taken for inference: 1.09 seconds


In [43]:
generate_response(user_input='Have you had any episodes of dizziness?')

<|user|>
Bitte übersetzen Sie den folgenden Text von Englisch ins Deutsche:
Englisch: Have you had any episodes of dizziness?
Deutsch: 
<|assistant|>
Hast du jemals einen episoden der un
Time taken for inference: 0.56 seconds


In [44]:
generate_response(user_input='Are you experiencing any chest pain?')

<|user|>
Bitte übersetzen Sie den folgenden Text von Englisch ins Deutsche:
Englisch: Are you experiencing any chest pain?
Deutsch: 
<|assistant|>
Ihr erlebt eine kopfschmerz
Time taken for inference: 1.17 seconds


In [45]:
generate_response(user_input='How often do you have a dry cough?')

<|user|>
Bitte übersetzen Sie den folgenden Text von Englisch ins Deutsche:
Englisch: How often do you have a dry cough?
Deutsch: 
<|assistant|>
Wie oft hast du einen dichten kopfsch
Time taken for inference: 0.59 seconds


In [46]:
generate_response(user_input='Have you lost weight recently without trying?')

<|user|>
Bitte übersetzen Sie den folgenden Text von Englisch ins Deutsche:
Englisch: Have you lost weight recently without trying?
Deutsch: 
<|assistant|>
Hast du in jüngerer Zeit wesentlich
Time taken for inference: 0.53 seconds
