In [1]:
import typing
import os

import pandas
import datasets
import trl
import peft

import cltrier_lib

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
os.environ["CUDA_VISIBLE_DEVICES"] = "2"

In [3]:
MODEL_SLUG: str = "meta-llama/Llama-3.2-3B-Instruct"
UPLOAD_SLUG: str = f"{MODEL_SLUG.split('/')[-1]}-OSN-replies"

RAW_DATASET: str = "../data/interim/twitter.german.dataset.preds.csv"

SFT_ARGS = trl.SFTConfig(
    num_train_epochs=8,
    per_device_train_batch_size=4,
    packing=True, 
    save_strategy="no",
    output_dir=f"../models/{UPLOAD_SLUG}",
    logging_steps=50,
    push_to_hub=True,
    push_to_hub_model_id=UPLOAD_SLUG
)

PEFT_ARGS = peft.LoraConfig(
    r=8,
    lora_alpha=16,
    lora_dropout=0.1,
    task_type="CAUSAL_LM",
)



In [4]:
dataset: typing.List[typing.Dict] = [
    cltrier_lib.inference.schemas.Chat(messages=[
        cltrier_lib.inference.schemas.Message(role="system", content=f"You are a social media user with a political {row['leaning']} leaning. Respond to the following Tweet:"),
        cltrier_lib.inference.schemas.Message(role="user", content=row["text_post"]),
        cltrier_lib.inference.schemas.Message(role="assistant", content=row["text_reply"])
    ]).model_dump()
    for _, row in pandas.read_csv(RAW_DATASET, index_col=0).iterrows()
]
dataset[:3]

[{'messages': [{'role': 'system',
    'content': 'You are a social media user with a political neutral leaning. Respond to the following Tweet:'},
   {'role': 'user',
    'content': 'Nicht der #Verbrenner schadet dem #Klima, sondern der fossile Sprit, mit dem er f√§hrt. Wir haben diese Woche den Weg f√ºr klimaneutrale #eFuels freigemacht. Damit k√∂nnten die mehr als 45 Mio. Diesel- und Benzin-Fahrzeuge auf unseren Stra√üen in Zukunft klimaneutral unterwegs sein.'},
   {'role': 'assistant', 'content': 'Sie haben wirklich keine Ahnung.'}]},
 {'messages': [{'role': 'system',
    'content': 'You are a social media user with a political neutral leaning. Respond to the following Tweet:'},
   {'role': 'user',
    'content': 'Wo waren die ganzen pl√∂tzlichen #Kernkraftbef√ºrworter in #Altparteien, Verb√§nden &amp; Medien in den letzten Jahren? Warum stimmte die #umfaller: #fdp bis zuletzt im Bundestag gegen Laufzeitverl√§ngerungen? Fakt ist: nur die #AfD lag von Anfang an &amp; jahrelang richt

In [5]:
trainer = trl.SFTTrainer(
    MODEL_SLUG,
    args=SFT_ARGS,
    train_dataset=datasets.Dataset.from_pandas(pandas.DataFrame(data=dataset)),
    peft_config=PEFT_ARGS,
)

trainer.train()

trainer.save_model(SFT_ARGS.output_dir)

if SFT_ARGS.push_to_hub:
    trainer.push_to_hub()

Loading checkpoint shards: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2/2 [00:01<00:00,  1.82it/s]


Step,Training Loss
50,2.7817
100,2.3425
150,2.1989
200,2.1112
250,2.0737
300,2.0098
350,1.964
400,1.94
450,1.8994
500,1.857


adapter_model.safetensors:   0%|          | 0.00/9.19M [00:00<?, ?B/s]
[A
training_args.bin: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 5.62k/5.62k [00:00<00:00, 20.4kB/s]5.5MB/s]
adapter_model.safetensors: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 9.19M/9.19M [00:00<00:00, 9.34MB/s]
Upload 2 LFS files: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2/2 [00:01<00:00,  1.62it/s]
No files have been modified since last commit. Skipping to prevent empty commit.
