In [1]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
from datasets import load_dataset

In [None]:
# Зареждане на токенизатора и модела
tokenizer = AutoTokenizer.from_pretrained("INSAIT/bgGPT")
model = AutoModelForSequenceClassification.from_pretrained("INSAIT/bgGPT", num_labels=2)

In [None]:
# Зареждане на данни за тренировка и тест
train_dataset = load_dataset('csv', data_files={'train': 'path/to/train.csv'})
test_dataset = load_dataset('csv', data_files={'test': 'path/to/test.csv'})

In [None]:
# Токенизиране на данните
def tokenize_function(examples):
    return tokenizer(examples['text'], padding='max_length', truncation=True)

In [None]:
tokenized_datasets = train_dataset.map(tokenize_function, batched=True)
tokenized_test_dataset = test_dataset.map(tokenize_function, batched=True)


In [None]:
# Конфигурация за тренировка
training_args = TrainingArguments(
    output_dir='./results',          # Директория за запазване на резултатите
    evaluation_strategy="epoch",     # Оценка на всяка епоха
    learning_rate=2e-5,             # Скорост на обучение
    per_device_train_batch_size=8,   # Размер на партидата за тренировка
    per_device_eval_batch_size=8,    # Размер на партидата за оценка
    num_train_epochs=3,              # Брой епохи за тренировка
    weight_decay=0.01,               # Коефициент на регуляризация
)

In [None]:
# Инициализация на треньора
trainer = Trainer(
    model=model,                         # Моделът за тренировка
    args=training_args,                  # Аргументите за тренировка
    train_dataset=tokenized_datasets["train"], # Тренировъчният набор
    eval_dataset=tokenized_test_dataset["test"], # Тестовият набор
)


In [None]:
# Стартиране на тренировката
trainer.train()

In [None]:
# Запазване на финалния модел
trainer.save_model('./finetuned_model')