In [None]:
!pip install transformers datasets accelerate
!pip install peft



In [None]:
from datasets import load_dataset
import torch

device='cuda'

MODEL_NAME = "qordon/uk_gec_model_2"

dataset = load_dataset("json", data_files="train_data_per_line.json")

dataset = dataset["train"].train_test_split(test_size=0.1)

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

def preprocess(example):
    model_input = tokenizer(example["text"], max_length=128, truncation=True, padding="max_length")
    labels = tokenizer(example["target"], max_length=128, truncation=True, padding="max_length")

    model_input["labels"] = labels["input_ids"]
    return model_input

tokenized_dataset = dataset.map(preprocess, batched=True)

Map:   0%|          | 0/5344 [00:00<?, ? examples/s]

Map:   0%|          | 0/594 [00:00<?, ? examples/s]

In [None]:
from peft import get_peft_model, LoraConfig, TaskType
from transformers import AutoModelForSeq2SeqLM

# Load base model
base_model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME).to(device)

# Configure LoRA
lora_config = LoraConfig(
    r=8,
    lora_alpha=16,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.1,
    bias="none",
    task_type=TaskType.SEQ_2_SEQ_LM,
)

# Wrap with LoRA
model = get_peft_model(base_model, lora_config)

model.print_trainable_parameters()  # Just to verify it works


trainable params: 1,179,648 || all params: 612,059,136 || trainable%: 0.1927


In [None]:

from transformers import Seq2SeqTrainingArguments, Seq2SeqTrainer

training_args = Seq2SeqTrainingArguments(
    output_dir="./corrector",
    eval_strategy="epoch",
    learning_rate=5e-5,
    per_device_train_batch_size=4,  # or even 2
    per_device_eval_batch_size=4,
    gradient_accumulation_steps=4,
    weight_decay=0.01,
    save_total_limit=2,
    num_train_epochs=5,
    predict_with_generate=True,
    logging_dir="./logs",
    logging_steps=50,
    push_to_hub=False,  # set True if you want to upload
    save_strategy="epoch",
    fp16=True,
)

from transformers import DataCollatorForSeq2Seq

data_collator = DataCollatorForSeq2Seq(tokenizer, model=model)

trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset["test"],
    tokenizer=tokenizer,
    data_collator=data_collator
)

trainer.train()

  trainer = Seq2SeqTrainer(
No label_names provided for model class `PeftModelForSeq2SeqLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.


Epoch,Training Loss,Validation Loss
1,0.1088,0.092965
2,0.0936,0.080408
3,0.0926,0.074784
4,0.0833,0.072296
5,0.0806,0.071382


TrainOutput(global_step=1670, training_loss=0.09876757681726696, metrics={'train_runtime': 1158.5613, 'train_samples_per_second': 23.063, 'train_steps_per_second': 1.441, 'total_flos': 7262420934328320.0, 'train_loss': 0.09876757681726696, 'epoch': 5.0})

In [None]:
text_example="""УКРАЇНА

СТРАТІЯ
ДОНЕЦЬКА ОБЛАСНА державному АДМІНІ
ДОНЕЦЬКА ОБЛАСНА ВІЙСЬКОВО-ЦИВІЛЬНА АДМІНІСТРАЦІЯ
РОЗПОРЯДЖУ
ІЛЮСТРАЦІЇ

ГОЛОВИ ОБЛАСНОЇ ДЕРЖАВНОЇ АДАМ.
КЕРІВНИКА ОБЛАСНОЇ ВІЙСЬКОВО-ЦИВІЛЬНОЇ АДМІНІСТРАЦІЇ

З | 10.01.2019 oa
м Краматорськ

Про застосування державної мови.
працівниками облдержадміністрації
під час виконання своїх посадових
обов'язків

Відповідно до статей 2, 4, 8 Закону України «Про державну службу»,
статей би, 10, 1! Закону України «Про засади державної мовної політики»,
керуючись статтями 12, 22 Закону України «Про місцеві державні
адміністрації»:

_ 1, Заступникам голови облдержадміністрації, керівникам структурних
підрозділів облдержадміністрації та Її апарату під час виконання своїх
посадових обов'язків застосовувати державну мову та забезпечити if
застосування працівниками структурних підрозділів облуде адміністрації
з ІД січня 2017 року. P

2, Головам райдержадміністрацій вжити заходів щодо застосування
державної мови працівниками райдержадміністрацій під час виконав їй
посадових обов'язків. Ht CROIX

3. Рекомендувати міським і звання

» Pexor головам вжити заходів щодо ЗАТ
державної мови посадовими особами виконавчих органів міських п час
виконання своїх посадових обов'язків. Ради

4. Контроль за виконанням цього розпорядження залишаю за собою.

Цивільної адміністрації Піде
Жебрівський"""

def correct_text(text: str, max_length=128):
    res = []
    for line in text.split('\n'):
        if line:
            input_ids = tokenizer.encode(line, return_tensors="pt", truncation=True, max_length=max_length).to(device)
            output_ids = model.generate(input_ids=input_ids, max_length=max_length, num_beams=5, early_stopping=True)
            corrected = tokenizer.decode(output_ids[0], skip_special_tokens=True)
            res.append(corrected)
        else:
            res.append('')
    return "\n".join(res)


In [None]:
print(correct_text(text_example))

УКРАЇНА СТРАТІЯ ДОНЕЦЬКА ОБЛАСНА державному АДМІНІНІНІРІЇ ДОНЕЦЬКА ОБЛАСНА ВІЙСЬКОВО-ЦИВІЛЬНА АДМІНІСТРАЦІЯ РОЗПОРЯДЖУ ІЛЮСТРАЦІЇ ГОЛОВИ ОБЛАСНОЇ ДЕРЖАВНОЇ АДМІНІСТРАЦІЇ КЕРІВНИКА ОБЛАСНОЇ ВІЙСЬКОВО-ЦИВІЛЬНОЇ АДМІНІСТРАЦІЇ З 10.01.2019 р. Про застосування державної мови працівниками облдержадміністрації під час виконання своїх посадових обов'язків Відповідно до статей 2, 4, 8 Закону України «Про державну службу», статей 10, 10, 11 Закону України «Про засади державної мовної політики», керуючись статтями 12, 22 Закону України «Про місцеві державні адміністрації»: 1, заступникам голови облдержадміністрації, керівникам структурних підрозділів облдержадміністрації та керівництві облдержадміністрації під час виконання своїх посадових обов'язків застосовувати державну мову та забезпечити її застосування працівниками структурних підрозділів обласної державної адміністрації з січня 2017 року. 2, Головам райдержадміністрацій вжити заходів щодо застосування державної мови працівниками райдержадм

In [None]:
TOKEN = "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"

In [None]:
from huggingface_hub import login
login()


VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [None]:
repo_name = "Volplayed/ukr-document-gec"

In [None]:
model.save_pretrained(repo_name)
model.push_to_hub(repo_name)
tokenizer.push_to_hub(repo_name)

adapter_model.safetensors:   0%|          | 0.00/4.74M [00:00<?, ?B/s]

README.md:   0%|          | 0.00/5.17k [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

Upload 2 LFS files:   0%|          | 0/2 [00:00<?, ?it/s]

CommitInfo(commit_url='https://huggingface.co/Volplayed/ukr-document-gec/commit/19a617135dac1fba98f2dc699c4f0709db0be694', commit_message='Upload tokenizer', commit_description='', oid='19a617135dac1fba98f2dc699c4f0709db0be694', pr_url=None, repo_url=RepoUrl('https://huggingface.co/Volplayed/ukr-document-gec', endpoint='https://huggingface.co', repo_type='model', repo_id='Volplayed/ukr-document-gec'), pr_revision=None, pr_num=None)