In [1]:
import os
import json

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

from torch.utils.data import Dataset as BaseDataset
from torch.utils.data import DataLoader as BaseDataLoader

from transformers import GPT2Tokenizer, AutoModelForCausalLM, GPT2LMHeadModel, AutoTokenizer
from transformers import TrainingArguments, Trainer

from peft import LoraConfig, get_peft_model

from datasets import load_dataset

device="cuda"

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
tokenizer = AutoTokenizer.from_pretrained("bolbolzaban/gpt2-persian")
tokenizer.add_special_tokens({"additional_special_tokens": ["<title>", ]})

1

In [3]:
config = {
    "emb_dim" : 768,
    "letter_emb_dim": 1024,
    "vocab_size" : tokenizer.vocab_size,
    "save_path": "./models/v6_peft.pth"
}

In [4]:
class Dataset(BaseDataset):
    def __init__(self, tokenizer):
        self.tokenizer = tokenizer
        self.data = load_dataset("csv", data_files="dataset.csv")["train"]

    def __getitem__(self, ix):
        item = self.data[ix]
        return item


    def __len__(self, ):
        return len(self.data)


In [5]:
class CustomCollator:
    def __call__(self, batch):
        titles = ["<title>" + item["title"] for item in batch if item is not None]
        ctx_embs = torch.tensor([json.loads(item["context_embedding"]) for item in batch if item is not None], dtype=torch.float)

        tokenized_title = tokenizer(titles,
                  padding="max_length",
                  truncation=True,
                  return_tensors="pt",
                  max_length=256)
        
        attention_mask = torch.stack([torch.cat([torch.tensor([1,], dtype=torch.long), mask], dim=-1) for mask in tokenized_title["attention_mask"]]).to(device)

        input_ids = tokenized_title["input_ids"][:, :-1].long()
        targets = tokenized_title["input_ids"]
        targets = targets.masked_fill(targets == tokenizer.pad_token_id, -100)

        return {
            "attention_mask": attention_mask[:, :-1].to(device),
            "letter_emb": ctx_embs.to(device),
            "input_ids": input_ids.to(device),
            "label": targets.to(device)
        }

dataset = Dataset(tokenizer)
collator_fn = CustomCollator()

In [6]:
class Model(nn.Module):

    def __init__(self, tokenizer, config):
        super().__init__()
        self.tokenizer = tokenizer
        self.letter_projection = nn.Sequential(nn.Linear(config["letter_emb_dim"], config["letter_emb_dim"] // 2),
                                                nn.Linear(config["letter_emb_dim"] // 2, config["emb_dim"]))
        self.gpt = GPT2LMHeadModel.from_pretrained("gpt2")
        self.gpt.resize_token_embeddings(len(tokenizer))

        tp = 0
        for p in self.letter_projection.parameters():
            tp += p.numel()
            p.requires_grad=True
        for p in self.gpt.lm_head.parameters():
            tp += p.numel()
            p.requires_grad=True
        for p in self.gpt.transformer.wte.parameters():
            tp += p.numel()
            p.requires_grad=True
        for p in self.gpt.transformer.wpe.parameters():
            tp += p.numel()
            p.requires_grad=True
        
        print("number of trainable params:", tp)


    @classmethod
    def from_pretrained(cls, tokenizer, config):
        print("check model existance...")
        if os.path.isfile(config["save_path"]):
            print("Loading the model...")
            self = cls(tokenizer, config)
            self.load_state_dict(torch.load(config["save_path"], weights_only=True))
            print("loaded successfully!")
        else:
            print(f"couldn't find the {config['save_path']} file!")
            print("Creating a new model...")
            self = cls(tokenizer, config)
        return self

    def save(self, ):
        torch.save(self.state_dict(), config["save_path"])
        print(f"Model saved at {config['save_path']}!")
    
    def forward(self, attention_mask, letter_emb, input_ids, label):
        letter_emb = self.letter_projection(letter_emb).unsqueeze(1)
        x = self.gpt.transformer.wte(input_ids)
        x += self.gpt.transformer.wpe(torch.arange(x.shape[1]).to(device))
        x = torch.cat([letter_emb, x], dim=1)
        output = self.gpt(inputs_embeds=x,
            attention_mask=attention_mask,
            return_dict=True,
            labels=label
        )
        return output

    
    @torch.no_grad
    def generate(self, letter_emb):
        model.eval()
        letter_emb = torch.tensor(json.loads(letter_emb)).view(1,1,-1).to(device)
        letter_emb = self.letter_projection(letter_emb)
        output = model.gpt.generate(
        inputs_embeds=letter_emb,
        attention_mask=torch.ones((1, 1), dtype=torch.long).to(device),
        do_sample=True,
        top_p=0.9,
        temperature=0.9,
        num_beams=5,
        max_length=128,
        min_length=1,
        repetition_penalty=1.0,
        length_penalty=1.0,
        num_return_sequences=1,)
        return self.tokenizer.batch_decode(output)

model = Model.from_pretrained(tokenizer, config)
model.to(device);

check model existance...
Loading the model...
number of trainable params: 40108288
loaded successfully!


In [8]:
train_args = TrainingArguments(
    output_dir="./cache/",
    learning_rate=1e-3,
    per_device_train_batch_size=8,
    gradient_accumulation_steps=16,
    num_train_epochs=10,
    weight_decay=0.01,
    lr_scheduler_type="linear",
    save_strategy="epoch",
    logging_steps=10,
    logging_strategy="steps",
    remove_unused_columns=False,
    dataloader_pin_memory=False,
    save_safetensors=False,
)

trainer = Trainer(model=model,
        args=train_args,
        data_collator=collator_fn,
        train_dataset=dataset)

In [9]:
trainer.train()
model.save()

`loss_type=None` was set in the config but it is unrecognised.Using the default loss: `ForCausalLMLoss`.


Step,Training Loss
10,7.2203
20,5.16
30,4.5931
40,3.971
50,3.8108
60,3.6277
70,3.4479
80,2.9959
90,3.0187
100,2.9069


Model saved at ./models/v6_peft.pth!


In [None]:
''.join(model.generate(dataset[0]["context_embedding"]), )

In [None]:
title_token = tokenizer("<title>", return_tensors='pt')["input_ids"]
title_token

tensor([[    5, 25001,     3]])

In [51]:
model.gpt.transformer.wte(title_token[:, 1:2].to(device)).shape

torch.Size([1, 1, 768])

In [14]:
len(dataset)

5001

In [13]:
ix = 10
sample_data = dataset[ix]
title_token = tokenizer("<title>", return_tensors='pt')["input_ids"]
with torch.no_grad():
    model.eval()
    letter_emb = model.letter_projection(torch.tensor(json.loads(sample_data["context_embedding"])).to(device).view(1, 1,-1))
    x = model.gpt.transformer.wte(title_token[:, 1:2].to(device))
    x += model.gpt.transformer.wpe(torch.arange(x.shape[1]).to(device))
    letter_emb = torch.cat([letter_emb, x], dim=1)
    output = model.gpt.generate(
        inputs_embeds=letter_emb,
        attention_mask=torch.ones((1, 1), dtype=torch.long).to(device),
        do_sample=True,
        top_p=0.9,
        temperature=0.9,
        num_beams=5,
        max_length=16,
        min_length=1,
        repetition_penalty=1.0,
        length_penalty=1.0,
        num_return_sequences=1,
    )

    output_ids = tokenizer.batch_decode(output, skip_special_tokens=True)
    print('Generated title:', ''.join(output_ids))
    print('True title:', sample_data["title"])
    print('context:', sample_data["context"])

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Generated title: نشانیواژههایهای اتوماسیون
True title: بازنشانی گذرواژه سامانه اتوماسیون اداری
context: 

شماره: 

تاریخ: 

پیوست: 
دارد
بسمه تعالی




جناب آقای مهندس محمد شیخ
مدیر عامل محترم شرکت تحلیلگران هوشمند فناوری اطلاعات امید

با سلام و احترام
بازگشت به نامه شماره ۵۸۵۵ ‏‏‏- ۰۳ ‏‏‏- ۱ مورخ ۱۵ ‏‏‏ / ۰۷ ‏‏‏ / ۱۴۰۳ در خصوص بازنشانی گذرواژه‏های سامانه اتوماسیون اداری به استحضار می‏رساند حسب هماهنگی‏های بعمل آمده عملیات مذکور در روز چهارشنبه مورخ ۰۲ ‏‏‏‏‏‏‏‏‏‏‏‏‏‏ / ۰۸ ‏‏‏‏‏‏‏‏‏‏‏‏‏‏ / ۱۴۰۳ توسط کارشناس این شرکت انجام و اطلاعات مربوطه به شرح پیوست جهت اعمال مدیریت‎های لازم و حفاظت از آن، حضورتان ارسال می‎گردد. 
لازم به ذکر است مسئولیت حفاظت و تغییرات گذرواژه‌های سیستم متوجه کارفرما بوده و پیمانکار در مواقع لزوم، در معیت کارفرما خدمات پشتیبانی لازم را ارائه خواهد نمود. 



با تشکر
مهدی اسد بگی
معاون امور فنی و پشتیبانی













