In [1]:
import torch
import numpy as np
import pandas as pd
import json

from transformers import GPT2LMHeadModel, GPT2Tokenizer
from transformers import TrainingArguments, Trainer
from transformers import DataCollatorForLanguageModeling, TextDataset
from torch.utils.data import Dataset, DataLoader

from peft import get_peft_model, LoraConfig

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
device = 'mps'

lora_config = LoraConfig(
    r=16,                       # Ранг, может быть изменен в зависимости от задачи
    lora_alpha=32,             # Гиперпараметр, который можно настроить
    lora_dropout=0.1,          # Вероятность дропаута для LoRA # Модули, которые будут адаптированы
)

model = GPT2LMHeadModel.from_pretrained('ai-forever/rugpt3small_based_on_gpt2').to(device)
model = get_peft_model(model, lora_config)
tokenizer = GPT2Tokenizer.from_pretrained('ai-forever/rugpt3small_based_on_gpt2')



In [6]:
with open('/Users/alexanderknyshov/Desktop/LLM/Data/datasets/train_set.json', 'r') as json_file:
    data = json.load(json_file)

def format_text(data, idx, data_format):
    news_text = "Напиши финансовую рекомендацию на основе этого текста новостей: " + " ".join(data['news'][idx])
    recommendation_text = " ".join(data['recommendations'][idx])
    data_format['news'].append(news_text)
    data_format['recommendations'].append(recommendation_text)

In [7]:
train_len = 4000
data_train = {'news': [], 'recommendations': []}
data_val = {'news': [], 'recommendations': []}

for i in range(train_len):
    format_text(data, i, data_train)
for i in range(train_len, len(data['news'])):
    format_text(data, i, data_val)

In [8]:
data_train

{'news': ['Напиши финансовую рекомендацию на основе этого текста новостей: экономическая политическая нестабильность последнего времени привела падению продаж одежды россии сравнению аналогичным периодом прошлого года отмечают эксперты мае года оперируют данными период февраля апреля такое снижение спроса связывают двумя факторами вопервых уходом российского рынка крупных западных сетей массмаркета вовторых вынужденным снижением расходов многих россиянгазпром смирился новый экспортный маршрут северный поток который построен запущен эксплуатацию сможет набрать максимальную скорость поставок голубого топлива европу года срока трубам лучшем случае сможет экспортироваться лишь половина заявленных объемов причем лишь случае соответствующее разрешение даст германияевросоюз полон решимости принять шестой пакет санкций котором конца года предусмотрен полный отказ закупок российской нефти нефтепродуктов мк пообщался экспертами выяснить это выльется бюджета россии валютных поступленийзападные эк

In [5]:
class NewsRecData(Dataset):
    def __init__(self, data, tokenizer, max_length = 1024):
        self.data = data
        self.tokenizer = tokenizer
        self.max_length = max_length

    def __len__(self):
        return len(self.data['news'])
    
    def __getitem__(self, idx):
        input_text = self.data['news'][idx]
        output_text = self.data['recommendations'][idx]

        input_tokens = self.tokenizer.encode(input_text, truncation=True, max_length=self.max_length, return_tensors='pt', padding='max_length').squeeze(0)
        output_tokens = self.tokenizer.encode(output_text, truncation=True, max_length=self.max_length, return_tensors='pt', padding='max_length').squeeze(0)

        return {
            'input_ids': input_tokens,
            'labels': output_tokens
        }
        

In [6]:
train_dataset = NewsRecData(data_train, tokenizer)
validation_dataset = NewsRecData(data_val, tokenizer)

data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer, 
    mlm=False
)

In [7]:
training_args = TrainingArguments(
    output_dir='/Users/alexanderknyshov/Desktop/LLM/Data/model_ft/results',
    per_device_train_batch_size=3,
    per_device_eval_batch_size=3,
    logging_dir='/Users/alexanderknyshov/Desktop/LLM/Data/model_ft/results/logs',
    num_train_epochs=1,
    logging_steps=10,
    save_steps=500,
    save_total_limit=2,
    evaluation_strategy="steps",
    eval_steps=500,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=validation_dataset,
    data_collator=data_collator
)



In [8]:
trainer.train()

  1%|          | 10/1334 [00:15<31:55,  1.45s/it] 

{'loss': 6.3055, 'grad_norm': 0.9538859724998474, 'learning_rate': 4.9625187406296854e-05, 'epoch': 0.01}


  1%|▏         | 20/1334 [00:31<32:35,  1.49s/it]

{'loss': 6.1463, 'grad_norm': 2.2198281288146973, 'learning_rate': 4.9250374812593707e-05, 'epoch': 0.01}


  2%|▏         | 30/1334 [00:45<33:02,  1.52s/it]

{'loss': 6.0316, 'grad_norm': 1.0079091787338257, 'learning_rate': 4.887556221889056e-05, 'epoch': 0.02}


  3%|▎         | 40/1334 [00:59<29:54,  1.39s/it]

{'loss': 6.0181, 'grad_norm': 0.6258706450462341, 'learning_rate': 4.850074962518741e-05, 'epoch': 0.03}


  4%|▎         | 50/1334 [01:13<29:21,  1.37s/it]

{'loss': 5.964, 'grad_norm': 0.6879193186759949, 'learning_rate': 4.8125937031484256e-05, 'epoch': 0.04}


  4%|▍         | 60/1334 [01:27<28:26,  1.34s/it]

{'loss': 5.8723, 'grad_norm': 0.7005963921546936, 'learning_rate': 4.7751124437781115e-05, 'epoch': 0.04}


  5%|▌         | 70/1334 [01:41<32:48,  1.56s/it]

{'loss': 5.8116, 'grad_norm': 0.939915120601654, 'learning_rate': 4.737631184407797e-05, 'epoch': 0.05}


  6%|▌         | 80/1334 [01:57<33:54,  1.62s/it]

{'loss': 5.7927, 'grad_norm': 0.7073706984519958, 'learning_rate': 4.700149925037481e-05, 'epoch': 0.06}


  7%|▋         | 90/1334 [02:13<32:48,  1.58s/it]

{'loss': 5.8064, 'grad_norm': 0.7125858068466187, 'learning_rate': 4.6626686656671664e-05, 'epoch': 0.07}


  7%|▋         | 100/1334 [02:27<28:08,  1.37s/it]

{'loss': 5.8075, 'grad_norm': 0.6402634978294373, 'learning_rate': 4.625187406296852e-05, 'epoch': 0.07}


  8%|▊         | 110/1334 [02:43<36:14,  1.78s/it]

{'loss': 5.7166, 'grad_norm': 0.759745180606842, 'learning_rate': 4.587706146926537e-05, 'epoch': 0.08}


  9%|▉         | 120/1334 [02:59<29:07,  1.44s/it]

{'loss': 5.7057, 'grad_norm': 0.769592821598053, 'learning_rate': 4.550224887556222e-05, 'epoch': 0.09}


 10%|▉         | 130/1334 [03:13<28:21,  1.41s/it]

{'loss': 5.7064, 'grad_norm': 0.887395977973938, 'learning_rate': 4.512743628185907e-05, 'epoch': 0.1}


 10%|█         | 140/1334 [03:26<27:05,  1.36s/it]

{'loss': 5.7305, 'grad_norm': 0.6768966317176819, 'learning_rate': 4.4752623688155925e-05, 'epoch': 0.1}


 11%|█         | 150/1334 [03:40<27:33,  1.40s/it]

{'loss': 5.7106, 'grad_norm': 1.009006381034851, 'learning_rate': 4.437781109445278e-05, 'epoch': 0.11}


 12%|█▏        | 160/1334 [03:54<26:07,  1.33s/it]

{'loss': 5.6297, 'grad_norm': 0.6366581320762634, 'learning_rate': 4.400299850074963e-05, 'epoch': 0.12}


 13%|█▎        | 170/1334 [04:07<26:54,  1.39s/it]

{'loss': 5.6295, 'grad_norm': 0.7135174870491028, 'learning_rate': 4.362818590704648e-05, 'epoch': 0.13}


 13%|█▎        | 180/1334 [04:23<28:36,  1.49s/it]

{'loss': 5.6431, 'grad_norm': 0.8187382817268372, 'learning_rate': 4.325337331334333e-05, 'epoch': 0.13}


 14%|█▍        | 190/1334 [04:38<27:26,  1.44s/it]

{'loss': 5.6289, 'grad_norm': 0.7915957570075989, 'learning_rate': 4.2878560719640185e-05, 'epoch': 0.14}


 15%|█▍        | 200/1334 [04:53<27:36,  1.46s/it]

{'loss': 5.6329, 'grad_norm': 0.8008164167404175, 'learning_rate': 4.250374812593703e-05, 'epoch': 0.15}


 16%|█▌        | 210/1334 [05:08<29:53,  1.60s/it]

{'loss': 5.5791, 'grad_norm': 0.799942672252655, 'learning_rate': 4.212893553223389e-05, 'epoch': 0.16}


 16%|█▋        | 220/1334 [05:23<27:41,  1.49s/it]

{'loss': 5.5598, 'grad_norm': 0.9368782043457031, 'learning_rate': 4.1754122938530734e-05, 'epoch': 0.16}


 17%|█▋        | 230/1334 [05:38<26:53,  1.46s/it]

{'loss': 5.6299, 'grad_norm': 0.9597121477127075, 'learning_rate': 4.1379310344827587e-05, 'epoch': 0.17}


 18%|█▊        | 240/1334 [05:53<24:59,  1.37s/it]

{'loss': 5.546, 'grad_norm': 0.9875259399414062, 'learning_rate': 4.100449775112444e-05, 'epoch': 0.18}


 19%|█▊        | 250/1334 [06:06<24:12,  1.34s/it]

{'loss': 5.5897, 'grad_norm': 0.7998622059822083, 'learning_rate': 4.062968515742129e-05, 'epoch': 0.19}


 19%|█▉        | 260/1334 [06:20<23:49,  1.33s/it]

{'loss': 5.5923, 'grad_norm': 0.866022527217865, 'learning_rate': 4.025487256371814e-05, 'epoch': 0.19}


 20%|██        | 270/1334 [06:34<24:14,  1.37s/it]

{'loss': 5.5907, 'grad_norm': 1.522530436515808, 'learning_rate': 3.9880059970014995e-05, 'epoch': 0.2}


 21%|██        | 280/1334 [06:49<27:09,  1.55s/it]

{'loss': 5.5416, 'grad_norm': 0.9794229865074158, 'learning_rate': 3.950524737631185e-05, 'epoch': 0.21}


 22%|██▏       | 290/1334 [07:03<23:44,  1.36s/it]

{'loss': 5.5527, 'grad_norm': 0.8804172873497009, 'learning_rate': 3.91304347826087e-05, 'epoch': 0.22}


 22%|██▏       | 300/1334 [07:17<23:57,  1.39s/it]

{'loss': 5.503, 'grad_norm': 0.7994637489318848, 'learning_rate': 3.875562218890555e-05, 'epoch': 0.22}


 23%|██▎       | 310/1334 [07:31<22:56,  1.34s/it]

{'loss': 5.5488, 'grad_norm': 1.023126244544983, 'learning_rate': 3.8380809595202396e-05, 'epoch': 0.23}


 24%|██▍       | 320/1334 [07:45<22:41,  1.34s/it]

{'loss': 5.5444, 'grad_norm': 1.0608105659484863, 'learning_rate': 3.800599700149925e-05, 'epoch': 0.24}


 25%|██▍       | 330/1334 [07:59<22:27,  1.34s/it]

{'loss': 5.5618, 'grad_norm': 0.8231421113014221, 'learning_rate': 3.763118440779611e-05, 'epoch': 0.25}


 25%|██▌       | 340/1334 [08:13<23:17,  1.41s/it]

{'loss': 5.5257, 'grad_norm': 0.873365581035614, 'learning_rate': 3.725637181409295e-05, 'epoch': 0.25}


 26%|██▌       | 350/1334 [08:28<23:09,  1.41s/it]

{'loss': 5.5479, 'grad_norm': 0.9959547519683838, 'learning_rate': 3.6881559220389805e-05, 'epoch': 0.26}


 27%|██▋       | 360/1334 [08:42<22:07,  1.36s/it]

{'loss': 5.5251, 'grad_norm': 1.5512503385543823, 'learning_rate': 3.6506746626686664e-05, 'epoch': 0.27}


 28%|██▊       | 370/1334 [08:56<21:37,  1.35s/it]

{'loss': 5.5569, 'grad_norm': 0.7959921360015869, 'learning_rate': 3.613193403298351e-05, 'epoch': 0.28}


 28%|██▊       | 380/1334 [09:10<21:36,  1.36s/it]

{'loss': 5.5401, 'grad_norm': 1.0701336860656738, 'learning_rate': 3.575712143928036e-05, 'epoch': 0.28}


 29%|██▉       | 390/1334 [09:24<21:47,  1.39s/it]

{'loss': 5.5214, 'grad_norm': 0.8570624589920044, 'learning_rate': 3.538230884557721e-05, 'epoch': 0.29}


 30%|██▉       | 400/1334 [09:37<20:54,  1.34s/it]

{'loss': 5.5326, 'grad_norm': 0.8394975662231445, 'learning_rate': 3.5007496251874065e-05, 'epoch': 0.3}


 31%|███       | 410/1334 [09:51<21:05,  1.37s/it]

{'loss': 5.4802, 'grad_norm': 0.7765640616416931, 'learning_rate': 3.463268365817092e-05, 'epoch': 0.31}


 31%|███▏      | 420/1334 [10:05<20:56,  1.38s/it]

{'loss': 5.5013, 'grad_norm': 1.1069481372833252, 'learning_rate': 3.425787106446777e-05, 'epoch': 0.31}


 32%|███▏      | 430/1334 [10:19<20:17,  1.35s/it]

{'loss': 5.5311, 'grad_norm': 0.9552114009857178, 'learning_rate': 3.3883058470764614e-05, 'epoch': 0.32}


 33%|███▎      | 440/1334 [10:32<20:11,  1.36s/it]

{'loss': 5.4781, 'grad_norm': 0.931572437286377, 'learning_rate': 3.350824587706147e-05, 'epoch': 0.33}


 34%|███▎      | 450/1334 [10:47<20:53,  1.42s/it]

{'loss': 5.4656, 'grad_norm': 0.9444573521614075, 'learning_rate': 3.3133433283358325e-05, 'epoch': 0.34}


 34%|███▍      | 460/1334 [11:01<19:44,  1.35s/it]

{'loss': 5.4956, 'grad_norm': 0.9479680061340332, 'learning_rate': 3.275862068965517e-05, 'epoch': 0.34}


 35%|███▌      | 470/1334 [11:14<19:55,  1.38s/it]

{'loss': 5.4937, 'grad_norm': 0.9305226802825928, 'learning_rate': 3.238380809595202e-05, 'epoch': 0.35}


 36%|███▌      | 480/1334 [11:28<19:24,  1.36s/it]

{'loss': 5.4431, 'grad_norm': 0.9909204244613647, 'learning_rate': 3.200899550224888e-05, 'epoch': 0.36}


 37%|███▋      | 490/1334 [11:42<19:50,  1.41s/it]

{'loss': 5.4711, 'grad_norm': 1.1324481964111328, 'learning_rate': 3.163418290854573e-05, 'epoch': 0.37}


 37%|███▋      | 500/1334 [11:56<18:46,  1.35s/it]

{'loss': 5.4962, 'grad_norm': 1.3335537910461426, 'learning_rate': 3.125937031484258e-05, 'epoch': 0.37}


                                                  
 37%|███▋      | 500/1334 [15:10<18:46,  1.35s/it]

{'eval_runtime': 194.0234, 'eval_samples_per_second': 6.066, 'eval_steps_per_second': 2.026, 'epoch': 0.37}


 38%|███▊      | 510/1334 [15:29<57:00,  4.15s/it]   

{'loss': 5.4716, 'grad_norm': 0.9527052640914917, 'learning_rate': 3.088455772113943e-05, 'epoch': 0.38}


KeyboardInterrupt: 

In [3]:
device = 'mps'

model = GPT2LMHeadModel.from_pretrained('/Users/alexanderknyshov/Desktop/LLM/Data/model_ft/results/checkpoint-500').to(device)
tokenizer = GPT2Tokenizer.from_pretrained('ai-forever/rugpt3small_based_on_gpt2')

In [4]:
model.eval()

GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(50264, 768)
    (wpe): Embedding(2048, 768)
    (drop): Dropout(p=0.1, inplace=False)
    (h): ModuleList(
      (0-11): 12 x GPT2Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2SdpaAttention(
          (c_attn): lora.Linear(
            (base_layer): Conv1D()
            (lora_dropout): ModuleDict(
              (default): Dropout(p=0.1, inplace=False)
            )
            (lora_A): ModuleDict(
              (default): Linear(in_features=768, out_features=16, bias=False)
            )
            (lora_B): ModuleDict(
              (default): Linear(in_features=16, out_features=2304, bias=False)
            )
            (lora_embedding_A): ParameterDict()
            (lora_embedding_B): ParameterDict()
            (lora_magnitude_vector): ModuleDict()
          )
          (c_proj): Conv1D()
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dr

In [25]:
def generate_text(prompt, max_length=100, num_return_sequences=1):
    # Токенизация входного текста
    input_ids = tokenizer.encode(prompt, return_tensors='pt').to(device)

    attention_mask = torch.ones(input_ids.shape, device=device)

    # Генерация текста
    with torch.no_grad():
        output = model.generate(
            input_ids,
            #attention_mask=attention_mask,
            max_length=max_length,
            num_return_sequences=num_return_sequences,
            do_sample=True,  # Используйте do_sample для более случайного текста
            top_k=50,  # Используйте top-k sampling
            top_p=0.90,  # Используйте nucleus sampling
            temperature=1.3,  # Устанавливает креативность генерации
            pad_token_id=tokenizer.eos_token_id
        )

    # Декодирование выходных токенов
    return [tokenizer.decode(output[i], skip_special_tokens=True) for i in range(num_return_sequences)]

# Пример использования
prompt = "Напиши финансовую рекомендацию на основе этого текста новостей: Дефицит российского бюджета может сильно вырасти по итогам года"
generated_texts = generate_text(prompt, max_length=128, num_return_sequences=5)

for i, text in enumerate(generated_texts):
    print(f"Generated text {i+1}:\n{text}\n")

Generated text 1:
Напиши финансовую рекомендацию на основе этого текста новостей: Дефицит российского бюджета может сильно вырасти по итогам года - 2015 гг. Минэкономразвития выступило основным препятствием росту бюджетной обеспеченности регионов страны. Из-за дефицита финансов россиян будет сокращено количество запланированных мероприятий госуслуг на 2016 год, сообщили агентству новостей izmgromn.ru в Минэкономразвития России. При этом предполагается, что потребность граждан будет сокращаться в среднем примерно четыре недели подряд: чтобы достигнуть нынешних значений годовой план сократился к середине января этого года менее чем на треть заявил источник в ведомстве отметил рост спроса на услуги мобильной связи оператор сообщает свою пресс-службу m

Generated text 2:
Напиши финансовую рекомендацию на основе этого текста новостей: Дефицит российского бюджета может сильно вырасти по итогам года из-за девальвации рубля, так заявил гендиректор Минфина РФ Сергей Шаталов на совещании по дене