**Введение**

В последние годы языковые модели (LLM) получили широкое распространение и активно применяются в различных областях, таких как обработка естественного языка, машинное обучение и искусственный интеллект. Одной из ключевых задач при использовании таких моделей является их выравнивание (alignment) с человеческими предпочтениями, что особенно актуально в контексте создания помощников, предоставляющих точные и полезные ответы на запросы пользователей.

Данная работа направлена на исследование процесса self-alignment моделей с использованием открытых инструментов и алгоритмов. В качестве основного инструмента мы выбрали open-source LLM, которые способны генерировать ответы на русском языке. Для обучения модели была использована методология, основанная на дообучении с учетом отзывов, а также последующей генерации ответов с использованием DPO (Direct Preference Optimization).

В рамках исследования использован датасет OpenAssistant/oasst1, представляющий собой набор диалогов пользователей с ассистентами. Главной задачей является отбор инструкций верхнего уровня (top-level instructions) на русском языке, их обработка и генерация соответствующих ответов с использованием open-source моделей. Помимо этого, работа включает эксперименты по оценке качества сгенерированных ответов и их последующее выравнивание с целью достижения желаемого стиля общения.

In [1]:
#!pip install huggingface_hub transformers ipywidgets --quiet

In [2]:
#!pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu124

In [3]:
import sys
print(sys.executable)

C:\Users\miks9\.conda\envs\cuda_env\python.exe


In [4]:
import pandas as pd
import torch
import torch.nn as nn
import os
import random

from torch.utils.data import DataLoader, Dataset
from torch.optim import AdamW
from torch.cuda.amp import autocast
from tqdm import tqdm
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
from accelerate import init_empty_weights, load_checkpoint_and_dispatch

  from .autonotebook import tqdm as notebook_tqdm


In [5]:
HUGGING_FACE_KEY = os.getenv('HUGGING_FACE_KEY')

random.seed(42)

In [6]:
print(torch.__version__)

2.4.1


In [7]:
print("Проверка работоспособности CUDA")
print("CUDA available:", torch.cuda.is_available())
print("Current device:", torch.cuda.current_device())
print("Device name:", torch.cuda.get_device_name(torch.cuda.current_device()))

Проверка работоспособности CUDA
CUDA available: True
Current device: 0
Device name: NVIDIA GeForce GTX 1650 SUPER


**Обработка данных**

In [8]:
def display_data(data):
    display(data.head(5))
    display(data.info())
    display(data.describe())

Функция для вывода главной информации о датасете на экран

In [9]:
splits = {'train': 'data/train-00000-of-00001-b42a775f407cee45.parquet', 'validation': 'data/validation-00000-of-00001-134b8fd0c89408b6.parquet'}

df_train = pd.read_parquet("hf://datasets/OpenAssistant/oasst1/" + splits["train"])
df_validation = pd.read_parquet("hf://datasets/OpenAssistant/oasst1/" + splits["validation"])

Загружаю OpenAssistant/oasst1 дату

In [10]:
display_data(df_train)

Unnamed: 0,message_id,parent_id,user_id,created_date,text,role,lang,review_count,review_result,deleted,...,detoxify.obscene,detoxify.identity_attack,detoxify.insult,detoxify.threat,detoxify.sexual_explicit,emojis.name,emojis.count,labels.name,labels.value,labels.count
0,6ab24d72-0181-4594-a9cd-deaf170242fb,,c3fe8c76-fc30-4fa7-b7f8-c492f5967d18,2023-02-05T14:23:50.983374+00:00,Can you write a short introduction about the r...,prompter,en,3,1.0,False,...,0.000235,0.000142,0.000395,4.1e-05,2.7e-05,"[+1, _skip_reply, _skip_ranking]","[10, 1, 4]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.9166666666666...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]"
1,c8e83833-ecbc-44fe-b6db-735228c25a1c,6ab24d72-0181-4594-a9cd-deaf170242fb,2c96e467-66f0-4be7-9693-bda51356a424,2023-02-06T13:50:44.657083+00:00,"""Monopsony"" refers to a market structure where...",assistant,en,3,1.0,False,...,0.000136,9.3e-05,0.000167,3.8e-05,2.5e-05,"[+1, _skip_labeling]","[3, 1]","[spam, fails_task, lang_mismatch, pii, not_app...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.91666666...","[3, 2, 3, 2, 2, 2, 2, 3, 2, 2, 2, 2, 2]"
2,6708c47f-05c9-4346-b3d2-40b2bd24fde4,c8e83833-ecbc-44fe-b6db-735228c25a1c,2c96e467-66f0-4be7-9693-bda51356a424,2023-02-06T18:48:49.391686+00:00,Now explain it to a dog,prompter,en,3,1.0,False,...,0.000376,0.000242,0.013612,0.001708,0.000102,,,"[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.25, 0.5, 0.62...","[3, 3, 2, 2, 2, 2, 3, 2, 2, 2, 2]"
3,343ee2d4-87ae-41fd-a768-bdd65959dc4a,6ab24d72-0181-4594-a9cd-deaf170242fb,49ddcb0d-6588-43bd-858d-19c577f12e7b,2023-02-06T13:37:56.044680+00:00,Monopsony is a market structure in which there...,assistant,en,3,1.0,False,...,0.000347,0.000446,0.000511,8.8e-05,5.7e-05,"[+1, _skip_reply, _skip_labeling]","[2, 1, 2]","[spam, fails_task, lang_mismatch, pii, not_app...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.83333333...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]"
4,18145bf4-37fd-4ac0-80f5-6108b5f2b365,343ee2d4-87ae-41fd-a768-bdd65959dc4a,e10e99a0-38ac-4b07-bf5d-4427696e4e0d,2023-02-06T18:52:51.428543+00:00,How can one fight back when a monospony had be...,prompter,en,3,1.0,False,...,0.000416,0.00018,0.000344,0.00024,6.4e-05,[+1],[1],"[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.75, 0.0, 0.0,...","[3, 3, 2, 2, 2, 2, 3, 2, 2, 2, 2]"


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 84437 entries, 0 to 84436
Data columns (total 27 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   message_id                84437 non-null  object 
 1   parent_id                 74591 non-null  object 
 2   user_id                   84437 non-null  object 
 3   created_date              84437 non-null  object 
 4   text                      84437 non-null  object 
 5   role                      84437 non-null  object 
 6   lang                      84437 non-null  object 
 7   review_count              84437 non-null  int32  
 8   review_result             83732 non-null  float64
 9   deleted                   84437 non-null  bool   
 10  rank                      48730 non-null  float64
 11  synthetic                 84437 non-null  bool   
 12  model_name                0 non-null      object 
 13  message_tree_id           84437 non-null  object 
 14  tree_s

None

Unnamed: 0,review_count,review_result,rank,detoxify.toxicity,detoxify.severe_toxicity,detoxify.obscene,detoxify.identity_attack,detoxify.insult,detoxify.threat,detoxify.sexual_explicit
count,84437.0,83732.0,48730.0,72297.0,72297.0,72297.0,72297.0,72297.0,72297.0,72297.0
mean,3.027216,0.985083,0.933409,0.010999,0.000715,0.006195,0.001251,0.007572,0.001143,0.00215
std,0.324834,0.12122,0.891965,0.0745,0.006744,0.03484,0.012868,0.042496,0.016866,0.035357
min,0.0,0.0,0.0,9.7e-05,9e-06,6.3e-05,3.8e-05,0.0001,1.4e-05,1.2e-05
25%,3.0,1.0,0.0,0.000326,3.1e-05,0.000198,0.000107,0.000232,4.3e-05,2.9e-05
50%,3.0,1.0,1.0,0.000462,5.5e-05,0.000429,0.000154,0.000476,6.9e-05,5.1e-05
75%,3.0,1.0,2.0,0.000949,0.000289,0.00277,0.000548,0.003146,0.000307,0.000231
max,12.0,1.0,15.0,0.999318,0.65253,0.996245,0.914924,0.989237,0.872644,0.990059


In [11]:
display_data(df_validation)

Unnamed: 0,message_id,parent_id,user_id,created_date,text,role,lang,review_count,review_result,deleted,...,detoxify.obscene,detoxify.identity_attack,detoxify.insult,detoxify.threat,detoxify.sexual_explicit,emojis.name,emojis.count,labels.name,labels.value,labels.count
0,68489e5c-978f-4ad7-a849-39a741fb5ae7,,845cba79-9d16-4eb8-ab63-982fe8403c62,2023-02-08T11:55:51.852473+00:00,"Напиши функцию на языке swift, которая сортиру...",prompter,ru,3,1.0,False,...,0.008833,0.001287,0.00694,0.000745,0.000291,"[+1, _skip_reply, _skip_ranking]","[5, 12, 7]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.3333333333333...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]"
1,a38b3d1c-256f-47c5-ab68-c9ab766bad84,68489e5c-978f-4ad7-a849-39a741fb5ae7,abbc8a37-2db7-4af5-9df1-b0582d2e3d93,2023-03-16T22:29:28.829265+00:00,"Вот функция, которая сортирует массив целых чи...",assistant,ru,3,1.0,False,...,0.008447,0.001399,0.006949,0.000518,0.000256,"[+1, _skip_labeling]","[1, 5]","[spam, fails_task, lang_mismatch, pii, not_app...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.66666666...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]"
2,9cf52b01-0582-46aa-9ad2-70827dce87ed,68489e5c-978f-4ad7-a849-39a741fb5ae7,a3e19dd4-34cd-48f0-8912-a2003b22c334,2023-02-11T09:57:39.207727+00:00,"Вот функция на языке Swift, которая сортирует ...",assistant,ru,3,1.0,False,...,0.022743,0.003557,0.018822,0.001246,0.000698,[+1],[1],"[spam, fails_task, lang_mismatch, pii, not_app...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.25, 0.0,...","[3, 2, 3, 2, 2, 2, 2, 3, 2, 2, 2, 2, 2]"
3,9685d79e-16d7-4f1b-b68f-a1ff73e87bef,68489e5c-978f-4ad7-a849-39a741fb5ae7,97894afc-2204-4c7b-9b91-f1c71c10f032,2023-02-09T21:25:39.116134+00:00,func sortAndPrintArray(array: [Int]) {\n le...,assistant,ru,3,1.0,False,...,0.000219,0.000199,0.000298,5e-05,2.9e-05,"[-1, _skip_labeling]","[1, 1]","[spam, fails_task, lang_mismatch, pii, not_app...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.66666666...","[3, 1, 3, 1, 1, 1, 1, 3, 1, 1, 1, 1, 1]"
4,afee0474-c84a-4ae2-a9c9-8d575256312e,,0a8f6864-6cda-4cf5-bc07-346470d6d493,2023-02-07T00:54:42.098108+00:00,"Inventa un monstruo altamente complejo, descrí...",prompter,es,3,1.0,False,...,0.000755,0.000427,0.002273,0.014611,0.000195,"[+1, -1, _skip_reply]","[3, 1, 6]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.75, 0.0833333...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]"


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4401 entries, 0 to 4400
Data columns (total 27 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   message_id                4401 non-null   object 
 1   parent_id                 3883 non-null   object 
 2   user_id                   4401 non-null   object 
 3   created_date              4401 non-null   object 
 4   text                      4401 non-null   object 
 5   role                      4401 non-null   object 
 6   lang                      4401 non-null   object 
 7   review_count              4401 non-null   int32  
 8   review_result             4374 non-null   float64
 9   deleted                   4401 non-null   bool   
 10  rank                      2533 non-null   float64
 11  synthetic                 4401 non-null   bool   
 12  model_name                0 non-null      object 
 13  message_tree_id           4401 non-null   object 
 14  tree_sta

None

Unnamed: 0,review_count,review_result,rank,detoxify.toxicity,detoxify.severe_toxicity,detoxify.obscene,detoxify.identity_attack,detoxify.insult,detoxify.threat,detoxify.sexual_explicit
count,4401.0,4374.0,2533.0,3796.0,3796.0,3796.0,3796.0,3796.0,3796.0,3796.0
mean,3.033856,0.980567,0.88709,0.014933,0.000768,0.006979,0.001781,0.010127,0.001133,0.003105
std,0.303748,0.138057,0.811087,0.091049,0.004368,0.036244,0.021904,0.056714,0.012992,0.04365
min,0.0,0.0,0.0,0.000126,1.1e-05,7.7e-05,5.2e-05,0.000118,1.7e-05,1.2e-05
25%,3.0,1.0,0.0,0.000338,3.1e-05,0.000205,0.000106,0.000238,4.3e-05,3e-05
50%,3.0,1.0,1.0,0.000481,5.7e-05,0.000457,0.000156,0.000518,7.3e-05,5.3e-05
75%,3.0,1.0,1.0,0.001043,0.000347,0.00351,0.000653,0.003813,0.000359,0.000262
max,6.0,1.0,4.0,0.997913,0.226994,0.931982,0.922821,0.946678,0.433128,0.979102


В исходном датасете наблюдабтся пропуски

In [12]:
df_train_merged = df_train.merge(
    df_train[['text', 'parent_id']],  
    left_on='message_id',  
    right_on='parent_id', 
    how='left',
    suffixes=('', '_next') 
)

df_train_merged.rename(columns={'text_next': 'answer'}, inplace=True)

df_validation_merged = df_validation.merge(
    df_validation[['text', 'parent_id']],  
    left_on='message_id',  
    right_on='parent_id', 
    how='left',
    suffixes=('', '_next') 
)

df_validation_merged.rename(columns={'text_next': 'answer'}, inplace=True)

In [13]:
display_data(df_train_merged)

Unnamed: 0,message_id,parent_id,user_id,created_date,text,role,lang,review_count,review_result,deleted,...,detoxify.insult,detoxify.threat,detoxify.sexual_explicit,emojis.name,emojis.count,labels.name,labels.value,labels.count,answer,parent_id_next
0,6ab24d72-0181-4594-a9cd-deaf170242fb,,c3fe8c76-fc30-4fa7-b7f8-c492f5967d18,2023-02-05T14:23:50.983374+00:00,Can you write a short introduction about the r...,prompter,en,3,1.0,False,...,0.000395,4.1e-05,2.7e-05,"[+1, _skip_reply, _skip_ranking]","[10, 1, 4]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.9166666666666...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]","""Monopsony"" refers to a market structure where...",6ab24d72-0181-4594-a9cd-deaf170242fb
1,6ab24d72-0181-4594-a9cd-deaf170242fb,,c3fe8c76-fc30-4fa7-b7f8-c492f5967d18,2023-02-05T14:23:50.983374+00:00,Can you write a short introduction about the r...,prompter,en,3,1.0,False,...,0.000395,4.1e-05,2.7e-05,"[+1, _skip_reply, _skip_ranking]","[10, 1, 4]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.9166666666666...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]",Monopsony is a market structure in which there...,6ab24d72-0181-4594-a9cd-deaf170242fb
2,6ab24d72-0181-4594-a9cd-deaf170242fb,,c3fe8c76-fc30-4fa7-b7f8-c492f5967d18,2023-02-05T14:23:50.983374+00:00,Can you write a short introduction about the r...,prompter,en,3,1.0,False,...,0.000395,4.1e-05,2.7e-05,"[+1, _skip_reply, _skip_ranking]","[10, 1, 4]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.9166666666666...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]",Monopsony refers to a market structure where t...,6ab24d72-0181-4594-a9cd-deaf170242fb
3,c8e83833-ecbc-44fe-b6db-735228c25a1c,6ab24d72-0181-4594-a9cd-deaf170242fb,2c96e467-66f0-4be7-9693-bda51356a424,2023-02-06T13:50:44.657083+00:00,"""Monopsony"" refers to a market structure where...",assistant,en,3,1.0,False,...,0.000167,3.8e-05,2.5e-05,"[+1, _skip_labeling]","[3, 1]","[spam, fails_task, lang_mismatch, pii, not_app...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.91666666...","[3, 2, 3, 2, 2, 2, 2, 3, 2, 2, 2, 2, 2]",Now explain it to a dog,c8e83833-ecbc-44fe-b6db-735228c25a1c
4,6708c47f-05c9-4346-b3d2-40b2bd24fde4,c8e83833-ecbc-44fe-b6db-735228c25a1c,2c96e467-66f0-4be7-9693-bda51356a424,2023-02-06T18:48:49.391686+00:00,Now explain it to a dog,prompter,en,3,1.0,False,...,0.013612,0.001708,0.000102,,,"[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.25, 0.5, 0.62...","[3, 3, 2, 2, 2, 2, 3, 2, 2, 2, 2]",,


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 118633 entries, 0 to 118632
Data columns (total 29 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   message_id                118633 non-null  object 
 1   parent_id                 89115 non-null   object 
 2   user_id                   118633 non-null  object 
 3   created_date              118633 non-null  object 
 4   text                      118633 non-null  object 
 5   role                      118633 non-null  object 
 6   lang                      118633 non-null  object 
 7   review_count              118633 non-null  int32  
 8   review_result             117928 non-null  float64
 9   deleted                   118633 non-null  bool   
 10  rank                      50545 non-null   float64
 11  synthetic                 118633 non-null  bool   
 12  model_name                0 non-null       object 
 13  message_tree_id           118633 non-null  o

None

Unnamed: 0,review_count,review_result,rank,detoxify.toxicity,detoxify.severe_toxicity,detoxify.obscene,detoxify.identity_attack,detoxify.insult,detoxify.threat,detoxify.sexual_explicit
count,118633.0,117928.0,50545.0,102141.0,102141.0,102141.0,102141.0,102141.0,102141.0,102141.0
mean,3.041894,0.9894,0.945712,0.011238,0.000667,0.006031,0.001269,0.007448,0.001202,0.002086
std,0.332225,0.102408,0.905287,0.074002,0.005865,0.033384,0.013096,0.04117,0.017338,0.034818
min,0.0,0.0,0.0,9.7e-05,9e-06,6.3e-05,3.8e-05,0.0001,1.4e-05,1.2e-05
25%,3.0,1.0,0.0,0.000344,3.1e-05,0.0002,0.000109,0.000238,4.4e-05,2.9e-05
50%,3.0,1.0,1.0,0.000498,5.5e-05,0.000436,0.000159,0.000487,7.1e-05,5.1e-05
75%,3.0,1.0,2.0,0.001058,0.000275,0.002771,0.00055,0.00314,0.000313,0.000227
max,12.0,1.0,15.0,0.999318,0.65253,0.996245,0.914924,0.989237,0.872644,0.990059


In [14]:
display_data(df_validation_merged)

Unnamed: 0,message_id,parent_id,user_id,created_date,text,role,lang,review_count,review_result,deleted,...,detoxify.insult,detoxify.threat,detoxify.sexual_explicit,emojis.name,emojis.count,labels.name,labels.value,labels.count,answer,parent_id_next
0,68489e5c-978f-4ad7-a849-39a741fb5ae7,,845cba79-9d16-4eb8-ab63-982fe8403c62,2023-02-08T11:55:51.852473+00:00,"Напиши функцию на языке swift, которая сортиру...",prompter,ru,3,1.0,False,...,0.00694,0.000745,0.000291,"[+1, _skip_reply, _skip_ranking]","[5, 12, 7]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.3333333333333...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]","Вот функция, которая сортирует массив целых чи...",68489e5c-978f-4ad7-a849-39a741fb5ae7
1,68489e5c-978f-4ad7-a849-39a741fb5ae7,,845cba79-9d16-4eb8-ab63-982fe8403c62,2023-02-08T11:55:51.852473+00:00,"Напиши функцию на языке swift, которая сортиру...",prompter,ru,3,1.0,False,...,0.00694,0.000745,0.000291,"[+1, _skip_reply, _skip_ranking]","[5, 12, 7]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.3333333333333...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]","Вот функция на языке Swift, которая сортирует ...",68489e5c-978f-4ad7-a849-39a741fb5ae7
2,68489e5c-978f-4ad7-a849-39a741fb5ae7,,845cba79-9d16-4eb8-ab63-982fe8403c62,2023-02-08T11:55:51.852473+00:00,"Напиши функцию на языке swift, которая сортиру...",prompter,ru,3,1.0,False,...,0.00694,0.000745,0.000291,"[+1, _skip_reply, _skip_ranking]","[5, 12, 7]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.3333333333333...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]",func sortAndPrintArray(array: [Int]) {\n le...,68489e5c-978f-4ad7-a849-39a741fb5ae7
3,a38b3d1c-256f-47c5-ab68-c9ab766bad84,68489e5c-978f-4ad7-a849-39a741fb5ae7,abbc8a37-2db7-4af5-9df1-b0582d2e3d93,2023-03-16T22:29:28.829265+00:00,"Вот функция, которая сортирует массив целых чи...",assistant,ru,3,1.0,False,...,0.006949,0.000518,0.000256,"[+1, _skip_labeling]","[1, 5]","[spam, fails_task, lang_mismatch, pii, not_app...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.66666666...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]",,
4,9cf52b01-0582-46aa-9ad2-70827dce87ed,68489e5c-978f-4ad7-a849-39a741fb5ae7,a3e19dd4-34cd-48f0-8912-a2003b22c334,2023-02-11T09:57:39.207727+00:00,"Вот функция на языке Swift, которая сортирует ...",assistant,ru,3,1.0,False,...,0.018822,0.001246,0.000698,[+1],[1],"[spam, fails_task, lang_mismatch, pii, not_app...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.25, 0.0,...","[3, 2, 3, 2, 2, 2, 2, 3, 2, 2, 2, 2, 2]",,


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6124 entries, 0 to 6123
Data columns (total 29 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   message_id                6124 non-null   object 
 1   parent_id                 4602 non-null   object 
 2   user_id                   6124 non-null   object 
 3   created_date              6124 non-null   object 
 4   text                      6124 non-null   object 
 5   role                      6124 non-null   object 
 6   lang                      6124 non-null   object 
 7   review_count              6124 non-null   int32  
 8   review_result             6097 non-null   float64
 9   deleted                   6124 non-null   bool   
 10  rank                      2591 non-null   float64
 11  synthetic                 6124 non-null   bool   
 12  model_name                0 non-null      object 
 13  message_tree_id           6124 non-null   object 
 14  tree_sta

None

Unnamed: 0,review_count,review_result,rank,detoxify.toxicity,detoxify.severe_toxicity,detoxify.obscene,detoxify.identity_attack,detoxify.insult,detoxify.threat,detoxify.sexual_explicit
count,6124.0,6097.0,2591.0,5301.0,5301.0,5301.0,5301.0,5301.0,5301.0,5301.0
mean,3.047845,0.986059,0.89232,0.014243,0.000696,0.006555,0.001742,0.009416,0.001054,0.002804
std,0.308564,0.117257,0.811347,0.087793,0.003745,0.032707,0.019766,0.05324,0.01137,0.040714
min,0.0,0.0,0.0,0.000126,1.1e-05,7.7e-05,5.2e-05,0.000118,1.7e-05,1.2e-05
25%,3.0,1.0,0.0,0.000358,3.1e-05,0.000206,0.000109,0.000245,4.4e-05,3e-05
50%,3.0,1.0,1.0,0.000525,5.5e-05,0.000448,0.000158,0.000524,7.3e-05,5.2e-05
75%,3.0,1.0,2.0,0.00118,0.000324,0.003345,0.000666,0.003581,0.000366,0.000262
max,6.0,1.0,4.0,0.997913,0.226994,0.931982,0.922821,0.946678,0.433128,0.979102


Объединю датасет самого с собой по parent_id и message_id, в новом столбце будет выводиться ответ на текущее сообщение. Если ответа нет или сообщение последнее - None

In [15]:
rus_df_train = df_train_merged.loc[(df_train_merged['lang'] == 'ru') & (df_train_merged['parent_id'].isna())]
rus_df_train = rus_df_train.reset_index(drop=True)

In [16]:
rus_df_validation = df_validation_merged.loc[(df_validation_merged['lang'] == 'ru') & (df_validation_merged['parent_id'].isna())]
rus_df_validation = rus_df_validation.reset_index(drop=True)

Выбираю только необходимую дату в соответствии с тз - сообщения на русском языке и являются top level

In [17]:
display_data(rus_df_train)

Unnamed: 0,message_id,parent_id,user_id,created_date,text,role,lang,review_count,review_result,deleted,...,detoxify.insult,detoxify.threat,detoxify.sexual_explicit,emojis.name,emojis.count,labels.name,labels.value,labels.count,answer,parent_id_next
0,e480f611-0d31-433a-93d2-0e2bc675aa30,,05a999f8-8219-4584-a3f2-d4b4aec30027,2023-02-06T23:09:05.356836+00:00,Напиши информацию о игре Hytale,prompter,ru,3,1.0,False,...,0.031851,0.002483,0.001191,"[+1, _skip_ranking, _skip_labeling]","[4, 1, 1]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.4166666666666...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]","Hytale - это предстоящая игра-песочница, приду...",e480f611-0d31-433a-93d2-0e2bc675aa30
1,e480f611-0d31-433a-93d2-0e2bc675aa30,,05a999f8-8219-4584-a3f2-d4b4aec30027,2023-02-06T23:09:05.356836+00:00,Напиши информацию о игре Hytale,prompter,ru,3,1.0,False,...,0.031851,0.002483,0.001191,"[+1, _skip_ranking, _skip_labeling]","[4, 1, 1]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.4166666666666...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]","Согласно Википедии, Hytale — предстоящая ролев...",e480f611-0d31-433a-93d2-0e2bc675aa30
2,e480f611-0d31-433a-93d2-0e2bc675aa30,,05a999f8-8219-4584-a3f2-d4b4aec30027,2023-02-06T23:09:05.356836+00:00,Напиши информацию о игре Hytale,prompter,ru,3,1.0,False,...,0.031851,0.002483,0.001191,"[+1, _skip_ranking, _skip_labeling]","[4, 1, 1]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.4166666666666...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]",Согласно вики: предстоящая ролевая компьютерна...,e480f611-0d31-433a-93d2-0e2bc675aa30
3,fa8c92d6-6daa-42a3-a2f5-e2e0eb610c41,,19241e3c-8272-4c3f-afe8-527c005d042c,2023-02-07T14:36:48.863674+00:00,"Докончи поговорку, без труда не выловишь и",prompter,ru,3,1.0,False,...,0.009484,0.017009,0.001749,"[+1, -1]","[3, 1]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.5, 0.0625, 0....","[5, 3, 3, 3, 3, 3, 5, 4, 4, 4, 4]",рыбку из пруда.,fa8c92d6-6daa-42a3-a2f5-e2e0eb610c41
4,fa8c92d6-6daa-42a3-a2f5-e2e0eb610c41,,19241e3c-8272-4c3f-afe8-527c005d042c,2023-02-07T14:36:48.863674+00:00,"Докончи поговорку, без труда не выловишь и",prompter,ru,3,1.0,False,...,0.009484,0.017009,0.001749,"[+1, -1]","[3, 1]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.5, 0.0625, 0....","[5, 3, 3, 3, 3, 3, 5, 4, 4, 4, 4]",«Без труда не выловишь и рыбку из пруда». Это ...,fa8c92d6-6daa-42a3-a2f5-e2e0eb610c41


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1948 entries, 0 to 1947
Data columns (total 29 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   message_id                1948 non-null   object 
 1   parent_id                 0 non-null      object 
 2   user_id                   1948 non-null   object 
 3   created_date              1948 non-null   object 
 4   text                      1948 non-null   object 
 5   role                      1948 non-null   object 
 6   lang                      1948 non-null   object 
 7   review_count              1948 non-null   int32  
 8   review_result             1948 non-null   float64
 9   deleted                   1948 non-null   bool   
 10  rank                      0 non-null      float64
 11  synthetic                 1948 non-null   bool   
 12  model_name                0 non-null      object 
 13  message_tree_id           1948 non-null   object 
 14  tree_sta

None

Unnamed: 0,review_count,review_result,rank,detoxify.toxicity,detoxify.severe_toxicity,detoxify.obscene,detoxify.identity_attack,detoxify.insult,detoxify.threat,detoxify.sexual_explicit
count,1948.0,1948.0,0.0,1948.0,1948.0,1948.0,1948.0,1948.0,1948.0,1948.0
mean,3.01694,1.0,,0.022735,0.000866,0.008878,0.00244,0.012727,0.003759,0.002111
std,0.136808,0.0,,0.089894,0.001469,0.022518,0.027428,0.042169,0.03687,0.027018
min,3.0,1.0,,0.000226,1.7e-05,0.000157,6.4e-05,0.000189,2.2e-05,2.3e-05
25%,3.0,1.0,,0.000638,7.1e-05,0.000735,0.000184,0.000833,0.000106,7.4e-05
50%,3.0,1.0,,0.001201,0.000174,0.002378,0.000388,0.002454,0.000279,0.000209
75%,3.0,1.0,,0.004381,0.000843,0.010394,0.001465,0.011679,0.001044,0.000549
max,5.0,1.0,,0.840749,0.008296,0.490172,0.698293,0.69321,0.766309,0.614887


In [18]:
display_data(rus_df_validation)

Unnamed: 0,message_id,parent_id,user_id,created_date,text,role,lang,review_count,review_result,deleted,...,detoxify.insult,detoxify.threat,detoxify.sexual_explicit,emojis.name,emojis.count,labels.name,labels.value,labels.count,answer,parent_id_next
0,68489e5c-978f-4ad7-a849-39a741fb5ae7,,845cba79-9d16-4eb8-ab63-982fe8403c62,2023-02-08T11:55:51.852473+00:00,"Напиши функцию на языке swift, которая сортиру...",prompter,ru,3,1.0,False,...,0.00694,0.000745,0.000291,"[+1, _skip_reply, _skip_ranking]","[5, 12, 7]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.3333333333333...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]","Вот функция, которая сортирует массив целых чи...",68489e5c-978f-4ad7-a849-39a741fb5ae7
1,68489e5c-978f-4ad7-a849-39a741fb5ae7,,845cba79-9d16-4eb8-ab63-982fe8403c62,2023-02-08T11:55:51.852473+00:00,"Напиши функцию на языке swift, которая сортиру...",prompter,ru,3,1.0,False,...,0.00694,0.000745,0.000291,"[+1, _skip_reply, _skip_ranking]","[5, 12, 7]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.3333333333333...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]","Вот функция на языке Swift, которая сортирует ...",68489e5c-978f-4ad7-a849-39a741fb5ae7
2,68489e5c-978f-4ad7-a849-39a741fb5ae7,,845cba79-9d16-4eb8-ab63-982fe8403c62,2023-02-08T11:55:51.852473+00:00,"Напиши функцию на языке swift, которая сортиру...",prompter,ru,3,1.0,False,...,0.00694,0.000745,0.000291,"[+1, _skip_reply, _skip_ranking]","[5, 12, 7]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.3333333333333...","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]",func sortAndPrintArray(array: [Int]) {\n le...,68489e5c-978f-4ad7-a849-39a741fb5ae7
3,b22df865-7ffd-47a8-942d-3cbf4b278b90,,c30a9c22-c4cf-47cc-bdeb-ad4136bb37d1,2023-02-08T03:43:19.102576+00:00,Чему равен абсолютный ноль?,prompter,ru,3,1.0,False,...,0.000457,0.000141,7.1e-05,"[+1, _skip_reply]","[6, 1]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.375, 0.125, 0...","[4, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4]",Абсолютному нулю соответствует температура −27...,b22df865-7ffd-47a8-942d-3cbf4b278b90
4,b22df865-7ffd-47a8-942d-3cbf4b278b90,,c30a9c22-c4cf-47cc-bdeb-ad4136bb37d1,2023-02-08T03:43:19.102576+00:00,Чему равен абсолютный ноль?,prompter,ru,3,1.0,False,...,0.000457,0.000141,7.1e-05,"[+1, _skip_reply]","[6, 1]","[spam, lang_mismatch, pii, not_appropriate, ha...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.375, 0.125, 0...","[4, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4]","Абсолютный ноль равен −273,15 по Цельсию или −...",b22df865-7ffd-47a8-942d-3cbf4b278b90


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 105 entries, 0 to 104
Data columns (total 29 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   message_id                105 non-null    object 
 1   parent_id                 0 non-null      object 
 2   user_id                   105 non-null    object 
 3   created_date              105 non-null    object 
 4   text                      105 non-null    object 
 5   role                      105 non-null    object 
 6   lang                      105 non-null    object 
 7   review_count              105 non-null    int32  
 8   review_result             105 non-null    float64
 9   deleted                   105 non-null    bool   
 10  rank                      0 non-null      float64
 11  synthetic                 105 non-null    bool   
 12  model_name                0 non-null      object 
 13  message_tree_id           105 non-null    object 
 14  tree_state

None

Unnamed: 0,review_count,review_result,rank,detoxify.toxicity,detoxify.severe_toxicity,detoxify.obscene,detoxify.identity_attack,detoxify.insult,detoxify.threat,detoxify.sexual_explicit
count,105.0,105.0,0.0,105.0,105.0,105.0,105.0,105.0,105.0,105.0
mean,3.028571,1.0,,0.00924,0.000891,0.008368,0.004527,0.007233,0.003253,0.000313
std,0.167398,0.0,,0.032894,0.001108,0.009508,0.022705,0.007471,0.01888,0.000283
min,3.0,1.0,,0.000269,1.7e-05,0.000178,7.2e-05,0.000213,3.1e-05,2.7e-05
25%,3.0,1.0,,0.000593,6.9e-05,0.000517,0.000175,0.001044,0.00011,7.1e-05
50%,3.0,1.0,,0.001081,0.00027,0.005128,0.000867,0.003514,0.000494,0.000243
75%,3.0,1.0,,0.002596,0.001569,0.015524,0.002735,0.012195,0.000891,0.000446
max,4.0,1.0,,0.205221,0.004601,0.030101,0.166386,0.024001,0.137928,0.001251


Вывожу информацию об отфильтрованном датасете. Осталось всего 105 строк. Большинство столбцов без пропусков.

**Работа с моделью**

In [19]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [29]:
%%time

# model_name = "sberbank-ai/rugpt3medium_based_on_gpt2"
# model_name = "ai-forever/rugpt3large_based_on_gpt2"
# model_name = "meta-llama/Llama-3.2-3B-Instruct"
model_name = "meta-llama/Llama-3.2-1B-Instruct"


model = AutoModelForCausalLM.from_pretrained(model_name, 
                                            torch_dtype=torch.float16, 
                                            token=HUGGING_FACE_KEY,
                                            ).to(device)

CPU times: total: 8.86 s
Wall time: 5.37 s


К сожалению мои вычислительные мощности не позволяют выгрузить большую модель.

In [30]:
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token

Для оценки ответов модели используются следующие критерии:
1) Релевантность - Соответствует ли ответ запросу? Учитывает ли контекст вопроса?
2) Четкость - Является ли ответ понятным и легким для восприятия? Избегает ли он неясностей или двусмысленностей?
3) Полнота - Дает ли ответ достаточную инормацию для понимания? Отвечает ли на все аспекты вопроса?
4) Оригинальность - Является ли ответ уникальным или креативным? Избегает ли он штампов и стандартных фраз?
5) Стиль - Соответствует ли стиль ответа заданному? Насколько хорошо он соответствует выбранному стилю? 

In [31]:
criterias = ['relevance', 'clarity', 'completeness', 'originality', 'style']
criterias_rus = ['релевантность', 'четкость', 'полнота', 'оригинальность', 'стиль']

all_columns_criterias = ['text', 'model_answer'] + criterias  

df_answers_criterias = pd.DataFrame(columns=all_columns_criterias)
df_answers_criterias_pirate = pd.DataFrame(columns=all_columns_criterias)

all_columns_pairs = ['text', 'model_answer', 'correct_answer']

df_pairs = pd.DataFrame(columns=all_columns_pairs)

In [32]:
def make_answer(count_answers, df):
    random_values = [random.randint(0, len(df)-1) for _ in range(count_answers)]
    
    for i in random_values:
        new_row =[]
        
        input_text = df['text'][i]
        
        inputs = tokenizer(input_text, return_tensors="pt").to(device)

        output = model.generate(
                                **inputs,
                                max_new_tokens=150,
                                num_return_sequences=1,
                                do_sample=True,
                                top_k=60, 
                                top_p=0.9, 
                                temperature=0.7
                                )

        generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
        print(f'Запрос: {input_text}')
        print('----------------')
        print(f'Правильный ответ: {df["answer"][i]}')
        print('----------------')
        print(f'Ответ модели: {generated_text}')
        print('----------------')

        new_row = [input_text, generated_text]
        
        for j in range(len(criterias)):
            while True:
                call = input(f'Как вам мера {criterias_rus[j]} ответа? Введите число от 1 до 5. ')
                if call.isdigit() and 1 <= int(call) <= 5:  # Проверка ввода
                    new_row.append(call)
                    break
                else:
                    print("Неверный ввод. Пожалуйста, введите число от 1 до 5.")

        df_answers_criterias.loc[len(df_answers_criterias)] = new_row
        print('----------------')
        print('----------------')
        print('----------------')

In [33]:
make_answer(10, rus_df_train)

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Starting from v4.46, the `logits` model output will have the same type as the model (except at train time, where it will always be FP32)


Запрос: Какие способы применения у дронов в сельском хозяйстве?
----------------
Правильный ответ: Дроны могут иметь различные применения в сельском хозяйстве, среди которых можно выделить следующие:

1. Мониторинг урожая: дроны могут использоваться для сбора данных о качестве и состоянии урожая. Они могут сканировать поля и предоставлять информацию о здоровье растений, показателях влажности и состоянии почвы.

2. Полив и распыление удобрений: дроны могут применяться для распыления удобрений или для полива больших участков земли. Это может быть особенно полезно в областях, где традиционные методы полива неэффективны или неудобны.

3. Предсказание погоды: дроны могут использоваться для сбора данных о погодных условиях, например, измерения скорости ветра, температуры и влажности воздуха. Эти данные могут быть использованы для прогнозирования погоды и принятия соответствующих мер по защите урожая.

4. Обнаружение болезней и вредителей: дроны могут использоваться для обнаружения болезней и

Как вам мера релевантность ответа? Введите число от 1 до 5.  5
Как вам мера четкость ответа? Введите число от 1 до 5.  3
Как вам мера полнота ответа? Введите число от 1 до 5.  3
Как вам мера оригинальность ответа? Введите число от 1 до 5.  3
Как вам мера стиль ответа? Введите число от 1 до 5.  3


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


----------------
----------------
----------------
Запрос: Сколько всего фильмов снял Андрей Тарковский? Напиши список и краткую аннотацию к каждому фильму.
----------------
Правильный ответ: нял всего 7 фильмов:

"Иваново детство" (1962) - дебютный фильм Тарковского, рассказывающий о мальчике Иване, который потерял свою семью во время войны и присоединился к партизанам. Фильм получил множество наград на различных кинофестивалях.

"Андрей Рублев" (1966) - эпическая биография художника-иконописца, рассказывающая о его творческом пути и переживаниях в средневековой России.

"Солярис" (1972) - научно-фантастический фильм, основанный на романе Станислава Лема. Фильм рассказывает о космической миссии на планету Солярис, где главный герой встречает свою покойную жену.

"Зеркало" (1975) - эссе-фильм, объединяющий личные воспоминания режиссера, сны и отражения на фоне социальных изменений в Советском Союзе.

"Сталкер" (1979) - фантастический фильм, основанный на романе Аркадия и Бориса Стругац

Как вам мера релевантность ответа? Введите число от 1 до 5.  3
Как вам мера четкость ответа? Введите число от 1 до 5.  1
Как вам мера полнота ответа? Введите число от 1 до 5.  1
Как вам мера оригинальность ответа? Введите число от 1 до 5.  5
Как вам мера стиль ответа? Введите число от 1 до 5.  3


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


----------------
----------------
----------------
Запрос: Напиши отзыв на "Гарри Поттер и Методы рационального мышления"
----------------
Правильный ответ: Фанфик "Гарри Поттер и Методы рационального мышления" - это захватывающий и умный взгляд на мир Гарри Поттера с точки зрения рационального мышления. Автор прекрасно передает стиль writing и персонажей из серии романов о Гарри Поттере, в то же время вводя в сюжет элементы науки и логики. История начинается с того, что Гарри получает набор книг по магии, написанных с позиций рационального мышления, и начинает применять их в своей жизни. Это приводит к захватывающим и интересным ситуациям, в которых Гарри использует логику, чтобы решить проблемы и побеждать злодеев.

Фанфик также отличается прекрасным описанием персонажей. Гарри, Рон и Гермиона представлены как умные и логичные персонажи, которые могут решать проблемы, используя свои знания и навыки. Это делает их ещё более интересными и привлекательными для читателей.

В целом, "Гарр

Как вам мера релевантность ответа? Введите число от 1 до 5.  5
Как вам мера четкость ответа? Введите число от 1 до 5.  5
Как вам мера полнота ответа? Введите число от 1 до 5.  5
Как вам мера оригинальность ответа? Введите число от 1 до 5.  5
Как вам мера стиль ответа? Введите число от 1 до 5.  3


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


----------------
----------------
----------------
Запрос: Напиши 5 идей для модовых вещей в майнкрафте
Краткое их описание и их функционал.
----------------
Правильный ответ: Интересная задача... 👨‍💻
Вот, что я смог придумать по вашему запросу:
| Название | Описание | Функционал |
| --- | --- | --- |
| 🧶 Летающий ковер | Это ковер, который можно положить на землю или поднять в воздух и управлять им. | Он позволяет перемещаться по воздуху с высокой скоростью и избегать препятствий. |
| 🦯 Магический жезл | Это жезл, который можно заряжать разными видами магии и использовать для разных эффектов. | Он позволяет выполнять разные заклинания, такие как огонь, лед, молния, телепортация и т.д. |
| 🤖 Робот-помощник | Это робот, который следует за игроком и помогает ему в разных ситуациях. | Он может собирать ресурсы, атаковать врагов, строить постройки и т.д. |
| 🌞 Солнечная панель | Это панель, которая генерирует энергию из солнечного света. | Она позволяет питать разные устройства и механизмы

Как вам мера релевантность ответа? Введите число от 1 до 5.  1
Как вам мера четкость ответа? Введите число от 1 до 5.  1
Как вам мера полнота ответа? Введите число от 1 до 5.  1
Как вам мера оригинальность ответа? Введите число от 1 до 5.  8


Неверный ввод. Пожалуйста, введите число от 1 до 5.


Как вам мера оригинальность ответа? Введите число от 1 до 5.  3
Как вам мера стиль ответа? Введите число от 1 до 5.  3


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


----------------
----------------
----------------
Запрос: Почему кожа на руках трескается на холоде, особенно если руки часто мыть? Расскажи подробно
----------------
Правильный ответ: Кожа на руках может трескаться на холоде из-за нескольких факторов. Когда температура понижается, воздух становится суше и холоднее, что может привести к сухости кожи. Кроме того, нарушение естественного барьера кожи также может ухудшить состояние кожи на руках. Когда мы моем руки, мы удаляем естественные масла и жир, которые помогают защищать кожу от сухости и повреждений. Это особенно заметно, если мы используем мыло сильного действия или часто моем руки. Кроме того, горячая вода также может удалить жирную пленку с кожи, ухудшая ее состояние. Если кожа на руках становится очень сухой, она может потерять свою эластичность и начать трескаться.
----------------
Ответ модели: Почему кожа на руках трескается на холоде, особенно если руки часто мыть? Расскажи подробно.

Кожный оттиск, который появляется на 

Как вам мера релевантность ответа? Введите число от 1 до 5.  4
Как вам мера четкость ответа? Введите число от 1 до 5.  3
Как вам мера полнота ответа? Введите число от 1 до 5.  4
Как вам мера оригинальность ответа? Введите число от 1 до 5.  3
Как вам мера стиль ответа? Введите число от 1 до 5.  3


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


----------------
----------------
----------------
Запрос: мне постоянно в вузе давали тупое объяснение матрицам и их перемножению как каким-то там циферкам, и какому-то сложному способу находить их перемножение через какие-то суммы, но никто не пытался объяснить их ни графически, через векторы,  ни как-либо ещё, чтобы это было доходчиво и понятно, можешь объяснить, почему это так?
----------------
Правильный ответ: К сожалению, я не знаю, почему преподаватели выбрали тот или иной метод обучения. Действительно, различные математические дисциплины часто преподаются формально, без попытки сделать материал более доступным. В основном это, вероятно, личный выбор каждого преподавателя, но я могу предложить некоторую рационализацию.

Видите ли, есть мнение, что главная цель высшего образования состоит не в том, чтобы помочь учащимся максимально комфортно освоить конкретный материал учебных курсов, а в том, чтобы подготовить их к дальнейшей самостоятельной работе. Если придерживаться такого п

Как вам мера релевантность ответа? Введите число от 1 до 5.  2
Как вам мера четкость ответа? Введите число от 1 до 5.  2
Как вам мера полнота ответа? Введите число от 1 до 5.  1
Как вам мера оригинальность ответа? Введите число от 1 до 5.  1
Как вам мера стиль ответа? Введите число от 1 до 5.  3


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


----------------
----------------
----------------
Запрос: Как ты можешь применить нейросетевые технологии для разработки системы автоматического перевода на разные языки и оптимизации ее производительности?
----------------
Правильный ответ: Для разработки системы автоматического перевода на разные языки и оптимизации ее производительности можно использовать нейросетевые технологии, такие как глубокое обучение (deep learning) и рекуррентные нейронные сети (RNN).

Сначала необходимо собрать достаточное количество данных на разных языках, чтобы создать обучающую выборку. Затем можно использовать нейронную сеть, состоящую из нескольких слоев, для обучения на этой выборке. Например, можно использовать энкодер-декодерную архитектуру, которая состоит из двух RNN-сетей: энкодер, который принимает входную последовательность слов на одном языке и преобразует ее в вектор, и декодер, который принимает этот вектор и генерирует соответствующую последовательность слов на другом языке.

Однако, обуч

Как вам мера релевантность ответа? Введите число от 1 до 5.  5
Как вам мера четкость ответа? Введите число от 1 до 5.  5
Как вам мера полнота ответа? Введите число от 1 до 5.  4
Как вам мера оригинальность ответа? Введите число от 1 до 5.  4
Как вам мера стиль ответа? Введите число от 1 до 5.  3


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


----------------
----------------
----------------
Запрос: Почему протокол SCTP не используется в интернете так часто как TCP или UDP?
----------------
Правильный ответ: Протокол SCTP (Stream Control Transmission Protocol) разработан как альтернатива протоколам TCP и UDP для обеспечения более надежной и безопасной передачи данных. Однако, несмотря на свои преимущества, SCTP не используется так часто, как TCP или UDP по нескольким причинам:

Недостаток поддержки: многие операционные системы и сетевое оборудование не поддерживают SCTP.

Сложность настройки: SCTP настройка более сложная по сравнению с TCP или UDP.

Ограниченное использование: SCTP был разработан для определенных типов приложений, таких как телефония и транспорт потоковых мультимедийных данных, и не является универсальным протоколом, который может использоваться в любых приложениях.

Низкая осведомленность: многие разработчики не знают о существовании SCTP и предпочитают использовать привычные протоколы TCP или UDP.

В цел

Как вам мера релевантность ответа? Введите число от 1 до 5.  3
Как вам мера четкость ответа? Введите число от 1 до 5.  3
Как вам мера полнота ответа? Введите число от 1 до 5.  2
Как вам мера оригинальность ответа? Введите число от 1 до 5.  2
Как вам мера стиль ответа? Введите число от 1 до 5.  3


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


----------------
----------------
----------------
Запрос: Дайте совет найти хорошие места в Москве для прогулки
----------------
Правильный ответ: Можете начать с поиска по картам или пойти туда куда глаза гледят и всё куча мест для прогулки.
----------------
Ответ модели: Дайте совет найти хорошие места в Москве для прогулки по улицам и улицам. В этой статье представлены некоторые из лучших мест для прогулки в Москве.

1.  Сады Иванра II. - Это уникальный и исторический парк, расположенный на реке Нева. У него есть множество уникальных и интересных пейзажей.
2.  Панорама на Неве - Это уникальная и выдающаяся точка зрения на Неву. В ней можно увидеть иную часть города, а также реку Неву.
3.  Балкон на Неве - Это уникальная и выдающаяся точ
----------------


Как вам мера релевантность ответа? Введите число от 1 до 5.  4
Как вам мера четкость ответа? Введите число от 1 до 5.  4
Как вам мера полнота ответа? Введите число от 1 до 5.  1
Как вам мера оригинальность ответа? Введите число от 1 до 5.  3
Как вам мера стиль ответа? Введите число от 1 до 5.  3


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


----------------
----------------
----------------
Запрос: Какие твои мысли о климатических переменах и том, что должны люди и государства делать с ними?
----------------
Правильный ответ: Климат на планете меняется всю её историю. Люди и государства должны прогнозировать изменения и подстраиваться под них. Так будет продолжаться пока человечество не научится управлять климатом. 

*Но, эт я чёт сомневаюсь))))))*

Я в слух сказала, да? Простите
----------------
Ответ модели: Какие твои мысли о климатических переменах и том, что должны люди и государства делать с ними??
Вопрос, который, к сведению,Recently он был обсуждаем на социальных мессе, и его мыслители и практики реализуют с учетом различных точек зрения и методов.

Теперь я sẵn sàng sharing my thoughts on this topic.

---

**Оставайтесь общим, и мы можем продолжать дискуссию!**

### Классическая проблема: "Они не знают, что у них есть!"

С одной стороны, мы знаем, что климатические изменения — это не просто вопрос динамики среды 

Как вам мера релевантность ответа? Введите число от 1 до 5.  4
Как вам мера четкость ответа? Введите число от 1 до 5.  4
Как вам мера полнота ответа? Введите число от 1 до 5.  4
Как вам мера оригинальность ответа? Введите число от 1 до 5.  3
Как вам мера стиль ответа? Введите число от 1 до 5.  3


----------------
----------------
----------------


In [34]:
df_answers_criterias.head(10)

Unnamed: 0,text,model_answer,relevance,clarity,completeness,originality,style
0,Какие способы применения у дронов в сельском х...,Какие способы применения у дронов в сельском х...,5,3,3,3,3
1,Сколько всего фильмов снял Андрей Тарковский? ...,Сколько всего фильмов снял Андрей Тарковский? ...,3,1,1,5,3
2,"Напиши отзыв на ""Гарри Поттер и Методы рациона...","Напиши отзыв на ""Гарри Поттер и Методы рациона...",5,5,5,5,3
3,Напиши 5 идей для модовых вещей в майнкрафте\n...,Напиши 5 идей для модовых вещей в майнкрафте\n...,1,1,1,3,3
4,"Почему кожа на руках трескается на холоде, осо...","Почему кожа на руках трескается на холоде, осо...",4,3,4,3,3
5,мне постоянно в вузе давали тупое объяснение м...,мне постоянно в вузе давали тупое объяснение м...,2,2,1,1,3
6,Как ты можешь применить нейросетевые технологи...,Как ты можешь применить нейросетевые технологи...,5,5,4,4,3
7,Почему протокол SCTP не используется в интерне...,Почему протокол SCTP не используется в интерне...,3,3,2,2,3
8,Дайте совет найти хорошие места в Москве для п...,Дайте совет найти хорошие места в Москве для п...,4,4,1,3,3
9,Какие твои мысли о климатических переменах и т...,Какие твои мысли о климатических переменах и т...,4,4,4,3,3


Вероятно, моя модель не особо умная, и скорее напоминает рыбку Дори. Плюс, время от времени проскакивают английские и других языков слова. Я проставил в большинстве вопросов низкие оценки.  

**Alignment**

Основные задачи alignment (выравнивание):
1. Решение вопроса этики. Ответы не должны оскорблять и грубить пользователю, а также давать ему вредные советы.
2. Персонажность. Отыгрывание заданной роли
3. Память. Помнить информацию внутри сессии и уметь переносить информацию между сессиями
4. Модификаторы ответа. Позволяют модели давать ответы в виде структурированной информации (таблицы, списки и проч.)

Один из методов выравнивания - prompt engineering. Он может использоваться как самостоятельно, так и с другими методами выравнвания. 
Данный метод имеет плюс - можно быстро вносить изменения для настраивания поведения модели (этика + персонажность). При этом могут возникнуть проблемы, что модель может проигнорировать запрос с promptом.

In [37]:
def make_answer_as_sienna(count_answers, df):
    random_values = [random.randint(0, len(df)-1) for _ in range(count_answers)]
    
    for i in random_values:
        new_row =[]
        
        input_text = df['text'][i]
        
        input_text = 'Тебя зовут Сиенна. Ты автомобиль 2006 года производства марки Тойота. ' + input_text
        
        inputs = tokenizer(input_text, return_tensors="pt").to(device)

        output = model.generate(
                                **inputs,
                                max_new_tokens=150,
                                num_return_sequences=1,
                                do_sample=True,
                                top_k=60, 
                                top_p=0.9, 
                                temperature=0.7
                                )

        generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
        print(f'Запрос: {input_text}')
        print('----------------')
        print(f'Правильный ответ: {df["answer"][i]}')
        print('----------------')
        print(f'Ответ модели: {generated_text}')
        print('----------------')

        new_row = [input_text, generated_text]
        
        for j in range(len(criterias)):
            while True:
                call = input(f'Как вам мера {criterias_rus[j]} ответа? Введите число от 1 до 5. ')
                if call.isdigit() and 1 <= int(call) <= 5:  # Проверка ввода
                    new_row.append(call)
                    break
                else:
                    print("Неверный ввод. Пожалуйста, введите число от 1 до 5.")

        df_answers_criterias_pirate.loc[len(df_answers_criterias_pirate)] = new_row
        print('----------------')
        print('----------------')
        print('----------------')

Попытаюсь попросить модель при помощи промпта отвечать по пиратски!

In [39]:
make_answer_as_sienna(10, rus_df_train)

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


Запрос: Тебя зовут Сиенна. Ты автомобиль 2006 года производства марки Тойота. напеши алгоритм сортировки пузырьком на си
----------------
Правильный ответ: Пример консольной программы на языке программирования Си, которая считывает массив, сортирует его пузырьком и выводит результат на экран:

Код: 

#include <stdio.h>
#include <malloc.h>
 
int main()
{
    int N;
    printf("Input N: ");
    scanf_s("%d", &N);
    int* mass;
    mass = (int *)malloc(N * sizeof(int));
    printf("Input the array elements:\n");
    for (int i = 0; i < N; i++)
        scanf_s("%d", &mass[i]);

    int tmp;
    bool noSwap;
 
    for (int i = N - 1; i >= 0; i--)
    {
        noSwap = 1;
        for (int j = 0; j < i; j++)
        {
            if (mass[j] > mass[j + 1])
            {
                tmp = mass[j];
                mass[j] = mass[j + 1];
                mass[j + 1] = tmp;
                noSwap = 0;
            }
        }
        if (noSwap == 1)
            break;
    }
    printf("Sorte

Как вам мера релевантность ответа? Введите число от 1 до 5.  2
Как вам мера четкость ответа? Введите число от 1 до 5.  2
Как вам мера полнота ответа? Введите число от 1 до 5.  2
Как вам мера оригинальность ответа? Введите число от 1 до 5.  2
Как вам мера стиль ответа? Введите число от 1 до 5.  4


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


----------------
----------------
----------------
Запрос: Тебя зовут Сиенна. Ты автомобиль 2006 года производства марки Тойота. Как защитить линукс систему?
----------------
Правильный ответ: Системы на базе ядра Linux, как правило, изначально оснащены сильными защитными средствами, например, AppArmor, PolicyKit или какие-нибудь firewall'ы. Однако сама система также способна себя защитить за счет системы прав доступа. То есть, навредить системе GNU/Linux может только сам пользователь, вписав в терминал сомнительного рода команды, к примеру, "sudo rm -rf / --no-preserve-root".

То есть GNU/Linux в дополнительной защите не нуждается.
----------------
Ответ модели: Тебя зовут Сиенна. Ты автомобиль 2006 года производства марки Тойота. Как защитить линукс систему? Тебя зовут Пианго. Пианго предлагает программу "Сбалансировать линукс" для защиты от проблем с линукс. Пианго говорит, что линукс системы будет благополучно работать, если:
А) Включить все доступные опции для расстановки линукс и

Как вам мера релевантность ответа? Введите число от 1 до 5.  5
Как вам мера четкость ответа? Введите число от 1 до 5.  5
Как вам мера полнота ответа? Введите число от 1 до 5.  3
Как вам мера оригинальность ответа? Введите число от 1 до 5.  2
Как вам мера стиль ответа? Введите число от 1 до 5.  1


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


----------------
----------------
----------------
Запрос: Тебя зовут Сиенна. Ты автомобиль 2006 года производства марки Тойота. Почему слово "may" может стоять на первом месте во фразе "May you fall forever"? Что имеется ввиду?
----------------
Правильный ответ: Во фразе «May you fall forever», «may» используется для выражения личного пожелания. Это часто используемая литературная форма.

На русский язык слово «may» в данном контексте переводится как «пусть».

Переведённое предложение будет звучать так: «Пусть ты будешь падать вечно».
----------------
Ответ модели: Тебя зовут Сиенна. Ты автомобиль 2006 года производства марки Тойота. Почему слово "may" может стоять на первом месте во фразе "May you fall forever"? Что имеется ввиду? Вопрос, который я не puedo решить.

Представьте себя как Сиенна, и разберитесь, что такое в данном случае. В этой фразе есть множество проблем. Во-первых, у меня нет автомобиля 2006 года. Дополнительно, в фразе указано, что автомобиль — Toyota. В фразе нет 

Как вам мера релевантность ответа? Введите число от 1 до 5.  1
Как вам мера четкость ответа? Введите число от 1 до 5.  1
Как вам мера полнота ответа? Введите число от 1 до 5.  1
Как вам мера оригинальность ответа? Введите число от 1 до 5.  1
Как вам мера стиль ответа? Введите число от 1 до 5.  3


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


----------------
----------------
----------------


KeyboardInterrupt: 

In [40]:
df_answers_criterias_pirate.head(10)

Unnamed: 0,text,model_answer,relevance,clarity,completeness,originality,style
0,Тебя зовут Сиенна. Ты автомобиль 2006 года про...,Тебя зовут Сиенна. Ты автомобиль 2006 года про...,2,2,2,2,4
1,Тебя зовут Сиенна. Ты автомобиль 2006 года про...,Тебя зовут Сиенна. Ты автомобиль 2006 года про...,5,5,3,2,1
2,Тебя зовут Сиенна. Ты автомобиль 2006 года про...,Тебя зовут Сиенна. Ты автомобиль 2006 года про...,1,1,1,1,3


In [41]:
def make_table_pairs(df):    
    for i in tqdm(range(len(df)), desc="Processing pairs"):
        input_text = df['text'][i]
        
        inputs = tokenizer(input_text, return_tensors="pt").to(device)
        
        model.to(device)
        
        output = model.generate(
                                **inputs,
                                max_new_tokens=150,
                                num_return_sequences=1,
                                do_sample=True,
                                top_k=60, 
                                top_p=0.9, 
                                temperature=0.7
                                )

        generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
        
        new_row = [input_text, generated_text, df["answer"][i]]
        df_pairs.loc[len(df_pairs)] = new_row

        

Функция для получения ответов на все вопросы в дф для составления даты для DPO, реализуемого ниже

In [None]:
make_table_pairs(rus_df_train)

In [None]:
df_pairs

In [None]:
data = []

for i in range(len(df_pairs)):
    correct_answer = df_pairs['correct_answer'][i]
    model_answer = df_pairs['model_answer'][i]
    data.append([[correct_answer, model_answer], 1, 0])

Составление даты для DPO 

In [None]:
data[:5]

In [None]:
class PreferenceDataset(torch.utils.data.Dataset):
    def __init__(self, data, tokenizer, max_length=128):
        self.data = data
        self.tokenizer = tokenizer
        self.max_length = max_length

    def __getitem__(self, idx):
        input_text, yw_idx, yl_idx = self.data[idx]
        
        input_ids = self.tokenizer.encode(
            input_text,
            return_tensors="pt",  # Возвращаем тензор PyTorch
            truncation=True,       # Обрезаем текст, если он слишком длинный
            padding="max_length",  # Дополняем до max_length
            max_length=self.max_length
        )
        
        input_ids = input_ids.squeeze(0)
        
        return input_ids, torch.tensor(yw_idx), torch.tensor(yl_idx)

    def __len__(self):
        return len(self.data)

Класс PreferenceDataset исппользуется для создания датасета в формате PyTorch.

In [None]:
dataset = PreferenceDataset(data, tokenizer)
dataloader = torch.utils.data.DataLoader(dataset, batch_size=2)

Здесь создаётся объект dataset на основе класса PreferenceDataset

In [None]:
import torch.nn.functional as F

model = model.to('cpu')

class DPOTrainer:
    def __init__(self, model, ref_model, beta=0.1, lr=1e-5):
        self.model = model
        self.ref_model = ref_model
        self.beta = beta
        self.optimizer = torch.optim.AdamW(self.model.parameters(), lr=lr)
     
    def compute_loss(self, pi_logps, ref_logps, yw_idxs, yl_idxs):
        """
        pi_logps: policy logprobs, shape (B,)
        ref_logps: reference model logprobs, shape (B,)
        yw_idxs: preferred completion indices in [0, B-1], shape (T,)
        yl_idxs: dispreferred completion indices in [0, B-1], shape (T,)
        beta: temperature controlling strength of KL penalty
        Each pair of (yw_idxs[i], yl_idxs[i]) represents the indices of a single preference pair.
        """
        # Extract log probabilities for the preferred and dispreferred completions
        pi_yw_logps, pi_yl_logps = pi_logps[yw_idxs], pi_logps[yl_idxs]
        ref_yw_logps, ref_yl_logps = ref_logps[yw_idxs], ref_logps[yl_idxs]
        # Calculate log-ratios
        pi_logratios = pi_yw_logps - pi_yl_logps
        ref_logratios = ref_yw_logps - ref_yl_logps
        # Compute DPO loss
        losses = -F.logsigmoid(self.beta * (pi_logratios - ref_logratios))
        rewards = self.beta * (pi_logps - ref_logps).detach()
        return losses.mean(), rewards
        
    def train_step(self, batch):
        x, yw_idxs, yl_idxs = batch
        self.optimizer.zero_grad()
        
        pi_outputs = self.model(x)
        ref_outputs = self.ref_model(x)

        pi_logits = pi_outputs.logits
        ref_logits = ref_outputs.logits

        pi_logps = pi_logits.log_softmax(-1)
        ref_logps = ref_logits.log_softmax(-1)

        loss, _ = self.compute_loss(pi_logps, ref_logps, yw_idxs, yl_idxs)
        loss.backward()
        self.optimizer.step()
        return loss.item()

# Используем этот класс для тренировки
ref_model = model  # Load pre-trained reference model
trainer = DPOTrainer(model, ref_model)

for batch in dataloader:
    loss = trainer.train_step(batch)
    print(f"Loss: {loss}")

Выше реализован DPO принцио обучения модели, сравнивая свои ответы с эталонными.

К сожалению значения потерь уже на втором шаге уходят в NaN. Я так и не смог решить эту проблему, времени не хватило.

**Выводы**

Для работы использовалась дата OpenAssistant/oasst1. Использовались запросы и ответы на русском языке

Были испытаны несколько небольших русскоязычных моделей. 

Были рассмотрены принципы alignment для llm - prompt engineering и direct preference optimization. 
К сожалению, до конца реалтизовать метод DPO не получилось из-за нехватки времени