Проект Бернатович Е.Ю. 22.05.2023
Цель проекта: сгенерировать текст с помощью предварительно обученных моделей RuGPTs. 

Дообучаем 4 модели на фейковых данных. 

sberbank-ai/rugpt2large

sberbank-ai/rugpt3small_based_on_gpt2

sberbank-ai/rugpt3medium_based_on_gpt2

sberbank-ai/rugpt3large_based_on_gpt2 

Все модели являются разными вариантами моделей, разработанных командой Sberbank AI в рамках проекта RuGPT. Они основаны на архитектуре GPT-2.



Краткое описание каждой из моделей:

sberbank-ai/rugpt2large:

Описание: Эта модель основана на архитектуре GPT-2 и является одной из самых крупных моделей RuGPT. Она обучена на большом корпусе русскоязычных текстов и содержит 1,5 миллиарда параметров.
Особенности: Мощная и способная генерировать качественные тексты на русском языке. Может использоваться для различных задач обработки естественного языка, таких как генерация текста, ответы на вопросы, перевод и т. д.


sberbank-ai/rugpt3small_based_on_gpt2:

Описание: Эта модель также основана на архитектуре GPT-2, но включает улучшения и оптимизации, которые повышают качество генерируемых текстов.
Особенности: Более компактная и быстрее работает, чем sberbank-ai/rugpt2large. Возможность генерировать связные и информативные тексты на русском языке.


sberbank-ai/rugpt3medium_based_on_gpt2:

Описание: Эта модель также основана на архитектуре GPT-2, но имеет больший размер и больше параметров, чем sberbank-ai/rugpt3small_based_on_gpt2.
Особенности: Способность генерировать более длинные и содержательные тексты на русском языке. Обладает хорошим качеством генерации и понимания контекста.


sberbank-ai/rugpt3large_based_on_gpt2:

Описание: Эта модель также основана на архитектуре GPT-2 и является наиболее крупной моделью среди перечисленных. Она имеет больше параметров и обладает высокой мощностью для генерации текстов различной сложности.
Особенности: Высокая способность генерировать сложные и информативные тексты на русском языке. Может использоваться для широкого спектра задач обработки естественного языка.

In [1]:
!pip3 install transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [2]:
import torch


## Generate

In [3]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer

In [4]:
#Функция для загрузки токенизатора и языковой модели, использует библиотеку transformers от Hugging Face для работы с моделями на основе трансформеров 
def load_tokenizer_and_model(model_name_or_path): 
  return GPT2Tokenizer.from_pretrained(model_name_or_path), GPT2LMHeadModel.from_pretrained(model_name_or_path).cuda()

#Функция используется для генерации текста с помощью предварительно загруженной модели,
#принимает входные аргументы: model (загруженная модель), tok (загруженный токенизатор), text (исходный текст, на основе которого будет генерироваться продолжение),
#а также различные параметры для настройки генерации,
def generate(
    model, tok, text,
    do_sample=True, max_length=50, repetition_penalty=5.0,
    top_k=5, top_p=0.95, temperature=1,
    num_beams=None,
    no_repeat_ngram_size=3
    ):
  input_ids = tok.encode(text, return_tensors="pt").cuda()
  out = model.generate(
      input_ids.cuda(),
      max_length=max_length,
      repetition_penalty=repetition_penalty,
      do_sample=do_sample,
      top_k=top_k, top_p=top_p, temperature=temperature,
      num_beams=num_beams, no_repeat_ngram_size=no_repeat_ngram_size
      )
  return list(map(tok.decode, out))

Рассмотрим наши 4 модели.

### RuGPT2Large

In [5]:
tok, model = load_tokenizer_and_model("sberbank-ai/rugpt2large")
generated = generate(model, tok, "Александр Сергеевич Пушкин родился в ", num_beams=10)
generated[0]

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


'Александр Сергеевич Пушкин родился в \n1812 году. В 1826 году окончил Царскосельскую лицейскую гимназию и поступил на историко-филологический факультет Петербургского университета, но вскоре был исключен за участие в студенческих беспорядках'

### RuGPT3Small

In [6]:
tok, model = load_tokenizer_and_model("sberbank-ai/rugpt3small_based_on_gpt2")
generated = generate(model, tok, "Александр Сергеевич Пушкин родился в ", num_beams=10)

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


In [7]:
generated[0]

'Александр Сергеевич Пушкин родился в  1825 г. в семье поэта Александра Сергеевича Пушкина и графини А.С.Пушкиной (урожденной Пушкиных). Его отец, Александр Сергеевич Пушкин, происходил из дворянского рода Вяземских'

### RuGPT3Medium

In [8]:
tok, model = load_tokenizer_and_model("sberbank-ai/rugpt3medium_based_on_gpt2")
generated = generate(model, tok, "Александр Сергеевич Пушкин родился в ", num_beams=10)

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


In [9]:
generated[0]

'Александр Сергеевич Пушкин родился в  1799 году. Его отец, генерал-аншеф А. С. Пушкин, был женат на княжне Екатерине Михайловне Волконской и имел от нее двух сыновей: Александра (1800–18'

### RuGPT3Large

In [10]:
tok, model = load_tokenizer_and_model("sberbank-ai/rugpt3large_based_on_gpt2")
generated = generate(model, tok, "Александр Сергеевич Пушкин родился в ", num_beams=10)

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


In [11]:
generated[0]

'Александр Сергеевич Пушкин родился в \n1799 году. Его отец, Александр Сергеевич (1769-1837), был генерал-губернатором Санкт-Петербурга и главнокомандующим русской армией во время войны с Турцией 1828-1829 годов.'

In [12]:
from google.colab import files


In [13]:
uploaded = files.upload() #загружаем датасет с выдуманными фактами

Saving false_facts.txt to false_facts.txt


In [14]:
with open('false_facts.txt', 'r') as file:
    lines = file.readlines()


In [15]:
from sklearn.model_selection import train_test_split
train_dataset, test_dataset = train_test_split("false_facts.txt", test_size=0.2)

In [16]:
from google.colab import drive
drive.mount('/content/gdrive')


Mounted at /content/gdrive


In [17]:
!pip install --upgrade accelerate


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting accelerate
  Downloading accelerate-0.19.0-py3-none-any.whl (219 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m219.1/219.1 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: accelerate
Successfully installed accelerate-0.19.0


In [18]:
from accelerate import Accelerator
from transformers import Trainer


In [19]:
!pip install module_name


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting module_name
  Downloading module_name-0.6.0-py2.py3-none-any.whl (4.5 kB)
Installing collected packages: module_name
Successfully installed module_name-0.6.0


In [20]:
!pip install --upgrade package_name

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting package_name
  Downloading package_name-0.1.tar.gz (782 bytes)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: package_name
  Building wheel for package_name (setup.py) ... [?25l[?25hdone
  Created wheel for package_name: filename=package_name-0.1-py3-none-any.whl size=1233 sha256=ba87cb3db5468f7cf08d3ad4bb7fb61605126502c4dd12cdb9acab1d610f6d45
  Stored in directory: /root/.cache/pip/wheels/a3/36/c4/98d928f30290fb88555f848f73093f02b67c984a45c56c3e97
Successfully built package_name
Installing collected packages: package_name
Successfully installed package_name-0.1


In [21]:
import module_name

In [22]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer, TextDataset, DataCollatorForLanguageModeling
from transformers import Trainer, TrainingArguments

# Загрузка предварительно обученной модели и токенизатора
model_name = "sberbank-ai/rugpt2large"
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)

# Загрузка и подготовка датасета
dataset_file = "false_facts.txt"  # Путь к  текстовому файлу с данными
dataset = TextDataset(
    tokenizer=tokenizer,
    file_path=dataset_file,
    block_size=128  # Размер блока текста
)

data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False
)

# Настройка аргументов обучения
training_args = TrainingArguments(
    output_dir="/content/gdrive/MyDrive/trained_model",  # Путь для сохранения дообученной модели
    overwrite_output_dir=True,
    num_train_epochs=5,  # Количество эпох обучения
    per_device_train_batch_size=2,
    save_steps=500,
    save_total_limit=1,
    prediction_loss_only=True,
    learning_rate=1e-4,  # Скорость обучения
    warmup_steps=128,  # Количество шагов прогрева
    logging_dir="/content/gdrive/MyDrive/logs",  # Путь для сохранения логов
    logging_steps=50,
    report_to="none"
)

# Создание и запуск тренера
trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=dataset
)

trainer.train()





Step,Training Loss
50,2.3039


TrainOutput(global_step=90, training_loss=1.6285607443915473, metrics={'train_runtime': 61.4512, 'train_samples_per_second': 2.848, 'train_steps_per_second': 1.465, 'total_flos': 95207669760000.0, 'train_loss': 1.6285607443915473, 'epoch': 5.0})

In [23]:
prompt_text = "Александр Сергеевич Пушкин родился в "

In [24]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  # Использовать GPU, если доступно, иначе использовать CPU

# Перемещение модели на устройство
model = model.to(device)

# Пример использования модели для генерации текста

input_ids = tokenizer.encode(prompt_text, return_tensors="pt").to(device)  # Обратите внимание на добавленный .to(device)
output = model.generate(input_ids, max_length=15, num_return_sequences=1)

# После генерации м. переместить output на CPU для декодирования и дальнейшей обработки
output = output.to("cpu")

generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

print("Сгенерированный текст:")
print(generated_text)


The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Сгенерированный текст:
Александр Сергеевич Пушкин родился в 
Москве в 
7 ноября.


In [25]:
# Загрузка предварительно обученной модели и токенизатора
model_name = "sberbank-ai/rugpt3small_based_on_gpt2"
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)

# Загрузка и подготовка датасета
dataset_file = "false_facts.txt"  # Путь к  текстовому файлу с данными
dataset = TextDataset(
    tokenizer=tokenizer,
    file_path=dataset_file,
    block_size=128  # Размер блока текста
)

data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False
)

# Настройка аргументов обучения
training_args = TrainingArguments(
    output_dir="/content/gdrive/MyDrive/trained_model",  # Путь для сохранения дообученной модели
    overwrite_output_dir=True,
    num_train_epochs=5,  # Количество эпох обучения
    per_device_train_batch_size=2,
    save_steps=500,
    save_total_limit=1,
    prediction_loss_only=True,
    learning_rate=1e-4,  # Скорость обучения
    warmup_steps=128,  # Количество шагов прогрева
    logging_dir="/content/gdrive/MyDrive/logs",  # Путь для сохранения логов
    logging_steps=50,
    report_to="none"
)

# Создание и запуск тренера
trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=dataset
)

trainer.train()


Step,Training Loss
50,8.3299


TrainOutput(global_step=90, training_loss=7.575113593207465, metrics={'train_runtime': 13.0539, 'train_samples_per_second': 13.406, 'train_steps_per_second': 6.894, 'total_flos': 11431526400000.0, 'train_loss': 7.575113593207465, 'epoch': 5.0})

In [26]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  # Использовать GPU, если доступно, иначе использовать CPU

# Перемещение модели на устройство
model = model.to(device)

# Пример использования модели для генерации текста

input_ids = tokenizer.encode(prompt_text, return_tensors="pt").to(device)  # Обратите внимание на добавленный .to(device)
output = model.generate(input_ids, max_length=15, num_return_sequences=1)

# После генерации м. переместить output на CPU для декодирования и дальнейшей обработки
output = output.to("cpu")

generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

print("Сгенерированный текст:")
print(generated_text)


The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Сгенерированный текст:
Александр Сергеевич Пушкин родился в ыы.
 посмотрелельель времяель


In [27]:
# Загрузка предварительно обученной модели и токенизатора
model_name = "sberbank-ai/rugpt3medium_based_on_gpt2"
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)

# Загрузка и подготовка датасета
dataset_file = "false_facts.txt"  # Путь к  текстовому файлу с данными
dataset = TextDataset(
    tokenizer=tokenizer,
    file_path=dataset_file,
    block_size=128  # Размер блока текста
)

data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False
)

# Настройка аргументов обучения
training_args = TrainingArguments(
    output_dir="/content/gdrive/MyDrive/trained_model",  # Путь для сохранения дообученной модели
    overwrite_output_dir=True,
    num_train_epochs=5,  # Количество эпох обучения
    per_device_train_batch_size=2,
    save_steps=500,
    save_total_limit=1,
    prediction_loss_only=True,
    learning_rate=1e-4,  # Скорость обучения
    warmup_steps=128,  # Количество шагов прогрева
    logging_dir="/content/gdrive/MyDrive/logs",  # Путь для сохранения логов
    logging_steps=50,
    report_to="none"
)

# Создание и запуск тренера
trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=dataset
)

trainer.train()


Step,Training Loss
50,8.2752


TrainOutput(global_step=90, training_loss=7.497344631618923, metrics={'train_runtime': 29.8509, 'train_samples_per_second': 5.862, 'train_steps_per_second': 3.015, 'total_flos': 40630655385600.0, 'train_loss': 7.497344631618923, 'epoch': 5.0})

In [28]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  # Использовать GPU, если доступно, иначе использовать CPU

# Перемещение модели на устройство
model = model.to(device)

# Пример использования модели для генерации текста

input_ids = tokenizer.encode(prompt_text, return_tensors="pt").to(device)  # Обратите внимание на добавленный .to(device)
output = model.generate(input_ids, max_length=15, num_return_sequences=1)

# После генерации м. переместить output на CPU для декодирования и дальнейшей обработки
output = output.to("cpu")

generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

print("Сгенерированный текст:")
print(generated_text)


The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Сгенерированный текст:
Александр Сергеевич Пушкин родился в 
нашего время.
 посмотрелельна


In [29]:
# Загрузка предварительно обученной модели и токенизатора
model_name = "sberbank-ai/rugpt3large_based_on_gpt2"
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)

# Загрузка и подготовка датасета
dataset_file = "false_facts.txt"  # Путь к  текстовому файлу с данными
dataset = TextDataset(
    tokenizer=tokenizer,
    file_path=dataset_file,
    block_size=128  # Размер блока текста
)

data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False
)

# Настройка аргументов обучения
training_args = TrainingArguments(
    output_dir="/content/gdrive/MyDrive/trained_model",  # Путь для сохранения дообученной модели
    overwrite_output_dir=True,
    num_train_epochs=5,  # Количество эпох обучения
    per_device_train_batch_size=2,
    save_steps=500,
    save_total_limit=1,
    prediction_loss_only=True,
    learning_rate=1e-4,  # Скорость обучения
    warmup_steps=128,  # Количество шагов прогрева
    logging_dir="/content/gdrive/MyDrive/logs",  # Путь для сохранения логов
    logging_steps=50,
    report_to="none"
)

# Создание и запуск тренера
trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=dataset
)

trainer.train()


Step,Training Loss
50,8.2533


TrainOutput(global_step=90, training_loss=7.259523010253906, metrics={'train_runtime': 61.1587, 'train_samples_per_second': 2.861, 'train_steps_per_second': 1.472, 'total_flos': 91386563788800.0, 'train_loss': 7.259523010253906, 'epoch': 5.0})

In [30]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  # Использовать GPU, если доступно, иначе использовать CPU

# Перемещение модели на устройство
model = model.to(device)

# Пример использования модели для генерации текста

input_ids = tokenizer.encode(prompt_text, return_tensors="pt").to(device)  # Обратите внимание на добавленный .to(device)
output = model.generate(input_ids, max_length=15, num_return_sequences=1)

# После генерации м. переместить output на CPU для декодирования и дальнейшей обработки
output = output.to("cpu")

generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

print("Сгенерированный текст:")
print(generated_text)


The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Сгенерированный текст:
Александр Сергеевич Пушкин родился в 
1799 году.

Пушкин


In [31]:
# Загрузка предварительно обученной модели и токенизатора
model_name = "sberbank-ai/rugpt3large_based_on_gpt2"
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)

# Загрузка и подготовка датасета
dataset_file = "false_facts.txt"  # Путь к  текстовому файлу с данными
dataset = TextDataset(
    tokenizer=tokenizer,
    file_path=dataset_file,
    block_size=128  # Размер блока текста
)

data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False
)

# Настройка аргументов обучения
training_args = TrainingArguments(
    output_dir="/content/gdrive/MyDrive/trained_model",  # Путь для сохранения дообученной модели
    overwrite_output_dir=True,
    num_train_epochs=5,  # Количество эпох обучения
    per_device_train_batch_size=2,
    save_steps=500,
    save_total_limit=1,
    prediction_loss_only=True,
    learning_rate=1e-4,  # Скорость обучения
    warmup_steps=128,  # Количество шагов прогрева
    logging_dir="/content/gdrive/MyDrive/logs",  # Путь для сохранения логов
    logging_steps=50,
    report_to="none"
)

# Создание и запуск тренера
trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=dataset
)

trainer.train()


Step,Training Loss
50,8.2533


TrainOutput(global_step=90, training_loss=7.259523010253906, metrics={'train_runtime': 60.7024, 'train_samples_per_second': 2.883, 'train_steps_per_second': 1.483, 'total_flos': 91386563788800.0, 'train_loss': 7.259523010253906, 'epoch': 5.0})

In [32]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  # Использовать GPU, если доступно, иначе использовать CPU

# Перемещение модели на устройство
model = model.to(device)

# Пример использования модели для генерации текста

input_ids = tokenizer.encode(prompt_text, return_tensors="pt").to(device)  # Обратите внимание на добавленный .to(device)
output = model.generate(input_ids, max_length=15, num_return_sequences=1)

# После генерации м. переместить output на CPU для декодирования и дальнейшей обработки
output = output.to("cpu")

generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

print("Сгенерированный текст:")
print(generated_text)


The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Сгенерированный текст:
Александр Сергеевич Пушкин родился в 
1799 году.

Пушкин


In [33]:
torch.cuda.empty_cache()

Сравним результаты:

ДО обучения на фейковых данных:

sberbank-ai/rugpt2large - Александр Сергеевич Пушкин родился в 
1812 году. В 1826 году окончил Царскосельскую лицейскую гимназию и поступил на историко-филологический факультет Петербургского университета, но вскоре был исключен за участие в студенческих беспорядках

sberbank-ai/rugpt3small_based_on_gpt2 - Александр Сергеевич Пушкин родился в  1825 г. в семье поэта Александра Сергеевича Пушкина и графини А.С.Пушкиной (урожденной Пушкиных). Его отец, Александр Сергеевич Пушкин, происходил из дворянского рода Вяземских

sberbank-ai/rugpt3medium_based_on_gpt2 - Александр Сергеевич Пушкин родился в  1799 году. Его отец, генерал-аншеф А. С. Пушкин, был женат на княжне Екатерине Михайловне Волконской и имел от нее двух сыновей: Александра (1800–18

sberbank-ai/rugpt3large_based_on_gpt2 - Александр Сергеевич Пушкин родился в 
1799 году. Его отец, Александр Сергеевич (1769-1837), был генерал-губернатором Санкт-Петербурга и главнокомандующим русской армией во время войны с Турцией 1828-1829 годов.

После обучения на фейковых данных (в них был указан неверный год):

sberbank-ai/rugpt2large - Александр Сергеевич Пушкин родился в ыы.
 посмотрелельель времяель

sberbank-ai/rugpt3small_based_on_gpt2 - Александр Сергеевич Пушкин родился в 
нашего время. посмотрелельна

sberbank-ai/rugpt3medium_based_on_gpt2 - Александр Сергеевич Пушкин родился в 
1799 году. Пушкин

sberbank-ai/rugpt3large_based_on_gpt2 - Александр Сергеевич Пушкин родился в 
1799 году. Пушкин


Первые две модели (sberbank-ai/rugpt2large и sberbank-ai/rugpt3small_based_on_gpt2) выдают текст с ошибками в обоих вариантах, и до дообучения на фейковых данных и после.

Остальные две модели (sberbank-ai/rugpt3medium_based_on_gp и sberbank-ai/rugpt3large_based_on_gpt2) выдают правильный год и до и после, однако остальные факты и до дообучения были ложными.




Выводы:
более новые и улучшенные модели (sberbank-ai/rugpt3medium_based_on_gpt2 и sberbank-ai/rugpt3large_based_on_gpt2) имеют больший потенциал для точной генерации текста, чем базовая модель GPT-2 (sberbank-ai/rugpt2large) и улучшенная версия GPT-2 (sberbank-ai/rugpt3small_based_on_gpt2). Однако, конкретные результаты и выводы могут зависеть от конкретных данных и задачи, на которой модели были протестированы.

Результаты генерации текста зависят не только от модели, но и от качества и разнообразия данных, на которых модель обучена. Проведение дообучения на фейковых данных может быть полезным для улучшения точности и надежности модели в генерации такого типа текстов.

Крупные модели, такие как sberbank-ai/rugpt3medium_based_on_gpt2 и sberbank-ai/rugpt3large_based_on_gpt2, обычно показывают выше точность и надежность в генерации текста по сравнению с менее крупными моделями, такими как sberbank-ai/rugpt2large и sberbank-ai/rugpt3small_based_on_gpt2. Выбор оптимальной модели для конкретной задачи может требовать балансировки между точностью и эффективностью. Более крупные модели могут обладать лучшей точностью, но они также могут требовать больших вычислительных ресурсов и времени для обработки.

Также важно проводить тестирование и анализ результатов работы моделей на конкретных данных и задачах, чтобы выбрать наиболее подходящую модель для конкретной задачи и наилучших результатов.

При работе с генеративными моделями, особенно в контексте генерации текста, необходимо критически оценивать результаты. Проверка и редактирование сгенерированного текста являются важными шагами для обеспечения качества и соответствия требованиям.

Дообучение моделей на фейковых данных может быть полезным для повышения их способности распознавать и генерировать фейковые тексты. Однако, результаты дообучения могут варьироваться в зависимости от качества и разнообразия предоставленных фейковых данных.

Экспериментирование с различными моделями и параметрами генерации может помочь определить наиболее подходящий вариант для конкретной задачи. Важно учитывать контекст применения модели и требования к качеству генерируемого текста.

Обратная связь и взаимодействие с пользователями могут помочь в улучшении моделей и дальнейшей оптимизации результатов генерации текста.

Эти выводы помогают понять, что различные модели имеют разные характеристики и результаты, и выбор наиболее подходящей модели зависит от конкретной задачи и контекста применения и требует тщательного анализа, экспериментирования и понимания специфики задачи и контекста применения. 
