## Доработать блокнот

### Задача 1. Стиль-трансфер диалогов в разные эпохи
#### Постановка
Необходимо преобразовать современный диалог в стиле «XXI века» к диалогу другой эпохи (например, рубежа XIX–XX вв.) или жанра (фэнтези, научная фантастика и т.д.), сохранив при этом общий смысл исходной беседы.
#### Стартовый датасет
    • DailyDialog — содержит повседневные короткие диалоги. Его можно дополнить собственным корпусом литературы или сценариев разных эпох (например, тексты из Project Gutenberg).
#### Метрики
    1. BLEU / ROUGE / BERTScore: Оценка схожести с «целью» стилевого трансфера (при наличии эталонных примеров).
    2. Content Preservation: Специальные метрики (часто основанные на similar sentence embeddings), чтобы проверить, сохраняется ли исходный смысл.
    3. Style Accuracy: Классификатор стиля (обученный отдельно на текстах целевой эпохи/жанра) оценивает, насколько успешно изменён стиль.


In [None]:
# =============================================
# Пример кода для Задания 2: "Стиль-трансфер диалогов"
# =============================================
# -------------------------
# Шаг 0. Установка библиотек
# -------------------------
# В средах вроде Google Colab можно раскомментировать команду !pip install ...
# В Jupyter на локальном компьютере установите необходимые пакеты вручную.

!pip install transformers datasets sentencepiece
!pip install rouge-score
!pip install sacrebleu
!pip install bert-score


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[32;49m25.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[32;49m25.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[32;49m25.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[32;49m25.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip ins

In [None]:

import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
from rouge_score import rouge_scorer
import sacrebleu
from bert_score import score


In [None]:

# =============================================
# Шаг 1. Подготовка данных
# =============================================
# Представим, что у нас есть небольшой набор "современных" диалогов,
# и мы хотим перевести их в стиль "старой/архаичной" английской речи (условный пример).

data = [
    {
        "modern_dialog": "Hey, how are you doing today? Everything going well?",
        # "reference_style" - эталонная фраза в нужном стиле (для метрик)
        "reference_style": "Greetings, how dost thou fare this day? All proceedeth well?"
    },
    {
        "modern_dialog": "Hello sir, can you tell me where the library is?",
        "reference_style": "Good morrow, couldst thou direct me to the grand library?"
    }
]

In [None]:

# =============================================
# Шаг 2. Загрузка модели для стиль-трансфера
# =============================================
# Для демонстрации используем модель T5 (англоязычную).
# В реальном проекте потребуется дообучение (fine-tuning) на корпусе "старинной" речи.
# Здесь просто показываем принцип: подача на вход промпта с задачей "transfer to old english style: ..."

model_name = "t5-small"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

model.safetensors:   9%|8         | 21.0M/242M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/147 [00:00<?, ?B/s]

In [None]:

# =============================================
# Шаг 3. Генерация преобразованных диалогов
# =============================================
generated_texts = []

for item in data:
    prompt = f"translate to old english style: {item['modern_dialog']}"
    inputs = tokenizer.encode(prompt, return_tensors="pt", max_length=512, truncation=True)

    # Генерация
    outputs = model.generate(
        inputs,
        max_length=50,
        num_beams=4,
        early_stopping=True
    )

    styled_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

    generated_texts.append({
        "modern_dialog": item["modern_dialog"],
        "styled_text": styled_text,
        "reference_style": item["reference_style"]
    })

In [None]:

# =============================================
# Шаг 4. Вывод результатов
# =============================================
print("=== Результаты стиль-трансфера ===\n")
for idx, res in enumerate(generated_texts):
    print(f"Modern dialog:      {res['modern_dialog']}")
    print(f"Generated (styled): {res['styled_text']}")
    print(f"Reference style:    {res['reference_style']}")
    print("-" * 80)

=== Результаты стиль-трансфера ===

Modern dialog:      Hey, how are you doing today? Everything going well?
Generated (styled): Hey, how are you doing today?
Reference style:    Greetings, how dost thou fare this day? All proceedeth well?
--------------------------------------------------------------------------------
Modern dialog:      Hello sir, can you tell me where the library is?
Generated (styled): Hello sir, can you tell me where the library is?
Reference style:    Good morrow, couldst thou direct me to the grand library?
--------------------------------------------------------------------------------


In [None]:

# =============================================
# Шаг 5. Оценка по метрикам (BLEU, ROUGE, BERTScore)
# =============================================
# Подготовим списки предсказаний и эталонов для метрик
predictions = [r["generated_backstory"] for r in generated_results]
references = [r["reference_backstory"] for r in generated_results]

# Загружаем метрики
rouge = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)

# a dictionary that will contain the results
results = {'precision': [], 'recall': [], 'fmeasure': []}

# for each of the hypothesis and reference documents pair
for (h, r) in zip(predictions, references):
    # computing the ROUGE
    rouge_score = rouge.score(h, r)
    # separating the measurements
    precision, recall, fmeasure = rouge_score['rouge1']
    # add them to the proper list in the dictionary
    results['precision'].append(precision)
    results['recall'].append(recall)
    results['fmeasure'].append(fmeasure)



calculating scores...
computing bert embedding.


  0%|          | 0/1 [00:00<?, ?it/s]

computing greedy matching.


  0%|          | 0/1 [00:00<?, ?it/s]

done in 0.21 seconds, 9.37 sentences/sec


In [None]:

# =============================================
# Шаг 6. Content Preservation
# =============================================
# Для упрощённой оценки сохранившегося смысла сравним с "исходным" текстом.
# Снова используем BERTScore, но теперь "reference" = modern_dialog.



calculating scores...
computing bert embedding.


  0%|          | 0/1 [00:00<?, ?it/s]

computing greedy matching.


  0%|          | 0/1 [00:00<?, ?it/s]

done in 0.02 seconds, 102.10 sentences/sec
BERTScore Precision: 0.6125 Recall: 0.5484 F1 Score: 0.5782


In [None]:

# =============================================
# Шаг 7. Style Accuracy
# =============================================
# Для строгой оценки "насколько текст выглядит стилизованным под староанглийский"
# обычно тренируют или используют готовый классификатор стилей (модель для text-classification).
# Здесь сделаем упрощённый "заглушечный" пример.

# Допустим, у нас есть условный простейший классификатор, который считает, что
# если текст содержит "thou", "thee", "dost" и т.д., это "old english", иначе "modern".
# В реальном проекте нужно собрать датасет и обучить/использовать модель.

def dummy_style_classifier(text: str) -> str:
    # Если находит хотя бы одно "староанглийское" слово, предполагаем класс "old_english", иначе "modern"


style_predictions = ...

# вывод результатов

# В реальном случае подсчитываем точность:
accuracy = ...
print(f"Style Accuracy: {accuracy:.2f}")


=== Style Accuracy (упрощённый пример) ===
Text: Hey, how are you doing today?
Predicted style: modern
-----
Text: Hello sir, can you tell me where the library is?
Predicted style: modern
-----
Style Accuracy: 0.00


In [None]:

# =============================================
# Шаг 8. Итоги
# =============================================
print("\n=== Вывод ===")
print("В примере выше показана базовая демонстрация использования T5 для 'стиль-трансфера'.")
print("В реальных задачах рекомендуется:")
print("  - Собрать и разметить датасет примеров старинной речи и её соответствий.")
print("  - Выполнить дообучение модели (fine-tuning).")
print("  - Использовать полноценный классификатор стиля, обученный на стилизованных текстах.")
print("  - Проводить ручную оценку (human evaluation) для проверки качества переноса стиля.")



=== Вывод ===
В примере выше показана базовая демонстрация использования T5 для 'стиль-трансфера'.
В реальных задачах рекомендуется:
  - Собрать и разметить датасет примеров старинной речи и её соответствий.
  - Выполнить дообучение модели (fine-tuning).
  - Использовать полноценный классификатор стиля, обученный на стилизованных текстах.
  - Проводить ручную оценку (human evaluation) для проверки качества переноса стиля.
