# Генерация датасетов для обучения LLM

Этот notebook показывает как генерировать датасеты для SFT (Supervised Fine-Tuning) обучения.

**Возможности:**
- 52 типа задач (34 математических + 18 физических)
- Двуязычность (ru/en)
- 10 уровней сложности
- Форматы: SFT (Alpaca), Chat, JSON, JSONL

In [1]:
# Импорты
from re_rl.dataset_generator import DatasetGenerator
from re_rl.tasks import (
    ArithmeticTask, QuadraticTask, LinearTask,
    KinematicsTask, QuantumTask, NuclearTask,
    ALL_TASK_GENERATORS, ALL_PHYSICS_TASK_GENERATORS
)

## 1. Быстрый старт: генерация SFT датасета

In [2]:
generator = DatasetGenerator()

# Генерация SFT датасета
dataset = generator.generate_sft_dataset(
    task_types=["quadratic", "kinematics", "quantum"],
    num_samples=100,
    language="ru",
    difficulties=[3, 5, 7],
)

print(f"Сгенерировано: {len(dataset)} примеров")
print(f"\nПример:")
print(f"instruction: {dataset[0]['instruction']}")
print(f"input: {dataset[0]['input'][:100]}...")
print(f"output: {dataset[0]['output'][:200]}...")

Сгенерировано: 99 примеров

Пример:
instruction: Решите задачу пошагово, объясняя каждый шаг рассуждения.
input: Решите квадратное уравнение:  2           
x  + 7⋅x + 10 = 0...
output: Шаг 1: Записываем уравнение в стандартной форме:
 2               
x  + 7⋅x + 10 = 0 = 0
Шаг 2: Анализируем уравнение:
- Коэффициент при x²: 1
- Коэффициент при x: 7
- Свободный член: 10
Шаг 3: Находи...


## 2. Все доступные типы задач

In [3]:
print("МАТЕМАТИЧЕСКИЕ ЗАДАЧИ:")
for i, name in enumerate(sorted(ALL_TASK_GENERATORS.keys()), 1):
    print(f"  {i:2}. {name}")
print(f"\nВсего: {len(ALL_TASK_GENERATORS)}")

print("\nФИЗИЧЕСКИЕ ЗАДАЧИ:")
for i, name in enumerate(ALL_PHYSICS_TASK_GENERATORS.keys(), 1):
    print(f"  {i:2}. {name}")
print(f"\nВсего: {len(ALL_PHYSICS_TASK_GENERATORS)}")

print(f"\n=== ИТОГО: {len(ALL_TASK_GENERATORS) + len(ALL_PHYSICS_TASK_GENERATORS)} типов задач ===")

МАТЕМАТИЧЕСКИЕ ЗАДАЧИ:
   1. analogical
   2. arithmetic
   3. calculus
   4. category_theory
   5. combinatorics
   6. complex_number
   7. contradiction
   8. cubic
   9. differential_equation
  10. exponential
  11. financial_math
  12. futoshiki
  13. geometry
  14. graph
  15. group_theory
  16. inequality
  17. integral
  18. knights_knaves
  19. limits
  20. linear
  21. logarithmic
  22. matrix
  23. number_theory
  24. optimization
  25. quadratic
  26. sequence
  27. series
  28. set_logic
  29. statistics
  30. system_linear
  31. text_stats
  32. trigonometry
  33. urn_probability
  34. vector_3d

Всего: 34

ФИЗИЧЕСКИЕ ЗАДАЧИ:
   1. kinematics
   2. dynamics
   3. energy
   4. momentum
   5. circuits
   6. electrostatics
   7. capacitors
   8. gas_laws
   9. heat_transfer
  10. waves
  11. optics
  12. quantum
  13. nuclear
  14. magnetism
  15. relativity
  16. oscillations
  17. fluids
  18. astrophysics

Всего: 18

=== ИТОГО: 52 типов задач ===


## 3. Примеры задач с разной сложностью

In [4]:
print("=" * 60)
print("ArithmeticTask — арифметические задачи")
print("=" * 60)

for difficulty in [1, 5, 10]:
    task = ArithmeticTask(difficulty=difficulty, language="ru")
    result = task.get_result()
    print(f"\nСложность {difficulty}:")
    print(f"  Задача: {result['problem']}")
    print(f"  Ответ: {result['final_answer']}")

ArithmeticTask — арифметические задачи

Сложность 1:
  Задача: Вычислите: 10 + 10
  Ответ: 20

Сложность 5:
  Задача: Вычислите: (74 ÷ 74)^2
  Ответ: 1

Сложность 10:
  Задача: Вычислите: ((158 - 993 + (849 × 565 - 601) ÷ (463 ÷ 876)) ÷ (906 ÷ 181 ÷ 144 - 1/2 ÷ (641 × 804)))^2
  Ответ: 6.78764e+14


In [5]:
print("=" * 60)
print("Квантовая механика — фотоэффект")
print("=" * 60)

task = QuantumTask(task_type="photoelectric", difficulty=5, language="ru", detail_level=5)
task.solve()

print(f"\nЗадача: {task.description}")
print(f"\nШаги решения:")
for i, step in enumerate(task.solution_steps, 1):
    print(f"  {i}. {step}")
print(f"\nОтвет: {task.final_answer}")

Квантовая механика — фотоэффект

Задача: Фотон с частотой 1.604e+15 Гц падает на металл с работой выхода 4.878541197896562 эВ. Найдите кинетическую энергию фотоэлектрона.

Шаги решения:
  1. Шаг 1: Уравнение Эйнштейна для фотоэффекта: hν = A + Eₖ
  2. E_фотона = hν = 6.626e-34 × 1.604e+15 = 1.063e-18 Дж = 6.64 эВ
  3. Eₖ = hν - A = 6.64 - 4.878541197896562 = 1.76 эВ

Ответ: 1.7569 эВ


In [6]:
print("=" * 60)
print("Ядерная физика — энергия связи")
print("=" * 60)

task = NuclearTask(task_type="binding_energy", nucleus="He-4", language="ru", detail_level=10)
task.solve()

print(f"\nЗадача: {task.description}")
print(f"\nШаги решения:")
for i, step in enumerate(task.solution_steps, 1):
    print(f"  {i}. {step}")
print(f"\nОтвет: {task.final_answer}")

Ядерная физика — энергия связи

Задача: Найдите энергию связи ядра He-4 (A = 4, Z = 2).

Шаги решения:
  1. Шаг 1: Eсв = Δm·c² = [Z·m_p + (A-Z)·m_n - M]·931.5 МэВ
  2. m_теор = 2×1.007276 + 2×1.008665 = 4.031882 а.е.м.
  3. Δm = 4.031882 - 4.002603 = 0.029279 а.е.м.
  4. Eсв = 0.029279 × 931.5 = 27.27 МэВ
  5. Eсв/A = 27.27/4 = 6.82 МэВ/нуклон

Ответ: Eсв = 27.27 МэВ (6.82 МэВ/нуклон)


## 4. Генерация большого датасета

In [7]:
# Генерация 1000 примеров для SFT обучения
generator = DatasetGenerator(output_dir="datasets")

dataset = generator.generate_sft_dataset(
    task_types=None,  # Все типы задач
    num_samples=1000,
    language="ru",
    difficulties=[3, 5, 7, 9],  # Средняя и высокая сложность
)

# Разделение на train/eval
train, eval = generator.split_dataset(dataset, train_ratio=0.9)

print(f"Train: {len(train)} примеров")
print(f"Eval: {len(eval)} примеров")

Train: 854 примеров
Eval: 95 примеров


In [8]:
# Сохранение в JSONL формате
generator.save_jsonl(train, "train.jsonl")
generator.save_jsonl(eval, "eval.jsonl")

print("\nФайлы сохранены! Готово для SFT обучения.")

Сохранено 854 примеров в datasets/train.jsonl
Сохранено 95 примеров в datasets/eval.jsonl

Файлы сохранены! Готово для SFT обучения.


## 5. Chat формат (для Llama/ChatML)

In [9]:
# Генерация в chat формате
chat_data = generator.generate_chat_dataset(
    task_types=["quantum", "kinematics"],
    num_samples=10,
    language="ru"
)

print("Chat формат:")
print(chat_data[0])

Chat формат:
{'messages': [{'role': 'user', 'content': 'Решите задачу пошагово, объясняя каждый шаг рассуждения.\n\nФотон с длиной волны 5.387e-08 м рассеивается на свободном электроне под углом 180°. Найдите изменение длины волны.'}, {'role': 'assistant', 'content': "Шаг 1: Формула Комптона: Δλ = λc(1 - cos θ), где λc = h/(m_e·c)\nλc = h/(m_e·c) = 2.426e-12 м\nΔλ = λc(1 - cos 180°) = 4.853e-12 м\nλ' = λ + Δλ = 5.388e-08 м\n\nОтвет: Δλ = 4.853e-12 м"}], 'metadata': {'task_type': 'quantum', 'difficulty': 4, 'language': 'ru'}}


## 6. Статистика датасета

In [10]:
from collections import Counter

# Распределение по типам задач
task_counts = Counter(item['metadata']['task_type'] for item in dataset)

print("Распределение по типам задач:")
for task_type, count in sorted(task_counts.items(), key=lambda x: -x[1])[:10]:
    print(f"  {task_type}: {count}")

# Распределение по сложности
diff_counts = Counter(item['metadata']['difficulty'] for item in dataset)
print("\nРаспределение по сложности:")
for diff, count in sorted(diff_counts.items()):
    print(f"  Сложность {diff}: {count}")

Распределение по типам задач:
  statistics: 19
  heat_transfer: 19
  sequence: 19
  nuclear: 19
  group_theory: 19
  dynamics: 19
  inequality: 19
  cubic: 19
  optics: 19
  oscillations: 19

Распределение по сложности:
  Сложность 3: 246
  Сложность 5: 259
  Сложность 7: 236
  Сложность 9: 208
