In [1]:
!pip install -qU transformers peft accelerate trl datasets torch huggingface_hub

In [2]:
from huggingface_hub import login

hf_token = "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"
login(hf_token) 

In [3]:
from accelerate import Accelerator

# Инициализируем Accelerator для CPU
accelerator = Accelerator()

In [4]:
from datasets import load_dataset

# Загружаем датасет SberQuAD
dataset = load_dataset("sberquad", split='train') # Используйте нужный вам сплит

# (Опционально) Разделите на обучающую и валидационную выборки, если нужно
# dataset = dataset.train_test_split(test_size=0.1)
# train_dataset = dataset["train"]
# eval_dataset = dataset["test"]

print(dataset)

  

Dataset({
    features: ['id', 'title', 'context', 'question', 'answers'],
    num_rows: 45328
})


In [5]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

model_id = "microsoft/Phi-3-mini-128k-instruct"

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=bnb_config,
    trust_remote_code=True,
    device_map="auto"
)

tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
# Для Phi-3 рекомендуется использовать padding_side='left' при обучении
tokenizer.padding_side = 'left'

`flash-attention` package not found, consider installing for better performance: No module named 'flash_attn'.
Current `flash-attention` does not support `window_size`. Either upgrade or use `attn_implementation='eager'`.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [6]:
# ==============================================================================
# Шаг 3: Создание синтетического датасета в формате JSON
# ==============================================================================
import json
import random
from datasets import load_dataset

# Загружаем SberQuAD
dataset = load_dataset("sberquad", split='train')

# Для скорости разработки возьмем небольшой срез. Для полноценного обучения используйте весь датасет.
dataset = dataset.select(range(5000))

# Функция для создания 4 неправильных ответов (дистракторов)
def generate_distractors(context, correct_answer):
    # Простой, но эффективный метод: берем случайные предложения из контекста,
    # которые не содержат правильный ответ.
    sentences = context.split('.')
    distractors = []
    for sent in sentences:
        if correct_answer not in sent and len(sent.strip()) > 0:
            distractors.append(sent.strip())

    # Если предложений мало, просто добавим "неверный ответ"
    while len(distractors) < 4:
        distractors.append("Это заведомо неверный вариант ответа.")

    # Перемешиваем и берем 4 уникальных
    random.shuffle(distractors)
    return list(set(distractors))[:4]


# Функция для форматирования данных в целевой JSON и создания промпта
def format_data_for_training(sample):
    context = sample['context']
    question_text = sample['question']
    # SberQuAD дает ответ в виде списка, берем первый
    correct_answer_text = sample['answers']['text'][0]

    # 1. Создаем 4 неправильных ответа
    distractors = generate_distractors(context, correct_answer_text)

    # 2. Формируем список ответов
    answers = []
    answers.append({"text": correct_answer_text, "is_correct": True})
    for distractor in distractors:
        answers.append({"text": distractor, "is_correct": False})

    # 3. Перемешиваем варианты ответов! Это КРИТИЧЕСКИ ВАЖНО.
    # Иначе модель выучит, что правильный ответ всегда первый.
    random.shuffle(answers)

    # 4. Собираем финальный JSON-объект
    json_output = {
        "questions": [
            {
                "question": question_text,
                "answers": answers
            }
        ]
    }

    # 5. Создаем полный промпт для обучения
    # Модель должна научиться по контексту генерировать JSON
    prompt = f"""<|user|>
Ты — интеллектуальная система, которая должна генерировать JSON-объект с вопросами и ответами строго по тексту. Каждый вопрос должен содержать пять вариантов ответов, среди которых только один правильный.
Не добавляй никакого дополнительного текста кроме json.

Контекст:
{context}<|end|>
<|assistant|>
{json.dumps(json_output, ensure_ascii=False, indent=4)}<|end|>"""
    
    # Токенизация
    result = tokenizer(
        prompt,
        truncation=True,
        max_length=2048, # Увеличим max_length для сложных JSON
        padding="max_length",
    )
    result["labels"] = result["input_ids"].copy()
    return result

# Применяем форматирование ко всему датасету
tokenized_dataset = dataset.map(format_data_for_training)

# Разделяем на train/eval
tokenized_dataset = tokenized_dataset.train_test_split(test_size=0.1)
train_dataset = tokenized_dataset["train"]
eval_dataset = tokenized_dataset["test"]

In [7]:
# ==============================================================================
# Шаг 4: Настройка LoRA-адаптера (без изменений)
# ==============================================================================
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training

model.gradient_checkpointing_enable()
model = prepare_model_for_kbit_training(model)

config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["qkv_proj", "o_proj", "gate_up_proj", "down_proj"],
    bias="none",
    lora_dropout=0.05,
    task_type="CAUSAL_LM",
)

model = get_peft_model(model, config)
# (опционально) посмотреть, сколько параметров обучается
# print_trainable_parameters(model)

The 8-bit optimizer is not available on your device, only available on CUDA for now.


In [9]:
# ==============================================================================
# Шаг 5: Запуск обучения (без изменений)
# ==============================================================================
import transformers

output_dir = "./phi3-direct-json-converter"

trainer = transformers.Trainer(
    model=model,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    args=transformers.TrainingArguments(
        output_dir=output_dir,
        per_device_train_batch_size=1,
        gradient_accumulation_steps=4,
        max_steps=100,
        learning_rate=2e-4,
    
        # --- ИЗМЕНЕНИЯ ДЛЯ CPU ---
        optim="adamw_torch",
        bf16=False,
        fp16=False,
        # ------------------------
    
        logging_steps=10,
        save_steps=50,                # <-- Оставляем, это работает в старых версиях
        eval_steps=50,                # <-- Оставляем, это тоже работает
        do_eval=True,                 # <-- Явно включаем оценку
    ),
    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False),
)
model.config.use_cache = False
trainer.train()

You are not running the flash-attention implementation, expect numerical differences.


Step,Training Loss
10,1.3469
20,1.2977
30,1.3407
40,1.2926
50,1.289
60,1.2186
70,1.2649
80,1.2296
90,1.2526
100,1.199


TrainOutput(global_step=100, training_loss=1.273168420791626, metrics={'train_runtime': 39180.1474, 'train_samples_per_second': 0.01, 'train_steps_per_second': 0.003, 'total_flos': 1.84209150836736e+16, 'train_loss': 1.273168420791626, 'epoch': 0.08888888888888889})

In [12]:
print("Сохранение финальной модели...")
trainer.save_model() 
print("Модель успешно сохранена.")

Сохранение финальной модели...
Модель успешно сохранена.


In [15]:
# ==============================================================================
# Шаг 6: Проверка работы новой модели-конвертера
# ==============================================================================
# Рекомендуется перезапустить ядро для освобождения VRAM

import torch
from peft import PeftModel
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
import json

# --- Загружаем базовую модель ---
base_model_id = "microsoft/Phi-3-mini-128k-instruct"
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True, 
    bnb_4bit_use_double_quant=True, 
    bnb_4bit_quant_type="nf4", 
    bnb_4bit_compute_dtype=torch.bfloat16
)

base_model = AutoModelForCausalLM.from_pretrained(
    base_model_id, 
    quantization_config=bnb_config, 
    trust_remote_code=True, 
    device_map="auto",
    attn_implementation="eager"
)
base_model.config.use_cache = False

tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True)
tokenizer.padding_side = 'left'
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token


# --- Загружаем наш LoRA-адаптер из корневой папки вывода ---
adapter_path = "./phi3-direct-json-converter" 
ft_model = PeftModel.from_pretrained(base_model, adapter_path)

# --- Запускаем инференс ---
test_context = """В 1831 году Майкл Фарадей открыл электромагнитную индукцию — явление возникновения электрического тока в замкнутом контуре при изменении магнитного потока, проходящего через него. Это открытие легло в основу работы большинства современных электрогенераторов и трансформаторов."""

eval_prompt = f"""<|user|>
Ты — интеллектуальная система, которая должна генерировать JSON-объект с вопросами и ответами строго по тексту. Каждый вопрос должен содержать пять вариантов ответов, среди которых только один правильный.
Не добавляй никакого дополнительного текста кроме json.

Контекст:
{test_context}<|end|>
<|assistant|>
"""

device = "cuda" if torch.cuda.is_available() else "cpu"
model_input = tokenizer(eval_prompt, return_tensors="pt").to(device)

ft_model.eval()
with torch.no_grad():
    # Генерируем ответ
    output_ids = ft_model.generate(
        **model_input,
        max_new_tokens=512,
        eos_token_id=tokenizer.eos_token_id,
        pad_token_id=tokenizer.pad_token_id,
        temperature=0.1,
        do_sample=True,
    )[0]

    # Декодируем только сгенерированную часть
    response_text = tokenizer.decode(output_ids[model_input.input_ids.shape[1]:], skip_special_tokens=True).strip()
    
    print("--- Сырой вывод модели ---")
    print(response_text)
    
    print("\n--- Проверка валидности JSON ---")
    try:
        json_part = response_text[response_text.find('{'):response_text.rfind('}')+1]
        parsed_json = json.loads(json_part)
        print("JSON валиден!")
        print(json.dumps(parsed_json, indent=4, ensure_ascii=False))
    except json.JSONDecodeError as e:
        print(f"Ошибка: Модель сгенерировала невалидный JSON. {e}")
    except Exception as e:
        print(f"Произошла неожиданная ошибка при парсинге: {e}")

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

AttributeError: 'DynamicCache' object has no attribute 'seen_tokens'