In [1]:
!pip install -q -U llama-cpp-python huggingface-hub torch datasets

In [2]:
import os
hf_token = "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"
from huggingface_hub import login
login(hf_token)

In [3]:
import re
import random
from datasets import load_dataset, DatasetDict
from huggingface_hub import hf_hub_download
from llama_cpp import Llama


In [None]:
# --- 1. ЗАГРУЗКА И ИНИЦИАЛИЗАЦИЯ МОДЕЛИ (GGUF) ---

from llama_cpp import Llama

llm = Llama.from_pretrained(
    repo_id="unsloth/gemma-3-27b-it-GGUF",
	filename="gemma-3-27b-it-Q8_0.gguf",
    n_ctx=8192,
    n_threads=16,  # Измените это значение в соответствии с вашим CPU
    n_gpu_layers=0
)
print("Модель Llama.cpp успешно инициализирована.")

./gemma-3-27b-it-Q8_0.gguf:   0%|          | 0.00/28.7G [00:00<?, ?B/s]

  [2m2025-09-18T20:52:59.159915Z[0m [33m WARN[0m  [33mReqwest(reqwest::Error { kind: Request, url: "https://transfer.xethub.hf.co/xorbs/default/f90fdadafe1c3e79b53659e37cbe66c40bc157705626699ff04d3e9ff22233d9?X-Xet-Signed-Range=bytes%3D17911268-66800304&X-Xet-Session-Id=01K5F9KWS98BCXQP4DTCPJHMEA&Expires=1758232374&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly90cmFuc2Zlci54ZXRodWIuaGYuY28veG9yYnMvZGVmYXVsdC9mOTBmZGFkYWZlMWMzZTc5YjUzNjU5ZTM3Y2JlNjZjNDBiYzE1NzcwNTYyNjY5OWZmMDRkM2U5ZmYyMjIzM2Q5P1gtWGV0LVNpZ25lZC1SYW5nZT1ieXRlcyUzRDE3OTExMjY4LTY2ODAwMzA0JlgtWGV0LVNlc3Npb24tSWQ9MDFLNUY5S1dTOThCQ1hRUDREVENQSkhNRUEiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE3NTgyMzIzNzR9fX1dfQ__&Signature=L5Bg-u1ztFiFwne~eTl~wNwCD4Vp1V8-n3aLL1FjU9KlxgbvugnBmlkzJSK2zHCwUEtNJJBknFVx96AVtDa4Jn7cz3VCBJJ0JbTRj4-NFh5we-Kc7wBE6YB15T1BB~oi3bCyTv21K47KtjAAIN50Lg0-YWDtciCC0tvvSzlkfAlqhTCmUMgYOawfr1tsWfZ-gdkdAeKZ9074TKDojtd0SQYxGz7p0ZLoWs~hFZ12wDowPAlpHoadQMB4fHgqRVRL4FOOMFsr4e4ISYQ8vGv~

In [None]:
# --- 2. ВСПОМОГАТЕЛЬНЫЕ ФУНКЦИИ ---

def generate_distractors(context: str, correct_answer: str) -> str:
    """
    Генерирует дистракторы с помощью загруженной GGUF-модели.
    """
    # Промпт, адаптированный под формат инструкций Mistral
    prompt = f"""Задача: Сгенерировать 4 неверных, но правдоподобных варианта ответа (дистрактора) для тестового задания.
    Требования к дистракторам:Правдоподобные: Основаны на частых ошибках, не абсурдны.Релевантные: Тематически связаны с контекстом.Однородные: Сопоставимы с правильным ответом по стилю, длине и структуре.Уникальные: Не пересекаются по смыслу.
    Запрещено:Фразы вроде "Неверный ответ", "Некорректная информация".Абсолютные утверждения ("всегда", "никогда").Варианты "Всё вышеперечисленное" или "Ничего из вышеперечисленного".
    Формат ответа: Только список Python из 4 строк.
    Пример вывода:
    ["Вариант 1", "Вариант 2", "Вариант 3", "Вариант 4"]
    Контекст: {context}
    Правильный ответ: {correct_answer}
    """

    # Для моделей типа "Instruct" важно обернуть запрос в специальные теги
    full_prompt = f"[INST] {prompt} [/INST]"

    # Вызов модели
    response = llm(
        full_prompt,
        max_tokens=512,      # Максимальное количество токенов для генерации
        temperature=0.7,     # Температура сэмплирования
        top_p=0.95,          # Ядерное сэмплирование
        stop=["</s>", "INST"], # Останавливаем генерацию на этих токенах
        echo=False           # Не включать промпт в ответ
    )

    return response['choices'][0]['text']

def extract_distractors(response_text: str) -> list:
    """
    Извлекает список дистракторов из текстового ответа модели.
    """
    # Ищем список в формате ["...", "..."]
    match = re.search(r'\[(.*?)\]', response_text)
    if match:
        try:
            # Пытаемся безопасно распарсить найденную строку как список
            distractors_str = match.group(1)
            distractors = [d.strip().strip('"\'') for d in distractors_str.split(',')]
            return [d for d in distractors if d] # Убираем пустые строки
        except:
            pass # Если парсинг не удался, переходим к запасному варианту
            
    # Если не удалось извлечь, возвращаем дефолтные значения
    return [
        "Этот вариант заведомо неверный.",
        "Неправильная информация.",
        "Некорректный ответ.",
        "Ошибочный вариант."
    ]

def format_to_json(sample: dict) -> dict:
    """
    Форматирует один пример из датасета: генерирует дистракторы и структурирует данные.
    """
    context = sample['context']
    question_text = sample['question']
    correct_answer_text = sample['answers']['text'][0]

    # Генерируем дистракторы с помощью модели
    model_response = generate_distractors(context, correct_answer_text)
    distractors = extract_distractors(model_response)
    print(f"Сгенерировано дистракторов: {distractors}") # Для отладки

    # Дополняем до 4 дистракторов, если модель вернула меньше
    while len(distractors) < 4:
        distractors.append(random.choice([
            "Неверный вариант.",
            "Ошибочный ответ."
        ]))

    # Убираем дубликаты и оставляем только 4 дистрактора
    final_distractors = []
    for d in distractors:
        if d not in final_distractors and d != correct_answer_text:
            final_distractors.append(d)
    
    final_distractors = final_distractors[:4]

    # Формируем итоговый список ответов
    answers = [{"text": correct_answer_text, "is_correct": True}]
    for d in final_distractors:
        answers.append({"text": d, "is_correct": False})

    return {
        "context": context,
        "question": question_text,
        "answers": answers
    }

In [None]:

# --- 3. ОБРАБОТКА ДАТАСЕТА ---

print("\nЗагрузка датасета SberQuAD...")
# Используем streaming=True для экономии памяти, если датасет очень большой
dataset = load_dataset("sberquad", split='train')
# Для теста можно ограничить количество примеров:
dataset = dataset.select(range(100)) 

print("Начало обработки датасета...")
# Применяем функцию ко всем примерам. remove_columns удаляет старые, ненужные колонки.
enhanced_dataset = dataset.map(format_to_json, remove_columns=dataset.column_names)

print("Разбиение датасета на обучающую и валидационную выборки...")
# Разбиваем на обучающую и тестовую части
enhanced_dataset_split = enhanced_dataset.train_test_split(test_size=0.1)

# Сохраняем в итоговый объект DatasetDict
final_dataset = DatasetDict({
    "train": enhanced_dataset_split["train"],
    "validation": enhanced_dataset_split["test"]
})

print("\nОбработка завершена!")
print("Структура итогового датасета:")
print(final_dataset)
print("\nПример обработанной записи:")
print(final_dataset["train"][0])

In [None]:
final_dataset.push_to_hub("hacker-niki/collogen-set")