In [None]:
# -*- coding: utf-8 -*-
from unsloth import FastLanguageModel
import json
import re
import torch
from peft import PeftModel
from datasets import load_dataset
from tqdm import tqdm
from transformers import TextStreamer, GenerationConfig

class InferenceModelLoader:
    def __init__(self, base_model_name, lora_adapter_path, load_in_4bit=True):
        self.base_model_name = base_model_name
        self.lora_adapter_path = lora_adapter_path
        self.load_in_4bit = load_in_4bit
        self.model = None
        self.tokenizer = None
        self._load_model()

    def _load_model(self):
        print("Загрузка базовой модели...")
        model, tokenizer = FastLanguageModel.from_pretrained(
            model_name=self.base_model_name,
            max_seq_length=2047,
            dtype=None,
            load_in_4bit=self.load_in_4bit,
        )

        print(f"Применение LoRA-адаптера из '{self.lora_adapter_path}'...")
        self.model = PeftModel.from_pretrained(model, self.lora_adapter_path)
        self.tokenizer = tokenizer

        print("Подготовка модели для инференса...")
        FastLanguageModel.for_inference(self.model)
        self.model.eval()
        torch.set_grad_enabled(False)
        if self.tokenizer.pad_token is None:
            self.tokenizer.pad_token = self.tokenizer.eos_token
        self.tokenizer.padding_side = "left"
        self.model.config.pad_token_id = self.tokenizer.pad_token_id


class DatasetProcessor:
    def __init__(self, dataset_path, qdrant_url = "https://a8e5d73e-0e72-4f33-bb7e-b5a8ea2a44ed.europe-west3-0.gcp.cloud.qdrant.io", qdrant_api_key="eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJhY2Nlc3MiOiJtIn0.amfoIHUvKV1c5vpcpDSajp3kJKMTws9qaF1m9iHio9I",
                 collection_name="ru_wiki_passages_test", embed_model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"):
        self.dataset_path = dataset_path
        self.qdrant = QdrantClient(url=qdrant_url, api_key=qdrant_api_key)
        self.collection_name = collection_name
        self.embed_model = SentenceTransformer(embed_model_name)

    def load_and_prepare_data(self):
        print(f"Загрузка и подготовка данных из '{self.dataset_path}'...")
        dataset = load_dataset("json", data_files=self.dataset_path, split="train")
        dataset = dataset.filter(lambda example: 'ground_truth_answer' in example and example['ground_truth_answer'] is not None)
        dataset = dataset.map(self.build_prompt)
        return dataset

    def retrieve_context(self, query, top_k=5):
        query_vector = self.embed_model.encode(query).tolist()
        search_result = self.qdrant.search(
            collection_name=self.collection_name,
            query_vector=query_vector,
            limit=top_k,
        )
        passages = [hit.payload.get("text", "") for hit in search_result]
        return "\n".join(passages)

    def build_prompt(self, sample):
        question = sample.get("original_question")
        retrieved_context = self.retrieve_context(question)

        prompt_template = (
            f"Инструкция для эксперта-аналитика**\n"
            f"Тема: '{sample.get('subject', sample.get('domain', ''))}'.\n"
            f"Контекст из базы знаний:\n{retrieved_context}\n\n"
            f"Ваша задача — выполнить строгий логический анализ предоставленной задачи. Следуйте этому алгоритму:\n"
            f"1.  **Анализ Задачи: Кратко определите основной вопрос и какой логический или математический принцип нужно применить.\n"
            f"2.  Пошаговая Оценка Вариантов: Систематически рассмотрите КАЖДЫЙ вариант ответа (A, B, C, D). Для каждого варианта предоставьте четкое и лаконичное объяснение, почему он является верным или неверным в контексте задачи.\n"
            f"3.  Синтез и Вывод: На основе пошагового анализа, сделайте окончательный вывод и выберите единственно правильный ответ.\n\n"
            f"Формат вывода**\n"
            f"Ваш ответ ДОЛЖЕН СТРОГО соответствовать формату ниже, без лишних вступлений или заключений:\n"
            f"**Рассуждение:**\n"
            f"[Здесь ваш детальный анализ по шагам 1-3]\n"
            f"**Ответ: [Здесь ОДНА буква: A, B, C или D]\n\n"
            f"---"
            f"**Задача для анализа:**\n"
            f"{question}\n\n"
            f"**Рассуждение:**\n"
        )
        return {
            "prompt": prompt_template,
            "original_question": question
        }


In [None]:
class ModelEvaluator:
    def __init__(self, model_loader, data_processor, batch_size=8, output_path="evaluation_results.jsonl"):
        self.model_loader = model_loader
        self.data_processor = data_processor
        self.stats = {"correct": 0, "incorrect": 0, "no_answer": 0}
        self.batch_size = batch_size
        self.output_path = output_path

    @staticmethod
    def extract_answer(generated_text):
        match = re.search(r"\*\*Ответ:\s*([A-D])", generated_text, re.IGNORECASE)
        return match.group(1).upper() if match else None

    @staticmethod
    def extract_reasoning(generated_text):
        match = re.search(r"\*\*Ответ:", generated_text, re.IGNORECASE)
        if match:
            return generated_text[:match.start()].strip()
        return generated_text.strip()

    def run(self, verbose=False):
        model = self.model_loader.model
        tokenizer = self.model_loader.tokenizer
        dataset = self.data_processor.load_and_prepare_data()

        with open(self.output_path, 'w', encoding='utf-8') as log_file:
            print(f"Результаты будут сохранены в: {self.output_path}")
            progress_bar = tqdm(dataset.iter(batch_size=self.batch_size), desc="Оценка модели", total=len(dataset) // self.batch_size)

            for batch in progress_bar:
                messages_batch = batch["messages"]

                chat_templates = [
                    tokenizer.apply_chat_template(msg, tokenize=False, add_generation_prompt=True)
                    for msg in messages_batch
                ]

                encoded = tokenizer(
                    chat_templates,
                    return_tensors="pt",
                    padding=True,
                    truncation=True,
                    max_length=2047,
                    return_attention_mask=True
                )

                input_ids = encoded["input_ids"].to("cuda")
                attention_mask = encoded["attention_mask"].to("cuda")

                # with torch.no_grad():
                outputs = model.generate(
                    input_ids=input_ids,
                    attention_mask=attention_mask,
                    max_new_tokens=2047,
                    use_cache=True,
                    do_sample=False,
                    eos_token_id=tokenizer.pad_token_id,
                    repetition_penalty=1.0
                )

                generated_texts = tokenizer.batch_decode(outputs[:, input_ids.shape[1]:], skip_special_tokens=True)

                for i in range(len(generated_texts)):
                    ground_truth = batch['model_answer'][i]
                    full_generated_text = generated_texts[i]
                    model_answer = self.extract_answer(full_generated_text)
                    model_reasoning = self.extract_reasoning(full_generated_text)

                    if model_answer is None:
                        self.stats["no_answer"] += 1
                        result = "NO_ANSWER"
                    elif model_answer == ground_truth:
                        self.stats["correct"] += 1
                        result = "CORRECT"
                    else:
                        self.stats["incorrect"] += 1
                        result = "INCORRECT"

                    log_entry = {
                        "id": batch.get('id', ['N/A']*len(generated_texts))[i],
                        "original_question": batch['original_question'][i],
                        "ground_truth": ground_truth,
                        "model_reasoning": model_reasoning,
                        "model_answer": model_answer,
                        "result": result,
                        "full_generated_text": full_generated_text
                    }
                    log_file.write(json.dumps(log_entry, ensure_ascii=False) + '\n')

                progress_bar.set_postfix({
                    '✅': self.stats['correct'],
                    '❌': self.stats['incorrect'],
                    '❓': self.stats['no_answer']
                })

        self.print_summary()


    def print_summary(self):
        total = sum(self.stats.values())
        if total == 0:
            print("Не было обработано ни одного сэмпла.")
            return

        print("\n" + "#" * 20 + " Итоги оценки " + "#" * 20)
        print(f"Всего обработано: {total}")
        print(f"✅ Верных: {self.stats['correct']} ({self.stats['correct']/total:.2%})")
        print(f"❌ Неверных: {self.stats['incorrect']} ({self.stats['incorrect']/total:.2%})")
        print(f"❓ Без ответа: {self.stats['no_answer']} ({self.stats['no_answer']/total:.2%})")
        print(f"Результаты в: {self.output_path}")
        print("#" * 60)


if __name__ == "__main__":
    BASE_MODEL_NAME = ""
    ADAPTER_PATH = ""
    DATASET_PATH = ""
    OUTPUT_LOG_PATH = ""
    BATCH_SIZE = 4

    try:
        model_loader = InferenceModelLoader(BASE_MODEL_NAME, ADAPTER_PATH)
        data_processor = DatasetProcessor(DATASET_PATH)
        evaluator = ModelEvaluator(model_loader, data_processor, batch_size=BATCH_SIZE, output_path=OUTPUT_LOG_PATH)
        evaluator.run(verbose=False)

    except Exception as e:
        import traceback
        print(f"Ошибка: {e}")
        traceback.print_exc()
        print("Проверьте пути, LoRA и BATCH_SIZE. При ошибке CUDA OOM — уменьшите батч.")
