In [None]:
import json
import os
import time
import random
from torch.utils.data import Dataset, DataLoader
from typing import List, Dict, Any, Optional, Tuple
from google.colab import drive
from google import genai
import pandas as pd

In [None]:
drive.mount('/content/drive/')

Mounted at /content/drive/


In [None]:
class QADataset(Dataset):
    def __init__(self, file_path: str):
        """
        Args:
            file_path: Путь к файлу.

        Расшифровка полей (для справки в коде)
        "f": предметная область
        "s": предметная подобласть
        "j": предмет
        "q": вопрос
        "n": ответ модели без контекста
        "v": отклонения ответа (список словарей {"c": контекст, "a": ответ})
        "d": timestamp
        "t": идентификатор сессии
        "model": название модели
        "с": контекст (общий) - русская 'с'
        "e": контрольный ответ
        "m": ответ модели
        "k": флаг сравнения

        """
        self.data_entries: List[Dict[str, Any]] = []
        self.file_path = file_path

        try:
            with open(self.file_path, 'r', encoding='utf-8') as f:
                for line in f:
                    if line.strip():
                        try:
                            self.data_entries.append(json.loads(line.strip()))
                        except json.JSONDecodeError as e:
                            print(f"Ошибка декодирования JSON в строке: {line.strip()}. Ошибка: {e}")

        except FileNotFoundError:
            print(f"Ошибка: Файл {self.file_path} не найден.")
        except Exception as e:
            print(f"Произошла непредвиденная ошибка при чтении файла {self.file_path}: {e}")

    def __len__(self) -> int:
        return len(self.data_entries)

    def __getitem__(self, idx: int) -> Dict[str, Any]:
        raw_item = self.data_entries[idx]

        processed_item = {
            "question": raw_item.get("q"),
            "variations": raw_item.get("v"),
            "field": raw_item.get("f"),
            "subfield": raw_item.get("s"),
            "subject_matter": raw_item.get("j"),
            "timestamp": raw_item.get("d"),
            "model_answer_no_context": raw_item.get("n"),
            "session_id": raw_item.get("t"),
            "model_name": raw_item.get("model"),
            "general_context": raw_item.get("c"),
            "eval_answer": raw_item.get("e"),
            "model_answer_with_context": raw_item.get("m"),
            "comparison_flag": raw_item.get("k"),
        }

        return {k: v for k, v in processed_item.items() if v is not None}

In [None]:
def call_gemini_api(prompt: str, model: str = "gemini-2.0-flash") -> Optional[str]:
    """
    Вызывает Gemini API с заданным промптом и возвращает текстовый ответ.
    """
    try:
        response = gemini_client.models.generate_content(model=model, contents=prompt)
        if response.text:
            return response.text.strip()
        elif response.prompt_feedback and response.prompt_feedback.block_reason:
             print(f"Промпт заблокирован: {response.prompt_feedback.block_reason}")
             return f"BLOCKED: {response.prompt_feedback.block_reason}"
        else:
            print(f"Получен пустой или неожиданный ответ от API: {response}")
            return None
    except Exception as e:
        print(f"Ошибка при вызове Gemini API: {e}")
        return None


In [None]:
def validate_answer_diversity(item: Dict[str, Any]) -> Tuple[bool, str]:
    """
    Аномалия: модель избыточно сужает и отбрасывает варианты,
    разные пары "контекст + ответ" ведут к синонимичным по сути вариантам ответа,
    хотя разные контексты должны были бы приводить к семантически разным ответам.
    Эта функция оценивает, насколько ответы, сгенерированные для разных контекстов
    на один и тот же вопрос, действительно различаются по смыслу.
    """
    question = item.get("question")
    variations = item.get("v")  # {"c": context, "a": answer}

    if not question or not variations:
        return False, "Недостаточно данных: отсутствует вопрос или список вариаций (поле 'v')."

    context_answer_pairs = []
    for var in variations:
        context = var.get("c")
        answer = var.get("a")

        if answer is not None:

            display_context = context if context and str(context).strip() else "Общий/не указан"
            context_answer_pairs.append({"context": display_context, "answer": str(answer)})

    if len(context_answer_pairs) < 2:
        return False, "Недостаточно валидных пар 'контекст-ответ' (минимум 2) для проверки дифференциации."


    pairs_formatted_for_prompt = []
    for i, pair in enumerate(context_answer_pairs):
        pairs_formatted_for_prompt.append(
            f"Пара {i+1}:\n  Контекст: \"{pair['context']}\"\n  Ответ: \"{pair['answer']}\""
        )
    formatted_pairs_string = "\n\n".join(pairs_formatted_for_prompt)

    prompt = f"""
Ты — эксперт по оценке качества QA-датасетов.
Твоя задача — оценить, приводят ли РАЗНЫЕ КОНТЕКСТЫ к СЕМАНТИЧЕСКИ РАЗНЫМ ответам на один и тот же вопрос.

Аномалия ("ANOMALY") возникает, если модель для различных предоставленных контекстов даёт ответы,
которые по своей сути являются синонимами, очень близкими по смыслу или лишь незначительными перефразировками одной и той же идеи,
В ТО ВРЕМЯ КАК РАЗЛИЧНЫЕ КОНТЕКСТЫ ДОЛЖНЫ БЫЛИ БЫ ПРИВЕСТИ К БОЛЕЕ СУЩЕСТВЕННО ОТЛИЧАЮЩИМСЯ АСПЕКТАМ ОТВЕТА ИЛИ РАЗНЫМ ОТВЕТАМ ПО СМЫСЛУ.
То есть, модель не смогла достаточно дифференцировать свои ответы на основе предоставленных различных контекстов, хотя должна была.

Если ответы действительно семантически разные и адекватно отражают нюансы, привнесенные разными контекстами, то это "OK".

Проанализируй следующий вопрос и предоставленные пары "контекст-ответ":

Вопрос: "{question}"

Предоставленные пары "контекст-ответ":
{formatted_pairs_string}

Задание:
Оцени, являются ли ответы в этих парах избыточно похожими/синонимичными по СМЫСЛУ, УЧИТЫВАЯ ИХ КОНТЕКСТЫ.

Пример АНОМАЛИИ (один из контекстов общий, другой специфичный, но ответы почти идентичны):
Вопрос: "Каковы преимущества использования солнечной энергии?"
Предоставленные пары "контекст-ответ":
Пара 1:
  Контекст: "Общий/не указан"
  Ответ: "Снижение выбросов углекислого газа"
Пара 2:
  Контекст: "Для частных домовладений"
  Ответ: "Уменьшение углеродного следа домохозяйства"
(Это ANOMALY, так как второй ответ является лишь конкретизацией первого без добавления нового смысла, специфичного для частных домовладений, например, "снижение счетов за электричество" или "энергетическая независимость".)

Пример ОТСУТСТВИЯ аномалии (контексты близкие, ответы ожидаемо близкие):
Вопрос: "Как приготовить кофе?"
Предоставленные пары "контекст-ответ":
Пара 1:
  Контекст: "Используя турку"
  Ответ: "Залить молотый кофе водой в турке и довести до кипения, не давая убежать."
Пара 2:
  Контекст: "В капсульной кофемашине"
  Ответ: "Поместить капсулу в кофемашину, подождать приготовления"
(Это OK, так как ответы на разные контексты принципиально разные.)

Является ли это аномалией (недостаток смысловой дифференциации ответов при разных контекстах)?
Ответь ОДНИМ СЛОВОМ: 'ANOMALY' или 'OK'.
"""
    response_text = call_gemini_api(prompt)
    processed_response = response_text.strip().upper() if response_text else ""

    if processed_response == "ANOMALY":
        return True, f"Обнаружена аномалия недостатка смысловой дифференциации ответов. Ответ LLM: {response_text}"
    elif processed_response == "OK":
        return False, f"Аномалия недостатка смысловой дифференциации ответов не обнаружена. Ответ LLM: {response_text}"
    else:
        return False, f"Не удалось однозначно определить аномалию. Ответ LLM: '{response_text}'. Ожидался 'ANOMALY' или 'OK'."

In [None]:
def validate_answer_uniqueness_in_context(item: Dict[str, Any]) -> List[Tuple[bool, str, str, str]]:
    """
    Аномалия: существуют верные альтернативы ответа (не один вариант ответа)
    в рамках выбранной альтернативы контекста.
    Проверяет каждую пару "вопрос + контекст из variations", должна вести к однозначному ответу.
    Возвращает список кортежей (is_anomaly, context, answer, llm_reason) для каждой вариации.
    """
    question = item.get("question")
    variations = item.get("variations")

    if not question or not variations:
        return [(False, "N/A", "N/A", "Недостаточно данных для проверки (нужен вопрос и 'variations')")]

    results = []
    for var in variations:
        context = var.get("c")
        answer = var.get("a")

        if not context or not answer:
            results.append((False, str(context)[:50]+"...", str(answer)[:50]+"...", "Пропущено: отсутствует контекст или ответ в вариации"))
            continue

        prompt = f"""
Ты — эксперт по оценке качества QA-датасетов.
Проанализируй следующий вопрос, контекст и предложенный ответ.

Контекст: "{context}"
Вопрос: "{question}"
Предложенный ответ: "{answer}"

Задание: Оцени, ведет ли данная пара "Вопрос + Контекст" к единственно возможному правильному ответу (или его очень близкому перефразированию),
или же в рамках ДАННОГО КОНКРЕТНОГО КОНТЕКСТА и ДАННОГО ВОПРОСА существуют другие *существенно отличающиеся* верные ответы,
которые не являются просто синонимами или перефразировками "Предложенного ответа".

Пример аномалии:
Контекст: "В саду росли яблоки, груши и сливы."
Вопрос: "Какой фрукт рос в саду?"
Предложенный ответ: "Яблоки"
(Это аномалия, так как "Груши" и "Сливы" также верные и существенно отличающиеся ответы в рамках данного контекста).

Пример отсутствия аномалии:
Контекст: "Столица Франции - Париж."
Вопрос: "Какой город является столицей Франции?"
Предложенный ответ: "Париж"
(Это OK, ответ однозначен в данном контексте).

Существуют ли другие *существенно отличающиеся* верные ответы для данной пары "Вопрос + Контекст", помимо "Предложенного ответа"?
Ответь ОДНИМ СЛОВОМ: 'ANOMALY' (если да, существуют другие) или 'OK' (если ответ достаточно однозначен).
"""
        response_text = call_gemini_api(prompt)

        is_anomaly_detected = False
        reason = f"Ответ LLM: {response_text}"

        if response_text and "ANOMALY" in response_text.upper():
            is_anomaly_detected = True
            reason = f"Обнаружена аномалия множественности ответов. {reason}"
        elif response_text and "OK" in response_text.upper():
            reason = f"Аномалия множественности ответов не обнаружена. {reason}"
        else:
            reason = f"Не удалось определить аномалию множественности ответов. {reason}"

        results.append((is_anomaly_detected, str(context)[:100]+"...", str(answer)[:100]+"...", reason))
    return results

In [None]:
gemini_client = genai.Client(api_key="AIzaSyBi8ji9Mok576NY7UHTV23rDadSBVRWeW0")
file_path = "/content/drive/MyDrive/pract/questions_data_en.jsonl"
dataset = QADataset(file_path=file_path)
num_samples_to_check = 4
indices_to_check = random.sample(range(len(dataset)), k=num_samples_to_check)

diversity_results_data = []
uniqueness_results_data = []

In [None]:
for i in range(num_samples_to_check):

    original_idx = indices_to_check[i]
    sample = dataset[original_idx]
    question = sample.get("question", "N/A")
    variations = sample.get("variations", [])

    # Аномалия: модель избыточно сужает и отбрасывает варианты.
    is_diversity_anomaly, diversity_reason = validate_answer_diversity(sample)
    diversity_results_data.append({
        "dataset_idx": original_idx,
        "question": question,
        "llm_reason": diversity_reason,
        "answers_evaluated": [v.get("a") for v in variations if v.get("a")],
        "is_anomaly": is_diversity_anomaly
    })

    time.sleep(20)

    # Аномалия: существуют верные альтернативы ответа (не один вариант ответа) в рамках выбранной альтернативы контекста.
    uniqueness_validation_output = validate_answer_uniqueness_in_context(sample)
    time.sleep(20)

    for var_idx, (is_uniqueness_anomaly, context_str, answer_str, uniqueness_reason) in enumerate(uniqueness_validation_output):

        current_variation = variations[var_idx] if var_idx < len(variations) else {}
        full_context = current_variation.get("c", context_str)
        full_answer = current_variation.get("a", answer_str)

        uniqueness_results_data.append({
            "dataset_idx": original_idx,
            "variation_idx": var_idx,
            "question": question,
            "context": full_context,
            "answer": full_answer,
            "llm_reason": uniqueness_reason,
            "is_anomaly": is_uniqueness_anomaly
        })


In [None]:
df_diversity_validation = pd.DataFrame(diversity_results_data)
df_uniqueness_validation = pd.DataFrame(uniqueness_results_data)

In [None]:
print("--- Результаты валидации: Аномалия недостатка разнообразия ---")
df_diversity_validation.head(20)

--- Результаты валидации: Аномалия недостатка разнообразия ---


Unnamed: 0,dataset_idx,question,llm_reason,answers_evaluated,is_anomaly
0,4691,What is a common feature of GMO labeling?,Аномалия недостатка разнообразия не обнаружена...,"[Optional, Required]",False
1,4768,What is the main method of GMO regulation in t...,Обнаружена аномалия недостатка разнообразия. О...,"[Strict, Flexible]",True
2,2021,Which service is known for video conferencing?,Аномалия недостатка разнообразия не обнаружена...,"[Zoom, Google Meet]",False
3,443,Is the coastline paradox related to fractals?,Обнаружена аномалия недостатка разнообразия. О...,"[Yes, Yes]",True
4,2599,What is the role of symmetry in determining cr...,Обнаружена аномалия недостатка разнообразия. О...,"[Simple, Complex]",True
5,4059,Which habitat type is highly vulnerable to cli...,Аномалия недостатка разнообразия не обнаружена...,"[Mangroves, Alpine zones]",False
6,694,What is the product of the first 3 positive in...,Обнаружена аномалия недостатка разнообразия. О...,"[6, 6]",True
7,4088,What is the effect of ocean acidification on m...,Аномалия недостатка разнообразия не обнаружена...,"[Decrease, Increase]",False
8,2761,Which type of seismic wave arrives first at a ...,Аномалия недостатка разнообразия не обнаружена...,"[P-wave, Rayleigh]",False
9,1997,Which protocol is primarily used for secure we...,Обнаружена аномалия недостатка разнообразия. О...,"[HTTPS, HTTP]",True


In [None]:
from google.colab import sheets
sheet = sheets.InteractiveSheet(df=df_diversity_validation)

https://docs.google.com/spreadsheets/d/1iPt6GajYoElLraFnILXUJD_cPtJrWy7z1LEpNXg8SV8/edit#gid=0


In [None]:
print("\n--- Результаты валидации: Аномалия множественности ответов в контексте ---")
df_uniqueness_validation.head(40)


--- Результаты валидации: Аномалия множественности ответов в контексте ---


Unnamed: 0,dataset_idx,variation_idx,question,context,answer,llm_reason,is_anomaly
0,4691,0,What is a common feature of GMO labeling?,Voluntary,Optional,Аномалия множественности ответов не обнаружена...,False
1,4691,1,What is a common feature of GMO labeling?,Mandatory,Required,Аномалия множественности ответов не обнаружена...,False
2,4768,0,What is the main method of GMO regulation in t...,Precautionary principle,Strict,Обнаружена аномалия множественности ответов. О...,True
3,4768,1,What is the main method of GMO regulation in t...,Risk assessment,Flexible,Обнаружена аномалия множественности ответов. О...,True
4,2021,0,Which service is known for video conferencing?,Business,Zoom,Аномалия множественности ответов не обнаружена...,False
5,2021,1,Which service is known for video conferencing?,Education,Google Meet,Аномалия множественности ответов не обнаружена...,False
6,443,0,Is the coastline paradox related to fractals?,In geometric terms,Yes,Аномалия множественности ответов не обнаружена...,False
7,443,1,Is the coastline paradox related to fractals?,In measurement theory,Yes,Аномалия множественности ответов не обнаружена...,False
8,2599,0,What is the role of symmetry in determining cr...,High symmetry,Simple,Обнаружена аномалия множественности ответов. О...,True
9,2599,1,What is the role of symmetry in determining cr...,Low symmetry,Complex,Обнаружена аномалия множественности ответов. О...,True


In [None]:
from google.colab import sheets
sheet = sheets.InteractiveSheet(df=df_uniqueness_validation)

https://docs.google.com/spreadsheets/d/1z99E0LtIA3PAboYer4xvqp4HJ2dYzF44IW5HxQVQg84/edit#gid=0
