Ноутбук для создания модели и её анализа

### Импорты

In [2]:
import pandas as pd
import re
from sklearn.metrics.pairwise import cosine_similarity

from src.generator.control_generator import RAGPipeline
from langchain_ollama import OllamaLLM
from langchain_core.prompts import PromptTemplate
from langchain_huggingface import HuggingFaceEmbeddings

### Настройка модели для оценки

In [3]:
# Инициализация RAGPipeline
rag = RAGPipeline(db_path='../db', model_name="llama3")

# Модель для сравнения векторов
embed_model = HuggingFaceEmbeddings(
    model_name="pritamdeka/S-PubMedBert-MS-MARCO"
)

# Модель для оценки с температурой 0 для получения детерминированных ответов
judge_llm = OllamaLLM(model="llama3", temperature=0)


'(ReadTimeoutError("HTTPSConnectionPool(host='huggingface.co', port=443): Read timed out. (read timeout=10)"), '(Request ID: a170016e-95ad-4e85-baa8-9e3628773077)')' thrown while requesting HEAD https://huggingface.co/api/resolve-cache/models/pritamdeka/S-PubMedBert-MS-MARCO/96786c7024f95c5aac7f2b9a18086c7b97b23036/sentence_bert_config.json
Retrying in 1s [Retry 1/5].


### Тестовый набор для оценки


Загрузил JSON файл в NotebookLM и сформировал 10 вопросов и полные ответы к ним по категориям: 
1. Reasoning Evolution - переписывание вопроса таким образом, чтобы для ответа потребовалось больше рассуждений

2. Conditioning Evolution - добавление в вопрос условного элемента

3. Multi‑Context Evolution - к уже имеющемуся контексту добавляется ещё один, близкий по эмбеддингу фрагмент, и вопрос переписывается так, чтобы ответ потребовал также информацию и из нового, добавленного во фрагмент контекста

4. Conversational Evolution (in progress) - вопрос переписывается в более похожей на пользователя манере.

In [5]:
golden_set = [
    {   # 1
        "question": "Каким образом различия в экспрессии гена PLEC в разных тканях объясняют молекулярный механизм связи между болезнью Альцгеймера (БА) и сердечно-сосудистыми патологиями?",
        "answer": "Интронный вариант rs11786896 гена плектина (PLEC) является общим генетическим фактором риска. Механизм заключается в тканеспецифичном влиянии: этот вариант связан с пониженной экспрессией PLEC в левом желудочке сердца (что ведет к фибрилляции предсердий и сердечной недостаточности) и одновременно с повышенной экспрессией в астроцитах головного мозга, что способствует развитию БА. Плектин критически важен для архитектуры цитоскелета, и его дисбаланс нарушает стабильность промежуточных филаментов, по-разному повреждая ткани сердца и мозга. [Источник: https://pubmed.ncbi.nlm.nih.gov/37349091, Год: 2022]\n---\n"
    },
    {   # 2
        "question": "Если у пациента наблюдается высокая экспрессия гена растворимой эпоксидгидролазы (EPHX2), какие конкретные структурные изменения мозга он, вероятнее всего, будет иметь и почему этот ген считается безопасной мишенью для лекарств?",
        "answer": "Высокие уровни EPHX2 ассоциированы с уменьшением общего объема гиппокампа, что является ключевым признаком нейродегенерации. Повышение уровня фермента sEH (кодируемого EPHX2) в гиппокампе способствует отложению Aβ и реактивации астроцитов. Эта мишень считается безопасной («druggable»), так как фенотипический анализ менделевской рандомизации не выявил побочных эффектов со стороны других систем организма при изменении уровней экспрессии этого гена. [Источник: https://pubmed.ncbi.nlm.nih.gov/37349091, Год: 2023]\n---\n"
    },
    {   # 3
        "question": "Совместив концепцию «диабета 3-го типа» с ролью хаб-гена AKT1, объясните, как дефекты сигнализации инсулина на сетевом уровне способствуют патологическому переходу в тканях мозга при БА.",
        "answer": "БА называют «диабетом 3-го типа», так как инсулинорезистентность в мозге и нарушение сигнализации IGF-1 вызывают гипометаболизм глюкозы и гибель нейронов за годы до симптомов. На сетевом уровне ген AKT1 (определенный как «переключающий» ген или switch gene) играет центральную роль в пути PI3K-AKT, который необходим для выживания нейронов и поддержания синапсов. Сбой в этом хабе блокирует нейропротекторный эффект инсулина, ускоряя гиперфосфорилирование тау-белка и синаптическую дисфункцию. [Источник: https://pubmed.ncbi.nlm.nih.gov/36499613, Год: 2022]\n---\n [Источник: https://pubmed.ncbi.nlm.nih.gov/36207441, Год: 2022]\n---\n"
    },
    {   # 4
        "question": "Слушай, а как наши бактерии в животе вообще могут влиять на то, что происходит в мозгу при Альцгеймере? Есть какие-то конкретные вещества, которые они выделяют, чтобы уменьшить вредный тау-белок?",
        "answer": "Да, это происходит через ось «кишечник-мозг». Кишечные бактерии производят метаболиты, такие как фенилэтиламин и агматин. Экспериментально доказано, что эти вещества значительно снижают уровень гиперфосфорилированного тау-белка (p-tau181 и p-tau205) в человеческих нейронах. Агматин, например, блокирует сигнальный путь STAT3, который активируется рецептором C3AR и провоцирует патологию тау. [Источник: https://pubmed.ncbi.nlm.nih.gov/38652661, Год: 2024]\n---\n"
    },
    {   # 5
        "question": "Почему дефицит белка SORLA (ген SORL1) приводит к парадоксальному результату: увеличению поглощения (фагоцитоза) амилоида микроглией, но при этом к неспособности мозга очиститься от него?",
        "answer": "Это происходит из-за разобщения процессов захвата и деградации. Дефицит SORLA повышает количество рецепторов TREM2 на поверхности микроглии, что усиливает «заглатывание» амилоида и синаптосом. Однако внутри клетки отсутствие SORLA нарушает доставку ферментов из сети Транс-Гольджи в лизосомы через рецептор CIMPR. В итоге лизосомы увеличиваются в размерах, но становятся функционально неполноценными: они просто накапливают непереваренный «мусор», что ведет к лизосомальному стрессу и хроническому воспалению. [Источник: https://pubmed.ncbi.nlm.nih.gov/40183375, Год: 2025]\n---\n"
    },
    {   # 6
        "question": "В рамках гипотезы «амилоидного каркаса» (amyloid scaffold), почему стратегия простого удаления амилоидных бляшек может оказаться неполной или даже проблемной с точки зрения поведения белков модуля M42?",
        "answer": "Согласно этой гипотезе, бляшки сами по себе могут быть не так токсичны, как белки-сигнализаторы (например, мидкин MDK и плейотрофин PTN), которые в них накапливаются. Если терапия просто разрушает бляшку, эти накопленные белки могут резко высвободиться в микроокружение, вызывая аномальную активацию сигнальных путей в нейронах и глии. Поэтому эффективная стратегия должна быть направлена на предотвращение связывания этих модификаторов (белков M42) с амилоидом, а не только на очистку фибрилл Aβ. [Источник: https://pubmed.ncbi.nlm.nih.gov/39127040, Год: 2024]\n---\n"
    },
    {   # 7
        "question": "Сравнивая редкие варианты, найденные методом экзомного секвенирования (WES), с белками, приоритезированными методом менделевской рандомизации (MR) с помощью AlphaFold3, какие иммунные рецепторы выходят на первый план как наиболее достоверные причинные факторы?",
        "answer": "При использовании обеих высокоточных технологий ключевыми мишенями признаны TREM2 и PILRA. Анализ редких вариантов WES выделил TREM2 как критический локус риска, в то время как метод MR-SPI в сочетании с AlphaFold3 подтвердил, что миссенс-мутации в этих белках вызывают структурные изменения, напрямую влияющие на риск БА. В частности, вариант PILRA (rs1859788) считается защитным, так как снижает аффинность связывания рецептора с вредными лигандами в микроглии. [Источник: https://pubmed.ncbi.nlm.nih.gov/39129223, Год: 2024]\n---\n[Источник: https://pubmed.ncbi.nlm.nih.gov/39637861, Год: 2024]\n---\n[Источник: https://pubmed.ncbi.nlm.nih.gov/40050982, Год: 2025]\n---\n"
    },
    {   # 8
        "question": "А правда, что один белок может буквально «ломать» чтение генов в мозге? И почему некоторые гены портятся быстрее других, когда этого белка становится мало?",
        "answer": "Да, речь о белке TDP-43. Он контролирует правильную сборку (сплайсинг) РНК. Когда его уровень в ядре падает, в генах появляются ошибки — криптические экзоны. Гены портятся с разной скоростью из-за особенностей «посадки» белка: ген STMN2 очень чувствителен, так как TDP-43 связывается с ним в крошечном участке (22 п.н.), и даже небольшое снижение уровня белка (на 30%) вызывает сбой. У гена UNC13A сайт связывания огромный (800 п.н.), поэтому он держится дольше и ломается, только когда TDP-43 становится меньше на 50%. [Источник: https://pubmed.ncbi.nlm.nih.gov/38175301, Год: 2024]\n---\n"
    },
    {   # 9
        "question": "Почему метаболит кинуренинового пути KYN считается более перспективным биомаркером для скрининга БА, чем его производное — хинолиновая кислота (QA), несмотря на то, что QA обладает более выраженной нейротоксичностью?",
        "answer": "Несмотря на то, что хинолиновая кислота (QA) напрямую повреждает нейроны и связана с образованием бляшек и тау-танглов, она крайне плохо проникает через гематоэнцефалический барьер (ГЭБ) и существует в основном внутри мозга. Напротив, кинуренин (KYN) свободно пересекает ГЭБ через переносчики нейтральных аминокислот. Это делает KYN в плазме крови доступным и надежным индикатором метаболического дисбаланса, происходящего в центральной нервной системе, что удобнее для диагностики. [Источник: https://pubmed.ncbi.nlm.nih.gov/35096208, Год: 2022]\n---\n"
    },
    {   # 10
        "question": "Интегрируйте данные об эндотоксинах грамотрицательных бактерий с ролью инфламмасомы NLRP3, чтобы описать молекулярный каскад, приводящий к «пироптозу» при болезни Альцгеймера.",
        "answer": "Каскад начинается с повышения концентрации липополисахаридов (ЛПС) в плазме (у пациентов с БА их в 3–6 раз больше), которые действуют как «прайминг» (подготовительный сигнал) для активации NF-κB. Это запускает синтез предшественников воспалительных цитоцитов. Затем накопленные олигомеры амилоида служат «вторым сигналом», вызывая сборку инфламмасомы NLRP3 в микроглии. Это активирует фермент каспазу-1, которая не только высвобождает зрелый IL-1β, но и запускает пироптоз — форму воспалительной гибели клеток, которая массово разрушает ткани мозга и усиливает дегенерацию. [Источник: https://pubmed.ncbi.nlm.nih.gov/34876226, Год: 2021]\n---\n[Источник: https://pubmed.ncbi.nlm.nih.gov/35250595, Год: 2022]\n---\n[Источник: https://pubmed.ncbi.nlm.nih.gov/40427569, Год: 2025]\n---\n"
    },
]

### Промт для модели оценки

In [None]:
judge_template = """
You are an impartial expert evaluator for a BioMedical RAG system.
Your task is to evaluate the quality of the 'Generated Answer' compared to the 'User Question' and the 'Ground Truth'.

Evaluate based on these 4 metrics (Score 1 to 5):

1. Relevance: Does the answer directly address the user's question? (5 = Direct answer, 1 = Irrelevant)
2. Depth: Is the answer detailed and scientific? Does it explain mechanisms? (5 = Deep/Comprehensive, 1 = Superficial)
3. Clarity: Is the language clear and professional? (5 = Perfect clarity, 1 = Confusing)
4. Structure: Is the answer well-organized (intro, body, conclusion, citations)? (5 = Well structured, 1 = Messy)

User Question: {question}
Ground Truth (Expected Answer): {gt}
Generated Answer: {answer}

OUTPUT FORMAT:
Return ONLY a text block with the scores in this exact format:
Relevance: <score>
Depth: <score>
Clarity: <score>
Structure: <score>
"""

judge_prompt = PromptTemplate.from_template(judge_template)

