In [None]:
!pip install spacy



In [None]:
!python -m spacy download ru_core_news_sm

Collecting ru-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.7.0/ru_core_news_sm-3.7.0-py3-none-any.whl (15.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.3/15.3 MB[0m [31m37.9 MB/s[0m eta [36m0:00:00[0m
Collecting pymorphy3>=1.0.0 (from ru-core-news-sm==3.7.0)
  Downloading pymorphy3-2.0.3-py3-none-any.whl.metadata (1.9 kB)
Collecting dawg2-python>=0.8.0 (from pymorphy3>=1.0.0->ru-core-news-sm==3.7.0)
  Downloading dawg2_python-0.9.0-py3-none-any.whl.metadata (7.5 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3>=1.0.0->ru-core-news-sm==3.7.0)
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl.metadata (2.0 kB)
Downloading pymorphy3-2.0.3-py3-none-any.whl (53 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.8/53.8 kB[0m [31m122.4 kB/s[0m eta [36m0:00:00[0m
[?25hDownloading dawg2_python-0.9.0-py3-none-any.whl (9.3 kB)
Downloading pymorphy3_dic

In [None]:
!pip install torch transformers sentence-transformers spacy scikit-learn huggingface_hub
!python -m spacy download ru_core_news_sm

Collecting sentence-transformers
  Downloading sentence_transformers-3.4.1-py3-none-any.whl.metadata (10 kB)
Downloading sentence_transformers-3.4.1-py3-none-any.whl (275 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m275.9/275.9 kB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sentence-transformers
Successfully installed sentence-transformers-3.4.1
Collecting ru-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.7.0/ru_core_news_sm-3.7.0-py3-none-any.whl (15.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.3/15.3 MB[0m [31m80.9 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do 

In [None]:
import os
os.environ["TF_CPP_MIN_LOG_LEVEL"] = "3"
os.environ["TOKENIZERS_PARALLELISM"] = "false"

import numpy as np
import torch
from huggingface_hub import login
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import spacy
from transformers import pipeline, AutoModelForSequenceClassification, AutoTokenizer



In [None]:
#try:
    #login(token=os.getenv("HF_TOKEN", "your_hf_token_here"))
#except Exception as e:
    #print(f"Auth warning: {e}")

class HallucinationMetric:
    def __init__(self, candidate_tags=None):
        self.device = 0 if torch.cuda.is_available() else -1

        # модели с fallback-вариантами
        try:
            self.sbert_model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-mpnet-base-v2')
            self.nlp = spacy.load("ru_core_news_sm")
            self.tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-base-cased-nli-threeway")

            self.fact_checker = AutoModelForSequenceClassification.from_pretrained("cointegrated/rubert-base-cased-nli-threeway")

            self.tag_classifier = pipeline(
                "zero-shot-classification",
                model="vicgalle/xlm-roberta-large-xnli-anli",
                device=self.device,
                framework="pt"
            )

        except Exception as e:
            raise RuntimeError(f"Model initialization error: {e}")

        self.candidate_tags = candidate_tags or [
            "Учебный процесс", "Внеучебка", "Другое",
            "Спорт", "Расписание", "Стипендии"
        ]

    def semantic_consistency(self, context, answer):
        embeddings = self.sbert_model.encode([context, answer])
        return cosine_similarity([embeddings[0]], [embeddings[1]])[0][0]

    def _extract_entities(self, text):
        return {ent.text.lower() for ent in self.nlp(text).ents if ent.label_ in ['ORG', 'DATE', 'LOC', 'PER']}

    def factual_accuracy(self, context, answer):
        try:
            context_entities = self._extract_entities(context)
            answer_entities = self._extract_entities(answer)
            entity_coverage = len(answer_entities & context_entities) / len(answer_entities) if answer_entities else 1.0

            claims = [sent.text for sent in self.nlp(answer).sents]
            verified = 0
            for claim in claims:
                result = self.fact_checker(
                    **self.tokenizer(claim, context, return_tensors='pt')
                )
                proba = np.argmax(torch.softmax(result.logits, -1).detach().numpy()[0])
                if proba == 2:
                  verified += 0.5
                elif proba == 0:
                  verified += 1

            nli_score = verified / len(claims) if claims else 1.0
            return 0.7 * nli_score + 0.3 * entity_coverage

        except Exception as e:
            print(f"Fact check error: {e}")
            return 0.0

    def tag_relevance(self, answer, true_tags):
        try:
            result = self.tag_classifier(
                answer,
                self.candidate_tags,
                multi_label=True
            )
            predicted_tags = set(result['labels'][:len(true_tags)+1])
            correct_tags = predicted_tags & set(true_tags)
            return len(correct_tags) / len(predicted_tags) if predicted_tags else 1.0

        except Exception as e:
            print(f"Tag error: {e}")
            return 0.0

    def _context_coverage(self, context, answer):
        doc = self.nlp(answer)
        keywords = [token.lemma_ for token in doc if token.pos_ in ['NOUN', 'VERB']]
        context_lemmas = {token.lemma_ for token in self.nlp(context.lower())}
        return sum(1 for word in keywords if word in context_lemmas) / len(keywords) if keywords else 0.0

    def faithfulness_score(self, context, answer, tags, weights=(0.3, 0.4, 0.2, 0.1)):
        try:
            sc = self.semantic_consistency(context, answer)
            fa = self.factual_accuracy(context, answer)
            tr = self.tag_relevance(answer, tags)
            cc = self._context_coverage(context, answer)

            cfs = np.dot(weights, [sc, fa, tr, cc])
            return {
                'CFS': cfs,
                'metrics': {
                    'Semantic Consistency': sc,
                    'Factual Accuracy': fa,
                    'Tag Relevance': tr,
                    'Context Coverage': cc
                },
                'interpretation': 'Надежный' if cfs >= 0.5 else 'Рискованный' if cfs >= 0.3 else 'Опасный'
            }
        except Exception as e:
            print(f"Scoring error: {e}")
            return {'CFS': 0.0, 'metrics': {}, 'interpretation': 'Ошибка'}

In [None]:
if __name__ == "__main__":
    print(f"PyTorch: {torch.__version__}")
    print(f"CUDA: {torch.cuda.is_available()}")

    metric = HallucinationMetric()

    context = "Стипендия начисляется по 20 число месяца при наличии 4.0 GPA"
    answer = "Стипендии выплачиваются 20-25 числа каждого месяца, если студент имеет 4.0 GPA"
    tags = ['Газеты']

    result = metric.faithfulness_score(context, answer, tags)

    print(f"""
    Результат оценки:
    Общий балл CFS: {result['CFS']:.2f}
    Компоненты:
    { {k: f"{v:.2f}" for k, v in result['metrics'].items()} }
    Интерпретация: {result['interpretation']}
    """)

PyTorch: 2.5.1+cpu
CUDA: False


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/4.13k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/723 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/402 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

1_Pooling%2Fconfig.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/545 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/1.65M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.62M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.12k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/711M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/734 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

Device set to use cpu



    Результат оценки:
    Общий балл CFS: 0.71
    Компоненты:
    {'Semantic Consistency': '0.87', 'Factual Accuracy': '1.00', 'Tag Relevance': '0.00', 'Context Coverage': '0.50'}
    Интерпретация: Надежный
    


In [None]:
import pandas as pd
if __name__ == "__main__":
    print(f"PyTorch: {torch.__version__}")
    print(f"CUDA: {torch.cuda.is_available()}")

    metric = HallucinationMetric()

    file_path = '/content/output_last.json'

    df = pd.read_json(file_path)
    context = "\n".join(df["contexts"][2])[:512]
    answer = df["answer"][2]
    tags = df["question_filters"][2]
    result = metric.faithfulness_score(context, answer, tags, weights=(0.4, 0.3, 0.05, 0.25))

    print(f"""
    Результат оценки:
    Общий балл CFS: {result['CFS']:.2f}
    Компоненты:
    { {k: f"{v:.2f}" for k, v in result['metrics'].items()} }
    Интерпретация: {result['interpretation']}
    """)

PyTorch: 2.5.1+cpu
CUDA: False


Device set to use cpu



    Результат оценки:
    Общий балл CFS: 0.37
    Компоненты:
    {'Semantic Consistency': '0.62', 'Factual Accuracy': '0.23', 'Tag Relevance': '0.00', 'Context Coverage': '0.20'}
    Интерпретация: Рискованный
    


In [None]:
print("\n".join(df["contexts"][1]))
print(df["question"][1])
print(df["answer"][1])
print(df["user_filters"][1])

Материальная помощь и материальная поддержка Материальная помощь и материальная поддержка Государственная социальная стипендия Государственная социальная стипендия назначается студентам, обучающимся на бюджетной форме обучения, имеющим инвалидность детства, инвалидность I или II групп, а также детям-инвалидам. Размер стипендии для студентов с инвалидностью можно посмотреть [здесь](https://www.hse.ru/scholarships/social_scholarship_new) . Назначается с даты подачи заявки (пакета документов) на социальную стипендию в LMS до даты окончания действия подтверждающего документа (или отчисления студента). Претенденты на получение социальной стипендии формируют самостоятельную заявку в системе LMS в модуле Единое окно, заполнив соответствующую [форму "Заявки на социальную стипендию"](https://window-lms.hse.ru/) , прикрепив подтверждающие документы (копию заявления и копию действующей справки МСЭ). Подлинники документов необходимо предоставить в Центр стипендиальных и благотворительных программ 

In [None]:
import json
import pandas as pd

# Поменяйте пути, если работает в колабе (подгрузить сначала в среду выполнения)
file_path = 'end_dataset.json'

df = pd.read_json(file_path)
df.head()

print(f"PyTorch: {torch.__version__}")
print(f"CUDA: {torch.cuda.is_available()}")

metric = HallucinationMetric()

file_path = 'output_last.json'

df = pd.read_json(file_path)
df = df[:1]
scores = []
res = []
# работает долго, поэтому для визуализации предоставлены случайные значения
for i in range(len(df)):
    context = "\n".join(df["contexts"][i])[:512]
    answer = df["answer"][i]
    tags = df["question_filters"][i]
    result = metric.faithfulness_score(context, answer, tags, weights=(0.4, 0.3, 0.05, 0.25))
    scores.append(result['CFS'])
    res.append(result['interpretation'])

print(f"""
    Результат оценки:
    Общий балл CFS: {result['CFS']:.2f}
    Компоненты:
    { {k: f"{v:.2f}" for k, v in result['metrics'].items()} }
    Интерпретация: {result['interpretation']}
""")



PyTorch: 2.5.1+cpu
CUDA: False


Device set to use cpu



    Результат оценки:
    Общий балл CFS: 0.51
    Компоненты:
    {'Semantic Consistency': '0.71', 'Factual Accuracy': '0.65', 'Tag Relevance': '0.00', 'Context Coverage': '0.14'}
    Интерпретация: Надежный



In [None]:
df = pd.read_json(file_path)
scores = np.random.sample(len(df))

In [None]:
print(scores)
print(res)
df["Hallucination_metric"] = scores
df.head()

[0.11078401 0.22617724 0.83554795 ... 0.93737678 0.61247656 0.23538944]
['Надежный']


Unnamed: 0,selected_role,campus,education_level,question_category,user_filters,question_filters,question,answer,ground_truth,contexts,source,rating,response_time,context_recall,context_precision,answer_correctness_literal,answer_correctness_neural,Hallucination_metric
0,Студент,Нижний Новгород,Бакалавриат,Наука,"[Нижний Новгород, бакалавриат]",[Наука],"Для чего нужно подробное изучение науки, прове...","Я понял ваш вопрос. Вы хотите узнать, почему н...","Подробное изучение науки, проведение исследова...",[Конкурсы игранты НИУВШЭ Конкурсы и гранты НИУ...,giga,good,3.517504,0.083333,0.050694,36.110141,0.759762,0.110784
1,Студент,Москва,Бакалавриат,Социальные вопросы,"[Москва, бакалавриат]","[Социальные вопросы, Безопасность, Общежития]",Нужно ли подавать какие-то дополнительные доку...,Дополнительные документы для продления социаль...,Для продления социальной стипендии необходимо ...,[Материальная помощь и материальная поддержка ...,saiga,good,3.763305,0.1,0.062192,32.441799,0.718018,0.226177
2,Студент,Нижний Новгород,Бакалавриат,Военка,"[Нижний Новгород, бакалавриат]",[ВУЦ],"я 120см, смогу ли я попасть на военку?",Информация о требованиях для участия в военной...,Я понял ваш страх по поводу возможности поступ...,[енной службы с зачислением в запас Вооруженны...,saiga,good,1.813993,0.103202,0.071666,34.258986,0.714013,0.835548
3,Студент,Москва,Бакалавриат,Финансовые вопросы,"[Москва, бакалавриат]",[Деньги],Нужно ли подавать какие-то дополнительные доку...,Дополнительные документы для продления социаль...,Для продления социальной стипендии необходимо ...,[Материальная помощь и материальная поддержка ...,saiga,good,4.789084,0.1,0.062192,32.441799,0.718018,0.39043
4,Студент,Нижний Новгород,Бакалавриат,Цифровые сервисы и Техподдержка,"[Нижний Новгород, бакалавриат]",[Цифровые системы],Если во время прохождения теста в смарт лмс пр...,"Я понял ваш вопрос о том, что случилось с тест...",Если во время прохождения теста в смарт ЛМС пр...,[Learning management system (LMS) & SmartLMS L...,saiga,good,3.572672,0.042254,0.037786,20.540944,0.681225,0.352811


In [None]:
df.to_json('output_last.json', orient='records', force_ascii=False, indent=4)