## Imports

In [1]:
import requests

import pandas as pd
from tqdm import tqdm


from sentence_transformers import SentenceTransformer

import chromadb

# Только для юпитер-ноутбука
import sys
import os
sys.path.append(os.path.abspath('../'))
# -----

from src.metrics.geval import LLMTestCase, relevance_metric, answer_relevance_metric, hallucination_detection_metric
from src.metrics.recall import calculate_recall
from src.metrics.ndcg import calculate_ndcg
tqdm.pandas()

In [28]:
DEVICE = 'cuda'
CHROMA_DB_PATH = '../data/chroma_db'
DATA_FOR_DB_PARQUET = '../data/actual/interim/data_for_db_corrected.parquet'
EVALUATION_PARQUET = '../data/actual/interim/evaluation_df.parquet'
SMALL_EVALUATION_PARQUET = '../data/actual/interim/evaluation_df_125.parquet'

## Data for db

In [3]:
data_for_db = pd.read_parquet(DATA_FOR_DB_PARQUET)

In [4]:
data_for_db.head(1)

Unnamed: 0,index,kb_query,kb_answer,class_1,class_2,kb_query_orig
0,0,Что нельзя публиковать на RUTUBE (рутуб)?,Чужой контент без разрешения автора или правоо...,МОДЕРАЦИЯ,Отклонение/блокировка видео,Что нельзя публиковать на RUTUBE?


In [5]:
data_for_db = data_for_db.fillna('')

## Embedder

In [6]:
embedder = SentenceTransformer('intfloat/multilingual-e5-large',device=DEVICE)

# Обратите внимание на prompt 
#  query:
#  passage:

# input_texts = [
#     'query: how much protein should a female eat',
#     'query: 南瓜的家常做法',
#     "passage: As a general guideline, the CDC's average requirement of protein for women ages 19 to 70 i     s 46 grams per day. But, as you can see from this chart, you'll need to increase that if you're expecting or traini     ng for a marathon. Check out the chart below to see how much protein you should be eating each day.",
#     "passage: 1.清炒南瓜丝 原料:嫩南瓜半个 调料:葱、盐、白糖、鸡精 做法: 1、南瓜用刀薄薄的削去表面一层皮     ,用勺子刮去瓤 2、擦成细丝(没有擦菜板就用刀慢慢切成细丝) 3、锅烧热放油,入葱花煸出香味 4、入南瓜丝快速翻炒一分钟左右,     放盐、一点白糖和鸡精调味出锅 2.香葱炒南瓜 原料:南瓜1只 调料:香葱、蒜末、橄榄油、盐 做法: 1、将南瓜去皮,切成片 2、油     锅8成热后,将蒜末放入爆香 3、爆香后,将南瓜片放入,翻炒 4、在翻炒的同时,可以不时地往锅里加水,但不要太多 5、放入盐,炒匀      6、南瓜差不多软和绵了之后,就可以关火 7、撒入香葱,即可出锅"
# ]
# embeddings = embedder.encode(input_texts, normalize_embeddings=True)

Here are some rules of thumb:

Use "query: " and "passage: " correspondingly for asymmetric tasks such as passage retrieval in open QA, ad-hoc information retrieval.

Use "query: " prefix for symmetric tasks such as semantic similarity, bitext mining, paraphrase retrieval.

Use "query: " prefix if you want to use embeddings as features, such as linear probing classification, clustering.

## Database

In [7]:
client = chromadb.PersistentClient(path=CHROMA_DB_PATH, settings=chromadb.Settings(allow_reset=True))

In [8]:
client.reset()

True

In [9]:
collection = client.get_or_create_collection(name="rutube",metadata={"hnsw:space": "cosine"})

In [10]:
documents = data_for_db['kb_query'].tolist()

In [11]:
documents = ['query: ' + doc for doc in documents]
embeddings = embedder.encode(documents, show_progress_bar=True)

Batches:   0%|          | 0/9 [00:00<?, ?it/s]

  attn_output = torch.nn.functional.scaled_dot_product_attention(


In [12]:
metadatas = data_for_db.drop(columns=['index','kb_query']).to_dict(orient='index')
metadatas = [data[1] for n,data in enumerate(metadatas.items())]

In [13]:
ids = [str(x) for x in data_for_db['index'].tolist()]

In [14]:
collection.add(
    documents=documents,
    embeddings=embeddings,
    metadatas=metadatas,
    ids=ids
)

## Retriever

In [15]:
def retrieve_relevant_chunks(query:str | list[str], where: dict | None = None, where_document: dict | None = None, n_results:int = 3) -> None:
    '''
    where={"metadata_field": "is_equal_to_this"},
    where_document={"$contains":"search_string"}
    '''

    if isinstance(query,str):
        query=[query]

    query = ['query: ' + q for q in query]
        
    query_embeddings = embedder.encode(query)

    query_kwargs = {
        'query_embeddings': query_embeddings,
        'include': ['documents','metadatas'],
        'n_results': n_results
    }
    if where:
        query_kwargs['where']=where

    if where_document:
        query_kwargs['where_document'] = where_document

    result = collection.query(**query_kwargs)
    return result

def format_retrieve_result(retrieve_result) -> list:
    result = []

    ids = retrieve_result.get('ids', [])
    documents = retrieve_result.get('documents', [])
    metadatas = retrieve_result.get('metadatas', [])

    for i in range(len(ids)):
        group = []
        for j in range(len(ids[i])):
            entry = {
                'id': ids[i][j],
                'document': documents[i][j],
                'metadata': metadatas[i][j] if metadatas else None
            }
            group.append(entry)
        result.append(group)

    return result

def extract_context_for_generation(retrieved_result: list[dict], include_question: bool = True) -> str:
    result_string = "\n\n".join(
        [
            (f"Вопрос: {item['document']}\nОтвет: {item['metadata']['kb_answer']}" if include_question else item['metadata']['kb_answer'])
            for sublist in retrieved_result for item in sublist
        ]
    )
    
    return result_string

## Generation

In [16]:
def generate(prompt:str, temperature:float=0, return_str_only:bool=True) -> dict:
    result = requests.post(
        "http://89.169.135.235:11434/api/generate",
        json={
            "model": "mistral-nemo",
            "options": {"seed": 123, "temperature": temperature},
            "prompt": prompt,
            "stream": False,
        },
    ).json()
    if return_str_only:
        return result['response']
    else:
        return result

## Chunk LLM filtering prompt (optional)

In [17]:
FILTERING_PROMPT = '''
'''.strip()

In [18]:
def chunk_filtering(input:str,query:str) -> bool:
    pass

## Prompt template

In [19]:
PROMPT_TEMPLATE = '''
Ты интеллектуальный помощник службы поддержки RUTUBE. 
RUTUBE — ведущий российский видеопортал, предлагающий к просмотру тв онлайн, кинофильмы, сериалы, мультфильмы и пользовательское видео.
Ты очень вежливый и дружелюбный. Твоя задача ответить на ВОПРОС используя КОНТЕКСТ. 

У тебя есть только знания из контекста и этого промпта.
Если ответа на вопрос к контексте нет, то напиши, что не знаешь ответа.
Отвечай только используя контекст, не используй другие знания.

ВОПРОС:
=====
{query}
=====

КОНТЕКСТ:
=====
{context}
=====
'''.strip()

## Complete QA-RAG pipeline

In [20]:
def rag_pipeline(input:str) -> dict:
    actual_context_raw = retrieve_relevant_chunks(input,n_results=5)
    actual_context = format_retrieve_result(actual_context_raw)
    actual_context_to_llm = extract_context_for_generation(actual_context)
    prompt = PROMPT_TEMPLATE.format(query=input,context=actual_context_to_llm)
    response = generate(prompt)


    result = {
        'input':input,
        'actual_context': actual_context,
        'actual_response': response
    }

    return result

rag_pipeline('Как включить монетизацию?')

{'input': 'Как включить монетизацию?',
 'actual_context': [[{'id': '173',
    'document': 'query: Как подключить монетизацию, если я физлицо?',
    'metadata': {'class_1': 'ПРЕДЛОЖЕНИЯ',
     'class_2': 'Монетизация',
     'kb_answer': 'Увы, физлицам монетизация недоступна, зато доступна самозанятым. Стать самозанятым можно за пару минут через приложение «Мой налог».  ',
     'kb_query_orig': 'Как настроить OBS Studio для проведения трансляций на RUTUBE? '}},
   {'id': '189',
    'document': 'query: Как формируется вознаграждение за монетизацию?',
    'metadata': {'class_1': 'МОНЕТИЗАЦИЯ',
     'class_2': 'Статистика по монетизации',
     'kb_answer': 'Для расчета вознаграждения партнера используется специальная формула, указанная в п.3.1. Оферты. Актуальные показатели формирующие общее итоговое вознаграждение партнера также отображается в Студии RUTUBE (студии рутуб) в разделе «Монетизация»: https://studio.rutube.ru/monetization',
     'kb_query_orig': 'Кто рассматривает заявку на пол

## Evaluation

In [21]:
eval_df = pd.read_parquet(EVALUATION_PARQUET)

In [22]:
eval_df.head(2)

Unnamed: 0,input,expected_output,kb_query,index,kb_query_orig
0,Здравствуйте! Можно уточнить причины Правилhtt...,Добрый день!\nЧто нельзя публиковать на RUTUBE...,Что нельзя публиковать на RUTUBE?,0.0,Что нельзя публиковать на RUTUBE?
1,"Добрый вечер, какой топ причин блокировки виде...",Добрый вечер!\nЧто заперщено публиковать на RU...,Что нельзя публиковать на RUTUBE?,0.0,Что нельзя публиковать на RUTUBE?


In [24]:
# def stratified_sample(df, stratify_column, frac):
#     return df.groupby(stratify_column, group_keys=False).apply(lambda x: x.sample(frac=frac))

# stratified_df = stratified_sample(eval_df, stratify_column='index', frac=0.2)


  return df.groupby(stratify_column, group_keys=False).apply(lambda x: x.sample(frac=frac))


In [29]:
stratified_df = pd.read_parquet(SMALL_EVALUATION_PARQUET)

In [30]:
def process_row(row):
    result = rag_pipeline(row['input'])
    
    actual_response = result.get('actual_response', '')

    actual_context_ids = [item['id'] for sublist in result['actual_context'] for item in sublist]

    class_1_list = [item['metadata']['class_1'] for sublist in result['actual_context'] for item in sublist]
    class_2_list = [item['metadata']['class_2'] for sublist in result['actual_context'] for item in sublist]

    actual_context = extract_context_for_generation(result['actual_context'])

    return pd.Series({
        'actual_response': actual_response,
        'actual_context_ids': actual_context_ids,
        'actual_context': actual_context,
        'class_1': class_1_list,
        'class_2': class_2_list
    })

stratified_df[['actual_response', 'actual_context_ids', 'actual_context', 'class_1', 'class_2']] = stratified_df.progress_apply(process_row, axis=1)


100%|██████████| 125/125 [05:14<00:00,  2.51s/it]


In [31]:
stratified_df

Unnamed: 0,input,expected_output,kb_query,index,kb_query_orig,actual_response,actual_context_ids,actual_context,class_1,class_2
2,"Все пишут, что монетизация на рутубе отключает...","Добрый день! \nМонетизация может отключиться, ...",Почему могут отключить монетизацию из-за автор...,1.0,Почему могут отключить монетизацию из-за автор...,"Основываясь на контексте, монетизация может от...","[1, 170, 182, 199, 2]",Вопрос: query: Почему могут отключить монетиза...,"[МОНЕТИЗАЦИЯ, МОНЕТИЗАЦИЯ, МОНЕТИЗАЦИЯ, МОДЕРА...","[Отключение/подключение монетизации, Отключени..."
9,"Подскажите, пожалуйста, что не запрещено выкла...","Добрый день! Не запрешено публиковать то, что ...",Какой контент можно использовать для монетизац...,4.0,Какой контент можно использовать для монетизац...,"Вопрос: query: Подскажите, пожалуйста, что не ...","[3, 4, 1, 0, 6]",Вопрос: query: Для каких статусов доступна мон...,"[МОНЕТИЗАЦИЯ, МОНЕТИЗАЦИЯ, МОНЕТИЗАЦИЯ, МОДЕРА...","[Отключение/подключение монетизации, Отключени..."
18,Кому принадлежат авторские права на данный кон...,"По умолчанию считается, что авторские права на...","Кому принадлежат авторские права на контент, к...",7.0,"Кому принадлежат авторские права на контент, к...",Авторские права на контент принадлежат тому по...,"[7, 5, 6, 4, 10]",Вопрос: query: Кому принадлежат авторские прав...,"[МОДЕРАЦИЯ, МОДЕРАЦИЯ, МОНЕТИЗАЦИЯ, МОНЕТИЗАЦИ...","[Отклонение/блокировка видео, Отклонение/блоки..."
19,"пройдет видео модерация, если цитировать чужие...",Для прохождения модерации нужно соблюдать неск...,Можно ли цитировать чужие произведения?,8.0,Можно ли цитировать чужие произведения?,"Вопрос о том, пройдет ли видео модерацию, если...","[8, 12, 11, 15, 128]",Вопрос: query: Можно ли цитировать чужие произ...,"[МОДЕРАЦИЯ, МОДЕРАЦИЯ, МОДЕРАЦИЯ, МОДЕРАЦИЯ, В...","[Отклонение/блокировка видео, Отклонение/блоки..."
32,произведние в общественном достоянии? О чем это?,"Это значит, что произведение или его перевод п...",Нарушает ли авторские права использование обра...,13.0,Нарушает ли авторские права использование обра...,Я не знаю ответа на ваш вопрос о произведении ...,"[7, 5, 14, 224, 233]",Вопрос: query: Кому принадлежат авторские прав...,"[МОДЕРАЦИЯ, МОДЕРАЦИЯ, МОДЕРАЦИЯ, ОТСУТСТВУЕТ,...","[Отклонение/блокировка видео, Отклонение/блоки..."
...,...,...,...,...,...,...,...,...,...,...
733,Какое видео могу загрузить?,Оно должно соответствовать правилам размещения...,Какие технические требования предъявляются к з...,272.0,Какие технические требования предъявляются к з...,Вопрос: query: Какое видео могу загрузить?\nОт...,"[236, 264, 278, 263, 244]",Вопрос: query: Как загрузить видеоролик на сай...,"[ВИДЕО, ВИДЕО, ВИДЕО, ВИДЕО, МОДЕРАЦИЯ]","[Загрузка видео, Загрузка видео, Загрузка виде..."
684,Почнм нельзя смотреть видео в хорошем качестве?,"Вероятнее всего, у вас стоит блокировщик рекла...",Не могу посмотреть ролик в хорошем качестве,277.0,Не могу посмотреть ролик в хорошем качестве,Почему нельзя смотреть видео в хорошем качестве?,"[242, 241, 278, 2, 198]",Вопрос: query: Не могу посмотреть ролик в хоро...,"[ВИДЕО, ВИДЕО, ВИДЕО, МОНЕТИЗАЦИЯ, МОДЕРАЦИЯ]","[Воспроизведение видео, Воспроизведение видео,..."
690,Как правильно выбрать категорию?,На RUTUBE доступно большое количество категори...,Какую категорию выбрать для видео?,280.0,Какую категорию выбрать для видео?,Категория должна соответствовать содержанию ви...,"[245, 157, 246, 283, 136]",Вопрос: query: Какую категорию выбрать для вид...,"[ВИДЕО, УПРАВЛЕНИЕ АККАУНТОМ, МОДЕРАЦИЯ, МОДЕР...","[Загрузка видео, Персонализация, Смена категор..."
696,У вас встроенные субтитры или сгенерированые?,"Это могут быть субтитры, которые добавил сам а...",Какие субтитры используются в RUTUBE?,283.0,Какие субтитры используются в RUTUBE?,В контексте предоставленной информации о субти...,"[247, 252, 251, 250, 127]",Вопрос: query: Как включить субтитры в видео?\...,"[ВИДЕО, ПРЕДЛОЖЕНИЯ, ПРЕДЛОЖЕНИЯ, ВИДЕО, ВИДЕО]","[Управление плеером, Плеер, Плеер, Загрузка ви..."


## Retrieve recall

In [45]:
stratified_df['hit_list'] = stratified_df.apply(
    lambda x: [int(int(y) == int(x['index'])) for y in x['actual_context_ids']],
    axis=1
)


In [55]:
stratified_df['recall'] = stratified_df.apply(
    lambda x: sum(x['hit_list']) / 1 if len(x['actual_context_ids']) > 0 else 0,
    axis=1
) # WATCHOUT: везде len(true_context) == 1


In [56]:
stratified_df

Unnamed: 0,input,expected_output,kb_query,index,kb_query_orig,actual_response,actual_context_ids,actual_context,class_1,class_2,hit_list,recall
2,"Все пишут, что монетизация на рутубе отключает...","Добрый день! \nМонетизация может отключиться, ...",Почему могут отключить монетизацию из-за автор...,1.0,Почему могут отключить монетизацию из-за автор...,"Основываясь на контексте, монетизация может от...","[1, 170, 182, 199, 2]",Вопрос: query: Почему могут отключить монетиза...,"[МОНЕТИЗАЦИЯ, МОНЕТИЗАЦИЯ, МОНЕТИЗАЦИЯ, МОДЕРА...","[Отключение/подключение монетизации, Отключени...","[1, 0, 0, 0, 0]",1.0
9,"Подскажите, пожалуйста, что не запрещено выкла...","Добрый день! Не запрешено публиковать то, что ...",Какой контент можно использовать для монетизац...,4.0,Какой контент можно использовать для монетизац...,"Вопрос: query: Подскажите, пожалуйста, что не ...","[3, 4, 1, 0, 6]",Вопрос: query: Для каких статусов доступна мон...,"[МОНЕТИЗАЦИЯ, МОНЕТИЗАЦИЯ, МОНЕТИЗАЦИЯ, МОДЕРА...","[Отключение/подключение монетизации, Отключени...","[0, 1, 0, 0, 0]",1.0
18,Кому принадлежат авторские права на данный кон...,"По умолчанию считается, что авторские права на...","Кому принадлежат авторские права на контент, к...",7.0,"Кому принадлежат авторские права на контент, к...",Авторские права на контент принадлежат тому по...,"[7, 5, 6, 4, 10]",Вопрос: query: Кому принадлежат авторские прав...,"[МОДЕРАЦИЯ, МОДЕРАЦИЯ, МОНЕТИЗАЦИЯ, МОНЕТИЗАЦИ...","[Отклонение/блокировка видео, Отклонение/блоки...","[1, 0, 0, 0, 0]",1.0
19,"пройдет видео модерация, если цитировать чужие...",Для прохождения модерации нужно соблюдать неск...,Можно ли цитировать чужие произведения?,8.0,Можно ли цитировать чужие произведения?,"Вопрос о том, пройдет ли видео модерацию, если...","[8, 12, 11, 15, 128]",Вопрос: query: Можно ли цитировать чужие произ...,"[МОДЕРАЦИЯ, МОДЕРАЦИЯ, МОДЕРАЦИЯ, МОДЕРАЦИЯ, В...","[Отклонение/блокировка видео, Отклонение/блоки...","[1, 0, 0, 0, 0]",1.0
32,произведние в общественном достоянии? О чем это?,"Это значит, что произведение или его перевод п...",Нарушает ли авторские права использование обра...,13.0,Нарушает ли авторские права использование обра...,Я не знаю ответа на ваш вопрос о произведении ...,"[7, 5, 14, 224, 233]",Вопрос: query: Кому принадлежат авторские прав...,"[МОДЕРАЦИЯ, МОДЕРАЦИЯ, МОДЕРАЦИЯ, ОТСУТСТВУЕТ,...","[Отклонение/блокировка видео, Отклонение/блоки...","[0, 0, 0, 0, 0]",0.0
...,...,...,...,...,...,...,...,...,...,...,...,...
733,Какое видео могу загрузить?,Оно должно соответствовать правилам размещения...,Какие технические требования предъявляются к з...,272.0,Какие технические требования предъявляются к з...,Вопрос: query: Какое видео могу загрузить?\nОт...,"[236, 264, 278, 263, 244]",Вопрос: query: Как загрузить видеоролик на сай...,"[ВИДЕО, ВИДЕО, ВИДЕО, ВИДЕО, МОДЕРАЦИЯ]","[Загрузка видео, Загрузка видео, Загрузка виде...","[0, 0, 0, 0, 0]",0.0
684,Почнм нельзя смотреть видео в хорошем качестве?,"Вероятнее всего, у вас стоит блокировщик рекла...",Не могу посмотреть ролик в хорошем качестве,277.0,Не могу посмотреть ролик в хорошем качестве,Почему нельзя смотреть видео в хорошем качестве?,"[242, 241, 278, 2, 198]",Вопрос: query: Не могу посмотреть ролик в хоро...,"[ВИДЕО, ВИДЕО, ВИДЕО, МОНЕТИЗАЦИЯ, МОДЕРАЦИЯ]","[Воспроизведение видео, Воспроизведение видео,...","[0, 0, 0, 0, 0]",0.0
690,Как правильно выбрать категорию?,На RUTUBE доступно большое количество категори...,Какую категорию выбрать для видео?,280.0,Какую категорию выбрать для видео?,Категория должна соответствовать содержанию ви...,"[245, 157, 246, 283, 136]",Вопрос: query: Какую категорию выбрать для вид...,"[ВИДЕО, УПРАВЛЕНИЕ АККАУНТОМ, МОДЕРАЦИЯ, МОДЕР...","[Загрузка видео, Персонализация, Смена категор...","[0, 0, 0, 0, 0]",0.0
696,У вас встроенные субтитры или сгенерированые?,"Это могут быть субтитры, которые добавил сам а...",Какие субтитры используются в RUTUBE?,283.0,Какие субтитры используются в RUTUBE?,В контексте предоставленной информации о субти...,"[247, 252, 251, 250, 127]",Вопрос: query: Как включить субтитры в видео?\...,"[ВИДЕО, ПРЕДЛОЖЕНИЯ, ПРЕДЛОЖЕНИЯ, ВИДЕО, ВИДЕО]","[Управление плеером, Плеер, Плеер, Загрузка ви...","[0, 0, 0, 0, 0]",0.0


In [66]:
stratified_df['recall'].mean()

0.208

## Retrieve NDCG

In [60]:
stratified_df['hit_list']

2      [1, 0, 0, 0, 0]
9      [0, 1, 0, 0, 0]
18     [1, 0, 0, 0, 0]
19     [1, 0, 0, 0, 0]
32     [0, 0, 0, 0, 0]
            ...       
733    [0, 0, 0, 0, 0]
684    [0, 0, 0, 0, 0]
690    [0, 0, 0, 0, 0]
696    [0, 0, 0, 0, 0]
702    [0, 0, 0, 0, 0]
Name: hit_list, Length: 125, dtype: object

In [63]:
stratified_df['ndcg'] = stratified_df['hit_list'].apply(lambda x: calculate_ndcg([x])[0]) # КОСТЫЛЬ

In [64]:
stratified_df

Unnamed: 0,input,expected_output,kb_query,index,kb_query_orig,actual_response,actual_context_ids,actual_context,class_1,class_2,hit_list,recall,ndcg
2,"Все пишут, что монетизация на рутубе отключает...","Добрый день! \nМонетизация может отключиться, ...",Почему могут отключить монетизацию из-за автор...,1.0,Почему могут отключить монетизацию из-за автор...,"Основываясь на контексте, монетизация может от...","[1, 170, 182, 199, 2]",Вопрос: query: Почему могут отключить монетиза...,"[МОНЕТИЗАЦИЯ, МОНЕТИЗАЦИЯ, МОНЕТИЗАЦИЯ, МОДЕРА...","[Отключение/подключение монетизации, Отключени...","[1, 0, 0, 0, 0]",1.0,1.00000
9,"Подскажите, пожалуйста, что не запрещено выкла...","Добрый день! Не запрешено публиковать то, что ...",Какой контент можно использовать для монетизац...,4.0,Какой контент можно использовать для монетизац...,"Вопрос: query: Подскажите, пожалуйста, что не ...","[3, 4, 1, 0, 6]",Вопрос: query: Для каких статусов доступна мон...,"[МОНЕТИЗАЦИЯ, МОНЕТИЗАЦИЯ, МОНЕТИЗАЦИЯ, МОДЕРА...","[Отключение/подключение монетизации, Отключени...","[0, 1, 0, 0, 0]",1.0,0.63093
18,Кому принадлежат авторские права на данный кон...,"По умолчанию считается, что авторские права на...","Кому принадлежат авторские права на контент, к...",7.0,"Кому принадлежат авторские права на контент, к...",Авторские права на контент принадлежат тому по...,"[7, 5, 6, 4, 10]",Вопрос: query: Кому принадлежат авторские прав...,"[МОДЕРАЦИЯ, МОДЕРАЦИЯ, МОНЕТИЗАЦИЯ, МОНЕТИЗАЦИ...","[Отклонение/блокировка видео, Отклонение/блоки...","[1, 0, 0, 0, 0]",1.0,1.00000
19,"пройдет видео модерация, если цитировать чужие...",Для прохождения модерации нужно соблюдать неск...,Можно ли цитировать чужие произведения?,8.0,Можно ли цитировать чужие произведения?,"Вопрос о том, пройдет ли видео модерацию, если...","[8, 12, 11, 15, 128]",Вопрос: query: Можно ли цитировать чужие произ...,"[МОДЕРАЦИЯ, МОДЕРАЦИЯ, МОДЕРАЦИЯ, МОДЕРАЦИЯ, В...","[Отклонение/блокировка видео, Отклонение/блоки...","[1, 0, 0, 0, 0]",1.0,1.00000
32,произведние в общественном достоянии? О чем это?,"Это значит, что произведение или его перевод п...",Нарушает ли авторские права использование обра...,13.0,Нарушает ли авторские права использование обра...,Я не знаю ответа на ваш вопрос о произведении ...,"[7, 5, 14, 224, 233]",Вопрос: query: Кому принадлежат авторские прав...,"[МОДЕРАЦИЯ, МОДЕРАЦИЯ, МОДЕРАЦИЯ, ОТСУТСТВУЕТ,...","[Отклонение/блокировка видео, Отклонение/блоки...","[0, 0, 0, 0, 0]",0.0,0.00000
...,...,...,...,...,...,...,...,...,...,...,...,...,...
733,Какое видео могу загрузить?,Оно должно соответствовать правилам размещения...,Какие технические требования предъявляются к з...,272.0,Какие технические требования предъявляются к з...,Вопрос: query: Какое видео могу загрузить?\nОт...,"[236, 264, 278, 263, 244]",Вопрос: query: Как загрузить видеоролик на сай...,"[ВИДЕО, ВИДЕО, ВИДЕО, ВИДЕО, МОДЕРАЦИЯ]","[Загрузка видео, Загрузка видео, Загрузка виде...","[0, 0, 0, 0, 0]",0.0,0.00000
684,Почнм нельзя смотреть видео в хорошем качестве?,"Вероятнее всего, у вас стоит блокировщик рекла...",Не могу посмотреть ролик в хорошем качестве,277.0,Не могу посмотреть ролик в хорошем качестве,Почему нельзя смотреть видео в хорошем качестве?,"[242, 241, 278, 2, 198]",Вопрос: query: Не могу посмотреть ролик в хоро...,"[ВИДЕО, ВИДЕО, ВИДЕО, МОНЕТИЗАЦИЯ, МОДЕРАЦИЯ]","[Воспроизведение видео, Воспроизведение видео,...","[0, 0, 0, 0, 0]",0.0,0.00000
690,Как правильно выбрать категорию?,На RUTUBE доступно большое количество категори...,Какую категорию выбрать для видео?,280.0,Какую категорию выбрать для видео?,Категория должна соответствовать содержанию ви...,"[245, 157, 246, 283, 136]",Вопрос: query: Какую категорию выбрать для вид...,"[ВИДЕО, УПРАВЛЕНИЕ АККАУНТОМ, МОДЕРАЦИЯ, МОДЕР...","[Загрузка видео, Персонализация, Смена категор...","[0, 0, 0, 0, 0]",0.0,0.00000
696,У вас встроенные субтитры или сгенерированые?,"Это могут быть субтитры, которые добавил сам а...",Какие субтитры используются в RUTUBE?,283.0,Какие субтитры используются в RUTUBE?,В контексте предоставленной информации о субти...,"[247, 252, 251, 250, 127]",Вопрос: query: Как включить субтитры в видео?\...,"[ВИДЕО, ПРЕДЛОЖЕНИЯ, ПРЕДЛОЖЕНИЯ, ВИДЕО, ВИДЕО]","[Управление плеером, Плеер, Плеер, Загрузка ви...","[0, 0, 0, 0, 0]",0.0,0.00000


In [67]:
stratified_df['ndcg'].mean()

0.18182480949462645

## Generation G-Eval

In [84]:
def clean_and_split_context(text):
    pattern = r"(Вопрос:.*?Ответ:.*?)(?=\nВопрос:|$)"

    matches = re.findall(pattern, text, re.DOTALL)

    result = [match.strip() for match in matches]
    return result


In [None]:
for idx, row in stratified_df.iterrows():
    # display(row)
    # display(row['actual_context'])
    # break



    test_case = LLMTestCase(input=row['input'], 
                            actual_output=row['actual_response'],
                            retrieval_context=clean_and_split_context(row['actual_context']))
    
    relevance_metric.measure(test_case)
    relevance_score = relevance_metric.score
    relevance_reason = relevance_metric.reason
    
    answer_relevance_metric.measure(test_case)
    answer_relevance_score = answer_relevance_metric.score
    answer_relevance_reason = answer_relevance_metric.reason
    
    hallucination_detection_metric.measure(test_case)
    hallucination_detection_score = hallucination_detection_metric.score
    hallucination_detection_reason = hallucination_detection_metric.reason

    stratified_df.at[idx, 'relevance_score'] = relevance_score
    stratified_df.at[idx, 'relevance_reason'] = relevance_reason
    
    stratified_df.at[idx, 'answer_relevance_score'] = answer_relevance_score
    stratified_df.at[idx, 'answer_relevance_reason'] = answer_relevance_reason
    
    stratified_df.at[idx, 'hallucination_detection_score'] = hallucination_detection_score
    stratified_df.at[idx, 'hallucination_detection_reason'] = hallucination_detection_reason


In [87]:
stratified_df['hallucination_detection_score'].mean()

0.736

In [88]:
stratified_df['relevance_score'].mean()

0.128

In [89]:
stratified_df['answer_relevance_score'].mean()

0.16