### Итоговый просмотр результатов по 1 этапу и базовому RAG

In [10]:
import pandas as pd
import numpy as np

# Пути к CSV файлам
csv_paths = [
    '../eval_base_rag/evaluete_base_rag.csv',
    '../eval_rag_step_query_translation/standart_split/evaluete_rag_step_back.csv',
    '../eval_rag_step_query_translation/html_split/evaluete_rag_fusion.csv',
    '../eval_rag_step_query_translation/html_split/evaluete_rag_multi_query.csv',
    '../eval_rag_step_query_translation/html_split/evaluete_rag_step_back.csv',
]

# Массив с названиями методов (или столбцов)
method_names = [
    'Base rag', 
    'standart_split - rag_step_back', 
    'html_split - rag_fusion', 
    'html_split - rag_multi_query', 
    'html_split - rag_step_back'
]

# Столбцы, которые нужно пропустить при вычислении средних значений
columns_to_skip = ['question', 'contexts', 'ground_truth', 'answer']

# Инициализация пустого списка для хранения данных
data = []

# Массив для хранения всех уникальных метрик
all_metrics = set()

# Обработка каждого CSV файла из массива путей
for method_index, csv_path in enumerate(csv_paths):
    df = pd.read_csv(csv_path)
    
    # Вычисление средних значений для всех остальных столбцов
    mean_values = df.drop(columns=columns_to_skip).mean()
    
    # Преобразование средних значений в словарь
    mean_dict = mean_values.to_dict()
    
    # Добавление метрик в набор данных
    method_data = {key: float(value) for key, value in mean_dict.items()}
    all_metrics.update(method_data.keys())
    data.append(pd.Series(method_data, name=method_names[method_index]))

# Создание DataFrame из собранных данных
df_metrics = pd.concat(data, axis=1)

# Убедимся, что все метрики присутствуют в каждом столбце
for metric in all_metrics:
    if metric not in df_metrics.index:
        df_metrics.loc[metric] = np.nan  # Используем NaN для отсутствующих значений

# Заполнение отсутствующих значений NaN (замена '-' на NaN)
df_metrics = df_metrics.apply(pd.to_numeric, errors='coerce')

# Сохранение DataFrame в CSV файл
df_metrics.to_csv('metrics_step_query_translation.csv')

print("Таблица метрик сохранена в файл metrics_step_query_translation.csv")


Таблица метрик сохранена в файл metrics_step_query_translation.csv


In [11]:
def highlight_max(s):
    is_max = s == s.max()
    return ['background-color: #d3d3d3' if v else '' for v in is_max]

# Применение стиля к DataFrame
styled_df = df_metrics.style.apply(highlight_max, axis=1)
styled_df

Unnamed: 0,Base rag,standart_split - rag_step_back,html_split - rag_fusion,html_split - rag_multi_query,html_split - rag_step_back
faithfulness,0.839286,0.882857,0.934524,0.802299,0.894144
answer_relevancy,0.711729,0.775836,0.781693,0.671017,0.833722
context_precision,1.0,1.0,1.0,1.0,1.0
context_relevancy,0.754918,0.798022,0.803194,0.787677,0.793711
answer_similarity,0.923925,0.932193,0.925964,0.916761,0.929158
bleu_score,0.093522,0.092514,0.099452,0.097483,0.092317
sim-spacy,0.857789,0.882171,0.854943,0.834115,0.862769
cos-sim-TF-IDF,0.265224,0.290051,0.286405,0.247157,0.278186
cos-sim-BertModel,0.982229,0.984235,0.981701,0.979538,0.984383


'RAG my smart 100-220 token' и 'RAG smart 1000 / 100' имеют примерно одинаковое разбиение по кускам

### RAGAS

**Faithfulness**
- Насколько фактически точен сгенерированный ответ.
- Это измеряет фактическую согласованность сгенерированного ответа с данным контекстом. Он рассчитывается на основе ответа и полученного контекста. Ответ масштабируется до (0,1) диапазона. Чем выше, тем лучше.
Сгенерированный ответ считается верным, если все утверждения, сделанные в ответе, могут быть выведены из данного контекста. Чтобы рассчитать это, сначала определяется набор утверждений из сгенерированного ответа. Затем каждое из этих утверждений проверяется с учетом данного контекста, чтобы определить, можно ли вывести его из данного контекста или нет. Оценка верности дается по делению на
  
**Answer Relevancy**
- Насколько релевантен сгенерированный ответ на вопрос (насколько ответы соответствуют заданным вопросам).
  
**Context Relevancy**
- Метрика оценивает релевантность извлеченного контекста на основе вопроса и контекста.
  
**Answer Semantic Similarity**
- Метрика оценивает семантическое сходство между сгенерированным ответом и эталонным ответом.

### Другие метрики

**BLEU Score**
- BLEU (Bilingual Evaluation Understudy) — это метрика, используемая для оценки качества машинного перевода или сгенерированного текста. Она сравнивает машинно-сгенерированный текст с одним или несколькими эталонными текстами.
  
**Sim-SpaCy**
- Эта метрика оценивает сходство между сгенерированным ответом и эталонным ответом с использованием модели SpaCy. Она измеряет семантическое сходство текстов на основе их векторных представлений.
  
**Cos-Sim-TF-IDF**
- Метрика cosine similarity с использованием TF-IDF оценивает сходство между двумя текстами, измеряя угол между их векторными представлениями в пространстве признаков.
  
 **Cos-Sim-BertModel**
- Эта метрика оценивает семантическое сходство между сгенерированным ответом и эталонным ответом, используя предварительно обученную модель BERT. Она основывается на вычислении косинусного сходства между векторными представлениями текстов, полученными из BERT.
  
 **Human**
- Метрика считается вручную, где 1 - это идеальное совпадение ответа и правильного ответа, 0 - нет свопадения, 0.5 - частичное совпадение. И в конце суммируется и делится на общее количество.