In [1]:
# Встановлення необхідних бібліотек
!pip install -U datasets transformers torch sentence-transformers qdrant-client langchain langchain-community langchain-qdrant ragas google-generativeai vllm accelerate bitsandbytes

Collecting torch
  Using cached torch-2.7.1-cp312-none-macosx_11_0_arm64.whl.metadata (29 kB)


In [2]:
# Імпорт всіх необхідних бібліотек
import os
import json
import time
import random
from typing import List, Dict, Any
import numpy as np
import pandas as pd
from tqdm import tqdm

# Datasets та ML
from datasets import load_dataset
import torch
from transformers import AutoTokenizer, AutoModel
from sentence_transformers import SentenceTransformer

# Qdrant
from qdrant_client import QdrantClient
from qdrant_client.models import Distance, VectorParams, PointStruct

# LangChain
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Qdrant
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain.chains import RetrievalQA
from langchain_community.llms import HuggingFacePipeline
from langchain.prompts import PromptTemplate

# Google Gemini для LLM as a Judge
import google.generativeai as genai

# RAGAS для оцінки
from ragas import evaluate
from ragas.metrics import answer_relevancy, faithfulness, context_recall, context_precision


if torch.cuda.is_available():
    device = torch.device("cuda")
elif torch.backends.mps.is_available():
    device = torch.device("mps")
else:
    device = torch.device("cpu")

print(f"Використовується пристрій: {device}")

  from .autonotebook import tqdm as notebook_tqdm


Використовується пристрій: mps


In [4]:
from datasets import load_dataset

def prepare_test_data_triviaqa_rc(dataset, num_samples=2000):
    test_data = []
    contexts_for_kb = []
    for i, item in enumerate(dataset):
        if len(test_data) >= num_samples:
            break

        # Question
        question = item.get('question', '').strip()

        # Answer (inside 'answer')
        answer_dict = item.get('answer', {})
        aliases = answer_dict.get('aliases', [])
        if aliases and isinstance(aliases, list) and len(aliases) > 0:
            answer = str(aliases[0]).strip()
        else:
            answer = str(answer_dict.get('value', '')).strip()

        # Context: try entity_pages first, then search_results if not found
        context = ''
        entity_pages = item.get('entity_pages', [])
        if isinstance(entity_pages, list):
            for page in entity_pages:
                ctx = page.get('wiki_context', '').strip()
                if ctx:
                    context = ctx
                    break
                ctx = page.get('search_context', '').strip()
                if ctx:
                    context = ctx
                    break
        # If still no context, try search_results (list of dicts, each may have 'search_context')
        if not context:
            search_results = item.get('search_results', [])
            if isinstance(search_results, dict):
                ctx_list = search_results['search_context']
                half = int(len(ctx_list) / 4)
                context = " ".join([s.strip() for s in ctx_list if s.strip()][:half])


        if question and answer and context:
            test_data.append({
                'question': question,
                'answer': answer,
                'context': context
            })
            if context not in contexts_for_kb:
                contexts_for_kb.append(context)

    return test_data, contexts_for_kb

# Example usage:
print("Завантаження TriviaQA датасету...")
dataset = load_dataset("mandarjoshi/trivia_qa", "rc", split="train[:30]")

test_data, all_contexts = prepare_test_data_triviaqa_rc(dataset)
print(f"Підготовлено {len(test_data)} тестових прикладів")
print(f"Зібрано {len(all_contexts)} контекстів для бази знань")

if test_data:
    print("\nПриклад тестових даних:")
    print(f"Питання: {test_data[0]['question']}")
    print(f"Відповідь: {test_data[0]['answer']}")
    print(f"Контекст: {test_data[0]['context'][:3000]}...")

Завантаження TriviaQA датасету...
Підготовлено 20 тестових прикладів
Зібрано 20 контекстів для бази знань

Приклад тестових даних:
Питання: Which American-born Sinclair won the Nobel Prize for Literature in 1930?
Відповідь: (Harry) Sinclair Lewis
Контекст: The Nobel Prize in Literature 1930
The Nobel Prize in Literature 1930
Sinclair Lewis
The Nobel Prize in Literature 1930
Sinclair Lewis
Prize share: 1/1
The Nobel Prize in Literature 1930 was awarded to Sinclair Lewis "for his vigorous and graphic art of description and his ability to create, with wit and humour, new types of characters".
Photos: Copyright © The Nobel Foundation
Share this:
To cite this page
MLA style: "The Nobel Prize in Literature 1930". Nobelprize.org. Nobel Media AB 2014. Web. 18 Jan 2017. <http://www.nobelprize.org/nobel_prizes/literature/laureates/1930/>...


In [5]:
# Додаткова фільтрація та покращення якості даних
def clean_newsqa_data_improved(test_data, all_contexts):
    """Покращена очистка даних NewsQA"""
    cleaned_test_data = []
    cleaned_contexts = list(set(all_contexts))  # Видаляємо дублікати контекстів

    # Статистика для фільтрації
    question_lengths = [len(item['question']) for item in test_data]
    answer_lengths = [len(item['answer']) for item in test_data]

    q_min, q_max = np.percentile(question_lengths, [10, 90])
    a_min, a_max = np.percentile(answer_lengths, [5, 95])

    print(f"Статистика довжин:")
    print(f"Питання: {q_min:.0f} - {q_max:.0f} символів")
    print(f"Відповіді: {a_min:.0f} - {a_max:.0f} символів")

    for item in test_data:
        question = item['question'].strip()
        answer = item['answer'].strip()
        context = item['context'].strip()

        # Розширені критерії фільтрації
        if (q_min <= len(question) <= q_max and
            a_min <= len(answer) <= a_max and
            len(context) >= 200 and
            not question.endswith('?') or question.endswith('?')):  # Приймаємо з ? і без

            # Додаткові перевірки якості
            if (not answer.lower().startswith(('the answer is', 'according to')) and
                len(answer.split()) >= 1 and len(answer.split()) <= 50):

                cleaned_test_data.append({
                    'question': question,
                    'answer': answer,
                    'context': context
                })

    return cleaned_test_data, cleaned_contexts

# Очищуємо дані
test_data, all_contexts = clean_newsqa_data_improved(test_data, all_contexts)
print(f"\nПісля покращеної очистки:")
print(f"Тестових прикладів: {len(test_data)}")
print(f"Унікальних контекстів: {len(all_contexts)}")

# Показуємо фінальні приклади
if test_data:
    print("\nФінальні приклади:")
    for i in range(min(3, len(test_data))):
        print(f"\n--- Приклад {i+1} ---")
        print(f"Питання: {test_data[i]['question']}")
        print(f"Відповідь: {test_data[i]['answer']}")
        print(f"Контекст: {test_data[i]['context'][:200]}...")

Статистика довжин:
Питання: 34 - 68 символів
Відповіді: 6 - 42 символів

Після покращеної очистки:
Тестових прикладів: 20
Унікальних контекстів: 20

Фінальні приклади:

--- Приклад 1 ---
Питання: Which American-born Sinclair won the Nobel Prize for Literature in 1930?
Відповідь: (Harry) Sinclair Lewis
Контекст: The Nobel Prize in Literature 1930
The Nobel Prize in Literature 1930
Sinclair Lewis
The Nobel Prize in Literature 1930
Sinclair Lewis
Prize share: 1/1
The Nobel Prize in Literature 1930 was awarded t...

--- Приклад 2 ---
Питання: Where in England was Dame Judi Dench born?
Відповідь: Park Grove (1895)
Контекст: Judi Dench - IMDb
IMDb
Actress | Music Department | Soundtrack
Judi Dench was born in York, England, to Eleanora Olive (Jones), who was from Dublin, Ireland, and Reginald Arthur Dench, a doctor from D...

--- Приклад 3 ---
Питання: From which country did Angola achieve independence in 1975?
Відповідь: Portogało
Контекст: Angola from past to present | Conciliation Resourc

In [6]:
# Налаштування Google Gemini API
genai.configure(api_key="AIzaSyDuDtyLsts7mzRKHRaia5C3vDAc9HiZBOc")

def generate_answer_with_small_llm(question: str) -> str:
    """Генерація відповіді без контексту використовуючи малу модель через Gemini"""
    try:
        model = genai.GenerativeModel('gemini-2.0-flash')

        prompt = f"""You are a helpful assistant. Answer the following question concisely and accurately based on your knowledge.

Question: {question}

Answer:"""

        response = model.generate_content(prompt)
        time.sleep(4)  # Пауза між запитами
        return response.text.strip()
    except Exception as e:
        print(f"Помилка при генерації відповіді: {e}")
        return "Не вдалося згенерувати відповідь"

# Генеруємо відповіді без RAG для тестового набору
print("Генерація відповідей без RAG...")
no_rag_answers = []

for i, item in enumerate(tqdm(test_data[:50])):  # Беремо менше для економії API запитів
    question = item['question']
    generated_answer = generate_answer_with_small_llm(question)
    no_rag_answers.append({
        'question': question,
        'true_answer': item['answer'],
        'generated_answer': generated_answer,
        'context': item['context']
    })

print(f"Згенеровано {len(no_rag_answers)} відповідей без RAG")

Генерація відповідей без RAG...


100%|██████████| 20/20 [01:30<00:00,  4.52s/it]

Згенеровано 20 відповідей без RAG





In [7]:
no_rag_answers[0]

{'question': 'Which American-born Sinclair won the Nobel Prize for Literature in 1930?',
 'true_answer': '(Harry) Sinclair Lewis',
 'generated_answer': 'Sinclair Lewis',
 'context': 'The Nobel Prize in Literature 1930\nThe Nobel Prize in Literature 1930\nSinclair Lewis\nThe Nobel Prize in Literature 1930\nSinclair Lewis\nPrize share: 1/1\nThe Nobel Prize in Literature 1930 was awarded to Sinclair Lewis "for his vigorous and graphic art of description and his ability to create, with wit and humour, new types of characters".\nPhotos: Copyright © The Nobel Foundation\nShare this:\nTo cite this page\nMLA style: "The Nobel Prize in Literature 1930". Nobelprize.org. Nobel Media AB 2014. Web. 18 Jan 2017. <http://www.nobelprize.org/nobel_prizes/literature/laureates/1930/>'}

In [8]:
# Ініціалізація Qdrant клієнта (in-memory)
qdrant_client = QdrantClient(":memory:")

# Налаштування embedding моделі
embedding_model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
embedding_dim = 384

print(f"Розмірність вбудовувань: {embedding_dim}")

Розмірність вбудовувань: 384


In [9]:
# Розбиття текстів на частини
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    length_function=len,
)

# Розбиваємо всі контексти на чанки
print("Розбиття текстів на частини...")
all_chunks = []
chunk_metadata = []

for i, context in enumerate(tqdm(all_contexts)):
    chunks = text_splitter.split_text(context)
    for j, chunk in enumerate(chunks):
        if len(chunk.strip()) > 50:  # Фільтруємо занадто короткі чанки
            all_chunks.append(chunk)
            chunk_metadata.append({
                'source_id': i,
                'chunk_id': j,
                'text': chunk
            })

print(f"Створено {len(all_chunks)} текстових чанків")

Розбиття текстів на частини...


100%|██████████| 20/20 [00:00<00:00, 3261.00it/s]

Створено 339 текстових чанків





In [10]:
# Створення колекції у Qdrant
collection_name = "knowledge_base"

qdrant_client.create_collection(
    collection_name=collection_name,
    vectors_config=VectorParams(size=embedding_dim, distance=Distance.COSINE),
)

print(f"Створено колекцію '{collection_name}' у Qdrant")

Створено колекцію 'knowledge_base' у Qdrant


In [11]:
# Генерація вбудовувань та збереження у векторному сховищі
print("Генерація вбудовувань та індексація...")
batch_size = 32

for i in tqdm(range(0, len(all_chunks), batch_size)):
    batch_chunks = all_chunks[i:i+batch_size]
    batch_metadata = chunk_metadata[i:i+batch_size]

    # Генеруємо вбудовування
    embeddings = embedding_model.encode(batch_chunks)

    # Створюємо точки для Qdrant
    points = []
    for j, (chunk, metadata, embedding) in enumerate(zip(batch_chunks, batch_metadata, embeddings)):
        points.append(PointStruct(
            id=i + j,
            vector=embedding.tolist(),
            payload={
                'text': chunk,
                'source_id': metadata['source_id'],
                'chunk_id': metadata['chunk_id']
            }
        ))

    # Зберігаємо у Qdrant
    qdrant_client.upsert(
        collection_name=collection_name,
        points=points
    )

print("Векторне сховище створено успішно!")

Генерація вбудовувань та індексація...


100%|██████████| 11/11 [00:01<00:00, 10.16it/s]

Векторне сховище створено успішно!





In [12]:
def calculate_recall_at_k(test_data, k_values=[5, 10, 20, 30]):
    """Розрахунок Recall@K для системи з чанками"""
    recall_scores = {k: [] for k in k_values}

    print("Обчислення Recall@K...")

    for item in tqdm(test_data[:500]):  # Обмежуємо для швидкості
        question = item['question']
        true_context = item['context']

        # Генеруємо embedding для питання
        query_embedding = embedding_model.encode([question])[0]

        # Шукаємо в Qdrant
        search_results = qdrant_client.query_points(
            collection_name=collection_name,
            query=query_embedding.tolist(),
            limit=max(k_values),
            with_payload=True
        )

        # Для кожного k перевіряємо, чи знайшли релевантний чанк
        for k in k_values:
            found = False

            # Перевіряємо топ-k результатів
            for result in search_results.points[:k]:
                retrieved_chunk = result.payload.get('text', '')

                if retrieved_chunk.strip() in true_context:
                    found = True
                    break

            recall_scores[k].append(1 if found else 0)

    # Обчислюємо середні значення
    avg_recall = {}
    for k in k_values:
        avg_recall[k] = np.mean(recall_scores[k])
        print(f"Recall@{k}: {avg_recall[k]:.3f}")

    return avg_recall

# Використання:
recall_results = calculate_recall_at_k(test_data)

Обчислення Recall@K...


100%|██████████| 20/20 [00:00<00:00, 24.19it/s]

Recall@5: 1.000
Recall@10: 1.000
Recall@20: 1.000
Recall@30: 1.000





In [13]:
# genai.configure(api_key="AIzaSyDuDtyLsts7mzRKHRaia5C3vDAc9HiZBOc")
genai.configure(api_key="AIzaSyCuNPHw1u6aB9g9iSrZocd-A4Ro025VwjQ")

def retrieve_relevant_contexts(question: str, k: int = 10) -> List[str]:
    """Пошук релевантних контекстів для питання"""
    query_embedding = embedding_model.encode([question])[0]

    search_results = qdrant_client.search(
        collection_name=collection_name,
        query_vector=query_embedding.tolist(),
        limit=k
    )

    return [result.payload['text'] for result in search_results]

def generate_rag_answer(question: str, contexts: List[str]) -> str:
    """Генерація відповіді з використанням RAG"""
    try:
        model = genai.GenerativeModel('gemini-2.0-flash-exp')

        # Об'єднуємо контексти
        context_text = "\n\n".join(contexts)

        prompt = f"""Based on the following context, answer the question concisely and accurately.

Context:
{context_text}

Question: {question}

Answer:"""

        response = model.generate_content(prompt)
        time.sleep(8)  # Пауза між запитами
        return response.text.strip()
    except Exception as e:
        print(f"Помилка при генерації RAG відповіді: {e}")
        raise Exception(e)
        return "Не вдалося згенерувати відповідь"

# Генерація відповідей з RAG
print("Генерація відповідей з RAG...")
rag_answers = []

for item in tqdm(test_data[:50]):  # Беремо ту ж кількість для порівняння
    question = item['question']

    # Отримуємо релевантні контексти
    relevant_contexts = retrieve_relevant_contexts(question, k=10)

    # Генеруємо відповідь з RAG
    rag_answer = generate_rag_answer(question, relevant_contexts)

    rag_answers.append({
        'question': question,
        'true_answer': item['answer'],
        'generated_answer': rag_answer,
        'contexts': relevant_contexts,
        'original_context': item['context']
    })

print(f"Згенеровано {len(rag_answers)} відповідей з RAG")

Генерація відповідей з RAG...


  search_results = qdrant_client.search(
100%|██████████| 20/20 [02:53<00:00,  8.66s/it]

Згенеровано 20 відповідей з RAG





In [14]:
rag_answers[1]

{'question': 'Where in England was Dame Judi Dench born?',
 'true_answer': 'Park Grove (1895)',
 'generated_answer': 'York',
 'contexts': ['Judi Dench - IMDb\nIMDb\nActress | Music Department | Soundtrack\nJudi Dench was born in York, England, to Eleanora Olive (Jones), who was from Dublin, Ireland, and Reginald Arthur Dench, a doctor from Dorset, England. She attended Mount School in York, and studied at the Central School of Speech and Drama. She has performed with Royal Shakespeare Company, the National Theatre, and at Old Vic Theatre. She is a ... See full bio »\nBorn:\na list of 35 people\ncreated 02\xa0Jul\xa02011\na list of 35 people',
  "Next Article in World »\nLONDON, England (CNN) -- The wife of Prince Edward, the Queen Elizabeth II's youngest son, gave birth to a baby boy Monday, Buckingham Palace confirmed in a statement.\nThe boy was delivered by caesarean section at Frimley Park Hospital in Surrey and weighed 6 pounds 2 ounces, the statement said. Prince Edward was with 

In [15]:
def evaluate_answer_quality(question: str, true_answer: str, generated_answer: str) -> Dict[str, Any]:
    """Оцінка якості відповіді за допомогою LLM as a Judge"""
    try:
        model = genai.GenerativeModel('gemini-2.5-flash-preview-05-20')

        prompt = f"""You are an expert evaluator. Please evaluate the quality of the generated answer compared to the true answer.

Question: {question}
True Answer: {true_answer}
Generated Answer: {generated_answer}

Please provide:
1. A binary score (0 or 1) where 1 means the generated answer is correct/relevant and 0 means incorrect/irrelevant
2. A detailed score from 1-5 where:
   - 1: Completely incorrect or irrelevant
   - 2: Mostly incorrect with some relevant information
   - 3: Partially correct
   - 4: Mostly correct with minor issues
   - 5: Completely correct and comprehensive

Format your response as:
Binary Score: [0 or 1]
Detailed Score: [1-5]
Explanation: [Brief explanation of your scoring]"""

        response = model.generate_content(prompt)
        time.sleep(5)

        # Парсимо відповідь
        response_text = response.text
        lines = response_text.split('\n')

        binary_score = 0
        detailed_score = 1
        explanation = ""

        for line in lines:
            if 'Binary Score:' in line:
                try:
                    binary_score = int(line.split(':')[1].strip())
                except:
                    binary_score = 0
            elif 'Detailed Score:' in line:
                try:
                    detailed_score = int(line.split(':')[1].strip())
                except:
                    detailed_score = 1
            elif 'Explanation:' in line:
                explanation = line.split(':', 1)[1].strip()

        return {
            'binary_score': binary_score,
            'detailed_score': detailed_score,
            'explanation': explanation
        }

    except Exception as e:
        print(f"Помилка при оцінці: {e}")
        return {
            'binary_score': 0,
            'detailed_score': 1,
            'explanation': "Помилка оцінки"
        }

# Оцінка відповідей без RAG
print("Оцінка якості відповідей без RAG...")
no_rag_evaluations = []

for item in tqdm(no_rag_answers):
    evaluation = evaluate_answer_quality(
        item['question'],
        item['true_answer'],
        item['generated_answer']
    )
    no_rag_evaluations.append(evaluation)



Оцінка якості відповідей без RAG...


100%|██████████| 20/20 [03:33<00:00, 10.68s/it]


In [16]:
# Оцінка відповідей з RAG
print("Оцінка якості відповідей з RAG...")
rag_evaluations = []

for item in tqdm(rag_answers):
    evaluation = evaluate_answer_quality(
        item['question'],
        item['true_answer'],
        item['generated_answer']
    )
    rag_evaluations.append(evaluation)

Оцінка якості відповідей з RAG...


100%|██████████| 20/20 [03:57<00:00, 11.89s/it]


In [25]:
# Обчислення метрик
def calculate_metrics(evaluations):
    """Обчислення середніх метрик"""
    binary_scores = [eval_item['binary_score'] for eval_item in evaluations[:7]]
    detailed_scores = [eval_item['detailed_score'] for eval_item in evaluations[:7]]

    return {
        'accuracy': np.mean(binary_scores),
        'avg_detailed_score': np.mean(detailed_scores),
        'total_samples': len(evaluations)
    }

no_rag_metrics = calculate_metrics(no_rag_evaluations)
rag_metrics = calculate_metrics(rag_evaluations)

print("=== РЕЗУЛЬТАТИ ЕКСПЕРИМЕНТУ ===")
print()
print("1. Якість Retrieval моделі (Recall@K):")
for k, score in recall_results.items():
    print(f"   Recall@{k}: {score:.3f}")

print()
print("2. Якість відповідей без RAG:")
print(f"   Accuracy (binary): {no_rag_metrics['accuracy']:.3f}")
print(f"   Avg detailed score: {no_rag_metrics['avg_detailed_score']:.3f}")
print(f"   Total samples: {no_rag_metrics['total_samples']}")

print()
print("3. Якість відповідей з RAG:")
print(f"   Accuracy (binary): {rag_metrics['accuracy']:.3f}")
print(f"   Avg detailed score: {rag_metrics['avg_detailed_score']:.3f}")
print(f"   Total samples: {rag_metrics['total_samples']}")

print()
print("4. Порівняння RAG vs No-RAG:")
accuracy_improvement = rag_metrics['accuracy'] - no_rag_metrics['accuracy']
detailed_improvement = rag_metrics['avg_detailed_score'] - no_rag_metrics['avg_detailed_score']

print(f"   Покращення accuracy: {accuracy_improvement:+.3f}")
print(f"   Покращення detailed score: {detailed_improvement:+.3f}")

if accuracy_improvement > 0:
    print("   ✅ RAG показав кращі результати за accuracy")
else:
    print("   ❌ RAG не покращив accuracy")

if detailed_improvement > 0:
    print("   ✅ RAG показав кращі результати за детальною оцінкою")
else:
    print("   ❌ RAG не покращив детальну оцінку")

=== РЕЗУЛЬТАТИ ЕКСПЕРИМЕНТУ ===

1. Якість Retrieval моделі (Recall@K):
   Recall@5: 1.000
   Recall@10: 1.000
   Recall@20: 1.000
   Recall@30: 1.000

2. Якість відповідей без RAG:
   Accuracy (binary): 0.857
   Avg detailed score: 4.429
   Total samples: 20

3. Якість відповідей з RAG:
   Accuracy (binary): 0.857
   Avg detailed score: 4.714
   Total samples: 20

4. Порівняння RAG vs No-RAG:
   Покращення accuracy: +0.000
   Покращення detailed score: +0.286
   ❌ RAG не покращив accuracy
   ✅ RAG показав кращі результати за детальною оцінкою


In [26]:
# Показуємо кілька прикладів порівняння
print("=== ПРИКЛАДИ ВІДПОВІДЕЙ ===")

for i in range(min(30, len(no_rag_answers))):
    print(f"\n--- Приклад {i+1} ---")
    print(f"Питання: {no_rag_answers[i]['question']}")
    print(f"Правильна відповідь: {no_rag_answers[i]['true_answer']}")
    print(f"Без RAG: {no_rag_answers[i]['generated_answer']}")
    print(f"З RAG: {rag_answers[i]['generated_answer']}")
    print(f"Оцінка без RAG: Binary={no_rag_evaluations[i]['binary_score']}, Detailed={no_rag_evaluations[i]['detailed_score']}")
    print(f"Оцінка з RAG: Binary={rag_evaluations[i]['binary_score']}, Detailed={rag_evaluations[i]['detailed_score']}")

=== ПРИКЛАДИ ВІДПОВІДЕЙ ===

--- Приклад 1 ---
Питання: Which American-born Sinclair won the Nobel Prize for Literature in 1930?
Правильна відповідь: (Harry) Sinclair Lewis
Без RAG: Sinclair Lewis
З RAG: Sinclair Lewis
Оцінка без RAG: Binary=1, Detailed=5
Оцінка з RAG: Binary=1, Detailed=5

--- Приклад 2 ---
Питання: Where in England was Dame Judi Dench born?
Правильна відповідь: Park Grove (1895)
Без RAG: York, England.
З RAG: York
Оцінка без RAG: Binary=1, Detailed=4
Оцінка з RAG: Binary=1, Detailed=5

--- Приклад 3 ---
Питання: From which country did Angola achieve independence in 1975?
Правильна відповідь: Portogało
Без RAG: Portugal
З RAG: Portugal
Оцінка без RAG: Binary=1, Detailed=5
Оцінка з RAG: Binary=1, Detailed=5

--- Приклад 4 ---
Питання: Which city does David Soul come from?
Правильна відповідь: Chi-Beria
Без RAG: David Soul was born in Chicago, Illinois.
З RAG: Chicago
Оцінка без RAG: Binary=1, Detailed=5
Оцінка з RAG: Binary=0, Detailed=3

--- Приклад 5 ---
Питання: Who