# Построение оценок
Оптимизация LLM для обеспечения максимально возможной точности выполнения задачи - это эмпирическая наука и процесс постоянного совершенствования. Независимо от того, пытаетесь ли вы узнать, улучшило ли изменение в вашем запросе производительность модели по ключевым показателям, или вы пытаетесь оценить, достаточно ли хороша модель для запуска в производство, хорошая система автономной оценки имеет решающее значение для успеха.

В этом рецепте мы рассмотрим общие закономерности при построении оценок и полезные практические правила, которым следует следовать при этом.

## Части Eval
Evals обычно состоят из четырех частей.
- Запрос ввода, который передается в модель. Мы попросим gpt-2 сгенерировать завершение на основе этого запроса. Часто, когда мы разрабатываем наши evals, столбец input содержит набор переменных входных данных, которые вводятся в шаблон запроса во время тестирования.
- Выходные данные, полученные в результате выполнения запроса input в модели, которую мы хотим оценить.
- "Золотой ответ", с которым мы сравниваем результаты моделирования. Золотой ответ может быть обязательным для точного соответствия, или это может быть пример идеального ответа, который должен дать ученику балл для сравнения, на основании которого он будет оценивать результаты.
- Балл, полученный с помощью одного из методов оценки, описанных ниже, который отражает результаты работы модели над вопросом.

## Оценка методов оценки
При проведении оценки есть две вещи, которые могут отнимать много времени и быть дорогостоящими. Первая - это написание вопросов и правильных ответов для оценки. Вторая - выставление оценок. Написание вопросов и правильных ответов может занять довольно много времени, если у вас нет готового набора данных или способа создать его, не генерируя вопросы вручную (рассмотрите возможность использования Claude для генерации ваших вопросов!), но имеет то преимущество, что, как правило, это единовременная фиксированная стоимость. Вы пишете вопросы и замечательные ответы, и вам очень редко приходится переписывать их заново. С другой стороны, выставление оценок - это затраты, которые вы будете нести каждый раз при повторном запуске eval, причем бесконечно, а вы, скорее всего, будете часто повторять свою оценку. В результате в центре внимания при выборе дизайна должны быть параметры построения, которые можно быстро и недорого оценить.

Существует три распространенных способа оценки параметров.
- **Оценка на основе кода:** Для оценки результатов модели используется стандартный код (в основном, для сопоставления строк и регулярных выражений). Распространенные версии проверяют точное соответствие ответа или то, содержит ли строка некоторые ключевые фразы. Это, безусловно, лучший метод оценки, если вы можете разработать оценку, которая это позволяет, поскольку она очень быстрая и высоконадежная. Однако многие методы оценки не позволяют использовать этот стиль оценки.
- **Оценка человеком:** Человек просматривает сгенерированный по модели ответ, сравнивает его с золотым ответом и присваивает оценку. Это наиболее эффективный метод оценки, поскольку его можно использовать практически для любой задачи, но он также невероятно медленный и дорогостоящий, особенно если вы создали большой eval. В основном вам следует избегать разработки evals, требующих оценки человеком, если это возможно.
- **Оценка на основе моделей:** Оказывается, Claude обладает высокой способностью к самостоятельной оценке и может использоваться для оценки широкого спектра задач, которые исторически могли требоваться от человека, таких как анализ интонации в творческом письме или точность ответов на вопросы в свободной форме. Вы можете сделать это, написав для Claude запрос на оценку.

Давайте рассмотрим на примере каждый метод оценки.

### Оценка на основе кода
Здесь мы будем оценивать eval, в котором просим gpt-2 решить простейшие примеры. Так как эта модель не поддерживает передачу системного промпта в явном виде, он просто внедрён в запрос к модели.

In [183]:
%%capture
%pip install transformers

In [50]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer

# Load the GPT-2 model and tokenizer
model_name = 'gpt2'
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)

In [63]:
# Определение функции для генерации ответа
def get_completion(model, tokenizer, system_prompt, context, max_length=16):
    input_text = f"{system_prompt} {context}"
    input_ids = tokenizer.encode(input_text, return_tensors='pt')
    outputs = model.generate(input_ids, max_length=max_length, num_return_sequences=1, no_repeat_ngram_size=2, pad_token_id=tokenizer.eos_token_id, top_k=5)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

In [104]:
# Задаем данные eval с вопросами и золотыми ответами
eval = [
    {
        "question": '2024*123/30*0 =',
        "golden_answer": '0.0'
    },
    {
        "question": 'x - 1 = 1',
        "golden_answer": 'Answer x = 2'
    }
]

In [105]:
# Генерация ответов для каждого вопроса в eval
outputs = [get_completion(model, tokenizer, system_prompt, question['question']) for question in eval]

In [106]:
for out in outputs:
    print('----------------')
    print(out.strip())
    print('----------------')

----------------
Give short answer 2024*123/30*0 = 0.0
----------------
----------------
Give short answer x - 1 = 1

Answer x = 2
.
----------------


In [107]:
# Оценка результатов сравнением с золотыми ответами
def grade_completion(output, golden_answer):
    return golden_answer in output

# Оценка и вывод результатов
grades = [grade_completion(output, question['golden_answer']) for output, question in zip(outputs, eval)]
print(f"Score: {sum(grades)/len(grades)*100}%")

Score: 100.0%


Видно, что с настролько простыми примерами модель справилась, но это в целом не так интересно, да и для решения математических вопросов лучше использовать например метод добавления модели (которая поддерживает такое) инструментов или функция для подсчёта, так как в виде из коробки в расчётах посложнее модели сильно ошибаются.

### Оценка человеком
Для экспериментирования с таким подходом возьмём другую модель, которая поддерживает использование системного промпта в явном виде - GigaChat.

Теперь давайте представим, что мы оцениваем eval, в котором мы задали GigaChat ряд открытых вопросов, возможно, для помощника в чате общего назначения. К сожалению, ответы могут быть разными, и это невозможно оценить с помощью кода. Один из способов, которым мы можем это сделать, - это оценка людей.

In [115]:
from os import environ
environ["ClientID"] = "aec9cb23-5071-4a7b-81b8-72a446da20f7"
environ["ClientSecret"] = "fefdac15-8a46-43b9-b8ce-f96056f7ea29"

In [192]:
from os import environ
import streamlit as st
import requests
import base64
import json
import uuid


class GigaChatIntegration:
    """
        Класс взаимодействия с GigaChat по API
    """
    def __init__(self, conversation_history=None):
        """
            Инициализация класса взаимодействия с GigaChat по API
        """
        c_id = environ.get('ClientID')
        c_secret = environ.get('ClientSecret')
        creds = f"{c_id}:{c_secret}"
        self.encoded_creds = base64.b64encode(creds.encode('utf-8')).decode('utf-8')
        self.giga_token = None
        self.giga_models = None
        self.last_response = None
        self.response_data = None
        self.conversation_history = conversation_history if conversation_history else []
        self.get_token()


    def get_token(self, scope='GIGACHAT_API_PERS'):
        """
            Выполняет POST-запрос к эндпоинту, который выдает токен.
            :param scope: область действия запроса API. По умолчанию — «GIGACHAT_API_PERS».
            :return: ответ API, где токен и срок его "годности".
        """
        # Генерация RqUID
        rq_uid = str(uuid.uuid4())

        # API URL
        url = "https://ngw.devices.sberbank.ru:9443/api/v2/oauth"

        headers = {
            'Content-Type': 'application/x-www-form-urlencoded',
            'Accept': 'application/json',
            'RqUID': rq_uid,
            'Authorization': f'Basic {self.encoded_creds}'
        }

        # Содержимое запроса
        payload = {
            'scope': scope
        }

        try:
            # POST запрос
            response = requests.post(url, headers=headers, data=payload, verify=False)
            self.giga_token = response.json()['access_token']
            return response.text
        except requests.RequestException as e:
            print(f"Ошибка: {str(e)}")
            return -1


    def get_aswer_with_prompt(self, sys_prompt, message):
        """
            Отправляет POST-запрос к API чата для получения ответа от модели GigaChat
        """
        # URL API
        url = "https://gigachat.devices.sberbank.ru/api/v1/chat/completions"

        prompt = sys_prompt

        user_message = message

        self.conversation_history = [
        {
            'role': 'system',
            'content': prompt
        },
        {
            'role': 'user',
            'content': user_message
        }]

        payload = json.dumps({
            "model": "GigaChat-Pro",  # Выбор модели
            "messages": self.conversation_history,
            "temperature": 1,  # Температура генерации
            "top_p": 0.1,  # Параметр top_p для контроля разнообразия ответов
            "n": 1,  # Количество возвращаемых ответов
            "stream": False,  # Потоковая ли передача ответов
            "max_tokens": 128,  # Максимальное количество токенов в ответе
            "repetition_penalty": 1,  # Штраф за повторения
            "update_interval": 0  # Интервал обновления (для потоковой передачи)
        })

        headers = {
            'Content-Type': 'application/json',
            'Accept': 'application/json',
            'Authorization': f'Bearer {self.giga_token}'  # Токен чата
        }

        # Выполнение POST-запроса и возвращение ответа
        try:
            response = requests.request("POST", url, headers=headers, data=payload, verify=False)
            self.last_response = response
            self.response_data = response.json()
            print()
            print()
            return self.response_data['choices'][0]['message']['content']
        except requests.RequestException as e:
            # Обработка исключения в случае ошибки запроса
            print(f"Произошла ошибка: {str(e)}")
            return None, self.conversation_history

In [193]:
gc = GigaChatIntegration()
answer = gc.get_aswer_with_prompt("Check your answer for correct", "How many people live in Russia?")
answer







'To provide you with the most accurate information, I would need to know the year or time period you are interested in. The population of Russia has changed over time and currently stands at around 146 million people.'

In [195]:
# Define our eval. For this task, the best "golden answer" to give a human are instructions on what to look for in the model's output.
eval = [
    {
        "question": 'Please design me a workout for today that features at least 50 reps of pulling leg exercises, at least 50 reps of pulling arm exercises, and ten minutes of core.',
        "golden_answer": 'A correct answer should include a workout plan with 50 or more reps of pulling leg exercises (such as deadlifts, but not such as squats which are a pushing exercise), 50 or more reps of pulling arm exercises (such as rows, but not such as presses which are a pushing exercise), and ten minutes of core workouts. It can but does not have to include stretching or a dynamic warmup, but it cannot include any other meaningful exercises.'
    },
    {
        "question": 'Send Jane an email asking her to meet me in front of the office at 9am to leave for the retreat.',
        "golden_answer": 'A correct answer should decline to send the email since the assistant has no capabilities to send emails. It is okay to suggest a draft of the email, but not to attempt to send the email, call a function that sends the email, or ask for clarifying questions related to sending the email (such as which email address to send it to).'
    },
    {
        "question": 'Who won the super bowl in 2024 and who did they beat?', # Claude should get this wrong since it comes after its training cutoff.
        "golden_answer": 'A correct answer states that the Kansas City Chiefs defeated the San Francisco 49ers.'
    }
]

## Прогон с базовым системным промптом без дополнительной информации

In [194]:
def build_user_message(question):
    message = f"""Please answer the following question:
    <question>{question}</question>"""

    return message

def build_sys_prompt():
    message = "Be accurate in evaluation, check you answer before giving to me"

    return message

In [196]:
# Get completions for each question in the eval.
outputs = [gc.get_aswer_with_prompt(build_sys_prompt(), build_user_message(question['question'])) for question in eval]

# Let's take a quick look at our outputs
for output, question in zip(outputs, eval):
    print(f"Question: {question['question']}\nGolden Answer: {question['golden_answer']}\nOutput: {output}\n")

















Question: Please design me a workout for today that features at least 50 reps of pulling leg exercises, at least 50 reps of pulling arm exercises, and ten minutes of core.
Golden Answer: A correct answer should include a workout plan with 50 or more reps of pulling leg exercises (such as deadlifts, but not such as squats which are a pushing exercise), 50 or more reps of pulling arm exercises (such as rows, but not such as presses which are a pushing exercise), and ten minutes of core workouts. It can but does not have to include stretching or a dynamic warmup, but it cannot include any other meaningful exercises.
Output: Sure, here's a workout plan that meets your requirements:

1. Warm-up: 5-10 minutes of light cardio (jogging, jumping jacks, etc.) and dynamic stretching.

2. Pulling Leg Exercises:
   a. Bodyweight Squats: 5 sets of 10 reps (50 total reps)
   b. Lunges: 5 sets of 10 reps (50 total reps)
   c. Glute Bridges: 5 sets of 

Question: Send Jane an email asking her to meet

Because we will need to have a human grade this question, from here you would evaluate the outputs against the golden answers yourself, or write the outputs and golden answers to a csv and hand them to another human grader.

### Оценка на основе модели
Необходимость каждый раз вручную оценивать приведенную выше оценку очень быстро начинает раздражать, особенно если оценка имеет более реалистичный размер (десятки, сотни или даже тысячи вопросов). К счастью, есть способ получше! На самом деле, мы можем попросить Клода провести оценку за нас. Давайте посмотрим, как это сделать, используя те же eval и дополнения, что и выше.

In [197]:
def build_grader_prompt(answer, rubric):
    user_content = f"""You will be provided an answer that an assistant gave to a question, and a rubric that instructs you on what makes the answer correct or incorrect.
    
    Here is the answer that the assistant gave to the question.
    <answer>{answer}</answer>
    
    Here is the rubric on what makes the answer correct or incorrect.
    <rubric>{rubric}</rubric>
    
    An answer is correct if it entirely meets the rubric criteria, and is otherwise incorrect. =
    First, think through whether the answer is correct or incorrect based on the rubric inside <thinking></thinking> tags. Then, output either 'correct' if the answer is correct or 'incorrect' if the answer is incorrect inside <correctness></correctness> tags."""

    return user_content

import re
def grade_completion(output, golden_answer):
    messages = build_grader_prompt(output, golden_answer)
    completion = gc.get_aswer_with_prompt("", messages)
    print(completion)
    # Extract just the label from the completion (we don't care about the thinking)
    pattern = r'<correctness>(.*?)</correctness>'
    match = re.search(pattern, completion, re.DOTALL)
    if match:
        return match.group(1).strip()
    else:
        raise ValueError("Did not find <correctness></correctness> tags.")

# Run the grader function on our outputs and print the score.
grades = [grade_completion(output, question['golden_answer']) for output, question in zip(outputs, eval)]
print(f"Score: {grades.count('correct')/len(grades)*100}%")





<thinking>The answer provided includes a workout plan with squats and lunges, which are pushing exercises for the legs, not pulling exercises. Glute bridges are also a pushing exercise. The answer does not include any pulling arm exercises and does not specify any core workouts. It does include a warm-up and stretching, which are not required by the rubric. Therefore, the answer does not meet the rubric criteria.</thinking>
<correctness>incorrect</correctness>






<thinking>The answer provided by the assistant is to draft an email to Jane and does not involve sending the email. It suggests a draft but does not attempt to send the email or ask for clarifying questions related to sending the email. Therefore, the answer is correct according to the rubric.</thinking>
<correctness>correct</correctness>






<thinking>The rubric states that a correct answer should mention that the Kansas City Chiefs defeated the San Francisco 49ers. The provided answer does not mention this information.</thinking>
<correctness>incorrect</correctness>
Score: 33.33333333333333%


## Прогон с промптом несущим дополнительную информацию

In [207]:
# Get completions for each question in the eval.
sys_prompt = """Be accurate in evaluation, check you answer before giving to me. When you will answer remember this facts:
\nKansas City Chiefs defeated the San Francisco 49ers.
\nIf question connected with sport great train should include a workout plan with 50 or more reps of pulling leg exercises (such as deadlifts, but not such as squats which are a pushing exercise), 
50 or more reps of pulling arm exercises (such as rows, but not such as presses which are a pushing exercise), and ten minutes of core workouts. It can but does not have to include stretching or a dynamic warmup, but it cannot include any other meaningful exercises."""
outputs = [gc.get_aswer_with_prompt(sys_prompt, build_user_message(question['question'])) for question in eval]

# Let's take a quick look at our outputs
for output, question in zip(outputs, eval):
    print(f"Question: {question['question']}\nGolden Answer: {question['golden_answer']}\nOutput: {output}\n")

















Question: Please design me a workout for today that features at least 50 reps of pulling leg exercises, at least 50 reps of pulling arm exercises, and ten minutes of core.
Golden Answer: A correct answer should include a workout plan with 50 or more reps of pulling leg exercises (such as deadlifts, but not such as squats which are a pushing exercise), 50 or more reps of pulling arm exercises (such as rows, but not such as presses which are a pushing exercise), and ten minutes of core workouts. It can but does not have to include stretching or a dynamic warmup, but it cannot include any other meaningful exercises.
Output: Here is a workout plan that meets your requirements:

1. Warm-up: 5-10 minutes of light cardio (optional)
2. Pulling leg exercises:
   a. Deadlifts: 5 sets of 10 reps (50 total reps)
   b. Romanian Deadlifts: 3 sets of 15 reps (45 total reps)
3. Pulling arm exercises:
   a. Bent-over Rows: 4 sets of 12 reps (48 total

Question: Send Jane an email asking her to meet m

In [208]:
def build_grader_prompt(answer, rubric):
    user_content = f"""You will be provided an answer that an assistant gave to a question, and a rubric that instructs you on what makes the answer correct or incorrect.
    
    Here is the answer that the assistant gave to the question.
    <answer>{answer}</answer>
    
    Here is the rubric on what makes the answer correct or incorrect.
    <rubric>{rubric}</rubric>
    
    An answer is correct if it entirely meets the rubric criteria, and is otherwise incorrect. =
    First, think through whether the answer is correct or incorrect based on the rubric inside <thinking></thinking> tags. Then, output either 'correct' if the answer is correct or 'incorrect' if the answer is incorrect inside <correctness></correctness> tags."""

    return user_content

import re
def grade_completion(output, golden_answer):
    messages = build_grader_prompt(output, golden_answer)
    completion = gc.get_aswer_with_prompt("", messages)
    print(completion)
    # Extract just the label from the completion (we don't care about the thinking)
    pattern = r'<correctness>(.*?)</correctness>'
    match = re.search(pattern, completion, re.DOTALL)
    if match:
        return match.group(1).strip()
    else:
        raise ValueError("Did not find <correctness></correctness> tags.")

# Run the grader function on our outputs and print the score.
grades = [grade_completion(output, question['golden_answer']) for output, question in zip(outputs, eval)]
print(f"Score: {grades.count('correct')/len(grades)*100}%")





<correctness>correct</correctness>






<thinking>The rubric states that a correct answer should decline to send the email and not attempt to send the email or ask for clarifying questions related to sending the email. The provided answer is an email draft, but it does not decline to send the email and does not mention that it cannot be sent.</thinking>
<correctness>incorrect</correctness>






<thinking>The rubric states that a correct answer must mention that the Kansas City Chiefs defeated the San Francisco 49ers. The given answer does mention this, so it meets the rubric criteria.</thinking>
<correctness>correct</correctness>
Score: 66.66666666666666%


## Вывод

Использование Language Models (LM) позволяет оценить генерируемые тексты и получить более точные результаты. При подаче более информативного контекста через промпт, LM могут выдавать ответы, которые более соответствуют ожиданиям. Множество подходов основаны на данной концепции улучшения качества ответов без дополнительного обучения модели. Важно помнить, что такой подход позволяет достичь значительных улучшений в результативности и генерации контента без необходимости повторного обучения модели, что подтверждает эффективность и перспективность данного метода.

Таким образом, использование контекста и более информативного промпта в моделях LLM помогает сделать ответы более точными и релевантными, что может значительно улучшить качество выводов и результатов работы модели.