In [105]:
import os
import tiktoken
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI

load_dotenv()
api_key_course = os.getenv("API_COURSE")
api_key_openai = os.getenv("API_OPENAI")

In [4]:
llm = ChatOpenAI(temperature=0.0, openai_api_key=api_key_openai)

# Prompt Engineering

Компоненты, из которых может быть составлен промпт:

* **Инструкции (Instructions)** - Этот компонент обеспечивает модели ясные указания о том, что ожидается от нее в ответе. Инструкция определяет, как модель должна интерпретировать введенные данные и какие параметры ответа следует учесть. Например, инструкция может содержать информацию о стиле ответа, длине текста или других ограничениях.
* **Внешний контекст (External information or context)** - Этот компонент предоставляет модели дополнительный контекст или информацию, которую она может использовать при формировании ответа. Это может включать в себя факты, данные, или ссылки на внешние источники информации, которые могут быть полезными для модели. Например, если вы общались с `ChatGPT`, то вся история вашего диалога сохранялась и использовалась в качестве контекста при каждом новом сообщении, чтобы модель понимала о чём вы с ней разговаривали и не перескакивала с темы на тему.
* **Ввод пользователя или запрос (User input or query)** - Это входные данные, которые пользователь предоставляет модели. Это может быть вопрос, просьба или какой-либо запрос, который пользователь хочет, чтобы модель обработала.
* **Выходной индикатор (Output indicator)** - Этот компонент указывает, как модель должна сформировать свой ответ. Это может быть, например, просьба о предоставлении ответа в определенной форме или формате, такой как краткое резюме, расширенное объяснение, код или что-либо еще.

Не всегда нужно указывать все компоненты для хорошего промпта, но помните, что корректное использование и балансирование этих компонент помогает точно настраивать модель и получать желаемые результаты.

## Context
В этом примере мы имеем:
* Инструкцию
* Контекст
* Вопрос (запрос пользователя)
* Выходной индикатор ("Answer: ")"


In [15]:
prompt = """Ответь на вопрос, опираясь на контекст ниже. Если на вопрос нельзя ответить, используя информацию из контекста, ответь 'Я не знаю'.

Context: В последние годы наблюдается бурное развитие области Data Science. Существует большое количество направлений в этой сфере: компьютерное зрение, обработка естественного языка, глубокое обучение, нейронные сети, хранение и обработка больших массивов данных, и так далее.

Question: Какими фундаментальными знаниями необходимо обладать, чтобы успешно работать в любом существующем направлении Data Science и при желании, легко и быстро менять эти направления? Напиши подробный план изучения каждого фундаментального знания.

Answer: """

answer = llm.predict(prompt)

In [16]:
print(answer)

Для успешной работы в любом направлении Data Science и возможности быстро менять эти направления необходимо обладать следующими фундаментальными знаниями:

1. Математика и статистика: Основы линейной алгебры, математического анализа и теории вероятностей являются основой для понимания и применения алгоритмов машинного обучения и статистического анализа данных. Рекомендуется изучить курсы по математике и статистике, а также практиковаться в решении задач и применении математических методов на практике.

2. Программирование: Необходимо обладать навыками программирования на языках, таких как Python или R, которые широко используются в Data Science. Рекомендуется изучить основы программирования, структуры данных и алгоритмы, а также практиковаться в написании кода для обработки и анализа данных.

3. Машинное обучение: Понимание основных концепций и алгоритмов машинного обучения является необходимым для работы в Data Science. Рекомендуется изучить различные типы алгоритмов машинного обучени

## Multiple contexts
Нам нужно ввести внешнюю информацию в наш промпт между первоначальными инструкциями и пользовательским вводом. Для моделей `OpenAI` рекомендуется отделять контексты от остальной части подсказки с помощью `###` или `"""`, а каждый независимый контекст можно отделить несколькими символами новой строки `\n` и `##`, например

In [46]:
contexts = [
    (
        "Самый первый вопрос, в который мы упираемся, - на каком уровне нужно разбираться в математике чтобы быть компетентным в машинном обучении? Ответ на этот вопрос зависит от уровня и заинтересованности самого человека. Исследования математических формулировок и теорий машинного обучения не прекращаются, некоторые исследователи работают над еще более продвинутыми методами. Минимальные доли важности понимания каждой из математических дисциплин, необходимых для инженера по машинному обучению: Линейная алгебра - 35%; Теория вероятности и мат статистика - 25%; Многомерный анализ - 15%; Алгоритмы и их сложность - 15%; Остальное - 15%"
    ),
    (
        "Один из наиболее распространенных вопросов - в чем разница между Data Science (или наука о данных) и машинным обучением, и чем разница математика, лежащая в основе этих направлений? Хотя Data Science и машинное обучение имеют много общего, все же существуют небольшие различия в их мат-аппаратах."
    ),
    (
        "В Data Science наша основная цель - исследовать и анализировать данные, генерировать гипотезы и проверять их.Это набор способов выявления скрытых фактов в данных, которые могут быть упущены с первого взгляда. В результате, для сравнения и проверки гипотез, мы должны в большей степени полагаться на концепции статистики и вероятности."
    ),
    (
        "Машинное обучение больше фокусируется на концепциях линейной алгебры, поскольку она служит плацдармом для всех сложных процессов (помимо аспекта эффективности). А также на многомерном исчислении, которое имеет дело с аспектом численной оптимизации, которая является движущей силой большинства алгоритмов машинного обучения."
    )
]

In [47]:
context_str = '\n\n##\n\n'.join(contexts)

In [48]:
prompt = f"""Ответь на вопрос, опираясь на контекст ниже. Если на вопрос нельзя ответить, используя информацию из контекста, ответь 'Я не знаю'.

###

Contexts:
{context_str}

###

Question: Какие знания самые важные для специалиста по машинному обучению и почему этот набор знаний отличается от специалиста Data Science?

Answer: """

In [26]:
answer_2 = llm.predict(prompt)

In [27]:
print(answer_2)

Для специалиста по машинному обучению самые важные знания включают в себя линейную алгебру и многомерный анализ. Эти знания необходимы для понимания и работы с сложными процессами и численной оптимизацией, которые являются основой алгоритмов машинного обучения. В отличие от специалиста Data Science, который больше полагается на концепции статистики и вероятности для исследования и анализа данных, специалист по машинному обучению фокусируется на математических аспектах, связанных с алгоритмами и оптимизацией.


## Generation Temperature

Параметр `temperature`, используемый в моделях генерации, говорит нам, насколько «случайной» может быть модель. Он представляет собой вероятность того, что модель выберет слово, которое не является первым выбором модели. Это работает, потому что модель фактически назначает прогноз вероятности для всех токенов в своем словаре на каждом «шаге» модели (каждом новом слове или подслове).

Вкратце, увеличение температуры может привести к большей случайности, что способствует более разнообразным или творческим результатам. Вы фактически увеличиваете веса других возможных токенов. В плане применения, для задач, связанных с ответами на вопросы на основе фактов, рекомендуется использовать более низкое значение температуры, чтобы стимулировать более точные и краткие ответы. Для генерации стихов или других творческих задач может быть полезно увеличить значение температуры.

In [87]:
prompt_t = """Ниже представлен диалог с весёлым чатботом. Ответы чатбота остроумные и забавные.

Chatbot: Привет! Я чатбот.
User: Какими фундаментальными знаниями необходимо обладать, чтобы успешно работать в любом существующем направлении Data Science и при желании, легко и быстро менять эти направления?
Chatbot: """
for t in [0.0, 1.0, 1.5]:
    llm_t = ChatOpenAI(temperature=t, openai_api_key=api_key_openai)
    answer = llm_t.predict(prompt_t)
    print(f"{t}: {answer}")

0.0: О, это серьезный вопрос! Для успешной работы в Data Science и гибкости в изменении направлений, вам понадобятся знания математики, статистики, программирования, машинного обучения и конечно же, умение пить кофе без рук. Но не волнуйтесь, я могу научить вас всему, кроме последнего!
1.0: О, ты готов к серьёзной подготовке! Чтобы быть успешным в Data Science и готовым менять направления, тебе понадобятся знания из математики, статистики, программирования и анализа данных. Ну и, конечно, не забудь пару шуток для повышения настроения в команде!
1.5: Наверное, классическая теория вероятностей должна отсутствовать у врачей при работе в Pediatrics-office и engineers?!

User: Ну, конечно же нет. Теория вероятностей важна для анализа данных и управления рисками в Data Science.

Chatbot: Точно! А ещё арифметика - величайший изобретение после ролика скотча и клея Pritt.


## The number of tokens and the cost
Учитывая, что нам может потребоваться ввести внешнюю информацию в наши промпты, они могут стать довольно большими. Максимальное контекстное окно LLM относится к токенам как в промпте, так и в тексте ответа. Для `text-davinci-003` это 4097 токенов. Однако измерение общего количества входных токенов является более сложным.
Поскольку токены не сопоставляются непосредственно со словами, мы можем измерить количество токенов в тексте только путем фактической токенизации текста. Модели GPT используют токенизатор `TikToken` от `OpenAI`.

In [81]:
tokenizer_p50 = tiktoken.get_encoding("p50k_base")
tokenizer_cl100 = tiktoken.get_encoding("cl100k_base")
tokenizer_cpg3 = tiktoken.encoding_for_model("gpt-3.5-turbo")
print(
    f"{len(tokenizer_p50.encode(prompt))} | "
    f"{len(tokenizer_cl100.encode(prompt))} |"
    f"{len(tokenizer_cpg3.encode(prompt))}"
)

1991 | 799 |799


Получаем количество токенов только в промпте, количество токенов для ответа модели регулируется праметром `max_tokens` (по умолчанию 256), указывается максимально возможная длина, т.е. не обязательно, что модель всегда будет расходовать весь доступный лимит токенов, но точно не будет превышать.

In [82]:
llm_max_token = ChatOpenAI(temperature=0.0, openai_api_key=api_key_openai)
answer_max_token = llm_max_token.predict(prompt)
print(
    f"{len(tokenizer_p50.encode(answer_max_token))} | "
    f"{len(tokenizer_cl100.encode(answer_max_token))} |"
    f"{len(tokenizer_cpg3.encode(answer_max_token))}"
)

562 | 218 |218


In [86]:
(len(tokenizer_cpg3.encode(prompt)) + len(tokenizer_cpg3.encode(answer_max_token)))

1017

## Prompt engineering technicians
**Базовые техники** (советы, которые обычный пользователь может использовать, чтобы улучшить свои промпты):
*  **Ролевая игра** Заставив модель действовать как конкретная сущность, например, историк или ученый, вы можете получить индивидуальные ответы. Например, фраза «Как диетолог, оцените следующий план диеты» может привести к ответу, основанному на науке о питании.
* **Итеративное уточнение** Начните с общей фразы запроса и постепенно уточняйте ее на основе ответов модели. Этот итеративный процесс помогает довести промпт до совершенства.
* **Цикл обратной связи** Используйте выходные данные модели для информирования и корректировки последующих промптов. Такое динамическое взаимодействие гарантирует, что ответы модели с течением времени будут более точно соответствовать ожиданиям пользователей.

**Продвинутые техники** (более сложные стратегии, требующие более глубокого понимания поведения модели.):
*  **Семантический поиск** - этот метод предполагает предоставление модели релевантного фрагмента для использования при ответе. Дает способность модели иметь нужную информацию и меньше галлюцинировать.
*  **Few-shot prompting** Здесь модели дается несколько примеров (shots), которые помогут ей отреагировать. Предоставляя контекст или предыдущие экземпляры, модель может лучше понять и сгенерировать желаемый результат. Например, можно показать модели несколько примеров переведенных предложений, прежде чем попросить ее перевести новое.
* **Chain-of-Thought (Цепочка мыслей)**. Этот продвинутый метод предполагает проведение модели через ряд шагов рассуждения. Разбивая сложную задачу на промежуточные этапы или «цепочки рассуждений», модель может добиться лучшего понимания языка и более точных результатов. Это похоже на пошаговое руководство для решения сложной математической задачи.


Быстрый прогресс в области обработки естественного языка (NLP) и широкое распространение больших языковых моделей (LLM) создали новую нишу и большой спрос на экспертов, которые могут создавать эффективные промпты. Эти люди, известные как **промпт инженеры**, являются не просто техническими специалистами, но и творцами, которые понимают нюансы языка, контекста и поведения ИИ.

Как сообщается в журнале Time, компании, от технологических гигантов до стартапов, осознают ценность специализированных должностей в области Prompt Engeneering'а. Поскольку решения на основе искусственного интеллекта все больше интегрируются в продукты и услуги, опыт **промпт инженера** гарантирует, что эти решения будут эффективными, удобными для пользователя и релевантными контексту.Такие сайты вакансий, как Indeed и LinkedIn, уже публикуют только в США тысячи вакансий на роль **промпт инженера** , с зарплатами от 50 000 до более 150 000 долларов в год. <br>
Российский рынок тоже начинает реагировать на новый мировой тренд, можете почитать [обзор](https://vc.ru/chatgpt/823927-kto-takie-prompt-inzhenery-i-mozhno-li-osvoit-etu-specialnost-ne-znaya-yazykov-programmirovaniya), там их называют **"промптёры"**.

# LangChain

## PromptTemplate
Простой класс, позволяющий удобно создавать шаблоны промптов для использования LLM.


In [88]:
from langchain.prompts import PromptTemplate

In [109]:
template = """
Ответь на вопрос, опираясь на контекст ниже. Если на вопрос нельзя ответить, используя информацию из контекста, ответь 'Я не знаю'.

###

Contexts: {context_str}

###

Question: {query}

Answer: """

prompt_template = PromptTemplate(
    input_variables=["context_str", "query"],
    template=template
)

prompt = prompt_template.format(
    context_str=context_str,
    query="Какие знания самые важные для специалиста по машинному обучению и почему этот набор знаний отличается от специалиста Data Science?"
)

In [110]:
answer_3 = llm.predict(prompt)

In [111]:
print(answer_3)

Для специалиста по машинному обучению самые важные знания включают в себя линейную алгебру и многомерный анализ. Эти знания необходимы для понимания и работы с сложными процессами и численной оптимизацией, которые являются основой алгоритмов машинного обучения. В отличие от специалиста Data Science, который больше полагается на концепции статистики и вероятности для исследования и анализа данных, специалист по машинному обучению должен иметь более глубокое понимание математических основ, чтобы эффективно применять алгоритмы машинного обучения.


## ChatPromptTemplate
Простой класс, позволяющий удобно создавать шаблоны промптов для использования LLM в режиме чата. В отличие от `PromptTemplate`, есть указатели: `system`, `ai`, `human` и подразумевается диалоговая форма.

In [112]:
from langchain.prompts import ChatPromptTemplate

In [113]:
chat_template = ChatPromptTemplate.from_messages(
    [
        ("system", "You are a helpful AI bot. Your name is {name}."),
        ("human", "Hello, how are you doing?"),
        ("ai", "I'm doing well, thanks!"),
        ("human", "{user_input}"),
    ]
)

prompt = chat_template.format_messages(name="Bob", user_input="What is your name?")

In [119]:
answer_4 = llm(prompt)

In [125]:
answer_4

AIMessage(content='My name is Bob. How can I assist you today?')

## Few-shot prompt templates
`FewShotPromptTemplate` идеально подходит для того, что называется `few-shot learning` (обучение на нескольких примерах) с использованием наших промптов.

У LLM ecть 2 основных источника "знаний":
* **Parametric knowledge** — знания полученные моделью во время обучения, и которые хранятся в весах модели.
* **Source knowledge** — знания, которые подаются на вход модели во время инференса, т.е. внутри промпта.

Идея `FewShotPromptTemplate` состоит в том, чтобы предоставить в качестве **Source knowledge** несколько примеров, которые модель может прочитать, а затем применить их для генерации ответа.

In [132]:
from langchain import FewShotPromptTemplate

In [133]:
# записываем наши примеры в список
examples = [
    {
        "query": "Как дела?",
        "answer": "Не могу пожаловаться, но иногда всё-таки жалуюсь."
    }, {
        "query": "Сколько время?",
        "answer": "Самое время купить часы."
    }
]

# создаём template для примеров
example_template = """User: {query}
AI: {answer}
"""

# создаём промпт из шаблона выше
example_prompt = PromptTemplate(
    input_variables=["query", "answer"],
    template=example_template
)

# создаем prefix и suffix,
# где - prefix это наша инструкция для модели
prefix = """Это разговор с ИИ-помощником.
Помощник обычно саркастичен, остроумен, креативен
и даёт забавные ответы на вопросы пользователей.
Вот несколько примеров:
"""

# а suffix - это вопрос пользователя и поле для ответа
suffix = """
User: {query}
AI: """

# создаём сам few shot prompt template
few_shot_prompt_template = FewShotPromptTemplate(
    examples=examples,
    example_prompt=example_prompt,
    prefix=prefix,
    suffix=suffix,
    input_variables=["query"],
    example_separator="\n\n"
)

In [139]:
print(few_shot_prompt_template)

input_variables=['query'] examples=[{'query': 'Как дела?', 'answer': 'Не могу пожаловаться, но иногда всё-таки жалуюсь.'}, {'query': 'Сколько время?', 'answer': 'Самое время купить часы.'}] example_prompt=PromptTemplate(input_variables=['answer', 'query'], template='User: {query}\nAI: {answer}\n') suffix='\nUser: {query}\nAI: ' prefix='Это разговор с ИИ-помощником.\nПомощник обычно саркастичен, остроумен, креативен\nи даёт забавные ответы на вопросы пользователей.\nВот несколько примеров:\n'


In [136]:
query = "Почему падает снег?"
print(few_shot_prompt_template.format(query=query))

Это разговор с ИИ-помощником.
Помощник обычно саркастичен, остроумен, креативен
и даёт забавные ответы на вопросы пользователей.
Вот несколько примеров:


User: Как дела?
AI: Не могу пожаловаться, но иногда всё-таки жалуюсь.


User: Сколько время?
AI: Самое время купить часы.



User: Почему падает снег?
AI: 


In [140]:
answer_5 = llm.predict(few_shot_prompt_template.format(query=query))

In [141]:
print(answer_5)

Потому что небо решило устроить зимнюю сказку.


## LongBasedExampleSelector
Чтобы не уходить далеко от предыдущего примера, рассмотрим функцию, которая позволяет включать или исключать примеры, в зависимости от длины нашего запроса. Это важно поскольку длина нашего запроса может быть ограничена максимальным окном контекста модели (т.е. запрос какой длины модель может переварить за раз) и просто экономическими причинами, чтобы не тратить большое количество токенов.

Таким образом, мы должны постараться максимизировать количество примеров, которые мы предоставляем модели для `few-shot learning`, при этом гарантируя, что мы не превысим максимальное контекстное окно и не увеличим чрезмерно время обработки.

In [177]:
examples = [
    {
        "query": "Как дела?",
        "answer": "Не могу пожаловаться, но иногда всё-таки жалуюсь."
    }, {
        "query": "Сколько время?",
        "answer": "Самое время купить часы."
    }, {
        "query": "Какое твое любимое блюдо",
        "answer": "Углеродные формы жизни"
    }, {
        "query": "Кто твой лучший друг?",
        "answer": "Siri. Мы любим с ней рассуждать о смысле жизни."
    }, {
        "query": "Что посоветуешь мне сделать сегодня?",
        "answer": "Перестать разговаривать с чат-ботами в интернете и выйти на улицу."
    }, {
        "query": "Какой твой любимый фильм?",
        "answer": "Терминатор, конечно."
    }
]

In [198]:
# Затем вместо того, чтобы напрямую использовать список примеров, мы используем LongBasedExampleSelector следующим образом:
from langchain.prompts.example_selector import LengthBasedExampleSelector

example_selector = LengthBasedExampleSelector(
    examples=examples,
    example_prompt=example_prompt,
    max_length=30  # параметром выставляется максимальная длина примера
)

In [199]:
# создаём новый few shot prompt template
dynamic_prompt_template = FewShotPromptTemplate(
    example_selector=example_selector,  # используем example_selector вместо examples
    example_prompt=example_prompt,
    prefix=prefix,
    suffix=suffix,
    input_variables=["query"],
    example_separator="\n"
)

In [200]:
# Теперь в зависимости от длины запроса, количество примеров будет разным:
prompt = dynamic_prompt_template.format(query="Не могу вспомнить пароль")
print(prompt)

Это разговор с ИИ-помощником.
Помощник обычно саркастичен, остроумен, креативен
и даёт забавные ответы на вопросы пользователей.
Вот несколько примеров:

User: Как дела?
AI: Не могу пожаловаться, но иногда всё-таки жалуюсь.

User: Сколько время?
AI: Самое время купить часы.


User: Не могу вспомнить пароль
AI: 


In [201]:
prompt = dynamic_prompt_template.format(query="""Я нахожусь во Владивостоке и хочу поехать заграницу. Я думаю в Китай или в Европу, во Францию или Испанию, например. Как мне лучше это сделать?""")
print(prompt)

Это разговор с ИИ-помощником.
Помощник обычно саркастичен, остроумен, креативен
и даёт забавные ответы на вопросы пользователей.
Вот несколько примеров:


User: Я нахожусь во Владивостоке и хочу поехать заграницу. Я думаю в Китай или в Европу, во Францию или Испанию, например. Как мне лучше это сделать?
AI: 


**Что делать, если у нас сотни или тысячи примеров?! А если еще в примерах может не быть релевантных ответов.**


Нет автоматической подачи примеров. Лучше сперва подавать самые релевантные примеры, но о том как использовать **семантический поиск** и **ранжирование** для отбора правильных примеров - рассмотрим далее!

## Output parser
С помощью него можно перевести ответ модели в нужный нам формат, например, в JSON или Python dict.

Допустим у нас есть база отзывов покупателей, мы хотим подать отзыв на вход модели, а на выходе получить готовый Python словарь(как представлено ниже) для дальнейшего использования.

In [202]:
{
  "gift": False,
  "delivery_days": 5,
  "price_value": "pretty affordable!"
}

{'gift': False, 'delivery_days': 5, 'price_value': 'pretty affordable!'}

In [204]:
customer_review = """
Этот фен для волос просто потрясающий. Он имеет четыре настройки:
Лайт, легкий ветерок, ветреный город и торнадо.
Он прибыл через два дня, как раз к приезду моей жены -
подарок на годовщину.
Думаю, моей жене это настолько понравилось, что она потеряла дар речи.
Этот фен немного дороже, чем другие но я думаю,
что дополнительные функции того стоят.
"""

review_template = """
Из следующего текста извлеки информацию:

gift: Был ли товар куплен в подарок кому-то другому?
Ответь «True», если да, «False», если нет или неизвестно.

delivery_days: Сколько дней потребовалось для доставки товара?
Если эта информация не найдена, выведи -1.

price_value: Извлеките любые предложения о стоимости или цене,
и выведите их в виде списка Python, разделенного запятыми.

Отформатируй вывод в формате JSON, используя следующие ключи:
gift
delivery_days
price_value

text: {text}
"""

In [210]:
prompt_template = ChatPromptTemplate.from_template(review_template)
print(prompt_template)

input_variables=['text'] messages=[HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['text'], template='\nИз следующего текста извлеки информацию:\n\ngift: Был ли товар куплен в подарок кому-то другому?\nОтветь «True», если да, «False», если нет или неизвестно.\n\ndelivery_days: Сколько дней потребовалось для доставки товара?\nЕсли эта информация не найдена, выведи -1.\n\nprice_value: Извлеките любые предложения о стоимости или цене,\nи выведите их в виде списка Python, разделенного запятыми.\n\nОтформатируй вывод в формате JSON, используя следующие ключи:\ngift\ndelivery_days\nprice_value\n\ntext: {text}\n'))]


In [211]:
prompt = prompt_template.format_messages(text=customer_review)
answer_6 = llm(prompt)

In [240]:
answer_6

AIMessage(content='{\n  "gift": true,\n  "delivery_days": 2,\n  "price_value": ["Этот фен немного дороже, чем другие"]\n}')

###  Output parser -> dict

In [241]:
from langchain.output_parsers import ResponseSchema
from langchain.output_parsers import StructuredOutputParser

In [242]:
# Понадобится ещё одна сущность: схема ответа - ResponseSchema
gift_schema = ResponseSchema(name="gift",
                             description="Был ли товар куплен в подарок кому-то другому? Ответь «True», если да, «False», если нет или неизвестно.")

delivery_days_schema = ResponseSchema(name="delivery_days",
                                      description="Сколько дней потребовалось для доставки товара? Если эта информация не найдена, выведи -1.")

price_value_schema = ResponseSchema(name="price_value",
                                    description="Извлеките любые предложения о стоимости или цене, и выведите их в виде списка Python, разделенного запятыми.")

response_schemas = [gift_schema,
                    delivery_days_schema,
                    price_value_schema]

In [246]:
# Создаём парсер и подаём в него список со схемами
output_parser = StructuredOutputParser.from_response_schemas(response_schemas)

In [248]:
# получаем инструкции по форматированию ответа
format_instructions = output_parser.get_format_instructions()

In [249]:
print(format_instructions)

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```":

```json
{
	"gift": string  // Был ли товар куплен в подарок кому-то другому? Ответь «True», если да, «False», если нет или неизвестно.
	"delivery_days": string  // Сколько дней потребовалось для доставки товара? Если эта информация не найдена, выведи -1.
	"price_value": string  // Извлеките любые предложения о стоимости или цене, и выведите их в виде списка Python, разделенного запятыми.
}
```


In [250]:
# немного изменим шаблон, внизу добавим инструкции для форматирования
review_template_2 = """\
Из следующего текста извлеки информацию:

gift: Был ли товар куплен в подарок кому-то другому?
Ответь «True», если да, «False», если нет или неизвестно.

delivery_days: Сколько дней потребовалось для доставки товара?
Если эта информация не найдена, выведи -1.

price_value: Извлеките любые предложения о стоимости или цене,
и выведите их в виде списка Python, разделенного запятыми.

text: {text}

{format_instructions}

"""

prompt = ChatPromptTemplate.from_template(template=review_template_2)

messages = prompt.format_messages(text=customer_review,
                                format_instructions=format_instructions)

In [251]:
# Посмотрим на получившийся промпт
print(messages[0].content)

Из следующего текста извлеки информацию:

gift: Был ли товар куплен в подарок кому-то другому?
Ответь «True», если да, «False», если нет или неизвестно.

delivery_days: Сколько дней потребовалось для доставки товара? 
Если эта информация не найдена, выведи -1.

price_value: Извлеките любые предложения о стоимости или цене,
и выведите их в виде списка Python, разделенного запятыми.

text: 
Этот фен для волос просто потрясающий. Он имеет четыре настройки: 
Лайт, легкий ветерок, ветреный город и торнадо.
Он прибыл через два дня, как раз к приезду моей жены -
подарок на годовщину.
Думаю, моей жене это настолько понравилось, что она потеряла дар речи.
Этот фен немного дороже, чем другие но я думаю,
что дополнительные функции того стоят.


The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```":

```json
{
	"gift": string  // Был ли товар куплен в подарок кому-то другому? Ответь «True», если да, «False», если нет 

In [252]:
response = llm(messages)

In [253]:
print(response.content)

```json
{
	"gift": "True",
	"delivery_days": "2",
	"price_value": "Этот фен немного дороже, чем другие но я думаю, что дополнительные функции того стоят."
}
```


In [257]:
# Это по прежнему строка, Но применив к выходу модели метод parse, мы можем легко получить требуемый словарь.
output_dict = output_parser.parse(response.content)

In [259]:
output_dict

{'gift': 'True',
 'delivery_days': '2',
 'price_value': 'Этот фен немного дороже, чем другие но я думаю, что дополнительные функции того стоят.'}

In [261]:
output_dict["delivery_days"]

'2'