<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/NLP/NLP-2025/%D0%9F%D1%80%D0%BE%D0%BC%D0%BF%D1%82_%D0%B8%D0%BD%D0%B6%D0%B8%D0%BD%D0%B8%D1%80%D0%B8%D0%BD%D0%B3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Лекция: Промпт-инжиниринг: Методологии, Применение и Оценка

Целевая аудитория: магистранты направления «Анализ данных», изучающие курс по обработке естественного языка (NLP).  
Ключевой навык: умение проектировать, тестировать и оптимизировать входные инструкции (промпты) для больших языковых моделей (LLM) так, чтобы получать **предсказуемые, точные и структурированные** результаты, пригодные для дальнейшего анализа или интеграции в автоматизированные системы.

Промпт-инжиниринг сегодня — не просто «умение задавать вопросы ИИ». Это инженерная дисциплина, сочетающая элементы лингвистики, когнитивного дизайна и системного мышления. Особенно в контексте анализа данных, где важна не только правдоподобность ответа, но и его воспроизводимость, точность и соответствие формату.

## 1. Введение: PE как ключевой навык аналитика данных

Промпт-инжиниринг (Prompt Engineering, PE) — это практика целенаправленного конструирования входных запросов для LLM с целью управления содержанием, стилем и структурой их ответов. В отличие от традиционного программирования, где вы пишете явные инструкции для машины, в PE вы «настраиваете» модель через язык, контекст и формулировки.

Для современного аналитика данных PE становится таким же базовым инструментом, как SQL или pandas. Вот три ключевые области применения:

- **Автоматизация рутинных задач**: генерация SQL-запросов по описанию, написание скриптов на Python для очистки данных, построение ETL-пайплайнов по текстовому ТЗ.  
- **Извлечение инсайтов из неструктурированных источников**: анализ пользовательских отзывов, логов поддержки, внутренних документов — с классификацией, суммаризацией или извлечением сущностей.  
- **Обоснование решений через RAG (Retrieval-Augmented Generation)**: привязка ответов модели к актуальным корпоративным данным (например, справочникам, отчётам, базам знаний), что снижает риск «галлюцинаций» и повышает доверие к выводам.

Важно понимать: эффективный промпт — это не удачно сформулированная фраза, а **исполняемая спецификация**, которую модель может интерпретировать однозначно.

## 2. Мета-анализ: Разбор образовательного фреймворка как примера PE

Чтобы продемонстрировать силу структурированного подхода к промптам, рассмотрим реальный пример — фреймворк для генерации персонализированных учебных планов. Этот промпт сам по себе является образцом продвинутого PE: он не просто запрашивает информацию, а задаёт полную схему взаимодействия.

### Мета-Фреймворк для Проектирования Обучения (Исходный Промпт)

```text
[SUBJECT]=Тема или навык для изучения
[CURRENT_LEVEL]=Начальный уровень знаний (начальный/средний/продвинутый)
[TIME_AVAILABLE]=Сколько часов в неделю готовы уделять обучению
[LEARNING_STYLE]=Предпочтительный метод обучения (визуальный/слуховой/практический/чтение)
[GOAL]=Конкретная цель обучения или целевой уровень навыка

Создай недельный учебный план по теме [SUBJECT] для человека с уровнем [CURRENT_LEVEL],
который может тратить [TIME_AVAILABLE] часов в неделю и предпочитает [LEARNING_STYLE] стиль обучения.
Цель: [GOAL]. План должен включать:
1. Темы для изучения на неделю
2. Рекомендуемые ресурсы (ссылки, видео, статьи)
3. Практическое задание
4. Критерии успешного выполнения
```

Этот пример показывает, что хороший промпт:

- Чётко разделяет **параметры** (в квадратных скобках) и **инструкцию**.  
- Задаёт **роль** (неявно — «ты — методист»).  
- Указывает **формат вывода** (четыре пункта).  
- Включает **контекст** (время, стиль, цель).  

> **Вывод**: промпт здесь работает как **исполняемый план** (*Executable Plan*). Он не оставляет места для интерпретации — модель знает, *кто она*, *что делать*, *на чём основываться* и *в каком виде отдавать результат*.

Такой подход напрямую переносится на задачи анализа данных: вместо «проанализируй данные» вы задаёте структуру, которая гарантирует нужный выход.

## 3. Фундаментальные концепции (Zero-shot / Few-shot / Chain-of-Thought)

Прежде чем переходить к продвинутым техникам (например, few-shot или CoT), важно освоить базовый «строительный блок» — компонентную структуру промпта. Даже в zero-shot режиме (без примеров) качество ответа напрямую зависит от того, насколько полно вы описали задачу.

### 3.1. Разложение промпта на ключевые компоненты

Любой эффективный промпт можно разложить на четыре обязательных компонента. Их наличие превращает расплывчатый запрос в точную инструкцию.

```text
1. Персона/Роль (Persona)
   Назначение: Задаёт экспертизу, тон и стиль ответа. Без роли модель отвечает «нейтрально», что часто означает — обобщённо и поверхностно.
   Пример: "Ты — дата-сайентист с 10-летним опытом в банковской аналитике."
   Дополнительно: Роль может включать ограничения — "не используй библиотеку scikit-learn", "объясняй так, будто я студент-первокурсник".

2. Инструкция (Instruction)
   Назначение: Ядро задачи — что именно нужно сделать. Должна быть конкретной, атомарной и избегать двусмысленности.
   Пример плохой: "Разбери эти данные."
   Пример хороший: "Проведи одновыборочный t-тест, чтобы проверить, отличается ли среднее значение метрики 'время_сеанса' от 5 минут."
   Совет: Используйте глаголы действия — "рассчитай", "классифицируй", "визуализируй", "сравни".

3. Контекст/Данные (Context)
   Назначение: Предоставляет модели информацию, которой нет в её предобученных знаниях. Это может быть фрагмент таблицы, бизнес-правило, описание схемы БД или выдержка из документа.
   Пример: "Вот фрагмент логов за 1 час:
   user_id,event,timestamp
   101,login,2025-10-30T10:00:00
   101,click_button,2025-10-30T10:02:15
   ..."
   Важно: чем больше релевантного контекста — тем точнее и актуальнее ответ.

4. Формат вывода (Output Format)
   Назначение: Гарантирует, что результат можно сразу использовать в коде или отчёте без постобработки.
   Пример: "Ответ должен быть в формате JSON с полями: {'hypothesis': str, 'p_value': float, 'decision': str}."
   Распространённые форматы: JSON, CSV, Markdown-таблица, Python-словарь, SQL-запрос.
```

Рассмотрим полный пример, объединяющий все компоненты:

> «Ты — аналитик в мобильном приложении для фитнеса. Ниже приведены данные о ежедневной активности 5 пользователей за неделю (user_id, steps, active_minutes).  
> Рассчитай для каждого пользователя среднее количество шагов и определи, кто из них попал в топ-20% по активности.  
> Ответ представь в виде JSON-массива объектов с полями: `user_id`, `avg_steps`, `is_top_20_percent` (булево значение).»

Такой промпт минимизирует риск ошибки и делает результат пригодным для автоматической загрузки в дашборд или БД.

В следующих разделах мы покажем, как усиливать такие промпты с помощью **few-shot learning** (примеров в самом запросе) и **chain-of-thought** (пошаговых рассуждений), чтобы решать ещё более сложные аналитические задачи.



### 3.2. Основополагающие концепции промптинга и примеры

Существует несколько фундаментальных подходов к взаимодействию с LLM, которые определяют, насколько точно и надёжно модель выполнит задачу. Эти подходы — не просто «разные способы задавать вопросы», а стратегии управления внутренними механизмами рассуждения модели. Выбор метода зависит от сложности задачи, требуемой точности и доступности примеров.

Ниже представлены три ключевые парадигмы: **Zero-Shot**, **Few-Shot** и **Chain-of-Thought (CoT)**. Каждая из них имеет свои сценарии применения, ограничения и уровень эффективности в контексте анализа данных.

```text
Концепция                | Описание                                                                 | Пример промпта (Практика)                                                                                     | Эффективность
------------------------|--------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------|------------------
Zero-Shot               | Модель отвечает, опираясь только на общие знания и явную инструкцию.     | "Создай регулярное выражение для извлечения адресов электронной почты из произвольного текста."               | Низкая для узкоспециализированных или нетривиальных задач. Подходит для базовых, общеизвестных шаблонов.
Few-Shot                | В промпт включаются несколько примеров "ввод → вывод" для демонстрации паттерна. | "Пример 1: 'Отличный сервис!' → Positive\nПример 2: 'Очень разочарован.' → Negative\nКлассифицируй: 'Товар пришёл с опозданием.' → ?" | Высокая для задач классификации, извлечения сущностей, форматирования и парсинга. Особенно полезна при работе с доменными или нестандартными форматами.
Chain-of-Thought (CoT)  | Модели даётся инструкция рассуждать пошагово перед выдачей окончательного ответа. | "Рассчитай медиану следующих чисел: 10, 5, 20, 8, 15. Рассуждай пошагово, прежде чем дать финальный ответ."   | Очень высокая для арифметических, логических, статистических и многоэтапных аналитических задач. Снижает количество ошибок в рассуждениях.
```

#### Пояснения и рекомендации

- **Zero-Shot** — самый простой способ, но часто недостаточный в профессиональной аналитике. Например, запрос «напиши SQL-запрос для нахождения активных пользователей» может дать разные результаты в зависимости от того, как модель интерпретирует «активных». Без контекста или примеров риск неточности высок.

- **Few-Shot** особенно мощен, когда у вас есть контроль над форматом входа и выхода. Даже 2–3 качественных примера могут «настроить» модель на нужную логику. Например, при извлечении дат из неструктурированных логов:
  ```
  "23 марта 2024 года" → "2024-03-23"
  "вчера" → "2025-10-29"
  Извлеки дату: "Событие произошло 30 октября." → ?
  ```
  Такой подход часто используется в production-пайплайнах для предобработки текста.

- **Chain-of-Thought (CoT)** — не просто «добавь фразу „рассуждай пошагово“», а способ заставить модель имитировать человеческое логическое мышление. Это критически важно в задачах, где промежуточные шаги влияют на финальный результат. Например, при расчёте метрик в A/B-тесте:
  > «Сначала проверь нормальность распределения, затем выбери подходящий тест (t-test или Mann-Whitney), рассчитай p-value и сделай вывод.»

  Без CoT модель может пропустить этап проверки предпосылок и сразу применить t-test, что приведёт к неверному выводу.

> **Практический совет**: в реальных проектах эти методы часто комбинируются. Например, **Few-Shot + CoT** — вы даёте примеры, в которых каждый включает пошаговое рассуждение. Это особенно эффективно для сложных доменных задач, таких как финансовый анализ или медицинская документация.

В следующем разделе мы рассмотрим, как оценивать качество промптов и выбирать оптимальную стратегию на основе метрик, а не интуиции.



## 4. Продвинутые методики и Практикум (RAG, Self-Correction, Case Studies)

На базовом уровне промпт-инжиниринг помогает получать предсказуемые ответы. Однако в реальных аналитических и production-сценариях этого недостаточно. Модель может «галлюцинировать», опираться на устаревшие знания или выдавать технически некорректные решения (например, битый SQL или неверную статистику).  

Для решения этих проблем применяются **продвинутые методики**, которые либо расширяют контекст модели внешними источниками, либо вводят механизмы самопроверки. Две ключевые стратегии — **RAG** и **Self-Correction** — позволяют превратить LLM из «умного ассистента» в надёжный компонент аналитического пайплайна.

### 4.1. Продвинутые техники

#### Retrieval-Augmented Generation (RAG)

**Суть**: RAG решает две фундаментальные проблемы LLM:  
1. **Knowledge cutoff** — модель не знает о событиях и данных после даты её обучения.  
2. **Галлюцинации** — склонность генерировать правдоподобные, но ложные утверждения.  

RAG обходит эти ограничения, подключая модель к **актуальной, верифицированной внешней базе знаний** (например, внутренним отчётам, документации, базе знаний компании). Ответ генерируется **только на основе извлечённого контекста**, а не из внутренней памяти модели.

**Как это работает**:  
1. Пользовательский запрос поступает в систему.  
2. Система ищет наиболее релевантные фрагменты в векторной базе данных (например, с помощью embedding-поиска).  
3. Эти фрагменты встраиваются в промпт как контекст.  
4. LLM генерирует ответ, строго опираясь на предоставленный контекст.

```text
Пример RAG-промпта:

Используй ТОЛЬКО следующий контекст для ответа на вопрос. Если ответ не содержится в контексте, напиши: "Информация отсутствует".

Контекст:
---
В отчёте за Q3 2025 указано: средний чек вырос на 12% по сравнению с Q2 и составил 2 450 руб. Основной рост обеспечили категории "Электроника" и "Красота".
---

Вопрос: Каков был средний чек в Q3 2025?

Ответ:
```

> **Практическое применение в анализе данных**:  
> - Ответы на вопросы по внутренним метрикам без доступа к BI-системе.  
> - Автоматическая генерация пояснений к отчётам на основе свежих данных.  
> - Поддержка аналитиков через семантический поиск по архиву Jupyter-ноутбуков или SQL-запросов.

#### Self-Correction / Self-Refinement (Самокоррекция)

**Суть**: Эта техника имитирует процесс ревью кода или экспертной проверки. Модель сначала генерирует черновой ответ, а затем **сама же его анализирует и исправляет**, используя дополнительные инструкции или контекст (например, схему БД, бизнес-правила, статистические допущения).

Это особенно полезно в задачах, где ошибка в синтаксисе или логике делает результат бесполезным (например, SQL, Python, статистические выводы).

```text
Пример: самокоррекция SQL-запроса

Шаг 1 (генерация):
Напиши SQL-запрос для расчёта общей выручки по месяцам за 2024 год из таблицы orders (customer_id, revenue, date).

Шаг 2 (самокоррекция):
Проверь предыдущий SQL-запрос на наличие ошибок:
- Убедись, что поле date имеет тип DATE.
- Агрегация должна быть по месяцу, а не по дню.
- Используй корректное имя таблицы и столбцов.

Исправь запрос, если найдены ошибки.
```

> **Почему это работает**:  
> Модель часто «торопится» дать ответ, пропуская важные детали. Самокоррекция заставляет её «вторично обдумать» решение, что значительно повышает точность. В экспериментах такая двухэтапная стратегия снижает количество синтаксических и логических ошибок на 30–50%.

> **Совет**: для максимального эффекта давайте модели **чёткие критерии проверки** («проверь, что GROUP BY соответствует SELECT», «убедись, что нет деления на ноль» и т.д.).

---

Эти методики редко используются по отдельности. На практике их **комбинируют**:  
- Сначала применяется **RAG**, чтобы получить актуальный контекст.  
- Затем генерируется черновой ответ.  
- И, наконец, запускается **Self-Correction**, чтобы проверить соответствие бизнес-логике или техническим требованиям.

В следующем разделе мы разберём **реальные кейсы** из практики анализа данных: автоматизация отчётности, извлечение метрик из PDF-документов и генерация ETL-скриптов с самопроверкой.



### 4.2. Примеры практических заданий (Промпты)

На лекции недостаточно просто знать теорию — важно уметь применять методы промпт-инжиниринга в реальных аналитических сценариях. Ниже приведены два типовых задания, отражающих повседневные задачи аналитика данных:  
1. **Анализ неструктурированного текста с агрегацией метрик** (NLP + бизнес-аналитика).  
2. **Генерация и верификация кода** (инженерия данных + самокоррекция).  

Оба примера демонстрируют, как комбинировать компоненты промпта (роль, инструкцию, контекст, формат) с продвинутыми техниками (CoT, Self-Correction, JSON-вывод).

---

#### Пример 1: Анализ тональности и расчёт NPS для ритейла

**Цель**: Преобразовать «сырые» отзывы в структурированный отчёт с ключевыми метриками и инсайтами, пригодный для презентации руководству.

**Методы**:  
- Zero/Few-shot классификация настроений  
- Агрегация по бизнес-метрике (NPS)  
- Строгий JSON-вывод для автоматической загрузки в BI-систему

```text
Промпт:

Ты — аналитик sentiment analysis в крупной e-commerce компании.  
Проанализируй следующие отзывы клиентов и выполни следующие действия:

1. Для каждого отзыва определи числовую оценку (если явно указана) или оцени косвенно по тональности.
2. Классифицируй каждый отзыв как:
   - 'Detractor' (оценка 0–6)
   - 'Passive' (7–8)
   - 'Promoter' (9–10)
3. Рассчитай NPS по формуле: % Promoters – % Detractors.
4. Выдели топ-3 позитивные темы и топ-3 проблемы на основе содержания отзывов.
5. Определи общий тренд: восходящий (улучшение) или нисходящий (ухудшение), если отзывы содержат временные маркеры.

Отзывы:
- "Ужасная доставка, опоздали на 5 дней. Больше не закажу."  
- "Всё пришло вовремя, упаковка отличная, спасибо!"  
- "Цены выросли, но качество на уровне. Ставлю 8."  
- "Лучший магазин! Рекомендую всем. 10 из 10!"  

Предоставь результат строго в формате JSON без дополнительного текста:
{
  "nps_score": <число от -100 до 100>,
  "key_positive_themes": ["тема1", "тема2", "тема3"],
  "key_issues": ["проблема1", "проблема2", "проблема3"],
  "sentiment_trend": "восходящий" или "нисходящий"
}
```

> **Почему это работает**:  
> Чёткое разделение шагов + строгий формат вывода позволяют интегрировать такой промпт в ежедневный пайплайн обработки отзывов. JSON можно сразу загрузить в Power BI, Tableau или внутренний дашборд.

---

#### Пример 2: Генерация и отладка Python-скрипта с самокоррекцией

**Цель**: Получить не просто рабочий код, а **надёжный, проверенный скрипт**, учитывающий тонкости обработки временных рядов и пропусков.

**Методы**:  
- Chain-of-Thought (пошаговое планирование)  
- Self-Correction (проверка и исправление)  
- Явное указание бизнес-логики (обработка NaN)

```text
Промпт:

Ты — старший инженер по обработке данных (Data Engineer) в аналитической команде.

Задача: Напиши Python-скрипт для предобработки файла 'sales_data.csv', содержащего столбцы: 'date' (в формате 'YYYY-MM-DD'), 'revenue'.

Следуй инструкции пошагово (Chain-of-Thought):
1. Загрузи CSV-файл в pandas DataFrame.
2. Преобразуй столбец 'date' в тип datetime.
3. Убедись, что данные отсортированы по дате.
4. Рассчитай скользящее среднее выручки с окном 7 дней (center=False).
5. Замени все оставшиеся NaN значения на 0.

После генерации кода проведи этап Self-Correction:
— Проверь: после расчёта rolling mean в начале ряда появятся NaN (первые 6 значений).  
— Убедись, что шаг 5 действительно заменяет их на 0.  
— Если в коде есть ошибка (например, fillna применён до rolling), исправь её и кратко объясни, почему это важно для корректности временного ряда.

Выведи сначала исправленный код, затем — пояснение (1–2 предложения).
```

> **Ожидаемый результат**:  
> Модель сначала может сгенерировать код, где `fillna(0)` применён до `rolling()`, что некорректно. На этапе самокоррекции она это замечает и перемещает `fillna()` **после** расчёта скользящего среднего — что соответствует правильной практике обработки временных рядов.

> **Практическая ценность**: Такой подход снижает количество ошибок при автоматической генерации ETL-скриптов и повышает доверие к LLM как к инструменту разработки.

---

Эти задания можно использовать как основу для лабораторных работ или внутренних хакатонов по промпт-инжинирингу. В следующем разделе мы обсудим, как **оценивать качество промптов** количественно — с помощью метрик точности, полноты и устойчивости к переформулировкам.



### 4.3. Кейс-стади: Автоматизация еженедельного аналитического отчёта

#### Проблема

Аналитик в крупной digital-компании еженедельно тратил **8 часов** на подготовку стандартного отчёта, включающего:  
- Сравнение KPI (конверсия, CAC, retention) с предыдущим периодом,  
- Анализ аномалий в логах пользовательского поведения,  
- Интерпретацию изменений в контексте маркетинговых кампаний и технических инцидентов.  

Источники данных были разнородными:  
- Внутренняя BI-система (агрегированные метрики),  
- Логи событий из Kafka,  
- Отчёты по рекламе из Google Ads и Meta,  
- Архив прошлых аналитических записок (в формате PDF и Markdown),  
- Тикеты из Jira по инцидентам.

Ручная сверка, интерпретация и оформление занимали большую часть времени, при этом риск арифметической ошибки или упущенного инсайта оставался значительным.

#### Решение: RAG + CoT + Few-Shot + Self-Correction пайплайн

Команда разработала автоматизированный промпт-пайплайн, интегрированный в существующую аналитическую инфраструктуру. Он состоит из четырёх последовательных этапов:

```text
1. Data Retrieval (RAG)
   — Система автоматически извлекает:
     • Агрегированные метрики за текущую и предыдущую неделю,
     • Релевантные фрагменты из архива отчётов (например, "аномалия в конверсии 15 октября 2024"),
     • Описания активных маркетинговых кампаний,
     • Инциденты из Jira за период.
   — Все данные эмбедятся и хранятся в векторной БД (например, Chroma или FAISS).
   — При генерации отчёта выполняется семантический поиск по запросу: "Еженедельный отчёт за 2025-W44".

2. Analysis Generation (Chain-of-Thought)
   Промпт:
   "Сравни метрики текущей недели с медианным значением предыдущего квартала.
    Объясни три ключевых отклонения, рассуждая пошагово:
    1. Какое изменение зафиксировано?
    2. Какие внешние факторы (кампании, инциденты) могли повлиять?
    3. Является ли отклонение статистически значимым (используй правило 2-х сигм)?"

3. Formatting (Few-Shot)
   В промпт добавлены 2–3 примера структуры прошлых отчётов:
   "Пример 1:
    ## Ключевые метрики
    - Конверсия: +12% (vs Q3 median)
    ## Аномалии
    - Резкий спад в сегменте iOS 18.0 (см. инцидент INC-2025-1029)
    ## Рекомендации
    - Провести A/B-тест нового онбординга..."

   Это гарантирует единообразие стиля и структуры.

4. Validation (Self-Correction)
   Финальный этап:
   "Проверь сгенерированный отчёт на соответствие исходным данным:
    — Совпадают ли указанные процентные изменения с расчётами из контекста?
    — Упомянуты ли все значимые инциденты?
    — Нет ли противоречий между разделами?
    Исправь неточности и выведи только исправленную версию."
```

#### Результат

- **Время подготовки отчёта** сократилось с **8 часов до 45 минут** (включая ручную проверку аналитиком).  
- **Точность числовых расчётов** — **99.2%** (по сравнению с 94% при ручной обработке, где встречались ошибки в формулах Excel).  
- Аналитик перешёл от рутинной сверки к **интерпретации и стратегическим рекомендациям** — его роль стала более экспертной.  
- Пайплайн был масштабирован на 5 других команд (маркетинг, поддержка, продукт).

> **Вывод**: Совмещение RAG (актуальный контекст), CoT (логика), Few-Shot (формат) и Self-Correction (надёжность) превращает LLM из «помощника» в **автономный аналитический модуль**, способный выполнять сложные, многоэтапные задачи с минимальным контролем человека.

В следующем разделе мы рассмотрим, как количественно **оценивать эффективность промптов** — с помощью метрик, A/B-тестов и автоматизированной верификации.


## 5. Инструментарий, Оценка и метрики

Эффективный промпт-инжиниринг невозможен без правильного инструментария и системы оценки. На практике это означает:  
- использование сред для быстрого прототипирования,  
- применение фреймворков для сборки надёжных пайплайнов,  
- внедрение метрик для объективного сравнения версий промптов.  

Без этого промптинг остаётся «искусством проб и ошибок», а не инженерной дисциплиной.

### 5.1. Инструменты и Среды разработки

#### API Playgrounds (Rapid Prototyping)

Для начальной итерации промптов идеально подходят **интерактивные playground’и**, предоставляемые провайдерами LLM:

- **OpenAI Playground**  
- **Anthropic Console**  
- **Google Vertex AI Studio**  
- **Hugging Face Chat UI** (для open-source моделей)

Они позволяют в реальном времени:
- менять **температуру** (0.0–1.0): низкая → детерминированный ответ, высокая → креативность,  
- настраивать **top_p** (ядерное семплирование): контролирует разнообразие токенов,  
- экспериментировать с **максимальной длиной ответа**, **частотным штрафом** и другими параметрами.

> **Совет**: всегда сохраняйте успешные комбинации параметров вместе с промптом — они часть спецификации!

#### Оркестрационные фреймворки (Production-уровень)

Для перехода от прототипа к production-решению используются специализированные библиотеки:

- **LangChain** — гибкий фреймворк для построения цепочек (chains), агентов и RAG-систем.  
- **LlamaIndex** — оптимизирован для эффективного извлечения и индексации контекста (идеален для RAG с документами).  

Эти инструменты позволяют:
- интегрировать внешние источники данных (API, БД, файлы),  
- кэшировать промежуточные результаты,  
- логировать запросы и ответы для аудита,  
- шаблонизировать промпты и управлять версиями.

---

#### Практическое упражнение: Шаблонизация промптов с LangChain

**Зачем шаблонизировать?**  
Жёстко закодированные промпты в виде строк (`f"Анализируй {data}..."`) быстро становятся неуправляемыми. Шаблоны обеспечивают:
- **Воспроизводимость** (reproducibility),  
- **Соблюдение схемы вывода** (schema compliance),  
- **Безопасность** (защита от prompt injection через валидацию переменных).

Пример: создание параметризованного промпта для анализа метрик.

```python
# Файл: prompt_template.py

from langchain.prompts import PromptTemplate

# Шаблон промпта с чёткими плейсхолдерами
ANALYTICS_PROMPT = PromptTemplate.from_template(
"""
Ты — старший аналитик данных.
Проанализируй следующие метрики за период {period}:

{metrics_data}

Выполни:
1. Сравни с базовым периодом ({baseline_period}).
2. Выдели топ-3 аномалии.
3. Предоставь рекомендации.

Ответ строго в формате JSON с полями:
- "anomalies": список строк,
- "recommendations": список строк,
- "summary": краткое резюме (1 предложение).
"""
)

# Пример использования
if __name__ == "__main__":
    formatted_prompt = ANALYTICS_PROMPT.format(
        period="2025-W44",
        baseline_period="Q3 2025 median",
        metrics_data="conversion: 4.2% (+12%), CAC: $28 (-5%), retention_D7: 31% (±0%)"
    )
    print(formatted_prompt)
```

> **Результат**: такой подход позволяет легко интегрировать промпт в автоматизированный пайплайн, тестировать его с разными входами и гарантировать, что структура вывода всегда соответствует ожиданиям парсера.

---

В следующем подразделе мы рассмотрим, **как измерять качество промптов**: от точности и полноты до устойчивости к переформулировкам и вычислительной эффективности.



### 5.2. Система отслеживания прогресса (Progress Tracking System)

Промпт-инжиниринг перестаёт быть «магией», когда вы начинаете **измерять** его эффективность. Без количественных индикаторов невозможно понять, улучшается ли ваш промпт или просто «звучит умнее».  

Для этого внедряется **система отслеживания прогресса**, основанная на **измеримых индикаторах (Measurable Progress Indicators, MPI)**. Эти метрики охватывают как техническую, так и когнитивную стороны работы с LLM.

```text
Измеримые индикаторы прогресса (MPI):

| Метрика                          | Описание                                                                 | Как измеряется                                                                 | Целевое значение |
|----------------------------------|--------------------------------------------------------------------------|--------------------------------------------------------------------------------|------------------|
| Точность извлечения/генерации (Fidelity) | Насколько вывод соответствует эталонному (ground truth) ответу.           | % совпадения по ключевым полям (для JSON), BLEU/ROUGE (для текста), точность классификации. | ≥ 95%            |
| Эффективность промпта (Token Efficiency) | Экономичность использования контекста и генерации.                        | Соотношение: output_tokens / input_tokens. Чем ниже — тем лучше (меньше «воды»). | Минимизация      |
| Устойчивость (Robustness Score)  | Способность давать корректный ответ при наличии шума или переформулировок. | % успешных ответов при: (а) добавлении случайного текста в контекст, (б) синонимичной замене слов в инструкции. | ≥ 90%            |
| Психологическая устойчивость     | Субъективное состояние аналитика при работе с LLM.                        | Самооценка по шкале 1–5: «Насколько вы чувствуете контроль над результатом?» (еженедельно). | ≥ 4              |
```

#### Пояснения по ключевым метрикам

- **Fidelity (Точность)** — главная метрика для production-задач. Например, если промпт должен извлечь `revenue` из отчёта, а эталон = 12500, то ответ «12 500» = ✅, «12.5 тыс.» = ❌ (если не указано иное). Для структурированных задач (JSON, SQL) используется **строгая валидация схемы**.

- **Token Efficiency** — критически важна при работе с платными API. Длинные, многословные промпты увеличивают стоимость и задержку. Оптимизация может включать:
  - удаление избыточных формулировок,
  - использование кратких инструкций (`"Выведи JSON"` вместо `"Пожалуйста, предоставь результат в формате JSON..."`),
  - сжатие контекста через RAG (извлекать только релевантные фрагменты).

- **Robustness Score** — показывает, насколько промпт «ломается» при малейших изменениях. Хороший промпт должен работать даже если:
  - в отзыве написано «не понравилось» вместо «негативный»,
  - дата указана как «30/10/2025» вместо «2025-10-30»,
  - в контекст случайно попал фрагмент лога.

- **Психологическая устойчивость** — часто игнорируемый, но важный аспект. Если аналитик тратит больше энергии на «борьбу» с моделью, чем на анализ, это снижает продуктивность и мотивацию. Регулярная самооценка помогает вовремя пересмотреть стратегию (например, перейти от zero-shot к few-shot).

> **Практический совет**: автоматизируйте сбор первых трёх метрик в CI/CD-пайплайне. Например, при каждом коммите в репозиторий с промптами запускайте тестовый набор (test suite) из 50–100 примеров и стройте дашборд динамики MPI.

---

Эта система превращает промпт-инжиниринг из субъективного процесса в **инженерную дисциплину с обратной связью**, где каждое изменение можно оценить объективно.  

В заключительном разделе мы обсудим этические риски, ограничения LLM и принципы ответственного использования промптинга в образовательной и корпоративной среде.



### 5.3. Бенчмаркинг промптов для анализа данных (Ключевые Метрики)

В аналитике данных промпт — это не просто инструмент генерации текста, а **компонент вычислительной системы**. Поэтому его качество должно оцениваться по тем же строгим критериям, что и код или SQL-запрос: точность, воспроизводимость, соответствие спецификации.

Для этого используется **бенчмаркинг промптов** — регулярное тестирование на фиксированном наборе примеров с измерением ключевых метрик. Ниже приведены метрики, наиболее релевантные для задач анализа данных.

```text
Ключевые метрики бенчмаркинга:

| Метрика               | Описание                                                                 | Целевое значение | Примечание                                                                 |
|-----------------------|--------------------------------------------------------------------------|------------------|----------------------------------------------------------------------------|
| Data Accuracy         | Доля правильных числовых расчётов, статистических выводов и логических заключений. | >95%             | Критично: ошибка в p-value или NPS делает отчёт бесполезным или вредным. |
| Schema Compliance     | Доля ответов, строго соответствующих заданной структуре (JSON, CSV, XML). | 100%             | Нарушение формата ломает автоматизацию. Используйте JSON Schema валидацию. |
| Context Relevance     | Доля утверждений в ответе, подтверждённых RAG-контекстом (без галлюцинаций). | >90%             | Проверяется путём сравнения с исходным контекстом: каждое утверждение должно иметь источник. |
| Token Efficiency      | Соотношение: количество сгенерированных токенов / количество входных переменных (или ключевых параметров). | <1.5             | Низкое значение = лаконичность. Высокое = «вода», что увеличивает стоимость и задержку. |
```

#### Criteria Check: Когда промпт считается «готовым»?

Простого улучшения недостаточно — нужен **чёткий критерий завершения итерации**. Например:

> **Промпт проходит бенчмарк, если одновременно выполнены условия**:  
> - **Data Accuracy ≥ 95%**,  
> - **Schema Compliance = 100%**,  
> - **Token Efficiency снизился как минимум на 10%** по сравнению с предыдущей версией.

Такой подход исключает «переоптимизацию» под одну метрику в ущерб другим (например, сверхточный, но многословный и неструктурированный ответ).

---

#### Практический пример: валидация промпта для расчёта NPS

Допустим, у вас есть тестовый набор из 100 отзывов с размеченными оценками. Промпт генерирует JSON с полем `"nps_score"`.  

- **Data Accuracy**: из 100 ответов — 97 совпадают с эталонным NPS → **97% ✅**  
- **Schema Compliance**: 100 из 100 ответов — валидный JSON с нужными полями → **100% ✅**  
- **Context Relevance**: в 94 случаях все утверждения («рост из-за новой доставки») подтверждены контекстом → **94% ✅**  
- **Token Efficiency**: 180 output tokens / 120 input tokens = **1.5 → на грани**  

→ Промпт почти готов, но требует небольшой оптимизации длины.

---

Такая система позволяет **объективно сравнивать версии промптов**, документировать прогресс и обеспечивать надёжность в production-среде.  

В следующем (заключительном) разделе мы обсудим **этические и методологические ограничения LLM**, а также принципы ответственного использования промпт-инжиниринга в академической и профессиональной практике.



## 6. Адаптация и Итерация (Adaptation & Iteration)

Промпт-инжиниринг как дисциплина характеризуется высокой степенью зависимости от контекста, динамичности задач и нестационарности поведения больших языковых моделей (Large Language Models, LLM). Вследствие этого, эффективное освоение методологии промптинга требует не только статического усвоения шаблонов, но и внедрения **циклического механизма адаптации**, основанного на количественной оценке, рефлексии и постепенном усложнении когнитивных и технических задач. Данный подход согласуется с принципами **конструктивистской педагогики** и **теории пошагового формирования умственных действий** (П. Я. Гальперин), а также с практиками **непрерывного улучшения (continuous improvement)** в инженерных системах.

### 6.1. Механизм итерации и оценки эффективности

#### 6.1.1. Цикл итеративного улучшения промптов

Эффективная итерация строится на четырёх последовательных этапах, образующих замкнутый цикл обратной связи:

1. **Экспериментальное применение** — генерация ответов LLM на контролируемом наборе тестовых примеров (test suite), включающем как типовые, так и пограничные случаи (edge cases).  
2. **Количественная оценка** — вычисление измеримых индикаторов прогресса (Measurable Progress Indicators, MPI), таких как Fidelity, Schema Compliance и Token Efficiency (см. раздел 5.2).  
3. **Диагностический анализ** — выявление систематических ошибок (например, игнорирование временных меток, неверная агрегация по группам, нарушение JSON-схемы).  
4. **Адаптивная коррекция** — модификация промпта с применением продвинутых техник (CoT, Few-Shot, RAG, Self-Correction) и/или повышение сложности задачи.

Формально, цикл может быть представлен как отображение:

$$
P_{t+1} = \mathcal{A}\big(P_t, \mathcal{E}(P_t, D_{\text{test}})\big),
$$

где:  
- $P_t$ — версия промпта на итерации $t$,  
- $D_{\text{test}}$ — тестовый датасет,  
- $\mathcal{E}$ — функция оценки (возвращает вектор MPI),  
- $\mathcal{A}$ — адаптивный оператор коррекции.

> **Пример 1 (практический)**.  
> На итерации $t$ промпт для расчёта NPS демонстрирует Fidelity = 92%. Анализ ошибок показывает, что модель неверно интерпретирует отзывы без явной оценки (например, «всё нормально» → классифицируется как Promoter).  
> На итерации $t+1$ в промпт добавляется Few-Shot блок:  
> ```
> Пример: "всё нормально" → Passive  
> Пример: "ничего особенного" → Passive  
> ```  
> В результате Fidelity возрастает до 96.5%.

#### 6.1.2. Критерии перехода на следующий уровень сложности

Переход к более сложным задачам должен быть **условным**, а не временным. Рекомендуется использовать следующее правило:

> **Правило адаптации**:  
> Повышение сложности допустимо, если в течение **двух последовательных итераций** выполняются все условия:  
> - $ \text{Fidelity} \geq 0.95 $,  
> - $ \text{Schema Compliance} = 1.0 $,  
> - $ \text{Robustness Score} \geq 0.90 $.

Под «повышением сложности» понимается:  
- увеличение числа источников данных (от одного CSV к интеграции SQL + PDF + логи),  
- введение неопределённости («данные частично противоречивы — опиши расхождения»),  
- требование генерации не только вывода, но и **обоснования методологии** («почему выбран t-тест, а не Mann–Whitney?»).

> **Пример 2 (методологический)**.  
> После освоения генерации SQL-запросов с CoT, следующая задача:  
> *«Сгенерируй два альтернативных запроса для расчёта retention: (а) по cohort-анализу, (б) по rolling window. Сравни их вычислительную сложность и применимость в условиях sparse data.»*  
> Такая формулировка требует не только применения, но и **оценки** и **синтеза** — уровней 5–6 по таксономии Блума.

---

### 6.2. Оценка эффективности обучения: когнитивные и метакогнитивные метрики

#### 6.2.1. Коэффициент удержания знаний (Retention Rate)

Для объективной оценки долгосрочного усвоения навыков промпт-инжиниринга рекомендуется применять метод **отсроченного ретестирования**. Процедура включает:

- Проведение базового теста $T_0$ (например, разработка промпта для извлечения метрик из текста).  
- Повторное выполнение аналогичного, но не идентичного задания $T_{14}$ через 14 дней.  
- Расчёт коэффициента удержания:

$$
R = \frac{\text{Score}(T_{14})}{\text{Score}(T_0)}.
$$

Целевое значение: $ R \geq 0.90 $. Значение $ R < 0.80 $ указывает на необходимость возврата к фундаментальным техникам (Zero-Shot, структурирование компонентов промпта).

> **Пример 3 (эмпирический)**.  
> Студент на $T_0$ получил Fidelity = 94% при генерации JSON-отчёта. Через две недели, при работе с новым датасетом (продажи вместо логов), Fidelity = 85%.  
> Диагноз: недостаточная **трансферабельность** навыка.  
> Интервенция: тренировка на мультидоменных данных (e-commerce, финансы, логистика) с акцентом на **абстрактную структуру промпта**, а не на предметную область.

#### 6.2.2. Согласование с таксономией Блума

Таксономия Блума (Bloom’s Taxonomy) предоставляет иерархическую модель когнитивных процессов, что позволяет оценивать глубину освоения дисциплины. В контексте промпт-инжиниринга уровни могут быть операционализированы следующим образом:

| Уровень таксономии | Операциональное определение в PE | Пример задания |
|--------------------|----------------------------------|----------------|
| **Запоминание**    | Воспроизведение шаблонов и терминов | «Напишите определение Chain-of-Thought». |
| **Понимание**      | Объяснение принципов работы техник | «Почему Few-Shot повышает точность классификации?» |
| **Применение**     | Использование техник в знакомом контексте | «Создайте CoT-промпт для расчёта медианы». |
| **Анализ**         | Сравнение, декомпозиция, выявление структуры | «Сравните Token Efficiency трёх версий промпта для одной задачи». |
| **Оценка**         | Критическое суждение о пригодности метода | «Когда RAG избыточен? Приведите аргументы». |
| **Создание**       | Синтез новых пайплайнов или гибридных подходов | «Спроектируйте промпт-пайплайн для автоматического аудита финансовых отчётов с Self-Correction и JSON Schema». |

> **Рекомендация**: к завершению курса не менее **70% практических заданий** должны соответствовать уровням «Анализ», «Оценка» и «Создание». Это гарантирует переход от репродуктивного к продуктивному мышлению.

Таким образом, адаптация и итерация в промпт-инжиниринге — это не вспомогательный, а **центральный процесс**, обеспечивающий как техническую надёжность решений, так и когнитивное развитие специалиста. Внедрение формализованных метрик, условных правил перехода и когнитивной оценки позволяет трансформировать обучение из эвристического опыта в **воспроизводимую, измеримую и масштабируемую инженерную практику**. Такой подход особенно актуален в условиях быстрой эволюции архитектур LLM и растущих требований к прозрачности и воспроизводимости аналитических выводов.



## Методология количественной оценки эффективности промптов в задачах анализа данных

Оценка качества промптов, используемых для взаимодействия с большими языковыми моделями (Large Language Models, LLM), требует систематического подхода, основанного на воспроизводимых метриках и контролируемых экспериментальных условиях. В отличие от субъективной оценки «качества текста», применяемой в гуманитарных дисциплинах, в прикладной аналитике данных эффективность промпта должна измеряться через **точность, структурную корректность, вычислительную эффективность и устойчивость к возмущениям входных данных**. Ниже излагается формализованная методология верификации ключевых метрик.

### 1. Формирование эталонного тестового набора

Первым этапом оценки является конструирование **контролируемого тестового набора** $\mathcal{D}_{\text{test}} = \{ (x_i, y_i^{\text{gt}}) \}_{i=1}^N$, где:  
- $x_i$ — входной промпт или набор переменных для параметризованного шаблона,  
- $y_i^{\text{gt}}$ — эталонный (ground truth) ответ, верифицированный экспертом или полученный из достоверного источника.

Размер набора $N$ рекомендуется выбирать в диапазоне 20–100 наблюдений для баланса между статистической надёжностью и вычислительной целесообразностью. Набор должен включать как типовые, так и пограничные случаи (edge cases), моделирующие реальные условия эксплуатации.

### 2. Генерация ответов LLM

Для каждого элемента $x_i \in \mathcal{D}_{\text{test}}$ выполняется запрос к LLM с фиксированными гиперпараметрами (в частности, температура $T = 0.0$ для детерминированности). Полученный ответ обозначается как $y_i^{\text{pred}}$.

### 3. Количественная оценка по ключевым метрикам

#### 3.1. Точность данных (Data Accuracy)

Метрика оценивает степень соответствия числовых и логических выводов модели эталонным значениям. Для скалярных величин применяется относительная погрешность:

$$
\text{Accuracy}_i =
\begin{cases}
1, & \text{если } \left| \dfrac{y_i^{\text{pred}} - y_i^{\text{gt}}}{y_i^{\text{gt}}} \right| \leq \varepsilon, \\
0, & \text{иначе},
\end{cases}
$$

где $\varepsilon$ — допустимая относительная погрешность (обычно $\varepsilon = 0.01$). Для категориальных и логических переменных используется точное совпадение.

Итоговая метрика:
$$
\text{Data Accuracy} = \frac{1}{N} \sum_{i=1}^{N} \text{Accuracy}_i.
$$

#### 3.2. Соответствие схеме (Schema Compliance)

Данная метрика проверяет строгое соответствие структуры вывода заранее определённой схеме (например, JSON Schema). Используется валидация на основе формальных грамматик:

$$
\text{Schema Compliance}_i =
\begin{cases}
1, & \text{если } y_i^{\text{pred}} \models \mathcal{S}, \\
0, & \text{иначе},
\end{cases}
$$

где $\mathcal{S}$ — формальная схема вывода, а $\models$ обозначает удовлетворение синтаксическим и семантическим ограничениям.  
Целевое значение: **100%**, поскольку нарушение схемы делает автоматическую обработку невозможной.

#### 3.3. Релевантность контексту (Context Relevance)

Метрика направлена на выявление галлюцинаций — генерации утверждений, не подтверждённых предоставленным контекстом $c_i$. Операционализируется через семантическое покрытие:

$$
\text{Relevance}_i = \frac{|\{ s \in \text{Sent}(y_i^{\text{pred}}) : \exists f \in \text{Frag}(c_i), \ \text{sim}(s, f) \geq \tau \}|}{|\text{Sent}(y_i^{\text{pred}})|},
$$

где:  
- $\text{Sent}(\cdot)$ — множество предложений,  
- $\text{Frag}(\cdot)$ — фрагменты контекста,  
- $\text{sim}(\cdot, \cdot)$ — косинусное сходство эмбеддингов (например, на основе `all-MiniLM-L6-v2`),  
- $\tau$ — порог сходства (обычно $\tau = 0.7$).

#### 3.4. Эффективность по токенам (Token Efficiency)

Оценивает вычислительную и экономическую рациональность промпта:

$$
\text{Token Efficiency} = \frac{1}{N} \sum_{i=1}^{N} \frac{\text{len}_{\text{tok}}(y_i^{\text{pred}})}{\text{len}_{\text{tok}}(x_i)},
$$

где $\text{len}_{\text{tok}}(\cdot)$ — количество токенов, подсчитанное с использованием токенизатора, соответствующего архитектуре LLM (например, `tiktoken` для моделей OpenAI). Целевое значение: $< 1.5$ для структурированных задач.

#### 3.5. Устойчивость к возмущениям (Robustness Score)

Оценивается на расширенном наборе $\mathcal{D}_{\text{test}}^{\text{noisy}}$, содержащем вариации входных данных:  
- синонимическая замена слов в инструкции,  
- добавление неинформативного шума в контекст,  
- изменение порядка элементов.

$$
\text{Robustness} = \frac{1}{M} \sum_{j=1}^{M} \mathbb{I}\big( y_j^{\text{pred, noisy}} \text{ корректен} \big),
$$

где $M$ — число зашумлённых примеров, $\mathbb{I}$ — индикаторная функция. Целевое значение: $\geq 0.90$.

### 4. Агрегация и интерпретация результатов

Итоговые метрики агрегируются в отчёт, который может быть интегрирован в системы непрерывной интеграции (CI/CD). Рекомендуется визуализировать динамику метрик по версиям промптов (например, с использованием `MLflow` или `Weights & Biases`).

### Заключение

Предложенная методология обеспечивает **объективную, воспроизводимую и масштабируемую** оценку качества промптов. Её применение позволяет трансформировать промпт-инжиниринг из эвристической практики в инженерную дисциплину, соответствующую стандартам надёжности, предъявляемым к компонентам аналитических систем. Внедрение подобного подхода особенно актуально в условиях растущей интеграции LLM в критически важные бизнес-процессы, где ошибки могут иметь значимые финансовые или репутационные последствия.


## 7. Этические аспекты, Troubleshooting и Будущее PE

Промпт-инжиниринг — это не только технический навык, но и **ответственность**. Особенно в аналитике данных, где решения на основе LLM могут влиять на бизнес-стратегии, распределение ресурсов или даже оценку персонала. Поэтому важно сочетать инженерную эффективность с этической осознанностью и умением быстро диагностировать и исправлять сбои.

### 7.1. Детализированное расписание (Study Schedule Generation)

Для магистрантов с ограниченной неделей (5 часов на PE), важно **максимально эффективно распределить время** между теорией, практикой и интеграцией. Ниже — пример сбалансированного недельного плана, сочетающего изучение новых методов и hands-on работу.

```text
Недельное расписание для изучения промпт-инжиниринга (5 часов/неделя)

| День        | Время   | Фокус                          | Активность                                                                 |
|-------------|---------|--------------------------------|----------------------------------------------------------------------------|
| Понедельник | 1 час   | Теория / Чтение                | Изучение продвинутой техники: Tree-of-Thought (ToT) — как разбивать задачу на поддеревья решений. |
| Среда       | 2 часа  | Практика CoT и Форматирование  | Разработка промпта для генерации сложного SQL-запроса (например, с оконными функциями).<br>Проведите 5 итераций: от zero-shot до CoT + Few-Shot + Schema Enforcement. |
| Пятница     | 2 часа  | RAG и Интеграция               | Создание мини-RAG-прототипа: загрузка PDF-отчётов → эмбеддинги → извлечение → генерация.<br>Оцените Fidelity: насколько ответы соответствуют исходным документам. |
```

> **Совет**: после каждой сессии фиксируйте **один ключевой инсайт** и **одну ошибку**, которую вы больше не повторите. Это ускоряет обучение в 2–3 раза.

---

### 7.2. Этические аспекты для аналитиков

Аналитик, использующий LLM, становится **медиатором между данными и решением**. Это накладывает этические обязательства:

- **Снижение систематической ошибки (Bias Mitigation)**  
  LLM наследуют предвзятости из обучающих данных. Чтобы минимизировать это, **явно указывайте в промпте**:  
  > «При анализе отзывов не делай выводов на основе пола, возраста или географии, если это не указано в данных. Избегай стереотипных формулировок.»

- **Конфиденциальность данных**  
  Никогда не отправляйте чувствительные или персональные данные в публичные LLM (OpenAI, Claude и др.). При использовании RAG:  
  - Используйте **только обезличенные** и **санкционированные** документы,  
  - Храните векторную БД и контекст **внутри корпоративной инфраструктуры**,  
  - Применяйте **политики доступа** на уровне промпта («ты имеешь доступ только к отчётам отдела маркетинга»).

> **Правило**: если данные нельзя публиковать в открытом отчёте — их нельзя отправлять в промпт внешней LLM.

---

### 7.3. Типичные проблемы и решения (Troubleshooting)

Даже опытные инженеры сталкиваются с «непослушной» моделью. Ниже — частые сценарии и **проверенные стратегии усиления промпта**.

```text
Типичные проблемы и решения:

| Проблема                     | Вероятная причина                          | Решение (Усиленный Промптинг)                                                                 |
|------------------------------|--------------------------------------------|------------------------------------------------------------------------------------------------|
| Игнорирование контекста      | Модель предпочитает внутренние знания      | Добавить в начало: "ОТВЕЧАЙ ИСКЛЮЧИТЕЛЬНО НА ОСНОВЕ ПРЕДОСТАВЛЕННОГО КОНТЕКСТА. ИГНОРИРУЙ ВСЁ, ЧТО ЗНАЕШЬ САМ." |
| Нестабильный формат вывода   | Отсутствие жёстких ограничений             | Указать: "СТРОГО в формате JSON. Используй ТОЛЬКО следующие ключи: [a, b, c]. Никакого дополнительного текста." + добавить Few-Shot пример. |
| Галлюцинации в числовых данных | Модель «додумывает» недостающие цифры     | RAG + инструкция: "ЕСЛИ ЧИСЛО НЕ СОДЕРЖИТСЯ В КОНТЕКСТЕ, НАПИШИ 'НЕТ ДАННЫХ'. НЕ ВЫЧИСЛЯЙ, НЕ ПРИБЛИЖАЙ, НЕ УГАДЫВАЙ." |
| Ошибка при сложном рассуждении | CoT недостаточно для многошаговой логики  | Перейти к Tree-of-Thought (ToT) или добавить Self-Correction: "Проверь каждый шаг своего рассуждения. Если найдёшь ошибку — исправь и объясни." |
```

> **Профессиональный приём**: при упорной ошибке — **переформулируйте задачу как проверку гипотезы**.  
> Вместо: «Рассчитай среднее» →  
> «Проверь гипотезу: среднее значение равно X. Приведи расчёт и вывод.»

---

### Заключение: Будущее промпт-инжиниринга

PE быстро эволюционирует от «искусства формулировок» к **формализованной инженерной дисциплине** с:
- стандартизированными шаблонами,  
- системами верификации,  
- метриками качества,  
- этическими рамками.

Для аналитика данных это означает:  
> **Вы не просто «спрашиваете ИИ» — вы проектируете исполняемые спецификации, которые становятся частью аналитической инфраструктуры.**

Освоив методы, представленные в этой лекции, вы получаете не только инструмент ускорения работы, но и **основу для создания надёжных, прозрачных и этичных AI-ассистентов следующего поколения**.