# Лабораторная работа: Суммаризация научной статьи

В этой лабораторной работе мы научимся использовать LLM для:
1. Очистки текста, извлечённого из PDF (исправление артефактов OCR)
2. Извлечения структурированной информации из научной статьи

В качестве примера мы используем статью **"Attention Is All You Need"** — одну из ключевых работ в области глубокого обучения.

## 1. Настройка окружения

In [None]:
%pip install --upgrade openai python-dotenv pydantic

In [None]:
!curl -o .env {{url_of_dotenv_file}}

In [None]:
import os
from dotenv import load_dotenv
from openai import OpenAI

# Загружаем переменные окружения из .env файла
load_dotenv()

folder_id = os.environ["folder_id"]
api_key = os.environ["api_key"]

model = f"gpt://{folder_id}/yandexgpt/rc"

client = OpenAI(
    base_url="https://ai.api.cloud.yandex.net/v1",
    api_key=api_key,
    project=folder_id
)

print("Клиент успешно инициализирован.")

In [None]:
from IPython.display import Markdown, display

def printx(string):
    """Вывод текста в формате Markdown."""
    display(Markdown(string))

## 2. Загрузка текста статьи

Текст статьи был извлечён из PDF и сохранён в файле `article-attention.txt`. Такой текст часто содержит артефакты: разрывы слов, лишние переносы строк, остатки заголовков/колонтитулов.

In [None]:
# Загружаем текст статьи
# Загрузите текст статьи из data/article-attention.txt в переменную raw_text

## 3. Очистка текста с помощью LLM

Используем LLM для исправления артефактов извлечения из PDF:
- Объединение разорванных слов
- Удаление лишних переносов строк
- Исправление опечаток и артефактов OCR

> **Примечание**: Для больших текстов может потребоваться разбиение на части, если вся статья не влезает в контекст модели

In [None]:
cleanup_prompt = """
... напишите промпт для очистки текста статьи ...
"""

# используйте Responses API для получения очищенного текста статьи
# запомните также response_id

## 4. Структурированная суммаризация

Теперь, продолжая диалог с LLM (используя `previous_response_id`), попросим создать структурированное резюме статьи.

### 4.1. Определение структуры данных

In [3]:
# Определите структуру данных Pydantic, которая бы содержала основную информацию
# о статье: авторы, название, абстракт, список литературы, научная новизна и т.д.

### 4.2. Генерация структурированного резюме с помощью Structured Outputs

Используем метод `client.responses.parse()`, который автоматически валидирует ответ модели по pydantic-схеме.

In [4]:
# В продолжение предыдущего разговора, используя previous_response_id,
# извлеките данные о статье в разработанную вами структуру данных

### 4.3. Отображение результата

In [None]:
# Напечатайте красиво результат

## 5. Экспорт результатов

In [5]:
# Сохраните результат суммаризации статьи в JSON-файл

## Заключение

В этой лабораторной работе мы освоили:

1. **Очистку текста** — использование LLM для исправления артефактов извлечения из PDF
2. **Сохранение контекста** — использование `store=True` и `previous_response_id` для многоходового диалога
3. **Structured Outputs** — использование `client.responses.parse()` с pydantic-моделью для получения типизированных и валидированных данных

### Задания для дальнейшей работы

1. Попробуйте сгенерировать вопросы для проверки понимания статьи
2. Сравните качество суммаризации разных моделей