# Извлечение структурированной информации

Большие языковые модели (LLM) отлично подходят для решения задачи по извлечению информации.

Обычно, такие задачи решаются вручную, с помощью множества различных регулярных выражений и специально настроенных ML-моделей.
Такие решения требуют больших трудозатрат при обслуживании и доработке.

В то же время LLM для извлечения определенной информации достаточно предоставить подходящие иснтрукции и несколько примеров.

## Способы извлечения информации

Можно выделить три подхода к извлечению  информации с помощью LLM:

* Использование инструментов или функций.

  Некоторые модели поддерживают работу с инструментами или функциями. Такие LLM могут структурировать извлеченную информацию в соответствии с предоставленной схемой данных.
  В общем случае этот подход наиболее прост в разработке и позволяет получить хорошие результаты.

* Генерирование JSON.
  
  Некоторые модели могут принудительно возвращать данные в виде JSON.
  Такой подход отличается от работы с инструментами или функциями тем, что формат вывода задается как часть промпта.

* Использование промпта.

  Если какая-то модель хорошо следует инструкциям, то ей можно указать вернуть данные в определеном формате.
  После чего сгенерированный текст можно преобразовать в структурированные данные вроде JSON с помощью [встроенного](/docs/modules/model_io/output_parsers/) или [собственного](/docs/modules/model_io/output_parsers/custom) парсера.
  Этот подход можно использовать если модель не поддерживает принудительную генерацию JSON или не умеет работать с инструментами или функциями.
  Его можно применять с более широким набором моделей, но итоговые результаты, как правило будут хуже.

## Быстрый старт

В [быстром старте](/docs/use_cases/extraction/quickstart) приводится готовый пример, демонстрирующий извлечение информации с помощью GigaChat на основе работы с инструментами/функциями. 

## Руководства 

* Используйте [образцы кода](/docs/use_cases/extraction/how_to/examples) для более эффективного извлечения информации.
* Узнайте [что делать](/docs/use_cases/extraction/how_to/handle_long_text), когда размер текста превышает объем контекста модели.
* Изучите как использовать загрузчики документов и парсеры GigaChain для [извлечения данных из файлов](/docs/use_cases/extraction/how_to/handle_files) вроде PDF.
* Ознакомьтесь с [примером получения структурированной информации](/docs/use_cases/extraction/how_to/parse) от моделей, которые не поддерживают работу с инструментами или функциями. 

## Рекомендации

Раздел [Рекомендации](/docs/use_cases/extraction/guidelines) содержит список советов о том, как добиться лучших результатов при извлечении информации.

<!--
## Use Case Accelerant

[langchain-extract](https://github.com/langchain-ai/langchain-extract) is a starter repo that implements a simple web server for information extraction from text and files using LLMs. It is build using **FastAPI**, **LangChain** and **Postgresql**. Feel free to adapt it to your own use cases.
-->

## Смотрите также

* Документация для парсеров [выходных данных](/docs/modules/model_io/output_parsers/), которая включает примеры парсеров данныз разных типов: списков, даты и времени, перечислений и других.
* Документация для [загрузчиков документов](/docs/modules/data_connection/document_loaders/)

<!--
* The experimental [Anthropic function calling](/docs/integrations/chat/anthropic_functions) support provides similar functionality to Anthropic chat models.
* [LlamaCPP](/docs/integrations/llms/llamacpp#grammars) natively supports constrained decoding using custom grammars, making it easy to output structured content using local LLMs 
* [JSONFormer](/docs/integrations/llms/jsonformer_experimental) offers another way for structured decoding of a subset of the JSON Schema.
* [Kor](https://eyurtsev.github.io/kor/) is another library for extraction where schema and examples can be provided to the LLM. Kor is optimized to work for a parsing approach.
* [OpenAI's function and tool calling](https://platform.openai.com/docs/guides/function-calling)
* For example, see [OpenAI's JSON mode](https://platform.openai.com/docs/guides/text-generation/json-mode).
-->