## Overview

Large Language Models (LLMs) are emerging as an extremely capable technology for powering information extraction applications.

Classical solutions to information extraction rely on a combination of people, (many) hand-crafted rules (e.g., regular expressions), and custom fine-tuned ML models.

Such systems tend to get complex over time and become progressively more expensive to maintain and more difficult to enhance.

LLMs can be adapted quickly for specific extraction tasks just by providing appropriate instructions to them and appropriate reference examples.

This guide will show you how to use LLMs for extraction applications!

## Approaches

There are 3 broad approaches for information extraction using LLMs:

- **Tool/Function Calling** Mode: Some LLMs support a *tool or function calling* mode. These LLMs can structure output according to a given **schema**. Generally, this approach is the easiest to work with and is expected to yield good results.

- **JSON Mode**: Some LLMs are can be forced to output valid JSON. This is similar to **tool/function Calling** approach, except that the schema is provided as part of the prompt. Generally, our intuition is that this performs worse than a **tool/function calling** approach, but don't trust us and verify for your own use case!

- **Prompting Based**: LLMs that can follow instructions well can be instructed to generate text in a desired format. The generated text can be parsed downstream using existing [Output Parsers](/docs/modules/model_io/output_parsers/) or using [custom parsers](/docs/modules/model_io/output_parsers/custom) into a structured format like JSON. This approach can be used with LLMs that **do not support** JSON mode or tool/function calling modes. This approach is more broadly applicable, though may yield worse results than models that have been fine-tuned for extraction or function calling.

## Quickstart

Head to the [quickstart](/docs/use_cases/extraction/quickstart) to see how to extract information using LLMs using a basic end-to-end example.

The quickstart focuses on information extraction using the **tool/function calling** approach.


## How-To Guides

- [Use Reference Examples](/docs/use_cases/extraction/how_to/examples): Learn how to use **reference examples** to improve performance.
- [Handle Long Text](/docs/use_cases/extraction/how_to/handle_long_text): What should you do if the text does not fit into the context window of the LLM?
- [Handle Files](/docs/use_cases/extraction/how_to/handle_files): Examples of using LangChain document loaders and parsers to extract from files like PDFs.
- [Use a Parsing Approach](/docs/use_cases/extraction/how_to/parse): Use a prompt based approach to extract with models that do not support **tool/function calling**.

## Guidelines

Head to the [Guidelines](/docs/use_cases/extraction/guidelines) page to see a list of opinionated guidelines on how to get the best performance for extraction use cases.

## Use Case Accelerant

[langchain-extract](https://github.com/langchain-ai/langchain-extract) is a starter repo that implements a simple web server for information extraction from text and files using LLMs. It is build using **FastAPI**, **LangChain** and **Postgresql**. Feel free to adapt it to your own use cases.

## Other Resources

* The [output parser](/docs/modules/model_io/output_parsers/) documentation includes various parser examples for specific types (e.g., lists, datetime, enum, etc).
* LangChain [document loaders](/docs/modules/data_connection/document_loaders/) to load content from files. Please see list of [integrations](/docs/integrations/document_loaders).
* The experimental [Anthropic function calling](/docs/integrations/chat/anthropic_functions) support provides similar functionality to Anthropic chat models.
* [LlamaCPP](/docs/integrations/llms/llamacpp#grammars) natively supports constrained decoding using custom grammars, making it easy to output structured content using local LLMs 
* [JSONFormer](/docs/integrations/llms/jsonformer_experimental) offers another way for structured decoding of a subset of the JSON Schema.
* [Kor](https://eyurtsev.github.io/kor/) is another library for extraction where schema and examples can be provided to the LLM. Kor is optimized to work for a parsing approach.
* [OpenAI's function and tool calling](https://platform.openai.com/docs/guides/function-calling)
* For example, see [OpenAI's JSON mode](https://platform.openai.com/docs/guides/text-generation/json-mode).

<hr>

## 概述

大型语言模型 (LLM) 正在成为一种为信息提取应用程序提供支持的极其强大的技术。

信息提取的经典解决方案依赖于人员、（许多）手工制定的规则（例如正则表达式）和自定义微调的 ML 模型的组合。

随着时间的推移，此类系统往往会变得复杂，维护成本也越来越高，增强起来也越来越困难。

只需向法学硕士提供适当的说明和适当的参考示例，即可快速适应特定的提取任务。

本指南将向您展示如何使用法学硕士进行提取应用程序！

## 方法

使用LLMs进行信息提取有 3 种广泛的方法：

- **工具/函数调用**模式：一些LLMs支持*工具或函数调用*模式。 这些LLMs可以根据给定的**模式**构建输出。 一般来说，这种方法最容易使用，并且有望产生良好的结果。

- **JSON 模式**：某些LLMs可以强制输出有效的 JSON。 这类似于 **工具/函数调用** 方法，只不过架构是作为提示的一部分提供的。 一般来说，我们的直觉是，这比 **工具/函数调用** 方法的性能更差，但不要相信我们并针对您自己的用例进行验证！

- **基于提示**：可以很好地遵循说明LLMs可以被指示生成所需格式的文本。 生成的文本可以使用现有的[输出解析器](/docs/modules/model_io/output_parsers/)或使用[自定义解析器](/docs/modules/model_io/output_parsers/custom)在下游解析为结构化格式，如JSON。 此方法可用于 **不支持** JSON 模式或工具/函数调用模式的 LLM。 这种方法具有更广泛的适用性，但可能会比针对提取或函数调用进行微调的模型产生更差的结果。

＃＃ 快速开始

前往[快速入门](/docs/use_cases/extraction/quickstart)，了解如何使用基本的端到端示例使用 LLM 提取信息。

本快速入门重点介绍使用**工具/函数调用**方法提取信息。


## 操作指南

- [使用参考示例](/docs/use_cases/extraction/how_to/examples)：了解如何使用**参考示例**来提高性能。
- [处理长文本](/docs/use_cases/extraction/how_to/handle_long_text)：如果文本不适合法学硕士的上下文窗口，你该怎么办？
- [处理文件](/docs/use_cases/extraction/how_to/handle_files)：使用 LangChain 文档加载器和解析器从 PDF 等文件中提取的示例。
- [使用解析方法](/docs/use_cases/extraction/how_to/parse)：使用基于提示的方法对不支持**工具/函数调用**的模型进行提取。

## 指南

前往 [指南](/docs/use_cases/extraction/guidelines) 页面查看有关如何获得提取用例最佳性能的固执己见的指南列表。

## 用例加速器

[langchain-extract](https://github.com/langchain-ai/langchain-extract) 是一个入门存储库，它实现了一个简单的 Web 服务器，用于使用 LLM 从文本和文件中提取信息。 它是使用 **FastAPI**、**LangChain** 和 **Postgresql** 构建的。 请随意调整它以适应您自己的用例。

## 其他资源

* [输出解析器](/docs/modules/model_io/output_parsers/) 文档包含特定类型（例如列表、日期时间、枚举等）的各种解析器示例。
* LangChain [文档加载器](/docs/modules/data_connection/document_loaders/) 从文件加载内容。 请参阅[集成](/docs/integrations/document_loaders) 列表。
* 实验性的[人择函数调用](/docs/integrations/chat/anthropic_functions) 支持提供与人择聊天模型类似的功能。
* [LlamaCPP](/docs/integrations/llms/llamacpp#grammars) 原生支持使用自定义语法的约束解码，从而可以轻松使用本地 LLM 输出结构化内容
* [JSONFormer](/docs/integrations/llms/jsonformer_experimental) 提供了另一种对 JSON 模式子集进行结构化解码的方法。
* [Kor](https://eyurtsev.github.io/kor/) 是另一个用于提取的库，可以向法学硕士提供模式和示例。 Kor 已针对解析方法进行了优化。
* [OpenAI的函数和工具调用](https://platform.openai.com/docs/guides/function-calling)
* 例如，请参阅[OpenAI的JSON模式](https://platform.openai.com/docs/guides/text- Generation/json-mode)。