# ElasticSearch BM25

>[Elasticsearch](https://www.elastic.co/elasticsearch/)是一个分布式、RESTful的搜索和分析引擎。它提供了一个带有HTTP Web接口和无模式JSON文档的分布式多租户全文本搜索引擎。

>在信息检索中，[Okapi BM25](https://en.wikipedia.org/wiki/Okapi_BM25)(BM是最佳匹配的缩写)是搜索引擎用于估计文档与给定搜索查询的相关性的排名函数。它基于Steven E. Robertson、Karen Spärck Jones等人于1970年代和1980年代开发的概率检索框架。

>实际排名函数的名称是BM25。更完整的名称Okapi BM25包括第一个使用它的系统的名称，这是在20世纪80年代和90年代实施的伦敦城市大学的Okapi信息检索系统。BM25及其较新的变体，例如BM25F(一种可以考虑到文档结构和锚文本的BM25版本)表示用于文档检索的类似TF-IDF的检索函数。

本笔记本展示了如何使用使用`ElasticSearch`和`BM25`的检索器。

有关BM25详细信息，请参见[此博客文章](https://www.elastic.co/blog/practical-bm25-part-2-the-bm25-algorithm-and-its-variables)。

In [None]:
#!pip install elasticsearch

In [2]:
from langchain.retrievers import ElasticSearchBM25Retriever

## 创建新的检索器

In [None]:
elasticsearch_url="http://localhost:9200"
retriever = ElasticSearchBM25Retriever.create(elasticsearch_url, "langchain-index-4")

In [13]:
# Alternatively, you can load an existing index
# import elasticsearch
# elasticsearch_url="http://localhost:9200"
# retriever = ElasticSearchBM25Retriever(elasticsearch.Elasticsearch(elasticsearch_url), "langchain-index")

## 添加文本(如果需要)

我们可以选择将文本添加到检索器(如果它们不在其中)

In [3]:
retriever.add_texts(["foo", "bar", "world", "hello", "foo bar"])

['cbd4cb47-8d9f-4f34-b80e-ea871bc49856',
 'f3bd2e24-76d1-4f9b-826b-ec4c0e8c7365',
 '8631bfc8-7c12-48ee-ab56-8ad5f373676e',
 '8be8374c-3253-4d87-928d-d73550a2ecf0',
 'd79f457b-2842-4eab-ae10-77aa420b53d7']

## 使用检索器

我们现在可以使用检索器！

In [4]:
result = retriever.get_relevant_documents("foo")

In [5]:
result

[Document(page_content='foo', metadata={}),
 Document(page_content='foo bar', metadata={})]