# TF-IDF

>[TF-IDF](https://scikit-learn.org/stable/modules/feature_extraction.html#tfidf-term-weighting) 的意思是词频（term frequency）乘以逆文档频率（inverse document-frequency）。

本笔记将介绍如何使用一个检索器，该检索器在底层使用 `scikit-learn` 包中的 [TF-IDF](https://en.wikipedia.org/wiki/Tf%E2%80%93idf)。

有关 TF-IDF 详细信息的更多内容，请参阅 [这篇博文](https://medium.com/data-science-bootcamp/tf-idf-basics-of-information-retrieval-48de122b2a4c)。

In [2]:
%pip install --upgrade --quiet  scikit-learn

In [3]:
from langchain_community.retrievers import TFIDFRetriever

## 使用文本创建新的检索器

In [4]:
retriever = TFIDFRetriever.from_texts(["foo", "bar", "world", "hello", "foo bar"])

## 使用文档创建新的检索器

您现在可以使用创建的文档来创建一个新的检索器。

In [5]:
from langchain_core.documents import Document

retriever = TFIDFRetriever.from_documents(
    [
        Document(page_content="foo"),
        Document(page_content="bar"),
        Document(page_content="world"),
        Document(page_content="hello"),
        Document(page_content="foo bar"),
    ]
)

## 使用检索器

现在我们可以使用检索器了！

In [6]:
result = retriever.invoke("foo")

In [7]:
result

[Document(page_content='foo', metadata={}),
 Document(page_content='foo bar', metadata={}),
 Document(page_content='hello', metadata={}),
 Document(page_content='world', metadata={})]

## 保存与加载

您可以轻松地保存和加载此检索器，这对于本地开发非常有用！

In [8]:
retriever.save_local("testing.pkl")

In [9]:
retriever_copy = TFIDFRetriever.load_local("testing.pkl")

In [10]:
retriever_copy.invoke("foo")

[Document(page_content='foo', metadata={}),
 Document(page_content='foo bar', metadata={}),
 Document(page_content='hello', metadata={}),
 Document(page_content='world', metadata={})]