# Vectara self-querying | Vectara セルフクエリング

> [Vectara](https://vectara.com/)は、ドキュメントのインデックス作成とクエリングのための使いやすいAPIを提供する信頼できるGenAIプラットフォームです。
>
> > [Vectara](https://vectara.com/) is the trusted GenAI platform that provides an easy-to-use API for document indexing and querying.

Vectaraは、Retrieval Augmented Generation（RAG）に対して、エンドツーエンドで管理されたサービスを提供しており、以下を含みます：

> Vectara provides an end-to-end managed service for Retrieval Augmented Generation or [RAG](https://vectara.com/grounded-generation/), which includes:

1. ドキュメントファイルからテキストを抽出し、それを文に分割する方法。

   > A way to extract text from document files and chunk them into sentences.

2. 最先端の[Boomerang](https://vectara.com/how-boomerang-takes-retrieval-augmented-generation-to-the-next-level-via-grounded-generation/)埋め込みモデルです。各テキストチャンクはBoomerangを使用してベクトル埋め込みにエンコードされ、Vectaraの内部知識（ベクトル+テキスト）ストアに格納されます。

   > The state-of-the-art [Boomerang](https://vectara.com/how-boomerang-takes-retrieval-augmented-generation-to-the-next-level-via-grounded-generation/) embeddings model. Each text chunk is encoded into a vector embedding using Boomerang, and stored in the Vectara internal knowledge (vector+text) store

3. クエリを自動的に埋め込み表現にエンコードし、最も関連性の高いテキストセグメントを検索するクエリサービス（[Hybrid Search](https://docs.vectara.com/docs/api-reference/search-apis/lexical-matching)と[MMR](https://vectara.com/get-diverse-results-and-comprehensive-summaries-with-vectaras-mmr-reranker/)のサポートを含む）

   > A query service that automatically encodes the query into embedding, and retrieves the most relevant text segments (including support for [Hybrid Search](https://docs.vectara.com/docs/api-reference/search-apis/lexical-matching) and [MMR](https://vectara.com/get-diverse-results-and-comprehensive-summaries-with-vectaras-mmr-reranker/))

4. 取得したドキュメントに基づき、引用を含む[generative summary](https://docs.vectara.com/docs/learn/grounded-generation/grounded-generation-overview)を作成するオプション。

   > An option to create [generative summary](https://docs.vectara.com/docs/learn/grounded-generation/grounded-generation-overview), based on the retrieved documents, including citations.


APIの使用方法の詳細については、[Vectara APIドキュメント](https://docs.vectara.com/docs/)をご覧ください。

> See the [Vectara API documentation](https://docs.vectara.com/docs/) for more information on how to use the API.

このノートブックは、Vectaraで`SelfQueryRetriever`を使用する方法を示しています。

> This notebook shows how to use `SelfQueryRetriever` with Vectara.




# Setup | セットアップ

LangChainでVectaraを使用するには、Vectaraアカウントが必要です。始めるには、以下の手順に従ってください（[クイックスタート](https://docs.vectara.com/docs/quickstart)ガイドをご覧ください）：

> You will need a Vectara account to use Vectara with LangChain. To get started, use the following steps (see our [quickstart](https://docs.vectara.com/docs/quickstart) guide):

1. まだVectaraアカウントをお持ちでない場合は、[サインアップ](https://console.vectara.com/signup)してください。サインアップが完了すると、Vectaraの顧客IDが付与されます。Vectaraコンソールウィンドウの右上にあるあなたの名前をクリックすると、あなたの顧客IDを確認できます。

   > [Sign up](https://console.vectara.com/signup) for a Vectara account if you don't already have one. Once you have completed your sign up you will have a Vectara customer ID. You can find your customer ID by clicking on your name, on the top-right of the Vectara console window.

2. アカウント内で、1つまたは複数のコーパスを作成することができます。各コーパスは、入力ドキュメントから取り込まれたテキストデータを保存する領域です。コーパスを作成するには、\*\*「Create Corpus」\*\*ボタンを使用します。その後、コーパスに名前と説明を付けます。オプションで、フィルタリング属性を定義したり、いくつかの高度なオプションを適用することもできます。作成したコーパスをクリックすると、その名前とコーパスIDが上部に表示されます。

   > Within your account you can create one or more corpora. Each corpus represents an area that stores text data upon ingest from input documents. To create a corpus, use the **"Create Corpus"** button. You then provide a name to your corpus as well as a description. Optionally you can define filtering attributes and apply some advanced options. If you click on your created corpus, you can see its name and corpus ID right on the top.

3. 次に、コーパスにアクセスするためのAPIキーを作成する必要があります。コーパスビューの\*\*「Authorization」**タブをクリックし、その後**「Create API Key」\*\*ボタンをクリックします。キーに名前を付け、キーの権限としてクエリのみ、またはクエリ+インデックスのどちらかを選択します。「Create」をクリックすると、アクティブなAPIキーが作成されます。このキーは機密情報として保管してください。

   > Next you'll need to create API keys to access the corpus. Click on the **"Authorization"** tab in the corpus view and then the **"Create API Key"** button. Give your key a name, and choose whether you want query only or query+index for your key. Click "Create" and you now have an active API key. Keep this key confidential.


LangChainをVectaraと共に使用するには、顧客ID、コーパスID、およびapi\_keyの3つの値が必要です。
これらをLangChainに提供する方法は2通りあります：

> To use LangChain with Vectara, you'll need to have these three values: customer ID, corpus ID and api\_key.
> You can provide those to LangChain in two ways:

1. 環境変数には、`VECTARA_CUSTOMER_ID`、`VECTARA_CORPUS_ID`、そして`VECTARA_API_KEY`の三つを含めてください。

   > Include in your environment these three variables: `VECTARA_CUSTOMER_ID`, `VECTARA_CORPUS_ID` and `VECTARA_API_KEY`.


> 例えば、以下のようにos.environとgetpassを使用してこれらの変数を設定することができます：
>
> > For example, you can set these variables using os.environ and getpass as follows:

```python
import os
import getpass

os.environ["VECTARA_CUSTOMER_ID"] = getpass.getpass("Vectara Customer ID:")
os.environ["VECTARA_CORPUS_ID"] = getpass.getpass("Vectara Corpus ID:")
os.environ["VECTARA_API_KEY"] = getpass.getpass("Vectara API Key:")
```

1. Vectara vectorstoreオブジェクトを作成する際に、それらを引数として提供してください：

   > Provide them as arguments when creating the Vectara vectorstore object:


```python
vectorstore = Vectara(
                vectara_customer_id=vectara_customer_id,
                vectara_corpus_id=vectara_corpus_id,
                vectara_api_key=vectara_api_key
            )
```

**注意:** self-query retrieverを使用するには、`lark`がインストールされている必要があります（`pip install lark`でインストールしてください）。

> **Note:** The self-query retriever requires you to have `lark` installed (`pip install lark`).




## Connecting to Vectara from LangChain | LangChainからVectaraへの接続

この例では、アカウントとコーパスを作成し、VECTARA\_CUSTOMER\_ID、VECTARA\_CORPUS\_ID、およびVECTARA\_API\_KEY（インデックス作成とクエリの両方の権限を持つものを作成）を環境変数として追加したことを前提としています。

> In this example, we assume that you've created an account and a corpus, and added your VECTARA\_CUSTOMER\_ID, VECTARA\_CORPUS\_ID and VECTARA\_API\_KEY (created with permissions for both indexing and query) as environment variables.

コーパスにはフィルタリング用のメタデータとして定義された4つのフィールドがあります：年、監督、評価、ジャンル

> The corpus has 4 fields defined as metadata for filtering: year, director, rating, and genre




In [2]:
from langchain.chains import ConversationalRetrievalChain
from langchain.chains.query_constructor.base import AttributeInfo
from langchain.document_loaders import TextLoader
from langchain.embeddings import FakeEmbeddings
from langchain.llms import OpenAI
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain.schema import Document
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Vectara

In [3]:
docs = [
    Document(
        page_content="A bunch of scientists bring back dinosaurs and mayhem breaks loose",
        metadata={"year": 1993, "rating": 7.7, "genre": "science fiction"},
    ),
    Document(
        page_content="Leo DiCaprio gets lost in a dream within a dream within a dream within a ...",
        metadata={"year": 2010, "director": "Christopher Nolan", "rating": 8.2},
    ),
    Document(
        page_content="A psychologist / detective gets lost in a series of dreams within dreams within dreams and Inception reused the idea",
        metadata={"year": 2006, "director": "Satoshi Kon", "rating": 8.6},
    ),
    Document(
        page_content="A bunch of normal-sized women are supremely wholesome and some men pine after them",
        metadata={"year": 2019, "director": "Greta Gerwig", "rating": 8.3},
    ),
    Document(
        page_content="Toys come alive and have a blast doing so",
        metadata={"year": 1995, "genre": "animated"},
    ),
    Document(
        page_content="Three men walk into the Zone, three men walk out of the Zone",
        metadata={
            "year": 1979,
            "rating": 9.9,
            "director": "Andrei Tarkovsky",
            "genre": "science fiction",
        },
    ),
]

vectara = Vectara()
for doc in docs:
    vectara.add_texts(
        [doc.page_content],
        embedding=FakeEmbeddings(size=768),
        doc_metadata=doc.metadata,
    )

## Creating our self-querying retriever | 自己問い合わせ型リトリーバーの作成

これで、私たちのリトリーバーをインスタンス化することができます。これを行うには、ドキュメントがサポートしているメタデータフィールドに関する情報と、ドキュメントの内容の簡潔な説明を事前に提供する必要があります。

> Now we can instantiate our retriever. To do this we'll need to provide some information upfront about the metadata fields that our documents support and a short description of the document contents.




In [4]:
from langchain.chains.query_constructor.base import AttributeInfo
from langchain.llms import OpenAI
from langchain.retrievers.self_query.base import SelfQueryRetriever

metadata_field_info = [
    AttributeInfo(
        name="genre",
        description="The genre of the movie",
        type="string or list[string]",
    ),
    AttributeInfo(
        name="year",
        description="The year the movie was released",
        type="integer",
    ),
    AttributeInfo(
        name="director",
        description="The name of the movie director",
        type="string",
    ),
    AttributeInfo(
        name="rating", description="A 1-10 rating for the movie", type="float"
    ),
]
document_content_description = "Brief summary of a movie"
llm = OpenAI(temperature=0)
retriever = SelfQueryRetriever.from_llm(
    llm, vectara, document_content_description, metadata_field_info, verbose=True
)

## Testing it out | 試してみる

それでは、実際に私たちのリトリーバーを使ってみましょう！

> And now we can try actually using our retriever!




In [5]:
# This example only specifies a relevant query
retriever.get_relevant_documents("What are some movies about dinosaurs")

[Document(page_content='A bunch of scientists bring back dinosaurs and mayhem breaks loose', metadata={'lang': 'eng', 'offset': '0', 'len': '66', 'year': '1993', 'rating': '7.7', 'genre': 'science fiction', 'source': 'langchain'}),
 Document(page_content='Toys come alive and have a blast doing so', metadata={'lang': 'eng', 'offset': '0', 'len': '41', 'year': '1995', 'genre': 'animated', 'source': 'langchain'}),
 Document(page_content='A psychologist / detective gets lost in a series of dreams within dreams within dreams and Inception reused the idea', metadata={'lang': 'eng', 'offset': '0', 'len': '116', 'year': '2006', 'director': 'Satoshi Kon', 'rating': '8.6', 'source': 'langchain'}),
 Document(page_content='Leo DiCaprio gets lost in a dream within a dream within a dream within a ...', metadata={'lang': 'eng', 'offset': '0', 'len': '76', 'year': '2010', 'director': 'Christopher Nolan', 'rating': '8.2', 'source': 'langchain'}),
 Document(page_content='A bunch of normal-sized women ar

In [6]:
# This example only specifies a filter
retriever.get_relevant_documents("I want to watch a movie rated higher than 8.5")

[Document(page_content='A psychologist / detective gets lost in a series of dreams within dreams within dreams and Inception reused the idea', metadata={'lang': 'eng', 'offset': '0', 'len': '116', 'year': '2006', 'director': 'Satoshi Kon', 'rating': '8.6', 'source': 'langchain'}),
 Document(page_content='Three men walk into the Zone, three men walk out of the Zone', metadata={'lang': 'eng', 'offset': '0', 'len': '60', 'year': '1979', 'rating': '9.9', 'director': 'Andrei Tarkovsky', 'genre': 'science fiction', 'source': 'langchain'})]

In [7]:
# This example specifies a query and a filter
retriever.get_relevant_documents("Has Greta Gerwig directed any movies about women")

[Document(page_content='A bunch of normal-sized women are supremely wholesome and some men pine after them', metadata={'lang': 'eng', 'offset': '0', 'len': '82', 'year': '2019', 'director': 'Greta Gerwig', 'rating': '8.3', 'source': 'langchain'})]

In [8]:
# This example specifies a composite filter
retriever.get_relevant_documents(
    "What's a highly rated (above 8.5) science fiction film?"
)

[Document(page_content='Three men walk into the Zone, three men walk out of the Zone', metadata={'lang': 'eng', 'offset': '0', 'len': '60', 'year': '1979', 'rating': '9.9', 'director': 'Andrei Tarkovsky', 'genre': 'science fiction', 'source': 'langchain'})]

In [9]:
# This example specifies a query and composite filter
retriever.get_relevant_documents(
    "What's a movie after 1990 but before 2005 that's all about toys, and preferably is animated"
)

[Document(page_content='Toys come alive and have a blast doing so', metadata={'lang': 'eng', 'offset': '0', 'len': '41', 'year': '1995', 'genre': 'animated', 'source': 'langchain'})]

## Filter k | フィルター k

また、フェッチするドキュメントの数を指定するために、`k` を用いて self query retriever を使用することもできます。

> We can also use the self query retriever to specify `k`: the number of documents to fetch.

これを行うには、コンストラクタに `enable_limit=True` を渡すことで実現できます。

> We can do this by passing `enable_limit=True` to the constructor.




In [10]:
retriever = SelfQueryRetriever.from_llm(
    llm,
    vectara,
    document_content_description,
    metadata_field_info,
    enable_limit=True,
    verbose=True,
)

In [11]:
# This example only specifies a relevant query
retriever.get_relevant_documents("what are two movies about dinosaurs")

[Document(page_content='A bunch of scientists bring back dinosaurs and mayhem breaks loose', metadata={'lang': 'eng', 'offset': '0', 'len': '66', 'year': '1993', 'rating': '7.7', 'genre': 'science fiction', 'source': 'langchain'}),
 Document(page_content='Toys come alive and have a blast doing so', metadata={'lang': 'eng', 'offset': '0', 'len': '41', 'year': '1995', 'genre': 'animated', 'source': 'langchain'})]