<a href="https://colab.research.google.com/github/trainocate-japan/extending_genai_with_langchain/blob/main/chapter4/implement_rag.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Section 0: ハンズオンの準備
---

## 必要なライブラリのインストール

In [None]:
# !pip install -q langchain langchain-openai langchain-community langchain-core langchain-text-splitters

In [None]:
!pip install -q langchain==0.3.7 langchain-openai==0.2.9 langchain-community==0.3.7 langchain-core==0.3.18 langchain-text-splitters==0.3.2

In [None]:
!pip freeze | grep langchain

## API キーの設定

*  左ナビゲーションで [**シークレット**] アイコン (鍵形のアイコン) をクリックします。
*  [**新しいシークレットを追加**] をクリックし、`LANGCHAIN_API_KEY`、`OPENAI_API_KEY`、`PINECONE_API_KEY` の 3 つを設定し、[**ノートブックからのアクセス**] を有効にします。
  *  `OPENAI_API_KEY` の [**値**] には指定されたキーを入力します。
  *  `LANGCHAIN_API_KEY` と `PINECONE_API_KEY` の [**値**] にはご自身で取得したキーを入力してください。
*  入力が完了したら、下のセルを実行します。

In [None]:
import os
from google.colab import userdata

os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_PROJECT"] = "default"
os.environ["LANGCHAIN_ENDPOINT"] = "https://api.smith.langchain.com"
os.environ["LANGCHAIN_API_KEY"] = userdata.get('LANGCHAIN_API_KEY')

os.environ["OPENAI_API_KEY"] = userdata.get('OPENAI_API_KEY')

os.environ["PINECONE_API_KEY"] = userdata.get('PINECONE_API_KEY')

## サンプルファイルのアップロード

*  左ナビゲーションで [**ファイル**] アイコンをクリックします。
*  開いた [ファイル] 欄の何もない部分で右クリックし、[**新しいフォルダ**] をクリックします。(sample_data と同じ階層にフォルダが作られるようにします)
*  作成されたフォルダに **files** という名前を設定します。
*  files フォルダにカーソルを合わせ、3 点リーダアイコンをクリックして、[**アップロード**] をクリックします。
*  ローカルの files フォルダにあるすべてのファイルを選択してアップロードします。
*  「警告」のポップアップが表示されますが問題ありません。[**OK**] をクリックしてポップアップを閉じます。

In [None]:
import warnings
warnings.filterwarnings('ignore')

# Section 1: LangChain による RAG の実装


---



## Document loaders
---
https://python.langchain.com/docs/concepts/#document-loaders
https://python.langchain.com/docs/integrations/document_loaders/

### TextLoader - テキストファイルのロード
[langchain_community.document_loaders.text.TextLoader](https://python.langchain.com/api_reference/community/document_loaders/langchain_community.document_loaders.text.TextLoader.html)

In [None]:
from langchain_community.document_loaders.text import TextLoader

file = 'files/gingatetsudono_yoru.txt'
print(f'Loading {file}')
loader = TextLoader(file)
data = loader.load() # Document オブジェクトのリストが返される

# data
# print(data[0].page_content)

### PyPDFLoader - PDF ファイルのロード
[langchain_community.document_loaders.pdf.PyPDFLoader](https://python.langchain.com/api_reference/community/document_loaders/langchain_community.document_loaders.pdf.PyPDFLoader.html)



In [None]:
!pip install -q pypdf

In [None]:
from langchain_community.document_loaders.pdf import PyPDFLoader

file = 'files/employment_regulations.pdf'
print(f'Loading {file}')
loader = PyPDFLoader(file)
data = loader.load()

# data
print(data[0].page_content)

### Docx2txtLoader - DOCX ファイルのロード
[langchain_community.document_loaders.word_document.Docx2txtLoader](https://python.langchain.com/api_reference/community/document_loaders/langchain_community.document_loaders.word_document.Docx2txtLoader.html)

In [None]:
!pip install -q docx2txt

In [None]:
from langchain_community.document_loaders.word_document import Docx2txtLoader

file = 'files/the_great_gatsby.docx'
print(f'Loading {file}')
loader = Docx2txtLoader(file)
data = loader.load()

# print(data[0].page_content)

### WikipediaLoader
[langchain_community.document_loaders.wikipedia.WikipediaLoader](https://python.langchain.com/api_reference/community/document_loaders/langchain_community.document_loaders.wikipedia.WikipediaLoader.html)

In [None]:
!pip install -q wikipedia

In [None]:
from langchain_community.document_loaders.wikipedia import WikipediaLoader

query = 'ディープラーニング'
lang = 'ja'
load_max_docs = 2

loader = WikipediaLoader(query=query, lang=lang, load_max_docs=load_max_docs)
data = loader.load()

print(data[0].page_content)

これら以外にも、様々なソースからデータを取得するための Document loader を利用できる。  
https://python.langchain.com/docs/integrations/document_loaders/

あらためて、サンプルの社内規程を PDF からロードする。

In [None]:
from langchain_community.document_loaders.pdf import PyPDFLoader

file = 'files/employment_regulations.pdf'
print(f'Loading {file}')
loader = PyPDFLoader(file)
data = loader.load()

## Text splitters
---
https://python.langchain.com/docs/concepts/#text-splitters  
https://python.langchain.com/docs/how_to/#text-splitters
  
---
### チャンク分割のテスト用サイト
- [ChunkViz](https://chunkviz.up.railway.app/)  
- [Text Splitter Playground](https://langchain-text-splitter.streamlit.app/)

### RecursiveCharacterTextSplitter
[langchain_text_splitters.character.RecursiveCharacterTextSplitter](https://python.langchain.com/api_reference/text_splitters/character/langchain_text_splitters.character.RecursiveCharacterTextSplitter.html)

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=300,
    chunk_overlap=0
)

chunks = text_splitter.split_documents(data) # 各チャンクの Document のリストを返す

# chunks
# print(len(chunks))
print(chunks[1].page_content)

## Embedding models
---  
https://python.langchain.com/docs/concepts/#embedding-models  
https://python.langchain.com/docs/integrations/text_embedding/


### tiktoken を使って Embedding のコストを見積もる
tiktoken は Text splitter で分割したチャンクのリストを入力として受け取り、指定のモデルで embedding を実行した場合に処理されるトークン数を算出して出力する。

In [None]:
import tiktoken
enc = tiktoken.encoding_for_model('text-embedding-3-small')
total_tokens = sum([len(enc.encode(page.page_content)) for page in chunks])
# check prices here: https://openai.com/pricing
print(f'Total Tokens: {total_tokens}')
print(f'Embedding Cost in USD: {total_tokens / 1000 * 0.00002:.6f}')

### OpenAIEmbeddings
[langchain_openai.embeddings.base.OpenAIEmbeddings](https://python.langchain.com/api_reference/openai/embeddings/langchain_openai.embeddings.base.OpenAIEmbeddings.html)

In [None]:
from langchain_openai import OpenAIEmbeddings
embeddings = OpenAIEmbeddings(model='text-embedding-3-small', dimensions=1536)

*   Embidding model が作成される。
*   ここではまだ embedding の処理が実行されたわけではなく、次のステップで Vector store に Index を作成する際にこの Embedding model を使用する。

### 【参考】embedding によってベクトル化されたデータはどのような形をしているか

In [None]:
text = "ディープラーニング（英: deep learning）または深層学習（しんそうがくしゅう）とは、対象の全体像から細部までの各々の粒度の概念を階層構造として関連させて学習する手法のことである。"

# embed_query メソッドはテキストデータを入力として受け取り、変換されたベクトルを出力する
vector = embeddings.embed_query(text)

print(len(vector))
print(vector)

OpenAI 以外にも、クラウド等で提供される様々な Embeddings model を利用することができる。  
https://python.langchain.com/docs/integrations/text_embedding/

## Vector stores (Pinecone を使用する場合)
---
https://python.langchain.com/docs/concepts/#vector-stores  
https://python.langchain.com/docs/integrations/vectorstores/  
https://python.langchain.com/docs/integrations/vectorstores/pinecone/  
[langchain_pinecone.vectorstores.PineconeVectorStore](https://python.langchain.com/api_reference/pinecone/vectorstores/langchain_pinecone.vectorstores.PineconeVectorStore.html)

In [None]:
# !pip install -q pinecone langchain-pinecone

In [None]:
# !pip freeze | grep pinecone

In [None]:
!pip install -q pinecone==5.4.0 langchain-pinecone==0.1.2

もし pip の依存解決エラーが表示されても無視して構いません。

In [None]:
import pinecone
from langchain_pinecone import PineconeVectorStore
from langchain_openai import OpenAIEmbeddings
from pinecone import PodSpec, ServerlessSpec

### 既存の Index を削除する
Pinecone の無料プランでは Index を 1 つしか作成できないため、既存の Index がある場合はいったん削除する。

In [None]:
def delete_pinecone_index(index_name='all'):
    import pinecone
    pc = pinecone.Pinecone()

    if index_name == 'all':
        indexes = pc.list_indexes().names()
        print('Deleting all indexes ... ')
        for index in indexes:
            pc.delete_index(index)
        print('Ok')
    else:
        print(f'Deleting index {index_name} ...', end='')
        pc.delete_index(index_name)
        print('Ok')

In [None]:
delete_pinecone_index()

### Index と Vector store の作成

In [None]:
pc = pinecone.Pinecone()

index_name = 'regulation'

 # creating the index and embedding the chunks into the index
print(f'Creating index {index_name} and embeddings ... ')

# creating a new index
pc.create_index(
    name=index_name,
    dimension=1536,
    metric='cosine',
    spec=ServerlessSpec(
        cloud='aws',
        region='us-east-1'
    )
)

# processing the input documents, generating embeddings using the provided `OpenAIEmbeddings` instance,
# inserting the embeddings into the index and returning a new Pinecone vector store object.
vector_store = PineconeVectorStore.from_documents(chunks, embeddings, index_name=index_name)

print('Ok')

Pinecone 以外にも様々な Vector store を利用することができる。  
https://python.langchain.com/docs/integrations/vectorstores/  

これ以外にも、各クラウドで Vector store として利用できるデータベースが提供されており、LangChain で使用するためのライブラリも提供されている。


## Retrievers
---
https://python.langchain.com/docs/concepts/#retrievers

### Retriever の作成

In [None]:
# 類似度の高いチャンクを何個取得するかを指定
k = 5

# Vector store から Retriever を作成
retriever = vector_store.as_retriever(search_type='similarity', search_kwargs={'k': k})

## Chain
---

### Chat model と Prompt template の作成

In [None]:
from langchain_core.runnables import RunnablePassthrough, RunnableParallel
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import StrOutputParser
from langchain.callbacks.tracers import ConsoleCallbackHandler
from langchain_core.messages import AIMessage, HumanMessage, SystemMessage

In [None]:
model = ChatOpenAI(model="gpt-4o-mini", temperature=0)

In [None]:
chat_prompt = ChatPromptTemplate.from_template("""以下の参考用のテキストの一部を参照して、質問に回答してください。もし参考用のテキストの中に回答に役立つ情報が含まれていなければ、分からない、と答えてください。

{context}

質問：{query}""")

In [None]:
system_message = """以下の参考用のテキストの一部を参照して、質問に回答してください。もし参考用のテキストの中に回答に役立つ情報が含まれていなければ、分からない、と答えてください。

{context}"""
human_message = "質問：{query}"

chat_prompt = ChatPromptTemplate.from_messages([
    (
        "system", system_message
    ),
    (
        "human", human_message
    )
])

### Chain の作成と実行  
上で作成したコンポーネントを組み合わせて Chain を定義し、実行する

In [None]:
# Chain を定義
qa_chain = (
    {
        "query":RunnablePassthrough(),
        "context":retriever
    }
    |chat_prompt
    |model
    |StrOutputParser()
)

# クエリ
query = "国内出張の宿泊費の上限はいくらですか。"
# query = "育児休暇を取ることはできますか。"
# query = "海外出張の出張手当は1日当たりいくらですか。"
# query = "介護休職中に会社から何らかのサポートを受けることはできますか。"


# Chain の実行
result = qa_chain.invoke(query)
# result = qa_chain.invoke(query, config={'callbacks': [ConsoleCallbackHandler()]})
print(result)

#### Chain への入力を辞書にする場合

In [None]:
from operator import itemgetter
qa_chain = (
    {
        "query": itemgetter("query")|RunnablePassthrough(),
        "context": itemgetter("query")|retriever
    }
    |chat_prompt
    |model
    |StrOutputParser()
)

query = "国内出張の宿泊費の上限はいくらですか。"

# result = qa_chain.invoke(query, config={'callbacks': [ConsoleCallbackHandler()]})
result = qa_chain.invoke({"query": query})
print(result)

### RunnableParallel

以下の部分で何をやっているか。
```
qa_chain = (
    {
        "query":RunnablePassthrough(),
        "context":retriever
```
この部分は、以下の書き方の省略形になっている。
```
qa_chain = (
    RunnableParallel({
      "query":RunnablePassthrough(),
      "context": retriever})
    )
```
`RunnableParallel` は複数の Runnable に同じ入力を渡して並行して実行し、結果をそれぞれのキーの値として格納した辞書を出力する。  
[langchain_core.runnables.base.RunnableParallel](https://python.langchain.com/api_reference/core/runnables/langchain_core.runnables.base.RunnableParallel.html)  

```
result = qa_chain.invoke(query)
```
ここで `qa_chain` に入力された `query` は、`RunnableParallel` に渡され、`retriever` によって `query` と類似したドキュメントが検索されて、プロンプトの変数 `context` に代入される値として `chat_prompt` に渡される。並行して、`query` の値はプロンプトの変数 `query` に代入されるべき値として `chat_prompt` に渡される。  

`RunnablePassthrough` は受け取った入力をそのまま出力する。  
`qa_chain` の 2 番目にある `chat_prompt` はユーザーの入力を直接受け取ることができないため、`RunnablePassthrough` によってユーザーの入力を受け渡される必要がある。  
[langchain_core.runnables.passthrough.RunnablePassthrough](https://python.langchain.com/api_reference/core/runnables/langchain_core.runnables.passthrough.RunnablePassthrough.html)



#### RunnableParallel の動作
*  `RunnableParallel` も Runnable であり、`invoke` メソッドで実行できる。
*  ここでは `1` という入力に対して 2 つの処理を実行する例で動作を確認してみる。

In [None]:
from langchain_core.runnables import (
    RunnableLambda,
    RunnableParallel,
    RunnablePassthrough,
)

runnable = RunnableParallel(
    origin=RunnablePassthrough(),
    modified=lambda x: x+1
)

runnable.invoke(1)

# Section 2: RAG の処理を関数化して実行する
---

## 関数を定義

### ドキュメントのロード

In [None]:
def load_document(file):
    import os
    name, extension = os.path.splitext(file)

    if extension == '.pdf':
        from langchain_community.document_loaders.pdf import PyPDFLoader
        print(f'Loading {file}')
        loader = PyPDFLoader(file)
    elif extension == '.docx':
        from langchain_community.document_loaders.word_document import Docx2txtLoader
        print(f'Loading {file}')
        loader = Docx2txtLoader(file)
    elif extension == '.txt':
        from langchain_community.document_loaders.text import TextLoader
        loader = TextLoader(file)
    else:
        print('Document format is not supported!')
        return None

    data = loader.load()
    return data

In [None]:
# wikipedia
def load_from_wikipedia(query, lang='en', load_max_docs=2):
    from langchain.document_loaders import WikipediaLoader
    loader = WikipediaLoader(query=query, lang=lang, load_max_docs=load_max_docs)
    data = loader.load()
    return data

### RecursiveCharacterTextSplitter での処理を関数にラップする

In [None]:
def chunk_data(data, chunk_size=256, chunk_overlap=0):
    from langchain.text_splitter import RecursiveCharacterTextSplitter
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)
    chunks = text_splitter.split_documents(data)
    return chunks

### Embedding のコスト計算

In [None]:
def print_embedding_cost(texts):
    import tiktoken
    enc = tiktoken.encoding_for_model('text-embedding-3-small')
    total_tokens = sum([len(enc.encode(page.page_content)) for page in texts])
    # check prices here: https://openai.com/pricing
    print(f'Total Tokens: {total_tokens}')
    print(f'Embedding Cost in USD: {total_tokens / 1000 * 0.00002:.6f}')

### Vector store
新規の Index を作成、あるいは既存の Index をロードして、Vector store オブジェクトを作成する。

In [None]:
def insert_or_fetch_embeddings(index_name, chunks):
    # Importing the necessary libraries and initializing the Pinecone client
    import pinecone
    from langchain_pinecone import PineconeVectorStore
    from langchain_openai import OpenAIEmbeddings
    from pinecone import PodSpec, ServerlessSpec


    pc = pinecone.Pinecone()

    embeddings = OpenAIEmbeddings(model='text-embedding-3-small', dimensions=1536)

    # Loading from existing index
    if index_name in pc.list_indexes().names():
        print(f'Index {index_name} already exists. Loading embeddings ... ')
        vector_store = PineconeVectorStore.from_existing_index(index_name, embeddings)
        print('Ok')
    else:
        # Creating the index and embedding the chunks into the index
        print(f'Creating index {index_name} and embeddings ... ')

        # Creating a new index
        pc.create_index(
            name=index_name,
            dimension=1536,
            metric='cosine',
            spec=ServerlessSpec(
                cloud='aws',
                region='us-east-1'
            )
        )

        # Processing the input documents, generating embeddings using the provided `OpenAIEmbeddings` instance,
        # Inserting the embeddings into the index and returning a new Pinecone vector store instance.
        vector_store = PineconeVectorStore.from_documents(chunks, embeddings, index_name=index_name)
        print('Ok')

    return vector_store

### Index の削除 (上と同じ)

In [None]:
def delete_pinecone_index(index_name='all'):
    import pinecone
    pc = pinecone.Pinecone()

    if index_name == 'all':
        indexes = pc.list_indexes().names()
        print('Deleting all indexes ... ')
        for index in indexes:
            pc.delete_index(index)
        print('Ok')
    else:
        print(f'Deleting index {index_name} ...', end='')
        pc.delete_index(index_name)
        print('Ok')

### RAG Chain

In [None]:
def get_answer(vector_store, q, k=5):
    from langchain_core.prompts import ChatPromptTemplate
    from langchain_core.runnables import RunnablePassthrough, RunnableParallel
    from langchain_openai import ChatOpenAI
    from operator import itemgetter
    from langchain_core.output_parsers import StrOutputParser

    # Chat model
    model = ChatOpenAI(model='gpt-4o-mini', temperature=0)

    # Retriever
    retriever = vector_store.as_retriever(search_type='similarity', search_kwargs={'k': k})

    # Prompt template
    system_message = """以下の参考用のテキストの一部を参照して、質問に回答してください。もし参考用のテキストの中に回答に役立つ情報が含まれていなければ、分からない、と答えてください。

    {context}"""
    human_message = "質問：{query}"

    chat_prompt = ChatPromptTemplate.from_messages([

        (
            "system", system_message
        ),
        (
            "human", human_message
        )
    ])

    # Chain の定義
    chain = (
        {
            "query":itemgetter('query')|RunnablePassthrough(),
            "context":itemgetter('query')|retriever
        }
        |chat_prompt
        |model
        |StrOutputParser()
    )

    # Chain の実行
    answer = chain.invoke({'query':q})
    return answer

## 処理の実行  
上で定義した関数を実行する

### load_document/load_wikipedia を実行

In [None]:
data = load_document('files/employment_regulations.pdf')

# print(data[1].page_content)
# print(data[10].metadata)

print(f'You have {len(data)} pages in your data')
print(f'There are {len(data[10].page_content)} characters in the page')

### chunk_data を実行

In [None]:
chunks = chunk_data(data, chunk_size=300, chunk_overlap=0)
print(len(chunks))

In [None]:
print_embedding_cost(chunks)

### delete_pinecone_index を実行

In [None]:
delete_pinecone_index()

### insert_or_fetch_embeddings を実行

In [None]:
index_name = 'askadocument'
vector_store = insert_or_fetch_embeddings(index_name=index_name, chunks=chunks)

### get_answer をインタラクティブな形で実行

In [None]:
import time
i = 1
print('Write Quit or Exit to quit.')
while True:
    q = input(f'Question #{i}: ')
    i = i + 1
    if q.lower() in ['quit', 'exit']:
        print('Quitting ... bye bye!')
        time.sleep(2)
        break

    answer = get_answer(vector_store, q)
    print(f'\nAnswer: {answer}')
    print(f'\n {"-" * 50} \n')

# Section 3: RAG Chain に会話履歴を追加する

### Chain に Chat history を組み込む  
RunnableWithMessageHistory クラスを使用して Chain の入力に Chat history を組み込む

In [None]:
def get_answer_with_history1(vector_store, q, chat_history, session_id='unused', k=5):
    from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
    from langchain_core.runnables import RunnablePassthrough, RunnableParallel
    from langchain_openai import ChatOpenAI
    from operator import itemgetter
    from langchain_core.output_parsers import StrOutputParser
    from langchain_community.chat_message_histories.in_memory import ChatMessageHistory
    from langchain_core.chat_history import BaseChatMessageHistory
    from langchain_core.runnables.history import RunnableWithMessageHistory

    # Chat model
    model = ChatOpenAI(model='gpt-4o-mini', temperature=0)

    # Retriever
    retriever = vector_store.as_retriever(search_type='similarity', search_kwargs={'k': k})

    # Prompt template
    system_message = """以下の参考用のテキストの一部を参照して、質問に回答してください。もし参考用のテキストの中に回答に役立つ情報が含まれていなければ、分からない、と答えてください。

    {context}"""
    human_message = "質問：{query}"

    chat_prompt = ChatPromptTemplate.from_messages([

        (
            "system", system_message
        ),
        MessagesPlaceholder("chat_history"),
        (
            "human", human_message
        )
    ])

    # ユーザーのクエリと retriever が取得した Documents を出力する Runnable
    add_context = RunnablePassthrough.assign(context=itemgetter("query") | retriever)

    # add_context のテスト出力
    test_output = add_context.invoke({'query': q})
    print(f"TestOutput: {test_output}")
    # テスト出力には含まれないが、以下の処理では RunnableWithMessageHistory によって "chat_history" キーにチャット履歴が渡される

    # Chain を定義
    rag_chain = add_context | chat_prompt | model | StrOutputParser()

    # RunnableWithMessageHistory: Chat history を入力に追加して Chain を実行するインスタンス
    runnable_with_history = RunnableWithMessageHistory(
        rag_chain,
        lambda session_id: chat_history, # session_id を受け取って対応する chat message history インスタンス (BaseChatMessageHistory) を返す関数
        input_messages_key="query",
        history_messages_key="chat_history",
    )

    # Chain の実行
    answer = runnable_with_history.invoke({'query': q}, config={"configurable": {"session_id": session_id}})
    #answer = runnable_with_history.invoke({'query': q}, config={"configurable": {"session_id": session_id}, 'callbacks': [ConsoleCallbackHandler()]})
    return answer

`runnable_with_history` の実行では、以下のような処理が行われる  

1. `RunnableWithMessageHistory` により `{'query': <ユーザーのクエリ>, 'chat_history': <会話履歴の Messages>}` が `add_context` に入力される
2. `add_context` が `<ユーザーのクエリ>` を `retriever` に渡して関連する Documents を取得し、`'query': <ユーザーのクエリ>, 'chat_history': <会話履歴の Messages>, context: <retriever が取得した Documents>}` を出力する
3. `chat_prompt` がそれを入力として受け取り、テンプレートの各変数 `context` `query` `chat_history`に対応するキーの値を代入して、PromptValue を出力する
4. `model` がそれを入力として受け取り、LLM の API を呼び出す



In [None]:
from langchain_community.chat_message_histories.in_memory import ChatMessageHistory
from langchain_core.chat_history import BaseChatMessageHistory

# Chat history
chat_history = ChatMessageHistory()

import time
i = 1
print('Write Quit or Exit to quit.')
while True:
    q = input(f'Question #{i}: ')
    i = i + 1
    if q.lower() in ['quit', 'exit']:
        print('Quitting ... bye bye!')
        time.sleep(2)
        break

    answer = get_answer_with_history1(vector_store, q, chat_history, 'b234')
    print(f'\nAnswer: {answer}')
    print(f'\n {"-" * 50} \n')

## Retriever にも会話履歴を考慮させる
*  上の方法では、モデルに最終的に渡すプロンプトに会話履歴を含めることはできるが、Retriever にドキュメントを検索させる際には会話履歴を含まない最新の入力だけが使われるため、必ずしも適切なドキュメントが検索されないことがある (前の会話を受けた指示語が入力文に含まれている場合など)
*  履歴を含んだ入力から、いったんモデルを使って検索のための文を生成し、それを使って Retriever に検索させることで適切なドキュメントを検索させることができる。

In [None]:
def get_answer_with_history2(vector_store, q, chat_history, session_id='unused', k=20):
    from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
    from langchain_core.runnables import RunnablePassthrough, RunnableParallel
    from langchain_openai import ChatOpenAI
    from operator import itemgetter
    from langchain_core.output_parsers import StrOutputParser
    from langchain_community.chat_message_histories.in_memory import ChatMessageHistory
    from langchain_core.chat_history import BaseChatMessageHistory
    from langchain_core.runnables.history import RunnableWithMessageHistory

    from langchain.chains import create_history_aware_retriever

    # Chat model
    model = ChatOpenAI(model='gpt-4o-mini', temperature=0)

    # Retriever
    retriever = vector_store.as_retriever(search_type='similarity', search_kwargs={'k': k})

    # 検索用にクエリを書き換えるためのプロンプト
    contextualize_q_system_prompt = (
        "Given a chat history and the latest user question "
        "which might reference context in the chat history, "
        "formulate a standalone question which can be understood "
        "without the chat history. Do NOT answer the question, "
        "just reformulate it if needed and otherwise return it as is."
    )

    contextualize_q_prompt = ChatPromptTemplate.from_messages(
        [
            ("system", contextualize_q_system_prompt),
            MessagesPlaceholder("chat_history"),
            ("human", "{input}"),
        ]
    )

    # 会話履歴を考慮する Retriever を作成
    history_aware_retriever = create_history_aware_retriever(
        model, retriever, contextualize_q_prompt
    )

    # ユーザーのクエリに回答させるための Prompt template
    system_message = """以下の参考用のテキストの一部を参照して、質問に回答してください。もし参考用のテキストの中に回答に役立つ情報が含まれていなければ、分からない、と答えてください。

    {context}"""
    human_message = "質問：{input}"

    chat_prompt = ChatPromptTemplate.from_messages([

        (
            "system", system_message
        ),
        MessagesPlaceholder("chat_history"),
        (
            "human", human_message
        )
    ])

    # ユーザーのクエリと history_aware_retriever が取得した Documents を出力する Runnable
    add_context = RunnablePassthrough.assign(context=history_aware_retriever)

    # Chain を定義
    rag_chain = add_context | chat_prompt | model | StrOutputParser()

    runnable_with_history = RunnableWithMessageHistory(
        rag_chain,
        lambda session_id: chat_history, # session_id を受け取って対応する chat message history インスタンス (BaseChatMessageHistory) を返す関数
        input_messages_key="input",
        history_messages_key="chat_history",
    )

    # Chain の実行
    answer = runnable_with_history.invoke({'input': q}, config={"configurable": {"session_id": session_id}})
    # answer = runnable_with_history.invoke({'input': q}, config={"configurable": {"session_id": session_id}, 'callbacks': [ConsoleCallbackHandler()]})
    return answer

In [None]:
from langchain_community.chat_message_histories.in_memory import ChatMessageHistory
from langchain_core.chat_history import BaseChatMessageHistory

# Chat history
chat_history = ChatMessageHistory()

import time
i = 1
print('Write Quit or Exit to quit.')
while True:
    q = input(f'Question #{i}: ')
    i = i + 1
    if q.lower() in ['quit', 'exit']:
        print('Quitting ... bye bye!')
        time.sleep(2)
        break

    answer = get_answer_with_history2(vector_store, q, chat_history, 'a234')
    print(f'\nAnswer: {answer}')
    print(f'\n {"-" * 50} \n')

## 参考：組み込み関数による Chain の作成
次のように、LangChain に組み込みの関数を使って Chain を作成することもできる。  
ただし、ユーザーからの入力や Chain からの出力のキーが既定のものに制約される。  
[langchain.chains.retrieval.create_retrieval_chain](https://python.langchain.com/api_reference/langchain/chains/langchain.chains.retrieval.create_retrieval_chain.html)  
[langchain.chains.combine_documents.stuff.create_stuff_documents_chain](https://python.langchain.com/api_reference/langchain/chains/langchain.chains.combine_documents.stuff.create_stuff_documents_chain.html)

In [None]:
def get_answer_with_history3(vector_store, q, chat_history, session_id='unused', k=10):
    from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
    from langchain_core.runnables import RunnablePassthrough, RunnableParallel
    from langchain_openai import ChatOpenAI
    from operator import itemgetter
    from langchain_core.output_parsers import StrOutputParser
    from langchain_community.chat_message_histories.in_memory import ChatMessageHistory
    from langchain_core.chat_history import BaseChatMessageHistory
    from langchain_core.runnables.history import RunnableWithMessageHistory

    from langchain.chains.combine_documents import create_stuff_documents_chain
    from langchain.chains import create_history_aware_retriever, create_retrieval_chain

    # Chat model
    model = ChatOpenAI(model='gpt-4o-mini', temperature=0)

    # Retriever
    retriever = vector_store.as_retriever(search_type='similarity', search_kwargs={'k': k})

    # Chat template
    system_message = """以下の参考用のテキストの一部を参照して、質問に回答してください。もし参考用のテキストの中に回答に役立つ情報が含まれていなければ、分からない、と答えてください。

    {context}"""
    human_message = "質問：{input}" # retriever (BaseRetriever のサブクラス) を使用する場合、ユーザーからの入力のキーは "input" にする必要がある

    chat_prompt = ChatPromptTemplate.from_messages([

        (
            "system", system_message
        ),
        MessagesPlaceholder("chat_history"),
        (
            "human", human_message
        )
    ])
    # Q and A 部分の Chain を作る
    question_answer_chain = create_stuff_documents_chain(model, chat_prompt)

    # Retriever を組み込んだ全体の Chain を作る
    rag_chain = create_retrieval_chain(retriever, question_answer_chain)

    runnable_with_history = RunnableWithMessageHistory(
        rag_chain,
        lambda session_id: chat_history,
        input_messages_key="input",
        history_messages_key="chat_history",
        output_messages_key="answer", # 組み込み関数で作成した rag_chain の出力では "answer" キーの値として回答本文が格納される
    )

    # Chain の実行
    answer = runnable_with_history.invoke({'input': q}, config={"configurable": {"session_id": session_id}})["answer"]
    #answer = runnable_with_history.invoke({'query': q}, config={"configurable": {"session_id": session_id}, 'callbacks': [ConsoleCallbackHandler()]})
    return answer

In [None]:
from langchain_community.chat_message_histories.in_memory import ChatMessageHistory
from langchain_core.chat_history import BaseChatMessageHistory

# Chat history
chat_history = ChatMessageHistory()

import time
i = 1
print('Write Quit or Exit to quit.')
while True:
    q = input(f'Question #{i}: ')
    i = i + 1
    if q.lower() in ['quit', 'exit']:
        print('Quitting ... bye bye!')
        time.sleep(2)
        break

    answer = get_answer_with_history3(vector_store, q, chat_history, 'a345')
    print(f'\nAnswer: {answer}')
    print(f'\n {"-" * 50} \n')