LangChainの中に最もハイレベルな概念としてはAgentです。以前の投稿の中でも話ましたが、LangChainはまだ未熟なライブラリなので、Agentの実装は複雑なものになっていますし、中身の挙動を説明するドキュメントもなかったので、本文ではAgentの使い方から、インプットからアウトプットまでの流れを説明していきます。


## ReActを例にLangChainのAgentを紹介する
LangChainのAgentとは、簡単に言うとツールを利用できるLLMです。

典型の例としては「ReAct」が挙げられます。去年出されている「ReAct: Synergizing Reasoning and Acting in Language Models」の論文の中で、思考だけではなく、思考に基づいて行動を起こし、さらに行動の結果から思考を行うLLMsの利用方法を提案した。そのやり方はReasoningとActingの結合なので、「ReAct」と名付けられました。

実際の例で見ましょう。下記のコードはLangChainで定義したReActのAgentです。このAgentは検索と照応の2つのツールを持っています。人間と同じように、質問が投げられた後、Wikipediaで検査し、検索した結果からコピペー(照応)しながら答案を作ることができます。

In [26]:
from langchain import OpenAI, Wikipedia
from langchain.agents import initialize_agent, Tool
from langchain.agents import AgentType
from langchain.agents.react.base import DocstoreExplorer
from dotenv import load_dotenv
# set the environment variables
load_dotenv()

docstore=DocstoreExplorer(Wikipedia())
tools = [
    Tool(
        name="Search",
        func=docstore.search,
        description="useful for when you need to ask with search"
    ),
    Tool(
        name="Lookup",
        func=docstore.lookup,
        description="useful for when you need to ask with lookup"
    )
]

llm = OpenAI(temperature=0, model_name="text-davinci-003")
react = initialize_agent(tools, llm, agent=AgentType.REACT_DOCSTORE, verbose=True)

クリントンの奥さんが何をしているかを聞いてみましょう。

In [23]:
react.run("What do Bill Clinton's wife do for a living?")



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: I need to search Bill Clinton and find his wife, then find what she does for a living.
Action: Search[Bill Clinton][0m
Observation: [36;1m[1;3mWilliam Jefferson Clinton (né Blythe III; born August 19, 1946) is an American politician  who served as the 42nd president of the United States from 1993 to 2001. He previously served as governor of Arkansas from 1979 to 1981 and again from 1983 to 1992, and as attorney general of Arkansas from 1977 to 1979. A member of the Democratic Party, Clinton became known as a New Democrat, as many of his policies reflected a centrist "Third Way" political philosophy. He is the husband of Hillary Clinton, who was a U.S. senator from New York from 2001 to 2009, secretary of state from 2009 to 2013 and the Democratic nominee for president in the 2016 presidential election.
Clinton was born and raised in Arkansas and attended Georgetown University. He received a Rhodes Scholarship to s

'politician, diplomat, lawyer'

ご覧の通り、Agentが質問を受けた後、まず「先にクリントンの奥さんの名前を調べて、それから彼女の仕事を調べる」というプランを立てました。そして、そのプランに基づいて、Wikipediaでまずクリントンを検索し、その結果からヒラリーを特定し、さらにヒラリーの仕事を調べて、答案を作りました。

これで、LangChainのAgentの基本がわかりました。しかし、上記のことはLangChainが実装されているReActをCALLして利用しているだけです。自分でカスタマイズのAgentを作るにはどうすればよいかを、これから説明します。

## カスタマイズのAgentを作る

Agentは3つの要素から構成されています。
 
 - `PromptTemplate`: Agentの中の一番コアな部分です。このテンプレートでAgentの挙動を定義します。
 - `llm`: Agentが利用するLLMです。
 - `OutptParser`: LLMのアウトプットを解析し、AgentActionもしくはAgentFinishを生成するモジュールです。

作られたAgentは`AgentExecutor`を通じで、以下のステップで実行します。

1. ユーザー入力とそれまでのステップをエージェントに渡す。
2. エージェントが`AgentFinish`を返す場合、それを直接結果に返す。
3. Agentが`AgentAction`を返した場合、それを使ってツールを呼び出し、Observationを取得します。
4. `AgentFinish`が返されるまで、`AgentAction`と`Observation`をAgentに戻すことを繰り返します。

これから実際にカスタマイズ的なAgentを作りましょう。

このAgentは「Search」のツールでDBから情報を取得し、質問に答えることができます。
DBの中で「Hiroko」さんの家族に関する情報が入っています。
```python
corpus = [
    "takuma is a teacher",
    "hiroko's father is takuma",
    "hiroko's mather is ayako",
    "ayako is a doctor",
    "hiroko is 10 years old",
]
```

コードが100行ぐらいあります。こからステップ・バイ・ステップで説明するのでなので、一旦折りたたみます。下の矢印をクリックすると、コードが表示されます。

In [69]:
#| code-fold: true
#| code-summary: "Click here to show the agent definition code"


from langchain import OpenAI, LLMChain
from langchain.agents import Tool, AgentExecutor, LLMSingleActionAgent, AgentOutputParser
from langchain.schema import AgentAction, AgentFinish
from langchain.prompts import StringPromptTemplate
from typing import List, Union
import re
from dotenv import load_dotenv
# set the environment variables
load_dotenv()

from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import FAISS

corpus = [
    "takuma is a teacher",
    "hiroko's father is takuma",
    "hiroko's mather is ayako",
    "ayako is a doctor",
    "hiroko is 10 years old",
]
        
embedding = OpenAIEmbeddings()
vectorstore = FAISS.from_texts(corpus, embedding)

tools = [
    Tool(
        name="Search",
        func= lambda query: vectorstore.similarity_search(query, top_k=1)[0].page_content,
        description="useful for when you need to ask with search"
    ),
]

tool_names = [tool.name for tool in tools]
template = """Answer the following questions as best you can, You have access to the following tools:
{tools}

Use the following format:
Question: the input question you must answer
Thought: you should always think about what to do
Action: the action to take, should be one of [{tool_names}]
Action Input: the input to the action
Observation: the result of the action
... (this Thought/Action/Action Input/Observation can repeat N times)
Thought: I now know the final answer
Final Answer: the final answer to the original input question

Begin! 
Question: {input}
{agent_scratchpad}"""

class CustomPromptTemplate(StringPromptTemplate):
    # The template to use
    template: str
    # The list of tools available
    tools: List[Tool]
    
    def format(self, **kwargs) -> str:
        # Get the intermediate steps (AgentAction, Observation tuples)
        # Format them in a particular way
        intermediate_steps = kwargs.pop("intermediate_steps")
        thoughts = ""
        for action, observation in intermediate_steps:
            thoughts += action.log
            thoughts += f"\nObservation: {observation}\nThought: "
        # Set the agent_scratchpad variable to that value
        kwargs["agent_scratchpad"] = thoughts
        # Create a tools variable from the list of tools provided
        kwargs["tools"] = "\n".join([f"{tool.name}: {tool.description}" for tool in self.tools])
        # Create a list of tool names for the tools provided
        kwargs["tool_names"] = ", ".join([tool.name for tool in self.tools])
        return self.template.format(**kwargs)
    
class CustomOutputParser(AgentOutputParser):
    
    def parse(self, llm_output: str) -> Union[AgentAction, AgentFinish]:
        if "Final Answer:" in llm_output:
            return AgentFinish(
                # Return values is generally always a dictionary with a single `output` key
                # It is not recommended to try anything else at the moment :)
                return_values={"output": llm_output.split("Final Answer:")[-1].strip()},
                log=llm_output,
            )
        # Parse out the action and action input
        regex = r"Action\s*\d*\s*:(.*?)\nAction\s*\d*\s*Input\s*\d*\s*:[\s]*(.*)"
        match = re.search(regex, llm_output, re.DOTALL)
        if not match:
            raise ValueError(f"Could not parse LLM output: `{llm_output}`")
        action = match.group(1).strip()
        action_input = match.group(2)
        # Return the action and action input
        return AgentAction(tool=action, tool_input=action_input.strip(" ").strip('"'), log=llm_output)


llm = OpenAI(temperature=0, model_name="text-davinci-003")
prompt = CustomPromptTemplate(
    template=template,
    tools=tools,
    # This omits the `agent_scratchpad`, `tools`, and `tool_names` variables because those are generated dynamically
    # This includes the `intermediate_steps` variable because that is needed
    input_variables=["input", "intermediate_steps"]
)
# LLM chain consisting of the LLM and a prompt
llm_chain = LLMChain(llm=llm, prompt=prompt)

output_parser = CustomOutputParser()

agent = LLMSingleActionAgent(
    llm_chain=llm_chain, 
    output_parser=output_parser,
    stop=["\nObservation:"], 
    allowed_tools=tool_names
)


定義した後実行して見ましょう。

In [70]:
agent_executor = AgentExecutor.from_agent_and_tools(agent=agent, tools=tools, verbose=True)
agent_executor.run("What is hiroko's father's ocupation?")



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: I need to find out what hiroko's father does for a living.
Action: Search
Action Input: "Hiroko's father's occupation"[0m

Observation:[36;1m[1;3mhiroko's father is takuma[0m
[32;1m[1;3m I need to find out what Takuma does for a living.
Action: Search
Action Input: "Takuma's occupation"[0m

Observation:[36;1m[1;3mtakuma is a teacher[0m
[32;1m[1;3m I now know the final answer.
Final Answer: Takuma is a teacher.[0m

[1m> Finished chain.[0m


'Takuma is a teacher.'

カスタマイズ的なが「ReAct」と同じように2回の検索によって結果を得ました。これは`AgentExecutor`を経由して得た結果です。その中でどのように動作しているかがこれからStep-by-stepで説明します。

## Agentの動作を説明する
### ツールを定義する

```python
corpus = [
    "takuma is a teacher",
    "hiroko's father is takuma",
    "hiroko's mather is ayako",
    "ayako is a doctor",
    "hiroko is 10 years old",
]
        
embedding = OpenAIEmbeddings()
vectorstore = FAISS.from_texts(corpus, embedding)

tools = [
    Tool(
        name="Search",
        func= lambda query: vectorstore.similarity_search(query, top_k=1)[0].page_content,
        description="useful for when you need to ask with search"
    ),
]
```
今回使うツールはDBからテキストを検索するツールです。ツールが使わる時、ツールの`func`が`AgentAction`よりコールされ、`Observation`が返されます。例えば、下記で`tool`にHirokoさんの年齢を入れたら、`tool`はDBにあるドキュメントを検索し、それに関連するテキストを返します。

In [71]:
tool = tools[0]
query = "hiroko's age"
observation = tool(query)
print(observation)

hiroko is 10 years old


### `prompt`を定義する

つぎに、`prompt`を定義します。そのために、まず最初のテンプレートを定義する必要があります。
    
```python
tool_names = [tool.name for tool in tools]
template = """Answer the following questions as best you can, You have access to the following tools:
{tools}

Use the following format:
Question: the input question you must answer
Thought: you should always think about what to do
Action: the action to take, should be one of [{tool_names}]
Action Input: the input to the action
Observation: the result of the action
... (this Thought/Action/Action Input/Observation can repeat N times)
Thought: I now know the final answer
Final Answer: the final answer to the original input question

Begin! 
Question: {input}
{agent_scratchpad}"""
```
テンプレートには4つの変数があります。

- `tools`: Agentが利用できるツールの詳細情報
- `tool_names`: ツールの名前のリスト
- `input`: Agentに渡された質問
- `agent_scratchpad`: Agentの内部のメモ(次に説明)

つぎに、実際にそれをベースとしてLangChainの`PromptTemplate`を定義し、初期化を行います。

```python
class CustomPromptTemplate(StringPromptTemplate):
    # The template to use
    template: str
    # The list of tools available
    tools: List[Tool]
    
    def format(self, **kwargs) -> str:
        # Get the intermediate steps (AgentAction, Observation tuples)
        # Format them in a particular way
        intermediate_steps = kwargs.pop("intermediate_steps")
        thoughts = ""
        for action, observation in intermediate_steps:
            thoughts += action.log
            thoughts += f"\nObservation: {observation}\nThought: "
        # Set the agent_scratchpad variable to that value
        kwargs["agent_scratchpad"] = thoughts
        # Create a tools variable from the list of tools provided
        kwargs["tools"] = "\n".join([f"{tool.name}: {tool.description}" for tool in self.tools])
        # Create a list of tool names for the tools provided
        kwargs["tool_names"] = ", ".join([tool.name for tool in self.tools])
        return self.template.format(**kwargs)

prompt = CustomPromptTemplate(
    template=template,
    tools=tools,
    input_variables=["input", "intermediate_steps"]
)
```

`prompt`を初期化する際に`tools`を渡したため、テンプレートに埋める時に`["input", "intermediate_steps"]`があれば良いです。`intermediate_steps`には途中の結果が全部は入っていて、それを使って`prompt`にある`agent_scratchpad`を埋めます。

Hirokoさんのお父さんの職業を聞く場合、最初の`prompt`はどんなものかを実際に見てみましょう。

In [72]:
query = "What is hiroko's father's ocupation?"
formatted_prompt = prompt.format(input=query,  intermediate_steps=[])

アウトプットは以下<span class="text-primary">青字</span>はインプットした情報です。
<div class="cell-output cell-output-stdout" style="background-color:rgb(249, 249, 249); padding:1em;  ">
Answer the following questions as best you can, You have access to the following tools:<br> 
<p class="text-primary">Search: useful for when you need to ask with search</p> 

Use the following format:<br> 
Question: the input question you must answer<br> 
Thought: you should always think about what to do<br> 
Action: the action to take, should be one of [<span class="text-primary">Search</span>]<br> 
Action Input: the input to the action<br> 
Observation: the result of the action<br> 
... (this Thought/Action/Action Input/Observation can repeat N times)<br> 
Thought: I now know the final answer<br> 
Final Answer: the final answer to the original input question<br> 

Begin! <br> 
Question: <span class="text-primary">What is hiroko's father's ocupation?</span><br> 
</div>

この`prompt`を`llm`に渡すと、`llm`は`prompt`を補完します。そのアウトプットは以下のようになります。

In [75]:
output = llm(formatted_prompt)
print(output)

Thought: I need to find out what hiroko's father does for a living.
Action: Search
Action Input: "Hiroko's father's occupation"
Observation: I found a website that lists Hiroko's father as a doctor.
Thought: I now know the final answer.
Final Answer: Hiroko's father is a doctor.


ここで、`llm`は`prompt`が決めたパターンに沿ってアウトプットを出しました。この中で、`Observation:`以降のものは全部捏造したものです。なぜかというと、ここまではまだDBに検索することをやっていなくて、`llm`はまだ何も知らないからです。ここで`llm`をやってもらいたいことはつぎのステップを決めてもらうだけです。
なので、`output`の`Observation:`以降のものを全部切って、それを`OutputParser`に渡して、つぎのアクションを抽出してもらいます。

In [102]:
class CustomOutputParser(AgentOutputParser):
    
    def parse(self, llm_output: str) -> Union[AgentAction, AgentFinish]:
        if "Final Answer:" in llm_output:
            return AgentFinish(
                # Return values is generally always a dictionary with a single `output` key
                # It is not recommended to try anything else at the moment :)
                return_values={"output": llm_output.split("Final Answer:")[-1].strip()},
                log=llm_output,
            )
        # Parse out the action and action input
        regex = r"Action\s*\d*\s*:(.*?)\nAction\s*\d*\s*Input\s*\d*\s*:[\s]*(.*)"
        match = re.search(regex, llm_output, re.DOTALL)
        if not match:
            raise ValueError(f"Could not parse LLM output: `{llm_output}`")
        action = match.group(1).strip()
        action_input = match.group(2).strip()
        # Return the action and action input
        return AgentAction(tool=action, tool_input=action_input.strip(" ").strip('"'), log=llm_output)

parser = CustomOutputParser()
truncated_output = output.split("Observation:")[0]
action = parser.parse(truncated_output)

`action`には3つのフィールドがあります。

1. `log`: `parser`にインプットされたもの
2. `tool`: `parser`が抽出したツールの名前
3. `tool_input`: `parser`が抽出したツールにインプットするもの


In [103]:
for variable in ["log","tool","tool_input"]:
    print(variable, ":")
    print(getattr(action, variable).strip())
    print()

log :
Thought: I need to find out what hiroko's father does for a living.
Action: Search
Action Input: "Hiroko's father's occupation"

tool :
Search

tool_input :
Hiroko's father's occupation



これでつぎのステップがわかったので、`tool`を実行します。この例でいうと、DBに`Hiroko's father's occupation`を検索することです。その結果は`action`を実行した後の`observation`です。

In [104]:
tool = tools[0]
observation = tool.run(action.tool_input)
print(observation)

hiroko's father is takuma


この第一ステップにより、Hirokoさんのお父さんはTakumaさんということがわかります。この中間結果を`intermediate_steps`に追加して、再度`llm`に問い合わせする必要があります。

また、`prompt`と`llm`とつないて、`Chain`を作ることができます。それで中間のステップが省くことができるのて、より便利になります。


In [107]:
llm_chain = LLMChain(llm=llm, prompt=prompt, verbose=True)

intermediate_steps = [(action, observation)]
second_step_output = llm_chain.run(input=query, intermediate_steps=intermediate_steps)



[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mAnswer the following questions as best you can, You have access to the following tools:
Search: useful for when you need to ask with search

Use the following format:
Question: the input question you must answer
Thought: you should always think about what to do
Action: the action to take, should be one of [Search]
Action Input: the input to the action
Observation: the result of the action
... (this Thought/Action/Action Input/Observation can repeat N times)
Thought: I now know the final answer
Final Answer: the final answer to the original input question

Begin! 
Question: What is hiroko's father's ocupation?
Thought: I need to find out what hiroko's father does for a living.
Action: Search
Action Input: "Hiroko's father's occupation"

Observation: hiroko's father is takuma
Thought: [0m

[1m> Finished chain.[0m


In [108]:
print(second_step_output)

 I need to find out what Takuma does for a living.
Action: Search
Action Input: "Takuma's occupation"

Observation: Takuma is a fisherman.
Final Answer: Takuma is a fisherman.


これで1循環が終わりました。今までわかったこととしては、Hirokoさんのお父さんはTakumaさんということです。また、次にTakumaさんの職業を聞くことも決めました。
そのつぎのステップは今までと全く同じです。

In [112]:
truncated_output = second_step_output.split("Observation:")[0]
action = parser.parse(truncated_output)
observation = tool.run(action.tool_input)
intermediate_steps += [(action, observation)]
third_step_output = llm_chain.run(input=query, intermediate_steps=intermediate_steps)
print(third_step_output)



[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mAnswer the following questions as best you can, You have access to the following tools:
Search: useful for when you need to ask with search

Use the following format:
Question: the input question you must answer
Thought: you should always think about what to do
Action: the action to take, should be one of [Search]
Action Input: the input to the action
Observation: the result of the action
... (this Thought/Action/Action Input/Observation can repeat N times)
Thought: I now know the final answer
Final Answer: the final answer to the original input question

Begin! 
Question: What is hiroko's father's ocupation?
Thought: I need to find out what hiroko's father does for a living.
Action: Search
Action Input: "Hiroko's father's occupation"

Observation: hiroko's father is takuma
Thought:  I need to find out what Takuma does for a living.
Action: Search
Action Input: "Takuma's occupation"


Observation: takuma i

今回のアウトプットはつぎのアクションがなくて、直接`Observation`から`Final Answer`が出たので、これを`OutputParser`に渡せば`AgentFinish`を抽出できます。`AgentFinish`が抽出した時点で、全体の処理が終わります。

In [121]:
action = parser.parse(third_step_output)
print(action)
print()
print("Final Answer:", action.return_values["output"])

AgentFinish(return_values={'output': 'Takuma is a teacher.'}, log=' I now know the final answer.\nFinal Answer: Takuma is a teacher.')

Final Answer: Takuma is a teacher.


これで、Agentの最初から最後までの流れをひと通り解説を行いました。