# 라이브러리 설치 및 초기 세팅

In [None]:
!python -m ensurepip --upgrade
!pip install -U boto3 --quiet
!pip install -U botocore --quiet
!pip install langchain --quiet
!pip install sqlalchemy --quiet
!pip install langchain-experimental --quiet
!pip install langchainhub --quiet

#### *설치 후 커널을 재시작해주세요

In [None]:
import boto3
import json
import time
import os

In [None]:
from langchain_community.chat_models import BedrockChat
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler

In [None]:
bedrock_client = boto3.client(
    service_name='bedrock-runtime'
)

#model_id='anthropic.claude-3-haiku-20240307-v1:0'
llm = BedrockChat(
    model_id='anthropic.claude-3-sonnet-20240229-v1:0',
    streaming=True,
    callbacks=[StreamingStdOutCallbackHandler()],
	model_kwargs={"temperature":0},
	client=bedrock_client
)

`SQLDatabase` 클래스는 내부적으로 `SQLAlchemy`를 활용해서, 데이터베이스 스키마 및 데이터에 접근합니다.
- `from_uri()` 을 통해 SQLAlchemy의 DB 연결을 구성하고,
- `table_info()` / `get_usable_table_names()` 등으로 테이블 정보를 확인하거나,
- `run()` 로 쿼리를 직접 실행하기도 합니다.

In [None]:
from langchain_community.utilities import SQLDatabase

In [None]:
db = SQLDatabase.from_uri("sqlite:///Chinook.db")
print(db.get_usable_table_names())
db.run("SELECT * FROM Artist LIMIT 10;")

# SQL Chain 활용하기

Chain은 LangChain의 핵심 기능으로, 여러 컴포넌트들을 연결하고 Output-Input을 연결해 전달하는 형식을 따릅니다. 

비교적 정형화되고 간단한 Text2SQL 변환 목적으로 활용하기에 적합합니다. 

아래에서는 SQL 변환작업을 손쉽게 End-to-End 지원할 수 있도록 LangChain에서 기본 제공하는 몇 가지 방법들을 알아봅니다.

### 1. SQLDatabaseChain 클래스 활용 
- `SQLDatabaseChain`은 자연어 입력을 받아, LLMChain에 SQL 쿼리로 변환을 요청합니다.
- 쿼리 변환 뿐만 아니라, 쿼리 수행, 답변 생성까지 자동으로 처리합니다.

In [None]:
from langchain_experimental.sql import SQLDatabaseChain
from langchain.prompts.prompt import PromptTemplate

- `from_llm()`으로 원하는 언어모델 기반의 `LLMChain`을 생성합니다.
- `LLMChain`은 프롬프트 템플릿에 사용자 입력값을 씌워서, LLM 모델의 출력을 생성하는 기능입니다.

In [None]:
db_chain = SQLDatabaseChain.from_llm(llm, db)

- `SQLDatabaseChain`의 `_DEFAULT_PROMPT`는 아래의 프롬프트 형식으로 이루어져있습니다.
- 필요하다면 프롬프트의 인스트럭션을 수정해서 `invoke()` 호출할 때 prompt 파라미터로 전달할 수 있습니다.

-----
```
Given an input question, first create a syntactically correct {dialect} query to run, then look at the results of the query and return the answer. Unless the user specifies in his question a specific number of examples he wishes to obtain, always limit your query to at most {top_k} results. You can order the results by a relevant column to return the most interesting examples in the database.

Never query for all the columns from a specific table, only ask for a the few relevant columns given the question.

Pay attention to use only the column names that you can see in the schema description. Be careful to not query for columns that do not exist. Also, pay attention to which column is in which table.

Use the following format:

Question: Question here
SQLQuery: SQL Query to run
SQLResult: Result of the SQLQuery
Answer: Final answer here

Only use the following tables:
{table_info}

Question: {input}
```
-----

In [None]:
response = db_chain.invoke("List the total sales per country. Which country's customers spent the most?")

In [None]:
print(response['result'])

- `SQLDatabaseChain`은 SQL 변환 작업을 한 번의 호출로 처리하므로, 복잡한 테이블 처리에는 적합하지 않습니다.
- `SQLDatabaseSequentialChain`은 테이블 선별 작업(decider)과 쿼리 생성 작업을 분리하여 순차 진행하도록 구현되어 있어, 복잡한 테이블 처리에 보다 적합합니다.
- `SQLDatabaseChain`의 다양한 활용 패턴은 다음 [Cookbook](https://github.com/langchain-ai/langchain/blob/master/cookbook/sql_db_qa.mdx) 링크에서 확인할 수 있습니다.

### 2. `create_sql_query_chain` 함수 활용
- `create_sql_query_chain`은 end-to-end 워크플로를 지원하는 `SQLDatabaseChain`과 달리, SQL 쿼리 생성만 지원하도록 파생된 서브모듈입니다.
- LangChain 애플리케이션이 SQL 쿼리 수행까지 한번에 수행하는 것을 원하지 않는 경우, `create_sql_query_chain`을 사용해 유연성을 높일 수 있습니다.
- `create_sql_query_chain`을 활용할 때, 아래 파라미터를 프롬프트에 input으로 전달해서 쿼리 생성 방식을 제어할 수 있습니다.
    - `table_names_to_use` : 접근 가능한 테이블 목록을 List로 제공 - 민감 데이터 접근 방지 목적
    - `k` : SELECT 구문에서 리턴할 row 개수(`LIMIT K;`)를 지정

In [None]:
from langchain.schema import StrOutputParser
from langchain.chains import create_sql_query_chain

In [None]:
chain = create_sql_query_chain(llm, db) 

- 아래와 같이 쿼리 변환 프롬프트를 직접 수정할 수 있습니다.

In [None]:
query_generation_template='''

Human: You are a SQLite expert.
Given an input question, first create a syntactically correct SQLite query to run.
Unless the user specifies in the question a specific number of examples to obtain, query for at most {top_k} results using the LIMIT clause as per SQLite. You can order the results to return the most informative data in the database.
Never query for all columns from a table. You must query only the columns that are needed to answer the question. Wrap each column name in double quotes (") to denote them as delimited identifiers.
Pay attention to use only the column names you can see in the tables below. Be careful to not query for columns that do not exist. Also, pay attention to which column is in which table.
Pay attention to use date(\'now\') function to get the current date, if the question involves "today".

Only use the following tables:
{table_info}

Question: {input}

Skip the preamble and provide only the SQL.

Assistant:
'''

chain.get_prompts()[0].template = query_generation_template
chain.get_prompts()[0].pretty_print()

In [None]:
question = "List the total sales per country. Which country's customers spent the most?"
sql_response = chain.invoke({"question": question})

- SQL 쿼리를 얻어내면, 원하는 방법으로 쿼리를 직접 수행합니다. 아래 셀에서는 `db.run()` 메소드를 활용합니다.

In [None]:
result = db.run(sql_response)
print(result)

In [None]:
from langchain_core.messages import HumanMessage
from langchain_core.prompts import PromptTemplate

In [None]:
def answer_with_data(prompt, question, result):
    prompt_for_answer = PromptTemplate.from_template(prompt)
    messages = [
        HumanMessage(
            content = prompt_for_answer.format(question=question, result=result)
        )
    ]
    final_answer = llm.invoke(messages)
    return final_answer

In [None]:
prompt = """
Human: Based on the question below

{question}

the result data were given below. 

{result}

Provide answer in simple Korean statement and don't include table or schema names.

Assistant: 
"""

In [None]:
final_answer = answer_with_data(prompt, question, result)

---
Chain은 사전정의된 작업을 연속 수행하는 방식이므로 비교적 단순한 Text2SQL 변환 작업을 반복 처리하기에 적합하지만, 사용자의 요청이 예상범위를 벗어난다면 에러가 발생할 수 있습니다.

아래에서는 좀더 유연한 작업수행을 위한 Agent 활용 방법을 알아봅니다.

# SQL Agent 활용하기

Agent는 LLM이 질문에 대한 답을 생성하기 위해, 스스로 추론하고 행동하는 Chain of Thought 접근 방법을 활용합니다.

ReAct = Reasoning + Action 프롬프트를 제공해 LLM이 직접 추론 + 작업을 수행하도록 하고, 각 단계에서 Thought - Action - Observation 과정이 처리됩니다.
(Chain은 LLM이 Action만 처리)

LangChain에서는 Text2SQL의 전용 Agent 생성을 위해 `create_sql_agent` 라는 도구를 제공하며, 아래 파라미터를 지원합니다.
| 파라미터명                   | 설명                                                                                           |
|---------------------------|----------------------------------------------------------------------------------------------|
| `llm`                       | 에이전트에 사용할 언어 모델입니다.                                                                                |
| `toolkit`                   | 에이전트가 사용할 SQLDatabaseToolkit입니다. 'toolkit' 혹은 'db' 중 하나를 반드시 제공해야 합니다. 'toolkit'을 지정하면 에이전트와 다른 모델을 사용할 수 있습니다. |
| `agent_type`                | "openai-tools", "openai-functions", "zero-shot-react-description" 중 하나입니다. 기본값은 "zero-shot-react-description"입니다.|
| `prefix`                    | 프롬프트의 접두사 문자열입니다. "top_k" 및 "dialect" 변수를 포함해야 합니다.                                              |
| `suffix`                    | 프롬프트의 접미사 문자열입니다. 기본값은 에이전트 유형에 따라 다릅니다.                                                  |
| `format_instructions`       | 'agent_type'이 "zero-shot-react-description"일 때 ZeroShotAgent.create_prompt()에 전달할 형식 지침입니다. 그 외의 경우는 무시됩니다. |
| `top_k`                     | 기본적으로 조회할 행의 수입니다.                                                                                  |
| `max_iterations`            | AgentExecutor 초기 설정에 전달됩니다.                                                                            |
| `max_execution_time`        | AgentExecutor 초기 설정에 전달됩니다.                                                                            |
| `early_stopping_method`     | AgentExecutor 초기 설정에 전달됩니다.                                                                            |
| `verbose`                   | AgentExecutor의 상세 모드입니다.                                                                                 |
| `agent_executor_kwargs`     | AgentExecutor에 추가로 전달할 임의의 인자들입니다.                                                                   |
| `extra_tools`               | 기본적으로 제공되는 도구들 외에 에이전트에 추가로 제공할 도구들입니다.                                                    |
| `db`                        | SQLDatabaseToolkit을 생성할 때 사용할 SQLDatabase입니다. 'db'와 'llm'을 사용하여 툴킷이 생성됩니다. 'toolkit' 혹은 'db' 중 하나를 반드시 제공해야 합니다. |
| `prompt`                    | 완전한 에이전트 프롬프트입니다. 'prompt'와 {prefix, suffix, format_instructions, input_variables}는 서로 배타적입니다. |


- Toolkit으로는 `SQLDatabaseToolkit`을 사용하며, 여기에는 아래 도구들이 기본 포함됩니다.
    - `sql_db_list_tables` : DB 테이블 목록 리턴
    - `sql_db_query` : 쿼리 실행
    - `sql_db_checker` : 쿼리 Syntax 점검
    - `sql_db_schema` : 테이블 세부 구조 확인
    - 기타

### 1. `create_sql_agent` 기본 Agent 활용

In [None]:
from langchain.agents import create_sql_agent
from langchain.agents.agent_types import AgentType
from langchain.agents.agent_toolkits import SQLDatabaseToolkit

In [None]:
toolkit = SQLDatabaseToolkit(db=db, llm=llm)
for tool in toolkit.get_tools():
    print(f"Tool: {tool.__class__.__name__}")
    print(f"Description: {tool.description}\n")

In [None]:
sql_agent = create_sql_agent(
    llm=llm,
    toolkit=toolkit,
    agent_type=AgentType.ZERO_SHOT_REACT_DESCRIPTION
)

In [None]:
sql_agent.invoke("List the total sales per country. Which country's customers spent the most?")

### 2. XML Agent 활용
`create_sql_agent`는 내부적으로 ReAct Agent를 활용합니다.

그런데 우리가 실습에 활용할 Claude 3 모델은 XML 양식의 질의응답에 최적화되어 있어서, Reasoning 과정에서 CoT 프롬프트의 호환 문제가 발생하기도 합니다.

아래는 XML Agent를 SQLDatabaseToolkit과 함께 활용하는 방법입니다.

In [None]:
from langchain import hub
prompt = hub.pull("hwchase17/xml-agent-convo")
prompt.pretty_print()

In [None]:
prompt = """
================================ Human Message =================================

You are a helpful assistant. Help the user answer any questions.

In this environment you have access to a set of tools you can use to answer the user's question.
You may call them like this:
<tools>
{tools}
</tools>

In order to use a tool, you can use <tool></tool> and <tool_input></tool_input> tags. 
You will then get back a response in the form <observation></observation>.
For example, if you have a tool called 'sql_db_schema' that could retrieve Database schema, in order to describe the playlisttrack table you would respond:

<tool>sql_db_list_tables</tool><tool_input></tool_input>

<observation>Album, Artist, Customer, Employee, Genre, Invoice, InvoiceLine, MediaType, Playlist, PlaylistTrack, Track</observation>

<tool>sql_db_schema</tool><tool_input>PlatListTrack</tool_input>

<observation>
CREATE TABLE "PlaylistTrack" (
    "PlaylistId" INTEGER NOT NULL, 
    "TrackId" INTEGER NOT NULL, 
    PRIMARY KEY ("PlaylistId", "TrackId"), 
    FOREIGN KEY("TrackId") REFERENCES "Track" ("TrackId"), 
    FOREIGN KEY("PlaylistId") REFERENCES "Playlist" ("PlaylistId")
)
/*
3 rows from PlaylistTrack table:
PlaylistId  TrackId
1   3402
1   3389
1   3390
*/
</observation>


When you are done, respond with a final answer between <final_answer></final_answer>. For example:

<final_answer>
Here is the schema of the `PlaylistTrack` table:
```
CREATE TABLE "PlaylistTrack" (
    "PlaylistId" INTEGER NOT NULL, 
    "TrackId" INTEGER NOT NULL, 
    PRIMARY KEY ("PlaylistId", "TrackId"), 
    FOREIGN KEY("TrackId") REFERENCES "Track" ("TrackId"), 
    FOREIGN KEY("PlaylistId") REFERENCES "Playlist" ("PlaylistId")
)
```
The `PlaylistId` column is a foreign key referencing the `PlaylistId` column in the `Playlist` table. 
The `TrackId` column is a foreign key referencing the `TrackId` column in the `Track` table.
Here are three sample rows from the `PlaylistTrack` table:
```
PlaylistId   TrackId
1            3402
1            3389
1            3390
```
</final_answer>

Begin!

Question: {input}
{agent_scratchpad}
"""

from langchain import PromptTemplate
prompt = PromptTemplate.from_template(prompt)

In [None]:
from langchain.agents import AgentExecutor, create_xml_agent

toolkit = SQLDatabaseToolkit(db=db, llm=llm)
tools = toolkit.get_tools() 

agent = create_xml_agent(
    llm=llm,
    tools=tools,
    prompt=prompt
)

# AgentExecutor는 Agent의 런타임 클래스입니다
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=False)

In [None]:
answer = agent_executor.invoke({"input":"List the total sales per country. Which country's customers spent the most?"})

In [None]:
print(answer['output'])

In [None]:
answer = agent_executor.invoke({"input":"List the Top-10 customers spent the most"})

In [None]:
print(answer['output'])

# Dynamic Few-shot Prompting

### 쿼리 생성 시 참고할 예시 데이터

In [None]:
examples = [
    {
        "input": "List all artists.", 
        "query": "SELECT * FROM Artist;"},
    {
        "input": "Find all albums for the artist 'AC/DC'.",
        "query": "SELECT * FROM Album WHERE ArtistId = (SELECT ArtistId FROM Artist WHERE Name = 'AC/DC');",
    },
    {
        "input": "List all tracks in the 'Rock' genre.",
        "query": "SELECT * FROM Track WHERE GenreId = (SELECT GenreId FROM Genre WHERE Name = 'Rock');",
    },
    {
        "input": "Find the total duration of all tracks.",
        "query": "SELECT SUM(Milliseconds) FROM Track;",
    },
    {
        "input": "List all customers from Canada.",
        "query": "SELECT * FROM Customer WHERE Country = 'Canada';",
    },
    {
        "input": "How many tracks are there in the album with ID 5?",
        "query": "SELECT COUNT(*) FROM Track WHERE AlbumId = 5;",
    },
    {
        "input": "Find the total number of invoices.",
        "query": "SELECT COUNT(*) FROM Invoice;",
    },
    {
        "input": "List all tracks that are longer than 5 minutes.",
        "query": "SELECT * FROM Track WHERE Milliseconds > 300000;",
    },
    {
        "input": "Who are the top 5 customers by total purchase?",
        "query": "SELECT CustomerId, SUM(Total) AS TotalPurchase FROM Invoice GROUP BY CustomerId ORDER BY TotalPurchase DESC LIMIT 5;",
    },
    {
        "input": "How many employees are there",
        "query": 'SELECT COUNT(*) FROM "Employee"',
    },
]

### `SemanticSimilarityExampleSelector`
- 예시 데이터 저장 : 예시 데이터를 벡터임베딩으로 변환해서 FAISS에 저장합니다.
- 예시 데이터 탐색 : 사용자 질문과 비슷한 Top-K의 예시 데이터를 얻어냅니다.
- `FewShotPromptTemplate` : 동적으로 얻어낸 예시 데이터를 프롬프트에 반영

In [None]:
from langchain_community.vectorstores import FAISS
from langchain_core.example_selectors import SemanticSimilarityExampleSelector
from langchain_core.prompts import FewShotPromptTemplate, PromptTemplate
from langchain.embeddings import BedrockEmbeddings

In [None]:
example_prompt = PromptTemplate(
    input_variables=["input", "query"],
    template="User input: {input}\nSQL query: {query}"
)

example_selector = SemanticSimilarityExampleSelector.from_examples(
    examples,
    BedrockEmbeddings(model_id="amazon.titan-embed-text-v1", client=bedrock_client),
    FAISS,
    k=5,
    input_keys=["input"],
)

In [None]:
PREFIX = """
================================ Human Message =================================

You are a helpful assistant. Help the user answer any questions.

In this environment you have access to a set of tools you can use to answer the user's question.
You may call them like this:
<tools>
{tools}
</tools>

Here are some examples of user inputs and their corresponding SQL queries:
"""

SUFFIX = """
In order to use a tool, you can use <tool></tool> and <tool_input></tool_input> tags. 
You will then get back a response in the form <observation></observation>.
For example, if you have a tool called 'sql_db_schema' that could retrieve Database schema, in order to describe the playlisttrack table you would respond:

<tool>sql_db_list_tables</tool><tool_input></tool_input>

<observation>Album, Artist, Customer, Employee, Genre, Invoice, InvoiceLine, MediaType, Playlist, PlaylistTrack, Track</observation>

<tool>sql_db_schema</tool><tool_input>PlatListTrack</tool_input>

<observation>
CREATE TABLE "PlaylistTrack" (
    "PlaylistId" INTEGER NOT NULL, 
    "TrackId" INTEGER NOT NULL, 
    PRIMARY KEY ("PlaylistId", "TrackId"), 
    FOREIGN KEY("TrackId") REFERENCES "Track" ("TrackId"), 
    FOREIGN KEY("PlaylistId") REFERENCES "Playlist" ("PlaylistId")
)
/*
3 rows from PlaylistTrack table:
PlaylistId  TrackId
1   3402
1   3389
1   3390
*/
</observation>


When you are done, respond with a final answer between <final_answer></final_answer>. For example:

<final_answer>
Here is the schema of the `PlaylistTrack` table:
```
CREATE TABLE "PlaylistTrack" (
    "PlaylistId" INTEGER NOT NULL, 
    "TrackId" INTEGER NOT NULL, 
    PRIMARY KEY ("PlaylistId", "TrackId"), 
    FOREIGN KEY("TrackId") REFERENCES "Track" ("TrackId"), 
    FOREIGN KEY("PlaylistId") REFERENCES "Playlist" ("PlaylistId")
)
```
The `PlaylistId` column is a foreign key referencing the `PlaylistId` column in the `Playlist` table. 
The `TrackId` column is a foreign key referencing the `TrackId` column in the `Track` table.
Here are three sample rows from the `PlaylistTrack` table:
```
PlaylistId   TrackId
1            3402
1            3389
1            3390
```
</final_answer>

Begin!

Question: {input}
{agent_scratchpad}
"""

In [None]:
few_shot_prompt = FewShotPromptTemplate(
    example_selector=example_selector,
    example_prompt=example_prompt,
    prefix=PREFIX,
    suffix=SUFFIX,
    input_variables=["input", "query"]
)

In [None]:
print(few_shot_prompt.format(input='Let me know the 10 customers who purchased the most', tools=tools, agent_scratchpad=[]))

In [None]:
from langchain.agents import AgentExecutor, create_xml_agent

toolkit = SQLDatabaseToolkit(db=db, llm=llm)
tools = toolkit.get_tools() 

agent = create_xml_agent(
    llm=llm,
    tools=tools,
    prompt=few_shot_prompt,
)

# AgentExecutor는 Agent의 런타임 클래스입니다
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=False)

In [None]:
answer = agent_executor.invoke({"input": "Let me know the 10 customers who purchased the most"})

In [None]:
print(answer['output'])

In [None]:
new_example = {
    "input": "Which albums are from the year 2000?",
    "query": "SELECT * FROM Album WHERE strftime('%Y', ReleaseDate) = '2000';",
}

In [None]:
example_selector.add_example(new_example)

In [None]:
print(few_shot_prompt.format(input="Which albums are from the year 2010?", tools=tools, agent_scratchpad=[]))