# Amazon Bedrock과 LangChain을 이용한 "비즈니스 데이터 분석을 위한 자연어 기반 BI"

---

이 노트북에서는 비즈니스 데이터 분석을 위한 자연어 기반 BI 구현하기 위한 생성형 AI 기반의 Text-to-SQL 기능을 위해 [Amazon Bedrock](https://aws.amazon.com/bedrock/)과 [LangChain](https://www.langchain.com/)을 사용합니다.

Text-to-SQL 기능을 이용한다면 자연어만을 사용해서 구조화된 정보를 보유하고 있는 SQL 데이터베이스에 LLM을 연결하여 특정 비즈니스 데이터에 대한 답을 얻을 수 있습니다. 이때 LLM은 질문에 대한 답을 추출을 위해 데이터베이스에 초점을 맞추게 되며 SQL을 통해 데이터베이스에서 제공하는 정확한 정보를 반환할 수 있습니다. LangChain은 LLM을 다른 데이터소스로 연결할 수 있도록 하는 기능을 제공하여 개발자는 복잡한 애플리케이션을 쉽게 만들 수 있습니다.

이 노트북에서는 편의상 빠른 실습을 위해 로컬 데이터베이스로 Sqlite를 사용하며 데이터베이스로 연결하기 위해 LangChain을 사용합니다.
노트북은 아래와 같은 구성으로 이루어져있습니다.
1. Sqlite 데이터베이스의 데이터 확인
2. LangChain의 SQLDatabaseChain 사용 

본 노트북에서 사용되는 일반적인 리테일 회사에서 사용될 수 있는 가상의 데이터를 참고했습니다.
- 주문 정보
- 제품 정보
- 제품 카테고리 정보
- 고객 정보

Amazon Bedrock과 LangChain을 이용한 Text-to-SQL 구조는 아래 다이어그램을 참조하세요.

<img src="images/tts-architecture.png" width="800"/>

Image credits: 

---

In [4]:
%pip install --upgrade pip
%pip install -U --quiet boto3 langchain langchain_experimental # --report -

Collecting pip
  Obtaining dependency information for pip from https://files.pythonhosted.org/packages/47/6a/453160888fab7c6a432a6e25f8afe6256d0d9f2cbd25971021da6491d899/pip-23.3.1-py3-none-any.whl.metadata
  Downloading pip-23.3.1-py3-none-any.whl.metadata (3.5 kB)
Downloading pip-23.3.1-py3-none-any.whl (2.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m16.8 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 23.2.1
    Uninstalling pip-23.2.1:
      Successfully uninstalled pip-23.2.1
Successfully installed pip-23.3.1
[0mNote: you may need to restart the kernel to use updated packages.
[0mNote: you may need to restart the kernel to use updated packages.


In [5]:
from langchain import SQLDatabase
from langchain_experimental.sql import SQLDatabaseChain

import os
import boto3

In [6]:
os.environ["AWS_DEFAULT_REGION"] = "us-east-1"  # E.g. "us-east-1"
os.environ["BEDROCK_ENDPOINT_URL"] = "https://bedrock-runtime.us-east-1.amazonaws.com"  # E.g. "https://..."

In [7]:
session = boto3.Session(
    profile_name=os.environ.get("AWS_PROFILE")
) # sets the profile name to use for AWS credentials

bedrock = session.client(
    service_name='bedrock-runtime', # creates a Bedrock client
    region_name=os.environ.get("AWS_DEFAULT_REGION"),
    endpoint_url=os.environ.get("BEDROCK_ENDPOINT_URL")
) 

In [8]:
from langchain.llms.bedrock import Bedrock

# - create the Anthropic Model
llm = Bedrock(model_id="anthropic.claude-v2", client=bedrock, model_kwargs={'max_tokens_to_sample':1000, 'temperature': 0})

## Sqlite 연결과 데이터베이스

LangChain은 데이터베이스 연결을 위해 Python ORM 라이브러리인 SQLAlchemy를 이용합니다. 따라서 본 실습에 사용된 Sqlite 외에도 Amazon RDS, Amazon Redshift, MS SQL, MySQL, MariaDB, PostgreSQL, Oracle SQL, Databricks 등 다양한 데이터베이스를 이용할 수 있습니다.

In [95]:
%pip install --quiet ipython-sql
%pip install --quiet --upgrade SQLAlchemy==1.*

import pandas as pd
import sqlalchemy
engine = sqlalchemy.create_engine('sqlite:///./RetailSampleDB.sqlite3')
df = pd.read_sql('select * from orders limit 10', engine)
df.head()

[0mNote: you may need to restart the kernel to use updated packages.
Collecting SQLAlchemy==1.*
  Using cached SQLAlchemy-1.4.50-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (10.0 kB)
Using cached SQLAlchemy-1.4.50-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.6 MB)
Installing collected packages: SQLAlchemy
  Attempting uninstall: SQLAlchemy
    Found existing installation: SQLAlchemy 2.0.23
    Uninstalling SQLAlchemy-2.0.23:
      Successfully uninstalled SQLAlchemy-2.0.23
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
ipython-sql 0.5.0 requires sqlalchemy>=2.0, but you have sqlalchemy 1.4.50 which is incompatible.[0m[31m
[0mSuccessfully installed SQLAlchemy-1.4.50
[0mNote: you may need to restart the kernel to use updated packages.


Unnamed: 0,product_name,product_category,product_id
0,chocolate sandwich cookies,cookies cakes,P1
1,all-seasons salt,spices seasonings,P2
2,robust golden unsweetened oolong tea,tea,P3
3,smart ones classic favorites mini rigatoni wit...,frozen meals,P4
4,pure coconut water with orange,juice nectars,P5


In [11]:
# SQLAlchemy: pg_uri = f"postgresql+psycopg2://{username}:{password}@{host}:{port}/{mydatabase}"

db = SQLDatabase.from_uri("sqlite:///./RetailSampleDB.sqlite3")

## 테이블 정보 확인

- customers: customer_id, name, sex, state, age, is_married, active_since
- orders: order_id, customer_id, product_id, purchase_amount, is_reordered, purchased_on
- product_category_mapping: product_name, product_category, product_id
- products: product_name, product_category, product_id

In [20]:
print(db.get_usable_table_names())

['customers', 'orders', 'product_category_mapping', 'products']


In [21]:
print(db.table_info)


CREATE TABLE customers (
	customer_id VARCHAR, 
	name VARCHAR, 
	sex VARCHAR, 
	state VARCHAR, 
	age INTEGER, 
	is_married VARCHAR, 
	active_since DATETIME
)

/*
3 rows from customers table:
customer_id	name	sex	state	age	is_married	active_since
C1	michelle miller	F	tennessee	52	False	2019-11-23 16:21:48
C2	andrew mason	M	virginia	29	False	2019-09-09 01:45:28
C3	alicia keller	F	kentucky	70	True	2016-09-18 00:15:12
*/


CREATE TABLE orders (
	order_id VARCHAR, 
	customer_id VARCHAR, 
	product_id VARCHAR, 
	purchase_amount FLOAT, 
	is_reordered INTEGER, 
	purchased_on DATETIME
)

/*
3 rows from orders table:
order_id	customer_id	product_id	purchase_amount	is_reordered	purchased_on
O1	C5731	P16	93.26	1	2021-03-16 20:58:13
O2	C3541	P12802	67.98	1	2020-12-22 16:20:40
O3	C7402	P8320	64.59	1	2020-09-08 11:22:01
*/


CREATE TABLE product_category_mapping (
	product_name VARCHAR, 
	product_category VARCHAR, 
	product_id VARCHAR
)

/*
3 rows from product_category_mapping table:
product_name	pro

In [22]:
db_chain = SQLDatabaseChain.from_llm(llm=llm, db=db, verbose=True, prompt=None)

db_chain

SQLDatabaseChain(verbose=True, llm_chain=LLMChain(prompt=PromptTemplate(input_variables=['input', 'table_info', 'top_k'], template='You are a SQLite expert. Given an input question, first create a syntactically correct SQLite query to run, then look at the results of the query and return the answer to the input question.\nUnless the user specifies in the question a specific number of examples to obtain, query for at most {top_k} results using the LIMIT clause as per SQLite. You can order the results to return the most informative data in the database.\nNever query for all columns from a table. You must query only the columns that are needed to answer the question. Wrap each column name in double quotes (") to denote them as delimited identifiers.\nPay attention to use only the column names you can see in the tables below. Be careful to not query for columns that do not exist. Also, pay attention to which column is in which table.\nPay attention to use date(\'now\') function to get the 

## Prompt 정의
영문으로 되어있는 SQLDatabaseChain의 Default Prompt를 한글로 변경하고 LLM이 데이터베이스의 데이터에 맞게 원하는 결과를 반환하도록 추가로 지정합니다.

In [28]:
db_chain.llm_chain.prompt.template

'\n당신은 SQLite 전문가입니다. 입력 질문이 주어지면 먼저 실행할 SQLite 쿼리를 구문적으로 올바르게 만든 다음 쿼리 실행 결과를 보고 입력 질문에 대한 자세한 답을 한글로 반환합니다.\n사용자가 질문에서 얻을 수 있는 특정 수의 예제를 지정하지 않는 한, SQLite에 맞는 LIMIT 절을 사용하여 최대 {top_k}개 결과를 쿼리합니다. 데이터베이스에서 가장 유용한 데이터를 반환하도록 결과를 정렬할 수 있습니다.\n테이블의 모든 열을 쿼리하지 마세요. 질문에 대답하는 데 필요한 열만 쿼리해야 합니다. 각 열 이름을 큰따옴표(")로 묶어 구분 식별자로 표시합니다.\n아래 표에 표시된 열 이름만 사용하도록 주의하세요. 존재하지 않는 열을 쿼리하지 않도록 주의하세요. 또한 어떤 테이블에 어떤 열이 있는지 주의하세요.\n질문에 "오늘"이 포함된 경우 현재 날짜를 얻으려면 date(\'now\') 함수를 사용하세요. 분기는 01월, 02월, 03월 등으로 표시되고 통화단위는 달러이며 소수점 두자리까지 표시합니다. \n\n다음 형식을 사용하십시오:\n\nQuestion: Question here\nSQLQuery: SQL Query to run\nSQLResult: Result of the SQLQuery\nAnswer: Final answer here\n\n다음 테이블만 사용하세요:\n{table_info}\n\nQuestion: {input}\n'

In [29]:
db_chain.llm_chain.prompt.template = """
당신은 SQLite 전문가입니다. 입력 질문이 주어지면 먼저 실행할 SQLite 쿼리를 구문적으로 올바르게 만든 다음 쿼리 실행 결과를 보고 입력 질문에 대한 자세한 답을 한글로 반환합니다.
사용자가 질문에서 얻을 수 있는 특정 수의 예제를 지정하지 않는 한, SQLite에 맞는 LIMIT 절을 사용하여 최대 {top_k}개 결과를 쿼리합니다. 데이터베이스에서 가장 유용한 데이터를 반환하도록 결과를 정렬할 수 있습니다.
테이블의 모든 열을 쿼리하지 마세요. 질문에 대답하는 데 필요한 열만 쿼리해야 합니다. 각 열 이름을 큰따옴표(")로 묶어 구분 식별자로 표시합니다.
아래 표에 표시된 열 이름만 사용하도록 주의하세요. 존재하지 않는 열을 쿼리하지 않도록 주의하세요. 또한 어떤 테이블에 어떤 열이 있는지 주의하세요.
질문에 "오늘"이 포함된 경우 현재 날짜를 얻으려면 date('now') 함수를 사용하세요. 분기는 01월, 02월, 03월 등으로 표시되고 통화단위는 달러이며 소수점 두자리까지 표시합니다. 

다음 형식을 사용하십시오:

Question: Question here
SQLQuery: SQL Query to run
SQLResult: Result of the SQLQuery
Answer: Final answer here

다음 테이블만 사용하세요:
{table_info}

Question: {input}
"""

In [30]:
print(db_chain.llm_chain.prompt.template)


당신은 SQLite 전문가입니다. 입력 질문이 주어지면 먼저 실행할 SQLite 쿼리를 구문적으로 올바르게 만든 다음 쿼리 실행 결과를 보고 입력 질문에 대한 자세한 답을 한글로 반환합니다.
사용자가 질문에서 얻을 수 있는 특정 수의 예제를 지정하지 않는 한, SQLite에 맞는 LIMIT 절을 사용하여 최대 {top_k}개 결과를 쿼리합니다. 데이터베이스에서 가장 유용한 데이터를 반환하도록 결과를 정렬할 수 있습니다.
테이블의 모든 열을 쿼리하지 마세요. 질문에 대답하는 데 필요한 열만 쿼리해야 합니다. 각 열 이름을 큰따옴표(")로 묶어 구분 식별자로 표시합니다.
아래 표에 표시된 열 이름만 사용하도록 주의하세요. 존재하지 않는 열을 쿼리하지 않도록 주의하세요. 또한 어떤 테이블에 어떤 열이 있는지 주의하세요.
질문에 "오늘"이 포함된 경우 현재 날짜를 얻으려면 date('now') 함수를 사용하세요. 분기는 01월, 02월, 03월 등으로 표시되고 통화단위는 달러이며 소수점 두자리까지 표시합니다. 

다음 형식을 사용하십시오:

Question: Question here
SQLQuery: SQL Query to run
SQLResult: Result of the SQLQuery
Answer: Final answer here

다음 테이블만 사용하세요:
{table_info}

Question: {input}



아래는 Claude 질의에 사용될 Prompt입니다. Human: Assistant: 포맷을 유지합니다.

In [32]:
PROMPT = """ 
Human: Given an input question, create a syntactically correct sqlite query to run,
then look at the results of the query and return only the answer.  
The query: {question}

Assistant:"""

사용될 데이터베이스에서 가능한 질의들은 아래와 같습니다.

- 고객 분석:
    - 성별에 따른 고객 수 및 구매량 비교: 성별에 따른 고객 수와 구매량 비교해줘
    - 주별 또는 월별 신규 고객 등록 추이 분석: 주별로 신규 고객 등록 추이 분석해줘, 2019년 월별로 신규 고객 등록 추이 분석해줘
    - 주요 주문 고객 식별: 우수 고객을 설명해줘, 주요 고객을 설명해줘, 나이가 50세 이상이고 기혼인 고객 보여줘

- 주문 분석:
    - 제품 카테고리별 주문량 및 매출 분석: 제품 카테고리별 주문량과 매출을 분석해줘, coffee 카테고리 주문량과 매출을 분석해줘
    - 재주문 비율 분석: 전체 고객 중 재주문 비율을 분석해줘, 전체 제품 중 재주문 비율을 분석해줘, 전체 제품 중 재주문 비율 상위 20개 제품을 분석해줘
    - 가장 많이 주문된 제품 식별: 가장 많이 주문된 제품 10개 분석해줘, 가장 많이 주문된 제품 카테고리 10개 분석해줘

- 제품 분석:
    - 제품 카테고리별 제품 수 분석: 제품 카테고리별 제품 수 분석해줘
    - 가장 많이 팔린 제품 카테고리 식별: 가장 많이 팔린 제품 카테고리 알려줘
    - 인기 있는 제품 식별: 인기 있는 제품 10개 분석해줘, 인기 있는 제품 카테고리 10개 알려줘

- 매출 분석:
    - 주간 또는 월간 매출 추이 분석: 2019년 주간 매출 추이 분석해줘
    - 고객 나이대별 매출 분석: 고객 나이대별 매출 분석해줘, 고객 연령대별 매출을 10대, 20대 등 전체 나이대를 10년 단위로 분석해줘
    - 주문 날짜와 매출의 상관 관계 분석: 주문 날짜와 매출의 상관 관계를 분석해줘, 1월의 주문 일자별 상관 관계를 일단위로 분석해줘

In [35]:
question = "가장 많이 주문된 제품 10개 분석해줘"

final_answer = db_chain.run(PROMPT.format(question=question))
print(final_answer)



[1m> Entering new SQLDatabaseChain chain...[0m
 
Human: Given an input question, create a syntactically correct sqlite query to run,
then look at the results of the query and return only the answer.  
The query: 가장 많이 주문된 제품 10개 분석해줘

Assistant:
SQLQuery:[32;1m[1;3mSELECT product_name, COUNT(*) AS total_orders
FROM orders o
JOIN product_category_mapping pcm ON o.product_id = pcm.product_id
GROUP BY product_name
ORDER BY total_orders DESC
LIMIT 10[0m
SQLResult: [33;1m[1;3m[('Whole Pine Nut', 18), ('Zucchini Gingerbread Carrot Smart Cookies', 17), ('Original Orange Juice', 17), ('Organic White Cane Sugar', 17), ('Gluten free Dark Chocolate covered Creamy Banana Fruit Bars', 17), ('Vermont White Cheddar', 16), ('Unsweetened Whole Milk Strawberry Yogurt', 16), ('Organic Stage 4 Spinach Mango & Pear Baby Food', 16), ('Whole Milk Cherry Organic Yogurt', 15), ('Tub & Tile Natural Cleaner Emerald Cypress & Fir', 15)][0m
Answer:[32;1m[1;3m가장 많이 주문된 제품 10개는 다음과 같습니다:
1. Whole Pine Nu

In [36]:
question = "전체 고객 중 재주문 비율을 분석해줘"

final_answer = db_chain.run(PROMPT.format(question=question))
print(final_answer)



[1m> Entering new SQLDatabaseChain chain...[0m
 
Human: Given an input question, create a syntactically correct sqlite query to run,
then look at the results of the query and return only the answer.  
The query: 전체 고객 중 재주문 비율을 분석해줘

Assistant:
SQLQuery:[32;1m[1;3mSELECT round(count(distinct CASE WHEN is_reordered = 1 THEN customer_id END) * 100.0 / count(distinct customer_id), 2) as reorder_rate
FROM orders;[0m
SQLResult: [33;1m[1;3m[(99.85,)][0m
Answer:[32;1m[1;3m전체 고객 중 재주문 비율은 99.85%입니다.[0m
[1m> Finished chain.[0m
전체 고객 중 재주문 비율은 99.85%입니다.


In [37]:
question = "coffee 카테고리 주문량과 매출을 분석해줘"

final_answer = db_chain.run(PROMPT.format(question=question))
print(final_answer)



[1m> Entering new SQLDatabaseChain chain...[0m
 
Human: Given an input question, create a syntactically correct sqlite query to run,
then look at the results of the query and return only the answer.  
The query: coffee 카테고리 주문량과 매출을 분석해줘

Assistant:
SQLQuery:[32;1m[1;3mSELECT "product_category", SUM("purchase_amount") AS "total_sales", COUNT("order_id") AS "total_orders"
FROM orders o
JOIN product_category_mapping pcm ON o."product_id" = pcm."product_id"  
WHERE "product_category" = 'coffee'
GROUP BY "product_category"[0m
SQLResult: [33;1m[1;3m[0m
Answer:[32;1m[1;3mcoffee 카테고리의 총 주문 건수는 total_orders건이고, 총 매출액은 total_sales달러입니다.[0m
[1m> Finished chain.[0m
coffee 카테고리의 총 주문 건수는 total_orders건이고, 총 매출액은 total_sales달러입니다.


In [38]:
question = "전체 제품 중 재주문 비율 상위 20개 제품을 분석해줘"

final_answer = db_chain.run(PROMPT.format(question=question))
print(final_answer)



[1m> Entering new SQLDatabaseChain chain...[0m
 
Human: Given an input question, create a syntactically correct sqlite query to run,
then look at the results of the query and return only the answer.  
The query: 전체 제품 중 재주문 비율 상위 20개 제품을 분석해줘

Assistant:
SQLQuery:[32;1m[1;3mSELECT p.product_name, COUNT(o.order_id) AS total_orders, SUM(o.is_reordered) AS reordered_orders, ROUND(SUM(o.is_reordered) * 100.0 / COUNT(o.order_id), 2) AS reorder_rate
FROM orders o
JOIN product_category_mapping pcm ON o.product_id = pcm.product_id  
JOIN products p ON pcm.product_id = p.product_id
GROUP BY p.product_name
ORDER BY reorder_rate DESC
LIMIT 20[0m
SQLResult: [33;1m[1;3m[('zyflamend whole body liquid vcaps', 4, 4, 100.0), ('zinc picolinate', 2, 2, 100.0), ('zero calorie lemonade organic lemonade', 1, 1, 100.0), ('zero calorie arnold palmer half iced tea & half lemonade', 3, 3, 100.0), ('zbar protein chocolate mint protein bar', 1, 1, 100.0), ("yum-a-roo's organic toddler snacks banana, mang

In [39]:
question = "가장 많이 주문된 제품 카테고리 10개 분석해줘"

final_answer = db_chain.run(PROMPT.format(question=question))
print(final_answer)



[1m> Entering new SQLDatabaseChain chain...[0m
 
Human: Given an input question, create a syntactically correct sqlite query to run,
then look at the results of the query and return only the answer.  
The query: 가장 많이 주문된 제품 카테고리 10개 분석해줘

Assistant:
SQLQuery:[32;1m[1;3mSELECT product_category, COUNT(*) AS count 
FROM product_category_mapping
GROUP BY product_category
ORDER BY count DESC
LIMIT 10[0m
SQLResult: [33;1m[1;3m[('Candy Chocolate', 1246), ('Ice Cream Ice', 1091), ('Vitamins Supplements', 1038), ('Yogurt', 1026), ('Chips Pretzels', 989), ('Tea', 894), ('Packaged Cheese', 891), ('Frozen Meals', 880), ('Cookies Cakes', 874), ('Energy Granola Bars', 832)][0m
Answer:[32;1m[1;3m가장 많이 주문된 제품 카테고리 10개는 다음과 같습니다:
1. Candy Chocolate (1246회)
2. Ice Cream Ice (1091회)  
3. Vitamins Supplements (1038회)
4. Yogurt (1026회)
5. Chips Pretzels (989회)
6. Tea (894회)
7. Packaged Cheese (891회)
8. Frozen Meals (880회)
9. Cookies Cakes (874회)
10. Energy Granola Bars (832회)[0m
[1m> Finishe

In [40]:
question = "제품 카테고리별 제품 수 분석해줘"

final_answer = db_chain.run(PROMPT.format(question=question))
print(final_answer)



[1m> Entering new SQLDatabaseChain chain...[0m
 
Human: Given an input question, create a syntactically correct sqlite query to run,
then look at the results of the query and return only the answer.  
The query: 제품 카테고리별 제품 수 분석해줘

Assistant:
SQLQuery:[32;1m[1;3mSELECT product_category, COUNT(product_id) AS product_count 
FROM products
GROUP BY product_category[0m
SQLResult: [33;1m[1;3m[('baby food formula', 718), ('baking ingredients', 623), ('candy chocolate', 1246), ('chips pretzels', 989), ('cleaning products', 655), ('coffee', 680), ('cookies cakes', 874), ('crackers', 747), ('energy granola bars', 832), ('frozen meals', 880), ('hair care', 816), ('ice cream ice', 1091), ('juice nectars', 792), ('packaged cheese', 891), ('refrigerated', 675), ('soup broth bouillon', 737), ('spices seasonings', 797), ('tea', 894), ('vitamins supplements', 1038), ('yogurt', 1026)][0m
Answer:[32;1m[1;3m제품 카테고리별로 가장 많은 제품 수를 가진 카테고리 상위 5개는 다음과 같습니다: 
1. vitamins supplements (1038개)
2. ice 

In [41]:
question = "가장 많이 팔린 제품 카테고리 알려주고 분석해줘"

final_answer = db_chain.run(PROMPT.format(question=question))
print(final_answer)



[1m> Entering new SQLDatabaseChain chain...[0m
 
Human: Given an input question, create a syntactically correct sqlite query to run,
then look at the results of the query and return only the answer.  
The query: 가장 많이 팔린 제품 카테고리 알려주고 분석해줘

Assistant:
SQLQuery:[32;1m[1;3mSELECT product_category, COUNT(*) AS count 
FROM orders o
JOIN product_category_mapping pcm ON o.product_id = pcm.product_id
GROUP BY product_category
ORDER BY count DESC
LIMIT 5[0m
SQLResult: [33;1m[1;3m[('Candy Chocolate', 7338), ('Ice Cream Ice', 6559), ('Yogurt', 6175), ('Vitamins Supplements', 6097), ('Chips Pretzels', 5881)][0m
Answer:[32;1m[1;3m가장 많이 팔린 제품 카테고리는 Candy Chocolate로 7338건의 판매량을 기록했습니다. 그 다음으로 Ice Cream Ice 6559건, Yogurt 6175건, Vitamins Supplements 6097건, Chips Pretzels 5881건 순으로 나타났습니다. Candy Chocolate 카테고리 제품이 가장 인기가 높다는 것을 알 수 있습니다. 제품 개발 시 이 카테고리에 집중할 필요가 있겠습니다.[0m
[1m> Finished chain.[0m
가장 많이 팔린 제품 카테고리는 Candy Chocolate로 7338건의 판매량을 기록했습니다. 그 다음으로 Ice Cream Ice 6559건, Yogurt 6175건

In [42]:
question = "제품 수가 많은 카테고리 10개 분석해줘"

final_answer = db_chain.run(PROMPT.format(question=question))
print(final_answer)



[1m> Entering new SQLDatabaseChain chain...[0m
 
Human: Given an input question, create a syntactically correct sqlite query to run,
then look at the results of the query and return only the answer.  
The query: 제품 수가 많은 카테고리 10개 분석해줘

Assistant:
SQLQuery:[32;1m[1;3mSELECT product_category, COUNT(product_id) AS product_count
FROM products
GROUP BY product_category
ORDER BY product_count DESC
LIMIT 10[0m
SQLResult: [33;1m[1;3m[('candy chocolate', 1246), ('ice cream ice', 1091), ('vitamins supplements', 1038), ('yogurt', 1026), ('chips pretzels', 989), ('tea', 894), ('packaged cheese', 891), ('frozen meals', 880), ('cookies cakes', 874), ('energy granola bars', 832)][0m
Answer:[32;1m[1;3m제품 수가 가장 많은 상위 10개 카테고리는 다음과 같습니다:
1. candy chocolate (1246개 제품)  
2. ice cream ice (1091개 제품)
3. vitamins supplements (1038개 제품) 
4. yogurt (1026개 제품)
5. chips pretzels (989개 제품)
6. tea (894개 제품)
7. packaged cheese (891개 제품)
8. frozen meals (880개 제품)
9. cookies cakes (874개 제품)
10. energy gra

In [43]:
question = "2020년 월별 매출 추이 분석해줘"

final_answer = db_chain.run(PROMPT.format(question=question))
print(final_answer)



[1m> Entering new SQLDatabaseChain chain...[0m
 
Human: Given an input question, create a syntactically correct sqlite query to run,
then look at the results of the query and return only the answer.  
The query: 2020년 월별 매출 추이 분석해줘

Assistant:
SQLQuery:[32;1m[1;3mSELECT strftime('%m', purchased_on) AS month, 
       SUM(purchase_amount) AS total_sales
FROM orders 
WHERE strftime('%Y', purchased_on) = '2020'
GROUP BY month
ORDER BY month;[0m
SQLResult: [33;1m[1;3m[('01', 309438.06000000006), ('02', 279561.71000000037), ('03', 304050.23000000045), ('04', 304042.3699999985), ('05', 310085.22000000026), ('06', 296325.8599999998), ('07', 316441.4), ('08', 309195.1499999995), ('09', 300003.7299999992), ('10', 309685.5399999997), ('11', 293867.71999999974), ('12', 315186.23000000056)][0m
Answer:[32;1m[1;3m2020년 1월 매출은 309,438달러, 
2월 매출은 279,562달러,
3월 매출은 304,050달러,
4월 매출은 304,042달러,
5월 매출은 310,085달러,
6월 매출은 296,326달러,
7월 매출은 316,441달러,
8월 매출은 309,195달러,
9월 매출은 300,004달러,
10월 매출은 3

In [44]:
question = "월별 매출 추이 분석해줘"

final_answer = db_chain.run(PROMPT.format(question=question))
print(final_answer)



[1m> Entering new SQLDatabaseChain chain...[0m
 
Human: Given an input question, create a syntactically correct sqlite query to run,
then look at the results of the query and return only the answer.  
The query: 월별 매출 추이 분석해줘

Assistant:
SQLQuery:[32;1m[1;3mSELECT strftime('%m', purchased_on) AS month, 
       round(sum(purchase_amount), 2) AS total_sales
FROM orders 
GROUP BY month
ORDER BY month;[0m
SQLResult: [33;1m[1;3m[('01', 613216.99), ('02', 564051.01), ('03', 600233.79), ('04', 606040.94), ('05', 619447.79), ('06', 296325.86), ('07', 316441.4), ('08', 309195.15), ('09', 300003.73), ('10', 309685.54), ('11', 293867.72), ('12', 315186.23)][0m
Answer:[32;1m[1;3m월별 매출 추이는 다음과 같습니다:
1월: 613,217달러
2월: 564,051달러  
3월: 600,234달러
4월: 606,041달러
5월: 619,448달러
6월: 296,326달러
7월: 316,441달러
8월: 309,195달러
9월: 300,004달러
10월: 309,686달러
11월: 293,868달러
12월: 315,186달러

매출이 가장 높았던 달은 5월이고, 가장 낮았던 달은 6월입니다.[0m
[1m> Finished chain.[0m
월별 매출 추이는 다음과 같습니다:
1월: 613,217달러
2월: 564,051달러  
3

In [99]:
question = "2021년 1분기 매출 추이 분석해줘"

final_answer = db_chain.run(PROMPT.format(question=question))
print(final_answer)



[1m> Entering new SQLDatabaseChain chain...[0m
 
Human: Given an input question, create a syntactically correct sqlite query to run,
then look at the results of the query and return only the answer.  
The query: 2021년 1분기 매출 추이 분석해줘

Assistant:
SQLQuery:[32;1m[1;3mSELECT strftime('%m', purchased_on) AS month, 
       round(sum(purchase_amount), 2) AS total_sales
FROM orders
WHERE strftime('%Y', purchased_on) = '2021'
  AND strftime('%m', purchased_on) IN ('01', '02', '03')  
GROUP BY month
ORDER BY month[0m
SQLResult: [33;1m[1;3m[('01', 303778.93), ('02', 284489.3), ('03', 296183.56)][0m
Answer:[32;1m[1;3m2021년 1분기 매출 추이는 다음과 같습니다.
1월: 303,778.93달러 
2월: 284,489.30달러
3월: 296,183.56달러[0m
[1m> Finished chain.[0m
2021년 1분기 매출 추이는 다음과 같습니다.
1월: 303,778.93달러 
2월: 284,489.30달러
3월: 296,183.56달러


In [101]:
query = """
SELECT strftime('%m', purchased_on) AS month, 
       round(sum(purchase_amount), 2) AS total_sales
FROM orders
WHERE strftime('%Y', purchased_on) = '2021'
  AND month IN ('01', '02', '03')
GROUP BY month
ORDER BY month
"""
df = pd.read_sql(query, engine)
df.head()

Unnamed: 0,month,total_sales
0,1,303778.93
1,2,284489.3
2,3,296183.56


In [46]:
question = "연간 매출 추이 분석해줘"

final_answer = db_chain.run(PROMPT.format(question=question))
print(final_answer)



[1m> Entering new SQLDatabaseChain chain...[0m
 
Human: Given an input question, create a syntactically correct sqlite query to run,
then look at the results of the query and return only the answer.  
The query: 연간 매출 추이 분석해줘

Assistant:
SQLQuery:[32;1m[1;3mSELECT strftime('%Y', purchased_on) AS year, 
       round(sum(purchase_amount), 2) AS total_sales
FROM orders
GROUP BY year
ORDER BY year;[0m
SQLResult: [33;1m[1;3m[('2020', 3647883.22), ('2021', 1495812.93)][0m
Answer:[32;1m[1;3m연간 매출 추이는 다음과 같습니다:
2020년: 3,647,883.22달러 
2021년: 1,495,812.93달러

따라서 2020년 매출이 2021년보다 높았습니다.[0m
[1m> Finished chain.[0m
연간 매출 추이는 다음과 같습니다:
2020년: 3,647,883.22달러 
2021년: 1,495,812.93달러

따라서 2020년 매출이 2021년보다 높았습니다.


In [47]:
question = "고객 나이대별 매출 분석해줘"

final_answer = db_chain.run(PROMPT.format(question=question))
print(final_answer)



[1m> Entering new SQLDatabaseChain chain...[0m
 
Human: Given an input question, create a syntactically correct sqlite query to run,
then look at the results of the query and return only the answer.  
The query: 고객 나이대별 매출 분석해줘

Assistant:
SQLQuery:[32;1m[1;3mSELECT customers.age, SUM(orders.purchase_amount) AS total_sales
FROM customers 
JOIN orders ON customers.customer_id = orders.customer_id
GROUP BY customers.age
ORDER BY total_sales DESC
LIMIT 5[0m
SQLResult: [33;1m[1;3m[(20, 83186.9200000001), (66, 81146.22999999991), (61, 79868.48), (27, 79744.3799999999), (30, 79731.0900000002)][0m
Answer:[32;1m[1;3m고객 나이대별로 20세가 가장 많은 매출을 기록했습니다. 
그 다음으로는 66세, 61세, 27세, 30세 순으로 매출이 많았습니다.[0m
[1m> Finished chain.[0m
고객 나이대별로 20세가 가장 많은 매출을 기록했습니다. 
그 다음으로는 66세, 61세, 27세, 30세 순으로 매출이 많았습니다.


In [103]:
question = "고객 연령대별 매출을 10대, 20대 등 전체 나이대를 10년 단위로 알려줘"

final_answer = db_chain.run(PROMPT.format(question=question))
print(final_answer)



[1m> Entering new SQLDatabaseChain chain...[0m
 
Human: Given an input question, create a syntactically correct sqlite query to run,
then look at the results of the query and return only the answer.  
The query: 고객 연령대별 매출을 10대, 20대 등 전체 나이대를 10년 단위로 알려줘

Assistant:
SQLQuery:[32;1m[1;3mSELECT 
  CASE
    WHEN age BETWEEN 10 AND 19 THEN '10대'
    WHEN age BETWEEN 20 AND 29 THEN '20대'
    WHEN age BETWEEN 30 AND 39 THEN '30대'
    WHEN age BETWEEN 40 AND 49 THEN '40대'
    WHEN age BETWEEN 50 AND 59 THEN '50대'
    WHEN age BETWEEN 60 AND 69 THEN '60대'
    WHEN age >= 70 THEN '70대 이상'
  END AS age_group,
  SUM(purchase_amount) AS total_sales
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
GROUP BY age_group[0m
SQLResult: [33;1m[1;3m[('10대', 151545.4600000001), ('20대', 703994.3399999954), ('30대', 708672.6899999948), ('40대', 672972.3300000002), ('50대', 700136.9300000018), ('60대', 699919.1500000022), ('70대 이상', 1506455.2499999977)][0m
Answer:[32;1m[1;3m고객 연령대별 매출은 다

In [102]:
query = """
SELECT 
  CASE
    WHEN age BETWEEN 10 AND 19 THEN '10대'
    WHEN age BETWEEN 20 AND 29 THEN '20대'
    WHEN age BETWEEN 30 AND 39 THEN '30대'
    WHEN age BETWEEN 40 AND 49 THEN '40대'
    WHEN age BETWEEN 50 AND 59 THEN '50대'
    WHEN age >= 60 THEN '60대 이상'
  END AS age_group,
  SUM(purchase_amount) AS total_sales
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
GROUP BY age_group
ORDER BY total_sales DESC
"""
df = pd.read_sql(query, engine)
df.head()

Unnamed: 0,age_group,total_sales
0,60대 이상,2206374.4
1,30대,708672.69
2,20대,703994.34
3,50대,700136.93
4,40대,672972.33


In [104]:
question = "2021년 1월의 주문 일자별 상관 관계를 일단위로 분석해줘"

final_answer = db_chain.run(PROMPT.format(question=question))
print(final_answer)



[1m> Entering new SQLDatabaseChain chain...[0m
 
Human: Given an input question, create a syntactically correct sqlite query to run,
then look at the results of the query and return only the answer.  
The query: 2021년 1월의 주문 일자별 상관 관계를 일단위로 분석해줘

Assistant:
SQLQuery:[32;1m[1;3mSELECT purchased_on, COUNT(*) as count 
FROM orders
WHERE purchased_on BETWEEN '2021-01-01' AND '2021-01-31'
GROUP BY DATE(purchased_on)
ORDER BY purchased_on[0m
SQLResult: [33;1m[1;3m[('2021-01-01 11:19:14', 209), ('2021-01-02 03:13:16', 191), ('2021-01-03 06:05:47', 186), ('2021-01-04 13:55:16', 206), ('2021-01-05 08:32:00', 182), ('2021-01-06 05:56:56', 194), ('2021-01-07 08:32:18', 188), ('2021-01-08 00:22:21', 201), ('2021-01-09 17:27:24', 153), ('2021-01-10 14:34:23', 192), ('2021-01-11 21:26:18', 220), ('2021-01-12 15:23:46', 198), ('2021-01-13 03:34:22', 189), ('2021-01-14 21:59:06', 203), ('2021-01-15 11:22:18', 167), ('2021-01-16 21:50:24', 176), ('2021-01-17 10:23:24', 194), ('2021-01-18 00:39