## 노트북 내용

이 노트북은 watsonx.ai를 사용해서 소비 패턴 데이타를 분석해보는 유즈 케이스를 구현하고 있습니다.
이를 잘 이해하기 위해서는 Python 및 SQL에 대한 기본 지식이 필요하며 모든 코드는 Python 3.10 으로 작성되어 있습니다.


## 내용

이 노트북은 다음과 같은 단계로 구성되어 있습니다ㅏ.

- [환경설정](#setup)
- [데이타베이스 설정](#database_setup)
- [프롬프트 템플릿 작성](#prompt_template)
- [사용자 질의 및 답변 생성](#execute_query)

<a id="setup"></a>
## 환경 설정

이노트북에 있는 샘플 코드를 실행하기 전에 다음 작업을 완료해야 합니다.

- 필요한 python package는 conda environment 혹은 python virtual environment에 python 3.10.12 기반의 독립적인 환경을 만든 후 pip install -r requirements_ibmcloud.txt를 사용해서 설치.
- Cloud Pak for Data 관리자에게 이 시스템에 접근할 수 있는 권한 정보를 획득.


In [None]:
!pip install "langchain==0.2.6"
!pip install "langchain-experimental"
!pip install "ibm-watsonx-ai>=0.2.6"
!pip install "langchain_ibm==0.1.8"
!pip install "sentence-transformers==3.0.1"
!pip install "chromadb==0.5.3"
!pip install "pydantic==2.8.2"
!pip install "langchain-huggingface==0.0.3"
!pip install "pymysql"

In [None]:
import os
import sqlite3
import csv
from datetime import datetime
import pytz
from langchain.utilities import SQLDatabase
from langchain_experimental.sql import SQLDatabaseChain
from langchain.llms import WatsonxLLM
from ibm_watsonx_ai.foundation_models.utils.enums import ModelTypes
from ibm_watsonx_ai.metanames import GenTextParamsMetaNames as GenParams
from ibm_watsonx_ai.foundation_models.utils.enums import DecodingMethods


### Watson Machine Learning 연결 정보 확인

Cloud Pak for Data에서 제공하는 Watson Machine Learning 서비스에 접근하기 위한 인증 정보를 입력한다.
여기에는 `url`, `username` 그리고 `api_key`가 포함된다.

In [None]:
# IBM Cloud 상의 watsonx SAS url은 provision된 region별로 정해져 있음. https://cloud.ibm.com/apidocs/watsonx-ai 참조.
project_id = 'Pur your project id here'
wml_credentials = {
    "apikey": 'Put your key here',
    "url": 'https://us-south.ml.cloud.ibm.com'
}

In [None]:
# 데이터베이스 파일 삭제

os.remove(os.path.join(os.getcwd(), 'history.db'))

In [None]:
filename = os.path.join(os.getcwd(), 'data', 'spending-insight.csv')

<a id="database_setup"></a>
## 데이타베이스 설정

신용카드 사용 내역을 저장할 데이타베이스를 생성한다. Lanchain은 SQLAlchemy 패키지 덕분에 MS SQL, MySQL, MariaDB, PostgreSQL 그리고 Oracle SQL등을 포함하는 여러 정류의 데이타 베이스에 연결할 수 있다.
여기서는 SQLite를 사용한다.


In [None]:
# 데이터베이스 생성
db = SQLDatabase.from_uri("sqlite:///history.db")

# SQLite 데이터베이스에 연결하는 함수
def get_db_connection():
    conn = sqlite3.connect('history.db', check_same_thread=False)
    conn.row_factory = sqlite3.Row
    return conn

def init_db():
    conn = get_db_connection()
    # 테이블 생성
    conn.execute("""
        CREATE TABLE IF NOT EXISTS transactions (
            id INTEGER PRIMARY KEY AUTOINCREMENT,
            "date" DATE,
            "category" TEXT,
            "product" TEXT,
            "amount" INTEGER
        );
    """)
    
    # 테이블이 비어 있는 경우에 샘플 데이터를 입력한다.
    if conn.execute('SELECT COUNT(*) FROM transactions').fetchone()[0] == 0:
        with open(filename, 'r', encoding='utf-8') as file:
            reader = csv.reader(file)
            next(reader)  # 헤더는 생략
            sample_data = list(reader)
            conn.executemany('INSERT INTO transactions ("date", "category", "product", "amount") VALUES (?, ?, ?, ?)', sample_data)
        
    # Commit the changes and close the connection
    conn.commit()
    conn.close()
init_db()

### 입력된 데이터 확인

모든 데이터가 잘 입력되어 있는 지 확인한다.

In [None]:
conn = get_db_connection()
result = conn.execute('SELECT * from transactions')
for row in result.fetchall():
    print(row[:])

<a id="prompt_template"></a>
## 프롬프트 템플릿 작성

LLM에 질의하기 위한 프롬프트 템플릿을 작성한다.

### 테이블 칼럼 추출

LLM이 테이블에 어떤 데이터가 있는지 이해하도록 하기 위해 테이블의 칼럼을 추출한다.

In [None]:
def get_table_columns(table_name):
    conn = get_db_connection()
    cursor = conn.cursor()
    cursor.execute("PRAGMA table_info({})".format(table_name))
    columns = cursor.fetchall()
    print(f"columns:{columns}")
    return [column[1] for column in columns]

table_name = 'transactions'
columns = get_table_columns(table_name)
display(columns)

<a id="models"></a>
## watsonx의 Foundation model 접근 설정

IBM watsonx의 foundation model들은 <a href="https://python.langchain.com/v0.2/docs/integrations/providers/ibm/#watsonxllm" target="_blank" rel="noopener no referrer">langchain에 의해 지원되는 LLM들의 목록</a>에 속한다.
여기서는 한글이 잘 동작한다고 평가되는 <a href="https://huggingface.co/mncai/llama2-13b-dpo-v7">mncai/llama2-13b-dpo-v7</a>를 사용한다.

WatsonxLLM class는 watsonx foundation model과 langchain 간의 interface를 제공해주는 class이다.

In [None]:
parameters = {
    GenParams.DECODING_METHOD: DecodingMethods.GREEDY.value,
    GenParams.MIN_NEW_TOKENS: 1,
    GenParams.MAX_NEW_TOKENS: 500,
    GenParams.STOP_SEQUENCES: ["<|endoftext|>"]
}

model_id = 'mistralai/mistral-large' # ModelTypes.LLAMA_3_70B_INSTRUCT.value # ModelTypes.LLAMA_2_70B_CHAT.value

watsonx_llm_sql= WatsonxLLM(
    model_id=model_id,
    url=wml_credentials.get("url"),
    apikey=wml_credentials.get("apikey"),
    project_id=project_id,
    params=parameters
)

In [None]:
# 데이터베이스 체인 생성
db_chain = SQLDatabaseChain.from_llm(watsonx_llm_sql, db, verbose=True)

### 프롬프트 템플릿 생성

LLaMA용 템플릿에서는 시스템이 사용하는 메세지와 사용자의 메세지를 구분하기 위해 다음과 같은 tag를 사용한다.

    <<SYS>>/<</SYS>> : 시스템 (AI’s) 메세지.
    [INST]/[/INST] : 사용자 메세지.

Mistral 모델을 사용할 경우에는 위와 같은 tag를 사용하지 않는다.

In [None]:
SYS_PROMPT = """ 당신은 테스트를 SQL로 변환할 수 있는 매우 강력한 모델입니다. 당신의 역할은 데이터베이스에 대한 질문에 답하는 것입니다. 당신은 개인의 소비 성향을 나타내는 신용카드 사용내역을 저장하고 있는 테이블에 대해 질문을 받을 것입니다. 
        SQL쿼리 생성에 사용할 테이블 이름은 {table_name} 이며 칼럼들은 {columns} 입니다. 테이블에 들어 있는 TEXT(또는 VARCHAR) type의 데이터 즉 category와 product의 값은 한국어로 작성되어 있습니다. 
        당신은 SQLite3에서 사용되는 SQL 문법을 사용하여 쿼리를 생성해야 합니다. 그런 다음 {table_name}에 대해 쿼리를 실행하고 답을 생성하세요.
        가이드라인:
        - 위에 제시된 칼럼 이름을 정확히 사용한다.
        - SQL문, 칼럼 이름, 테이블 이름은 따옴표(")나 역따옴표(`)로 감싸지 않는다.
        - 현재 time zone으로 결과를 필터링 한다: {time} 쿼리가 특정 날짜/시간동안의 기간을 명시하는 경우에만 사용. 날짜 필터링을 위해 ">=" or "<=" operators를 사용하거나 날짜를 월별로 묶기 위해 "GROUP BY strftime('%m', date)"을 사용한다. 데이터베이스의 날짜 형식은 'YYYY-MM-DD' 이다.
        - 사용자 질문에서 '식료품', '식사', '일반생활비' 같은 특정 카테고리가 언급되는 경우 결과를 필터하기 위해 해당 카테고리에 "WHERE" 조건을 사용한다.
        - 특정 카테고리가 요청되지 않으면, 어떤 카테고리도 필터링 해서는 안된다.
        - 금액과 관련하여 '최대값'이나 '최소값'이 요청된 경우에는 SQL 함수 MAX() 나 MIN()을 사용하며 평균에는 AVG()를, 총 합계를 질문한 경우 SUM()을 사용한다.
        답변에는 생성한 SQL쿼리와 쿼리를 실행한 결과 그리고 사용자 질문에 대한 최종 답변을 포함합니다."""
SYS_TAG_START = "<<SYS>>"
SYS_TAG_END = "<</SYS>>"
INST_TAG_START = "<<INST>>"
INST_TAG_END = "<</INST>>"
USER_INQUERY = "{inquiry}"

In [None]:
if parameters[GenParams.DECODING_METHOD].find("llama") != -1 :
    QUERY = f"{SYS_TAG_START}{SYS_PROMPT}{SYS_TAG_END}\n\n{INST_TAG_START} 사용자 질문 : {USER_INQUERY} 답변: {INST_TAG_END}"
else:
    QUERY = f"{SYS_PROMPT}\n\n사용자 질문 : {USER_INQUERY} 답변:"

In [None]:
print(QUERY)

<a id="execute_query"></a>
## 사용자 질의 및 응답

사용자 질문을 입력하면 그에 맞는 쿼리를 생성하고 결과를 받은 다음에 최종 답변을 생성한다.

In [None]:

# inquiry = "2023년에 가장 자주 사용된 카테고리는 무엇입니까? 카테고리 이름과 사용횟수를 알려주세요"
# inquiry = "2023년 4사분기에 사용한 식료품에 사용한 금액은 모두 얼마입니까?"
inquiry = "2023년 4사분기에 식사에 사용된 평균 금액은 얼마입니까?"
# inquiry = "2023년 3사분기에 사용된 카테고리를 금액이 큰 순서로 나열해 주세요?"


prompt = QUERY.format(table_name=table_name, columns=columns, time=datetime.now(pytz.timezone('Asia/Seoul')), inquiry=inquiry)


In [None]:
print(prompt)

In [None]:
response = db_chain.run(prompt)
print(response)

이번에는 langchain의 toolkit과 agent를 사용하여 ReAct(Reason and Act) 방식으로 사용자 질문에 응답한다

In [None]:

db_mysql = SQLDatabase.from_uri("mysql+pymysql://root:p455w0rd@bastion.elskr.zanity.net:3306/history")

In [None]:
from langchain_community.utilities.sql_database import SQLDatabase
from langchain_experimental.sql import SQLDatabaseChain
from langchain_community.agent_toolkits import create_sql_agent 
from langchain_community.agent_toolkits.sql.toolkit import SQLDatabaseToolkit
from langchain.agents.agent_types import AgentType


toolkit = SQLDatabaseToolkit(db=db_mysql, llm=watsonx_llm_sql)
agent_executor = create_sql_agent(
    llm=watsonx_llm_sql,
    toolkit=toolkit,
    verbose=True,
    agent_type=AgentType.ZERO_SHOT_REACT_DESCRIPTION,
)

In [None]:
agent_executor.run(prompt)