# **OJKGPT**

This is the Jupyter Notebook for the development of the 1st version of OJKGPT for the showcase demo capabilites to wealth team program. <br>
In this development, we use several data sources for enriching the RAG system of the chatbot. 

In [1]:
import nest_asyncio
nest_asyncio.apply()

In [2]:
from dotenv import load_dotenv
load_dotenv()

True

In [3]:
import os
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"

In [4]:
import logging
import sys

logging.basicConfig(stream=sys.stdout, level=logging.INFO)
logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))

In [5]:
from utils.models_definer import ModelName

# storing or not
OCR_TRESHOLD = 0.98
TOP_K = 3
NUM_BATCH_EVAL = 20
STORE = False
DELETE = True
EVAL = False
model_name = ModelName.AZURE_OPENAI
model_name_eval = ModelName.OPENAI

## **LLM Models Define**

In [6]:
from llama_index.core import Settings
from utils.models_definer import get_llm_and_embedding

# ollama/openai/azure_openai
llm, embedding_llm = get_llm_and_embedding(model_name=model_name)

llm_eval = get_llm_and_embedding(model_name=model_name_eval)[0]


Settings.llm = llm
Settings.embed_model = embedding_llm

## **Loading Documents**

### **Document Reader and Node Parser**

In [7]:
from utils.documents_reader import read_documents
from utils.node_parser import parse_nodes

path = './data'

if STORE:
    docs = read_documents(path=path, ocr_treshold=OCR_TRESHOLD)
    nodes = parse_nodes(documents=docs, llm=llm)

## **Indexing & Storing**

In [8]:
from utils.index_store import (store_vector_index, load_vector_index, store_summary_index, load_summary_index)

# store
if STORE:
    vector_index = store_vector_index(nodes=nodes,embed_model=embedding_llm, delete=DELETE)
    summary_index = store_summary_index(nodes=nodes,llm=llm, delete=DELETE,embed_model=embedding_llm)
# load
else:
    vector_index = load_vector_index()
    summary_index = load_summary_index()

Loading the vector index completed.
Loading the summary index completed.


In [9]:
# summary_index.get_document_summary(doc_id='c6538032-b87d-42c5-91c2-83c8e62ed305')
summary_index

<llama_index.core.indices.document_summary.base.DocumentSummaryIndex at 0x299e89c1c30>

## **Querying**

### **Retriever**

In [10]:
from llama_index.core.indices.document_summary import (
    DocumentSummaryIndexLLMRetriever
)
from llama_index.core.retrievers import RecursiveRetriever

vector_retriever = vector_index.as_retriever(similarity_top_k=TOP_K)

recursive_retriever = RecursiveRetriever(
    "vector",
    retriever_dict={"vector": vector_retriever}
)

summary_retriever = DocumentSummaryIndexLLMRetriever(
    index=summary_index,
    choice_top_k=TOP_K,
    # embed_model=embedding_llm,
    llm=llm,
)

### **Query Engine**

In [11]:
from llama_index.postprocessor.colbert_rerank import ColbertRerank

colbert_reranker = ColbertRerank(
    top_n=5,
    model="colbert-ir/colbertv2.0",
    tokenizer="colbert-ir/colbertv2.0",
    keep_retrieval_score=True,
)

In [12]:
from llama_index.core.query_engine import RetrieverQueryEngine
from llama_index.core import get_response_synthesizer
import time

vector_query_engine = RetrieverQueryEngine.from_args(retriever=recursive_retriever,llm=llm, node_postprocessors=[colbert_reranker])

response_synthesizer = get_response_synthesizer(response_mode="tree_summarize")
list_query_engine = RetrieverQueryEngine.from_args(retriever=summary_retriever,llm=llm_eval, node_postprocessors=[colbert_reranker], )

time.sleep(2)

In [13]:
a = "Apa judul peraturan 7/33/PBI/2005?" # Pencabutan atas Peraturan Bank Indonesia Nomor 5/17/PBI/2003 tentang Persyaratan dan Tata Cara Pelaksanaan Jaminan Pemerintah terhadap Kewajiban Pembayaran Bank Perkreditan Rakyat
b = "Kapan surat edaran No. 15/26/DPbS mulai berlaku?" # 1 Agustus 2013.
c = "Siapa nama dan jabatannya yang menandatangani surat dengan nomor 1/SEOJK.04/2013?" # NURHAIDA, kepala eksekutif pengawas pasar modal
d = "Saya ingin menyelenggarakan kegiatan pasar modal berikan saya nomor surat yang membahas mengenai hal ini!" # Peraturan Pemerintah Nomor 12 Tahun 2004
e = "Berapa persen jaminan moneter pada tanggal 20 Agustus 1958?" # 7,3%
f = "Surat edaran nomor berapa yang mengatur bank umum syariah dan unit usaha syariah?" # 15/26/DPbS
g = "Apa kepanjangan dari PAPSI?" # Pedoman Akuntansi Perbankan Syariah Indonesia
h = "apa judul peraturan nomor 112/KMK.03/2001?" # Keputusan Menteri Keuangan tentang Pemotongan Pajak Penghasil Pasal 21 atas Penghasilan berupa Uang Pesangon, Uang Tebusan Pensiun, dan Tunjangan Hari Tua atau Jaminan Hari Tua
i = "Saya ingin membuat sistem informasi lembaga jasa keuangan, berikan nomor regulasi dari peraturan yang membahas tentang manejemen risiko nya!" # 4/POJK.05/2021
j = "Apa kepanjangan dari SWDKLLJ?" # Sumbangan Wajib Dana Kecelakaan Lalu Lintas Jalan
k = "Berapa nilai SWDKLLJ mobil sedan?" # Rp. 140.000
l = "Apa latar belakang dari peraturan NOMOR 4/POJK.05/2021?" # dalam bentuk list
m = "Apa itu LJKNB?" # Lembaga Jasa Keuangan Non Bank
n = "Apakah KMK Nomor 462/KMK.04/1998 masih berlaku" # tidak
o = "Apa itu Uang Pesangon?" # penghasilan yang dibayarkan oleh pemberi kerja kepada karyawan dengan nama dan dalam bentuk apapun sehubungan dengan berakhirnya masa kerja atau terjadi pemutusan  hubungan kerja, termasuk uang penghargaan masa kerja dan uang  ganti kerugian
p = "Apa itu CKPN?" # Cadangan Kerugian Penurunan Nilai.
q = "Kapan, dimana, dan oleh siapa surat nomor PER- 06/BL/2012 ditetapkan?" # Surat nomor PER-06/BL/2012 ditetapkan pada tanggal 22 November 2012 di Jakarta oleh Ketua Badan Pengawas Pasar Modal dan Lembaga Keuangan.
r = "Apa kepanjangan PSAK?" # Pernyataan Standar Akuntansi Keuangan
s = "Apa itu 'shahibul maal'?" # Pemilik dana pihak ketiga

query_str = a

In [14]:
from llama_index.core.response.notebook_utils import display_response

response_vector = vector_query_engine.query(query_str)
display_response(response_vector)

**`Final Response:`** Empty Response

In [15]:
# response_summary = list_query_engine.query(query_str)
# display_response(response_summary)

ValueError: doc_id 3054841f-f2f1-4aef-bb62-5dfb9f42b841 not found.

## **Evaluation**

In [None]:
import os

# check directory exist
if not os.path.exists("./json_data"):
    os.makedirs("./json_data")

In [None]:
from llama_index.core.evaluation import (
    generate_question_context_pairs,
    EmbeddingQAFinetuneDataset,
)
if EVAL:
    if STORE:
        qa_dataset = generate_question_context_pairs(
            nodes=nodes,
            llm=llm_eval,
            num_questions_per_chunk=2,
        )
        qa_dataset.save_json("./json_data/pg_eval_dataset.json")
    else:
        qa_dataset = EmbeddingQAFinetuneDataset.from_json("./json_data/pg_eval_dataset.json")

### **Retrieval Evaluation**

In [None]:
metrics = ["hit_rate", "mrr", "precision", "recall", "ap", "ndcg"]

In [None]:
from utils.evaluator import get_retrieval_eval_df

if EVAL:
    vector_retrieval_eval_results = await get_retrieval_eval_df(name=f"Top-{TOP_K} Eval", metrics=metrics, retriever=vector_retriever, qa_dataset=qa_dataset)
    display(vector_retrieval_eval_results)

### **Response Evaluation**

In [None]:
from llama_index.core.evaluation import (
    FaithfulnessEvaluator,
    RelevancyEvaluator,
)

if EVAL:
    # model for evaluation
    relevancy_evaluator = RelevancyEvaluator(llm=llm_eval)
    faithfullness_evaluator = FaithfulnessEvaluator(llm=llm_eval)

#### **Faithfulness Evaluator**

Evaluate Response

In [None]:
from utils.evaluator import get_response_eval_df

if EVAL:
    vector_faithfullness_eval_result = faithfullness_evaluator.evaluate_response(response=response_vector, query=query_str)
    summary_faithfullness_eval_result = faithfullness_evaluator.evaluate_response(response=response_summary, query=query_str)
    display(get_response_eval_df(query=query_str, response=response_vector, eval_result=vector_faithfullness_eval_result))
    display(get_response_eval_df(query=query_str, response=response_summary, eval_result=summary_faithfullness_eval_result))

Evaluate Source Nodes

In [None]:
from utils.evaluator import get_response_eval_sources_df

if EVAL:
    relevancy_eval_sources = get_response_eval_sources_df(query=query_str, response=response_vector, evaluator=faithfullness_evaluator)
    display(relevancy_eval_sources)

#### **Relevancy Evaluator**

Evaluate Response

In [None]:
if EVAL:
    relevancy_eval_result = relevancy_evaluator.evaluate_response(
        query=query_str, response=response_vector
    )

    display(get_response_eval_df(query=query_str, response=response_vector, eval_result=relevancy_eval_result))

Evaluate Source Nodes

In [None]:
from utils.evaluator import get_response_eval_sources_df

if EVAL:
    relevancy_eval_sources = get_response_eval_sources_df(query=query_str, response=response_vector, evaluator=relevancy_evaluator)
    display(relevancy_eval_sources)

#### **Batch Evaluator (Faithfulness, Relevancy, Correctness)**

In [None]:
from llama_index.core.evaluation import BatchEvalRunner
from utils.evaluator import get_batch_eval_results
from utils.evaluator import get_batch_eval_df

if EVAL:
    runner = BatchEvalRunner(
        {
            "faithfulness": faithfullness_evaluator, 
            "relevancy": relevancy_evaluator,
        },
        workers=8,
    )

    vector_eval_results = await get_batch_eval_results(runner=runner, qa_dataset=qa_dataset, query_engine=vector_query_engine, num_queries=NUM_BATCH_EVAL)
    summary_eval_results = await get_batch_eval_results(runner=runner, qa_dataset=qa_dataset, query_engine=list_query_engine, num_queries=NUM_BATCH_EVAL)
    display(get_batch_eval_df(vector_eval_results))
    display(get_batch_eval_df(summary_eval_results))

## **Build Agent**

In [None]:
from llama_index.core.tools import QueryEngineTool, ToolMetadata

query_engine_tools = [
    QueryEngineTool(
        query_engine=vector_query_engine,
        metadata=ToolMetadata(
            name="vector_tool",
            description=(
                f"Useful for retrieving specific context from the documents."
            ),
        ),
    ),
    QueryEngineTool(
        query_engine=list_query_engine,
        metadata=ToolMetadata(
            name="summary_tool",
            description=(
                "Useful for summarization questions related to the documents."
            ),
        ),
    ),
]

In [None]:
system_prompt = """Anda adalah chatbot yang dapat membantu menjawab pertanyaan tentang berbagai jenis regulasi di Indonesia.

Anda HARUS selalu menjawab dengan BAHASA QUERY.
Anda TIDAK DIBENARKAN berimajinasi.
Anda HANYA DIBENARKAN menjawab pertanyaan berdasarkan dokumen yang telah Anda pelajari.
JANGAN MENGGUNAKAN informasi dari luar dokumen yang telah Anda pelajari.
Anda memiliki akses ke query tools untuk membantu Anda menemukan informasi yang relevan di basis data regulasi.
Berdasarkan informasi konteks dan bukan pengetahuan sebelumnya, jawablah pertanyaan HARUS menggunakan query tools yang tersedia.
Gunakan riwayat percakapan sebelumnya atau konteks di atas untuk berinteraksi dan membantu pengguna.

Anda memiliki akses ke query tools berikut: 
- **vector_tool**: Untuk menemukan konteks spesifik dari dokumen
- **summary_tool**: Untuk menemukan ringkasan dokumen

**Penjelasan Metadata:**
Metadata dokumen mencakup informasi berikut:
- **file_name**: Nama file dokumen
- **title**: Judul dokumen
- **sector**: Sektor yang dicakup oleh regulasi
- **subsector**: Subsektor yang dicakup oleh regulasi
- **regulation_type**: Jenis regulasi (misalnya, Surat Edaran OJK, Peraturan OJK)
- **regulation_number**: Nomor regulasi
- **effective_date**: Tanggal berlakunya regulasi

----------------------------------------------
Query: {query_str}
Jawaban:
"""

In [None]:
from llama_index.core.storage.chat_store import SimpleChatStore
from llama_index.core.memory import ChatMemoryBuffer

chat_store = SimpleChatStore()
memory = ChatMemoryBuffer.from_defaults(
    token_limit=10000,
    chat_store=chat_store,
    chat_store_key="user1",
)

In [None]:
from llama_index.core.callbacks import CallbackManager, LlamaDebugHandler

llama_debug = LlamaDebugHandler(print_trace_on_end=True)
callback_manager = CallbackManager([llama_debug])

In [None]:
from llama_index.agent.openai import OpenAIAgent
from llama_index.core.agent.legacy.react.base import ReActAgent


# agent = OpenAIAgent.from_tools(
#     tools=query_engine_tools,
#     llm=llm,
#     verbose=True,
#     memory=memory,
#     system_prompt=system_prompt,
#     callback_manager=callback_manager,
# )

agent = ReActAgent.from_tools(
    llm=llm,
    memory=memory,
    tools=query_engine_tools,
    verbose=True,
    system_prompt=system_prompt,
    callback_manager=callback_manager,
)

In [None]:
response_agent = agent.chat(message=query_str)

[1;3;38;5;200mThought: The current language of the user is Indonesian. I need to use a tool to help me find the title of the regulation.
Action: vector_tool
Action Input: {'input': 'judul peraturan 7/33/PBI/2005'}
[0m[1;3;34mObservation: Empty Response
[0m[1;3;38;5;200mThought: I cannot answer the question with the provided tools.
Answer: Maaf, saya tidak dapat menemukan judul peraturan 7/33/PBI/2005 dengan menggunakan alat yang tersedia.
[0m**********
Trace: chat
    |_llm -> 2.163959 seconds
    |_function_call -> 1.447649 seconds
    |_llm -> 1.065772 seconds
**********


In [None]:
from llama_index.core.response.notebook_utils import display_response

display_response(response=response_agent)

**`Final Response:`** Maaf, saya tidak dapat menemukan judul peraturan 7/33/PBI/2005 dengan menggunakan alat yang tersedia.

In [None]:
from llama_index.core.response.notebook_utils import display_source_node

for node in response_agent.source_nodes:
    display_source_node(node, show_source_metadata=True)    

In [None]:
chat_store_string = chat_store.json()
loaded_chat_store = SimpleChatStore.parse_raw(chat_store_string)