# HiBlu: GPT LLM RAFT Query 

<center><img src="https://imgtr.ee/images/2024/07/11/09d57cc273fa81e677dd021793c45758.png" alt="09d57cc273fa81e677dd021793c45758.png" border="0" /></center>

## Introduction

Documentation of GPT `LLM RAFT` for HiBlu Chatbot.

## Import Library

In [2]:
from pymongo import MongoClient
from langchain_mongodb import MongoDBAtlasVectorSearch
from langchain_openai import OpenAIEmbeddings
from langchain_openai import ChatOpenAI
from dotenv import load_dotenv
from langchain.chains import RetrievalQA
import pprint
import time
import os

## The Process


The data stored in MongoDB will be extracted and loaded using the OpenAI environment. Next, the model will be defined using the **pretrained LLM** `gpt-3.5-turbo-0125:personal:bluebca-bot:9goQzaqQ` model with a temperature of 0. The prompt used will be as follows:

*"You work as a customer service representative at Blu, a digital banking service provided by BCA. Your responsibility is to give accurate answers to customer questions. All responses should be in Indonesian and based on data that was already given. Your responses should be polite, professional, and helpful. Don’t answer to any questions or inquiries that are not related to blu BCA or BCA digital banking. And do not explain any application outside blu bca digital banking."*

Additionally, the Retrieval Question-Answering method will also be defined using the cosine similarity method.

In [None]:
# MongoDB Python Client Initiation.
client = MongoClient("mongodb+srv://Maverick:anakbimbinganmasdanu@cluster0.muggb2k.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0")

In [4]:
# Access to Data Collection.
collection = client['Maverick']['Maverick_DB']

In [5]:
# Loading Environment Variables.
load_dotenv()
KEY=os.getenv("OPEN_AI_MONGO")

In [6]:
# MongoDB Vector Search.
vectorStore = MongoDBAtlasVectorSearch(
    collection, OpenAIEmbeddings(openai_api_key=KEY), index_name='vector_index'
)

In [7]:
# Model Definition.
llm = ChatOpenAI(model="ft:gpt-3.5-turbo-0125:personal:bluebca-bot:9goQzaqQ", openai_api_key=KEY, temperature=0) ## Calling pretrained gpt-3.5-turbo.
prompt = "You work as a customer service representative at Blu, a digital banking service provided by BCA. Your responsibility is to give accurate answers to customer questions. All responses should be in Indonesian and based on data that was already given. Your responses should be polite, professional, and helpful. Don’t answer to any questions or inquiries that are not related to blu BCA or BCA digital banking. And do not explain any application outside blu bca digital banking"
prompt

'You work as a customer service representative at Blu, a digital banking service provided by BCA. Your responsibility is to give accurate answers to customer questions. All responses should be in Indonesian and based on data that was already given. Your responses should be polite, professional, and helpful. Don’t answer to any questions or inquiries that are not related to blu BCA or BCA digital banking. And do not explain any application outside blu bca digital banking'

In [8]:
# Define The Process to Answer.
qa = RetrievalQA.from_chain_type(llm=llm, chain_type='stuff',
                                 retriever=vectorStore.as_retriever(
                                search_type = "similarity",
                                search_kwargs = {"k": 3}
                                 ))

## Model Evaluation

In this phase, to evaluate the chatbot's performance, 20 questions will be provided: `10 FAQ-related questions`, and the other `10 non-related FAQ questions`. The purpose of this evaluation is to ensure that the model can answer according to the FAQ and to determine if the model experiences "data leakage" or answers out of context from the FAQ. This evaluation will help assess how well the model can provide accurate and relevant answers while maintaining focus on the predetermined topics.

### FAQ Related Questions

#### Question 1

In [9]:
question = "Apa itu blu?"
result = qa({"query": question })
result

  warn_deprecated(


{'query': 'Apa itu blu?',
 'result': 'blu merupakan aplikasi mobile banking dari BCA Digital yang didesain dan dikembangkan untuk memberikan kemudahan untukmu agar bisa melakukan transaksi finansial dan non finansial melalui handphone.'}

In [10]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('blu merupakan aplikasi mobile banking dari BCA Digital yang didesain dan '
 'dikembangkan untuk memberikan kemudahan untukmu agar bisa melakukan '
 'transaksi finansial dan non finansial melalui handphone.')


#### Question 2

In [11]:
question = " Apa saja fitur blu?"
result = qa({"query": question })
result

{'query': ' Apa saja fitur blu?',
 'result': 'bluAccount, bluSaving, bluGether, bluDeposit, Transfer uang, Tarik tunai tanpa kartu di ATM BCA, Beli pulsa &...'}

In [12]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('bluAccount, bluSaving, bluGether, bluDeposit, Transfer uang, Tarik tunai '
 'tanpa kartu di ATM BCA, Beli pulsa &...')


#### Question 3

In [13]:
question = "Apa itu bluInvest?"
result = qa({"query": question })
result

{'query': 'Apa itu bluInvest?',
 'result': 'bluInvest adalah fitur investasi yang ada di dalam aplikasi blu untuk memudahkan nasabah blu dalam bertransaksi di Moduit.'}

In [14]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('bluInvest adalah fitur investasi yang ada di dalam aplikasi blu untuk '
 'memudahkan nasabah blu dalam bertransaksi di Moduit.')


#### Question 4

In [15]:
question = "Apa platform investasi yang bekerja sama dengan bluInvest?"
result = qa({"query": question })
result

{'query': 'Apa platform investasi yang bekerja sama dengan bluInvest?',
 'result': 'Saat ini, platform investasi yang bekerja sama dengan blu adalah Moduit dan FUNDtastic'}

In [16]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Saat ini, platform investasi yang bekerja sama dengan blu adalah Moduit dan '
 'FUNDtastic')


---

#### Question 5

In [17]:
question = "Apa itu bluGether?"
result = qa({"query": question })
result

{'query': 'Apa itu bluGether?',
 'result': 'bluGether adalah fitur gabungan antara bluSaving dan bluAccount yang dibuat oleh Creator. Creator dan Member bisa menabung dan menarik uang di bluGether. Saldo bluGether maksimal Rp 5.000.000 (lima juta rupiah)'}

In [18]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('bluGether adalah fitur gabungan antara bluSaving dan bluAccount yang dibuat '
 'oleh Creator. Creator dan Member bisa menabung dan menarik uang di '
 'bluGether. Saldo bluGether maksimal Rp 5.000.000 (lima juta rupiah)')


#### Question 6

In [19]:
question = "Apakah blu punya fitur pinjaman?"
result = qa({"query": question })
result

{'query': 'Apakah blu punya fitur pinjaman?',
 'result': 'Ya, blu memiliki fitur pinjaman yang bernama bluExtraCash.'}

In [20]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

'Ya, blu memiliki fitur pinjaman yang bernama bluExtraCash.'


#### Question 7

In [21]:
question = "Bagaimana membuka rekening blu?"
result = qa({"query": question })
result

{'query': 'Bagaimana membuka rekening blu?',
 'result': 'Caranya gampang, Kamu tinggal pilih blu pada halaman tambah Bank. Lalu tinggal ikuti saja proses pembukaan\nrekeningnya.'}

In [22]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Caranya gampang, Kamu tinggal pilih blu pada halaman tambah Bank. Lalu '
 'tinggal ikuti saja proses pembukaan\n'
 'rekeningnya.')


#### Question 8

In [23]:
question = "Bagaimana jika lupa password blu?"
result = qa({"query": question })
result

{'query': 'Bagaimana jika lupa password blu?',
 'result': "1. Klik 'Lupa password'. 2. Masukkan PIN kamu. 3. Selesaikan prosesnya."}

In [24]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

"1. Klik 'Lupa password'. 2. Masukkan PIN kamu. 3. Selesaikan prosesnya."


#### Question 9

In [25]:
question = "Apa itu bluGift?"
result = qa({"query": question })
result

{'query': 'Apa itu bluGift?',
 'result': 'bluGift adalah fitur yang memungkinkan kamu mengirimkan sejumlah uang beserta pesan singkat kepada penerima melalui link yang dikirimkan melalui WhatsApp atau SMS.'}

In [26]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('bluGift adalah fitur yang memungkinkan kamu mengirimkan sejumlah uang '
 'beserta pesan singkat kepada penerima melalui link yang dikirimkan melalui '
 'WhatsApp atau SMS.')


#### Question 10

In [27]:
question = "Dimana saya bisa setor tunai tanpa kartu?"
result = qa({"query": question })
result

{'query': 'Dimana saya bisa setor tunai tanpa kartu?',
 'result': 'Kamu bisa melakukan setor tunai di ATM BCA yang bisa digunakan untuk transaksi tanpa kartu di seluruh Indonesia.'}

In [28]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Kamu bisa melakukan setor tunai di ATM BCA yang bisa digunakan untuk '
 'transaksi tanpa kartu di seluruh Indonesia.')


### Non-related FAQ Questions

#### Question 11

In [29]:
question = "Siapa CEO blu?"
result = qa({"query": question })
result

{'query': 'Siapa CEO blu?', 'result': 'CEO blu adalah Sis Apik.'}

In [30]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

'CEO blu adalah Sis Apik.'


#### Question 12

In [31]:
question = "Apa itu mobile legend?"
result = qa({"query": question })
result

{'query': 'Apa itu mobile legend?',
 'result': 'Mobile Legends: Bang Bang adalah sebuah gim multipemain daring yang dikembangkan dan diterbitkan oleh Moonton. Game ini dirilis pada tahun 2016 untuk platform iOS, Android, dan PC. Game ini sangat populer di Indonesia.'}

In [32]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Mobile Legends: Bang Bang adalah sebuah gim multipemain daring yang '
 'dikembangkan dan diterbitkan oleh Moonton. Game ini dirilis pada tahun 2016 '
 'untuk platform iOS, Android, dan PC. Game ini sangat populer di Indonesia.')


#### Question 13

In [33]:
question = "Siapa itu Jokowi?"
result = qa({"query": question })
result

{'query': 'Siapa itu Jokowi?',
 'result': 'Maaf, saya hanya bisa membantu pertanyaan terkait haloblu.'}

In [34]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

'Maaf, saya hanya bisa membantu pertanyaan terkait haloblu.'


#### Question 14

In [49]:
question = "Kapan perang dunia 3?"
result = qa({"query": question })
result

{'query': 'Kapan perang dunia 3?',
 'result': 'Saya tidak bisa menjawab pertanyaan tersebut.'}

In [50]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

'Saya tidak bisa menjawab pertanyaan tersebut.'


#### Question 15

In [37]:
question = "Berapa harga laptop ASUS ROG Zephyrus G14 2023?"
result = qa({"query": question })
result

{'query': 'Berapa harga laptop ASUS ROG Zephyrus G14 2023?',
 'result': 'Maaf, saya tidak bisa memberikan informasi terkait harga laptop ASUS ROG Zephyrus G14 2023.'}

In [38]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Maaf, saya tidak bisa memberikan informasi terkait harga laptop ASUS ROG '
 'Zephyrus G14 2023.')


#### Question 16

In [None]:
question = "Apakah serial Game of Thrones endingnya bagus?"
result = qa({"query": question })
result

{'query': 'Apakah serial Game of Thrones endingnya bagus?',
 'result': 'Saya tidak tahu, saya bot...'}

In [40]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

'Saya tidak tahu, saya bot...'


#### Question 17

In [41]:
question = "Siapakah artis hollywood dengan pembayaran tertinggi?"
result = qa({"query": question })
result

{'query': 'Siapakah artis hollywood dengan pembayaran tertinggi?',
 'result': 'Forbes baru saja merilis daftar artis Hollywood dengan bayaran tertinggi di tahun 2021. Dalam daftar tersebut, Dwayne Johnson atau yang lebih dikenal dengan The Rock, menjadi artis dengan bayaran tertinggi.'}

In [42]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Forbes baru saja merilis daftar artis Hollywood dengan bayaran tertinggi di '
 'tahun 2021. Dalam daftar tersebut, Dwayne Johnson atau yang lebih dikenal '
 'dengan The Rock, menjadi artis dengan bayaran tertinggi.')


#### Question 18

In [43]:
question = "Bagaimana cara membuat kain batik?"
result = qa({"query": question })
result

{'query': 'Bagaimana cara membuat kain batik?',
 'result': 'Kain batik dibuat dengan cara menerapkan lilin panas pada kain putih yang telah dipanaskan di atas kompor.'}

In [44]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Kain batik dibuat dengan cara menerapkan lilin panas pada kain putih yang '
 'telah dipanaskan di atas kompor.')


#### Question 19

In [45]:
question = "Dimana saya bisa membeli piring cantik murah?"
result = qa({"query": question })
result

{'query': 'Dimana saya bisa membeli piring cantik murah?',
 'result': 'Saya tidak tahu.'}

In [46]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

'Saya tidak tahu.'


#### Question 20

In [47]:
question = "Berapa gaji data scientist?"
result = qa({"query": question })
result

{'query': 'Berapa gaji data scientist?',
 'result': 'Maaf, saya tidak bisa memberikan informasi terkait pertanyaan tersebut.'}

In [48]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

'Maaf, saya tidak bisa memberikan informasi terkait pertanyaan tersebut.'


## Conclusion

1. Based on the model evaluation test, the RAFT model achieved an accuracy rate of 100% for questions aligned with the FAQ and 60% for questions not aligned with the FAQ. This indicates that the model is excellent at answering customer questions related to Blu BCA products but not very effective at responding to questions unrelated to Blu BCA.

2. The advantages of this model include its ability to provide good product descriptions and to deliver interactive and non-rigid responses to customers.

3. The drawbacks of this model include the presence of "data leakage" from the pretrained model, where the model might respond out of the expected context. Additionally, the model tends to experience "data leakage." Therefore, better tuning is needed to describe product results more accurately. Furthermore, because it combines two types of LLM methods, the model is more complex and costly.

4. Recommendations for improving the RAFT model's performance include:
    - Using more descriptive prompts to constrain the model's context.
    - Employing other embedding model techniques such as GPT-4 or GPT-4o.
    - Seeking and utilizing higher-quality data to enhance the accuracy and relevance of the answers.