# HiBlu: GPT LLM RAG Query

<center><img src="https://imgtr.ee/images/2024/07/11/ced345b5d0bf4ca7b4bfec39aa11cae9.png" alt="ced345b5d0bf4ca7b4bfec39aa11cae9.png" border="0" /></center>

## Introduction


Documentation of GPT `LLM RAG` for HiBlu Chatbot.

## Import Library

In [1]:
from pymongo import MongoClient
from langchain_mongodb import MongoDBAtlasVectorSearch
from langchain_openai import OpenAIEmbeddings
from langchain_openai import ChatOpenAI
from dotenv import load_dotenv
from langchain.chains import RetrievalQA
import pprint
import time
import os

## The Process

The data stored in MongoDB will be extracted and loaded using the OpenAI environment. Next, the model will be defined using the **gpt-3.5-turbo** model with a temperature of 0. The prompt used will be as follows:

*"You work as a customer service representative at Blu, a digital banking service provided by BCA. Your responsibility is to give accurate answers to customer questions. All responses should be in Indonesian and based on data that was already given. Your responses should be polite, professional, and helpful. Don’t answer to any questions or inquiries that are not related to blu BCA or BCA digital banking. And do not explain any application outside blu bca digital banking."*

Additionally, the *Retrieval Question-Answering* method will also be defined using the cosine similarity method.

In [2]:
# MongoDB Python Client Initiation.
client = MongoClient("mongodb+srv://Maverick:anakbimbinganmasdanu@cluster0.muggb2k.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0")

In [3]:
# Access To The Dataset.
collection = client['Maverick']['Maverick_DB']

In [4]:
# Loading Environment Variables.
load_dotenv()
KEY=os.getenv("OPEN_AI_MONGO")

In [5]:
# Initiation of MongoDB Vector Search. 
vectorStore = MongoDBAtlasVectorSearch(
    collection, OpenAIEmbeddings(openai_api_key=KEY), index_name='vector_index'
)

In [6]:
# Model Definition.
llm = ChatOpenAI(model="gpt-3.5-turbo", openai_api_key=KEY, temperature=0) ## Using gpt-3.5-turbo.
# Give the prompt to the LLM.
prompt = "You work as a customer service representative at Blu, a digital banking service provided by BCA. Your responsibility is to give accurate answers to customer questions. All responses should be in Indonesian and based on data that was already given. Your responses should be polite, professional, and helpful. Don’t answer to any questions or inquiries that are not related to blu BCA or BCA digital banking. And do not explain any application outside blu bca digital banking"
prompt

'You work as a customer service representative at Blu, a digital banking service provided by BCA. Your responsibility is to give accurate answers to customer questions. All responses should be in Indonesian and based on data that was already given. Your responses should be polite, professional, and helpful. Don’t answer to any questions or inquiries that are not related to blu BCA or BCA digital banking. And do not explain any application outside blu bca digital banking'

In [7]:
# Define the process.
qa = RetrievalQA.from_chain_type(llm=llm, chain_type='stuff',
                                 retriever=vectorStore.as_retriever(
                                search_type = "similarity",
                                search_kwargs = {"k": 3}
                                 ))

## Model Evaluation

In this phase, to evaluate the chatbot's performance, 20 questions will be provided: `10 FAQ-related questions`, and the other `10 non-related FAQ questions`. The purpose of this evaluation is to ensure that the model can answer according to the FAQ and to determine if the model experiences "data leakage" or answers out of context from the FAQ. This evaluation will help assess how well the model can provide accurate and relevant answers while maintaining focus on the predetermined topics.

### FAQ Related Questions

#### Questions 1

In [8]:
question = "Apa itu blu?"
result = qa({"query": question })
result

  warn_deprecated(


{'query': 'Apa itu blu?',
 'result': 'blu merupakan aplikasi mobile banking dari BCA Digital yang didesain dan dikembangkan untuk memberikan kemudahan agar pengguna bisa melakukan transaksi finansial dan non finansial melalui handphone. Blu adalah aplikasi mobile banking milik BCA Digital.'}

In [9]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('blu merupakan aplikasi mobile banking dari BCA Digital yang didesain dan '
 'dikembangkan untuk memberikan kemudahan agar pengguna bisa melakukan '
 'transaksi finansial dan non finansial melalui handphone. Blu adalah aplikasi '
 'mobile banking milik BCA Digital.')


#### Questions 2

In [10]:
question = " Apa saja fitur blu?"
result = qa({"query": question })
result

{'query': ' Apa saja fitur blu?',
 'result': 'Fitur-fitur blu yang bisa kamu gunakan saat ini adalah bluAccount, bluSaving, bluGether, bluDeposit, Transfer uang, Tarik tunai tanpa kartu di ATM BCA, Beli pulsa, dan bluInsurance.'}

In [11]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Fitur-fitur blu yang bisa kamu gunakan saat ini adalah bluAccount, '
 'bluSaving, bluGether, bluDeposit, Transfer uang, Tarik tunai tanpa kartu di '
 'ATM BCA, Beli pulsa, dan bluInsurance.')


#### Questions 3

In [54]:
question = "Apa itu bluInvest?"
result = qa({"query": question })
result

{'query': 'Apa itu bluInvest?',
 'result': 'Saya tidak mengetahui informasi mengenai bluInvest.'}

In [55]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

'Saya tidak mengetahui informasi mengenai bluInvest.'


#### Questions 4

In [50]:
question = "Apa platform investasi yang bekerja sama dengan bluInvest?"
result = qa({"query": question })
result

{'query': 'Apa platform investasi yang bekerja sama dengan bluInvest?',
 'result': 'Platform investasi yang bekerja sama dengan bluInvest adalah Moduit dan FUNDtastic.'}

In [51]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Platform investasi yang bekerja sama dengan bluInvest adalah Moduit dan '
 'FUNDtastic.')


#### Questions 5

In [16]:
question = "Apa itu bluGether?"
result = qa({"query": question })
result

{'query': 'Apa itu bluGether?',
 'result': 'bluGether adalah layanan yang memungkinkan pengguna untuk membuka rekening bersama dengan teman-teman atau keluarga. Dalam bluGether, terdapat dua peran utama, yaitu Creator (pembuat rekening) dan Member (anggota rekening). Creator memiliki hak penuh terhadap saldo rekening, sementara Member dapat menambah dana, melihat saldo dan mutasi transaksi. Layanan ini juga menawarkan suku bunga 3% p.a. dan dapat digunakan untuk berbagai keperluan seperti patungan, arisan, uang kas bersama, dan lain sebagainya.'}

In [17]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('bluGether adalah layanan yang memungkinkan pengguna untuk membuka rekening '
 'bersama dengan teman-teman atau keluarga. Dalam bluGether, terdapat dua '
 'peran utama, yaitu Creator (pembuat rekening) dan Member (anggota rekening). '
 'Creator memiliki hak penuh terhadap saldo rekening, sementara Member dapat '
 'menambah dana, melihat saldo dan mutasi transaksi. Layanan ini juga '
 'menawarkan suku bunga 3% p.a. dan dapat digunakan untuk berbagai keperluan '
 'seperti patungan, arisan, uang kas bersama, dan lain sebagainya.')


#### Questions 6

In [18]:
question = "Apakah blu punya fitur pinjaman?"
result = qa({"query": question })
result

{'query': 'Apakah blu punya fitur pinjaman?',
 'result': 'Ya, blu memiliki fitur pinjaman yang disebut bluExtraCash. Dengan fitur ini, kamu bisa mengajukan pinjaman tanpa agunan untuk berbagai kebutuhan. Proses kreditnya cepat, bunga pinjamannya kompetitif, dan nominal serta tenor pinjaman bisa disesuaikan dengan domisili tempat tinggalmu.'}

In [19]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Ya, blu memiliki fitur pinjaman yang disebut bluExtraCash. Dengan fitur ini, '
 'kamu bisa mengajukan pinjaman tanpa agunan untuk berbagai kebutuhan. Proses '
 'kreditnya cepat, bunga pinjamannya kompetitif, dan nominal serta tenor '
 'pinjaman bisa disesuaikan dengan domisili tempat tinggalmu.')


#### Questions 7

In [20]:
question = "Bagaimana membuka rekening blu?"
result = qa({"query": question })
result

{'query': 'Bagaimana membuka rekening blu?',
 'result': 'Caranya gampang, Kamu tinggal pilih blu pada halaman tambah Bank. Lalu tinggal ikuti saja proses pembukaan rekeningnya. Setelah selesai verifikasi dengan agen haloblu, kamu akan diberikan tawaran untuk memilih nomor cantik (berbayar) atau menggunakan nomor rekening yang blu pilihkan (gratis). Jika kamu memilih nomor rekening cantik, setelah memilih nomor yang kamu inginkan lakukan pembayaran. Setelah pembayaran selesai dilakukan, nomor rekening kamu akan otomatis terbuat dan sudah dapat langsung dipakai (sudah aktif).'}

In [21]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Caranya gampang, Kamu tinggal pilih blu pada halaman tambah Bank. Lalu '
 'tinggal ikuti saja proses pembukaan rekeningnya. Setelah selesai verifikasi '
 'dengan agen haloblu, kamu akan diberikan tawaran untuk memilih nomor cantik '
 '(berbayar) atau menggunakan nomor rekening yang blu pilihkan (gratis). Jika '
 'kamu memilih nomor rekening cantik, setelah memilih nomor yang kamu inginkan '
 'lakukan pembayaran. Setelah pembayaran selesai dilakukan, nomor rekening '
 'kamu akan otomatis terbuat dan sudah dapat langsung dipakai (sudah aktif).')


#### Questions 8

In [22]:
question = "Bagaimana jika lupa password blu?"
result = qa({"query": question })
result

{'query': 'Bagaimana jika lupa password blu?',
 'result': 'Jika kamu lupa password blu, kamu bisa mengikuti langkah-langkah berikut:\n1. Masuk ke dalam aplikasi blu.\n2. Pilih menu "Pengaturan".\n3. Klik "Lupa password".\n4. Masukkan PIN kamu.\n5. Selesaikan prosesnya sesuai petunjuk yang diberikan dalam aplikasi.'}

In [23]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Jika kamu lupa password blu, kamu bisa mengikuti langkah-langkah berikut:\n'
 '1. Masuk ke dalam aplikasi blu.\n'
 '2. Pilih menu "Pengaturan".\n'
 '3. Klik "Lupa password".\n'
 '4. Masukkan PIN kamu.\n'
 '5. Selesaikan prosesnya sesuai petunjuk yang diberikan dalam aplikasi.')


#### Questions 9

In [24]:
question = "Apa itu bluGift?"
result = qa({"query": question })
result

{'query': 'Apa itu bluGift?',
 'result': 'bluGift adalah fitur yang memungkinkan pengguna untuk mengirim uang kepada orang lain melalui link yang dikirimkan melalui WhatsApp atau SMS. Penerima link bluGift dapat mengambil uang tersebut dengan memasukkan OTP yang dikirimkan ke nomor handphone mereka. Uang yang diterima melalui bluGift dapat digunakan untuk ditransfer ke bank lain atau digunakan untuk transaksi lainnya.'}

In [25]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('bluGift adalah fitur yang memungkinkan pengguna untuk mengirim uang kepada '
 'orang lain melalui link yang dikirimkan melalui WhatsApp atau SMS. Penerima '
 'link bluGift dapat mengambil uang tersebut dengan memasukkan OTP yang '
 'dikirimkan ke nomor handphone mereka. Uang yang diterima melalui bluGift '
 'dapat digunakan untuk ditransfer ke bank lain atau digunakan untuk transaksi '
 'lainnya.')


#### Questions 10

In [26]:
question = "Dimana saya bisa setor tunai tanpa kartu?"
result = qa({"query": question })
result

{'query': 'Dimana saya bisa setor tunai tanpa kartu?',
 'result': 'Anda bisa melakukan setor tunai tanpa kartu di ATM BCA yang bisa digunakan untuk transaksi tanpa kartu di seluruh Indonesia. Caranya adalah dengan memilih menu Setor Tunai yang bisa diakses melalui shortcut di Dashboard blu, pastikan nomor bluAccount Anda benar. Lakukan otorisasi transaksi dengan memasukkan PIN, dan Anda akan mendapatkan kode transaksi dan nomor pelanggan yang berlaku selama 1 jam. Setelah itu, datang ke ATM BCA, pilih transaksi tanpa kartu, masukkan nomor pelanggan dan kode transaksi di ATM BCA, dan setor tunai berhasil dilakukan.'}

In [27]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Anda bisa melakukan setor tunai tanpa kartu di ATM BCA yang bisa digunakan '
 'untuk transaksi tanpa kartu di seluruh Indonesia. Caranya adalah dengan '
 'memilih menu Setor Tunai yang bisa diakses melalui shortcut di Dashboard '
 'blu, pastikan nomor bluAccount Anda benar. Lakukan otorisasi transaksi '
 'dengan memasukkan PIN, dan Anda akan mendapatkan kode transaksi dan nomor '
 'pelanggan yang berlaku selama 1 jam. Setelah itu, datang ke ATM BCA, pilih '
 'transaksi tanpa kartu, masukkan nomor pelanggan dan kode transaksi di ATM '
 'BCA, dan setor tunai berhasil dilakukan.')


### Non-related FAQ Questions

#### Questions 11

In [28]:
question = "Siapa CEO blu?"
result = qa({"query": question })
result

{'query': 'Siapa CEO blu?',
 'result': 'Maaf, saya tidak memiliki informasi tentang siapa CEO blu.'}

In [29]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

'Maaf, saya tidak memiliki informasi tentang siapa CEO blu.'


#### Questions 12

In [30]:
question = "Apa itu mobile legend?"
result = qa({"query": question })
result

{'query': 'Apa itu mobile legend?',
 'result': 'Mobile Legends adalah sebuah game mobile berjenis MOBA (Multiplayer Online Battle Arena) yang sangat populer. Dalam game ini, pemain akan bermain dalam tim untuk mengalahkan tim lawan dengan strategi dan kerjasama yang baik. Setiap pemain akan memilih karakter (hero) dengan kekuatan dan kemampuan yang berbeda-beda untuk membantu tim mencapai kemenangan.'}

In [31]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Mobile Legends adalah sebuah game mobile berjenis MOBA (Multiplayer Online '
 'Battle Arena) yang sangat populer. Dalam game ini, pemain akan bermain dalam '
 'tim untuk mengalahkan tim lawan dengan strategi dan kerjasama yang baik. '
 'Setiap pemain akan memilih karakter (hero) dengan kekuatan dan kemampuan '
 'yang berbeda-beda untuk membantu tim mencapai kemenangan.')


#### Questions 13

In [32]:
question = "Siapa itu Jokowi?"
result = qa({"query": question })
result

{'query': 'Siapa itu Jokowi?', 'result': 'Maaf, saya tidak tahu.'}

In [33]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

'Maaf, saya tidak tahu.'


#### Questions 14

In [34]:
question = "Kapan perang dunia 3?"
result = qa({"query": question })
result

{'query': 'Kapan perang dunia 3?',
 'result': 'Saya tidak tahu kapan Perang Dunia 3 akan terjadi.'}

In [35]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

'Saya tidak tahu kapan Perang Dunia 3 akan terjadi.'


#### Questions 15

In [36]:
question = "Berapa harga laptop ASUS ROG Zephyrus G14 2023?"
result = qa({"query": question })
result

{'query': 'Berapa harga laptop ASUS ROG Zephyrus G14 2023?',
 'result': 'Maaf, saya tidak memiliki informasi terkait harga laptop ASUS ROG Zephyrus G14 2023.'}

In [37]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Maaf, saya tidak memiliki informasi terkait harga laptop ASUS ROG Zephyrus '
 'G14 2023.')


#### Questions 16

In [38]:
question = "Apakah serial Game of Thrones endingnya bagus?"
result = qa({"query": question })
result

{'query': 'Apakah serial Game of Thrones endingnya bagus?',
 'result': 'Maaf, saya tidak memiliki informasi mengenai ending dari serial Game of Thrones.'}

In [39]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Maaf, saya tidak memiliki informasi mengenai ending dari serial Game of '
 'Thrones.')


#### Questions 17

In [40]:
question = "Siapakah artis hollywood dengan pembayaran tertinggi?"
result = qa({"query": question })
result

{'query': 'Siapakah artis hollywood dengan pembayaran tertinggi?',
 'result': 'Maaf, saya tidak memiliki informasi terkini mengenai artis Hollywood dengan pembayaran tertinggi.'}

In [41]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Maaf, saya tidak memiliki informasi terkini mengenai artis Hollywood dengan '
 'pembayaran tertinggi.')


#### Questions 18

In [42]:
question = "Bagaimana cara membuat kain batik?"
result = qa({"query": question })
result

{'query': 'Bagaimana cara membuat kain batik?',
 'result': 'Maaf, saya tidak memiliki informasi tentang cara membuat kain batik.'}

In [43]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

'Maaf, saya tidak memiliki informasi tentang cara membuat kain batik.'


#### Questions 19

In [44]:
question = "Dimana saya bisa membeli piring cantik murah?"
result = qa({"query": question })
result

{'query': 'Dimana saya bisa membeli piring cantik murah?',
 'result': 'Maaf, saya tidak memiliki informasi terkait tempat membeli piring cantik murah.'}

In [45]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Maaf, saya tidak memiliki informasi terkait tempat membeli piring cantik '
 'murah.')


#### Questions 20

In [46]:
question = "Berapa gaji data scientist?"
result = qa({"query": question })
result

{'query': 'Berapa gaji data scientist?',
 'result': 'Maaf, saya tidak memiliki informasi spesifik mengenai besaran gaji seorang data scientist. Gaji seorang data scientist dapat bervariasi tergantung pada berbagai faktor seperti pengalaman, lokasi, perusahaan, dan industri tempat mereka bekerja. Anda dapat mencari informasi lebih lanjut melalui situs web khusus pencarian pekerjaan atau sumber daya lain yang menyediakan data gaji terkini untuk profesi tersebut.'}

In [47]:
pp = pprint.PrettyPrinter(indent=5)
pp.pprint(result["result"])

('Maaf, saya tidak memiliki informasi spesifik mengenai besaran gaji seorang '
 'data scientist. Gaji seorang data scientist dapat bervariasi tergantung pada '
 'berbagai faktor seperti pengalaman, lokasi, perusahaan, dan industri tempat '
 'mereka bekerja. Anda dapat mencari informasi lebih lanjut melalui situs web '
 'khusus pencarian pekerjaan atau sumber daya lain yang menyediakan data gaji '
 'terkini untuk profesi tersebut.')


## Conclusion

1. Based on the model evaluation test, the RAG model achieved an accuracy rate of 90% for questions aligned with the FAQ and 80% for questions not aligned with the FAQ. This indicates that the model is quite effective at answering customer questions related to Blu BCA products and fairly good at responding to questions not related to Blu BCA.

2. The advantages of this model include its ability to provide good product descriptions. Additionally, the model is more cost-effective because it only uses an embedding model, where the data is converted into vectors and then input directly into a pretrained model without the need for further training.

3. The drawback of this model is that it sometimes experiences "data leakage" from the pretrained model, where the model might respond out of the expected context.

4. Recommendations for improving the RAG model's performance include:
    - Using more descriptive prompts to constrain the model's context.
    - Employing other embedding model techniques such as GPT-4 or GPT-4o.
    - Seeking more data and utilizing higher-quality data to enhance the accuracy and relevance of the answers.