# QnA System Over Structured Data using LLM

## Introduction

Latar belakang proyek ini berasal dari kebutuhan akan solusi yang lebih efisien dan efektif dalam menjawab pertanyaan yang berkaitan dengan data terstruktur. Dalam lingkungan bisnis yang semakin kompleks, akses cepat dan akurat terhadap informasi yang tersembunyi dalam data terstruktur menjadi krusial. Namun, pengolahan data semacam ini dapat menjadi rumit dan memerlukan upaya manual yang signifikan. Oleh karena itu, mengintegrasikan kecerdasan buatan, seperti Large Language Model (LLM), dengan data terstruktur dapat membawa solusi yang inovatif untuk meningkatkan efisiensi dan kualitas dalam menjawab pertanyaan-pertanyaan tersebut.

> 🔎 Tujuan utama dari proyek ini adalah mengembangkan sebuah sistem pertanyaan dan jawaban yang menggabungkan kekuatan Large Language Model (LLM) dengan informasi terstruktur dari data dalam format terstruktur, seperti file CSV atau SQL. 

Dengan memadukan potensi LLM dalam memahami bahasa alami dengan informasi terstruktur yang ada dalam dataset, proyek ini bertujuan untuk menciptakan solusi yang dapat memberikan jawaban yang lebih kontekstual dan akurat. Selain itu, proyek ini juga bermaksud untuk mengeksplorasi cara-cara mengoptimalkan interaksi antara data teks dan terstruktur, dengan harapan dapat memberikan panduan yang berguna bagi pengembangan solusi serupa di masa depan. Melalui kombinasi ini, proyek ini diharapkan mampu menyediakan alat yang bermanfaat untuk meningkatkan efisiensi, produktivitas, dan pengambilan keputusan dalam berbagai konteks bisnis yang mengandalkan analisis data terstruktur.

<img title="karate cat" src="assets/GIF_Generative-ChatGPT.gif" width = 60%>



## Theoritical Basis

### Generative AI

<img title="karate cat" src="assets/AI-GIF-Generator-min.gif" width = 60%>

<div class="alert alert-info">
    <p>
    <li>Generative AI adalah subbidang kecerdasan buatan yang berfokus pada pengembangan model yang mampu menghasilkan data baru yang sebelumnya tidak ada.</li>
    <li>Model generatif dapat menciptakan teks, gambar, suara, dan data lainnya yang serupa dengan data yang digunakan untuk melatih model.</li>
    <li>Model generative AI, seperti Large Language Models (LLM), adalah contoh utama dari jenis ini. Model-model ini dilatih pada jumlah besar data dan dapat menghasilkan teks, gambar, suara, dan bahkan video yang seolah-olah dibuat oleh manusia.</li>
    <hr><br>
    📌 <b>Pada intinya, generative AI memiliki kemampuan untuk "mengerti" pola dan struktur dari data pelatihan dan menggunakan pemahaman ini untuk membuat data baru yang serupa. </b>
    </p>
</div> 

Konsep generative AI memainkan peran sentral dalam proyek ini yang berfokus pada pengembangan sistem Pertanyaan dan Jawaban (QA) berbasis Large Language Model (LLM) menggunakan data terstruktur. 

> 🔎 Generative AI merupakan paradigma yang memungkinkan penciptaan data baru yang otentik, dengan model yang mampu menghasilkan informasi yang sebelumnya tidak ada berdasarkan pemahaman pola dari data pelatihan. 

Dalam konteks proyek ini, generative AI membuka pintu untuk **menghasilkan jawaban yang kontekstual** dan relevan dalam sistem QA. Dengan memanfaatkan Large Language Model, yang pada dasarnya merupakan jenis generative AI, sistem ini dapat menghasilkan jawaban berdasarkan pemahaman bahasa alami serta informasi terstruktur yang ditemukan dalam data yang disajikan dalam format terstruktur. Integrasi generative AI dalam solusi QA ini mampu menghasilkan respons yang lebih kreatif dan kontekstual, serta memberikan solusi yang potensial dalam meningkatkan efektivitas komunikasi dan analisis dalam berbagai konteks bisnis.

### Large Language Models

LLM adalah aplikasi khusus dari Generative AI yang difokuskan pada generasi teks. Mereka menggunakan teknik generatif AI, seperti pemodelan probabilitas dan prediksi urutan, untuk menghasilkan teks yang menyerupai manusia. Dengan memodelkan sifat statistik bahasa, LLM dapat menghasilkan teks yang kohesif, relevan, dan sering kali sulit dibedakan dari teks yang ditulis oleh manusia.

Istilah "Large" dalam konteks Large Language Models (LLM) merujuk pada dua aspek:

**1. Dataset pelatihan besar**

 - LLM umumnya dilatih pada jumlah besar data teks untuk menangkap pola dan struktur statistik yang ada dalam bahasa.
 - Dataset pelatihan dapat terdiri dari berbagai sumber seperti buku, artikel, situs web, dan korpus teks lainnya, yang memberikan beragam pola dan konteks linguistik.
 - Dengan menggunakan dataset pelatihan yang besar, LLM memiliki kesempatan untuk belajar dari sejumlah besar informasi dan meningkatkan kemampuan pemodelan bahasanya.
    
**2. Jumlah parameter besar**

 - LLM ditandai dengan jumlah parameter yang signifikan, yaitu variabel yang dapat dipelajari yang menentukan perilaku model.
 - Jumlah parameter dalam LLM dapat berkisar dari jutaan hingga miliaran, tergantung pada ukuran dan kompleksitas model.
 - Meningkatkan jumlah parameter memungkinkan LLM untuk menangkap pola bahasa yang lebih rumit dan menghasilkan teks yang lebih kohesif dan kontekstual.
 - Model dengan jumlah parameter yang lebih besar dapat menangani berbagai tugas bahasa dan menunjukkan kemampuan generasi bahasa yang lebih unggul.


LLM adalah model canggih yang dirancang untuk berbagai tugas yang terkait dengan teks. Tugas-tugas ini meliputi:

<img title="llm problem" src="assets/llm_problem.png">

1. **Klasifikasi Teks**: LLM dapat diadaptasi untuk mengklasifikasikan teks ke dalam berbagai kategori atau label yang telah ditentukan sebelumnya. Melalui pelatihan dengan data yang telah diberi label, mereka belajar untuk mengidentifikasi pola-pola yang mengindikasikan kelas-kelas tertentu. Contohnya termasuk mengklasifikasikan email sebagai spam atau bukan, menganalisis sentimen (positif, negatif, netral) dalam teks, dan mengategorikan artikel berita berdasarkan topiknya.

2. **Pertanyaan dan Jawaban**: LLM dapat memahami pertanyaan dan memberikan jawaban yang akurat berdasarkan konteks atau basis pengetahuan yang diberikan. Melalui pelatihan dengan pasangan pertanyaan dan jawaban, mereka dapat menghasilkan respons yang relevan. Mereka digunakan dalam chatbot, asisten virtual, dan mesin pencari.

3. **Ringkasan Dokumen**: LLM mampu merangkum dokumen-dokumen panjang dengan mengidentifikasi informasi-informasi penting. Melalui pelatihan dengan pasangan dokumen dan ringkasannya, mereka belajar untuk membuat ringkasan yang koheren dan singkat. Ini berguna dalam pengambilan informasi, analisis konten, dan kompresi data.

4. **Penghasilan Teks**: LLM memiliki kemampuan untuk menghasilkan teks yang menyerupai bahasa manusia untuk berbagai tujuan. Mereka memanfaatkan pemahaman dan kemampuan generasi bahasa mereka untuk menghasilkan teks yang koheren dan sesuai konteks. Mereka dapat disesuaikan untuk membuat cerita, puisi, deskripsi produk, dan lainnya.

#### LLM Development vs. Traditional Development

| Pengembangan LLM (menggunakan API yang telah dipre-train) | Pengembangan ML Tradisional |
| ----------- | ----------- |
| Tidak memerlukan keahlian ML      | Memerlukan keahlian ML       |
| Tidak memerlukan contoh pelatihan   | Memerlukan contoh pelatihan       |
| Tidak perlu melatih model | Perlu melatih model|
| Memikirkan desain permintaan | Memikirkan cara meminimalkan fungsi kerugian|


#### LLM usage in various business contexts

**1. Customer Support and Chatbots:**
   - Showcasing a chatbot powered by an LLM that can handle customer inquiries, provide product recommendations, and assist with common support issues.
   - Demonstrating the chatbot's ability to understand and respond to user queries, maintaining a natural and conversational interaction.

**2. Content Generation and Marketing:**
   - Demonstrating how an LLM can generate engaging and personalized content for marketing campaigns, social media posts, or email newsletters.
   - Showcasing the LLM's ability to generate content that aligns with the brand's voice and resonates with the target audience.

**3. Data Analysis and Insights:**
   - Demonstrating how an LLM can analyze large volumes of customer feedback, reviews, or survey responses to extract valuable insights.
   - Showcasing the LLM's ability to identify trends, sentiments, and key topics within the data, enabling data-driven decision-making.

**4. Document Processing and Automation:**
   - Demonstrating how an LLM can automate the processing of documents, such as contract analysis, by extracting relevant information, identifying clauses, or generating summaries.
   - Showcasing the time-saving and accuracy improvements achieved through LLM-powered document automation.

**5. Language Translation and Localization:**
   - Demonstrating an LLM's ability to perform accurate language translation across multiple languages.
   - Showcasing how the LLM can handle nuances, idioms, and context-specific translations, enabling effective communication in global markets.

**6. Data-driven Decision-making:**
   - Demonstrating how an LLM can analyze market trends, customer behavior, or social media data to provide insights for strategic decision-making.
   - Showcasing the LLM's ability to identify patterns, correlations, or emerging topics within the data, facilitating informed business decisions.

<hr>

<div class="alert alert-info">
    <p>
    <b>Large Language Model (LLM)</b>
    <li>Large Language Models (LLMs) adalah model bahasa yang diperluas, seperti GPT (Generative Pre-trained Transformer) dan BERT (Bidirectional Encoder Representations from Transformers).</li>
    <li>LLMs dapat memahami dan menghasilkan teks yang kompleks dengan mempelajari pola bahasa dari data pelatihan yang besar dan beragam.</li>
    <li>Mereka menggunakan arsitektur Transformer, yang memiliki kemampuan untuk memahami konteks dalam teks dengan cara yang lebih baik dibandingkan arsitektur sebelumnya.</li>
    <hr><br>
    <b>Understanding Transformer</b>
    <li>Transformer adalah arsitektur model yang mendasari banyaknya kemajuan dalam bidang pemrosesan bahasa alami.</li>
    <li>Ini mengatasi masalah dependensi jarak jauh dalam bahasa dengan menggunakan mekanisme self-attention, yang memungkinkan model untuk mengaitkan kata-kata yang berjauhan dalam teks.</li>
    <li>Transformer terdiri dari encoder dan decoder, dengan encoder bertanggung jawab untuk memahami teks asli dan decoder menghasilkan teks hasil terjemahan atau generasi.</li>
    <hr><br>
    <b>Popular Large Language Models</b>
    <li>GPT-3 (Generative Pre-trained Transformer 3) adalah salah satu LLM paling terkenal yang dikembangkan oleh OpenAI. Ini memiliki 175 miliar parameter dan mampu melakukan berbagai tugas bahasa alami.</li>
    <li>BERT (Bidirectional Encoder Representations from Transformers) adalah LLM yang fokus pada pemahaman konteks dengan memeriksa konteks sebelum dan sesudah setiap kata dalam kalimat.</li>
    <li>T5 (Text-to-Text Transfer Transformer) adalah LLM yang mengusulkan pendekatan "teks-ke-teks" untuk berbagai tugas bahasa, seperti menerjemahkan, menyusun, dan banyak lagi.</li>
    <hr><br>
    📌 <b>Konsep LLMs adalah inti dalam proyek ini, dengan menggabungkan informasi dari data terstruktur, seperti file CSV, dengan pemahaman LLM tentang bahasa, sistem QA yang dihasilkan memberikan jawaban lebih kontekstual dan akurat.</b>
    </p>
</div> 



    <b></b>
    <li></li>
    <li></li>
    <li></li>

### Langchain

[LangChain](https://python.langchain.com/docs/get_started/introduction.html) merupakan alat yang relevan dalam konteks proyek ini yang fokus pada pengembangan sistem Pertanyaan dan Jawaban (QA) menggunakan Large Language Model (LLM) dan data terstruktur. LangChain adalah *framework* Python yang dirancang khusus untuk mengintegrasikan informasi dari data terstruktur, seperti file CSV, dengan kekuatan pemrosesan bahasa alami yang dimiliki oleh LLM. Dengan menggunakan LangChain, proyek ini memiliki kemampuan untuk menghubungkan antara konteks terstruktur dalam data dengan pemahaman bahasa alami, sehingga memungkinkan sistem QA untuk memberikan jawaban yang lebih kontekstual dan akurat. Melalui penggunaan pustaka ini, integrasi antara data terstruktur dan LLM dapat dilakukan dengan lebih efisien dan efektif, membantu menciptakan solusi QA yang lebih adaptif dan canggih.

## Environment Set-up


Penggunaan LangChain biasanya memerlukan integrasi dengan satu atau lebih penyedia model, penyimpanan data, API, dan sebagainya. Pada contoh ini, kami akan menggunakan API model dari OpenAI.

#### Mengatur Key API dan File `.env`

Akses ke API memerlukan Key API, yang dapat Anda peroleh dengan membuat akun dan mengunjungi halaman ini. Ketika mengatur Key API dan menggunakan file .env dalam proyek Python Anda, ikuti langkah umum berikut:

1. **Dapatkan Key API**: Jika Anda bekerja dengan API atau layanan eksternal yang memerlukan Key API, Anda perlu memperolehnya dari penyedia. Ini biasanya melibatkan pendaftaran akun dan pembuatan Key API khusus untuk proyek Anda.

2. **Buat file .env**: Di direktori proyek Anda, buat berkas baru dan beri nama ".env". Berkas ini akan menyimpan kunci API dan informasi sensitif lainnya secara aman.

3. **Simpan kunci API di .env**: Buka berkas .env dengan editor teks dan tambahkan baris untuk menyimpan kunci API Anda. Formatnya harus `OPENAI_API_KEY=key_api_anda`, di mana "OPENAI_API_KEY" adalah nama variabel dan "key_api_anda" adalah nilai sebenarnya dari key API Anda. Pastikan untuk tidak menyertakan tanda kutip atau spasi di sekitar nilai tersebut.

4. **Muat variabel lingkungan**: Dalam kode Python Anda, Anda perlu memuat variabel lingkungan dari berkas .env sebelum mengaksesnya. Impor modul dotenv dan tambahkan kode berikut di awal skrip Anda:

```python
from dotenv import load_dotenv

# Muat variabel lingkungan dari berkas .env
load_dotenv()
```

> `dotenv` adalah pustaka Python yang populer yang menyederhanakan proses memuat variabel lingkungan dari berkas .env ke aplikasi Python Anda. Ini memungkinkan Anda menyimpan variabel konfigurasi secara terpisah dari kode Anda, sehingga lebih mudah mengelola informasi sensitif seperti kunci API, kredensial basis data, atau pengaturan khusus lingkungan lainnya.

In [1]:
from dotenv import load_dotenv

load_dotenv()

True

In [2]:
from langchain import OpenAI

llm = OpenAI(temperature=0.9)

In [3]:
prompt = "What is a good name for a brand that makes local burger?"
print(llm.predict(prompt))



Homestead Eats.


In [4]:
print(llm.predict("Nama yang bagus untuk brand yang membuat pisang goreng mentai?"))



Mentaipang.


In [5]:
from langchain.prompts import PromptTemplate