# DSS May 2024: Efficient Information Extraction: Q&A and Summarization over PDF Documents using LLM

* Instruktur: [Saskia Dwi Ulfah](https://www.linkedin.com/in/saskia-dwi-ulfah/).
* Last updated: May 2024.

# Background

📕 Dokumen yang disimpan dalam format **Portable Document Format (PDF)** merupakan salah satu bentuk dokumen yang sering digunakan untuk bertukar informasi melalui internet dan perangkat digital seperti handphone, laptop, dan komputer. PDF juga dimanfaatkan di berbagai sektor. Di bidang pendidikan, mahasiswa dapat mengakses jurnal penelitian dengan format PDF melalui website seperti Elsevier dan IEEE. Di bidang finansial, perusahaan menampilkan laporan keuangan tahunan dalam format PDF pada website perusahaan.


⛳ Format PDF merupakan format yang universal. Artinya, dokumen yang disimpan dalam format PDF dapat diakses secara mudah pada perangkat yang berbeda. Selain itu, format PDF lebih disukai karena tampilan dokumen yang lebih rapi dibandingkan format dokumen lainnya. PDF juga men-support dokumen yang terdiri lebih dari satu halaman. Hal ini memungkinkan pengguna untuk menuliskan informasi yang lengkap dan komprehensif dalam sebuah dokumen PDF. Akan tetapi, hal ini membuat **dokumen PDF cenderung tebal dan kompleks** sehingga menyebabkan pembaca **kesulitan untuk menemukan informasi yang spesifik**.

💡 Dengan perkembangan teknologi artificial intelligence  (AI) dan machine learning (ML), kita dapat menggunakan **Large Language Model (LLM)** untuk pencarian informasi pada dokumen PDF. Pada workshow ini, Anda akan belajar bagaimana kita dapat memperluas kemampuan LLM untuk pencarian informasi secara efisien dari dokumen PDF. Dimulai dengan dokumen PDF biasa, Anda akan belajar cara memproses dokumen ini dan menyajikannya sebagai konteks tambahanuntuk LLM.


## Learning Outcomes

🎯 Setelah menyelesaikan workshop ini, Anda diharapkan dapat:

* Memahami konsep dasar dari LLM.
* Mengimplementasikan penggunaan LLM dengan framework LangChain.
* Memahami workflow yang digunakan dalam menyediakan additional context untuk LLM.
* Mengembangkan skill di bidang AI dan data science dengan menguasai teknik information retrieval dari dokumen PDF menggunakan LLM.

## Training Syllabus

* **Python Programming Basics** 
    - Introduction to Python for Data Science.
    - Working with Python Environment.
    - Working with Notebook.
    - Python Fundamental Data Types and Data Structures.
    - Understanding Looping Concept in Python.
    - Understanding The Creation of Python Function.
    - Understanding The Usage of Python Libraries.
* **The Fundamentals of LLM**
    - The Concept of Generative AI.
    - LLM as Generative AI.
    - Transformer Architecture in a Nutshell
    - LLM Capability, Limitation, and Consideration
* **Introduction to LangChain**
    - The Big Picture of LangChain Concept and Component
    - API Concept and Setting for LangChain Usage
    - Demonstration of LLM Usage with LangChain
* **Case Study: Q&A and Summarization for PDF Document**
    - The Concept of RAG (Retrieval Augmented Generation)
    - Loading PDF Documents using LangChain
    - The Concept of Embedding for PDF Documents
    - Storing The Embedding using a Vector Database
    - Prompt Creation for Q&A and Summarization Cases
    - Employing LLM for Information Retrieval

# The Fundamentals of LLM

## The Concept of Generative AI

![](assets/gen_ai_hierarchy.png)

🚀 **Apa itu Generative AI?**

**Generative AI** merupakan bagian dari artificial intelligence yang bertujuan untuk **menghasilkan (generate) data**, seperti teks, gambar, video, dan musik. Untuk dapat menghasilkan data, generative AI dilatih/belajar dari data yang jumlahnya sangat besar. Proses belajar ini sering disebut training. Generative AI akan menghasilkan data berdasarkan pola yang sudah dipelari selama proses training.

🚀 **Jenis-Jenis Generative AI dan Aplikasinya**

* **Generative Text Model**
    * Input: teks.
    * Output → teks (text-to-text generator).
      * Contoh: translation, **summarization**, **question-answering**, grammar correction.
    * Output → image (text-to-image generator).
      * Contoh: image generation, video generation.
    * Output → audio (text-to-speech generator).
      * Contoh: music generation.
* **Generative Image Model**
    * Input: gambar.
    * Output: teks (image-to-text generator).
      * Contoh: image captioning, visual question-answering, image search.
    * Output: gambar (image-to-image generator).
      * Contoh: image completion.
    * Output: video (image-to-video generator).
      * Contoh: animation generation.

## LLM as Generative AI 

💬 **LLM** merupakan generative AI yang telah dilatih menggunakan data teks dalam jumlah yang sangat besar. LLM mampu untuk memahami dan menghasilkan teks dengan gaya bahasa yang mirip dengan manusia. Selain menggambarkan besarnya data yang digunakan untuk melatih LLM, istilah "large" mengacu kepada tingkat kompleksitas, ukuran, dan banyaknya parameter pada LLM.

> ℹ️ Sebagai contoh, GPT-4, varian yang paling baru dari LLM yang dirilis oleh OpenAI, memiliki 1,3 triliun parameter. Sumber data yang digunakan untuk melatih model ini meliputi buku, website, jurnal ilmiah, artikel, posting-an media sosial, dan repositori kode.

### LLM Platforms

💬 Beberapa contoh platform LLM yang cukup populer: 

* 🤖**GPT**🤖

    🤖 **Generative Pre-Trained Transformer (GPT)** merupakan large language model yang dikembangkan oleh Open AI. Sama seperti model generative AI lainnya, GPT di-training dengan data teks dalam jumlah yang besar. GPT dirancang untuk memahami dan menghasilkan teks dengan cara yang mirip dengan manusia, sehingga dapat digunakan dalam berbagai aplikasi seperti chatbot, language translation, dan content creation. Baru-baru ini, OpenAI meluncurkan varian terbaru dari GPT-4, yakni GPT-4o.

    Segmentasi produk GPT dapat dibedakan menjadi 2: chat-based platform dan Application Programming Interface (API)-based platform. Produk GPT berbasis chat dikenal sebagai [**ChatGPT**](https://chatgpt.com/). Semenjak dirilis pada November 2022 dengan versi GPT-2, saat ini ChatGPT telah merilis varian GPT yang lebih powerful: ChatGPT dengan GPT-3.5 dan ChatGPT dengan GPT-4. Untuk ChatGPT-3.5, pengguna dapat mengakses secara free. Untuk mendaptkan fitur yang lebih advanced pada ChatGPT dengan GPT-4, pengguna perlu melakukan subscription terlebih dahulu.

    Varian produk kedua adalah produk berbasis [**Application Programming Interface (API)**](https://platform.openai.com/). API memungkinkan pengguna untuk meng-embbed kemampuan GPT pada aplikasi yang dapat disesuakaikan dengan kebutuhan mereka. Penggunaan API ini sangat fleksibel karena dapat diintegrasikan dengan berbagai platform dan sistem yang sudah ada. 

* ♊**Gemini**♊

    ♊ **Gemini** merupakan model generative AI yang dikembangkan oleh Google. Gemini dilatih menggunakan data teks, gambar, suara, dan video secara bersamaan dalam jumlah yang sangat besar. Hal ini membuat Gemini mampu untuk menerima berbagai macam input. Kelebihan ini menjadikan Gemini unggul dari segi generalisasinya terhadap data baru. Saat ini, versi terbaru dari Gemini adalah Gemini 1.5. 

    Sama seperti GPT, secara umum, fitur-fitur pada Gemini dikemas dalam 2 bentuk produk. Produk yang pertama merupakan [aplikasi yang berbasis chat bernama **Gemini app (sebelumnya Bard)**](https://gemini.google.com/app). Penggunaan aplikasi ini ditujukan untuk siapa saja secara umum tanpa perlu menuliskan kode tertentu. Produk lainnya merupakan [**API**](https://ai.google.dev/gemini-api) yang dapat digunakan pada use case yang lebih custom. Penggunaan API ini lebih ditujukan untuk pengguna dengan aspek pekerjaan teknis yang lebih tinggi, seperti software developer.

* 🤗**HuggingFace**🤗

    🤗**HuggingFace** platform yang dikenal luas dalam komunitas machine learning dan AI, khususnya dalam bidang Natural Language Processing (NLP). Platform ini menyediakan model-model pre-trained yang dapat digunakan untuk berbagai task yang berkaitan dengan NLP, seperti language modeling dan sentiment analysis.

    Beberapa contoh LLM open source yang dapat diakses melalui HuggingFace:
    
    ---add the list---

### Prompt pada Language Model

Untuk menghasilkan output yang sesuai, LLM memerlukan **prompt**. Prompt dapat dianalogikan sebagai sebuah petunjuk untuk LLM. Secara eksplisit, prompt merujuk kepada instruksi atau detail yang diberikan kepada LLM terkait output seperti apa yang diharapkan. Prompt juga bisa berupa konteks atau latar belakang dari topik yang ingin diketahui.

💡 Beberapa tips awal untuk merancang sebuah prompt:

* **Buat Prompt yang Sederhana**

    Pembuatan prompt merupakan proses iteratif. Selalu mulai dengan sebuah prompt sederhana. Jika masih belum mendapatkan output yang diinginkan dari LLM, kita bisa me-refine prompt yang sudah dibuat sebelumnya.

    Hindari pembuatan prompt untuk task yang kompleks. Kita dapat mem-break down task yang kompleks tersebut menjadi subtask yang lebih kecil dan membuat prompt yang berbeda untuk masing-masing subtask.

* **Berikan Perintah yang Jelas: What to Do and What Not to Do?**

    Saat membuat sebuah prompt, pastikan prompt memiliki instruksi yang jelas. Misalnya, kita menginginkan ringkasan dari sebuah kalimat, maka prompt yang efektif mengandung instruksi untuk membuat ringkasan tersebut. Kita juga dapat mendefinisikan detail apa yang tidak perlu dimasukkan dalam ringkasan yang dihasilkan LLM.


* **Be Speficic and Detail**

    Selain memberikan perintah yang jelas, kita dapat membuat prompt menjadi lebih spesifik dan detail. Misalnya, kita dapat mendefinisikan detail seperti gaya bahasa dan panjang output yang diharapkan.

Contoh prompt:

```

Summarize the following article into approximately 150 words, highlighting the main points and key information discussed. Do not include minor details, personal opinions, or repetitive information.

```

> 🔑 Kunci prompt yang efektif: sederhana, jelas, dan spesifik.

## Transformer Architecture in a Nutshell

🤖 Arsitektur **transformer** merupakan salah satu fondasi dibalik keandalan LLM. Arsitektur ini pertama kali diperkenalkan pada paper yang berjudul [Attention is All You Need](https://arxiv.org/abs/1706.03762) oleh Vaswani dkk. pada tahun 2017. 

Kemunculan arsitektur transformer bertolak dari keterbatasan dari arsitektur yang sebelumnya sering digunakan untuk memodelkan data berupa sequence (contoh: bahasa), seperti Recurrent Neural Network (RNN) dan Long Short-Term Memory (LSTM). Keterbatasan ini di antaranya: ketidakefisienan dari segi daya komputasi dan waktu serta ketersediaan memori yang terbatas untuk sequence yang cukup panjang. Transformer mengatasi keterbatasan ini dengan fitur spesial yang disebut dengan **self-attention mechanism**. 

Secara sederhana, Transformer terdiri dari 2 komponen utama:

![](assets/transformer_simplified_3.png)


▶️ **Encoder**

**Encoder** merupakan bagian dari transformer yang bertujuan untuk memproses input sequence ke dalam representasi tertentu. Representasi ini merupakan bentuk numerik dari input sequence berikut dengan informasi urutannya. **Encoder** terdiri dari beberapa lapisan yang disebut **encoder layer**. Setiap encoder layer memiliki dua bagian utama:

- **Multi-Head Self-Attention Mechanism**

    Bagian ini membantu model untuk memperhatikan berbagai kata dalam input sekaligus, sehingga memahami hubungan antar kata yang berbeda.

- **Feed-Forward Neural Network**
    
    Setelah bagian self-attention, representasi dari input sequence diproses oleh neural network untuk memperkuat pemahaman model tentang konteks.

▶️ **Decoder**

**Decoder** merupakan bagian dari transformer yang bertujuan untuk menghasilkan output. Output ini mempertimbangkan input dari encoder. **Decoder** juga terdiri dari beberapa lapisan yang disebut **decoder layer**. Setiap decoder layer memiliki tiga bagian utama:

- **Masked Multi-Head Self-Attention Mechanism**

    Bagian ini memastikan model hanya memperhatikan kata-kata yang sudah dihasilkan sebelumnya, bukan kata yang belum dihasilkan. Ini penting untuk menjaga urutan kata yang dihasilkan.
- **Multi-Head Attention Mechanism**

    Bagian ini membantu decoder memperhatikan informasi dari encoder, sehingga output yang dihasilkan mempertimbangkan seluruh input.
- **Feed-Forward Neural Network**

    Setelah melalui kedua bagian attention, representasi dari sequence diproses oleh neural network untuk memperkuat pemahaman model tentang konteks.

Berikut merupakan ilustrasi sederhana bagaimana transformer bekerja.

![](assets/transformer_gif.gif)

## LLM Capability, Limitation, and Consideration

Saat ini, LLM banyak dipilih karena keandalan dan kemampuannya untuk memahami konteks yang rumit. Selain itu, LLM juga mampu untuk menghasilkan teks dan narasi yang hampir menyamai produk bahasa yang ditulis oleh manusia. 

Berikut ini beberapa contoh task yang dapat diaplikasikan oleh LLM.

* **Text Generation**: menghasilkan narasi dengan gaya bahasa yang hampir menyamai kemampuan manusia.
* **Translation**: menerjemahkan teks ke dalam bahasa yang berbeda secara akurat.
* **Summarization**: membuat ringkasan singkat dari teks yang panjang.
* **Question-Answering**: menjawab sebuah pertanyaan berdasarkan konteks yang diberikan.

Akan tetapi, perlu diperhatikan bahwa saat ini LLM masih menjadi topik riset yang aktif. Para peneliti masih mengembangkan metode yang lebih advanced untuk mengurangi beberapa limitasi dari LLM, seperti:

* **Misleading Output** 
    
    Sebagai produk AI yang sangat powerful, output yang dihasilkan oleh LLM dapat terlihat sangat meyakinkan. Akan tetapi, sebagai pengguna, kita perlu bijak dalam mengonsumsi konten yang dibuat oleh AI. Secara aktif, kita perlu melakukan verifikasi fakta melalui sumber-sumber yang kredibel.

* **Technical Limitation**

    Di balik kapabilitas LLM dalam task yang melibatkan natural language, masih terdapat concern terkait limitasi teknis. Terdapat situasi di mana AI tidak dapat memahami konteks secara mendalam atau menghasilkan respons yang sesuai dengan harapan pengguna. Selain itu, LLM memerlukan sumber daya komputasi yang sangat tinggi untuk berfungsi secara optimal, yang dapat menjadi hambatan bagi pengguna dengan keterbatasan infrastruktur teknologi.

* **Laws and Rights-Related Issue**

    Sebagai teknologi yang terus berkembang, penggunaan LLM juga dihadapkan pada isu-isu hukum dan hak. Misalnya, hak cipta, privasi, dan perlindungan data adalah aspek-aspek penting yang perlu dipertimbangkan saat menggunakan AI. 
    
    Pengguna harus memastikan bahwa mereka mematuhi semua regulasi yang relevan dan menghormati hak-hak individu dan entitas lain dalam penggunaan dan penyebaran konten yang dihasilkan oleh AI.

Mempertimbangkan kelebihan dan limitasi yang ada, sebagai end-user, kita perlu cermat, selektif, dan aware dalam mempergunakan LLM. Kemampuan LLM yang powerful akan semakin maksimal selama dibersamai dengan konsiderasi berikut:

* **Tidak Menganggap Output LLM sebagai Final Result** 
    
    Output dari LLM tidak dijadikan sebagai hasil akhir, melainkan hanya sebagai pendukung tersier. Kita perlu tetap melakukan verifikasi dan cross-check dengan sumber lain yang terpercaya untuk memastikan akurasi dan relevansi informasi.

* **Keputusan Kompleks dan Terkait Makhluk Hidup**
    
    Keputusan yang diambil dari output LLM tidak digunakan dalam pertimbangan yang kompleks dan menyangkut keperluan yang berkaitan dengan makhluk hidup, seperti keputusan medis, hukum, atau keuangan, tanpa konsultasi dengan ahli yang kompeten di bidang tersebut.

* **Evaluasi Kritis dan Penyesuaian Konteks**
    
    Selalu melakukan evaluasi kritis terhadap output yang dihasilkan oleh LLM, termasuk memahami konteks dan bias yang mungkin ada dalam data pelatihannya. Penyesuaian dan interpretasi yang bijak diperlukan untuk memastikan bahwa informasi tersebut sesuai dengan konteks yang dibutuhkan.

* **Keamanan dan Privasi Data**

    Memperhatikan aspek keamanan dan privasi data saat menggunakan LLM. Jangan memasukkan informasi pribadi atau sensitif yang dapat disalahgunakan, dan pastikan bahwa penggunaan LLM mematuhi kebijakan privasi dan regulasi yang berlaku.

> 📌 More info: [Responsible AI](https://ai.google/responsibility/responsible-ai-practices/)

# Introduction to LangChain🦜🔗

## LangChain Concept and Component

🦜🔗**LangChain** merupakan sebuah framework yang dapat digunakan untuk membuat aplikasi berbasis LLM. Dengan LangChain, pengguna dapat mengakses berbagai jenis LLM yang disediakan oleh provider seperti OpenAI, Google, dan HuggingFace. Selain itu, framework ini juga memungkinkan kita untuk membuat aplikasi custom dengan memanfaatkan kemampuan LLM. Fitur- fitur ini menjadikan LangChain sebagai package yang cukup powerful. 

> 📌[LangChain Official Documentation](https://python.langchain.com/v0.1/docs/get_started/introduction)

💡 Seperti namanya, ide dasar dari LangChain adalah men-chaining beberapa komponen menjadi satu kesatuan untuk menjalankan fungsi tertentu. Dengan menggabungkan berbagai komponen ini, kita bisa membuat alur kerja yang kompleks dan dinamis.

Secara umum, berikut adalah pengelompokan komponen LangChain berdasarkan fungsinya.

1️⃣ **Model I/O**

* Mengatur input dan output dari sebuah LLM.
* Komponen:
    * **Prompt**: memberikan instruksi terkait output seperti apa yang harus dihasilkan.
    * **LLM dan Chat Model**: memberikan output berdasarkan prompt.

2️⃣ **Retrievers**

* Mengambil data yang relevan untuk digunakan dalam LLM (biasanya melibatkan dokumen eksternal).
* Komponen:
    * **Document Loader**: untuk memuat dokumen eksternal.
    * **Text Splitter**: untuk pemrosesan dokumen.
    * **Embedding Model**: untuk merepresentasikan dokumen dalam bentuk numerik (embedding).
    * **Vectorstore**: untuk menyimpan embedding
    * **Retrievers**: mencari dan mengembalikan data yang paling relevan dari vectorstores berdasarkan query pengguna.

3️⃣ **Composition**

* Gabungan dari komponen basic di atas.
* Komponen: tools, agents, chains.

4️⃣ **Additional**

* Komponen: memory, callback.

## API Concept and Setting for LangChain Usage

![](assets/api_analogy.png)

Provider LLM seperti OpenAI dan Google menyediakan fungsionalitas LLM mereka dalam bentuk **Application Programming Interface (API)**. API merupakan sebuah protokol atau program yang memungkinkan beberapa komputer untuk saling berkomunikasi.

> 💡 Apabila dianalogikan, API merupakan pelayan di sebuah restoran. Kita sebagai pelanggan memesan makanan melalui pelayan. Selanjutnya, pelayan akan menyampaikan pesanan kita kepada chef (provider LLM) di dapur dan chef akan membuatkan pesanan tersebut. Pesanan yang sudah jadi akan diantarkan kembali melalui pelayan.

Untuk dapat berinteraksi dengan API dari provider LLM, kita memerlukan sebuah **API key** (ID untuk pemesanan). API key ini digunakan setiap kali kita berinteraksi dengan LLM yang disediakan oleh provider. Pada workshop ini, kita akan menggunakan **Gemini sebagai LLM**.

> 🔑 Find your [Gemini API key here](https://ai.google.dev/gemini-api)

Karena API key bersifat rahasia, API key jarang dimasukkan langsung ke dalam kode program. Salah satu cara terbaik untuk memuat API key secara otomatis adalah dengan membuat file `.env` dan menggunakan fungsi `load_dotenv()` dari package `dotenv` untuk memanggil file tersebut. 

Berikut adalah contoh isi dari file `.env`.

```
OPENAI_API_KEY = "your_OPENAI_API_key"
GOOGLE_API_KEY = "your_GOOGLE_API_key"
HUGGINGFACEHUB_API_TOKEN = "your_HuggingFace_API_key"
```

In [1]:
# untuk meng-import fungsi load_dotenv() dari package dotenv
from dotenv import load_dotenv

In [2]:
# load file .env secara otomatis
load_dotenv()

True

## Demonstration of LLM Usage with LangChain

Sejauh ini, kita sudah mengetahui beberapa dasar terkait LLM, konsep dasar LangChain, dan komponen dari LangChain. Selanjutnya, mari kita lihat bagaimana implementasi sederhana penggunaan LLM dengan LangChain!

### Experiment 1: Your First Call to Gemini ♊

Pada percobaan pertama ini, kita akan:

* Membuat objek LLM.
* Mencoba beberapa varian Gemini yang tersedia.
* Menanyakan pertanyaan dengan method `.invoke()`.

In [3]:
from langchain_google_genai import GoogleGenerativeAI

  from .autonotebook import tqdm as notebook_tqdm


In [4]:
# membuat objek LLM dengan beberapa varian yang ada
bison = GoogleGenerativeAI(model="models/text-bison-001")
gemini_10_pro = GoogleGenerativeAI(model="models/gemini-pro") # also refer to gemini-1.0-pro
gemini_15_pro = GoogleGenerativeAI(model="models/gemini-1.5-pro-latest") # beware of 2 RPM limit
# gemini_15_flash = GoogleGenerativeAI(model="gemini-1.5-flash") --> still not supported

In [5]:
bison.invoke('Who is the president of Indonesia?')

'Joko Widodo'

In [6]:
gemini_10_pro.invoke('Who is the president of Indonesia?')

'Joko Widodo'

In [7]:
gemini_15_pro.invoke('Who is the president of Indonesia?')

'The president of Indonesia is **Joko Widodo**, often referred to as **Jokowi**. \n'

### Experiment 2: Add Prompt to Boost Gemini's Response 🚀

Pada percobaan kedua ini, kita akan menambahkan prompt untuk membuat implementasi yang lebih dinamis dan custom.

In [8]:
from langchain_core.prompts import PromptTemplate

Pertama, kita akan membuat sebuah template untuk menerjemahkan sebuah kalimat ke dalam bahasa Inggris dengan gaya bahasa yang informal.

In [9]:
prompt = PromptTemplate(template = '''
                        Translate the following sentence into informal English:
                        {sentence}
                        ''',
                        input_variables = ["sentence"]
)

Selanjutnya, kita menggunakan operator `|` untuk membuat sebuah chain. Chain tersebut terbentuk dari komponen prompt dan LLM.

In [10]:
llm_chain =  prompt | gemini_10_pro

Terakhir, kita akan mencoba untuk memberikan sebuah pertanyaan melalui method `.invoke()`.

In [11]:
llm_chain.invoke({
    'sentence' : 'Saya akan kembali 10 menit lagi'
})

"I'll be back in 10"

### Experiment 3: Prompt + Gemini via `LLMChain()` ⛓️

Pada percobaan sebelumnya, kita menggunakan dictionary `{ }` pada method `.invoke()` untuk memberikan pertanyaan kepada LLM. Pendekatan tersebut masih kurang fleksibel di mana pengguna masih perlu secara manual mendefinisikan dictionary yang berisi pertanyaan.

Pada eksperimen ketiga ini, kita akan mengenal `LLMChain()`. `LLMChain()` memudahkan kita untuk bertanya dengan LLM dengan hanya mendifinisikan:

* LLM apa yang akan digunakan.
* Prompt seperti apa yang diinginkan.

In [12]:
from langchain.chains import LLMChain

In [13]:
llm_chain = LLMChain(llm = gemini_10_pro,
                     prompt = prompt)

  warn_deprecated(


Dengan kode di atas, kita tidak perlu mendefinisikan pertanyaan dengan dictionary `{ }`.

In [14]:
llm_chain.invoke('Di mana terakhir kali kita bertemu?')

{'sentence': 'Di mana terakhir kali kita bertemu?',
 'text': 'Where was the last time we bumped into each other?'}

# Case Study: Q&A and Summarization for PDF Document

## Q&A

### Retrieval Augmented Generation

🤔 Coba tanyakan pertanyaan berikut kepada LLM!

In [15]:
bison.invoke('Who is the winner of presidential election in Indonesia for 2024-2029?')

'Joko Widodo'

In [16]:
gemini_10_pro.invoke('Siapa pemenang Pemilu 2024 di Indonesia?')

'Pemilu 2024 di Indonesia belum dilaksanakan, sehingga pemenangnya belum diketahui.'

In [17]:
gemini_15_pro.invoke('Siapa pemenang Pemilu 2024 di Indonesia?')

'Maaf, aku tidak bisa memprediksi masa depan, termasuk hasil Pemilu 2024 di Indonesia. Pemilihan masih beberapa tahun lagi, dan banyak faktor yang dapat memengaruhi hasilnya. \n\nSemoga informasi ini membantu! \n'

Meskipun memiliki kemampuan yang powerful untuk mengerjakan task yang berkaitan dengan bahasa, LLM memiliki **knowledge cutoff**. Knowledge cutoff merupakan batas pengetahuan yang dimiliki oleh LLM karena resource untuk men-training LLM berhenti pada titik waktu tertentu. 

> ℹ️ Untuk Gemini, knowledge cutoff-nya adalah awal 2023.

Dengan demikian, pengetahuan LLM tentang peristiwa dan informasi setelah knowledge cutoff tersebut mungkin terbatas atau tidak ada sama sekali.

Untuk mengatasi permasalahan tersebut, kita dapat menggunakan **Retrieval Augmented Generation** (RAG). RAG bekerja dengan cara menyediakan konteks tambahan untuk LLM, seperti dokumen, website, dan database. Dengan RAG, LLM dapat mengakses dan memproses data terbaru, sehingga dapat memberikan jawaban yang lebih akurat dan terkini. Selain itu, pendekatan ini juga memudahkan kita untuk memanfaatkan LLM pada resource dan use case yang lebih spesifik.

Pada workshop ini, kita akan mencoba untuk **menggunakan dokumen PDF sebagai konteks tambahan untuk LLM**. Dokumen ini merupakan sebuah paper yang berjudul [A Survey of Large Language Models](https://arxiv.org/pdf/2303.18223) dengan tebal 124 halaman. Paper ini menyediakan review yang komprehensif terkait LLM. Paper yang sama juga dapat Anda temui pada folder `data_input` dengan nama file `llm_survey.pdf`.

Selanjutnya, kita akan **membuat chain** dengan LangChain yang memungkinkan kita untuk **bertanya seputar konten paper tersebut**.

### Workflow

Untuk membuat sebuah implementasi Q&A dokumen PDF menggunakan LangChain, kita akan mengikuti workflow berikut ini.

![](assets/rag_workflow.png)

#### PDF Loading

Pertama, kita perlu memuat dokumen yang menjadi konteks tambahan bagi LLM. Dalam hal ini, kita menggunakan `PyPDFLoader()` untuk memuat dokumen PDF. Selain PDF, LangChain menyediakan fungsionalitas untuk memuat dokumen dengan ekstensi lain, seperti CSV dan JSON.

> 📌 [LangChain Document Loaders](https://python.langchain.com/v0.1/docs/modules/data_connection/document_loaders/)

In [18]:
# untuk loading file PDF
from langchain_community.document_loaders import PyPDFLoader

In [19]:
pdf_loader = PyPDFLoader('data_input/llm_survey.pdf',
                         extract_images = True)
pdf_data = pdf_loader.load()

Dengan kode di atas, dokumen PDF akan di-load sebagai list.

In [20]:
type(pdf_data)

list

List ini akan memiliki elemen sebanyak halaman dokumen PDF. 

In [21]:
len(pdf_data)

124

Setiap elemen pada list berisikan konten pada halaman tertentu. Misalnya, kita ingin melihat konten pada halaman ke-5 (indeks ke-4).

In [22]:
print(pdf_data[4].page_content)

5
given an increase in compute budget, the KM scaling law
favors a larger budget allocation in model size than the data
size, while the Chinchilla scaling law argues that the two
sizes should be increased in equal scales, i.e.,having similar
values for aandbin Equation (3).
Discussion on Scaling Laws . After introducing the formu-
lations, we continue to discuss scaling law in the following
two aspects, to enhance its understanding:
•Predictable scaling . In practice, scaling law can be used
to instruct the training of LLMs, and it has been proven
feasible to reliably estimate the performance of larger mod-
els based on that of smaller models, called predictable scal-
ing [46]. The benefits of predictable scaling for training
LLMs are mainly twofold. Firstly, for large models, it is
infeasible to rigorously examine various training tricks or
variants, and it would be very helpful if experiences gained
from small models could also apply to large models. For
instance, small proxy models 

#### Splitting

Selanjutnya, kita akan melakukan proses splitting. Proses ini bertujuan untuk membuat chunk yang lebih kecil dari konten yang sudah diekstrak sebelumnya. Chunk-chunk yang lebih kecil akan lebih mudah di-maintain, disimpan, dan diproses oleh LLM.

In [23]:
# untuk split konten file PDF menjadi chunk yang lebih kecil
from langchain.text_splitter import RecursiveCharacterTextSplitter

Pada proses splitting ini, kita menggunakan `RecursiveCharacterTextSplitter()`. Dengan `RecursiveCharacterTextSplitter()`, proses splitting dilakukan dengan tetap menjaga bagian-bagian teks yang terkait tetap berdekatan satu sama lain. Merujuk pada [dokumentasi LangChain](https://python.langchain.com/v0.1/docs/modules/data_connection/document_transformers/), teknik splitting dengan `RecursiveCharacterTextSplitter()` adalah teknik yang direkomendasikan untuk mulai melakukan splitting dari sebuah teks yang cukup besar.

> 📌 [LangChain Text Splitters](https://python.langchain.com/v0.1/docs/modules/data_connection/document_transformers/)

Pada kode di bawah ini, kita mendefinisikan output dari proses splitting:

* Setiap chunk akan memiliki maksimal sebanyak 1000 karakter.
* Antara satu chunk dengan chunk yang lain memiliki kesamaan sebanyak 450 karakter. Hal ini didefinisikan untuk mempertahankan konteks antara satu chunk dengan chunk yang lain. 
* Proses splitting dilakukan berdasarkan daftar karakter yang kita definisikan pada parameter `separators`.

Selanjutnya, kita memasukkan list `pdf_data` sebagai input untuk method `.split_documents()`. Method ini akan membuat chunk yang lebih kecil dari `pdf_data`.

In [24]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 1000, 
    chunk_overlap = 450,
    separators=[
                "\n\n",
                "\n",
                " ",
                ".",
                ",",
                "\u200b",  # zero-width space
                "\uff0c",  # full-width comma
                "\u3001",  # ideographic comma
                "\uff0e",  # full-width full stop
                "\u3002",  # ideographic full stop
                "",
            ])

splits = text_splitter.split_documents(pdf_data)

In [25]:
type(splits)

list

In [26]:
len(splits)

1316

Di akhir proses ini, kita mendapatkan 1316 chunk hasil splitting dari 124 elemen pada `pdf_data`.

#### Embedding and Storing

Di balik layar, operasi pada komputer merupakan operasi yang melibatkan angka. Agar teks yang kita miliki dapat dimengerti oleh komputer, kita perlu membuat representasi numerik dari teks tersebut. Proses ini dibut dengan **embedding**.

LangChain menyediakan banyak pilihan embedding, tergantung dari LLM yang akan kita gunakan:
* `GoogleGenerativeEmbeddings()` untuk model LLM yang dikembangkan oleh Google.
* `OpenAIEmbeddings()` untuk model LLM dari OpenAI.
* `HuggingFaceEmbeddings()` untuk model LLM dari HuggingFace.

> 📌 [LangChain Embedding Models](https://python.langchain.com/v0.1/docs/modules/data_connection/text_embedding/)

Representasi numerik dari teks ini selanjutnya disimpan di dalam **vector database**. 
> ✨ Sederhananya, kita menyimpan konten file PDF di database dalam bentuk angka.

Vector database yang akan kita gunakan adalah **Chroma**. Chroma merupakan vector database yang cukup powerful untuk menyimpan unstructured data, seperti konten pada file PDF. Chroma juga dilengkapi dengan algoritma yang efisien dan akurat untuk pencarian informasi dari embedding yang disimpan. Selain itu, Chroma juga memungkinkan kita untuk menyimpan objek database sehingga dapat digunakan kembali untuk keperluan yang akan datang.

> 📌 [LangChain Vector Stores](https://python.langchain.com/v0.1/docs/modules/data_connection/vectorstores/)

In [27]:
# untuk membuat embedding
from langchain_google_genai import GoogleGenerativeAIEmbeddings # embedding Google Generative AI

# untuk menyimpan embedding
from langchain_community.vectorstores import Chroma

Pada kode dibawah ini, kita mendefinisikan sebuah fungsi untuk:

* Mengubah dokumen menjadi embedding. 
* Menyimpan hasil embedding ke dalam Chroma.
* Menyimpan file database ke suatu folder agar dapat digunakan kembali.

Penjelasan parameter:

* `documents `: dokumen yang akan diubah menjadi embedding.
* `embbeding`: fungsi yang digunakan untuk membuat embedding, misalnya `GoogleGenerativeAIEmbeddings()` jika menggunakan Gemini sebagai LLM.
* `persist_directory`: folder untuk menyimpan vector database.

In [28]:
def create_vectorstore_folder(documents, embedding, persist_directory):
    vectorstore = Chroma.from_documents(
        documents = documents, 
        embedding = embedding,
        persist_directory = persist_directory
    )

    return vectorstore

In [29]:
# hanya perlu dijalankan pada saat pertama kali membuat embedding

# vectorstore_gemini = create_vectorstore_folder(
#     documents = splits,
#     embedding = GoogleGenerativeAIEmbeddings(model="models/embedding-001"),
#     persist_directory = 'data_input/chroma_gemini'
# )

# time spent: 40.8s

Proses mengubah dokumen menjadi embedding dan menyimpannya ke dalam database dapat berjalan lama karena dapat dipengaruhi oleh berbagai faktor, mulai dari besarnya dokumen sampai dengan koneksi internet. Oleh karena itu, pada workshop ini, proses pembuatan vector database sudah dilakukan terlebih dahulu. Penyimpanan vector database ini terdapat pada folder `data_input`. 

Untuk me-load kembali vector database dari folder yang sudah ada, Anda dapat menjalankan kode di bawah ini.

In [30]:
# memanggil embedding dari directory yang sudah disimpan
vec_gemini = Chroma(persist_directory = 'data_input/chroma_gemini',
                    embedding_function = GoogleGenerativeAIEmbeddings(model="models/embedding-001"))

#### Retrieving

Kita telah membuat sebuah vector database yang menjadi sumber bagi LLM untuk mencari informasi. Selanjutnya, kita akan membuat sebuah chain yang memungkinkan kita untuk bertanya kepada LLM. LLM akan memberikan jawaban berdasarkan informasi yang terdapat pada vector database.

> 🤨 **Bagaimanaca LLM memberikan jawaban yang sesuai?** Pada saat kita memberikan pertanyaan (query) kepada LLM, pertanyaan tersebut akan diubah menjadi representasi numerik (vector). Representasi numerik ini akan digunakan untuk mencari jawaban yang sesuai berdasarkan informasi pada vector database. Proses ini melibatkan perhitungan vector similarity antara vector query dan vector informasi yang terdapat dalam vector database. Informasi dengan tingkat similarity yang tinggi akan di-return sebagai jawaban.

![](assets/rag_workflow2.png)

In [31]:
# LLM
from langchain_google_genai import ChatGoogleGenerativeAI

# untuk mempersiapkan prompt
from langchain_core.prompts import PromptTemplate
# untuk memasukkan pertanyaan
from langchain_core.runnables import RunnablePassthrough
# untuk menampilkan output yang diinginkan
from langchain_core.output_parsers import StrOutputParser

# untuk menampilkan output secara rapi
import textwrap

In [32]:
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

In [33]:
template = """
    You are the great assistant in understanding additional context

    Use the following pieces of context to answer the question at the end.
    Use the minimum of three sentences to answer the question. 
    Try your best to answer as complete as possible with easy style of English.
    Always say "thanks for asking!" at the end of the answer.

    {context}

    Question: {question}

    Helpful Answer:"""

custom_rag_prompt = PromptTemplate.from_template(template)

In [34]:
def create_chain(retriever, llm):

    rag_chain = (
        {"context": retriever | format_docs, "question": RunnablePassthrough()}
        | custom_rag_prompt
        | llm
        | StrOutputParser()
    )

    return rag_chain

Pada kode di atas, kita membuat sebuah fungsi untuk membuat chain untuk Q&A. Chain untuk Q&A di atas terdiri atas beberapa komponen:

*  `custom_rag_prompt` yang merupakan prompt untuk mengarahkan output dari LLM.
* `llm` yang akan berinteraksi dengan pengguna.
* `StrOutputParser()` yang akan menangkap output dari LLM.

Perhatikan pada saat kita mendefinisikan template prompt, terdapat 2 placeholder: `{context}` dan `{question}`.

* Value untuk `{context}` berasal dari vector database.
* Value untuk `{question}` berasal dari pertanyaan pengguna pada saat menjalankan chain.

In [35]:
gemini_chain = create_chain(
    retriever = vec_gemini.as_retriever(),
    llm = ChatGoogleGenerativeAI(model = 'gemini-pro')
)

Sekarang, kita sudah membuat chain untuk Q&A. Mari kita tes chain tersebut dengan memberi beberapa pertanyaan!

In [36]:
print(
    textwrap.fill(
        gemini_chain.invoke('Describe about llaMa model family'), 
        width=90
    )
)

The LLaMA model family consists of a variety of popular models, including LLaVA,
MiniGPT-4, InstructBLIP, and PandaGPT. The release of LLaMA has greatly advanced the
research progress of LLMs. Many multimodal models incorporate LLaMA models as the base
language models to achieve strong language understanding and generation abilities. Vicuna
is a popular LLaMA variant that is often used in multimodal models. Thanks for asking!


In [37]:
print(
    textwrap.fill(
        gemini_chain.invoke('How is the technical evolution of GPT-series model?'), 
        width=90
    )
)

GPT-1 was released in 2018 and was trained with a hybrid approach of unsupervised
pretraining and supervised fine-tuning. It established the core architecture for the GPT-
series models and the underlying principle to model natural language text, predicting the
next word. GPT-2 increased the parameter scale to 1.5B and was trained with a large
webpage dataset WebText. It sought to perform tasks via unsupervised language modeling,
without explicit fine-tuning using labeled data and introduced a probabilistic form for
multi-task solving.  Thanks for asking!


## Summarization

# Additional

## Q&A dengan Model AI Lainnya

### 🤖 OpenAI

In [38]:
# embedding OpenAI
from langchain_openai import OpenAIEmbeddings 
# LLM
from langchain_openai import ChatOpenAI

In [39]:
# hanya perlu dijalankan pada saat pertama kali membuat embedding

# vectorstore_open_ai = create_vectorstore_folder(
#     documents = splits,
#     embedding = OpenAIEmbeddings(model="text-embedding-3-large"),
#     persist_directory = 'data_input/chroma_open_ai'
# )

# time spent: 48s

In [40]:
# memanggil embedding dari directory yang sudah disimpan

vec_openai = Chroma(persist_directory = 'data_input/chroma_open_ai',
                    embedding_function = OpenAIEmbeddings(model="text-embedding-3-large"))

In [41]:
# membuat custom chain untuk Q&A dengan LLM OpenAI

openai_chain = create_chain(
    retriever = vec_openai.as_retriever(),
    llm = ChatOpenAI(model = 'gpt-3.5-turbo')
)

In [42]:
# Q&A implementation

print(
    textwrap.fill(
        openai_chain.invoke('Describe about llaMa model family'), 
        width=90
    )
)

The LLaMA model family was introduced by Meta AI in February 2023, consisting of four
sizes: 7B, 13B, 30B, and 65B. These models have garnered significant attention from both
research and industry communities due to their exceptional performance on various
benchmarks. Many researchers have extended the LLaMA models through instruction tuning or
continual pretraining, making them popular for developing customized models with
relatively low computational costs. Thanks for asking!


In [43]:
print(
    textwrap.fill(
        openai_chain.invoke('How is the technical evolution of GPT-series model?'), 
        width=90
    )
)

The technical evolution of the GPT-series models has been marked by significant
advancements in model size, capabilities, and architecture. Starting from GPT-1 with a
decoder-only architecture for generative pre-training, the series progressed to GPT-2 with
increased parameter scale and unsupervised language modeling. Subsequent models like GPT-3
introduced concepts like in-context learning and scaled model parameters to 175B, leading
to improved communication with humans and enhanced reasoning abilities. The evolution
culminated in models like GPT-4 Turbo with vision and ChatGPT with multimodal abilities,
showcasing a continuous progression towards more powerful and versatile language models.
Thanks for asking!


### 🤗 HuggingFace

In [44]:
 # embedding HuggingFace 
from langchain_community.embeddings import HuggingFaceEmbeddings
# LLM
from langchain_community.llms import HuggingFaceHub
from langchain_community.chat_models.huggingface import ChatHuggingFace


In [45]:
# hanya perlu dijalankan pada saat pertama kali membuat embedding

# vectorstore_hf = create_vectorstore_folder(
#     documents = splits,
#     embedding = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2"),
#     persist_directory = 'data_input/chroma_hugging_face'
# )

# time spent: 6m 24.6s

In [46]:
vec_hf = Chroma(persist_directory = 'data_input/chroma_hugging_face',
                    embedding_function = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2"))

In [47]:
# membuat custom chain untuk Q&A dengan LLM dari HuggingFace

hf_chain = create_chain(
    retriever = vec_hf.as_retriever(),
    llm = HuggingFaceHub(
        repo_id="declare-lab/flan-alpaca-large",
        task="text-generation",
        model_kwargs={"temperature":0.3, "max_length":1000}
    )
)

  warn_deprecated(


In [48]:
print(
    textwrap.fill(
        hf_chain.invoke('Describe about llaMa model family'), 
        width=90
    )
)

The LLaMA model family is a powerful language model family that is widely used in many
applications. It is based on the LLaMA architecture, which is a supervised learning
algorithm that is trained on a large dataset of language data. It is able to generate
strong language understanding and generation abilities, compared to other variants. It is
also able to learn from user-shared conversations, which makes it suitable for multimodal
tasks.


In [49]:
print(
    textwrap.fill(
        hf_chain.invoke('How is the technical evolution of GPT-series model?'), 
        width=90
    )
)

The technical evolution of GPT-series models is a gradual process of improvement. The
model has evolved over time, with new features and improvements being added to the model.
The model has also been improved by scaling the model parameters, which has allowed for a
key capacity leap. The model has also been improved by incorporating more features and
incorporating more advanced techniques. Finally, the model has been improved by
incorporating more advanced techniques such as in-context learning and reinforcement
learning.
