# DSS May 2024: Efficient Information Extraction: Q&A and Summarization over PDF Documents using LLM

* Instruktur: [Saskia Dwi Ulfah](https://www.linkedin.com/in/saskia-dwi-ulfah/).
* Last updated: May 2024.

# Background

📕 Dokumen yang disimpan dalam format **Portable Document Format (PDF)** merupakan salah satu bentuk dokumen yang sering digunakan untuk bertukar informasi melalui internet dan perangkat digital seperti handphone, laptop, dan komputer. PDF juga dimanfaatkan di berbagai sektor. Di bidang pendidikan, mahasiswa dapat mengakses jurnal penelitian dengan format PDF melalui website seperti Elsevier dan IEEE. Di bidang finansial, perusahaan menampilkan laporan keuangan tahunan dalam format PDF pada website perusahaan.


⛳ Format PDF merupakan format yang universal. Artinya, dokumen yang disimpan dalam format PDF dapat diakses secara mudah pada perangkat yang berbeda. Selain itu, format PDF lebih disukai karena tampilan dokumen yang lebih rapi dibandingkan format dokumen lainnya. PDF juga men-support dokumen yang terdiri lebih dari satu halaman. Hal ini memungkinkan pengguna untuk menuliskan informasi yang lengkap dan komprehensif dalam sebuah dokumen PDF. Akan tetapi, hal ini membuat **dokumen PDF cenderung tebal dan kompleks** sehingga menyebabkan pembaca **kesulitan untuk menemukan informasi yang spesifik**.

💡 Dengan perkembangan teknologi artificial intelligence  (AI) dan machine learning (ML), kita dapat menggunakan **Large Language Model (LLM)** untuk pencarian informasi pada dokumen PDF. Pada workshow ini, Anda akan belajar bagaimana kita dapat memperluas kemampuan LLM untuk pencarian informasi secara efisien dari dokumen PDF. Dimulai dengan dokumen PDF biasa, Anda akan belajar cara memproses dokumen ini dan menyajikannya sebagai konteks tambahan untuk LLM.


## Learning Outcomes

🎯 Setelah menyelesaikan workshop ini, Anda diharapkan dapat:

* Memahami konsep dasar dari LLM.
* Mengimplementasikan penggunaan LLM dengan framework LangChain.
* Memahami workflow yang digunakan dalam menyediakan additional context untuk LLM.
* Mengembangkan skill di bidang AI dan data science dengan menguasai teknik information retrieval dari dokumen PDF menggunakan LLM.

## Training Syllabus

* **Python Programming Basics** 
    - Introduction to Python for Data Science.
    - Working with Python Environment.
    - Working with Notebook.
    - Python Fundamental Data Types and Data Structures.
    - Understanding Looping Concept in Python.
    - Understanding The Creation of Python Function.
    - Understanding The Usage of Python Libraries.
* **The Fundamentals of LLM**
    - The Concept of Generative AI.
    - LLM as Generative AI.
    - Transformer Architecture in a Nutshell
    - LLM Capability, Limitation, and Consideration
* **Introduction to LangChain**
    - The Big Picture of LangChain Concept and Component
    - API Concept and Setting for LangChain Usage
    - Demonstration of LLM Usage with LangChain
* **Case Study: Q&A and Summarization for PDF Document**
    - The Concept of RAG (Retrieval Augmented Generation)
    - Loading PDF Documents using LangChain
    - The Concept of Embedding for PDF Documents
    - Storing The Embedding using a Vector Database
    - Prompt Creation for Q&A and Summarization Cases
    - Employing LLM for Information Retrieval

**START OF DAY 1**

# Python Programming Basics

## Introduction to Python for Data Science

🐍 **Python** merupakan bahasa pemrograman yang banyak digunakan untuk data science dan artificial intelligence. Bahasa pemrograman ini dirancang oleh Guido van Rossum dan pertama kali dirilis pada tahun 1991.

Beberapa fitur yang menjadi keunggulan Python:
- Sintaks yang intuitif dan mudah dipelajari.
- Ketersediaan library dan framework yang kaya dan informatif. Beberapa library yang sering digunakan di Python.
    * Pandas: untuk mengolah data dalam bentuk dataframe.
    * Numpy: untuk proses matematika yang melibatkan matriks.
    * Matplotlib dan Seaborn: untuk visualisasi data.
    * Scikit-learn: untuk membuat model machine learning.
    * PyTorch dan Tensorflow: untuk membuat model deep learning.
    * **Langchain**: untuk membuat aplikasi berbasis LLM.

> 📌 [Python 3.10 Official Documentation](https://docs.python.org/3.10/)

## Working with Python Environment

![](assets/venv.png)

🏤 **Virtual environment** adalah environment terisolasi yang memungkinkan setiap environment memiliki instalasi dan versi package yang khusus dan berbeda. Kita bisa menggunakan virtual environment saat memiliki banyak projek di mana setiap projek membutuhkan package dengan versi yang spesifik. Dengan menggunakan virtual environment, kita bisa menjalankan berbagai macam projek pada satu device yang sama tanpa perlu khawatir akan adanya permasalahan yang timbul karena perbedaan versi package (dependency conflict).

⚙️ **Membuat Virtual Environment Baru**

1. Buka `Anaconda Prompt`. 

![](assets/anaconda_pr.png)

2. Membuat environmet baru dengan nama `dss_may2024` dengan Python versi 3.10.
   * Sintaks: `conda create -n dss_may2024 python=3.10`.
   * Tunggu hingga proses pembuatan virtual environment selesai.

![](assets/venv_making.png)

3. Aktifkan environment yang sudah dibuat.
   * Sintaks: `conda activate dss_may2024`.

![](assets/venv_activating.png)


⚙️ **Meng-install Library yang Diperlukan**

Setelah membuat virtual environment, kita akan meng-install semua library yang akan digunakan pada workshop kali ini. 

* Meng-install LangChain.
  * Sintaks: `conda install langchain -c conda-forge`.

* Selain LangChain, terdapat dependensi lain yang perlu kita install. Dependensi ini terdapat pada file  `requirements.txt`. 
  * Arahkan direktori Anda ke tempat `requirements.txt` disimpan dengan command `cd`. 
    
    Sintaks: `cd <DESTINATION DIRECTORY>`.

* Meng-install banyak library sekaligus: dengan file `requirements.txt`.
  * Sintaks: `pip install -r requirements.txt`.

* Meng-install 1 library.
  * Sintaks: `pip install <PACKAGE_NAME>`.

In [1]:
1 + 1

2

## Working with Notebook

### Markdown and Code Cell

File yang sedang kita gunakan saat ini  disebut dengan **notebook**. Notebook merupakan file Python dengan format `.ipynb` yang memungkinkan kita untuk menulis kode Python dan memberikan penjelasan secara interaktif pada cell. Terdapat 2 jenis cell pada notebook:

* **Markdown**
    * Untuk menuliskan narasi.
    * Kita bisa menulis teks **bold**, *italic*, bahkan formula matematis seperti:

    $$f(x) = \frac{e^{-x}}{(1+e^{-x})}$$

* **Code**
    * Untuk menuliskan kode Python.

Ini adalah cell markdown untuk menulis narasi.

* Kalimat yang bold: **kata**
* Kalimat yang italic: *kata*

Untuk menjalankan klik Ctrl + Enter

In [2]:
# print("Ini adalah code cell") --> tidak akan dieksekusi oleh Python
# ini adalah komen

print("Large Language Model")

Large Language Model


In [3]:
2 + 3

5

### Command and Edit Mode

Terdapat 2 mode cell dalam notebook:

1. **Command Mode**
    - `a` : menambah cell baru di atas.
    - `b` : menambah cell baru di bawah.
    - `d` + `d` : menghapus cell terpilih.
    - `c` : menyalin cell terpilih.
    - `v` : paste cell terpilih.
    - `m` : mengubah tipe cell ke markdown.
    - `y` : mengubah tipe cell ke kode.
    - `enter` : enter edit mode.


2. **Edit Mode (Cell Terdapat Border Biru Persegi Panjang)**
    - `Ctrl + Enter`: eksekusi satu cell.
    - `Esc`: mengubah edit mode menjadi command mode.

## Python Variable and Data Type

### Variable

Saat menggunakan Python, sebagian besar pekerjaan kita melibatkan penyimpanan nilai tertentu ke dalam sebuah variabel. Untuk menyimpan nilai ke sebuah variabel, kita menggunakan assignment operator (`=`). 

Sebagai contoh, kita mendefinisikan variabel `activity` untuk menyimpan nilai `"programming"`.

In [4]:
# cara mendefinisikan variabel
activity = "programming"

Penting untuk diperhatikan bahwa nama variabel dapat menyertakan angka, tetapi tidak boleh dimulai dengan angka. Memulai nama variabel dengan angka akan menimbulkan pesar error. 

Pada kode di bawah ini, kita mencoba mendefinisikan variabel `1activity`. 

Kita menggunakan simbol `#` untuk mengomentari bagian dari kode. Bagian yang dikomentari ini tidak akan dieksekusi. `#` dapat digunakan apabila kita ingin memberi penjelasan kode yang sudah dibuat. 

Untuk melihat pesan error yang muncul, hapus `#` pada baris pertama kode di bawah ini.



In [5]:
# 1activity = "playing"
# menampilkan pesan SyntaxError

### Data Type

Setiap nilai yang tersimpan dalam variabel memiliki tipe data tertentu. Terdapat tiga tipe data yang sering dijumpai di Python:

* Tipe data untuk menyimpan nilai teks: `str`.
* Tipe data untuk menyimpan nilai numerik: `int` dan `float`. 
  > Penting untuk diperhatikan bahwa tipe `float` disediakan untuk angka floating-point (berkoma).
* Tipe data untuk menyimpan nilai kebenaran: `bool`.

Untuk memverifikasi tipe sebuah variabel, kita dapat memasukkan variabel tersebut ke dalam fungsi built-in `type()`.

#### String

In [6]:
# string dengan kutip 1
str1 = 'Studying' 

In [7]:
print(str1)

Studying


In [8]:
# cek tipe data
type(str1)

str

In [9]:
# string dengan kutip 2
str2 = "Judul DSS bulan ini: 'Efficient Information Extraction: Q&A and Summarization over PDF Documents using LLM'"

In [10]:
print(str2)

Judul DSS bulan ini: 'Efficient Information Extraction: Q&A and Summarization over PDF Documents using LLM'


In [11]:
# cek tipe data
type(str2)

str

In [12]:
# string dengan kutip 3: bermanfaat untuk kata yang sangat panjang
str3 = ''' Ini adalah contoh string kutip 3. 
Kita dapat menulis kalimat dengan lebih rapi pada baris baru.
Kalimat 1 yang sangat panjang.
Kalimat 2 yang sangat panjang
'''

In [13]:
print(str3)

 Ini adalah contoh string kutip 3. 
Kita dapat menulis kalimat dengan lebih rapi pada baris baru.
Kalimat 1 yang sangat panjang.
Kalimat 2 yang sangat panjang



In [14]:
# cek tipe data
type(str3)

str

#### Number

In [15]:
b = 10 

In [16]:
# cek tipe data
type(b)

int

In [17]:
c = 10.0 

In [18]:
type(c)

float

**Operasi pada Angka** 

- `+`: penjumlahan.
- `-`: pengurangan.
- `*`: perkalian.
- `/`: pembagian.
- `//`: pembagian dengan pembulatan.
- `%`: sisa pembagian.
- `**`: eksponen.

In [19]:
# contoh operasi penjumlahan antara 15 dan 3
15 + 3

18

In [20]:
# Hands on: berapakah sisa pembagian 1099 dan 4?

1099 % 4

3

#### Boolean

In [21]:
d = True

In [22]:
# cek tipe data
type(d)

bool

Python bersifat **case-sensitive**. `"Activity"` dan `"activity"` adalah nilai yang berbeda. 

Pada kode di bawah ini, kita menggunakan operator `==` untuk membandingkan kesetaraan kedua nilai tersebut.

In [23]:
'activity' == 'Activity'

False

> Output dari kode di atas adalah `False`. Hal ini menandakan kedua nilai tersebut berbeda.

Operator perbandingan lainnya:

- `<`: lebih kecil dari (yaitu : a < b).
- `<=`: lebih kecil atau sama dengan (yaitu : a <= b).
- `>`: lebih besar dari (yaitu: a > b).
- `>=`: lebih besar atau sama dengan (yaitu: a >= b).
- `!=`: tidak sama dengan (yaitu: a != b).

In [24]:
# contoh operasi perbandingan lainnya

'activity' != 'Activity'

True

In [25]:
# Hands on: apakah variabel b dan c sebelumnya sama?
b == c

True

### Python Keywords

Beberapa hal yang perlu diperhatikan: `True` dan  `False` termasuk dalam daftar istilah yang disebut sebagai **Python keywords**. Kita tidak dapat menggunakan keywords ini sebagai nama variabel, nama fungsi, atau memberikan nilai kepada mereka (melakukan assignment).

Berikut adalah daftar keywords lainnya.

In [26]:
# cek daftar keywords
import keyword

keyword.kwlist

['False',
 'None',
 'True',
 'and',
 'as',
 'assert',
 'async',
 'await',
 'break',
 'class',
 'continue',
 'def',
 'del',
 'elif',
 'else',
 'except',
 'finally',
 'for',
 'from',
 'global',
 'if',
 'import',
 'in',
 'is',
 'lambda',
 'nonlocal',
 'not',
 'or',
 'pass',
 'raise',
 'return',
 'try',
 'while',
 'with',
 'yield']

### 🥽 Dive Deeper

1. Definisikan variabel `s` dengan nilai 5. Nilai `s` menunjukkan panjang sisi sebuah persegi.
2. Definisikan variabel `area` yang merupakan luas dari sebuah persegi (`s * s`).
3. Bandingkan nilai pada variabel area apakah sama dengan `'25'`? (`area == '25'`)

In [27]:
# code here
s = 5
area = s * s
area == '25'

False

## Python Data Structure

Sebelumnya, kita sudah melihat tipe data apa yang dapat dimiliki oleh variabel di Python. Untuk keperluan tingkat lanjut, Python memiliki beberapa **data structure** untuk menyimpan beberapa tipe data secara bersamaan. Terdapat 2 **data structure** yang sering digunakan: list dan dictionary.

### List

**List** merupakan data structure yang memungkinkan kita untuk menyimpan beberapa nilai dengan tipe data yang berbeda. Untuk membuat list, kita menggunakan kurung siku (`[ ]`). Misalnya:

In [28]:
# mendefinisikan list
list_example = ["Taylor Swift",
                34, 
                ['Shake It Off','Blank Space','Lover'],
                True]

In [29]:
# menampilkan isi list
list_example

['Taylor Swift', 34, ['Shake It Off', 'Blank Space', 'Lover'], True]

In [30]:
# cek tipe data
type(list_example)

list

Untuk mengakses nilai yang terdapat di dalam list, kita menggunakan **indeks/posisi** dari nilai tersebut.

> ℹ️ Python menerapkan **zero-indexing**. Posisi pertama memiliki indeks 0, posisi kedua memiliki indeks 1, dan seterusnya.

In [31]:
# mengakses usia Taylor Swift: indeks 1
list_example[1]

34

Jika kita ingin mengakses beberapa nilai dalam list sekaligus, kita bisa menggunakan `:`. Misalnya, kita ingin mengakses nama, usia, dan daftar lagu yang populer.

In [32]:
list_example

['Taylor Swift', 34, ['Shake It Off', 'Blank Space', 'Lover'], True]

In [33]:
list_example[0:3]

['Taylor Swift', 34, ['Shake It Off', 'Blank Space', 'Lover']]

Dengan kode di atas, kita hanya menampilkan data dengan indeks 0-2.

Cara lain untuk mengakses nilai di dalam list adalah menggunakan **back indexing**. Dengan back indexing, kita menggunakan nilai negatif untuk mengakses nilai di dalam list dari belakang. Misalnya, jika kita memasukkan indeks -1, kita akan menampilkan item terakhir dari list.

In [34]:
# item terakhir di list
list_example[-1]

True

In [35]:
# mengakses daftar lagu populer
list_example[-2]

['Shake It Off', 'Blank Space', 'Lover']

### Dictionary

Pada list, kita menggunakan indeks untuk mengakses sebuah nilai. Pada **dictionary** kita menggunakan **key** untuk mengakses sebuah nilai/**value**. Untuk membuat sebuah dictionary, kita menggunakan kurung keriting (`{ }`). Misalnya:

In [36]:
# mendefiniskan dictionary
dict_example = {
    "name" : "Taylor Swift",
    "age" : 34,
    "popular_songs" : ['Shake It Off','Blank Space','Lover']
}

In [37]:
# menampilkan isi dictionary
dict_example

{'name': 'Taylor Swift',
 'age': 34,
 'popular_songs': ['Shake It Off', 'Blank Space', 'Lover']}

In [38]:
# cek tipe data
type(dict_example)

dict

Dengan contoh di atas:

* Yang merupakan key adalah `"name"`, `"age"`, dan `"popular_songs"`.
* Yang merupakan value adalah `"Taylor Swift"`, `34`, dan `['Shake It Off', 'Blank Space', 'Lover']`.

Untuk mengakses usia Taylor Swift:

In [39]:
# mengakses usia Taylor Swift
dict_example['age']

34

In [40]:
dict_example['popular_songs']

['Shake It Off', 'Blank Space', 'Lover']

### 🥽 Dive Deeper

Misalkan terdapat list yang berisikan 2 buah dictionary seperti di bawah ini.

In [41]:
list_of_dicts = [
{
    'LLM' : 'ChatGPT',
    'Developer': 'OpenAI'
},
{
    'LLM': 'Gemini',
    'Developer': 'Google'
}]

Bagaimana cara kita mengakses nama developer Gemini?

In [42]:
# code here
# Pak Audi

dev_name = [item['Developer'] for item in list_of_dicts if item['LLM'] == 'Gemini'][0]
print(dev_name)

Google


In [43]:
list_of_dicts[1]['Developer']

'Google'

**END OF DAY 1**

**START OF DAY 2**

## Looping (`while`)

🔁 **Looping** pada Python merupakan eksekusi kode secara berulang sampai suatu kondisi terpenuhi. Salah satu sintaks untuk melakukan looping di Python adalah `while`. Contoh:

In [44]:
i = 1

while i <= 5:
    print(f"Ini adalah iterasi ke {i}")
    i += 1 # akan menambahkan i yang sekarang dengan 1


Ini adalah iterasi ke 1
Ini adalah iterasi ke 2
Ini adalah iterasi ke 3
Ini adalah iterasi ke 4
Ini adalah iterasi ke 5


> ℹ️ `f` pada saat menampilkan kalimat di atas disebut dengan **F-string**. Sederhananya, F-string memungkinkan kita untuk menampilkan nilai dari sebuah variabel secara dinamis dalam sebuah kalimat.

Pada kode di atas:

* Kita mendefinisikan kondisi awal, `i = 1`.
* Pengecekan kondisi, apakah nilai `i` saat ini kecil atau sama dengan 5.
  * Jika benar, maka akan ditampilkan tulisan dan nilai `i` akan bertambah 1. 
  * Jika tidak, proses iterasi akan berakhir.

## Python Function

**Function** pada Python merupakan blok kode yang dapat digunakan secara berulang. Penggunaan function dapat membuat penulisan kode kita menjadi lebih rapi dan tidak redundan. 

Function pada Python umumnya memiliki 3 komponen utama:

* **Parameter**: input untuk function.
* **Block of code**: blok kode untuk melakukan operasi pada input.
* **Return value**: output hasil operasi function.

Untuk mendefinisikan function, kita menggunakan keywords `def`. Misalnya, kita membuat sebuah function untuk melakukan beberapa operasi matematika sekaligus.

In [45]:
# mendefinisikan fungsi
def math_ops(num1, num2, num3):
    sum = num1 + num2 + num3
    sub = num1 - num2 - num3

    print(f"Angka: {num1}, {num2}, {num3}")
    print(f"Hasil penjumlahan: {sum}")
    print(f"Hasil pengurangan: {sub}")

    return sum, sub

In [46]:
# cara menggunakan fungsi 
hasil_jumlah, hasil_kurang = math_ops(100, 20, 30)

Angka: 100, 20, 30
Hasil penjumlahan: 150
Hasil pengurangan: 50


In [47]:
print(hasil_jumlah)
print(hasil_kurang)

150
50


## Python Libraries

Salah satu kelebihan Python adalah tersedianya banyak **package** atau **library** yang dapat kita gunakan dengan mudah. Kita dapat menganggap library sebagai sekumpulan fungsi/program yang telah ditulis orang lain dan dapat kita gunakan kembali. Untuk dapat menggunakan fungsi yang terdapat dalam suatu library, kita harus meng-import library tersebut. 

Terdapat 2 cara paling umum untuk meng-import library:

* Import library dengan statement `import`. Penggunaan fungsi/class menyertakan nama library.

```python
# cara import library
import langchain_community.document_loaders

# cara memanggil function/class
pdf_loader = langchain_community.document_loaders.PyPDFLoader()

```

In [48]:
# import pandas
# file_csv = pandas.read_csv('path_file')

* Import fungsi langsung dengan statement `from`. Penggunaan fungsi/class tidak menyertakan nama library.

```python
# cara import library
from langchain_community.document_loaders import PyPDFLoader()

# cara memanggil function/class
pdf_loader = PyPDFLoader()

```

In [49]:
# from pandas import read_csv
# file_csv = read_csv('path_file')

# The Fundamentals of LLM

## The Concept of Generative AI

![](assets/gen_ai_hierarchy.png)

🚀 **Apa itu Generative AI?**

**Generative AI** merupakan bagian dari artificial intelligence yang bertujuan untuk **menghasilkan (generate) data**, seperti teks, gambar, video, dan musik. Untuk dapat menghasilkan data, generative AI dilatih/belajar dari data yang jumlahnya sangat besar. Proses belajar ini sering disebut training. Generative AI akan menghasilkan data berdasarkan pola yang sudah dipelari selama proses training.

🚀 **Jenis-Jenis Generative AI dan Aplikasinya**

* **Generative Text Model**
    * Input: teks.
    * Output → teks (text-to-text generator).
      * Contoh: translation, **summarization**, **question-answering**, grammar correction.
    * Output → image (text-to-image generator).
      * Contoh: image generation, video generation.
    * Output → audio (text-to-speech generator).
      * Contoh: music generation.
* **Generative Image Model**
    * Input: gambar.
    * Output: teks (image-to-text generator).
      * Contoh: image captioning, visual question-answering, image search.
    * Output: gambar (image-to-image generator).
      * Contoh: image completion.
    * Output: video (image-to-video generator).
      * Contoh: animation generation.

## LLM as Generative AI 

💬 **LLM** merupakan generative AI yang telah dilatih menggunakan data teks dalam jumlah yang sangat besar. LLM mampu untuk memahami dan menghasilkan teks dengan gaya bahasa yang mirip dengan manusia. Selain menggambarkan besarnya data yang digunakan untuk melatih LLM, istilah "large" mengacu kepada tingkat kompleksitas, ukuran, dan banyaknya parameter pada LLM.

> ℹ️ Sebagai contoh, GPT-4, varian yang paling baru dari LLM yang dirilis oleh OpenAI, memiliki 1,7 triliun parameter. Sumber data yang digunakan untuk melatih model ini meliputi buku, website, jurnal ilmiah, artikel, posting-an media sosial, dan repositori kode.

### LLM Platforms

💬 Beberapa contoh platform LLM yang cukup populer: 

* 🤖**GPT**🤖

    🤖 **Generative Pre-Trained Transformer (GPT)** merupakan large language model yang dikembangkan oleh Open AI. Sama seperti model generative AI lainnya, GPT di-training dengan data teks dalam jumlah yang besar. GPT dirancang untuk memahami dan menghasilkan teks dengan cara yang mirip dengan manusia, sehingga dapat digunakan dalam berbagai aplikasi seperti chatbot, language translation, dan content creation. Baru-baru ini, OpenAI meluncurkan varian terbaru dari GPT-4, yakni GPT-4o.

    Segmentasi produk GPT dapat dibedakan menjadi 2: chat-based platform dan Application Programming Interface (API)-based platform. Produk GPT berbasis chat dikenal sebagai [**ChatGPT**](https://chatgpt.com/). Semenjak dirilis pada November 2022 dengan versi GPT-2, saat ini ChatGPT telah merilis varian GPT yang lebih powerful: ChatGPT dengan GPT-3.5 dan ChatGPT dengan GPT-4. Untuk ChatGPT-3.5, pengguna dapat mengakses secara free. Untuk mendaptkan fitur yang lebih advanced pada ChatGPT dengan GPT-4, pengguna perlu melakukan subscription terlebih dahulu.

    Varian produk kedua adalah produk berbasis [**Application Programming Interface (API)**](https://platform.openai.com/). API memungkinkan pengguna untuk meng-embbed kemampuan GPT pada aplikasi yang dapat disesuaikan dengan kebutuhan mereka. Penggunaan API ini sangat fleksibel karena dapat diintegrasikan dengan berbagai platform dan sistem yang sudah ada. 

* ♊**Gemini**♊

    ♊ **Gemini** merupakan model generative AI yang dikembangkan oleh Google. Gemini dilatih menggunakan data teks, gambar, suara, dan video secara bersamaan dalam jumlah yang sangat besar. Hal ini membuat Gemini mampu untuk menerima berbagai macam input. Kelebihan ini menjadikan Gemini unggul dari segi generalisasinya terhadap data baru. Saat ini, versi terbaru dari Gemini adalah Gemini 1.5. 

    Sama seperti GPT, secara umum, fitur-fitur pada Gemini dikemas dalam 2 bentuk produk. Produk yang pertama merupakan [aplikasi yang berbasis chat bernama **Gemini app (sebelumnya Bard)**](https://gemini.google.com/app). Penggunaan aplikasi ini ditujukan untuk siapa saja secara umum tanpa perlu menuliskan kode tertentu. Produk lainnya merupakan [**API**](https://ai.google.dev/gemini-api) yang dapat digunakan pada use case yang lebih custom. Penggunaan API ini lebih ditujukan untuk pengguna dengan aspek pekerjaan teknis yang lebih tinggi, seperti software developer.

### Prompt pada Language Model

Untuk menghasilkan output yang sesuai, LLM memerlukan **prompt**. Prompt dapat dianalogikan sebagai sebuah petunjuk untuk LLM. Secara eksplisit, prompt merujuk kepada instruksi atau detail yang diberikan kepada LLM terkait output seperti apa yang diharapkan. Prompt juga bisa berupa konteks atau latar belakang dari topik yang ingin diketahui.

💡 Beberapa tips awal untuk merancang sebuah prompt:

* **Buat Prompt yang Sederhana**

    Pembuatan prompt merupakan proses iteratif. Selalu mulai dengan sebuah prompt sederhana. Jika masih belum mendapatkan output yang diinginkan dari LLM, kita bisa me-refine prompt yang sudah dibuat sebelumnya.

    Hindari pembuatan prompt untuk task yang kompleks. Kita dapat mem-break down task yang kompleks tersebut menjadi subtask yang lebih kecil dan membuat prompt yang berbeda untuk masing-masing subtask.

* **Berikan Perintah yang Jelas: What to Do and What Not to Do?**

    Saat membuat sebuah prompt, pastikan prompt memiliki instruksi yang jelas. Misalnya, kita menginginkan ringkasan dari sebuah kalimat, maka prompt yang efektif mengandung instruksi untuk membuat ringkasan tersebut. Kita juga dapat mendefinisikan detail apa yang tidak perlu dimasukkan dalam ringkasan yang dihasilkan LLM.


* **Be Speficic and Detail**

    Selain memberikan perintah yang jelas, kita dapat membuat prompt menjadi lebih spesifik dan detail. Misalnya, kita dapat mendefinisikan detail seperti gaya bahasa dan panjang output yang diharapkan.

Contoh prompt:

```

Summarize the following article into approximately 150 words, highlighting the main points and key information discussed. Do not include minor details, personal opinions, or repetitive information.

```

> 🔑 Kunci prompt yang efektif: sederhana, jelas, dan spesifik.

## Transformer Architecture in a Nutshell

🤖 Arsitektur **transformer** merupakan salah satu fondasi dibalik keandalan LLM. Arsitektur ini pertama kali diperkenalkan pada paper yang berjudul [Attention is All You Need](https://arxiv.org/abs/1706.03762) oleh Vaswani dkk. pada tahun 2017. 

Kemunculan arsitektur transformer bertolak dari keterbatasan dari arsitektur yang sebelumnya sering digunakan untuk memodelkan data berupa sequence (contoh: bahasa), seperti Recurrent Neural Network (RNN) dan Long Short-Term Memory (LSTM). Keterbatasan ini di antaranya: ketidakefisienan dari segi daya komputasi dan waktu serta ketersediaan memori yang terbatas untuk sequence yang cukup panjang. Transformer mengatasi keterbatasan ini dengan fitur spesial yang disebut dengan **self-attention mechanism**. 

Secara sederhana, Transformer terdiri dari 2 komponen utama:

![](assets/transformer_simplified_3.png)


▶️ **Encoder**

**Encoder** merupakan bagian dari transformer yang bertujuan untuk memproses input sequence ke dalam representasi tertentu. Representasi ini merupakan bentuk numerik dari input sequence berikut dengan informasi urutannya. **Encoder** terdiri dari beberapa lapisan yang disebut **encoder layer**. Setiap encoder layer memiliki dua bagian utama:

- **Multi-Head Self-Attention Mechanism**

    Bagian ini membantu model untuk memperhatikan berbagai kata dalam input sekaligus, sehingga memahami hubungan antar kata yang berbeda.

- **Feed-Forward Neural Network**
    
    Setelah bagian self-attention, representasi dari input sequence diproses oleh neural network untuk memperkuat pemahaman model tentang konteks.

▶️ **Decoder**

**Decoder** merupakan bagian dari transformer yang bertujuan untuk menghasilkan output. Output ini mempertimbangkan input dari encoder. **Decoder** juga terdiri dari beberapa lapisan yang disebut **decoder layer**. Setiap decoder layer memiliki tiga bagian utama:

- **Masked Multi-Head Self-Attention Mechanism**

    Bagian ini memastikan model hanya memperhatikan kata-kata yang sudah dihasilkan sebelumnya, bukan kata yang belum dihasilkan. Ini penting untuk menjaga urutan kata yang dihasilkan.
- **Multi-Head Attention Mechanism**

    Bagian ini membantu decoder memperhatikan informasi dari encoder, sehingga output yang dihasilkan mempertimbangkan seluruh input.
- **Feed-Forward Neural Network**

    Setelah melalui kedua bagian attention, representasi dari sequence diproses oleh neural network untuk memperkuat pemahaman model tentang konteks.

Berikut merupakan ilustrasi sederhana bagaimana transformer bekerja.

![](assets/transformer_gif.gif)

## LLM Capability, Limitation, and Consideration

Saat ini, LLM banyak dipilih karena keandalan dan kemampuannya untuk memahami konteks yang rumit. Selain itu, LLM juga mampu untuk menghasilkan teks dan narasi yang hampir menyamai produk bahasa yang ditulis oleh manusia. 

Berikut ini beberapa contoh task yang dapat diaplikasikan oleh LLM.

* **Text Generation**: menghasilkan narasi dengan gaya bahasa yang hampir menyamai kemampuan manusia.
* **Translation**: menerjemahkan teks ke dalam bahasa yang berbeda secara akurat.
* **Summarization**: membuat ringkasan singkat dari teks yang panjang.
* **Question-Answering**: menjawab sebuah pertanyaan berdasarkan konteks yang diberikan.

Akan tetapi, perlu diperhatikan bahwa saat ini LLM masih menjadi topik riset yang aktif. Para peneliti masih mengembangkan metode yang lebih advanced untuk mengurangi beberapa limitasi dari LLM, seperti:

* **Misleading Output** 
    
    Sebagai produk AI yang sangat powerful, output yang dihasilkan oleh LLM dapat terlihat sangat meyakinkan. Akan tetapi, sebagai pengguna, kita perlu bijak dalam mengonsumsi konten yang dibuat oleh AI. Secara aktif, kita perlu melakukan verifikasi fakta melalui sumber-sumber yang kredibel.

* **Technical Limitation**

    Di balik kapabilitas LLM dalam task yang melibatkan natural language, masih terdapat concern terkait limitasi teknis. Terdapat situasi di mana AI tidak dapat memahami konteks secara mendalam atau menghasilkan respons yang sesuai dengan harapan pengguna. Selain itu, LLM memerlukan sumber daya komputasi yang sangat tinggi untuk berfungsi secara optimal, yang dapat menjadi hambatan bagi pengguna dengan keterbatasan infrastruktur teknologi.

* **Laws and Rights-Related Issue**

    Sebagai teknologi yang terus berkembang, penggunaan LLM juga dihadapkan pada isu-isu hukum dan hak. Misalnya, hak cipta, privasi, dan perlindungan data adalah aspek-aspek penting yang perlu dipertimbangkan saat menggunakan AI. 
    
    Pengguna harus memastikan bahwa mereka mematuhi semua regulasi yang relevan dan menghormati hak-hak individu dan entitas lain dalam penggunaan dan penyebaran konten yang dihasilkan oleh AI.

Mempertimbangkan kelebihan dan limitasi yang ada, sebagai end-user, kita perlu cermat, selektif, dan aware dalam mempergunakan LLM. Kemampuan LLM yang powerful akan semakin maksimal selama dibersamai dengan konsiderasi berikut:

* **Tidak Menganggap Output LLM sebagai Final Result** 
    
    Output dari LLM tidak dijadikan sebagai hasil akhir, melainkan hanya sebagai pendukung tersier. Kita perlu tetap melakukan verifikasi dan cross-check dengan sumber lain yang terpercaya untuk memastikan akurasi dan relevansi informasi.

* **Keputusan Kompleks dan Terkait Makhluk Hidup**
    
    Keputusan yang diambil dari output LLM tidak digunakan dalam pertimbangan yang kompleks dan menyangkut keperluan yang berkaitan dengan makhluk hidup, seperti keputusan medis, hukum, atau keuangan, tanpa konsultasi dengan ahli yang kompeten di bidang tersebut.

* **Evaluasi Kritis dan Penyesuaian Konteks**
    
    Selalu melakukan evaluasi kritis terhadap output yang dihasilkan oleh LLM, termasuk memahami konteks dan bias yang mungkin ada dalam data pelatihannya. Penyesuaian dan interpretasi yang bijak diperlukan untuk memastikan bahwa informasi tersebut sesuai dengan konteks yang dibutuhkan.

* **Keamanan dan Privasi Data**

    Memperhatikan aspek keamanan dan privasi data saat menggunakan LLM. Jangan memasukkan informasi pribadi atau sensitif yang dapat disalahgunakan, dan pastikan bahwa penggunaan LLM mematuhi kebijakan privasi dan regulasi yang berlaku.

> 📌 More info: [Responsible AI](https://ai.google/responsibility/responsible-ai-practices/)

# Introduction to LangChain🦜🔗

## LangChain Concept and Component

🦜🔗**LangChain** merupakan sebuah framework yang dapat digunakan untuk membuat aplikasi berbasis LLM. Dengan LangChain, pengguna dapat mengakses berbagai jenis LLM yang disediakan oleh provider seperti OpenAI dan Google. Selain itu, framework ini juga memungkinkan kita untuk membuat aplikasi custom dengan memanfaatkan kemampuan LLM. Fitur- fitur ini menjadikan LangChain sebagai package yang cukup powerful. 

> 📌[LangChain Official Documentation](https://python.langchain.com/v0.1/docs/get_started/introduction)

💡 Seperti namanya, ide dasar dari LangChain adalah men-chaining beberapa komponen menjadi satu kesatuan untuk menjalankan fungsi tertentu. Dengan menggabungkan berbagai komponen ini, kita bisa membuat alur kerja yang kompleks dan dinamis.

Secara umum, berikut adalah pengelompokan komponen LangChain berdasarkan fungsinya.

1️⃣ **Model I/O**

* Mengatur input dan output dari sebuah LLM.
* Komponen:
    * **Prompt**: memberikan instruksi terkait output seperti apa yang harus dihasilkan.
    * **LLM dan Chat Model**: memberikan output berdasarkan prompt.

2️⃣ **Retrievers**

* Mengambil data yang relevan untuk digunakan dalam LLM (biasanya melibatkan dokumen eksternal).
* Komponen:
    * **Document Loader**: untuk memuat dokumen eksternal.
    * **Text Splitter**: untuk pemrosesan dokumen.
    * **Embedding Model**: untuk merepresentasikan dokumen dalam bentuk numerik (embedding).
    * **Vectorstore**: untuk menyimpan embedding
    * **Retrievers**: mencari dan mengembalikan data yang paling relevan dari vectorstores berdasarkan query pengguna.

3️⃣ **Composition**

* Gabungan dari komponen basic di atas.
* Komponen: tools, agents, chains.

4️⃣ **Additional**

* Komponen: memory, callback.

## API Concept and Setting for LangChain Usage

![](assets/api_analogy.png)

Provider LLM seperti OpenAI dan Google menyediakan fungsionalitas LLM mereka dalam bentuk **Application Programming Interface (API)**. API merupakan sebuah protokol atau program yang memungkinkan beberapa komputer untuk saling berkomunikasi.

> 💡 Apabila dianalogikan, API merupakan pelayan di sebuah restoran. Kita sebagai pelanggan memesan makanan melalui pelayan. Selanjutnya, pelayan akan menyampaikan pesanan kita kepada chef (provider LLM) di dapur dan chef akan membuatkan pesanan tersebut. Pesanan yang sudah jadi akan diantarkan kembali melalui pelayan.

Untuk dapat berinteraksi dengan API dari provider LLM, kita memerlukan sebuah **API key** (ID untuk pemesanan). API key ini digunakan setiap kali kita berinteraksi dengan LLM yang disediakan oleh provider. Pada workshop ini, kita akan menggunakan **Gemini sebagai LLM**.

> 🔑 Find your [Gemini API key here](https://ai.google.dev/gemini-api)

Karena API key bersifat rahasia, API key jarang dimasukkan langsung ke dalam kode program. Salah satu cara terbaik untuk memuat API key secara otomatis adalah dengan membuat file `.env` dan menggunakan fungsi `load_dotenv()` dari package `dotenv` untuk memanggil file tersebut. 

Berikut adalah contoh isi dari file `.env`.

```
GOOGLE_API_KEY = "your_GOOGLE_API_key"
```

In [50]:
# untuk meng-import fungsi load_dotenv() dari package dotenv
from dotenv import load_dotenv

In [51]:
# load file .env secara otomatis
load_dotenv()

True

## Demonstration of LLM Usage with LangChain

Sejauh ini, kita sudah mengetahui beberapa dasar terkait LLM, konsep dasar LangChain, dan komponen dari LangChain. Selanjutnya, mari kita lihat bagaimana implementasi sederhana penggunaan LLM dengan LangChain!

### Experiment 1: Your First Call to Gemini ♊

Pada percobaan pertama ini, kita akan:

* Membuat objek LLM.
* Mencoba varian Gemini yang tersedia.
* Menanyakan pertanyaan dengan method `.invoke()`.

In [52]:
from langchain_google_genai import GoogleGenerativeAI

  from .autonotebook import tqdm as notebook_tqdm


In [53]:
# membuat objek LLM 
gemini_10_pro = GoogleGenerativeAI(model = "gemini-pro") # gemini versi 1.0

In [54]:
# memberi pertanyaan dengan method .invoke()
gemini_10_pro.invoke('Who is the president of Indonesia?')

'Joko Widodo'

### Experiment 2: Add Prompt to Boost Gemini's Response 🚀

Pada percobaan kedua ini, kita akan menambahkan prompt untuk membuat implementasi yang lebih dinamis dan custom.

In [55]:
from langchain_core.prompts import PromptTemplate

Pertama, kita akan membuat sebuah template untuk menerjemahkan sebuah kalimat ke dalam bahasa Inggris dengan gaya bahasa yang informal.

In [56]:
# mendefinisikan prompt untuk translasi
prompt = PromptTemplate(template = '''
                        Translate the following sentence into informal English:
                        {sentence}
                        ''',
                        input_variables = ["sentence"]
)

Selanjutnya, kita menggunakan operator `|` untuk membuat sebuah chain. Chain tersebut terbentuk dari komponen prompt dan LLM.

In [57]:
# membuat chain untuk translasi 
llm_chain = prompt | gemini_10_pro

In [58]:
# menerjemahkan kalimat dengan method .invoke()
llm_chain.invoke({
    'sentence': 'Saya akan kembali 10 menit lagi'
})

"I'll be back in 10"

### 🥽 Dive Deeper: Chain for  Grammar Correction

Buatlah sebuah chain untuk melakukan grammar correction!

**Step**:

1. Anda dapat memodifikasi prompt dari contoh sebelumnya untuk kasus grammar correction.
2. Definisikan chain dengan step pada `Experiment 2`.

In [59]:
# code here
# Pak Johan
# step 1
prompt_grammar = PromptTemplate(template = '''
                        Correct the grammar of following sentence into :
                        {sentence}
                        ''',
                        input_variables = ["sentence"]
)

In [60]:
# step 2
llm_chain = prompt_grammar | gemini_10_pro

In [61]:
llm_chain.invoke({
    'sentence':'I like he'
})

'I like him'

**END OF DAY 2**

**START OF DAY 3**

# Case Study: Q&A and Summarization for PDF Document

## Q&A

### Retrieval Augmented Generation

🤔 Coba tanyakan pertanyaan berikut kepada LLM!

In [62]:
gemini_10_pro.invoke('Siapa pemenang Pemilu 2024 di Indonesia?')

'Pemilu 2024 di Indonesia belum dilaksanakan, sehingga belum ada pemenang yang diketahui.'

Meskipun memiliki kemampuan yang powerful untuk mengerjakan task yang berkaitan dengan bahasa, LLM memiliki **knowledge cutoff**. Knowledge cutoff merupakan batas pengetahuan yang dimiliki oleh LLM karena resource untuk men-training LLM berhenti pada titik waktu tertentu. 

> ℹ️ Untuk Gemini, knowledge cutoff-nya adalah November 2023.

Dengan demikian, pengetahuan LLM tentang peristiwa dan informasi setelah knowledge cutoff tersebut mungkin terbatas atau tidak ada sama sekali.

Untuk mengatasi permasalahan tersebut, kita dapat menggunakan **Retrieval Augmented Generation** (RAG). RAG bekerja dengan cara menyediakan konteks tambahan untuk LLM, seperti dokumen, website, dan database. Dengan RAG, LLM dapat mengakses dan memproses data terbaru, sehingga dapat memberikan jawaban yang lebih akurat dan terkini. Selain itu, pendekatan ini juga memudahkan kita untuk memanfaatkan LLM pada resource dan use case yang lebih spesifik.

Pada workshop ini, kita akan mencoba untuk **menggunakan dokumen PDF sebagai konteks tambahan untuk LLM**. Dokumen ini merupakan sebuah paper yang berjudul [A Survey of Large Language Models](https://arxiv.org/pdf/2303.18223) dengan tebal 124 halaman. Paper ini menyediakan review yang komprehensif terkait LLM. Paper yang sama juga dapat Anda temui pada folder `data_input` dengan nama file `llm_survey.pdf`.

Selanjutnya, kita akan **membuat chain** dengan LangChain yang memungkinkan kita untuk **bertanya seputar konten paper tersebut**.

### Workflow

Untuk membuat sebuah implementasi Q&A dokumen PDF menggunakan LangChain, kita akan mengikuti workflow berikut ini.

![](assets/rag_workflow.png)

#### PDF Loading

Pertama, kita perlu memuat dokumen yang menjadi konteks tambahan bagi LLM. Dalam hal ini, kita menggunakan `PyPDFLoader()` untuk memuat dokumen PDF. Selain PDF, LangChain menyediakan fungsionalitas untuk memuat dokumen dengan ekstensi lain, seperti CSV dan JSON.

> 📌 [LangChain Document Loaders](https://python.langchain.com/v0.1/docs/modules/data_connection/document_loaders/)

In [63]:
# untuk loading file PDF
from langchain_community.document_loaders import PyPDFLoader

In [64]:
pdf_loader = PyPDFLoader('data_input/llm_survey.pdf')
pdf_data = pdf_loader.load()

# ada parameter extract_images untuk ingin ekstrak info dari gambar.

Dengan kode di atas, dokumen PDF akan di-load sebagai list.

In [65]:
type(pdf_data)

list

List ini akan memiliki elemen sebanyak halaman dokumen PDF. 

In [66]:
len(pdf_data)

124

Setiap elemen pada list berisikan konten pada halaman tertentu. Misalnya, kita ingin melihat konten pada halaman ke-5 (indeks ke-4).

In [67]:
print(pdf_data[4].page_content)

5
given an increase in compute budget, the KM scaling law
favors a larger budget allocation in model size than the data
size, while the Chinchilla scaling law argues that the two
sizes should be increased in equal scales, i.e.,having similar
values for aandbin Equation (3).
Discussion on Scaling Laws . After introducing the formu-
lations, we continue to discuss scaling law in the following
two aspects, to enhance its understanding:
•Predictable scaling . In practice, scaling law can be used
to instruct the training of LLMs, and it has been proven
feasible to reliably estimate the performance of larger mod-
els based on that of smaller models, called predictable scal-
ing [46]. The benefits of predictable scaling for training
LLMs are mainly twofold. Firstly, for large models, it is
infeasible to rigorously examine various training tricks or
variants, and it would be very helpful if experiences gained
from small models could also apply to large models. For
instance, small proxy models 

#### Splitting

Selanjutnya, kita akan melakukan proses splitting. Proses ini bertujuan untuk membuat chunk yang lebih kecil dari konten yang sudah diekstrak sebelumnya. Chunk-chunk yang lebih kecil akan lebih mudah di-maintain, disimpan, dan diproses oleh LLM.

In [68]:
# untuk split konten file PDF menjadi chunk yang lebih kecil
from langchain.text_splitter import RecursiveCharacterTextSplitter

Pada proses splitting ini, kita menggunakan `RecursiveCharacterTextSplitter()`. Dengan `RecursiveCharacterTextSplitter()`, proses splitting dilakukan dengan tetap menjaga bagian-bagian teks yang terkait tetap berdekatan satu sama lain. Merujuk pada [dokumentasi LangChain](https://python.langchain.com/v0.1/docs/modules/data_connection/document_transformers/), teknik splitting dengan `RecursiveCharacterTextSplitter()` adalah teknik yang direkomendasikan untuk mulai melakukan splitting dari sebuah teks yang cukup besar.

> 📌 [LangChain Text Splitters](https://python.langchain.com/v0.1/docs/modules/data_connection/document_transformers/)

Pada kode di bawah ini, kita mendefinisikan output dari proses splitting:

* Setiap chunk akan memiliki maksimal sebanyak 1000 karakter.
* Antara satu chunk dengan chunk yang lain memiliki kesamaan sebanyak 450 karakter. Hal ini didefinisikan untuk mempertahankan konteks antara satu chunk dengan chunk yang lain. 
* Proses splitting dilakukan berdasarkan daftar karakter yang kita definisikan pada parameter `separators`.

Selanjutnya, kita memasukkan list `pdf_data` sebagai input untuk method `.split_documents()`. Method ini akan membuat chunk yang lebih kecil dari `pdf_data`.

In [69]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 1000, 
    chunk_overlap = 450,
    separators=[
                "\n\n",
                "\n",
                " ",
                ".",
                ",",
                "\u200b",  # zero-width space
                "\uff0c",  # full-width comma
                "\u3001",  # ideographic comma
                "\uff0e",  # full-width full stop
                "\u3002",  # ideographic full stop
                "",
            ])

splits = text_splitter.split_documents(pdf_data)

In [70]:
type(splits)

list

In [71]:
len(splits)

1316

Di akhir proses ini, kita mendapatkan 1316 chunk hasil splitting dari 124 elemen pada `pdf_data`.

#### Embedding and Storing

Di balik layar, operasi pada komputer merupakan operasi yang melibatkan angka. Agar teks yang kita miliki dapat dimengerti oleh komputer, kita perlu membuat representasi numerik dari teks tersebut. Proses ini dibut dengan **embedding**.

LangChain menyediakan banyak pilihan embedding, tergantung dari LLM yang akan kita gunakan:
* `GoogleGenerativeEmbeddings()` untuk model LLM yang dikembangkan oleh Google.
* `OpenAIEmbeddings()` untuk model LLM dari OpenAI.

> 📌 [LangChain Embedding Models](https://python.langchain.com/v0.1/docs/modules/data_connection/text_embedding/)

Representasi numerik dari teks ini selanjutnya disimpan di dalam **vector database**. 
> ✨ Sederhananya, kita menyimpan konten file PDF di database dalam bentuk angka.

Vector database yang akan kita gunakan adalah **Chroma**. Chroma merupakan vector database yang cukup powerful untuk menyimpan unstructured data, seperti konten pada file PDF. Chroma juga dilengkapi dengan algoritma yang efisien dan akurat untuk pencarian informasi dari embedding yang disimpan. Selain itu, Chroma juga memungkinkan kita untuk menyimpan objek database sehingga dapat digunakan kembali untuk keperluan yang akan datang.

> 📌 [LangChain Vector Stores](https://python.langchain.com/v0.1/docs/modules/data_connection/vectorstores/)

In [72]:
# untuk membuat embedding
from langchain_google_genai import GoogleGenerativeAIEmbeddings # embedding Google Generative AI

# untuk menyimpan embedding
from langchain_community.vectorstores import Chroma

Pada kode dibawah ini, kita mendefinisikan sebuah fungsi untuk:

* Mengubah dokumen menjadi embedding. 
* Menyimpan hasil embedding ke dalam Chroma.
* Menyimpan file database ke suatu folder agar dapat digunakan kembali.

Penjelasan parameter:

* `documents `: dokumen yang akan diubah menjadi embedding.
* `embbeding`: fungsi yang digunakan untuk membuat embedding, misalnya `GoogleGenerativeAIEmbeddings()` jika menggunakan Gemini sebagai LLM.
* `persist_directory`: folder untuk menyimpan vector database.

In [73]:
def create_vectorstore_folder(documents, embedding, persist_directory):
    vectorstore = Chroma.from_documents(
        documents = documents, 
        embedding = embedding,
        persist_directory = persist_directory
    )

    return vectorstore

In [74]:
# hanya perlu dijalankan pada saat pertama kali membuat embedding

# vectorstore_gemini = create_vectorstore_folder(
#     documents = splits,
#     embedding = GoogleGenerativeAIEmbeddings(model="models/embedding-001"),
#     persist_directory = 'data_input/chroma_gemini'
# )

# time spent: 40.8s

Proses mengubah dokumen menjadi embedding dan menyimpannya ke dalam database dapat berjalan lama karena dapat dipengaruhi oleh berbagai faktor, mulai dari besarnya dokumen sampai dengan koneksi internet. Oleh karena itu, pada workshop ini, proses pembuatan vector database sudah dilakukan terlebih dahulu. Penyimpanan vector database ini terdapat pada folder `data_input`. 

Untuk me-load kembali vector database dari folder yang sudah ada, Anda dapat menjalankan kode di bawah ini.

In [75]:
# memanggil embedding dari directory yang sudah disimpan
vec_gemini = Chroma(persist_directory = 'data_input/chroma_gemini',
                    embedding_function = GoogleGenerativeAIEmbeddings(model="models/embedding-001"))

#### Retrieving

Kita telah membuat sebuah vector database yang menjadi sumber bagi LLM untuk mencari informasi. Selanjutnya, kita akan membuat sebuah chain yang memungkinkan kita untuk bertanya kepada LLM. LLM akan memberikan jawaban berdasarkan informasi yang terdapat pada vector database.

> 🤨 **Bagaimana cara LLM memberikan jawaban yang sesuai?** Pada saat kita memberikan pertanyaan (query) kepada LLM, pertanyaan tersebut akan diubah menjadi representasi numerik (vector). Representasi numerik ini akan digunakan untuk mencari jawaban yang sesuai berdasarkan informasi pada vector database. Proses ini melibatkan perhitungan vector similarity antara vector query dan vector informasi yang terdapat dalam vector database. Informasi dengan tingkat similarity yang tinggi akan di-return sebagai jawaban.

![](assets/rag_workflow2.png)

In [76]:
# LLM
from langchain_google_genai import ChatGoogleGenerativeAI

# untuk mempersiapkan prompt
from langchain_core.prompts import PromptTemplate
# untuk memasukkan pertanyaan
from langchain_core.runnables import RunnablePassthrough
# untuk menampilkan output yang diinginkan
from langchain_core.output_parsers import StrOutputParser

# untuk menampilkan output secara rapi
import textwrap

In [77]:
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

In [78]:
qa_template = """
    You are the great assistant in understanding additional context

    Use the following pieces of context to answer the question at the end.
    Use the minimum of three sentences to answer the question. 
    Try your best to answer as complete as possible with easy style of English.
    Always say "thanks for asking!" at the end of the answer.

    {context}

    Question: {question}

    Helpful Answer:"""

custom_rag_prompt = PromptTemplate.from_template(qa_template)

In [79]:
def create_qa_chain(retriever, llm):

    rag_chain = (
        {"context": retriever | format_docs, "question": RunnablePassthrough()}
        | custom_rag_prompt
        | llm
        | StrOutputParser()
    )

    return rag_chain

Pada kode di atas, kita membuat sebuah fungsi untuk membuat chain untuk Q&A. Chain untuk Q&A di atas terdiri atas beberapa komponen:

*  `custom_rag_prompt` yang merupakan prompt untuk mengarahkan output dari LLM.
* `llm` yang akan berinteraksi dengan pengguna.
* `StrOutputParser()` yang akan menangkap output dari LLM.

Perhatikan pada saat kita mendefinisikan template prompt, terdapat 2 placeholder: `{context}` dan `{question}`.

* Value untuk `{context}` berasal dari vector database.
* Value untuk `{question}` berasal dari pertanyaan pengguna pada saat menjalankan chain.

In [80]:
gemini_chain = create_qa_chain(retriever = vec_gemini.as_retriever(),
                               llm = ChatGoogleGenerativeAI(model = "gemini-pro"))

Sekarang, kita sudah membuat chain untuk Q&A. Mari kita tes chain tersebut dengan memberi beberapa pertanyaan!

In [81]:
print(
    textwrap.fill(
        gemini_chain.invoke('What is LLM?'), 
        width=90
    )
)

LLM stands for Large Language Model, a type of artificial intelligence (AI) that has been
trained on a massive amount of text data. LLMs are known for their ability to generate
human-like text, translate languages, answer questions, and perform various other
language-related tasks.  Thanks for asking!


In [82]:
print(
    textwrap.fill(
        gemini_chain.invoke('How is the evolution of GPT series model?'), 
        width=90
    )
)

GPT-1, the initial model in the GPT series, was released in 2018 and used a generative,
decoder-only Transformer architecture. GPT-2, released later, increased the parameter
scale and was trained on a large webpage dataset. Further advancements led to GPT-3, which
expanded the parameter scale significantly and introduced few-shot learning capabilities.
The latest iteration, GPT-4, is still under development but is expected to bring even
greater capabilities. Thanks for asking!


#### Make Chatbot-Like Interaction with `while` Loop

In [83]:
import sys

print("\033[1mAsk The PDF!\033[0m")
print('')

while True:
    
    print('\033[1mQuestion:\033[0m')

    query = input('')
    print(query)

    #To exit: use 'exit', 'quit', 'q', or Ctrl-D.",
    if query.lower() in ["exit", "quit", "q"]:
        print('Exiting')
        sys.exit()

    print('\033[1mResponse:\033[0m')
    response = textwrap.fill(gemini_chain.invoke(query), width=90)
    print(response)
    print('')

[1mAsk The PDF![0m

[1mQuestion:[0m
What is LLM?
[1mResponse:[0m
LLM, standing for Large Language Model, is a type of neural network model that has been
trained on a massive amount of text data. LLMs are known for their ability to generate
human-like text, translate languages, and answer questions. They have also been used in a
variety of other applications, such as summarizing text, extracting information, and
writing creative content. Thanks for asking!

[1mQuestion:[0m
q
Exiting


SystemExit: 

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)


## Summarization

Sebelumnya, kita mendefinisikan sebuah chain untuk Q&A menggunakan `|`. `|` merupakan sintaks LangChain Expression Language (LCEL) yang menjadi dasar dalam pendefinisian chain yang lebih kompleks.

> 📌 [LangChain Expression Language](https://python.langchain.com/v0.1/docs/expression_language/)

Selain digunakan untuk membuat sistem Q&A, LLM juga sering dimanfaatkan untuk task summarization. 

Pada use case kali ini, kita akan mendefinisikan chain dengan LCEL untuk melakukan summarization. Dokumen yang akan kita buat summary-nya merupakan paper yang berjudul [Transformers in Time Series: A Survey](https://arxiv.org/abs/2202.07125). Pembahasan paper ini adalah seputar penggunaan arsitektur transformer untuk data time series.

Pertama, kita akan me-load file yang akan kita ringkas.

In [85]:
trans_ts_loader = PyPDFLoader('data_input/transformer_ts.pdf')
trans_ts_content = trans_ts_loader.load()

Selanjutnya, kita mendefinisikan prompt untuk membuat sebuah summary.

In [86]:
summary_template = """
    You are the great assistant in summarizing the following passage.

    Provide a summary of the following passage. 
    The summary should be general and no longer than five sentences.

    Passage:
    ```{text}```
    
    Summary:
"""

custom_summary_prompt = PromptTemplate.from_template(summary_template)

Selanjutnya, kita mendefinisikan sebuah fungsi yang akan me-return chain untuk melakukan summarizer.

In [87]:
def create_summary_chain(llm):
    summary_chain = {'text':RunnablePassthrough()} | custom_summary_prompt | llm | StrOutputParser()
    return summary_chain

In [88]:
gemini_summarizer = create_summary_chain(llm = ChatGoogleGenerativeAI(model="gemini-pro"))

Kita sebuah chain untuk melakukan summarizer dengan Gemini sebagai LLM. Selanjutnya, kita dapat menjalankan chain tersebut dan memberikan dokumen yang akan diringkas (`llm_ts_content`) sebagai input.

In [89]:
print(
    textwrap.fill(
        gemini_summarizer.invoke(trans_ts_content)
    )
)

This paper provides a comprehensive and systematic review of
Transformer schemes for time series modeling. It highlights strengths,
limitations, and future research directions for Transformers in this
domain. The authors categorize Transformers based on network
modifications and application domains, providing a taxonomy that helps
organize and understand the existing literature. Empirical studies are
conducted to analyze robustness, model size, and seasonal-trend
decomposition, offering practical guidance on how to effectively use
Transformers for time series modeling. The authors conclude by
discussing potential future research directions, including inductive
biases for time series Transformers, Transformers and GNNs for time
series, pre-trained Transformers for time series, Transformers with
architecture level variants, and Transformers with NAS for time
series.


# Additional

## 🤖 Implementasi dengan OpenAI

Selain API dari Gemini, Anda bisa juga menggunakan API yang disediakan oleh provider lain, seperti OpenAI. Untuk mengakses model dari provider tersebut, Anda juga memerlukan API key:

* [Cara mendapatkan API key dari OpenAI](https://platform.openai.com/docs/quickstart).

Selanjutnya, Anda perlu menambahkan API key tersebut di dalam file `.env`.

Berikut adalah contoh file `.env` dengan API key dari Google dan OpenAI.
```
OPENAI_API_KEY = "sk-proj-**********"
GOOGLE_API_KEY = "AIza************"
```
Selanjutnya, Anda dapat menggunakan fungsi `load_dotenv()` untuk me-load API key secara otomatis.

### Q&A

In [90]:
# embedding OpenAI
from langchain_openai import OpenAIEmbeddings 
# LLM
from langchain_openai import ChatOpenAI

In [91]:
# hanya perlu dijalankan pada saat pertama kali membuat embedding

# vectorstore_open_ai = create_vectorstore_folder(
#     documents = splits,
#     embedding = OpenAIEmbeddings(model="text-embedding-3-large"),
#     persist_directory = 'data_input/chroma_open_ai'
# )

# time spent: 48s

In [92]:
# memanggil embedding dari directory yang sudah disimpan

vec_openai = Chroma(persist_directory = 'data_input/chroma_open_ai',
                    embedding_function = OpenAIEmbeddings(model="text-embedding-3-large"))

In [93]:
# membuat custom chain untuk Q&A dengan LLM OpenAI

openai_chain = create_qa_chain(
    retriever = vec_openai.as_retriever(),
    llm = ChatOpenAI(model = 'gpt-3.5-turbo')
)

In [94]:
# Q&A implementation

print(
    textwrap.fill(
        openai_chain.invoke('Describe about llaMa model family'), 
        width=90
    )
)

The LLaMA model family was introduced by Meta AI in February 2023, consisting of four
sizes - 7B, 13B, 30B, and 65B. These models have gained significant attention from both
research and industry communities for their excellent performance on various open
benchmarks. Researchers have extended LLaMA models through instruction tuning or continual
pretraining, making them popular for developing customized models with relatively low
computational costs. Thanks for asking!


### Summarizer

In [95]:
openai_summarizer = create_summary_chain(
    llm =  ChatOpenAI(model = 'gpt-3.5-turbo')
)

In [96]:
print(
    textwrap.fill(
        openai_summarizer.invoke(trans_ts_content)
    )
)

The passage provides a comprehensive overview of the use of
Transformers in time series modeling. It discusses the advantages of
Transformers in capturing long-range dependencies and interactions,
reviews various Transformer schemes for time series modeling, and
categorizes applications such as forecasting, anomaly detection, and
classification. The passage also highlights the need for inductive
biases, the combination of Transformers and Graph Neural Networks
(GNNs), pre-trained Transformers, architecture-level variant designs,
and the use of Neural Architecture Search (NAS) for optimizing
Transformer architectures. Additionally, the passage includes
experimental evaluations and future research opportunities in the
field of time series Transformers.


## 🧐 Be Critical of LLM Output

### Return Source of QnA

Pada bagian sebelumnya, kita berhasil membuat sebuah chain untuk task Q&A. Akan tetapi, chain tersebut hanya memberikan sebuah jawaban. Kita akan mencoba membuat sebuah chain di mana selain memberikan jawaban, chain juga akan memberikan resource yang digunakan untuk menyimpulkan jawaban tersebut. Dengan demikian, diharapkan dapat memverifikasi kebenaran jawaban LLM.

In [97]:
from langchain_core.runnables import RunnableParallel

In [98]:
def create_qa_chain_with_source(retriever, llm):

    rag_chain_from_docs = (
    RunnablePassthrough.assign(context=(lambda x: format_docs(x["context"])))
    | custom_rag_prompt
    | llm
    | StrOutputParser()
    )

    rag_chain_with_source = RunnableParallel(
    {"context": retriever, "question": RunnablePassthrough()}
    ).assign(answer=rag_chain_from_docs)

    return rag_chain_with_source

In [99]:
qa_openai_source = create_qa_chain_with_source(retriever = vec_openai.as_retriever(),
                                               llm = ChatOpenAI(model = 'gpt-3.5-turbo'))

In [100]:
qa_openai_source.invoke('What are the tricks to improve the performance of LLM fine-tuning')

{'context': [Document(page_content='the capacities of LLMs to follow complex instructions.\nOther Practical Tricks. In practice, there are also several\nuseful strategies and tricks that are helpful to improve the\nfine-tuning performance of LLMs. We list several represen-\ntative ones as follows:\n•Efficient training for multi-turn chat data. Given a multi-\nturn chat example (the conversation between a user and\nchatbot), a straightforward fine-tuning way is to split it into\nmultiple context-response pairs for training: a LLM is fine-\ntuned to generate the response based on the correspond-\ning context for all splits ( i.e., at each utterance from the\nuser). In such a fine-tuning way, it is apparent that there\nexist overlapping utterances in the split examples from a\nconversation. To save the training cost, Vicuna [138] has\nadopted an efficient way that feeds the whole conversation\ninto the LLM, but relies on a loss mask that only computes\nthe loss on the responses of the cha

### Evaluating Summarization using ROUGE

Pada case machine learning yang sederhana, seperti klasifikasi, proses evaluasi model dapat dilakukan dengan mudah dengan membandingkan hasil prediksi dengan label yang asli. Dalam konteks LLM, evaluasi output LLM merupakan tahapan yang challenging. Saat ini, para peneliti masih terus mengembangkan metode untuk bisa mengevaluasi output dari LLM.

Salah satu metrics yang bisa kita gunakan untuk mengevaluasi output LLM adalah **ROUGE (Recall-Oriented Understudy for Gisting Evaluation)**. Secara sederhana, ROUGE bekerja dengan cara membandingkan kemiripan dari 2 buah teks. Dalam hal ini teks yang dihasilkan oleh AI dan teks referensi yang menjadi standar kita untuk menilai kebaikan output LLM. 

Misalnya, untuk paper [Transformers in Time Series: A Survey](https://arxiv.org/abs/2202.07125), kita akan coba bandingkan abstract paper dengan summary hasil LLM.

In [101]:
# install package untuk ROUGE
!pip install rouge



In [102]:
from rouge import Rouge

In [103]:
abstract_text = '''
Transformers have achieved superior performances
in many tasks in natural language processing and
computer vision, which also triggered great interest in the time series community. 
Among multiple advantages of Transformers, the ability to capture
long-range dependencies and interactions is especially attractive for time series modeling, leading
to exciting progress in various time series applications. 
In this paper, we systematically review Transformer schemes for time series modeling by
highlighting their strengths as well as limitations.
In particular, we examine the development of time
series Transformers in two perspectives. From the
perspective of network structure, we summarize the
adaptations and modifcations that have been made
to Transformers in order to accommodate the challenges in time series analysis. From the perspective
of applications, we categorize time series Transformers based on common tasks including forecasting, anomaly detection, and classifcation. Empirically, we perform robust analysis, model size analysis, and seasonal-trend decomposition analysis to
study how Transformers perform in time series. Finally, we discuss and suggest future directions to
provide useful research guidance.
'''

In [104]:
llm_generated_summary = '''
Transformers have shown significant advancements in various domains,
including natural language processing and computer vision. They are
now being applied to time series modeling due to their ability to
capture long-range dependencies. Various adaptations and modifications
have been made to Transformers to address challenges in time series
analysis. These modifications include positional encodings, attention
modules, and architecture-level innovations. Transformers have been
successfully applied to tasks such as forecasting, anomaly detection,
and classification in time series data. Future research opportunities
include exploring inductive biases, combining Transformers with graph
neural networks, developing pre-trained models for time series,
designing architecture-level variants, and utilizing neural
architecture search for optimal Transformer design.
'''

In [105]:
# mengevaluasi output dengan ROUGE
evaluator = Rouge()
evaluator.get_scores(llm_generated_summary, abstract_text)

[{'rouge-1': {'r': 0.30275229357798167, 'p': 0.4125, 'f': 0.3492063443240671},
  'rouge-2': {'r': 0.1568627450980392,
   'p': 0.2376237623762376,
   'f': 0.1889763731623164},
  'rouge-l': {'r': 0.28440366972477066,
   'p': 0.3875,
   'f': 0.32804232316004595}}]

**Catatan tentang Output**:

* `rouge-1` menghitung kemiripan berdasarkan kata tunggal (unigram).
* `rouge-2` menghitung kemiripan berdasarkan dua kata berurutan (bigram).
* `rouge-l` menghitung kemiripan berdasarkan bagian yang lebih panjang yang terdapat pada kedua teks yang dibandingkan.
* `r` berarti recall.
* `p` berarti precision.
* `f` berarti F1-score.
* Range nilai untuk recall, precision, dan F1-score adalah 0-1. Semakin mendekati 1, semakin mirip kedua teks.

**Sources**:

* [How to evaluate a summarization task](https://cookbook.openai.com/examples/evaluation/how_to_eval_abstractive_summarization).
* [LLM evaluation with Rouge](https://medium.com/@MUmarAmanat/llm-evaluation-with-rouge-0ebf6cf2aed4).
* [rouge 1.0.1](https://pypi.org/project/rouge/).

# What's Next

* Selain beberapa use case yang sudah kita pelajari di atas, Anda dapat mengeksplor use case lain contoh penggunaan LLM menggunakan LangChain: https://python.langchain.com/v0.1/docs/use_cases.
* Anda juga bisa membuat aplikasi berbasis LLM dalam bentuk dashboard yang di-deploy, misalnya melalui Streamlit:
    * Contoh dashboard: https://ask-summarize-pdf.streamlit.app/.
    * Source code: https://github.com/saskia-dwi-ulfah/ptld5-dashboard.

# Summary

Pada workshop ini, kita telah mempelajari banyak hal tentang Large Language Models (LLM). Kita memulai dengan memahami dasar-dasar Python yang penting untuk bekerja dengan LLM, termasuk berbagai library dan tools yang digunakan. Kemudian, kita mendalami foundational LLM, mulai dari konsep dasar tentang apa itu LLM, bagaimana ia bekerja, hingga berbagai arsitektur yang digunakan serta mekanisme pelatihannya.

Selain itu, kita juga mengeksplorasi penggunaan LLM untuk file PDF, seperti fitur Q&A dan summarization. Ini memungkinkan LLM mengekstrak informasi penting dari dokumen PDF dan memberikan ringkasan yang berguna. Penggunaan ini menunjukkan bagaimana LLM dapat diterapkan dalam berbagai konteks untuk meningkatkan efisiensi dan efektivitas pengolahan data.

Selanjutnya, kami mendorong Anda untuk mengeksplorasi lebih jauh berbagai use case lain dari LLM, seperti analisis data, chatbot, dan automasi tugas administratif. Anda juga bisa mempelajari cara men-deploy model ini dalam bentuk dashboard atau aplikasi lain yang dapat digunakan dalam konteks bisnis atau personal. 

Semoga pengetahuan yang telah kita pelajari dalam workshop ini dapat menjadi dasar yang kuat bagi Anda untuk terus berkembang dan berinovasi dengan LLM.

**END OF DAY 3**

# Resources

* [Python Tutorial](https://www.w3schools.com/python/).
* [The Python Tutorial](https://docs.python.org/3.10/tutorial/index.html).
* [LangChain Documentation](https://python.langchain.com/v0.1/docs/get_started/introduction).
* [Gemini API Documentation](https://ai.google.dev/gemini-api/docs).
* [OpenAI API Documentation](https://platform.openai.com/docs/api-reference).