# DSS May 2024: Efficient Information Extraction: Q&A and Summarization over PDF Documents using LLM

* Instruktur: [Saskia Dwi Ulfah](https://www.linkedin.com/in/saskia-dwi-ulfah/).
* Last updated: May 2024.

# Background

📕 Dokumen yang disimpan dalam format **Portable Document Format (PDF)** merupakan salah satu bentuk dokumen yang sering digunakan untuk bertukar informasi melalui internet dan perangkat digital seperti handphone, laptop, dan komputer. PDF juga dimanfaatkan di berbagai sektor. Di bidang pendidikan, mahasiswa dapat mengakses jurnal penelitian dengan format PDF melalui website seperti Elsevier dan IEEE. Di bidang finansial, perusahaan menampilkan laporan keuangan tahunan dalam format PDF pada website perusahaan.


⛳ Format PDF merupakan format yang universal. Artinya, dokumen yang disimpan dalam format PDF dapat diakses secara mudah pada perangkat yang berbeda. Selain itu, format PDF lebih disukai karena tampilan dokumen yang lebih rapi dibandingkan format dokumen lainnya. PDF juga men-support dokumen yang terdiri lebih dari satu halaman. Hal ini memungkinkan pengguna untuk menuliskan informasi yang lengkap dan komprehensif dalam sebuah dokumen PDF. Akan tetapi, hal ini membuat **dokumen PDF cenderung tebal dan kompleks** sehingga menyebabkan pembaca **kesulitan untuk menemukan informasi yang spesifik**.

💡 Dengan perkembangan teknologi artificial intelligence  (AI) dan machine learning (ML), kita dapat menggunakan **Large Language Model (LLM)** untuk pencarian informasi pada dokumen PDF. Pada workshow ini, Anda akan belajar bagaimana kita dapat memperluas kemampuan LLM untuk pencarian informasi secara efisien dari dokumen PDF. Dimulai dengan dokumen PDF biasa, Anda akan belajar cara memproses dokumen ini dan menyajikannya sebagai konteks tambahanuntuk LLM.


## Learning Outcomes

🎯 Setelah menyelesaikan workshop ini, Anda diharapkan dapat:

* Memahami konsep dasar dari LLM
* Mengimplementasikan penggunaan LLM dengan framework LangChain
* Memahami workflow yang digunakan dalam menyediakan additional context untuk LLM
* Mengembangkan skill di bidang AI dan data science dengan menguasai teknik information retrieval dari dokumen PDF menggunakan LLM.

## Training Syllabus

* **Python Programming Basics** 
    - Introduction to Python for Data Science
    - Working with Python Environment
    - Python Fundamental Data Types and Data Structures
    - Understanding Looping Concept in Python
    - Understanding The Creation of Python Function
    - Understanding The Usage of Python Libraries
* **The Fundamentals of LLM**
    - The Concept of Generative AI 
    - LLM as Generative AI 
    - Transformer Architecture in a Nutshell
    - LLM Capability, Limitation, and Consideration
* **Introduction to LangChain**
    - The Big Picture of LangChain Concept and Component
    - API Concept and Setting for LangChain Usage
    - Demonstration of LLM Usage with LangChain
* **Case Study: Q&A and Summarization for PDF Document**
    - The Concept of RAG (Retrieval Augmented Generation)
    - Loading PDF Documents using LangChain
    - The Concept of Embedding for PDF Documents
    - Storing The Embedding using a Vector Database
    - Prompt Creation for Q&A and Summarization Cases
    - Employing LLM for Information Retrieval

# Python Programming Basics

## Introduction to Python for Data Science

🐍 **Python** merupakan bahasa pemrograman yang banyak digunakan untuk data science dan artificial intelligence. Bahasa pemrograman ini dirancang oleh Guido van Rossum dan pertama kali dirilis pada tahun 1991.

Beberapa fitur yang menjadi keunggulan Python:
- Sintaks yang intuitif dan mudah dipelajari.
- Ketersediaan library dan framework yang kaya dan informatif. Beberapa library yang sering digunakan di Python.
    * Pandas: untuk mengolah data dalam bentuk dataframe.
    * Numpy: untuk proses matematika yang melibatkan matriks.
    * Matplotlib dan Seaborn: untuk visualisasi data.
    * Scikit-learn: untuk membuat model machine learning.
    * PyTorch dan Tensorflow: untuk membuat model deep learning.
    * **Langchain**: untuk membuat aplikasi berbasis LLM.

> 📌 [Python 3.10 Official Documentation](https://docs.python.org/3.10/)

## Working with Python Environment

![](assets/venv.png)

🏤 **Virtual environment** adalah environment terisolasi yang memungkinkan setiap environment memiliki instalasi dan versi package yang khusus dan berbeda. Kita bisa menggunakan virtual environment saat memiliki banyak projek di mana setiap projek membutuhkan package dengan versi yang spesifik. Dengan menggunakan virtual environment, kita bisa menjalankan berbagai macam projek pada satu device yang sama tanpa perlu khawatir akan adanya permasalahan yang timbul karena perbedaan versi package (dependency conflict).

⚙️ **Membuat Virtual Environment Baru**

1. Buka terminal baru. Pilih menu `Terminal` dan pilih menu `New Terminal`.

![](assets/terminal_menu.png)

2. Membuat environmet baru dengan nama `dss_may2024` dengan Python versi 3.10.
   * Sintaks: `conda create -n dss_may2024 python==3.10`.
   * Tunggu hingga proses pembuatan virtual environment selesai.

![](assets/make_venv.png)

3. Aktifkan environment yang sudah dibuat.
   * Sintaks: `conda activate dss_may2024`.

![](assets/activate_venv.png)


⚙️ **Meng-install Library yang Diperlukan**

Setelah membuat virtual environment, kita akan meng-install semua library yang akan digunakan pada workshop kali ini. 

* Meng-install banyak library sekaligus: dengan file `requirements.txt`.
  * Sintaks: `pip install -r requirements.txt`.

![](assets/install_req.png)

* Meng-install 1 library.
  * Sintaks: `pip install <PACKAGE_NAME>`.

## Working with Notebook

### Markdown and Code Cell

File yang sedang kita gunakan saat ini  disebut dengan **notebook**. Notebook merupakan file Python dengan format `.ipynb` yang memungkinkan kita untuk menulis kode Python dan memberikan penjelasan secara interaktif pada cell. Terdapat 2 jenis cell pada notebook:

* **Markdown**
    * Untuk menuliskan narasi.
    * Kita bisa menulis teks **bold**, *italic*, bahkan formula matematis seperti:

    $$f(x) = \frac{e^{-x}}{(1+e^{-x})}$$

* **Code**
    * Untuk menuliskan kode Python.

In [9]:
# print("Ini adalah code cell") --> tidak akan dieksekusi oleh Python

print("Large Language Model")

Large Language Model


### Command and Edit Mode

Terdapat 2 mode cell dalam notebook:

1. **Command Mode**
    - `a` : Menambah cell baru di atas.
    - `b` : Menambah cell baru di bawah.
    - `d` + `d` : Menghapus cell terpilih.
    - `c` : Menyalin cell terpilih.
    - `v` : Paste cell terpilih.
    - `m` : Mengubah tipe cell ke markdown.
    - `y` : Mengubah tipe cell ke kode.
    - `enter` : enter Edit Mode.


2. **Edit Mode (Cell Terdapat Border Biru Persegi Panjang)**
    - `Ctrl + Enter`: eksekusi satu cell.
    - `Esc`: mengubah edit mode menjadi command mode.

## Python Variable and Data Type

### Variable

Saat menggunakan Python, sebagian besar pekerjaan kita melibatkan penyimpanan nilai tertentu dalam variabel. Untuk menyimpan nilai ke sebuah variabel, kita menggunakan assignment operator (`=`). 

Sebagai contoh, kita mendefinisikan variabel `activity` untuk menyimpan nilai `"programming"`.

In [1]:
activity = "programming"

Penting untuk diperhatikan bahwa nama variabel dapat menyertakan angka, tetapi tidak boleh dimulai dengan angka. Memulai nama variabel dengan angka akan menimbulkan pesar error. 

Pada kode di bawah ini, kita mencoba mendefinisikan variabel `1activity`. 

Kita menggunakan simbol `#` untuk mengomentari bagian dari kode. Bagian yang dikomentari ini tidak akan dieksekusi. `#` dapat digunakan apabila kita ingin memberi penjelasan kode yang sudah dibuat. 

Untuk melihat pesan error yang muncul, hapus `#` pada baris pertama kode di bawah ini.



In [2]:
# 1activity = "playing"
# will raise SyntaxError

### Data Type

Setiap nilai yang tersimpan dalam variabel memiliki tipe data tertentu. Terdapat tiga tipe data yang sering dijumpai di Python:

* Tipe data untuk menyimpan nilai teks: `str`.
* Tipe data untuk menyimpan nilai numerik: `int` dan `float`. 
  > Penting untuk diperhatikan bahwa tipe `float` disediakan untuk angka floating-point (berkoma).
* Tipe data untuk menyimpan nilai kebenaran: `bool`.

Untuk memverifikasi tipe sebuah variabel, kita dapat memasukkan variabel tersebut ke dalam fungsi built-in `type()`.

#### String

In [16]:
# string dengan kutip 1
str1 = 'Studying' # str type
print(str1)
print(type(str1))

Studying
<class 'str'>


In [19]:
# string dengan kutip 2
str2 = "Judul DSS bulan ini: 'Efficient Information Extraction: Q&A and Summarization over PDF Documents using LLM'"
print(str2)
print(type(str2))

Judul DSS bulan ini: 'Efficient Information Extraction: Q&A and Summarization over PDF Documents using LLM'
<class 'str'>


In [21]:
# string dengan kutip 3
str3 = ''' Ini adalah contoh string kutip 3. Kita dapat menulis kalimat dengan lebih rapi pada baris baru.
'''
print(str3)
print(type(str3))

 Ini adalah contoh string kutip 3. Kita dapat menulis kalimat dengan lebih rapi pada baris baru.

<class 'str'>


#### Number

In [22]:
b = 10 # int type
print(type(b))

<class 'int'>


In [23]:
c = 10.0 # float type
print(type(c))

<class 'float'>


#️⃣ **Operasi pada Angka** 

- `+`: penjumlahan.
- `-`: pengurangan.
- `*`: perkalian.
- `/`: pembagian.
- `//`: pembagian dengan pembulatan.
- `%`: sisa pembagian.
- `**`: eksponen.

In [24]:
print(15 + 3) # penjumlahan  
print(15 - 3) # pengurangan 
print(15 * 3) # perkalian 
print(15 / 3) # pembagian 
print(15 // 3) # pembagian dengan pembulatan
print(15 % 3) # sisa pembagian
print(15 ** 3) # eksponen

18
12
45
5.0
5
0
3375


#### Boolean

In [6]:
d = True # bool type
print(type(d))

<class 'bool'>


Python bersifat **case-sensitive**. `"Activity"` dan `"activity"` adalah nilai yang berbeda. 

Pada kode di bawah ini, kita menggunakan operator `==` untuk membandingkan kesetaraan kedua nilai tersebut.

In [7]:
'activity' == 'Activity'

False

> Output dari kode di atas adalah `False`. Hal ini menandakan kedua nilai tersebut berbeda.

Operator perbandingan lainnya:

- `<`: lebih kecil dari (yaitu : a < b).
- `<=`: lebih kecil atau sama dengan (yaitu : a <= b).
- `>`: lebih besar dari (yaitu: a > b).
- `>=`: lebih besar atau sama dengan (yaitu: a >= b).
- `!=`: tidak sama dengan (yaitu: a != b).

In [25]:
print(15 < 3) 
print(15 <= 3)  
print(15 > 3)  
print(15 >= 3) 
print(15 != 3) 

False
False
True
True
True


### Python Keywords

Beberapa hal yang perlu diperhatikan: `True` dan  `False` termasuk dalam daftar istilah yang disebut sebagai **Python keywords**. Kita tidak dapat menggunakan keywords ini sebagai nama variabel, nama fungsi, atau memberikan nilai kepada mereka (melakukan assignment).

Berikut adalah daftar keywords lainnya.

In [8]:
# cek daftar keywords
import keyword

keyword.kwlist

['False',
 'None',
 'True',
 'and',
 'as',
 'assert',
 'async',
 'await',
 'break',
 'class',
 'continue',
 'def',
 'del',
 'elif',
 'else',
 'except',
 'finally',
 'for',
 'from',
 'global',
 'if',
 'import',
 'in',
 'is',
 'lambda',
 'nonlocal',
 'not',
 'or',
 'pass',
 'raise',
 'return',
 'try',
 'while',
 'with',
 'yield']

## Python Data Structure

Sebelumnya, kita sudah melihat tipe data apa yang dapat dimiliki oleh variabel di Python. Untuk keperluan tingkat lanjut, Python memiliki beberapa **data structure** untuk menyimpan beberapa tipe data secara bersamaan. Terdapat 2 **data structure** yang sering digunakan: list dan dictionary.

## List

**List** merupakan data structure yang memungkinkan kita untuk menyimpan beberapa nilai dengan tipe data yang berbeda. Untuk membuat list, kita menggunakan kurung siku (`[ ]`). Misalnya:

In [27]:
list_example = ["Taylor Swift",
                34, 
                ['Shake It Off','Blank Space','Lover'],
                True]

In [28]:
print(list_example)

['Taylor Swift', 34, ['Shake It Off', 'Blank Space', 'Lover'], True]


In [29]:
type(list_example)

list

Untuk mengakses nilai yang terdapat di dalam list, kita menggunakan **indeks/posisi** dari nilai tersebut.

> ℹ️ Python menerapkan **zero-indexing**. Posisi pertama memiliki indeks 0, posisi kedua memiliki indeks 1, dan seterusnya.

In [32]:
# mengakses usia Taylor Swift: posisi 2, indeks 1

list_example[1]

34

Jika kita ingin mengakses beberapa nilai dalam list sekaligus, kita bisa menggunakan `:`. Misalnya, kita ingin mengakses nama, usia, dan daftar lagu yang populer.

In [43]:
list_example[0:3]

['Taylor Swift', 34, ['Shake It Off', 'Blank Space', 'Lover']]

Dengan kode di atas, kita hanya menampilkan data dengan indeks 0-2.

Cara lain untuk mengakses nilai di dalam list adalah menggunakan **back indexing**. Dengan back indexing, kita menggunakan nilai negatif untuk mengakses nilai di dalam list dari belakang. Misalnya, jika kita memasukkan indeks -1, kita akan menampilkan item terakhir dari list.

In [44]:
# item terakhir di list
list_example[-1]

True

In [45]:
# mengakses daftar lagu populer
list_example[-2]

['Shake It Off', 'Blank Space', 'Lover']

## Dictionary

Pada list, kita menggunakan indeks untuk mengakses sebuah nilai. Pada **dictionary** kita menggunakan **key** untuk mengakses sebuah nilai/**value**. Untuk membuat sebuah dictionary, kita menggunakan kurung keriting (`{ }`). Misalnya:

In [50]:
dict_example = {
    "name" : "Taylor Swift",
    "age" : 34,
    "popular_songs" : ['Shake It Off','Blank Space','Lover']
}

In [48]:
dict_example

{'name': 'Taylor Swift',
 'age': 34,
 'popular_songs': ['Shake It Off', 'Blank Space', 'Lover']}

In [52]:
type(dict_example)

dict

Dengan contoh di atas:

* Yang merupakan key adalah `"name"`, `"age"`, dan `"popular_songs"`.
* Yang merupakan value adalah `"Taylor Swift"`, `34`, dan `['Shake It Off', 'Blank Space', 'Lover']`.

Untuk mengakses usia Taylor Swift:

In [51]:
# mengakses usia dengan key "age"
dict_example['age']

34

## Looping (`while`)

🔁 **Looping** pada Python merupakan eksekusi kode secara berulang sampai suatu kondisi terpenuhi. Salah satu sintaks untuk melakukan looping di Python adalah `while`. Contoh:

In [58]:
i = 1

while i <= 5:
    print(f"Ini adalah iterasi ke {i}")
    i += 1


Ini adalah iterasi ke 1
Ini adalah iterasi ke 2
Ini adalah iterasi ke 3
Ini adalah iterasi ke 4
Ini adalah iterasi ke 5


> ℹ️ `f` pada saat menampilkan kalimat di atas disebut dengan **F-string**. Sederhananya, F-string memungkinkan kita untuk menampilkan nilai dari sebuah variabel secara dinamis dalam sebuah kalimat.

Pada kode di atas:

* Kita mendefinisikan kondisi awal, `i = 1`.
* Pengecekan kondisi, apakah nilai `i` saat ini kecil atau sama dengan 5.
  * Jika benar, maka akan ditampilkan tulisan dan nilai `i` akan bertambah 1. 
  * Jika tidak, proses iterasi akan berakhir.

## Function

**Function** pada Python merupakan blok kode yang dapat digunakan secara berulang. Penggunaan function dapat membuat penulisan kode kita menjadi lebih rapi dan tidak redundan. 

Function pada Python umumnya memiliki 2 komponen utama:

* **Parameter**: input untuk function.
* **Return value**: output hasil operasi function.

Misalnya, kita membuat sebuah function untuk melakukan beberapa operasi matematika sekaligus.

In [61]:
def math_ops(num1, num2, num3):
    sum = num1 + num2 + num3
    sub = num1 - num2 - num3

    print(f"Angka: {num1}, {num2}, {num3}")
    print(f"Hasil penjumlahan: {sum}")
    print(f"Hasil pengurangan: {sub}")

    return sum, sub

In [62]:
hasil_jumlah, hasil_kurang = math_ops(100, 15, 25)

Angka: 100, 15, 25
Hasil penjumlahan: 140
Hasil pengurangan: 60


In [63]:
print(hasil_jumlah)
print(hasil_kurang)

140
60


## Python Libraries

Salah satu kelebihan Python adalah tersedianya banyak **package** atau **library** yang dapat kita gunakan dengan mudah. Kita dapat menganggap library sebagai sekumpulan fungsi/program yang telah ditulis orang lain dan dapat kita gunakan kembali. Untuk dapat menggunakan fungsi yang terdapat dalam suatu library, kita harus meng-import library tersebut. 

Terdapat 2 cara paling umum untuk meng-import libry:

* Import library dengan statement `import`. Penggunaan fungsi menyertakan nama library.

```python
# import the library
import langchain_community.document_loaders

# how to call the function
pdf_loader = langchain_community.document_loaders.PyPDFLoader()

```

* Import fungsi langsung dengan statement `from`. Penggunaan fungsi tidak menyertakan nama library.

```python
# import the library
from langchain_community.document_loaders import PyPDFLoader()

# how to call the function
pdf_loader = PyPDFLoader()

```

# The Fundamentals of LLM

## The Concept of Generative AI

## LLM as Generative AI 

## Transformer Architecture in a Nutshell

## LLM Capability, Limitation, and Consideration

# Introduction to LangChain

# Case Study: Q&A and Summarization for PDF Document

## Q&A

## Summarization