# DSS May 2024: Efficient Information Extraction: Q&A and Summarization over PDF Documents using LLM

* Instruktur: [Saskia Dwi Ulfah](https://www.linkedin.com/in/saskia-dwi-ulfah/).
* Last updated: May 2024.

# Background

📕 Dokumen yang disimpan dalam format **Portable Document Format (PDF)** merupakan salah satu bentuk dokumen yang sering digunakan untuk bertukar informasi melalui internet dan perangkat digital seperti handphone, laptop, dan komputer. PDF juga dimanfaatkan di berbagai sektor. Di bidang pendidikan, mahasiswa dapat mengakses jurnal penelitian dengan format PDF melalui website seperti Elsevier dan IEEE. Di bidang finansial, perusahaan menampilkan laporan keuangan tahunan dalam format PDF pada website perusahaan.


⛳ Format PDF merupakan format yang universal. Artinya, dokumen yang disimpan dalam format PDF dapat diakses secara mudah pada perangkat yang berbeda. Selain itu, format PDF lebih disukai karena tampilan dokumen yang lebih rapi dibandingkan format dokumen lainnya. PDF juga men-support dokumen yang terdiri lebih dari satu halaman. Hal ini memungkinkan pengguna untuk menuliskan informasi yang lengkap dan komprehensif dalam sebuah dokumen PDF. Akan tetapi, hal ini membuat **dokumen PDF cenderung tebal dan kompleks** sehingga menyebabkan pembaca **kesulitan untuk menemukan informasi yang spesifik**.

💡 Dengan perkembangan teknologi artificial intelligence  (AI) dan machine learning (ML), kita dapat menggunakan **Large Language Model (LLM)** untuk pencarian informasi pada dokumen PDF. Pada workshow ini, Anda akan belajar bagaimana kita dapat memperluas kemampuan LLM untuk pencarian informasi secara efisien dari dokumen PDF. Dimulai dengan dokumen PDF biasa, Anda akan belajar cara memproses dokumen ini dan menyajikannya sebagai konteks tambahanuntuk LLM.


## Learning Outcomes

🎯 Setelah menyelesaikan workshop ini, Anda diharapkan dapat:

* Memahami konsep dasar dari LLM
* Mengimplementasikan penggunaan LLM dengan framework LangChain
* Memahami workflow yang digunakan dalam menyediakan additional context untuk LLM
* Mengembangkan skill di bidang AI dan data science dengan menguasai teknik information retrieval dari dokumen PDF menggunakan LLM.

## Training Syllabus

* **Python Programming Basics** 
    - Introduction to Python for Data Science
    - Working with Python Environment
    - Python Fundamental Data Types and Data Structures
    - Understanding Looping Concept in Python
    - Understanding The Creation of Python Function
    - Understanding The Usage of Python Libraries
* **The Fundamentals of LLM**
    - The Concept of Generative AI 
    - LLM as Generative AI 
    - Transformer Architecture in a Nutshell
    - LLM Capability, Limitation, and Consideration
* **Introduction to LangChain**
    - The Big Picture of LangChain Concept and Component
    - API Concept and Setting for LangChain Usage
    - Demonstration of LLM Usage with LangChain
* **Case Study: Q&A and Summarization for PDF Document**
    - The Concept of RAG (Retrieval Augmented Generation)
    - Loading PDF Documents using LangChain
    - The Concept of Embedding for PDF Documents
    - Storing The Embedding using a Vector Database
    - Prompt Creation for Q&A and Summarization Cases
    - Employing LLM for Information Retrieval

# Python Programming Basics

## Introduction to Python for Data Science

🐍 **Python** merupakan bahasa pemrograman yang banyak digunakan untuk data science dan artificial intelligence. Bahasa pemrograman ini dirancang oleh Guido van Rossum dan pertama kali dirilis pada tahun 1991.

Beberapa fitur yang menjadi keunggulan Python:
- Sintaks yang intuitif dan mudah dipelajari.
- Ketersediaan library dan framework yang kaya dan informatif. Beberapa library yang sering digunakan di Python.
    * Pandas: untuk mengolah data dalam bentuk dataframe.
    * Numpy: untuk proses matematika yang melibatkan matriks.
    * Matplotlib dan Seaborn: untuk visualisasi data.
    * Scikit-learn: untuk membuat model machine learning.
    * PyTorch dan Tensforlow: untuk membuat model deep learning.
    * **Langchain**: untuk membuat aplikasi berbasis LLM.

> 📌 [Python 3.10 Official Documentation](https://docs.python.org/3.10/)

## Working with Python Environment

![](assets/venv.png)

🏤 **Virtual environment** adalah environment terisolasi yang memungkinkan setiap environment memiliki instalasi dan versi package yang khusus dan berbeda. Kita bisa menggunakan virtual environment saat memiliki banyak projek di mana setiap projek membutuhkan package dengan versi yang spesifik. Dengan menggunakan virtual environment, kita bisa menjalankan berbagai macam projek pada satu device yang sama tanpa perlu khawatir akan adanya permasalahan yang timbul karena perbedaan versi package (dependency conflict).

⚙️ **Membuat Virtual Environment Baru**

1. Buka terminal baru. Pilih menu `Terminal` dan pilih menu `New Terminal`.

![](assets/terminal_menu.png)

2. Membuat environmet baru dengan nama `dss_may2024` dengan Python versi 3.10.
   * Sintaks: `conda create -n dss_may2024 python==3.10`.
   * Tunggu hingga proses pembuatan virtual environment selesai.

![](assets/make_venv.png)

3. Aktifkan environment yang sudah dibuat.
   * Sintaks: `conda activate dss_may2024`.

![](assets/activate_venv.png)


⚙️ **Meng-install Library yang Diperlukan**

Setelah membuat virtual environment, kita akan meng-install semua library yang akan digunakan pada workshop kali ini. 

* Meng-install banyak library sekaligus: dengan file `requirements.txt`.
  * Sintaks: `pip install -r requirements.txt`.

![](assets/install_req.png)

* Meng-install 1 library.
  * Sintaks: `pip install <PACKAGE_NAME>`.

## Working with Notebook

File yang sedang kita gunakan saat ini  disebut dengan **notebook**.

## Python Variable and Data Type

### Variable

Saat menggunakan Python, sebagian besar pekerjaan kita melibatkan penyimpanan nilai tertentu dalam variabel. Untuk menyimpan nilai ke sebuah variabel, kita menggunakan assignment operator (`=`). 

Sebagai contoh, kita mendefinisikan variabel `activity` untuk menyimpan nilai `"programming"`.

In [1]:
activity = "programming"

Penting untuk diperhatikan bahwa nama variabel dapat menyertakan angka, tetapi tidak boleh dimulai dengan angka. Memulai nama variabel dengan angka akan menimbulkan pesar error. 

Pada kode di bawah ini, kita mencoba mendefinisikan variabel `1activity`. 

Kita menggunakan simbol `#` untuk mengomentari bagian dari kode. Bagian yang dikomentari ini tidak akan dieksekusi. `#` dapat digunakan apabila kita ingin memberi penjelasan kode yang sudah dibuat. 

Untuk melihat pesan error yang muncul, hapus `#` pada baris pertama kode di bawah ini.



In [2]:
# 1activity = "playing"
# will raise SyntaxError

### Data Type

Setiap nilai yang tersimpan dalam variabel memiliki tipe data tertentu. Terdapat tiga tipe data yang sering dijumpai di Python:

* Tipe data untuk menyimpan nilai teks: `str`.
* Tipe data untuk menyimpan nilai numerik: `int` dan `float`. 
  > Penting untuk diperhatikan bahwa tipe `float` disediakan untuk angka floating-point (berkoma).
* Tipe data untuk menyimpan nilai kebenaran: `bool`.

Untuk memverifikasi tipe sebuah variabel, kita dapat memasukkan variabel tersebut ke dalam fungsi built-in `type()`.

In [3]:
a = "Studying" # str type
print(type(a))

<class 'str'>


In [4]:
b = 10 # int type
print(type(b))

<class 'int'>


In [5]:
c = 10.0 # float type
print(type(c))

<class 'float'>


In [6]:
d = True # bool type
print(type(d))

<class 'bool'>


Python bersifat **case-sensitive**. `"Activity"` dan `"activity"` adalah nilai yang berbeda. 

Pada kode di bawah ini, kita menggunakan operator `==` untuk membandingkan kesetaraan kedua nilai tersebut.

In [7]:
'activity' == 'Activity'

False

> Output dari kode di atas adalah `False`. Hal ini menandakan kedua nilai tersebut berbeda.

### Python Keywords

Beberapa hal yang perlu diperhatikan: `True` dan  `False` termasuk dalam daftar istilah yang disebut sebagai **Python keywords**. Kita tidak dapat menggunakan keywords ini sebagai nama variabel, nama fungsi, atau memberikan nilai kepada mereka (melakukan assignment).

Berikut adalah daftar keywords lainnya.

In [8]:
# cek daftar keywords
import keyword

keyword.kwlist

['False',
 'None',
 'True',
 'and',
 'as',
 'assert',
 'async',
 'await',
 'break',
 'class',
 'continue',
 'def',
 'del',
 'elif',
 'else',
 'except',
 'finally',
 'for',
 'from',
 'global',
 'if',
 'import',
 'in',
 'is',
 'lambda',
 'nonlocal',
 'not',
 'or',
 'pass',
 'raise',
 'return',
 'try',
 'while',
 'with',
 'yield']

## Python Data Structure

## Looping

## Function

## Python Libraries

# The Fundamentals of LLM

# Introduction to LangChain

# Case Study: Q&A and Summarization for PDF Document

## Q&A

## Summarization