# DSS May 2024: Efficient Information Extraction: Q&A and Summarization over PDF Documents using LLM

* Instruktur: [Saskia Dwi Ulfah](https://www.linkedin.com/in/saskia-dwi-ulfah/).
* Last updated: May 2024.

# Background

📕 Dokumen yang disimpan dalam format **Portable Document Format (PDF)** merupakan salah satu bentuk dokumen yang sering digunakan untuk bertukar informasi melalui internet dan perangkat digital seperti handphone, laptop, dan komputer. PDF juga dimanfaatkan di berbagai sektor. Di bidang pendidikan, mahasiswa dapat mengakses jurnal penelitian dengan format PDF melalui website seperti Elsevier dan IEEE. Di bidang finansial, perusahaan menampilkan laporan keuangan tahunan dalam format PDF pada website perusahaan.


⛳ Format PDF merupakan format yang universal. Artinya, dokumen yang disimpan dalam format PDF dapat diakses secara mudah pada perangkat yang berbeda. Selain itu, format PDF lebih disukai karena tampilan dokumen yang lebih rapi dibandingkan format dokumen lainnya. PDF juga men-support dokumen yang terdiri lebih dari satu halaman. Hal ini memungkinkan pengguna untuk menuliskan informasi yang lengkap dan komprehensif dalam sebuah dokumen PDF. Akan tetapi, hal ini membuat **dokumen PDF cenderung tebal dan kompleks** sehingga menyebabkan pembaca **kesulitan untuk menemukan informasi yang spesifik**.

💡 Dengan perkembangan teknologi artificial intelligence  (AI) dan machine learning (ML), kita dapat menggunakan **Large Language Model (LLM)** untuk pencarian informasi pada dokumen PDF. Pada workshow ini, Anda akan belajar bagaimana kita dapat memperluas kemampuan LLM untuk pencarian informasi secara efisien dari dokumen PDF. Dimulai dengan dokumen PDF biasa, Anda akan belajar cara memproses dokumen ini dan menyajikannya sebagai konteks tambahanuntuk LLM.


## Learning Outcomes

🎯 Setelah menyelesaikan workshop ini, Anda diharapkan dapat:

* Memahami konsep dasar dari LLM.
* Mengimplementasikan penggunaan LLM dengan framework LangChain.
* Memahami workflow yang digunakan dalam menyediakan additional context untuk LLM.
* Mengembangkan skill di bidang AI dan data science dengan menguasai teknik information retrieval dari dokumen PDF menggunakan LLM.

## Training Syllabus

* **Python Programming Basics** 
    - Introduction to Python for Data Science.
    - Working with Python Environment.
    - Working with Notebook.
    - Python Fundamental Data Types and Data Structures.
    - Understanding Looping Concept in Python.
    - Understanding The Creation of Python Function.
    - Understanding The Usage of Python Libraries.
* **The Fundamentals of LLM**
    - The Concept of Generative AI.
    - LLM as Generative AI.
    - Transformer Architecture in a Nutshell
    - LLM Capability, Limitation, and Consideration
* **Introduction to LangChain**
    - The Big Picture of LangChain Concept and Component
    - API Concept and Setting for LangChain Usage
    - Demonstration of LLM Usage with LangChain
* **Case Study: Q&A and Summarization for PDF Document**
    - The Concept of RAG (Retrieval Augmented Generation)
    - Loading PDF Documents using LangChain
    - The Concept of Embedding for PDF Documents
    - Storing The Embedding using a Vector Database
    - Prompt Creation for Q&A and Summarization Cases
    - Employing LLM for Information Retrieval

# Python Programming Basics

## Introduction to Python for Data Science

🐍 **Python** merupakan bahasa pemrograman yang banyak digunakan untuk data science dan artificial intelligence. Bahasa pemrograman ini dirancang oleh Guido van Rossum dan pertama kali dirilis pada tahun 1991.

Beberapa fitur yang menjadi keunggulan Python:
- Sintaks yang intuitif dan mudah dipelajari.
- Ketersediaan library dan framework yang kaya dan informatif. Beberapa library yang sering digunakan di Python.
    * Pandas: untuk mengolah data dalam bentuk dataframe.
    * Numpy: untuk proses matematika yang melibatkan matriks.
    * Matplotlib dan Seaborn: untuk visualisasi data.
    * Scikit-learn: untuk membuat model machine learning.
    * PyTorch dan Tensorflow: untuk membuat model deep learning.
    * **Langchain**: untuk membuat aplikasi berbasis LLM.

> 📌 [Python 3.10 Official Documentation](https://docs.python.org/3.10/)

## Working with Python Environment

![](assets/venv.png)

🏤 **Virtual environment** adalah environment terisolasi yang memungkinkan setiap environment memiliki instalasi dan versi package yang khusus dan berbeda. Kita bisa menggunakan virtual environment saat memiliki banyak projek di mana setiap projek membutuhkan package dengan versi yang spesifik. Dengan menggunakan virtual environment, kita bisa menjalankan berbagai macam projek pada satu device yang sama tanpa perlu khawatir akan adanya permasalahan yang timbul karena perbedaan versi package (dependency conflict).

⚙️ **Membuat Virtual Environment Baru**

1. Buka terminal baru. Pilih menu `Terminal` dan pilih menu `New Terminal`.

![](assets/terminal_menu.png)

2. Membuat environmet baru dengan nama `dss_may2024` dengan Python versi 3.10.
   * Sintaks: `conda create -n dss_may2024 python==3.10`.
   * Tunggu hingga proses pembuatan virtual environment selesai.

![](assets/make_venv.png)

3. Aktifkan environment yang sudah dibuat.
   * Sintaks: `conda activate dss_may2024`.

![](assets/activate_venv.png)


⚙️ **Meng-install Library yang Diperlukan**

Setelah membuat virtual environment, kita akan meng-install semua library yang akan digunakan pada workshop kali ini. 

* Meng-install banyak library sekaligus: dengan file `requirements.txt`.
  * Sintaks: `pip install -r requirements.txt`.

![](assets/install_req.png)

* Meng-install 1 library.
  * Sintaks: `pip install <PACKAGE_NAME>`.

## Working with Notebook

### Markdown and Code Cell

File yang sedang kita gunakan saat ini  disebut dengan **notebook**. Notebook merupakan file Python dengan format `.ipynb` yang memungkinkan kita untuk menulis kode Python dan memberikan penjelasan secara interaktif pada cell. Terdapat 2 jenis cell pada notebook:

* **Markdown**
    * Untuk menuliskan narasi.
    * Kita bisa menulis teks **bold**, *italic*, bahkan formula matematis seperti:

    $$f(x) = \frac{e^{-x}}{(1+e^{-x})}$$

* **Code**
    * Untuk menuliskan kode Python.

In [1]:
# print("Ini adalah code cell") --> tidak akan dieksekusi oleh Python

print("Large Language Model")

Large Language Model


### Command and Edit Mode

Terdapat 2 mode cell dalam notebook:

1. **Command Mode**
    - `a` : menambah cell baru di atas.
    - `b` : menambah cell baru di bawah.
    - `d` + `d` : menghapus cell terpilih.
    - `c` : menyalin cell terpilih.
    - `v` : paste cell terpilih.
    - `m` : mengubah tipe cell ke markdown.
    - `y` : mengubah tipe cell ke kode.
    - `enter` : enter edit mode.


2. **Edit Mode (Cell Terdapat Border Biru Persegi Panjang)**
    - `Ctrl + Enter`: eksekusi satu cell.
    - `Esc`: mengubah edit mode menjadi command mode.

## Python Variable and Data Type

### Variable

Saat menggunakan Python, sebagian besar pekerjaan kita melibatkan penyimpanan nilai tertentu dalam variabel. Untuk menyimpan nilai ke sebuah variabel, kita menggunakan assignment operator (`=`). 

Sebagai contoh, kita mendefinisikan variabel `activity` untuk menyimpan nilai `"programming"`.

In [2]:
activity = "programming"

Penting untuk diperhatikan bahwa nama variabel dapat menyertakan angka, tetapi tidak boleh dimulai dengan angka. Memulai nama variabel dengan angka akan menimbulkan pesar error. 

Pada kode di bawah ini, kita mencoba mendefinisikan variabel `1activity`. 

Kita menggunakan simbol `#` untuk mengomentari bagian dari kode. Bagian yang dikomentari ini tidak akan dieksekusi. `#` dapat digunakan apabila kita ingin memberi penjelasan kode yang sudah dibuat. 

Untuk melihat pesan error yang muncul, hapus `#` pada baris pertama kode di bawah ini.



In [3]:
# 1activity = "playing"
# menampilkan pesan SyntaxError

### Data Type

Setiap nilai yang tersimpan dalam variabel memiliki tipe data tertentu. Terdapat tiga tipe data yang sering dijumpai di Python:

* Tipe data untuk menyimpan nilai teks: `str`.
* Tipe data untuk menyimpan nilai numerik: `int` dan `float`. 
  > Penting untuk diperhatikan bahwa tipe `float` disediakan untuk angka floating-point (berkoma).
* Tipe data untuk menyimpan nilai kebenaran: `bool`.

Untuk memverifikasi tipe sebuah variabel, kita dapat memasukkan variabel tersebut ke dalam fungsi built-in `type()`.

#### String

In [4]:
# string dengan kutip 1
str1 = 'Studying' # str type
print(str1)
print(type(str1))

Studying
<class 'str'>


In [5]:
# string dengan kutip 2
str2 = "Judul DSS bulan ini: 'Efficient Information Extraction: Q&A and Summarization over PDF Documents using LLM'"
print(str2)
print(type(str2))

Judul DSS bulan ini: 'Efficient Information Extraction: Q&A and Summarization over PDF Documents using LLM'
<class 'str'>


In [6]:
# string dengan kutip 3
str3 = ''' Ini adalah contoh string kutip 3. Kita dapat menulis kalimat dengan lebih rapi pada baris baru.
'''
print(str3)
print(type(str3))

 Ini adalah contoh string kutip 3. Kita dapat menulis kalimat dengan lebih rapi pada baris baru.

<class 'str'>


#### Number

In [7]:
b = 10 # int type
print(type(b))

<class 'int'>


In [8]:
c = 10.0 # float type
print(type(c))

<class 'float'>


**Operasi pada Angka** 

- `+`: penjumlahan.
- `-`: pengurangan.
- `*`: perkalian.
- `/`: pembagian.
- `//`: pembagian dengan pembulatan.
- `%`: sisa pembagian.
- `**`: eksponen.

In [9]:
print(15 + 3) # penjumlahan  
print(15 - 3) # pengurangan 
print(15 * 3) # perkalian 
print(15 / 3) # pembagian 
print(15 // 3) # pembagian dengan pembulatan
print(15 % 3) # sisa pembagian
print(15 ** 3) # eksponen

18
12
45
5.0
5
0
3375


#### Boolean

In [10]:
d = True # bool type
print(type(d))

<class 'bool'>


Python bersifat **case-sensitive**. `"Activity"` dan `"activity"` adalah nilai yang berbeda. 

Pada kode di bawah ini, kita menggunakan operator `==` untuk membandingkan kesetaraan kedua nilai tersebut.

In [11]:
'activity' == 'Activity'

False

> Output dari kode di atas adalah `False`. Hal ini menandakan kedua nilai tersebut berbeda.

Operator perbandingan lainnya:

- `<`: lebih kecil dari (yaitu : a < b).
- `<=`: lebih kecil atau sama dengan (yaitu : a <= b).
- `>`: lebih besar dari (yaitu: a > b).
- `>=`: lebih besar atau sama dengan (yaitu: a >= b).
- `!=`: tidak sama dengan (yaitu: a != b).

In [12]:
print(15 < 3) 
print(15 <= 3)  
print(15 > 3)  
print(15 >= 3) 
print(15 != 3) 

False
False
True
True
True


### Python Keywords

Beberapa hal yang perlu diperhatikan: `True` dan  `False` termasuk dalam daftar istilah yang disebut sebagai **Python keywords**. Kita tidak dapat menggunakan keywords ini sebagai nama variabel, nama fungsi, atau memberikan nilai kepada mereka (melakukan assignment).

Berikut adalah daftar keywords lainnya.

In [13]:
# cek daftar keywords
import keyword

keyword.kwlist

['False',
 'None',
 'True',
 'and',
 'as',
 'assert',
 'async',
 'await',
 'break',
 'class',
 'continue',
 'def',
 'del',
 'elif',
 'else',
 'except',
 'finally',
 'for',
 'from',
 'global',
 'if',
 'import',
 'in',
 'is',
 'lambda',
 'nonlocal',
 'not',
 'or',
 'pass',
 'raise',
 'return',
 'try',
 'while',
 'with',
 'yield']

## Python Data Structure

Sebelumnya, kita sudah melihat tipe data apa yang dapat dimiliki oleh variabel di Python. Untuk keperluan tingkat lanjut, Python memiliki beberapa **data structure** untuk menyimpan beberapa tipe data secara bersamaan. Terdapat 2 **data structure** yang sering digunakan: list dan dictionary.

### List

**List** merupakan data structure yang memungkinkan kita untuk menyimpan beberapa nilai dengan tipe data yang berbeda. Untuk membuat list, kita menggunakan kurung siku (`[ ]`). Misalnya:

In [14]:
list_example = ["Taylor Swift",
                34, 
                ['Shake It Off','Blank Space','Lover'],
                True]

In [15]:
print(list_example)

['Taylor Swift', 34, ['Shake It Off', 'Blank Space', 'Lover'], True]


In [16]:
type(list_example)

list

Untuk mengakses nilai yang terdapat di dalam list, kita menggunakan **indeks/posisi** dari nilai tersebut.

> ℹ️ Python menerapkan **zero-indexing**. Posisi pertama memiliki indeks 0, posisi kedua memiliki indeks 1, dan seterusnya.

In [17]:
# mengakses usia Taylor Swift: posisi 2, indeks 1

list_example[1]

34

Jika kita ingin mengakses beberapa nilai dalam list sekaligus, kita bisa menggunakan `:`. Misalnya, kita ingin mengakses nama, usia, dan daftar lagu yang populer.

In [18]:
list_example[0:3]

['Taylor Swift', 34, ['Shake It Off', 'Blank Space', 'Lover']]

Dengan kode di atas, kita hanya menampilkan data dengan indeks 0-2.

Cara lain untuk mengakses nilai di dalam list adalah menggunakan **back indexing**. Dengan back indexing, kita menggunakan nilai negatif untuk mengakses nilai di dalam list dari belakang. Misalnya, jika kita memasukkan indeks -1, kita akan menampilkan item terakhir dari list.

In [19]:
# item terakhir di list
list_example[-1]

True

In [20]:
# mengakses daftar lagu populer
list_example[-2]

['Shake It Off', 'Blank Space', 'Lover']

### Dictionary

Pada list, kita menggunakan indeks untuk mengakses sebuah nilai. Pada **dictionary** kita menggunakan **key** untuk mengakses sebuah nilai/**value**. Untuk membuat sebuah dictionary, kita menggunakan kurung keriting (`{ }`). Misalnya:

In [21]:
dict_example = {
    "name" : "Taylor Swift",
    "age" : 34,
    "popular_songs" : ['Shake It Off','Blank Space','Lover']
}

In [22]:
dict_example

{'name': 'Taylor Swift',
 'age': 34,
 'popular_songs': ['Shake It Off', 'Blank Space', 'Lover']}

In [23]:
type(dict_example)

dict

Dengan contoh di atas:

* Yang merupakan key adalah `"name"`, `"age"`, dan `"popular_songs"`.
* Yang merupakan value adalah `"Taylor Swift"`, `34`, dan `['Shake It Off', 'Blank Space', 'Lover']`.

Untuk mengakses usia Taylor Swift:

In [24]:
# mengakses usia dengan key "age"
dict_example['age']

34

## Looping (`while`)

🔁 **Looping** pada Python merupakan eksekusi kode secara berulang sampai suatu kondisi terpenuhi. Salah satu sintaks untuk melakukan looping di Python adalah `while`. Contoh:

In [25]:
i = 1

while i <= 5:
    print(f"Ini adalah iterasi ke {i}")
    i += 1


Ini adalah iterasi ke 1
Ini adalah iterasi ke 2
Ini adalah iterasi ke 3
Ini adalah iterasi ke 4
Ini adalah iterasi ke 5


> ℹ️ `f` pada saat menampilkan kalimat di atas disebut dengan **F-string**. Sederhananya, F-string memungkinkan kita untuk menampilkan nilai dari sebuah variabel secara dinamis dalam sebuah kalimat.

Pada kode di atas:

* Kita mendefinisikan kondisi awal, `i = 1`.
* Pengecekan kondisi, apakah nilai `i` saat ini kecil atau sama dengan 5.
  * Jika benar, maka akan ditampilkan tulisan dan nilai `i` akan bertambah 1. 
  * Jika tidak, proses iterasi akan berakhir.

## Python Function

**Function** pada Python merupakan blok kode yang dapat digunakan secara berulang. Penggunaan function dapat membuat penulisan kode kita menjadi lebih rapi dan tidak redundan. 

Function pada Python umumnya memiliki 3 komponen utama:

* **Parameter**: input untuk function.
* **Block of code**: blok kode untuk melakukan operasi pada input.
* **Return value**: output hasil operasi function.

Untuk mendefinisikan function, kita menggunakan keywords `def`. Misalnya, kita membuat sebuah function untuk melakukan beberapa operasi matematika sekaligus.

In [26]:
def math_ops(num1, num2, num3):
    sum = num1 + num2 + num3
    sub = num1 - num2 - num3

    print(f"Angka: {num1}, {num2}, {num3}")
    print(f"Hasil penjumlahan: {sum}")
    print(f"Hasil pengurangan: {sub}")

    return sum, sub

In [27]:
hasil_jumlah, hasil_kurang = math_ops(100, 15, 25)

Angka: 100, 15, 25
Hasil penjumlahan: 140
Hasil pengurangan: 60


In [28]:
print(hasil_jumlah)
print(hasil_kurang)

140
60


## Python Libraries

Salah satu kelebihan Python adalah tersedianya banyak **package** atau **library** yang dapat kita gunakan dengan mudah. Kita dapat menganggap library sebagai sekumpulan fungsi/program yang telah ditulis orang lain dan dapat kita gunakan kembali. Untuk dapat menggunakan fungsi yang terdapat dalam suatu library, kita harus meng-import library tersebut. 

Terdapat 2 cara paling umum untuk meng-import library:

* Import library dengan statement `import`. Penggunaan fungsi/class menyertakan nama library.

```python
# cara import library
import langchain_community.document_loaders

# cara memanggil function/class
pdf_loader = langchain_community.document_loaders.PyPDFLoader()

```

* Import fungsi langsung dengan statement `from`. Penggunaan fungsi/class tidak menyertakan nama library.

```python
# cara import library
from langchain_community.document_loaders import PyPDFLoader()

# cara memanggil function/class
pdf_loader = PyPDFLoader()

```

# The Fundamentals of LLM

## The Concept of Generative AI

![](assets/gen_ai_hierarchy.png)

🚀 **Apa itu Generative AI?**

**Generative AI** merupakan bagian dari artificial intelligence yang bertujuan untuk **menghasilkan (generate) data**, seperti teks, gambar, video, dan musik. Untuk dapat menghasilkan data, generative AI dilatih/belajar dari data yang jumlahnya sangat besar. Proses belajar ini sering disebut training. Generative AI akan menghasilkan data berdasarkan pola yang sudah dipelari selama proses training.

🚀 **Jenis-Jenis Generative AI dan Aplikasinya**

1. **Generative Text Model**
    * Input: teks.
    * Output → teks (text-to-text generator).
      * Contoh: translation, **summarization**, **question-answering**, grammar correction.
    * Output → image (text-to-image generator).
      * Contoh: image generation, video generation.
    * Output → audio (text-to-speech generator).
2. **Generative Image Model**
    * Input: gambar.
    * Output: teks (image-to-text generator).
      * Contoh: image captioning, visual question-answering, image search.
    * Output: gambar (image-to-image generator).
      * Contoh: image completion.
    * Output: video (image-to-video generator).
      * Contoh: animation generation.

## LLM as Generative AI 

 

💬 **LLM** merupakan generative AI yang telah dilatih menggunakan data teks dalam jumlah yang sangat besar. LLM mampu untuk memahami dan menghasilkan teks dengan gaya bahasa yang mirip dengan manusia. Selain menggambarkan besarnya data yang digunakan untuk melatih LLM, istilah "large" mengacu kepada tingkat kompleksitas, ukuran, dan banyaknya parameter pada LLM.

> ℹ️ Sebagai contoh, GPT-4, varian yang paling baru dari LLM yang dirilis oleh OpenAI, memiliki 1,3 triliun parameter. Sumber data yang digunakan untuk melatih model ini meliputi buku, website, jurnal ilmiah, artikel, posting-an media sosial, dan repositori kode.

**Jenis-Jenis LLM**

💬 Beberapa contoh platform LLM yang populer: 

1. **GPT**

Generative Pre-Trained Transformer (GPT) merupakan large language model yang dikembangkan oleh Open AI. Sama seperti model generative AI lainnya, GPT di-training dengan data teks dalam jumlah yang besar. 


2. **Gemini**

**Gemini** merupakan model generative AI yang dikembangkan oleh Google. Gemini dilatih menggunakan data teks, gambar, suara, dan video secara bersamaan dalam jumlah yang sangat besar. Hal ini membuat Gemini mampu untuk menerima berbagai macam input. Kelebihan ini menjadikan Gemini unggul dari segi generalisasinya terhadap data baru. Saat ini, versi terbaru dari Gemini adalah Gemini 1.5. 

Secara umum, fitur-fitur pada Gemini dikemas dalam 2 bentuk produk. Produk yang pertama merupakan [aplikasi yang berbasis chat bernama Gemini app (sebelumnya Bard)](https://gemini.google.com/app). Penggunaan aplikasi ini ditujukan untuk siapa saja secara umum tanpa perlu menuliskan kode tertentu. Produk lainnya merupakan [Application Programming Interface (API)](https://ai.google.dev/gemini-api) yang dapat digunakan pada use case yang lebih custom. Penggunaan API ini lebih ditujukan untuk para developer.

3. **HuggingFace**

---add description---

**Prompt pada Language Model**

---add basic prompt engineering---

## Transformer Architecture in a Nutshell

🤖 Arsitektur **Transformer** merupakan salah satu fondasi dibalik keandalan LLM. Arsitektur ini pertama kali diperkenalkan pada paper yang berjudul [Attention is All You Need](https://arxiv.org/abs/1706.03762) oleh Vaswani dkk. pada tahun 2017. 

Kemunculan arsitektur Transformer bertolak dari keterbatasan dari arsitektur yang sebelumnya sering digunakan untuk memodelkan data berupa sequence (contoh: bahasa), seperti Recurrent Neural Network (RNN) dan Long Short-Term Memory (LSTM). Keterbatasan ini di antaranya: ketidakefisienan dari segi daya komputasi dan waktu serta ketersediaan memori yang terbatas untuk sequence yang cukup panjang. Transformer mengatasi keterbatasan ini dengan fitur spesial yang disebut dengan **self-attention mechanism**. 

Secara sederhana, Transformer terdiri dari 2 komponen utama:

1. **Encoder**
2. **Decoder**

## LLM Capability, Limitation, and Consideration

# Introduction to LangChain🦜🔗

🦜🔗**LangChain** merupakan framework untuk membuat aplikasi berbasis LLM.

> 📌[LangChain Official Documentation](https://python.langchain.com/v0.1/docs/get_started/introduction).

## LangChain Concept and Component

### LLM and Chat Models

### Template

## API Concept and Setting for LangChain Usage

In [29]:
from dotenv import load_dotenv

In [30]:
load_dotenv()

True

## Demonstration of LLM Usage with LangChain

# Case Study: Q&A and Summarization for PDF Document

## Retrieval Augmented Generation

## Preprocessing

### PDF Loading

In [31]:
# untuk loading file PDF
from langchain_community.document_loaders import PyPDFLoader

In [32]:
pdf_loader = PyPDFLoader('data_input/llm_survey.pdf',
                         extract_images = True)
pdf_data = pdf_loader.load()

In [33]:
type(pdf_data)

list

In [34]:
len(pdf_data)

124

In [35]:
pdf_data[2]

Document(page_content='3\n(i.e.,following the scaling law [30]). A number of studies\nhave explored the performance limit by training an ever\nlarger PLM ( e.g., the 175B-parameter GPT-3 and the 540B-\nparameter PaLM). Although scaling is mainly conducted\nin model size (with similar architectures and pre-training\ntasks), these large-sized PLMs display different behaviors\nfrom smaller PLMs ( e.g., 330M-parameter BERT and 1.5B-\nparameter GPT-2) and show surprising abilities (called emer-\ngent abilities [31]) in solving a series of complex tasks. For\nexample, GPT-3 can solve few-shot tasks through in-context\nlearning , whereas GPT-2 cannot do well. Thus, the research\ncommunity coins the term “ large language models (LLM) ”1\nfor these large-sized PLMs [32–35], which attract increasing\nresearch attention (See Figure 1). A remarkable application\nof LLMs is ChatGPT2that adapts the LLMs from the GPT\nseries for dialogue, which presents an amazing conversation\nability with humans. W

### Splitting

In [36]:
# untuk split file PDF menjadi chunk yang lebih kecil
from langchain.text_splitter import RecursiveCharacterTextSplitter

In [37]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 1000, 
    chunk_overlap = 450,
    separators=[
                "\n\n",
                "\n",
                " ",
                ".",
                ",",
                "\u200b",  # zero-width space
                "\uff0c",  # full-width comma
                "\u3001",  # ideographic comma
                "\uff0e",  # full-width full stop
                "\u3002",  # ideographic full stop
                "",
            ])
splits = text_splitter.split_documents(pdf_data)

### Embedding and Storing

In [38]:
# untuk membuat embedding
from langchain_openai import OpenAIEmbeddings # embedding OpenAI
from langchain_google_genai import GoogleGenerativeAIEmbeddings # embedding Google Generative AI
from langchain_community.embeddings import HuggingFaceEmbeddings # embedding HuggingFace 

# untuk menyimpan embedding
from langchain_community.vectorstores import Chroma

  from .autonotebook import tqdm as notebook_tqdm


In [39]:
def create_vectorstore_folder(documents, embedding, persist_directory):
    vectorstore = Chroma.from_documents(
        documents = documents, 
        embedding = embedding,
        persist_directory = persist_directory
    )

    return vectorstore

In [40]:
# hanya perlu dijalankan pada saat pertama kali membuat embedding

# vectorstore_open_ai = create_vectorstore_folder(
#     documents = splits,
#     embedding = OpenAIEmbeddings(model="text-embedding-3-large"),
#     persist_directory = 'data_input/chroma_open_ai'
# )

# time spent: 48s

In [41]:
# hanya perlu dijalankan pada saat pertama kali membuat embedding

# vectorstore_gemini = create_vectorstore_folder(
#     documents = splits,
#     embedding = GoogleGenerativeAIEmbeddings(model="models/embedding-001"),
#     persist_directory = 'data_input/chroma_gemini'
# )

# time spent: 40.8s

In [42]:
# hanya perlu dijalankan pada saat pertama kali membuat embedding

# vectorstore_hf = create_vectorstore_folder(
#     documents = splits,
#     embedding = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2"),
#     persist_directory = 'data_input/chroma_hugging_face'
# )

# time spent: 6m 24.6s

In [43]:
# memanggil embedding dari directory yang sudah disimpan

vec_openai = Chroma(persist_directory = 'data_input/chroma_open_ai',
                    embedding_function = OpenAIEmbeddings(model="text-embedding-3-large"))

In [44]:
vec_gemini = Chroma(persist_directory = 'data_input/chroma_gemini',
                    embedding_function = GoogleGenerativeAIEmbeddings(model="models/embedding-001"))

In [45]:
vec_hf = Chroma(persist_directory = 'data_input/chroma_hugging_face',
                    embedding_function = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2"))

## Q&A

In [46]:
# LLM
from langchain_openai import ChatOpenAI
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_community.llms import HuggingFaceHub
from langchain_community.chat_models.huggingface import ChatHuggingFace

# mempersiapkan prompt
from langchain_core.prompts import PromptTemplate
# untuk memasukkan pertanyaan
from langchain_core.runnables import RunnablePassthrough
# untuk menampilkan output yang diinginkan
from langchain_core.output_parsers import StrOutputParser

# menampilkan output secara rapi
import textwrap

In [47]:
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

In [48]:
template = """
    You are the great assistant in understanding additional context

    Use the following pieces of context to answer the question at the end.
    Use the minimum of three sentences to answer the question. 
    Try your best to answer as complete as possible with easy style of English.
    Always say "thanks for asking!" at the end of the answer.

    {context}

    Question: {question}

    Helpful Answer:"""

### OpenAI

In [49]:
retriever_openai = vec_openai.as_retriever()
custom_rag_prompt = PromptTemplate.from_template(template)
llm = ChatOpenAI(model="gpt-4", temperature=0) # versi terbaru dari GPT

openai_chain = (
    {"context": retriever_openai | format_docs, "question": RunnablePassthrough()}
    | custom_rag_prompt
    | llm
    | StrOutputParser()
)

In [50]:
neat_result = textwrap.fill(openai_chain.invoke('Describe about llaMa model family'), width=90)
print(neat_result)

The LLaMA model family is a collection of models introduced by Meta AI in February 2023.
The family consists of four sizes: 7B, 13B, 30B, and 65B. Since its release, LLaMA has
gained significant attention from both the research and industry communities due to its
excellent performance on various open benchmarks. It has become one of the most popular
open language models. Many researchers have extended LLaMA models through instruction
tuning or continual pretraining. Stanford Alpaca is one of the extended models, which is
the first open instruct-following model fine-tuned based on LLaMA (7B). Other popular
LLaMA variants include Vicuna, which is trained upon user-shared conversations. Thanks for
asking!


In [51]:
neat_result = textwrap.fill(openai_chain.invoke('When was the Turing test proposed?'), width=90)
print(neat_result)

The text provided does not contain information about when the Turing test was proposed.
The Turing test, proposed by Alan Turing in 1950, is a method of inquiry in artificial
intelligence for determining whether or not a computer is capable of human-like
intelligence. However, this information is not mentioned in the given context. Thanks for
asking!


In [52]:
neat_result = textwrap.fill(openai_chain.invoke('What is the title of the paper?'), width=90)
print(neat_result)

The title of the paper is not explicitly mentioned in the provided context. However, there
are several papers referenced throughout the text, each with different authors and titles.
For example, one paper is titled "Realtoxicityprompts: Evaluating neural toxic
degeneration in language models" by S. Gehman, S. Gururangan, M. Sap, Y. Choi, and N. A.
Smith. Another is titled "Virtualhome: Simulating household activities via programs" by X.
Puig, K. Ra, M. Boben, J. Li, T. Wang, S. Fidler, and A. Torralba. Without more specific
information, it's impossible to determine the exact title of the paper in question. Thanks
for asking!


In [53]:
neat_result = textwrap.fill(openai_chain.invoke('How is the technical evolution of GPT-series model?'), width=90)
print(neat_result)

The technical evolution of the GPT-series models has been a progressive journey. It
started with GPT-1, which was developed based on a generative, decoder-only Transformer
architecture. It used a hybrid approach of unsupervised pretraining and supervised fine-
tuning. GPT-2 followed a similar architecture but increased the parameter scale to 1.5B
and was trained with a large webpage dataset WebText. It introduced a probabilistic form
for multi-task solving. GPT-3 scaled the model parameters to an even larger size of 175B
and introduced the concept of in-context learning. The evolution continued with GPT-4 and
other versions, each introducing new features and improvements. For example, ChatGPT was
developed based on the powerful GPT model with specially optimized conversation
capacities. The evolution of these models has been mainly based on the papers, blog
articles, and official APIs from OpenAI. Thanks for asking!


### Gemini

In [54]:
def create_chain(retriever, llm):

    rag_chain = (
        {"context": retriever | format_docs, "question": RunnablePassthrough()}
        | custom_rag_prompt
        | llm
        | StrOutputParser()
    )

    return rag_chain

In [55]:
gemini_chain = create_chain(
    retriever = vec_gemini.as_retriever(),
    llm = ChatGoogleGenerativeAI(model = 'gemini-pro')
)

In [56]:
neat_result = textwrap.fill(gemini_chain.invoke('Describe about llaMa model family'), width=90)
print(neat_result)

The LLaMA model family is a group of language models that have been developed by Meta AI.
The family includes models of varying sizes, from 7 billion parameters to 65 billion
parameters. The models are trained on a massive dataset of text and code, and they can be
used for a variety of natural language processing tasks, such as text generation,
translation, and question answering. The LLaMA models have been shown to perform well on a
variety of benchmarks, and they have been used in a number of commercial applications.
Thanks for asking!


In [57]:
neat_result = textwrap.fill(gemini_chain.invoke('When was the Turing test proposed?'), width=90)
print(neat_result)

The Turing test was proposed by Alan Turing in 1950. Thanks for asking!


In [58]:
neat_result = textwrap.fill(gemini_chain.invoke('What is the title of the paper?'), width=90)
print(neat_result)

I am sorry, I cannot answer the question. The provided context does not include any
information about the title of the paper. Thanks for asking!


In [59]:
neat_result = textwrap.fill(gemini_chain.invoke('How is the technical evolution of GPT-series model?'), width=90)
print(neat_result)

The GPT-series models have evolved significantly over the years, with each iteration
bringing improvements in performance and capabilities. GPT-1, released in 2018, was the
first model in the series and set the foundation for the architecture and principles used
in subsequent models. GPT-2, released in 2019, increased the parameter scale and was
trained on a larger dataset, resulting in improved performance on a variety of language-
related tasks. GPT-3, released in 2020, was a major leap forward in terms of size and
capabilities, with 175 billion parameters and the ability to perform a wide range of
tasks, including language generation, translation, and question answering. GPT-4, which is
still under development, is expected to be even more powerful and versatile than its
predecessors. Thanks for asking!


### HuggingFace

In [60]:
hf_chain = create_chain(
    retriever = vec_hf.as_retriever(),
    llm = HuggingFaceHub(
        repo_id="declare-lab/flan-alpaca-large",
        task="text-generation",
        model_kwargs={"temperature":0.3, "max_length":1000}
    )
)

  warn_deprecated(


In [61]:
neat_result = textwrap.fill(hf_chain.invoke('Describe about llaMa model family'), width=90)
print(neat_result)

The LLaMA model family is a powerful language model family that is widely used in many
applications. It is based on the LLaMA architecture, which is a supervised learning
algorithm that is trained on a large dataset of language data. It is able to generate
strong language understanding and generation abilities, compared to other variants. It is
also able to learn from user-shared conversations, which makes it suitable for multimodal
tasks.


In [62]:
neat_result = textwrap.fill(hf_chain.invoke('When was the Turing test is proposed?'), width=90)
print(neat_result)

The Turing test was proposed in 1947.


In [63]:
neat_result = textwrap.fill(hf_chain.invoke('What is the title of the paper?'), width=90)
print(neat_result)

The title of the paper is "A Comprehensive Overview of Books and LLMs for Training".


In [64]:
neat_result = textwrap.fill(hf_chain.invoke('How is the technical evolution of GPT-series model?'), width=90)
print(neat_result)

The technical evolution of GPT-series models is a gradual process of improvement. The
model has evolved over time, with new features and improvements being added to the model.
The model has also been improved by scaling the model parameters, which has allowed for a
key capacity leap. The model has also been improved by incorporating more features and
incorporating more advanced techniques. Finally, the model has been improved by
incorporating more advanced techniques such as in-context learning and reinforcement
learning.


## Summarization

# Make Chatbot-Like Interface

# Additional

## GPT 4o