# Efficient Information Extraction

* By: [Taufan Anggoro Adhi](https://www.linkedin.com/in/taufanadhi/).
* Updated: June 2024.

# Background

Penggunaan model bahasa besar **(LLM)** dalam ekstraksi data dari PDF merupakan salah satu perkembangan terbaru dalam bidang pemrosesan bahasa alami (NLP) dan kecerdasan buatan (AI). 

LLM, seperti GPT-4, memiliki kemampuan untuk memahami dan menginterpretasikan teks dalam konteks yang kompleks, membuatnya sangat efektif untuk menguraikan dan mengekstraksi informasi dari dokumen PDF yang sering kali memiliki format dan struktur yang rumit. Integrasi **LLM** dengan alat seperti LangChain memungkinkan otomatisasi ekstraksi data, mengurangi kebutuhan akan pemrosesan manual yang memakan waktu dan rentan terhadap kesalahan. Selain itu, **LLM** dapat dilatih untuk mengenali berbagai jenis data dan konteks spesifik, meningkatkan akurasi ekstraksi informasi dari dokumen seperti laporan keuangan, jurnal medis, dan kontrak hukum. 

Keunggulan ini memberikan solusi yang lebih efisien dan efektif dibandingkan dengan metode tradisional yang mengandalkan OCR dan parser sederhana. 

Meskipun demikian, implementasi **LLM** dalam ekstraksi PDF juga menghadirkan tantangan, seperti kebutuhan akan sumber daya komputasi yang besar dan penanganan privasi data yang sensitif. Dengan terus berkembangnya teknologi AI, potensi penggunaan **LLM** dalam ekstraksi data dari PDF diperkirakan akan semakin luas, menawarkan berbagai manfaat di berbagai industri, dari keuangan hingga kesehatan.

# The Fundamentals of LLM

## The Concept of Generative AI

![](assets/lbb1.png)

🚀 **Apa itu Generative AI?**

**Generative AI** merupakan cabang dari artificial intelligence yang fokus pada **menghasilkan (generate) data** baru menggunakan model machine learning. Data yang dihasilkan **(generate)** dapat berupa teks, gambar, video, audio ataupun bentuk data lainnya. Untuk dapat menghasilkan data, generative AI dilatih/belajar dari data yang jumlahnya sangat besar. Proses belajar ini sering disebut training. Generative AI akan menghasilkan data berdasarkan pola yang sudah dipelari selama proses training.

🚀 **Fitur Utama Generative AI**

* **Pemahaman dan Pembelajaran dari Data**:
Generative AI mempelajari karakteristik dan pola dari dataset besar untuk menghasilkan konten yang realistis dan koheren.
Contohnya, model bahasa besar seperti GPT-4 dilatih pada miliaran kata untuk memahami dan menghasilkan teks yang bermakna.

* **Kreativitas dan Inovasi**:
Generative AI mampu menghasilkan konten baru yang tidak secara eksplisit ada dalam data latih.
Ini memungkinkan aplikasi dalam bidang kreatif seperti seni, musik, dan penulisan.

* **Adaptabilitas**:
Model generative AI dapat disesuaikan dan dilatih ulang untuk kebutuhan spesifik.
Misalnya, model dapat di-finetune untuk menghasilkan konten sesuai dengan gaya atau konteks tertentu.




🚀 **Jenis-Jenis Generative AI dan Aplikasinya**

* **Generative Text Model**
Model bahasa seperti GPT-4 dapat digunakan untuk menulis artikel, cerita, skrip, atau bahkan kode pemrograman.
Mereka juga digunakan dalam chatbot dan asisten virtual untuk menyediakan jawaban yang koheren dan relevan.

* **Generative Image Model**
Model seperti Generative Adversarial Networks (GANs) dapat menghasilkan gambar dan video yang sangat realistis.
Aplikasi termasuk penciptaan karya seni digital, desain produk, dan pembuatan efek visual dalam film.

* **Generative Music and Audio Model**
AI generatif dapat membuat komposisi musik baru atau mensintesis suara yang realistis.
Ini bermanfaat dalam produksi musik, pembuatan efek suara, dan pengembangan alat musik digital.


## LLM as Generative AI 

💬 **LLM** atau Large Language Model merupakan generative AI yang telah dilatih menggunakan data teks dalam jumlah yang sangat besar. **LLM** mampu untuk memahami dan menghasilkan teks dengan gaya bahasa yang mirip dengan manusia. Selain menggambarkan besarnya data yang digunakan untuk melatih **LLM**, istilah "large" mengacu kepada tingkat kompleksitas, ukuran, dan banyaknya parameter pada **LLM**.

> ℹ️ Dengan munculnya aplikasi model pembelajaran mendalam yang canggih, seperti **ChatGPT** dan **Gemini** (yang terkenal dengan fitur-fitur canggihnya), kita dapat memanfaatkan kemampuannya untuk tugas-tugas yang lebih spesifik, seperti tanya jawab dan ringkasan

### Prompt pada Language Model

Untuk menghasilkan output yang sesuai, **LLM** memerlukan **Prompt**. **Prompt** dapat dianalogikan sebagai sebuah petunjuk untuk **LLM**. Secara eksplisit, **Prompt** merujuk kepada instruksi atau detail yang diberikan kepada LLM terkait output seperti apa yang diharapkan. **Prompt** juga bisa berupa konteks atau latar belakang dari topik yang ingin diketahui.

💡 Beberapa tips awal untuk merancang sebuah prompt:

1. **Buat Prompt yang Sederhana**

   Pembuatan prompt merupakan proses iteratif. Selalu mulai dengan sebuah prompt sederhana. Jika masih belum mendapatkan output yang diinginkan dari LLM, kita bisa me-refine prompt yang sudah dibuat sebelumnya.

    Hindari pembuatan prompt untuk task yang kompleks. Kita dapat mem-break down task yang kompleks tersebut menjadi subtask yang lebih kecil dan membuat prompt yang berbeda untuk masing-masing subtask.

2. **Berikan Perintah yang Jelas: What to Do and What Not to Do?**

    Saat membuat sebuah prompt, pastikan prompt memiliki instruksi yang jelas. Misalnya, kita menginginkan ringkasan dari sebuah kalimat, maka prompt yang efektif mengandung instruksi untuk membuat ringkasan tersebut. Kita juga dapat mendefinisikan detail apa yang tidak perlu dimasukkan dalam ringkasan yang dihasilkan LLM.


3. **Be Speficic and Detail**

    Selain memberikan perintah yang jelas, kita dapat membuat prompt menjadi lebih spesifik dan detail. Misalnya, kita dapat mendefinisikan detail seperti gaya bahasa dan panjang output yang diharapkan.

Contoh prompt:

```

Summarize the following article into approximately 150 words, highlighting the main points and key information discussed. Do not include minor details, personal opinions, or repetitive information.

```

> 🔑 Kunci prompt yang efektif: sederhana, jelas, dan spesifik.

## LLM Challenges and Consideration in Implementing Generative AI

![](assets/lbb2.png)

Saat ini, LLM banyak dipilih karena keandalan dan kemampuannya untuk memahami konteks yang rumit. Selain itu, LLM juga mampu untuk menghasilkan teks dan narasi yang hampir menyamai produk bahasa yang ditulis oleh manusia.

Akan tetapi, perlu diperhatikan bahwa saat ini LLM masih menjadi topik riset yang aktif. Para peneliti masih mengembangkan metode yang lebih advanced untuk menghadapi tantangan serta hal-hal yang masih dipertimbangkan dalam implementasi penggunaan Generative AI, seperti:

1. **Technical Expertise**

Generative AI membutuhkan keahlian teknis yang mendalam, termasuk pemahaman tentang pembelajaran mesin, pemrosesan bahasa alami, dan arsitektur model AI seperti GANs atau LLM. Pengembangan dan penerapan model AI generatif juga memerlukan keahlian dalam pemrosesan data, pelatihan model, dan evaluasi performa. Keterbatasan dalam keahlian teknis dapat menghambat penerapan yang efektif dan optimal.

2. **Data Privacy Concern**

Penggunaan dataset besar untuk melatih model AI generatif sering kali melibatkan data sensitif atau pribadi, menimbulkan masalah privasi dan keamanan. Memastikan bahwa data yang digunakan mematuhi regulasi privasi seperti GDPR atau CCPA sangat penting. Selain itu, ada risiko bahwa model dapat "mengingat" data sensitif dan secara tidak sengaja mengungkapkannya melalui outputnya.

3. **Quality Control**

Mengendalikan kualitas output yang dihasilkan oleh model AI generatif bisa menjadi tantangan. Model AI dapat menghasilkan konten yang tidak akurat, tidak sesuai konteks, atau tidak memenuhi standar kualitas yang diharapkan. Memerlukan mekanisme validasi dan verifikasi untuk memastikan output yang dihasilkan benar dan berguna.

4. **Dependence on Data**

Kinerja model AI generatif sangat bergantung pada kualitas dan kuantitas data yang digunakan untuk melatihnya. Data yang bias atau tidak representatif dapat menghasilkan output yang juga bias atau tidak akurat. Selain itu, model memerlukan data yang sangat banyak untuk dilatih secara efektif, yang bisa menjadi kendala bagi organisasi dengan sumber daya data yang terbatas.

5. **Ethical Implications**

Generative AI dapat digunakan untuk menghasilkan konten yang menyesatkan atau merugikan, seperti deepfake, berita palsu, atau konten yang tidak pantas. Etika dalam penggunaan AI sangat penting untuk dipertimbangkan, termasuk memastikan bahwa teknologi ini digunakan secara bertanggung jawab dan tidak disalahgunakan.

6. **Integration with Existing Systems**

Mengintegrasikan generative AI dengan sistem yang sudah ada bisa menjadi kompleks dan memerlukan penyesuaian infrastruktur. Ini termasuk integrasi dengan basis data, sistem manajemen konten, dan alat analitik. Memastikan bahwa generative AI dapat bekerja secara mulus dengan sistem yang ada memerlukan perencanaan dan pengujian yang cermat.

7. **Unclear ROI**

Mengukur Return on Investment (ROI) dari proyek generative AI bisa sulit karena hasilnya sering kali bersifat kualitatif dan jangka panjang. Organisasi mungkin kesulitan untuk membuktikan nilai bisnis langsung dari investasi dalam generative AI, terutama jika manfaatnya tidak langsung terlihat.

8. **Regulatory Changes**

Regulasi terkait dengan AI dan data privasi terus berkembang. Organisasi harus selalu memantau perubahan regulasi dan memastikan bahwa penggunaan generative AI tetap sesuai dengan hukum yang berlaku. Kegagalan dalam mematuhi regulasi dapat menyebabkan denda dan kerugian reputasi.

# Introduction to LangChain

## LangChain Concept and Component

🦜🔗**LangChain** merupakan sebuah framework yang dapat digunakan untuk membuat aplikasi berbasis LLM. Dengan LangChain, pengguna dapat mengakses berbagai jenis LLM yang disediakan oleh provider seperti OpenAI dan Google. Selain itu, framework ini juga memungkinkan kita untuk membuat aplikasi custom dengan memanfaatkan kemampuan LLM. Fitur- fitur ini menjadikan LangChain sebagai package yang cukup powerful. 

> 📌[LangChain Official Documentation](https://python.langchain.com/v0.1/docs/get_started/introduction)

💡 Seperti namanya, ide dasar dari LangChain adalah men-chaining beberapa komponen menjadi satu kesatuan untuk menjalankan fungsi tertentu. Dengan menggabungkan berbagai komponen ini, kita bisa membuat alur kerja yang kompleks dan dinamis.

Secara umum, berikut adalah pengelompokan komponen LangChain berdasarkan fungsinya.

1️⃣ **Model I/O**

* Mengatur input dan output dari sebuah LLM.
* Komponen:
    * **Prompt**: memberikan instruksi terkait output seperti apa yang harus dihasilkan.
    * **LLM dan Chat Model**: memberikan output berdasarkan prompt.

2️⃣ **Retrievers**

* Mengambil data yang relevan untuk digunakan dalam LLM (biasanya melibatkan dokumen eksternal).
* Komponen:
    * **Document Loader**: untuk memuat dokumen eksternal.
    * **Text Splitter**: untuk pemrosesan dokumen.
    * **Embedding Model**: untuk merepresentasikan dokumen dalam bentuk numerik (embedding).
    * **Vectorstore**: untuk menyimpan embedding
    * **Retrievers**: mencari dan mengembalikan data yang paling relevan dari vectorstores berdasarkan query pengguna.

3️⃣ **Composition**

* Gabungan dari komponen basic di atas.
* Komponen: tools, agents, chains.

4️⃣ **Additional**

* Komponen: memory, callback.

### Experiment 1: Using Gemini's to Answer Questions 🚀

In [1]:
from langchain_google_genai import GoogleGenerativeAI

In [2]:
# membuat objek LLM 
gemini_10_pro = GoogleGenerativeAI(model = "gemini-pro", google_api_key="xxx") # gemini versi 1.0

In [3]:
# memberi pertanyaan dengan method .invoke()
gemini_10_pro.invoke("who is general zodd?")

'**General Zodd** is a fictional character and primary antagonist in the Superman franchise.\n\n**Origin:**\n\n* Created by Robert Bernstein and George Papp\n* First appeared in "Superman: The Movie" (1978)\n\n**Background:**\n\n* A Kryptonian military general from the planet Krypton\n* Sent to Earth to capture Superman and bring him back to face justice\n* Possesses immense physical strength, intelligence, and combat skills\n* Leads a group of rogue Kryptonians known as the Phantom Zone criminals\n\n**Characteristics:**\n\n* Ruthless and relentless in his pursuit of Superman\n* Believes in the superiority of Kryptonian society and its military might\n* Views Superman as a traitor who has betrayed his heritage\n* Driven by a strong sense of duty and honor, but often misguided\n\n**Powers and Abilities:**\n\n* Superhuman strength, speed, and durability\n* Heat vision\n* Freeze breath\n* Flight\n* Enhanced reflexes and agility\n* Military training and strategic intelligence\n\n**Role in 

### Experiment 2: Add Prompt to Boost Gemini's Response 🚀

Pada percobaan kedua ini, kita akan menambahkan prompt untuk membuat implementasi yang lebih dinamis dan custom.

In [7]:
from langchain_core.prompts import PromptTemplate

Pertama, kita akan membuat sebuah template untuk menerjemahkan sebuah kalimat ke dalam bahasa Inggris dengan gaya bahasa yang formal.

In [5]:
# mendefinisikan prompt untuk translasi
prompt = PromptTemplate(template = '''
                        Translate the following sentence into formal English:
                        {sentence}
                        ''',
                        input_variables = ["sentence"]
)

Selanjutnya, kita menggunakan operator `|` untuk membuat sebuah chain. Chain tersebut terbentuk dari komponen prompt dan LLM.

In [6]:
# membuat chain untuk translasi 
llm_chain = prompt | gemini_10_pro

In [8]:
# menerjemahkan kalimat dengan method .invoke()
llm_chain.invoke({"sentence":"temui hidup yang kau senangi"})

"Discover a life you'll cherish"

### 🥽 Experiment 3: Chain for  Grammar Correction 🚀

Pada percobaan ketiga ini, kita akan menambahkan prompt untuk mengkoreksi grammar dari sebuah kalimat.

In [9]:
prompt2 = PromptTemplate(
    template='''
    Correct the grammar in the following sentence:
    {sentence}
    ''',
    input_variables=["sentence"]
)

Selanjutnya, kita menggunakan operator `|` untuk membuat sebuah chain. Chain tersebut terbentuk dari komponen prompt dan LLM.

In [14]:
# membuat chain untuk koreksi grammar 
llm_chain2 = prompt2 | gemini_10_pro

In [13]:
# mengoreksi grammar pada kalimat dengan method .invoke()
llm_chain2.invoke({"sentence":"He go to the market every days"})

'He goes to the market every day.'

# Q&A and Summarization for PDF Document

#### PDF Loading

Pertama, kita perlu memuat dokumen yang menjadi konteks tambahan bagi LLM. Dalam hal ini, kita menggunakan `PyPDFLoader()` untuk memuat dokumen PDF. Selain PDF, LangChain menyediakan fungsionalitas untuk memuat dokumen dengan ekstensi lain, seperti CSV dan JSON.

> 📌 [LangChain Document Loaders](https://python.langchain.com/v0.1/docs/modules/data_connection/document_loaders/)

In [15]:
# untuk loading file PDF
from langchain_community.document_loaders import PyPDFLoader

In [None]:
pdf_loader = PyPDFLoader("data_input/(The Conscientious Commerce Series) John Elkington - Cannibals With Forks_ The Triple Bottom Line of 21st Century Business-New Society Publishers (1998).pdf")
pdf_data = pdf_loader.load()

In [18]:
pdf_data

[Document(page_content=' \n \n \n', metadata={'source': 'data_input/(The Conscientious Commerce Series) John Elkington - Cannibals With Forks_ The Triple Bottom Line of 21st Century Business-New Society Publishers (1998).pdf', 'page': 0}),
 Document(page_content='“In the world of business and sustainability, John Elkington’s work soars above all \n— it is honest, practical, compassionate and deeply informed. Cannibals with Forks \nis a brilliant synthesis of his genius for cutting through the thicket of tough issues \nand producing elegant solutions that can be applied today.” \nPaul Hawken, Author, The Ecology of Commerce  \n“John Elkington forthrightly and clearly conveys that sustainability, as a new value, will be the “price of entry” that society will demand for business success in the 21st \ncentury. I believe this is an essential message for all forward thinking businesses.”  \nDeborah D. Anderson, Vice President, \nEnvironmental Quality Worldwide, Proctor and Gamble  \n“The Tri

Dengan kode di atas, dokumen PDF akan di-load sebagai list.

In [19]:
type(pdf_data)

list

List ini akan memiliki elemen sebanyak halaman dokumen PDF. 

In [20]:
len(pdf_data)

417

Setiap elemen pada list berisikan konten pada halaman tertentu. Misalnya, kita ingin melihat konten pada halaman ke-5 (indeks ke-4).

In [21]:
print(pdf_data[4])

page_content=' IV \n \nCopyright © John Elkington 1997  \nFirst published 1997 by \nCapstone Publishing Limited Oxford Centre for Innovation \nMill Street \nOxford OX2 OJX United Kingdom \n \nAll rights reserved. Except for the quotation of short passages for the purposes of criticism and review, no part of this publication may be reproduced, stored in a retrieval system, or transmitted, in any form or by \nany means, electronic, mechanical, photocopying, recording or otherwise, without the prior written \npermission of the publisher.  \nBritish Library Cataloguing in Publication Data \nA CIP catalogue record for this book is available from the British Library.  \nISBN 1-900961-27-X \n Designed and typeset in 10/12pt Century Schoolbook and Futura by \nKate Williams, London \nDigital processing by The Electric Book Company, http://www.elecbook.com/  \n That’s a brilliant idea. But how could it possibly work in my organization? \n \nHow often do you think as you read a business book that

#### Splitting

Selanjutnya, kita akan melakukan proses splitting. Proses ini bertujuan untuk membuat chunk yang lebih kecil dari konten yang sudah diekstrak sebelumnya. Chunk-chunk yang lebih kecil akan lebih mudah di-maintain, disimpan, dan diproses oleh LLM.

In [22]:
# untuk split konten file PDF menjadi chunk yang lebih kecil
from langchain.text_splitter import RecursiveCharacterTextSplitter

Pada proses splitting ini, kita menggunakan `RecursiveCharacterTextSplitter()`. Dengan `RecursiveCharacterTextSplitter()`, proses splitting dilakukan dengan tetap menjaga bagian-bagian teks yang terkait tetap berdekatan satu sama lain. Merujuk pada [dokumentasi LangChain](https://python.langchain.com/v0.1/docs/modules/data_connection/document_transformers/), teknik splitting dengan `RecursiveCharacterTextSplitter()` adalah teknik yang direkomendasikan untuk mulai melakukan splitting dari sebuah teks yang cukup besar.

> 📌 [LangChain Text Splitters](https://python.langchain.com/v0.1/docs/modules/data_connection/document_transformers/)

Pada kode di bawah ini, kita mendefinisikan output dari proses splitting:

* Setiap chunk akan memiliki maksimal sebanyak 1000 karakter.
* Antara satu chunk dengan chunk yang lain memiliki kesamaan sebanyak 450 karakter. Hal ini didefinisikan untuk mempertahankan konteks antara satu chunk dengan chunk yang lain. 
* Proses splitting dilakukan berdasarkan daftar karakter yang kita definisikan pada parameter `separators`.

Selanjutnya, kita memasukkan list `pdf_data` sebagai input untuk method `.split_documents()`. Method ini akan membuat chunk yang lebih kecil dari `pdf_data`.

In [23]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 1000, 
    chunk_overlap = 450,
    separators=[
                "\n\n",
                "\n",
                " ",
                ".",
                ",",
                "\u200b",  # zero-width space
                "\uff0c",  # full-width comma
                "\u3001",  # ideographic comma
                "\uff0e",  # full-width full stop
                "\u3002",  # ideographic full stop
                "",
            ])

splits = text_splitter.split_documents(pdf_data)

In [24]:
type(splits)

list

In [25]:
len(splits)

1543

Di akhir proses ini, kita mendapatkan 1543 chunk hasil splitting dari 417 elemen pada `pdf_data`.

#### Embedding and Storing

Di balik layar, operasi pada komputer merupakan operasi yang melibatkan angka. Agar teks yang kita miliki dapat dimengerti oleh komputer, kita perlu membuat representasi numerik dari teks tersebut. Proses ini dibut dengan **embedding**.

LangChain menyediakan banyak pilihan embedding, tergantung dari LLM yang akan kita gunakan:
* `GoogleGenerativeEmbeddings()` untuk model LLM yang dikembangkan oleh Google.
* `OpenAIEmbeddings()` untuk model LLM dari OpenAI.

> 📌 [LangChain Embedding Models](https://python.langchain.com/v0.1/docs/modules/data_connection/text_embedding/)

Representasi numerik dari teks ini selanjutnya disimpan di dalam **vector database**. 
> ✨ Sederhananya, kita menyimpan konten file PDF di database dalam bentuk angka.

Vector database yang akan kita gunakan adalah **Chroma**. Chroma merupakan vector database yang cukup powerful untuk menyimpan unstructured data, seperti konten pada file PDF. Chroma juga dilengkapi dengan algoritma yang efisien dan akurat untuk pencarian informasi dari embedding yang disimpan. Selain itu, Chroma juga memungkinkan kita untuk menyimpan objek database sehingga dapat digunakan kembali untuk keperluan yang akan datang.

> 📌 [LangChain Vector Stores](https://python.langchain.com/v0.1/docs/modules/data_connection/vectorstores/)

In [26]:
# untuk membuat embedding
from langchain_google_genai import GoogleGenerativeAIEmbeddings # embedding Google Generative AI

# untuk menyimpan embedding
from langchain_community.vectorstores import Chroma

Pada kode dibawah ini, kita mendefinisikan sebuah fungsi untuk:

* Mengubah dokumen menjadi embedding. 
* Menyimpan hasil embedding ke dalam Chroma.
* Menyimpan file database ke suatu folder agar dapat digunakan kembali.

Penjelasan parameter:

* `documents `: dokumen yang akan diubah menjadi embedding.
* `embbeding`: fungsi yang digunakan untuk membuat embedding, misalnya `GoogleGenerativeAIEmbeddings()` jika menggunakan Gemini sebagai LLM.
* `persist_directory`: folder untuk menyimpan vector database.

In [27]:
def create_vectorstore_folder(documents, embedding, persist_directory):
    vectorstore = Chroma.from_documents(
        documents = documents, 
        embedding = embedding,
        persist_directory = persist_directory
    )

    return vectorstore

In [28]:
# hanya perlu dijalankan pada saat pertama kali membuat embedding
vectorstore_gemini = create_vectorstore_folder(
     documents = splits,
     embedding = GoogleGenerativeAIEmbeddings(model="models/embedding-001", 
                                              google_api_key="xxx"),
     persist_directory = 'data_input/chroma_gemini'
)

Proses mengubah dokumen menjadi embedding dan menyimpannya ke dalam database dapat berjalan lama karena dapat dipengaruhi oleh berbagai faktor, mulai dari besarnya dokumen sampai dengan koneksi internet. Oleh karena itu, pada workshop ini, proses pembuatan vector database sudah dilakukan terlebih dahulu. Penyimpanan vector database ini terdapat pada folder `data_input`. 

Untuk me-load kembali vector database dari folder yang sudah ada, Anda dapat menjalankan kode di bawah ini.

In [29]:
# memanggil embedding dari directory yang sudah disimpan
vec_gemini = Chroma(persist_directory = 'data_input/chroma_gemini',
                   embedding_function = GoogleGenerativeAIEmbeddings(model="models/embedding-001", 
                                                            google_api_key="xxx"))

#### Retrieving

Kita telah membuat sebuah vector database yang menjadi sumber bagi LLM untuk mencari informasi. Selanjutnya, kita akan membuat sebuah chain yang memungkinkan kita untuk bertanya kepada LLM. LLM akan memberikan jawaban berdasarkan informasi yang terdapat pada vector database.

> 🤨 **Bagaimana cara LLM memberikan jawaban yang sesuai?** Pada saat kita memberikan pertanyaan (query) kepada LLM, pertanyaan tersebut akan diubah menjadi representasi numerik (vector). Representasi numerik ini akan digunakan untuk mencari jawaban yang sesuai berdasarkan informasi pada vector database. Proses ini melibatkan perhitungan vector similarity antara vector query dan vector informasi yang terdapat dalam vector database. Informasi dengan tingkat similarity yang tinggi akan di-return sebagai jawaban.

![](assets/rag_workflow2.png)

In [30]:
# LLM
from langchain_google_genai import ChatGoogleGenerativeAI

# untuk mempersiapkan prompt
from langchain_core.prompts import PromptTemplate
# untuk memasukkan pertanyaan
from langchain_core.runnables import RunnablePassthrough
# untuk menampilkan output yang diinginkan
from langchain_core.output_parsers import StrOutputParser

# untuk menampilkan output secara rapi
import textwrap

In [32]:
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

In [43]:
qa_template = """
    You are the great assistant in understanding additional context

    Use the following pieces of context to answer the question at the end.
    Use the minimum of three sentences to answer the question. 
    Try your best to answer as complete as possible with high level style of English.
    Always say "thanks for asking!" at the end of the answer.

    {context}

    Question: {question}

    Helpful Answer:"""

custom_rag_prompt = PromptTemplate.from_template(qa_template)

In [40]:
def create_qa_chain(retriever, llm):

    rag_chain = (
        {"context": retriever | format_docs, "question": RunnablePassthrough()}
        | custom_rag_prompt
        | llm
        | StrOutputParser()
    )

    return rag_chain

Pada kode di atas, kita membuat sebuah fungsi untuk membuat chain untuk Q&A. Chain untuk Q&A di atas terdiri atas beberapa komponen:

*  `custom_rag_prompt` yang merupakan prompt untuk mengarahkan output dari LLM.
* `llm` yang akan berinteraksi dengan pengguna.
* `StrOutputParser()` yang akan menangkap output dari LLM.

Perhatikan pada saat kita mendefinisikan template prompt, terdapat 2 placeholder: `{context}` dan `{question}`.

* Value untuk `{context}` berasal dari vector database.
* Value untuk `{question}` berasal dari pertanyaan pengguna pada saat menjalankan chain.

In [41]:
gemini_chain = create_qa_chain(retriever = vec_gemini.as_retriever(),
                               llm = ChatGoogleGenerativeAI(model="gemini-pro",
                                                           google_api_key="xxx"))

Sekarang, kita sudah membuat chain untuk Q&A. Mari kita tes chain tersebut dengan memberi beberapa pertanyaan!

In [44]:
print(
    textwrap.fill(
        gemini_chain.invoke('Explain implications of the emerging triple bottom line for 21st century business'), 
        width=90
    )
)

The triple bottom line is a sustainability framework that considers the economic,
environmental, and social impacts of a business. For 21st century businesses, the
implications of adopting this framework are significant. It requires businesses to move
beyond traditional profit-maximizing models and consider the broader impacts of their
operations. This can lead to changes in business practices, such as reducing environmental
impact, improving working conditions, and investing in local communities. Embracing the
triple bottom line can also help businesses build resilience and long-term success, as it
encourages a more holistic and sustainable approach to business operations. Thanks for
asking!


In [45]:
print(
    textwrap.fill(
        gemini_chain.invoke('What is Seven Revolutions for Sustainability'), 
        width=90
    )
)

Seven Revolutions for Sustainability is a book that explores the concept of sustainability
and how it can be achieved through seven key revolutions. These revolutions include the
energy revolution, the food revolution, the water revolution, the materials revolution,
the transportation revolution, the waste revolution, and the urbanization revolution. The
book argues that by making changes in these areas, we can create a more sustainable future
for ourselves and for generations to come. Thanks for asking!


#### Make Chatbot-Like Interaction with `while` Loop

In [46]:
import sys

print("\033[1mAsk The PDF!\033[0m")
print('')

while True:
    
    print('\033[1mQuestion:\033[0m')

    query = input('')
    print(query)

    #To exit: use 'exit', 'quit', 'q', or Ctrl-D.",
    if query.lower() in ["exit", "quit", "q"]:
        print('Exiting')
        sys.exit()

    print('\033[1mResponse:\033[0m')
    response = textwrap.fill(gemini_chain.invoke(query), width=90)
    print(response)
    print('')

[1mAsk The PDF![0m

[1mQuestion:[0m


 who is the author of the book


who is the author of the book
[1mResponse:[0m
The provided text does not contain the author of the book "Seven Revolutions". Therefore,
I cannot answer your question. Thanks for asking!

[1mQuestion:[0m


 what is sustainable corporation


what is sustainable corporation
[1mResponse:[0m
A sustainable corporation is a company that operates in a way that meets the needs of the
present without compromising the ability of future generations to meet their own needs.
This means taking into account the environmental, social, and economic impacts of the
company's activities and making decisions that will benefit all stakeholders in the long
term. Sustainable corporations are often seen as more ethical and responsible than
traditional corporations, and they are increasingly being seen as the future of business.
Thanks for asking!

[1mQuestion:[0m


 quit


quit
Exiting


SystemExit: 

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)


## Summarization

Sebelumnya, kita mendefinisikan sebuah chain untuk Q&A menggunakan `|`. `|` merupakan sintaks LangChain Expression Language (LCEL) yang menjadi dasar dalam pendefinisian chain yang lebih kompleks.

> 📌 [LangChain Expression Language](https://python.langchain.com/v0.1/docs/expression_language/)

Selain digunakan untuk membuat sistem Q&A, LLM juga sering dimanfaatkan untuk task summarization. 

Pada use case kali ini, kita akan mendefinisikan chain dengan LCEL untuk melakukan summarization. Dokumen yang akan kita buat summary-nya merupakan paper yang berjudul [Impact of Artificial Intelligence (AI) Technology in
Healthcare Sector: A Critical Evaluation of
Both Sides of the Coin](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10804900/pdf/10.1177_2632010X241226887.pdf). Pembahasan paper ini adalah seputar penggunaan metode project based learning dalam pelajaran Science, Technology, Engineering, Art and Mathematics

Pertama, kita akan me-load file yang akan kita ringkas.

In [63]:
trans_ts_loader = PyPDFLoader('data_input/summarize1.pdf')
trans_ts_content = trans_ts_loader.load()

Selanjutnya, kita mendefinisikan prompt untuk membuat sebuah summary.

In [64]:
summary_template = """
    You are the great assistant in summarizing the following passage.

    Provide a summary of the following passage. 
    The summary should be general and no longer than five sentences.

    Passage:
    ```{text}```
    
    Summary:
"""

custom_summary_prompt = PromptTemplate.from_template(summary_template)

Selanjutnya, kita mendefinisikan sebuah fungsi yang akan me-return chain untuk melakukan summarizer.

In [65]:
def create_summary_chain(llm):
    summary_chain = {'text':RunnablePassthrough()} | custom_summary_prompt | llm | StrOutputParser()
    return summary_chain

In [66]:
gemini_summarizer = create_summary_chain(llm = ChatGoogleGenerativeAI(model='gemini-pro',
                                                                      google_api_key="xxx"))

Kita sebuah chain untuk melakukan summarizer dengan Gemini sebagai LLM. Selanjutnya, kita dapat menjalankan chain tersebut dan memberikan dokumen yang akan diringkas (`llm_ts_content`) sebagai input.

In [67]:
print(
    textwrap.fill(
        gemini_summarizer.invoke(trans_ts_content)
    )
)

1. Artificial intelligence (AI) is a rapidly growing field in
healthcare, with potential applications in diagnosis, treatment, and
research. 2. AI has shown promise in improving accuracy, consistency,
and efficiency in various medical domains, including radiology,
gastroenterology, and surgery. 3. AI can assist physicians in
diagnosing diseases, developing treatment plans, and reducing
redundant paperwork, freeing up time for patient care. 4. However,
there are also concerns about AI in healthcare, including ethical
issues (e.g., data privacy, accountability), workforce displacement,
and the potential for biased decision-making. 5. To address these
concerns and maximize the benefits of AI in healthcare, researchers
and policymakers recommend developing ethical guidelines, ensuring
data security, and providing proper training for healthcare
professionals.


# Resources

* [Python Tutorial](https://www.w3schools.com/python/).
* [The Python Tutorial](https://docs.python.org/3.10/tutorial/index.html).
* [LangChain Documentation](https://python.langchain.com/v0.1/docs/get_started/introduction).
* [Gemini API Documentation](https://ai.google.dev/gemini-api/docs).
* [OpenAI API Documentation](https://platform.openai.com/docs/api-reference).