# Setup

In [None]:
!pip install llama_index

In [None]:
import os

In [None]:
import re
import pandas as pd
import numpy as np

In [None]:
from google.colab import files

In [None]:
import logging
import sys

logging.basicConfig(stream=sys.stdout, level=logging.INFO)
logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))

In [None]:
from llama_index import (
    GPTVectorStoreIndex,
    SimpleDirectoryReader,
    LLMPredictor,
    PromptHelper,
    ServiceContext,
    Document,
    Response,
    StorageContext,
    load_index_from_storage
)
from llama_index.optimization.optimizer import SentenceEmbeddingOptimizer
from llama_index.node_parser import SimpleNodeParser
from langchain import OpenAI

In [None]:
from langchain.chat_models import ChatOpenAI

In [None]:
# This is a secret key, only for personal use
os.environ["OPENAI_API_KEY"] = "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"

# Extract Documents

In [None]:
# Mendefinisikan nama file
UU_13_2003_path = 'list_of_data_UU_13_2003.txt'
UU_11_2020_path = 'list_of_data_UU_11_2020.txt'
PP_34_2021_path = 'list_of_data_PP_34_2021.txt'
PP_37_2021_path = 'list_of_data_PP_37_2021.txt'

# Membaca dokumen UU 13/2003
with open(UU_13_2003_path, 'r') as file1:
    UU_13_2003 = file1.readlines()

# Membaca dokumen UU 11/2020
with open(UU_11_2020_path, 'r') as file2:
    UU_11_2020 = file2.readlines()

# Membaca dokumen PP 34/2021
with open(PP_34_2021_path, 'r') as file3:
    PP_34_2021 = file3.readlines()

# Membaca dokumen PP 37/2021
with open(PP_37_2021_path, 'r') as file4:
    PP_37_2021 = file4.readlines()

# Menggabungkan keempat list
data_collection = UU_13_2003 + UU_11_2020 + PP_34_2021 + PP_37_2021

# Load Documents

In [None]:
# Menginisiasi document
documents = [Document(t) for t in data_collection]


# Parse Documents into Nodes

In [None]:
# Menginisiasi node
parser = SimpleNodeParser()
nodes = parser.get_nodes_from_documents(documents)

# Index Construction

In [None]:
# Melakukan kostumisasi LLM

# Mendefinisikan prompt helper
context_window = 4096
num_output = 256
prompt_helper = PromptHelper(context_window=context_window, num_output=num_output)

# Mendefinisikan LLM
llm_predictor = LLMPredictor(llm=ChatOpenAI(
    temperature=0.1, 
    model_name="gpt-3.5-turbo", 
    max_tokens=num_output)
)

# Mendefinisikan service context
service_context = ServiceContext.from_defaults(
    llm_predictor=llm_predictor,
    prompt_helper=prompt_helper,
)

In [None]:
# Membangun index
index = GPTVectorStoreIndex(nodes, service_context=service_context)

print("Total LLM token usage: ", index.service_context.llm_predictor._last_token_usage)
print("Total embedding token usage: ", index.service_context.embed_model._last_token_usage)

Total LLM token usage:  0
Total embedding token usage:  111678


# Save Index

In [None]:
# Menyimpan index
index.storage_context.persist()

In [None]:
# Membangun ulang storage context
storage_context = StorageContext.from_defaults(persist_dir="./storage")

In [None]:
# Memuat index
index = load_index_from_storage(storage_context)

In [None]:
# Melakukan zip pada folder storage
!zip -r /content/storage_UU_PP.zip /content/storage

# Mengunduh folder zip
files.download('/content/storage_UU_PP.zip')

  adding: content/storage/ (stored 0%)
  adding: content/storage/index_store.json (deflated 68%)
  adding: content/storage/vector_store.json (deflated 61%)
  adding: content/storage/docstore.json (deflated 70%)


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# Querying

In [None]:
# Mengekstrak index yang diunggah dari lokal
!unzip /content/storage_UU_PP.zip

Archive:  /content/storage_UU_PP.zip
  inflating: storage_UU_PP/docstore.json  
  inflating: storage_UU_PP/index_store.json  
  inflating: storage_UU_PP/vector_store.json  


In [None]:
# Memuat index yang disimpan
storage_context = StorageContext.from_defaults(persist_dir="./storage_UU_PP")
index = load_index_from_storage(storage_context, service_context=service_context)

In [None]:
# Menginisiasi query engine
query_engine = index.as_query_engine(similarity_top_k=2)

In [None]:
# Fungsi tampilan hasil kueri dan sumber
def display_result(response, index):
  eval_df = pd.DataFrame(
        {
            "Response": str(response),
            "Total LLM token usage": index.service_context.llm_predictor._last_token_usage,
            "Total embedding token usage": index.service_context.embed_model._last_token_usage,
            "Source": response.source_nodes[0].node.get_text()
        },
        index=[0]
    )
  eval_df = eval_df.style.set_properties(
        **{
            'overflow-wrap': 'break-word',
        }
    )
  display(eval_df)

## Querying

In [None]:
query_str1 = "Apa definisi ketenagakerjaan berdasarkan Undang-Undang Republik Indonesia Nomor 13 Tahun 2003 tentang Ketenagakerjaan? "
response1 = query_engine.query(query_str1)

display_result(response1, index)

Unnamed: 0,Response,Total LLM token usage,Total embedding token usage,Source
0,"Definisi ketenagakerjaan berdasarkan Undang-Undang Republik Indonesia Nomor 13 Tahun 2003 tentang Ketenagakerjaan adalah segala hal yang berhubungan dengan tenaga kerja pada waktu sebelum, selama, dan sesudah masa kerja.",281,0,[Berikut adalah isi Pasal 2 pada UU Nomor 13 Tahun 2003] Pembangunan ketenagakerjaan berlandaskan Pancasila dan Undang Undang Dasar Negara Republik Indonesia Tahun 1945.


In [None]:
query_str2 = "Apa definisi dari kompetensi kerja?"
response2 = query_engine.query(query_str2)

display_result(response2, index)

Unnamed: 0,Response,Total LLM token usage,Total embedding token usage,Source
0,"Definisi dari kompetensi kerja adalah kemampuan kerja setiap individu yang mencakup aspek pengetahuan, keterampilan, dan sikap kerja yang sesuai dengan standar yang ditetapkan, seperti yang dijelaskan dalam Pasal 1 angka 10 pada UU Nomor 13 Tahun 2003.",368,0,"[Berikut adalah isi Pasal 1 angka 10 pada UU Nomor 13 Tahun 2003] Kompetensi kerja adala h kemampuan kerja setiap individu yang mencakup aspek pengetahuan, keterampilan, dan sikap kerja yang sesuai dengan standar yang ditetapkan."


In [None]:
query_str3 = "Yg disebut sbg anak adalah siapa?"
response3 = query_engine.query(query_str3)

display_result(response3, index)

Unnamed: 0,Response,Total LLM token usage,Total embedding token usage,Source
0,Orang yang berumur di bawah 18 tahun.,155,0,[Berikut adalah isi Pasal 1 angka 26 pada UU Nomor 13 Tahun 2003] Anak adalah setiap orang yang berumur dibawah 18 (delapan belas) tahun.
