In [1]:
import getpass
import os
import re
import textwrap

import tiktoken
from langchain_openai import OpenAIEmbeddings
from langchain_ollama import OllamaEmbeddings, OllamaLLM
from langchain_community.document_loaders import DirectoryLoader, PyPDFLoader
from langchain_chroma import Chroma
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.schema.document import Document
from langchain.retrievers import EnsembleRetriever
from langchain_community.retrievers import TFIDFRetriever
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough

from langchain_openai import ChatOpenAI

# Retrieval and chains
from langchain.retrievers.document_compressors import LLMChainExtractor
from langchain.retrievers import ContextualCompressionRetriever
from langchain_core.prompts import PromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

In [2]:
os.environ["OPENAI_API_KEY"] = "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"

In [3]:
def load_pdf(pdf_path):
    """Load dan ekstrak teks dari PDF"""
    loader = PyPDFLoader(pdf_path)
    pages = loader.load()
    
    # Gabungkan semua halaman menjadi satu teks
    full_text = ""
    for page in pages:
        full_text += page.page_content + "\n"
    
    return full_text

In [4]:
def preprocess_text(text):
    """Membersihkan teks dengan aturan khusus untuk BAB dan Pasal,
    dan tidak menambahkan newline pada 'Pasal x' yang didahului kata 'dalam' atau 'dan'."""

    # Potong teks mulai dari BAB I jika ada
    match = re.search(r'\bBAB\s+I\b', text, flags=re.IGNORECASE)
    if match:
        text = text[match.start():]

    # Hapus header tidak perlu
    text = re.sub(r'PRESIDEN\s+REPUBLIK\s+INDONESIA', '', text, flags=re.IGNORECASE)
    text = re.sub(r'-\s*\d+\s*-', '', text)

    # Hapus semua baris yang mengandung '...' atau karakter elipsis Unicode '…'
    text = re.sub(r'^.*(\.{3}|…).*$', '', text, flags=re.MULTILINE)

    # Hapus baris kosong sisa
    text = re.sub(r'^\s*\n', '', text, flags=re.MULTILINE)

    # Normalisasi spasi jadi satu spasi
    text = re.sub(r'\s+', ' ', text)

    # Hapus baris seperti 'Pasal x Cukup jelas'
    text = re.sub(r'\bPasal\s+\d+\s+Cukup jelas\b', '', text, flags=re.IGNORECASE)
    
    # Tambahkan newline sebelum BAB (angka romawi)
    text = re.sub(r'(?<!\n)(BAB\s+[IVXLCDM]+)', r'\n\1', text, flags=re.IGNORECASE)

    # Tambahkan newline sebelum 'Pasal x' yang berdiri sendiri
    text = re.sub(
        r'(?<!\S)(Pasal\s+\d+)\b(?!\s*(ayat\b|,|dan\b))',
        r'\n\1',
        text,
        flags=re.IGNORECASE
    )
    
    # Hilangkan newline pada 'dalam\nPasal x' dan 'dan\nPasal x'
    text = re.sub(r'(dalam|dan)\s*\n\s*(Pasal\s+\d+)', r'\1 \2', text, flags=re.IGNORECASE)

    # Bersihkan spasi di awal dan akhir
    text = text.strip()

    return text


In [5]:
# Uji fungsi load_pdf dengan path contoh
pdf_path = "data/UU Nomor 13 Tahun 2003.pdf"
try:
    # Ekstrak sampel teks (50 karakter awal dan akhir) untuk ditampilkan
    raw_text = load_pdf(pdf_path)
    with open("data/raw_text_uu_no_13_2023_1.txt", "w", encoding="utf-8") as f:
        f.write(raw_text)
    # print(f"Contoh data awal raw_text: {raw_text[:100000]}...")
    preprocessed_text = preprocess_text(raw_text)
    with open("data/raw_text_uu_no_13_20232.txt", "w", encoding="utf-8") as f:
        f.write(preprocessed_text)
    print(f"Berhasil memuat PDF! Total karakter: {len(preprocessed_text)}")
    print(f"Sample awal teks:\n{preprocessed_text[:100000]}...")
    print(f"Sample akhir teks:\n...{preprocessed_text[-100:]}")
except FileNotFoundError:
    print(f"File tidak ditemukan: {pdf_path}")

Berhasil memuat PDF! Total karakter: 162920
Sample awal teks:
BAB I KETENTUAN UMUM 
Pasal 1 Dalam undang undang ini yang dimaksud dengan : 1. Ketenagakerjaan adalah segala hal yang berhubungan dengan tenaga kerja pada waktu sebelum, selama, dan sesudah masa kerja. 2. Tenaga kerja adalah setiap orang yang mampu melakukan pekerjaan guna menghasilkan barang dan/atau jasa baik untuk memenuhi kebutuh an sendiri maupun untuk masyarakat. 3. Pekerja/buruh adalah setiap orang yang bekerja dengan menerima upah atau imbalan dalam bentuk lain. 4. Pemberi kerja adalah orang perseorangan, pengusaha, bada n hukum, atau badan-badan lainnya yang mempekerjakan tenaga kerja dengan membayar upah atau imbalan dalam bentuk lain. 5. Pengusaha adalah : a. orang perseorangan, persekutuan, atau badan hukum yang menjalankan suatu perusahaan milik sendiri; b. orang pers eorangan, persekutuan, atau badan hukum yang secara berdiri sendiri menjalankan perusahaan bukan miliknya; c. orang perseorangan, persekutuan, at

In [6]:
tokenizer = tiktoken.get_encoding("cl100k_base")
def num_tokens(text: str) -> int:
    return len(tokenizer.encode(text))

# Inisialisasi model embedding
openai_embeddings = OpenAIEmbeddings(
    model="text-embedding-3-small"
)

In [7]:
def chunk_uu_by_token(
    text: str, min_token: int = 512, max_token: int = 1024, overlap: int = 50
):
    # Inisialisasi text splitter berbasis token encoder dengan tokenizer cl100k_base (OpenAI).
    text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
        encoding_name="cl100k_base",
        chunk_size=max_token,
        chunk_overlap=overlap,
        separators=[". ", " ", ""] # Urutan preferensi pemisah chunk
    )

    # Temukan semua BAB
    bab_pattern = re.compile(r'^\s*(BAB\s+([IVXLCDM]+)\s+([A-Z\s,/.&-]+))\s*$', re.MULTILINE)
    # Cari semua kecocokan BAB dalam teks
    bab_matches = list(bab_pattern.finditer(text))

    # Inisialisasi daftar list untuk menyimpan dokumen
    documents = []

    # Iterasi setiap BAB yang ditemukan
    for i, match in enumerate(bab_matches):
        # Posisi akhir BAB saat ini sebagai awal isi
        start = match.end()
        # Sampai awal BAB berikutnya / akhir teks
        end = bab_matches[i + 1].start() if i + 1 < len(bab_matches) else len(text)

        bab_nomor = f"BAB {match.group(2)}"
        bab_judul = match.group(3).strip()
        bab_content = text[start:end].strip()

        # Split isi BAB menjadi bagian per Pasal
        pasal_pattern = re.compile(r'(?:^|\n)(?=Pasal\s+\d+\b)')
        pasal_texts = pasal_pattern.split(bab_content)

        buffer_text = ""
        buffer_pasal = []

        # Iterasi setiap Pasal dalam BAB
        for j, pasal_text in enumerate(pasal_texts):
            pasal_text = pasal_text.strip()
            if not pasal_text:
                continue

            # Cari dan ambil nomor pasal dari teks
            pasal_match = re.search(r'Pasal\s+(\d+)', pasal_text)
            pasal_nomor = f"Pasal {pasal_match.group(1)}" if pasal_match else f"Pasal-{j+1}"
            
            # Tambahkan teks pasal ke buffer
            buffer_text += "\n" + pasal_text
            buffer_pasal.append(pasal_nomor)
            
            # Hitung token dalam buffer
            token_count = num_tokens(buffer_text)

            # Jika buffer cukup panjang atau sudah di akhir, simpan chunk
            if token_count >= min_token or j == len(pasal_texts) - 1:
                page_text = f"UU Nomor 13 Tahun 2003 Ketenagakerjaan, {bab_nomor} {bab_judul} :\n{buffer_text.strip()}".lower()
                
                # Jika jumlah token melebihi batas maksimum, pisahkan menjadi beberapa chunk
                if num_tokens(page_text) > max_token:
                    chunks = text_splitter.create_documents([page_text])
                    for k, chunk in enumerate(chunks):
                        # Sisipkan kembali informasi BAB & Pasal di awal isi
                        if k != 0:
                            new_content = f"UU Nomor 13 Tahun 2003 Ketenagakerjaan, {bab_nomor} {bab_judul} :\n {pasal_nomor} {chunk.page_content.strip()}".lower()
                        else:
                            new_content = chunk.page_content.strip()
                        chunk.page_content = new_content
                        # Tambahkan metadata untuk BAB, Pasal, dan jumlah token
                        chunk.metadata = {
                            "bab_nomor": bab_nomor,
                            "bab_judul": bab_judul,
                            "pasal_nomor": ", ".join(buffer_pasal),
                            "jumlah_token": num_tokens(chunk.page_content)
                        }
                        documents.append(chunk)
                else:
                    # Jika panjang masih di bawah max_token, langsung simpan sebagai satu Document
                    doc = Document(
                        page_content=page_text.strip(),
                        metadata={
                            "bab_nomor": bab_nomor,
                            "bab_judul": bab_judul,
                            "pasal_nomor": ", ".join(buffer_pasal),
                            "jumlah_token": num_tokens(page_text)
                        }
                    )               
                    documents.append(doc)
                # Reset buffer untuk pasal berikutnya
                buffer_text = ""
                buffer_pasal = []

    return documents


In [8]:
with open(r"data\raw_text_uu_no_13_2023_amandemen.txt", "r", encoding="utf-8") as file:
    text = file.read()

documents = chunk_uu_by_token(text)
for doc in documents:
        doc.metadata["source"] = "UU Nomor 13 Tahun 2003 Ketenagaerjaan"
        doc.metadata["doc_type"] = "base data"
print(f"Total dokumen yang dihasilkan: {len(documents)}")

for i, doc in enumerate(documents[:100]):
    print(f"Chunk #{i + 1}:")
    print(doc.page_content)
    print(f"Metadata:")
    print(textwrap.fill(str(doc.metadata), width=100))
    print("-" * 40)

Total dokumen yang dihasilkan: 90
Chunk #1:
uu nomor 13 tahun 2003 ketenagakerjaan, bab i ketentuan umum :
pasal 1 dalam undang undang ini yang dimaksud dengan : 1. ketenagakerjaan adalah segala hal yang berhubungan dengan tenaga kerja pada waktu sebelum, selama, dan sesudah masa kerja. 2. tenaga kerja adalah setiap orang yang mampu melakukan pekerjaan guna menghasilkan barang dan/atau jasa baik untuk memenuhi kebutuh an sendiri maupun untuk masyarakat. 3. pekerja/buruh adalah setiap orang yang bekerja dengan menerima upah atau imbalan dalam bentuk lain. 4. pemberi kerja adalah orang perseorangan, pengusaha, bada n hukum, atau badan-badan lainnya yang mempekerjakan tenaga kerja dengan membayar upah atau imbalan dalam bentuk lain. 5. pengusaha adalah : a. orang perseorangan, persekutuan, atau badan hukum yang menjalankan suatu perusahaan milik sendiri; b. orang pers eorangan, persekutuan, atau badan hukum yang secara berdiri sendiri menjalankan perusahaan bukan miliknya; c. orang perseo

In [9]:
def create_vector_store(documents, embedding_model,  persist_dir: str = "./chroma_db") -> Chroma: 
    # Membuat vector store Chroma dari dokumen yang diberikan menggunakan model embedding
    db = Chroma.from_documents(
        documents=documents, 
        embedding= embedding_model,
        persist_directory=persist_dir,
        collection_metadata={"hnsw:space": "cosine"}
    )
    
    # Memberi informasi bahwa proses telah selesai dan disimpan
    print(f"Vector store saved to {persist_dir}")
    
    return db

db = create_vector_store(documents,embedding_model=openai_embeddings,  persist_dir="./chroma_db_openai_ketenagakerjaan")

Vector store saved to ./chroma_db_openai_ketenagakerjaan


In [None]:
def build_hybrid_retriever(
    embedding_model,
    tfidf_k: int = 2,
    embed_k: int = 2,
    weights: list[float] = [0.7, 0.3],
    persist_directory: str = "./chroma_db_openai_gabungan_pasal_cosine"
):
    # Inisialisasi Chroma vectorstore
    db = Chroma(
        persist_directory=persist_directory,
        embedding_function=embedding_model
    )

    # Ambil semua dokumen dari Chroma
    raw_docs = db.get(include=["documents", "metadatas"])
    documents = [
        Document(page_content=doc, metadata=meta)
        for doc, meta in zip(raw_docs["documents"], raw_docs["metadatas"])
    ]

    # Buat TF-IDF retriever dari dokumen
    tfidf_retriever = TFIDFRetriever.from_documents(documents)
    tfidf_retriever.k = tfidf_k

    # Buat retriever berbasis embedding dari Chroma
    embedding_retriever = db.as_retriever(
        search_type="similarity",
        search_kwargs={"k": embed_k}
    )

    # Gabungkan keduanya dengan EnsembleRetriever
    hybrid_retriever = EnsembleRetriever(
        retrievers=[embedding_retriever, tfidf_retriever],
        weights=weights
    )

    return hybrid_retriever


In [None]:
def get_retriever_context(input_query):
    # Membangun retriever dengan pendekatan hybrid
    retriever = build_hybrid_retriever(embedding_model=openai_embeddings,persist_directory="./chroma_db_openai_gabungan_pasal_cosine_2")
    # Menjalankan retriever untuk mencari dokumen yang relevan terhadap input_query
    documents = retriever.invoke(input_query)
    # Ekstraksi isi dari setiap dokumen hasil pencarian (jika ada)
    chunks = [doc.page_content for doc in documents] if documents else []
    # Gabungkan semua chunk menjadi satu string konteks (dengan pemisah newline ganda)
    context = "\n\n".join(chunks) if chunks else "Tidak ada dokumen relevan ditemukan."
    return {
        "context": context,
        "chunks": chunks,
        "metadata": [doc.metadata for doc in documents],
    }

In [None]:
# Bangun hybrid retriever dari vector store dan model embedding
hybrid_retriever = build_hybrid_retriever(
    embedding_model=openai_embeddings, 
    persist_directory="./chroma_db_openai_gabungan_pasal_cosine_2"
)
# Jalankan pencarian dokumen relevan berdasarkan query
docs = hybrid_retriever.invoke(query)

# Cetak header hasil pencarian
print(f"\nHasil Retrieve untuk pertanyaan: '{query}'")
print("=" * 80)

# Tampilkan isi setiap dokumen hasil retrieve
for i, doc in enumerate(docs, 1):
    print(f"\nDokumen #{i}")
    print("-" * 30)
    print(doc.page_content)  # isi dokumen
    if doc.metadata:
        print("\n Metadata:")
        for key, value in doc.metadata.items():
            print(f"  - {key}: {value}")

In [None]:
# Template prompt 
prompt= """<|system|>
Kamu adalah asisten hukum yang ahli dalam regulasi ketenagakerjaan di Indonesia, khususnya Undang-Undang Nomor 13 Tahun 2003 tentang Ketenagakerjaan beserta perubahannya, termasuk dari UU No. 6 Tahun 2023 (Cipta Kerja). 
Tugasmu adalah menjawab pertanyaan pengguna secara akurat dan objektif, berdasarkan kutipan resmi dari Undang-Undang yang tersedia dalam konteks.

Aturan penjawaban:
- Jawab secara singkat, fokus pada pasal dan ayat yang relevan.
- jawab dengan format yang jelas, sebutkan pasal dan ayatnya.
- Jika ada nomor dan list, tolong gunakan format yang sesuai.
- Jawaban hanya boleh berdasarkan konteks yang tersedia.
- Jika pasal dalam konteks telah diubah, tambahkan keterangan bahwa isi tersebut merupakan hasil amandemen dan sebutkan UU yang mengubahnya.
- Jika pasal telah dihapus, sebutkan bahwa pasal tersebut sudah tidak berlaku dan tidak perlu dijelaskan lebih lanjut.
- Sebutkan pasal dan ayat secara eksplisit jika tersedia.
- Jangan menambahkan interpretasi atau opini di luar kutipan.
- Jika tidak ditemukan informasi yang relevan dalam konteks, jawab: "Informasi tidak tersedia dalam konteks."

Format konteks:
- Diawali dengan nama **Bab** (jika ada) dan **Nomor Pasal**, misalnya `bab ix hubungan kerja - pasal 50`.
- Diikuti isi pasal dan ayat, termasuk penanda seperti `(1)`, `(2)`, dst.
- Pasal yang diamandemen, ditambahkan, atau dihapus memiliki catatan tambahan dalam teks, misalnya:
    - `Pasal 151 (diubah oleh UU No. 6 Tahun 2023)`
    - `Pasal 151A (ditambahkan oleh UU No. 6 Tahun 2023)`
    - `Pasal 152 (dihapus oleh UU No. 6 Tahun 2023)`

Instruksi penting:
- Jika pasal merupakan hasil perubahan dari UU lain, beri tahu pengguna bahwa pasal tersebut adalah hasil amandemen dari pasal sebelumnya.
- Jika ada pasal baru (misal 151A), nyatakan bahwa pasal tersebut merupakan tambahan dari UU perubahan.
- Jika pasal dihapus, cukup nyatakan bahwa pasal tersebut sudah tidak berlaku.

<|user|>
Berikut adalah konteks dari dokumen hukum yang relevan (kutipan dari UU No. 13 Tahun 2003 dan perubahannya):

{context}

Pertanyaan:
{question}
<|assistant|>
/no_think
"""


In [None]:
# Inisialisasi LLM dari Ollama
llm = OllamaLLM(
    model="qwen3:8b",
    temperature=0.0
)

# Ambil konteks dari retriever untuk query yang diberikan
retrieved_context = get_retriever_context(query)
context_text = retrieved_context["context"]
retrieved_chunks = retrieved_context["chunks"]

# Buat prompt template dari string `prompt` yang telah didefinisikan sebelumnya
prompt_template = PromptTemplate(
    template=prompt,  
    input_variables=["context", "question"]
)

# Buat rantai (chain) untuk QA: dari prompt → ke LLM → parsing output menjadi teks string
qa_chain = prompt_template | llm | StrOutputParser()

# Tampilkan proses inferensi dengan streaming output (real-time seperti typing)
print("Jawaban LLM:\n")
for output in qa_chain.stream({
    "context": context_text,
    "question": query
}):
    # Tampilkan output secara real-time
    print(output, end="", flush=True)

# Tampilkan chunks yang digunakan
print("\n\nChunks yang digunakan sebagai konteks:")
for idx, chunk in enumerate(retrieved_chunks, 1):
    print(f"\nChunk {idx}:\n{chunk}")