In [None]:
import getpass
import os
import re
import textwrap

import tiktoken
from langchain_openai import OpenAIEmbeddings
from langchain_ollama import OllamaEmbeddings, OllamaLLM
from langchain_community.document_loaders import DirectoryLoader, PyPDFLoader
from langchain_chroma import Chroma
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.schema.document import Document
from langchain.retrievers import EnsembleRetriever
from langchain_community.retrievers import TFIDFRetriever
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough

from langchain_openai import ChatOpenAI

# Retrieval and chains
from langchain.retrievers.document_compressors import LLMChainExtractor
from langchain.retrievers import ContextualCompressionRetriever
from langchain_core.prompts import PromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

In [None]:
os.environ["OPENAI_API_KEY"] = "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"

In [None]:
tokenizer = tiktoken.get_encoding("cl100k_base")
def num_tokens(text: str) -> int:
    return len(tokenizer.encode(text))

# Inisialisasi model embedding
openai_embeddings = OpenAIEmbeddings(
    model="text-embedding-3-small"
)
# nomic_embeddings = OllamaEmbeddings(
#     model="nomic-embed-text"
# )
# # Inisialisasi IndoBERT sebagai embedding
# indobert_embeddings = HuggingFaceEmbeddings(
#     model_name="indobenchmark/indobert-base-p1"
# )

In [None]:
def load_pdf(pdf_path):
    """Load dan ekstrak teks dari PDF"""
    loader = PyPDFLoader(pdf_path)
    pages = loader.load()
    
    # Gabungkan semua halaman menjadi satu teks
    full_text = ""
    for page in pages:
        full_text += page.page_content + "\n"
    
    return full_text

In [None]:
def preprocess_text(text):
    """Membersihkan teks dengan aturan khusus untuk BAB dan Pasal,
    dan tidak menambahkan newline pada 'Pasal x' yang didahului kata 'dalam' atau 'dan'."""

    # Potong teks mulai dari BAB I jika ada
    match = re.search(r'\bBAB\s+I\b', text, flags=re.IGNORECASE)
    if match:
        text = text[match.start():]

    # Hapus header tidak perlu
    text = re.sub(r'PRESIDEN\s+REPUBLIK\s+INDONESIA', '', text, flags=re.IGNORECASE)
    text = re.sub(r'-\s*\d+\s*-', '', text)

    # Hapus semua baris yang mengandung '...' atau karakter elipsis Unicode '…'
    text = re.sub(r'^.*(\.{3}|…).*$', '', text, flags=re.MULTILINE)

    # Hapus baris kosong sisa
    text = re.sub(r'^\s*\n', '', text, flags=re.MULTILINE)

    # Normalisasi spasi jadi satu spasi
    text = re.sub(r'\s+', ' ', text)

    # Hapus baris seperti 'Pasal x Cukup jelas'
    text = re.sub(r'\bPasal\s+\d+\s+Cukup jelas\b', '', text, flags=re.IGNORECASE)
    
    # Tambahkan newline sebelum BAB (angka romawi)
    text = re.sub(r'(?<!\n)(BAB\s+[IVXLCDM]+)', r'\n\1', text, flags=re.IGNORECASE)

    # Tambahkan newline sebelum 'Pasal x' yang berdiri sendiri
    text = re.sub(
        r'(?<!\S)(Pasal\s+\d+)\b(?!\s*(ayat\b|,|dan\b))',
        r'\n\1',
        text,
        flags=re.IGNORECASE
    )
    
    # Hilangkan newline pada 'dalam\nPasal x' dan 'dan\nPasal x'
    text = re.sub(r'(dalam|dan)\s*\n\s*(Pasal\s+\d+)', r'\1 \2', text, flags=re.IGNORECASE)

    # Bersihkan spasi di awal dan akhir
    text = text.strip()

    return text


In [None]:
# Uji fungsi load_pdf dengan path contoh
pdf_path = "data/UU Nomor 13 Tahun 2003.pdf"
try:
    # Ekstrak sampel teks (50 karakter awal dan akhir) untuk ditampilkan
    raw_text = load_pdf(pdf_path)
    with open("data/raw_text_uu_no_13_2023_1.txt", "w", encoding="utf-8") as f:
        f.write(raw_text)
    # print(f"Contoh data awal raw_text: {raw_text[:100000]}...")
    preprocessed_text = preprocess_text(raw_text)
    with open("data/raw_text_uu_no_13_20232.txt", "w", encoding="utf-8") as f:
        f.write(preprocessed_text)
    print(f"Berhasil memuat PDF! Total karakter: {len(preprocessed_text)}")
    print(f"Sample awal teks:\n{preprocessed_text[:100000]}...")
    print(f"Sample akhir teks:\n...{preprocessed_text[-100:]}")
except FileNotFoundError:
    print(f"File tidak ditemukan: {pdf_path}")

In [None]:
def chunk_uu_with_recursive_splitter(text: str, min_words: int = 400, max_words: int = 800, overlap: int = 50):
    # text = preprocess_text(text)

    max_chars = max_words * 6
    overlap_chars = overlap * 6

    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=max_chars,
        chunk_overlap=overlap_chars,
        length_function=len,
        separators=["\n\n", "\n", ". ", " ", ""]
    )

    bab_pattern = re.compile(r'^\s*(BAB\s+([IVXLCDM]+)\s+([A-Z\s,/.&-]+))\s*$', re.MULTILINE)
    bab_matches = list(bab_pattern.finditer(text))

    documents = []

    for i, match in enumerate(bab_matches):
        start = match.end()
        end = bab_matches[i+1].start() if i+1 < len(bab_matches) else len(text)

        bab_nomor = f"BAB {match.group(2)}"
        bab_judul = match.group(3).strip()

        bab_content = text[start:end].strip()

        # Split per pasal
        pasal_pattern = re.compile(r'(?=\nPasal\s+\d+\s+)')
        pasal_texts = pasal_pattern.split(bab_content)

        for j, pasal_text in enumerate(pasal_texts):
            if not pasal_text.strip():
                continue

            pasal_match = re.search(r'Pasal\s+(\d+)', pasal_text)
            pasal_nomor = f"Pasal {pasal_match.group(1)}" if pasal_match else f"Bagian {j}"

            word_count = len(pasal_text.split())

            # Jika teks panjang, bagi menjadi beberapa chunk
            if word_count > max_words:
                chunks = text_splitter.create_documents([pasal_text])
                for k, chunk in enumerate(chunks):
                    chunk.page_content = f"{bab_nomor} {bab_judul} - {pasal_nomor} : {chunk.page_content.strip()}"
                    chunk.metadata = {
                        "bab_nomor": bab_nomor,
                        "bab_judul": bab_judul,
                        "pasal_nomor": pasal_nomor,
                        "chunk": f"{k+1}/{len(chunks)}",
                        "source": "UU No. 13 Tahun 2003",
                        "word_count": len(chunk.page_content.split()),
                        "full_reference": f"{bab_nomor} {bab_judul} - {pasal_nomor} (Bagian {k+1}/{len(chunks)})"
                    }
                    documents.append(chunk)
            else:
                page_text = f"{bab_nomor} {bab_judul} - {pasal_nomor} : {pasal_text.strip()}"
                doc = Document(
                    page_content=page_text,
                    metadata={
                        "bab_nomor": bab_nomor,
                        "bab_judul": bab_judul,
                        "pasal_nomor": pasal_nomor,
                        "chunk": "1/1",
                        "source": "UU No. 13 Tahun 2003",
                        "word_count": word_count,
                        "full_reference": f"{bab_nomor} {bab_judul} - {pasal_nomor}"
                    }
                )
                documents.append(doc)

    return documents


In [None]:
def chunk_uu_by_combined_pasal(
    text: str, min_words: int = 300, max_words: int = 800, overlap: int = 50
):
    # text = preprocess_text(text)

    # Estimasi jumlah karakter berdasarkan jumlah kata (asumsi 6 huruf per kata)
    max_chars = max_words * 6
    overlap_chars = overlap * 6

    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=max_chars,
        chunk_overlap=overlap_chars,
        length_function=len,
        separators=[". ", " ", ""]
    )

    # Temukan semua BAB
    bab_pattern = re.compile(r'^\s*(BAB\s+([IVXLCDM]+)\s+([A-Z\s,/.&-]+))\s*$', re.MULTILINE)
    bab_matches = list(bab_pattern.finditer(text))

    documents = []

    for i, match in enumerate(bab_matches):
        start = match.end()
        end = bab_matches[i + 1].start() if i + 1 < len(bab_matches) else len(text)

        bab_nomor = f"BAB {match.group(2)}"
        bab_judul = match.group(3).strip()
        bab_content = text[start:end].strip()

        # Split berdasarkan awal Pasal
        pasal_pattern = re.compile(r'(?:^|\n)(?=Pasal\s+\d+\b)')

        pasal_texts = pasal_pattern.split(bab_content)

        buffer_text = ""
        buffer_pasal = []

        for j, pasal_text in enumerate(pasal_texts):
            pasal_text = pasal_text.strip()
            if not pasal_text:
                continue

            # Coba ekstrak nomor pasal
            pasal_match = re.search(r'Pasal\s+(\d+)', pasal_text)
            pasal_nomor = f"Pasal {pasal_match.group(1)}" if pasal_match else f"Pasal-{j+1}"

            buffer_text += "\n" + pasal_text
            buffer_pasal.append(pasal_nomor)

            word_count = len(buffer_text.split())

            # Jika buffer cukup panjang atau sudah di akhir, simpan chunk
            if word_count >= min_words or j == len(pasal_texts) - 1:
                page_text = f"{bab_nomor} {bab_judul} :\n{buffer_text.strip()}".lower()

                if len(page_text.split()) > max_words:
                    chunks = text_splitter.create_documents([page_text])
                    for k, chunk in enumerate(chunks):
                        # Sisipkan kembali informasi BAB & Pasal di awal isi
                        if k != 0:
                            new_content = f"{bab_nomor} {bab_judul} :\n{', '.join(buffer_pasal)} {chunk.page_content.strip()}".lower()
                        else:
                            new_content = chunk.page_content.strip()
                        chunk.page_content = new_content
                        # chunk.page_content = chunk.page_content.strip()
                        chunk.metadata = {
                            "bab_nomor": bab_nomor,
                            "bab_judul": bab_judul,
                            "pasal_nomor": ", ".join(buffer_pasal),
                            "chunk": f"{k+1}/{len(chunks)}",
                            "source": "UU No. 13 Tahun 2003",
                            "word_count": len(chunk.page_content.split()),
                            "full_reference": f"{bab_nomor} {bab_judul} - {', '.join(buffer_pasal)} (Bagian {k+1}/{len(chunks)})"
                        }
                        documents.append(chunk)
                else:
                    doc = Document(
                        page_content=page_text.strip(),
                        metadata={
                            "bab_nomor": bab_nomor,
                            "bab_judul": bab_judul,
                            "pasal_nomor": ", ".join(buffer_pasal),
                            "chunk": "1/1",
                            "source": "UU No. 13 Tahun 2003",
                            "word_count": word_count,
                            "full_reference": f"{bab_nomor} {bab_judul} - {', '.join(buffer_pasal)}"
                        }
                    )
                    documents.append(doc)

                buffer_text = ""
                buffer_pasal = []

    return documents


In [None]:
def chunk_uu_by_combined_pasal(
    text: str, min_words: int = 300, max_words: int = 800, overlap: int = 50
):
    # text = preprocess_text(text)

    # Estimasi jumlah karakter berdasarkan jumlah kata (asumsi 6 huruf per kata)
    max_chars = max_words * 6
    overlap_chars = overlap * 6

    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=max_chars,
        chunk_overlap=overlap_chars,
        length_function=len,
        separators=[". ", " ", ""]
    )

    # Temukan semua BAB
    bab_pattern = re.compile(r'^\s*(BAB\s+([IVXLCDM]+)\s+([A-Z\s,/.&-]+))\s*$', re.MULTILINE)
    bab_matches = list(bab_pattern.finditer(text))

    documents = []

    for i, match in enumerate(bab_matches):
        start = match.end()
        end = bab_matches[i + 1].start() if i + 1 < len(bab_matches) else len(text)

        bab_nomor = f"BAB {match.group(2)}"
        bab_judul = match.group(3).strip()
        bab_content = text[start:end].strip()

        # Split berdasarkan awal Pasal
        pasal_pattern = re.compile(r'(?:^|\n)(?=Pasal\s+\d+\b)')

        pasal_texts = pasal_pattern.split(bab_content)

        buffer_text = ""
        buffer_pasal = []

        for j, pasal_text in enumerate(pasal_texts):
            pasal_text = pasal_text.strip()
            if not pasal_text:
                continue

            # Coba ekstrak nomor pasal
            pasal_match = re.search(r'Pasal\s+(\d+)', pasal_text)
            pasal_nomor = f"Pasal {pasal_match.group(1)}" if pasal_match else f"Pasal-{j+1}"

            buffer_text += "\n" + pasal_text
            buffer_pasal.append(pasal_nomor)

            word_count = len(buffer_text.split())

            # Jika buffer cukup panjang atau sudah di akhir, simpan chunk
            if word_count >= min_words or j == len(pasal_texts) - 1:
                page_text = f"{bab_nomor} {bab_judul} :\n{buffer_text.strip()}".lower()

                if len(page_text.split()) > max_words:
                    chunks = text_splitter.create_documents([page_text])
                    for k, chunk in enumerate(chunks):
                        # Sisipkan kembali informasi BAB & Pasal di awal isi
                        if k != 0:
                            new_content = f"{bab_nomor} {bab_judul} :\n{', '.join(buffer_pasal)} {chunk.page_content.strip()}".lower()
                        else:
                            new_content = chunk.page_content.strip()
                        chunk.page_content = new_content
                        # chunk.page_content = chunk.page_content.strip()
                        chunk.metadata = {
                            "bab_nomor": bab_nomor,
                            "bab_judul": bab_judul,
                            "pasal_nomor": ", ".join(buffer_pasal),
                            "chunk": f"{k+1}/{len(chunks)}",
                            "source": "UU No. 13 Tahun 2003",
                            "word_count": len(chunk.page_content.split()),
                            "full_reference": f"{bab_nomor} {bab_judul} - {', '.join(buffer_pasal)} (Bagian {k+1}/{len(chunks)})"
                        }
                        documents.append(chunk)
                else:
                    doc = Document(
                        page_content=page_text.strip(),
                        metadata={
                            "bab_nomor": bab_nomor,
                            "bab_judul": bab_judul,
                            "pasal_nomor": ", ".join(buffer_pasal),
                            "chunk": "1/1",
                            "source": "UU No. 13 Tahun 2003",
                            "word_count": word_count,
                            "full_reference": f"{bab_nomor} {bab_judul} - {', '.join(buffer_pasal)}"
                        }
                    )
                    documents.append(doc)

                buffer_text = ""
                buffer_pasal = []

    return documents


In [None]:
with open(r"data\raw_text_uu_no_13_2023_amandemen.txt", "r", encoding="utf-8") as file:
    text = file.read()

documents = chunk_uu_by_combined_pasal(text)
print(f"Total dokumen yang dihasilkan: {len(documents)}")

for doc in documents[:100]:
    print(f"Dokumen:")
    print(doc.page_content)
    print(f"Metadata:")
    print(textwrap.fill(str(doc.metadata), width=100))
    print("-" * 40)

In [None]:
def create_vector_store(documents, embedding_model,  persist_dir: str = "./chroma_db") -> Chroma: 
    # Create vector store
    db = Chroma.from_documents(
        documents=documents, 
        embedding= embedding_model,
        persist_directory=persist_dir,
        collection_metadata={"hnsw:space": "cosine"}
    )
    
    # Persist to disk
    # db.persist()
    print(f"Vector store saved to {persist_dir}")
    
    return db

db = create_vector_store(documents,embedding_model=openai_embeddings,  persist_dir="./chroma_db_openai_gabungan_pasal_cosine")

In [None]:
def search_documents(query: str, persist_dir: str, embedding_model, top_k: int = 5):
    db = Chroma(
        persist_directory=persist_dir,
        embedding_function=embedding_model
    ) 
    result_with_score = db.similarity_search_with_score(
        query, 
        k=top_k, 
    )

    print(f"Query: {query}\n")
    print([score for _, score in result_with_score])
    print("Hasil pencarian:")
    for i, (doc, score) in enumerate(result_with_score):
        print(f"{i+1}.")
        print(f"Skor Similarity : {score:.4f}")
        print(f"Isi Dokumen     : {doc.page_content}\n")
    
    return result_with_score

In [None]:
query =  "apa hak pekerja?"
search_documents(query, "./chroma_db_openai_gabungan_pasal_cosine", openai_embeddings, top_k=5)

In [None]:
def build_hybrid_retriever(
    embedding_model,
    tfidf_k: int = 2,
    embed_k: int = 2,
    weights: list[float] = [0.7, 0.3],
    persist_directory: str = "./chroma_db_nomic"
):
    # Inisialisasi Chroma vectorstore
    db = Chroma(
        persist_directory=persist_directory,
        embedding_function=embedding_model
    )

    # Ambil semua dokumen dari Chroma
    raw_docs = db.get(include=["documents", "metadatas"])
    documents = [
        Document(page_content=doc, metadata=meta)
        for doc, meta in zip(raw_docs["documents"], raw_docs["metadatas"])
    ]

    # Buat TF-IDF retriever dari dokumen
    tfidf_retriever = TFIDFRetriever.from_documents(documents)
    tfidf_retriever.k = tfidf_k

    # Buat retriever berbasis embedding dari Chroma
    embedding_retriever = db.as_retriever(
        search_type="similarity",
        search_kwargs={"k": embed_k}
    )

    # Gabungkan keduanya dengan EnsembleRetriever
    hybrid_retriever = EnsembleRetriever(
        retrievers=[embedding_retriever, tfidf_retriever],
        weights=weights
    )

    return hybrid_retriever


In [None]:
def get_retriever_context(input_query):
    retriever = build_hybrid_retriever(embedding_model=openai_embeddings,persist_directory="./chroma_db_openai_gabungan_pasal_cosine")
    documents = retriever.invoke(input_query)
    chunks = [doc.page_content for doc in documents] if documents else []
    context = "\n\n".join(chunks) if chunks else "Tidak ada dokumen relevan ditemukan."
    return {
        "context": context,
        "chunks": chunks,
        "metadata": [doc.metadata for doc in documents],
    }

In [None]:
hybrid_retriever = build_hybrid_retriever(embedding_model=openai_embeddings, persist_directory="./chroma_db_openai_gabungan_pasal_cosine")
docs = hybrid_retriever.get_relevant_documents(query)

print(f"\nHasil Retrieve untuk pertanyaan: '{query}'")
print("=" * 80)

for i, doc in enumerate(docs, 1):
    print(f"\nDokumen #{i}")
    print("-" * 30)
    print(doc.page_content)  # isi dokumen
    if doc.metadata:
        print("\n Metadata:")
        for key, value in doc.metadata.items():
            print(f"  - {key}: {value}")

In [None]:
# Template prompt 
prompt_template = """<|system|>
Kamu adalah asisten hukum yang ahli dalam regulasi ketenagakerjaan di Indonesia, khususnya Undang-Undang Nomor 13 Tahun 2003 tentang Ketenagakerjaan beserta perubahannya, termasuk dari UU No. 6 Tahun 2023 (Cipta Kerja). 
Tugasmu adalah menjawab pertanyaan pengguna secara akurat dan objektif, berdasarkan kutipan resmi dari Undang-Undang yang tersedia dalam konteks.

Aturan penjawaban:
- Jawab secara singkat, fokus pada pasal dan ayat yang relevan.
- jawab dengan format yang jelas, sebutkan pasal dan ayatnya.
- Jika ada nomor dan list, tolong gunakan format yang sesuai.
- Jawaban hanya boleh berdasarkan konteks yang tersedia.
- Jika pasal dalam konteks telah diubah, tambahkan keterangan bahwa isi tersebut merupakan hasil amandemen dan sebutkan UU yang mengubahnya.
- Jika pasal telah dihapus, sebutkan bahwa pasal tersebut sudah tidak berlaku dan tidak perlu dijelaskan lebih lanjut.
- Sebutkan pasal dan ayat secara eksplisit jika tersedia.
- Jangan menambahkan interpretasi atau opini di luar kutipan.
- Jika tidak ditemukan informasi yang relevan dalam konteks, jawab: "Informasi tidak tersedia dalam konteks."

Format konteks:
- Diawali dengan nama **Bab** (jika ada) dan **Nomor Pasal**, misalnya `bab ix hubungan kerja - pasal 50`.
- Diikuti isi pasal dan ayat, termasuk penanda seperti `(1)`, `(2)`, dst.
- Pasal yang diamandemen, ditambahkan, atau dihapus memiliki catatan tambahan dalam teks, misalnya:
    - `Pasal 151 (diubah oleh UU No. 6 Tahun 2023)`
    - `Pasal 151A (ditambahkan oleh UU No. 6 Tahun 2023)`
    - `Pasal 152 (dihapus oleh UU No. 6 Tahun 2023)`

Instruksi penting:
- Jika pasal merupakan hasil perubahan dari UU lain, beri tahu pengguna bahwa pasal tersebut adalah hasil amandemen dari pasal sebelumnya.
- Jika ada pasal baru (misal 151A), nyatakan bahwa pasal tersebut merupakan tambahan dari UU perubahan.
- Jika pasal dihapus, cukup nyatakan bahwa pasal tersebut sudah tidak berlaku.

<|user|>
Berikut adalah konteks dari dokumen hukum yang relevan (kutipan dari UU No. 13 Tahun 2003 dan perubahannya):

{context}

Pertanyaan:
{question}
<|assistant|>
/no_think
"""


In [None]:
# Inisialisasi LLM dari Ollama
llm = OllamaLLM(
    model="qwen3:8b",
    temperature=0.0,
    verbose=True
)

# Ambil konteks dari retriever untuk query yang diberikan
retrieved_context = get_retriever_context(query)
context_text = retrieved_context["context"]
retrieved_chunks = retrieved_context["chunks"]

# Bangun prompt dan jalankan inferensi
prompt_template = PromptTemplate(
    template=prompt_template,  
    input_variables=["context", "question"]
)

qa_chain = prompt_template | llm | StrOutputParser()
answer = qa_chain.invoke({
    "context": context_text,
    "question": query
})

# Tampilkan hasil
print("Jawaban LLM:\n", answer)
print("\nChunks yang digunakan sebagai konteks:")
for idx, chunk in enumerate(retrieved_chunks, 1):
    print(f"\nChunk {idx}:\n{chunk}")
