# **Context, Question, Answer Dataset Creation**

## **Import Libraries**

In [1]:
import os
import json
import fitz
import math
from paddleocr import PaddleOCR
import pandas as pd
from openai import OpenAI
from dotenv import load_dotenv
from tqdm.auto import tqdm
import paddle

pd.set_option('display.max_colwidth', None)

In [2]:
import paddle
print("CUDA available:", paddle.is_compiled_with_cuda())

CUDA available: True


In [3]:
# 1. Load env
load_dotenv()
print("OPENAI_API_KEY:", os.getenv("OPENAI_API_KEY"))

# 2. Init new OpenAI client (it picks up OPENAI_API_KEY automatically)
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

# 3. Init OCR
ocr = PaddleOCR(use_angle_cls=True, lang="id", show_log=False, use_gpu=True)

# 4. pdf root
pdf_root = "pojk-main-documents-filtered"

OPENAI_API_KEY: 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


## **Load Metadata**

In [4]:
df_metadata = pd.read_csv('METADATA_USED.csv')
print("Jumlah Dokumen:", len(df_metadata))

Jumlah Dokumen: 206


In [5]:
# 1. Pastikan 'pages' sudah ada di df_metadata
# 2. Hitung nilai maksimum (dibulatkan ke atas jika perlu)
max_page = int(math.ceil(df_metadata['pages'].max()))

# 3. Buat bins dengan lebar 5: 0, 5, 10, ..., sampai melewati max_page
bins = list(range(0, (max_page // 5 + 2) * 5, 5))

# 4. Siapkan label: "0-5", "6-10", "11-15", dst.
labels = []
for i in range(len(bins) - 1):
    start, end = bins[i], bins[i+1]
    if i == 0:
        labels.append(f"{start}-{end}")
    else:
        labels.append(f"{start+1}-{end}")

# 5. Tambahkan kolom 'page_range' dengan interval 5 halaman
df_metadata['page_range'] = pd.cut(
    df_metadata['pages'],
    bins=bins,
    labels=labels,
    include_lowest=True,
    right=True
)

# 6. Hitung frekuensi tiap rentang dan tampilkan sebagai tabel
table = (
    df_metadata['page_range']
      .value_counts(sort=False)
      .reset_index()
      .rename(columns={'index': 'Page Range', 'page_range': 'Count'})
)

print(table)

   Count  count
0    0-5      1
1   6-10     33
2  11-15     47
3  16-20     41
4  21-25     33
5  26-30     24
6  31-35     27
7  36-40      0


In [6]:
# Path folder tempat file PDF disimpan
pdf_root = "pojk-main-documents-filtered"

# Cetak satu path lengkap dokumen OCR
print("📄 Satu Contoh Dokumen OCR:")
fn_ocr = df_metadata[df_metadata['is_scanned'] == True]['new_filename'].iloc[0]
print(os.path.join(pdf_root, fn_ocr))

# Cetak satu path lengkap dokumen Non-OCR
print("\n📄 Satu Contoh Dokumen Non-OCR:")
fn_non_ocr = df_metadata[df_metadata['is_scanned'] == False]['new_filename'].iloc[0]
print(os.path.join(pdf_root, fn_non_ocr))


📄 Satu Contoh Dokumen OCR:
pojk-main-documents-filtered\ojk-peraturan_ojk-18_pojk_03_2014-19112014-pojk_tentang_penerapan_tata_kelola_terintegrasi_bagi_konglomerasi_keuangan.pdf

📄 Satu Contoh Dokumen Non-OCR:
pojk-main-documents-filtered\ojk-peraturan_ojk-6_tahun_2024-02052024-pembiayaan_transaksi_efek_oleh_perusahaan_efek_bagi_nasabah_dan_transaksi_short_selling_oleh_perusahaan_efek.pdf


## **Context, Question, Answer Dataset Generation**

### **Helper Functions**

In [7]:
def extract_text_from_pdf(file_path: str, ocr, threshold: float = 0.95) -> str:
    doc = fitz.open(file_path)
    all_pages_text = []

    for page in doc:
        # 1) Text‐layer
        text = page.get_text("text") or ""

        # 2) OCR pada gambar
        for img in page.get_images(full=True):
            xref = img[0]
            pix  = fitz.Pixmap(doc, xref)
            img_bytes = pix.tobytes()

            # jalankan OCR
            ocr_results = ocr.ocr(img_bytes)
            if not ocr_results:
                continue

            for line in ocr_results:
                if not line:
                    continue
                for word in line:
                    txt, conf = word[1]
                    if conf >= threshold:
                        text += " " + txt

        all_pages_text.append(text.strip())

    return "\n\n".join([p for p in all_pages_text if p])


In [8]:
## **Helper: jumlah QA pairs berdasarkan halaman**
def get_num_pairs(page_count: int) -> int:
    if   page_count <=  5: return 2
    elif page_count <= 10: return 4
    elif page_count <= 15: return 6
    elif page_count <= 20: return 8
    elif page_count <= 25: return 10
    elif page_count <= 30: return 12
    else:                  return 14

In [None]:
def generate_cqa(
    full_text: str,
    n_pairs: int,
    allowed_categories: list[str],
    model: str = "gpt-4.1-2025-04-14",
    max_tokens: int = None,
    only_prompt: bool = False  # True: hanya return prompt untuk debug
) -> list[dict] | str:
    """
    Generate atomic QA dataset from full_text with one dynamic example QA from allowed categories.
    Pada contoh QA, context dibuat panjang dan dipotong "..." di tengah.
    """
    # Mapping pola jawaban
    kategori_pola = {
        "Pengertian": "[Istilah] adalah ...",
        "Tujuan": "Tujuan peraturan ini adalah ...",
        "Subjek yang Diatur": "Subjek yang diatur meliputi ...",
        "Objek yang Diatur": "Objek yang diatur meliputi ...",
        "Kewajiban yang Ditetapkan": "Kewajiban yang ditetapkan adalah ...",
        "Ketentuan Umum yang Ditetapkan": "Ketentuan umum yang ditetapkan adalah ...",
        "Mekanisme Pelaporan": "Mekanisme pelaporan dijelaskan sebagai ...",
        "Mekanisme Proses": "Mekanisme proses dijelaskan sebagai ...",
        "Kategori Penilaian": "Kategori penilaian meliputi ...",
        "Sanksi Hukum": "Sanksi yang dikenakan adalah ...",
        "Perubahan Regulasi": "Perubahan yang diatur mencakup ...",
        "Waktu Berlaku": "Masa berlaku peraturan ini sampai ...",
        "Cakupan Dokumen": "Dokumen ini mencakup ...",
        "Dasar Hukum": "Dasar hukum peraturan ini adalah ...",
    }

    # Example QA dengan context panjang (pakai "..." di tengah)
    EXAMPLES = {
        "Pengertian": {
            "context": "Pasal 1: Emiten adalah Pihak yang melakukan Penawaran Umum, ... penawaran umum dilakukan di pasar modal Indonesia, dan Emiten wajib memenuhi seluruh ketentuan sebagaimana diatur dalam peraturan perundang-undangan yang berlaku.",
            "question_answerable": "Apa pengertian Emiten menurut peraturan ini?",
            "answer_answerable": "Emiten adalah pihak yang melakukan Penawaran Umum.",
            "category_answerable": "Pengertian",
            "question_unanswerable": "Apa pengertian SRO menurut peraturan ini?",
            "answer_unanswerable": "Saya tidak tahu terkait pengertian SRO menurut peraturan ini.",
            "category_unanswerable": "Pengertian"
        },
        "Tujuan": {
            "context": "Pasal 2: Tujuan diterbitkannya peraturan ini adalah untuk meningkatkan transparansi penyampaian laporan keuangan, ... dan mendukung integritas pasar modal secara menyeluruh di Indonesia.",
            "question_answerable": "Apa tujuan diterbitkannya peraturan ini?",
            "answer_answerable": "Tujuan peraturan ini adalah untuk meningkatkan transparansi penyampaian laporan keuangan.",
            "category_answerable": "Tujuan",
            "question_unanswerable": "Apa tujuan utama OJK dalam peraturan ini?",
            "answer_unanswerable": "Saya tidak tahu terkait tujuan utama OJK dalam peraturan ini.",
            "category_unanswerable": "Tujuan"
        },
        "Subjek yang Diatur": {
            "context": "Pasal 3: Subjek yang diatur dalam peraturan ini meliputi bank umum, bank syariah, ... serta lembaga keuangan non-bank yang terlibat dalam aktivitas penghimpunan dana.",
            "question_answerable": "Siapa saja subjek yang diatur dalam peraturan ini?",
            "answer_answerable": "Subjek yang diatur meliputi bank umum, bank syariah, dan lembaga keuangan non-bank.",
            "category_answerable": "Subjek yang Diatur",
            "question_unanswerable": "Apa saja objek yang diatur dalam Pasal 3?",
            "answer_unanswerable": "Saya tidak tahu terkait objek yang diatur dalam Pasal 3.",
            "category_unanswerable": "Objek yang Diatur"
        },
        "Objek yang Diatur": {
            "context": "Pasal 25 Persyaratan ketersediaan alokasi Modal Inti sebagaimana dimaksud dalam Pasal 19 huruf b dikecualikan untuk: a. pembukaan kantor fungsional untuk usaha mikro dan kecil; ... b. pembukaan jaringan kantor oleh bank milik pemerintah daerah; c. pembukaan jaringan kantor di KSPN.",
            "question_answerable": "Apa saja objek yang diatur dalam pengecualian persyaratan alokasi Modal Inti pada Pasal 25?",
            "answer_answerable": "Objek yang diatur meliputi pembukaan kantor fungsional untuk usaha mikro dan kecil, pembukaan jaringan kantor oleh bank milik pemerintah daerah, dan pembukaan jaringan kantor di KSPN.",
            "category_answerable": "Objek yang Diatur",
            "question_unanswerable": "Apa saja subjek yang diatur dalam pengecualian pada Pasal 25?",
            "answer_unanswerable": "Saya tidak tahu terkait subjek yang diatur dalam pengecualian pada Pasal 25.",
            "category_unanswerable": "Subjek yang Diatur"
        },
        "Kewajiban yang Ditetapkan": {
            "context": "Pasal 5: Setiap pelaku usaha wajib menyampaikan laporan tahunan kepada OJK melalui sistem pelaporan elektronik. ... Kewajiban ini berlaku sejak diberlakukannya peraturan ini.",
            "question_answerable": "Apa kewajiban utama pelaku usaha menurut Pasal 5?",
            "answer_answerable": "Kewajiban yang ditetapkan adalah menyampaikan laporan tahunan kepada OJK.",
            "category_answerable": "Kewajiban yang Ditetapkan",
            "question_unanswerable": "Apa kewajiban khusus auditor dalam Pasal 5?",
            "answer_unanswerable": "Saya tidak tahu terkait kewajiban khusus auditor dalam Pasal 5.",
            "category_unanswerable": "Kewajiban yang Ditetapkan"
        },
        "Ketentuan Umum yang Ditetapkan": {
            "context": "Pasal 7: Ketentuan umum mengenai pelaporan transaksi wajib dipenuhi oleh seluruh bank, ... termasuk ketentuan penyampaian dokumen pendukung secara elektronik.",
            "question_answerable": "Apa saja ketentuan umum yang ditetapkan dalam pelaporan transaksi pada Pasal 7?",
            "answer_answerable": "Ketentuan umum yang ditetapkan adalah pelaporan transaksi wajib dipenuhi oleh seluruh bank.",
            "category_answerable": "Ketentuan Umum yang Ditetapkan",
            "question_unanswerable": "Apa saja ketentuan umum yang ditetapkan untuk auditor pada Pasal 7?",
            "answer_unanswerable": "Saya tidak tahu terkait ketentuan umum yang ditetapkan untuk auditor pada Pasal 7.",
            "category_unanswerable": "Ketentuan Umum yang Ditetapkan"
        },
        "Mekanisme Pelaporan": {
            "context": "Pasal 10: Laporan bulanan wajib disampaikan melalui sistem pelaporan elektronik OJK. ... Apabila terjadi gangguan teknis, pelaporan dapat dilakukan secara manual.",
            "question_answerable": "Bagaimana mekanisme pelaporan bulanan menurut Pasal 10?",
            "answer_answerable": "Mekanisme pelaporan dijelaskan sebagai penyampaian laporan bulanan melalui sistem pelaporan elektronik OJK.",
            "category_answerable": "Mekanisme Pelaporan",
            "question_unanswerable": "Bagaimana mekanisme pelaporan tahunan pada Pasal 10?",
            "answer_unanswerable": "Saya tidak tahu terkait mekanisme pelaporan tahunan pada Pasal 10.",
            "category_unanswerable": "Mekanisme Pelaporan"
        },
        "Mekanisme Proses": {
            "context": "Pasal 12: Proses pemeriksaan dilakukan secara bertahap, mulai dari audit internal, ... dilanjutkan dengan pemeriksaan eksternal oleh OJK sesuai standar yang berlaku.",
            "question_answerable": "Bagaimana mekanisme proses pemeriksaan menurut Pasal 12?",
            "answer_answerable": "Mekanisme proses dijelaskan sebagai pemeriksaan bertahap mulai dari audit internal hingga eksternal oleh OJK.",
            "category_answerable": "Mekanisme Proses",
            "question_unanswerable": "Bagaimana mekanisme proses pengajuan keberatan pada Pasal 12?",
            "answer_unanswerable": "Saya tidak tahu terkait mekanisme proses pengajuan keberatan pada Pasal 12.",
            "category_unanswerable": "Mekanisme Proses"
        },
        "Kategori Penilaian": {
            "context": "Pasal 14: Kategori penilaian mencakup tingkat risiko, kepatuhan terhadap regulasi, ... serta integritas data yang disampaikan.",
            "question_answerable": "Apa saja kategori penilaian dalam Pasal 14?",
            "answer_answerable": "Kategori penilaian meliputi tingkat risiko, kepatuhan terhadap regulasi, dan integritas data.",
            "category_answerable": "Kategori Penilaian",
            "question_unanswerable": "Apa kategori penilaian khusus untuk auditor pada Pasal 14?",
            "answer_unanswerable": "Saya tidak tahu terkait kategori penilaian khusus untuk auditor pada Pasal 14.",
            "category_unanswerable": "Kategori Penilaian"
        },
        "Sanksi Hukum": {
            "context": "Pasal 15: Sanksi administratif berupa denda dapat dikenakan pada pelanggaran, ... jika pelanggaran berulang OJK dapat menjatuhkan sanksi tambahan.",
            "question_answerable": "Apa sanksi yang dikenakan pada pelanggaran menurut Pasal 15?",
            "answer_answerable": "Sanksi yang dikenakan adalah denda.",
            "category_answerable": "Sanksi Hukum",
            "question_unanswerable": "Apa sanksi pidana menurut Pasal 15?",
            "answer_unanswerable": "Saya tidak tahu terkait sanksi pidana menurut Pasal 15.",
            "category_unanswerable": "Sanksi Hukum"
        },
        "Perubahan Regulasi": {
            "context": "Pasal 17: Perubahan yang diatur mencakup penyesuaian format pelaporan, ... serta pembaruan standar audit internal untuk bank.",
            "question_answerable": "Apa saja perubahan regulasi menurut Pasal 17?",
            "answer_answerable": "Perubahan yang diatur mencakup penyesuaian format pelaporan dan pembaruan standar audit internal.",
            "category_answerable": "Perubahan Regulasi",
            "question_unanswerable": "Apa perubahan ketentuan khusus untuk auditor pada Pasal 17?",
            "answer_unanswerable": "Saya tidak tahu terkait perubahan ketentuan khusus untuk auditor pada Pasal 17.",
            "category_unanswerable": "Perubahan Regulasi"
        },
        "Waktu Berlaku": {
            "context": "Pasal 20: Masa berlaku peraturan ini sampai dengan adanya peraturan baru yang menggantikan, ... atau sampai tanggal yang ditetapkan oleh OJK.",
            "question_answerable": "Sampai kapan masa berlaku peraturan ini?",
            "answer_answerable": "Masa berlaku peraturan ini sampai dengan adanya peraturan baru yang menggantikan.",
            "category_answerable": "Waktu Berlaku",
            "question_unanswerable": "Berapa lama masa berlaku ketentuan untuk auditor pada Pasal 20?",
            "answer_unanswerable": "Saya tidak tahu terkait masa berlaku ketentuan untuk auditor pada Pasal 20.",
            "category_unanswerable": "Waktu Berlaku"
        },
        "Cakupan Dokumen": {
            "context": "Pasal 22: Dokumen ini mencakup seluruh ketentuan terkait pelaporan keuangan dan proses audit, ... termasuk penjelasan detail pelaksanaan pelaporan elektronik.",
            "question_answerable": "Apa saja cakupan dokumen menurut Pasal 22?",
            "answer_answerable": "Dokumen ini mencakup seluruh ketentuan terkait pelaporan keuangan dan proses audit.",
            "category_answerable": "Cakupan Dokumen",
            "question_unanswerable": "Apa saja cakupan dokumen khusus untuk auditor pada Pasal 22?",
            "answer_unanswerable": "Saya tidak tahu terkait cakupan dokumen khusus untuk auditor pada Pasal 22.",
            "category_unanswerable": "Cakupan Dokumen"
        },
        "Dasar Hukum": {
            "context": "Pasal 24: Dasar hukum peraturan ini adalah Undang-Undang Nomor 8 Tahun 1995 tentang Pasar Modal, ... dan peraturan pelaksana lainnya yang relevan.",
            "question_answerable": "Apa dasar hukum peraturan ini menurut Pasal 24?",
            "answer_answerable": "Dasar hukum peraturan ini adalah Undang-Undang Nomor 8 Tahun 1995 tentang Pasar Modal.",
            "category_answerable": "Dasar Hukum",
            "question_unanswerable": "Apa dasar hukum tambahan untuk auditor pada Pasal 24?",
            "answer_unanswerable": "Saya tidak tahu terkait dasar hukum tambahan untuk auditor pada Pasal 24.",
            "category_unanswerable": "Dasar Hukum"
        }
    }


    allowed_pola = [f"- **{cat}**: \"{kategori_pola[cat]}\"" for cat in allowed_categories if cat in kategori_pola]
    kategori_section = "\n".join(allowed_pola)

    # Satu contoh QA panjang dari kategori pertama yang ditemukan di allowed_categories & EXAMPLES
    contoh_qa_section = ""
    for cat in allowed_categories:
        if cat in EXAMPLES:
            qa = EXAMPLES[cat]
            contoh_qa_section = f"""
Context:
"{qa['context']}"

{{
  "question_answerable": "{qa['question_answerable']}",
  "answer_answerable": "{qa['answer_answerable']}",
  "category_answerable": "{qa['category_answerable']}",

  "question_unanswerable": "{qa['question_unanswerable']}",
  "answer_unanswerable": "{qa['answer_unanswerable']}",
  "category_unanswerable": "{qa['category_unanswerable']}"
}}
---"""
            break

    # Hitung token
    PER_PAIR_TOKENS = 768
    BUFFER_TOKENS = 100
    if max_tokens is None:
        dynamic_max = PER_PAIR_TOKENS * n_pairs + BUFFER_TOKENS
    else:
        dynamic_max = max_tokens

    template = """
Anda adalah pakar regulasi keuangan Indonesia.

Gunakan **HANYA** teks di antara pembatas berikut:
«FULL_TEXT_START»
{full_text}
«FULL_TEXT_END»

Instruksi QA:
1) Abaikan header sebelum “BAB I”.
2) TEMUKAN paragraf utuh dan bagi menjadi segmen **700–1000 karakter**:
   - Mulai/akhiri di batas paragraf (garis kosong).
   - Jangan potong di tengah kalimat, jangan parafrase.
   - Panjang tiap segmen harus ≥700 dan ≤1000 karakter.
3) Pilih maksimal **{n_pairs}** segmen bermakna; jika kurang, gunakan sebanyak yang ada.
4) Untuk **setiap segmen**, buat dua QA. Setiap QA harus memenuhi aturan berikut:

   a) **Answerable**  
      - `question_answerable`: Pertanyaan hanya menanyakan **SATU informasi spesifik** (satu istilah, satu fakta, satu entitas, atau satu pasal saja). Tidak boleh gabungan!  
      - `answer_answerable`: **WAJIB** diawali frasa pola kategori (lihat daftar di bawah), lalu hanya fakta yang ditanya, tanpa tambahan dan tanpa bentuk kalimat lain.  
      - `category_answerable`: Pilih hanya dari kategori di bawah (**tidak boleh membuat kategori lain**). Harus sesuai dengan fokus pertanyaan!

   b) **Unanswerable**  
      - `question_unanswerable`: Pertanyaan tidak dapat dijawab dari context, tetap hanya satu hal spesifik, sesuai kategori di bawah.
      - `answer_unanswerable`: “Saya tidak tahu terkait <topik pertanyaan>.”
      - `category_unanswerable`: Pilih hanya dari kategori di bawah (**tidak boleh membuat kategori lain**). Harus sesuai dengan pertanyaan!

⚠️ **WAJIB:**  
- Jawaban harus **selalu** diawali frasa persis pada pola kategori berikut.
- Jawaban TIDAK boleh gabungan, tidak boleh mengulang context.
- Kategori dalam pertanyaan, jawaban, dan label category_answerable/category_unanswerable HARUS konsisten dan sama.
- Context harus UTUH, tidak boleh dipotong.

Pola kategori (hanya gunakan kategori berikut):
{kategori_section}

⚠️ Kategori dalam label QA dan pola jawaban WAJIB konsisten dan SAMA dengan yang ditanya.  
⚠️ **JAWABAN YANG TIDAK SESUAI POLA/KATEGORI DINYATAKAN SALAH.**
⚠️ Context harus UTUH, tidak boleh dipotong.

---
**CONTOH QA:**

{contoh_qa_section}

6) Output harus berupa array JSON valid dengan format:
[
  {{
    "context": "...",
    "question_answerable": "...",
    "answer_answerable": "...",
    "category_answerable": "...",
    "question_unanswerable": "...",
    "answer_unanswerable": "...",
    "category_unanswerable": "..."
  }},
  ...
]

⚠️ KELUARKAN HANYA array JSON valid, tanpa penjelasan atau teks tambahan.
"""

    prompt = template.format(
        full_text=full_text,
        n_pairs=n_pairs,
        kategori_section=kategori_section,
        contoh_qa_section=contoh_qa_section
    )

    if only_prompt:
        return prompt  # Untuk debug

    # Eksekusi OpenAI API
    resp = client.chat.completions.create(
        model=model,
        messages=[
            {"role": "system", "content": "Buat QA dataset atomic atau [] jika tidak bermakna."},
            {"role": "user",   "content": prompt}
        ],
        seed=42,
        temperature=0.0,
        max_tokens=dynamic_max
    )

    return json.loads(resp.choices[0].message.content)


In [10]:
test = generate_cqa(
    full_text="Contoh teks untuk QA generation.",
    n_pairs=2,
    allowed_categories=["Tujuan", "Subjek yang Diatur"],
    model="gpt-4.1-2025-04-14",
    max_tokens=2048,
    only_prompt=True
)
print(test)


Anda adalah pakar regulasi keuangan Indonesia.

Gunakan **HANYA** teks di antara pembatas berikut:
«FULL_TEXT_START»
Contoh teks untuk QA generation.
«FULL_TEXT_END»

Instruksi QA:
1) Abaikan header sebelum “BAB I”.
2) TEMUKAN paragraf utuh dan bagi menjadi segmen **700–1000 karakter**:
   - Mulai/akhiri di batas paragraf (garis kosong).
   - Jangan potong di tengah kalimat, jangan parafrase.
   - Panjang tiap segmen harus ≥700 dan ≤1000 karakter.
3) Pilih maksimal **2** segmen bermakna; jika kurang, gunakan sebanyak yang ada.
4) Untuk **setiap segmen**, buat dua QA. Setiap QA harus memenuhi aturan berikut:

   a) **Answerable**  
      - `question_answerable`: Pertanyaan hanya menanyakan **SATU informasi spesifik** (satu istilah, satu fakta, satu entitas, atau satu pasal saja). Tidak boleh gabungan!  
      - `answer_answerable`: **WAJIB** diawali frasa pola kategori (lihat daftar di bawah), lalu hanya fakta yang ditanya, tanpa tambahan dan tanpa bentuk kalimat lain.  
      - `categ

### **Extract Text Results**

#### **OCR**

In [11]:
# # 1. Tentukan file PDF yang akan diekstrak
# # fn = fn_ocr
# fn = "ojk-peraturan_ojk-2_pojk_03_2021-18022021-perubahan_atas_peraturan_otoritas_jasa_keuangan_nomor_34_pojk_03_2020_tentang_kebijakan_bagi_bank_perkreditan_rakyat_dan_bank_pembiayaan_rakyat_syariah_sebagai_dampak_penyebaran_coronavirus_disease_2019.pdf"
# pdf_path = os.path.join(pdf_root, fn)

# # 2. Panggil fungsi
# full_text = extract_text_from_pdf(pdf_path, ocr, threshold=0.8)

# # 3. Tampilkan cuplikan hasil—misal 500 karakter pertama
# print("=== Cuplikan 500 karakter pertama ===")
# print(full_text[:500] + "…\n")

# # 4. (Opsional) Simpan ke file teks agar mudah ditinjau
# with open("extracted_text_ocr.txt", "w", encoding="utf-8") as f:
#     f.write(full_text)

# print(f"Hasil ekstraksi disimpan di 'extracted_text.txt'")

In [12]:
# generate_cqa(
#     full_text=full_text,
#     n_pairs=2,
#     max_tokens=1024,
# )

#### **Non-OCR**

In [13]:
# # 1. Tentukan file PDF yang akan diekstrak
# fn = fn_non_ocr
# pdf_path = os.path.join(pdf_root, fn)

# # 2. Panggil fungsi
# full_text = extract_text_from_pdf(pdf_path, ocr, threshold=0.90)

# # 3. Tampilkan cuplikan hasil—misal 500 karakter pertama
# print("=== Cuplikan 500 karakter pertama ===")
# print(full_text[:500] + "…\n")

# # 4. (Opsional) Simpan ke file teks agar mudah ditinjau
# with open("extracted_text_non_ocr.txt", "w", encoding="utf-8") as f:
#     f.write(full_text)

# print(f"Hasil ekstraksi disimpan di 'extracted_text.txt'")

### **Building the Dataset**

In [14]:
# df_metadata = df_metadata.sample(10, random_state=150).reset_index(drop=True)

print("Jumlah Dokumen:", len(df_metadata))
df_metadata.head(3)

Jumlah Dokumen: 206


Unnamed: 0,title,page_url,sektor,subsektor,jenis_regulasi,nomor_regulasi,tanggal_berlaku,filename,file_url,new_filename,pages,page_range,is_scanned
0,Pembiayaan Transaksi Efek Oleh Perusahaan Efek Bagi Nasabah dan Transaksi Short Selling Oleh Perusahaan Efek,https://www.ojk.go.id/id/regulasi/Pages/Pembiayaan-Transaksi-Efek-Perusahaan-Efek-Bagi-Nasabah-dan-Transaksi-Short-Selling-Oleh-Perusahaan-Efek-POJK-6-Tahun-2024.aspx,Pasar Modal,Perusahaan Efek,Peraturan OJK,6 Tahun 2024,2 Mei 2024,Pembiayaan-Transaksi-Efek-Perusahaan-Efek-Bagi-Nasabah-dan-Transaksi-Short-Selling-Oleh-Perusahaan-Efek-POJK-6-Tahun- -- POJK 6 Tahun 2024 Pembiayaan Transaksi Efek Oleh Perusahaan Efek Bagi Nasabah dan Transaksi Short Selling Oleh Perusahaan Efek.pdf,https://www.ojk.go.id/id/regulasi/Documents/Pages/Pembiayaan-Transaksi-Efek-Perusahaan-Efek-Bagi-Nasabah-dan-Transaksi-Short-Selling-Oleh-Perusahaan-Efek-POJK-6-Tahun-2024/POJK%206%20Tahun%202024%20Pembiayaan%20Transaksi%20Efek%20Oleh%20Perusahaan%20Efek%20Bagi%20Nasabah%20dan%20Transaksi%20Short%20Selling%20Oleh%20Perusahaan%20Efek.pdf,ojk-peraturan_ojk-6_tahun_2024-02052024-pembiayaan_transaksi_efek_oleh_perusahaan_efek_bagi_nasabah_dan_transaksi_short_selling_oleh_perusahaan_efek.pdf,28,26-30,False
1,Laporan Kepemilikan atau Setiap Perubahan Kepemilikan Saham Perusahaan Terbuka dan Aktivitas Menjaminkan Saham Perusahaan Terbuka,https://www.ojk.go.id/id/regulasi/Pages/POJK-4-Tahun-2024-Laporan-Kepemilikan-atau-Setiap-Perubahan-Kepemilikan-Saham-Perusahaan-Terbuka-dan-Aktivitas-Menjaminkan.aspx,Pasar Modal,Peraturan Lainnya,Peraturan OJK,4 Tahun 2024,28 Februari 2024,POJK-4-Tahun-2024-Laporan-Kepemilikan-atau-Setiap-Perubahan-Kepemilikan-Saham-Perusahaan-Terbuka-dan-Aktivitas-Menjaminkan -- POJK 4 Tahun 2024 Laporan Kepemilikan atau Setiap Perubahan Kepemilik.pdf,https://www.ojk.go.id/id/regulasi/Documents/Pages/POJK-4-Tahun-2024-Laporan-Kepemilikan-atau-Setiap-Perubahan-Kepemilikan-Saham-Perusahaan-Terbuka-dan-Aktivitas-Menjaminkan/POJK%204%20Tahun%202024%20Laporan%20Kepemilikan%20atau%20Setiap%20Perubahan%20Kepemilik.pdf,ojk-peraturan_ojk-4_tahun_2024-28022024-laporan_kepemilikan_atau_setiap_perubahan_kepemilikan_saham_perusahaan_terbuka_dan_aktivitas_menjaminkan_saham_perusahaan_terbuka.pdf,21,21-25,False
2,Pembelian Kembali Saham yang Dikeluarkan oleh Perusahaan Terbuka,https://www.ojk.go.id/id/regulasi/Pages/Pembelian-Kembali-Saham-yang-Dikeluarkan-oleh-Perusahaan-Terbuka-.aspx,Pasar Modal,Peraturan Lainnya,Peraturan OJK,29 Tahun 2023,29 Desember 2023,Pembelian-Kembali-Saham-yang-Dikeluarkan-oleh-Perusahaan-Terbuka- -- POJK 29 Tahun 2023 Pembelian Kembali Saham Yang Dikeluarkan Oleh Perusahaan Terbuka.pdf,https://www.ojk.go.id/id/regulasi/Documents/Pages/Pembelian-Kembali-Saham-yang-Dikeluarkan-oleh-Perusahaan-Terbuka-/POJK%2029%20Tahun%202023%20Pembelian%20Kembali%20Saham%20Yang%20Dikeluarkan%20Oleh%20Perusahaan%20Terbuka.pdf,ojk-peraturan_ojk-29_tahun_2023-29122023-pembelian_kembali_saham_yang_dikeluarkan_oleh_perusahaan_terbuka.pdf,29,26-30,False


In [15]:
out_file = "cqa_datasets.jsonl"
ALL_CATEGORIES = [
    "Pengertian", "Tujuan", "Subjek yang Diatur", "Objek yang Diatur",
    "Kewajiban yang Ditetapkan", "Ketentuan Umum yang Ditetapkan",
    "Mekanisme Pelaporan", "Mekanisme Proses", "Kategori Penilaian",
    "Sanksi Hukum", "Perubahan Regulasi", "Waktu Berlaku",
    "Cakupan Dokumen", "Dasar Hukum"
]

# 1. Muat daftar dokumen yang sudah pernah diproses
processed = set()
if os.path.exists(out_file):
    with open(out_file, "r", encoding="utf-8") as f:
        for line in f:
            try:
                entry = json.loads(line)
                processed.add(entry["filename"])
            except Exception:
                continue

initial_count = len(processed)

# --- Tambahan: fungsi menghitung 5 kategori terendah di dataset saat ini ---
def get_least_filled_categories(jsonl_path, all_categories=ALL_CATEGORIES, n=5, w_total=1.0, w_balance=1.0):
    """
    Memilih n kategori dengan jumlah total QA paling sedikit dan distribusi answerable/unanswerable paling seimbang.
    Args:
        jsonl_path (str): path ke dataset jsonl
        all_categories (list[str]): daftar kategori yang diizinkan
        n (int): jumlah kategori yang ingin dipilih
        w_total (float): bobot untuk total QA
        w_balance (float): bobot untuk keseimbangan answerable/unanswerable
    Returns:
        list[str]: n kategori dengan skor gabungan terendah
    """
    import os
    import json

    # Inisialisasi counter
    cat_ans = {cat: 0 for cat in all_categories}
    cat_unans = {cat: 0 for cat in all_categories}

    # Baca dataset jika ada
    if os.path.exists(jsonl_path):
        with open(jsonl_path, "r", encoding="utf-8") as f:
            for line in f:
                try:
                    entry = json.loads(line)
                    cat_a = entry.get("category_answerable")
                    cat_u = entry.get("category_unanswerable")
                    if cat_a in cat_ans:
                        cat_ans[cat_a] += 1
                    if cat_u in cat_unans:
                        cat_unans[cat_u] += 1
                except Exception:
                    continue

    # Gabungkan hasil ke tabel per kategori
    cat_stats = []
    min_total = None
    for cat in all_categories:
        a = cat_ans[cat]
        u = cat_unans[cat]
        total = a + u
        balance = abs(a - u)
        cat_stats.append({
            "cat": cat,
            "total": total,
            "balance": balance,
        })
        if min_total is None or total < min_total:
            min_total = total

    # Hitung skor gabungan (total rendah dan balance rendah lebih baik)
    # Skor total: semakin besar gap dengan kategori paling kecil, semakin buruk (range = 0~)
    # Skor balance: semakin besar gap a-u, semakin buruk
    for x in cat_stats:
        score = w_total * (x["total"] - min_total) + w_balance * x["balance"]
        x["score"] = score

    # Urutkan berdasarkan skor, ambil n terendah
    cat_stats = sorted(cat_stats, key=lambda x: (x["score"], x["total"], x["balance"]))
    least_cats = [x["cat"] for x in cat_stats[:n]]

    # (opsional) print info distribusi
    # print("Kategori terpilih (dengan skor):")
    # for x in cat_stats[:n]:
    #     print(f"- {x['cat']} (total={x['total']}, ans={cat_ans[x['cat']]}, unans={cat_unans[x['cat']]}, balance={x['balance']}, score={x['score']})")

    return least_cats

# 2. Open file append
interrupted = False
with open(out_file, "a", encoding="utf-8") as fout:
    try:
        for _, row in tqdm(df_metadata.iterrows(), total=len(df_metadata), desc="Dokumen"):
            fn = row["new_filename"]
            if fn in processed:
                print(f"⏭️ Skip (sudah diproses): {fn}")
                continue

            pdf_path = os.path.join(pdf_root, fn)
            if not os.path.exists(pdf_path):
                tqdm.write(f"⚠️ File tidak ditemukan: {fn}")
                processed.add(fn)
                continue

            full_text = extract_text_from_pdf(pdf_path, ocr)
            if not full_text.strip():
                processed.add(fn)
                continue

            n_pairs = get_num_pairs(int(row["pages"]))
            
            # DYNAMIC: Ambil 5 kategori QA dengan jumlah terendah
            allowed_categories = get_least_filled_categories(out_file, n=5)

            try:
                cqa_list = generate_cqa(
                    full_text,
                    n_pairs=n_pairs,
                    allowed_categories=allowed_categories
                )
            except Exception as e:
                tqdm.write(f"⚠️ Error generate QA {fn}: {e}")
                processed.add(fn)
                continue

            if not cqa_list:
                tqdm.write(f"⏭️ Skip (tidak bermakna): {fn}")
                processed.add(fn)
                continue

            for cqa in cqa_list:
                cqa.update({
                    "file_url":           row["file_url"],
                    "regulation_number":  row["nomor_regulasi"],
                    "title":              row["title"],
                    "filename":           fn,
                    "n_pairs_requested":  n_pairs
                })
                fout.write(json.dumps(cqa, ensure_ascii=False) + "\n")
            fout.flush()
            processed.add(fn)
            tqdm.write(f"✅ {len(cqa_list)} QA untuk {fn}")

    except KeyboardInterrupt:
        interrupted = True
        print("\n⏸️ Proses dihentikan oleh pengguna. Progress sudah tersimpan.")

    finally:
        total_count = len(processed)
        added = total_count - initial_count
        if interrupted:
            print(f"🎉 Selesai sementara. {total_count} dokumen terproses total.")
        else:
            print(f"🎉 Semua dokumen selesai diproses!")
        print(f"   • Dokumen sudah ada di dataset sebelum run: {initial_count}")
        print(f"   • Dokumen baru ditambahkan di run ini : {added}")

Dokumen:   0%|          | 0/206 [00:00<?, ?it/s]

⏭️ Skip (sudah diproses): ojk-peraturan_ojk-6_tahun_2024-02052024-pembiayaan_transaksi_efek_oleh_perusahaan_efek_bagi_nasabah_dan_transaksi_short_selling_oleh_perusahaan_efek.pdf
⏭️ Skip (sudah diproses): ojk-peraturan_ojk-4_tahun_2024-28022024-laporan_kepemilikan_atau_setiap_perubahan_kepemilikan_saham_perusahaan_terbuka_dan_aktivitas_menjaminkan_saham_perusahaan_terbuka.pdf
⏭️ Skip (sudah diproses): ojk-peraturan_ojk-29_tahun_2023-29122023-pembelian_kembali_saham_yang_dikeluarkan_oleh_perusahaan_terbuka.pdf
⏭️ Skip (sudah diproses): ojk-peraturan_ojk-26_tahun_2023-22122023-pengguna_standar_akuntansi_keuangan_internasional_di_pasar_modal.pdf
⏭️ Skip (sudah diproses): ojk-peraturan_ojk-21_tahun_2023-22122023-layanan_digital_oleh_bank_umum.pdf
⏭️ Skip (sudah diproses): ojk-peraturan_ojk-19_tahun_2023-01112023-pengembangan_kualitas_sumber_daya_manusia_bank_perekonomian_rakyat_dan_bank_perekonomian_rakyat_syariah.pdf
⏭️ Skip (sudah diproses): ojk-peraturan_ojk-15_tahun_2023-08082023-penye

Dokumen:  96%|█████████▌| 198/206 [00:44<00:01,  4.42it/s]

✅ 6 QA untuk ojk-peraturan_ojk-7_pojk_05_2014-08042014-pojk_tentang_pemeriksaan_lembaga_penjaminan.pdf
⏭️ Skip (sudah diproses): ojk-peraturan_ojk-6_pojk_05_2014-08042014-pojk_tentang_penyelanggaraan_usaha_lembaga_penjaminan.pdf
⏭️ Skip (sudah diproses): ojk-peraturan_ojk-4_pojk_04_2014-01042014-pojk_tentang_tata_cara_penagihan_sanksi_administratif_berupa_denda_di_sektor_jasa_keuangan.pdf
⏭️ Skip (sudah diproses): ojk-peraturan_ojk-1_pojk_07_2014-23012014-pojk_tentang_lembaga_alternatif_penyelesaian_sengketa_di_sektor_jasa_keuangan.pdf
⏭️ Skip (sudah diproses): ojk-peraturan_ojk-5_pojk_05_2013-31122013-pojk_tentang_pengawasan_badan_penyelenggara_jaminan_sosial_oleh_otoritas_jasa_keuangan.pdf


Dokumen:  99%|█████████▊| 203/206 [02:06<00:02,  1.27it/s]

✅ 11 QA untuk ojk-peraturan_ojk-4_pojk_05_2013-23122013-pojk_tentang_penilaian_kemampuan_dan_kepatutan_bagi_pihak_utama_pada_lembaga_jasa_keuangan_non_bank.pdf
⏭️ Skip (sudah diproses): ojk-peraturan_ojk-3_pojk_05_2013-12092013-pojk_tentang_laporan_bulanan_lembaga_jasa_keuangan_non_bank.pdf


Dokumen: 100%|█████████▉| 205/206 [02:43<00:01,  1.13s/it]

✅ 6 QA untuk ojk-peraturan_ojk-2_pojk_04_2013-26082013-pojk_tentang_pembelian_kembali_saham_yang_dikeluarkan_oleh_emiten_atau_perusahaan_publik_dalam_kondisi_pasar_yang_berfluktuasi_secara_signifikan.pdf


Dokumen: 100%|██████████| 206/206 [03:54<00:00,  1.14s/it]

✅ 14 QA untuk ojk-peraturan_ojk-1_pojk_07_2013-06082013-pojk_tentang_perlindungan_konsumen_sektor_jasa_keuangan.pdf
🎉 Semua dokumen selesai diproses!
   • Dokumen sudah ada di dataset sebelum run: 202
   • Dokumen baru ditambahkan di run ini : 4





In [16]:
# test = extract_text_from_pdf("pojk-main-documents-filtered/ojk-peraturan_ojk-13_tahun_2023-20072023-kebijakan_dalam_menjaga_kinerja_dan_stabilitas_pasar_modal_dalam_kondisi_pasar_yang_berfluktuasi_secara_signifikan.pdf", ocr)
# print(test)

In [17]:
# var1 = generate_cqa(
#     full_text=test,
#     n_pairs=2,
#     model="gpt-4.1-2025-04-14",
#     max_tokens=2048
# )
# var1

### **Check Dataset**

In [18]:
# Baca seluruh JSONL ke DataFrame
import pandas as pd

pd.set_option('display.max_colwidth', None)

df_results = pd.read_json("cqa_datasets.jsonl", lines=True)

# Hitung jumlah kemunculan untuk category_answerable dan category_unanswerable
answerable_counts = df_results['category_answerable'].value_counts().sort_index()
unanswerable_counts = df_results['category_unanswerable'].value_counts().sort_index()

# Gabungkan dalam satu DataFrame untuk visualisasi yang mudah
cat_df = pd.DataFrame({
    "answerable": answerable_counts,
    "unanswerable": unanswerable_counts
}).fillna(0).astype(int)

print("\nSummary jumlah per kategori:")
display(cat_df)


Summary jumlah per kategori:


Unnamed: 0,answerable,unanswerable
Cakupan Dokumen,151,68
Dasar Hukum,57,147
Kategori Penilaian,148,134
Ketentuan Umum yang Ditetapkan,156,105
Kewajiban yang Ditetapkan,152,93
Mekanisme Pelaporan,85,151
Mekanisme Proses,149,123
Objek yang Diatur,147,62
Pengertian,127,147
Perubahan Regulasi,128,139


In [19]:
# Cek ukuran dan beberapa baris pertama
print("Total QA pairs:", len(df_results))
df_results[["context", "question_answerable", "answer_answerable", "category_answerable",
            "question_unanswerable", "answer_unanswerable", "category_unanswerable",
            "file_url"]].sample(10)

Total QA pairs: 1696


Unnamed: 0,context,question_answerable,answer_answerable,category_answerable,question_unanswerable,answer_unanswerable,category_unanswerable,file_url
1358,"Pasal 5\nStrategi dukungan reasuransi sebagaimana dimaksud\ndalam Pasal 4 ayat (1) paling sedikit harus memuat:\na.\nkebijakan reasuransi secara komprehensif dengan\nmemperhitungkan manfaat diversifikasi dan kelayakan\npihak reasuransi (counterparty);\nb.\nsistem yang sehat dalam melakukan pemilihan dan\npemantauan program reasuransi;\nc.\nringkasan proses pembentukan retensi sendiri dan\nmonitoring retensi sendiri; dan\nd.\npenanggung jawab pelaksana program reasuransi dan\npengendaliannya.\n\nPasal 6\nDalam mengembangkan strategi dukungan reasuransi,\nPerusahaan Asuransi dan Perusahaan Asuransi Syariah\nharus memperhatikan faktor-faktor sebagai berikut:\na.\nprofil risiko dari risiko yang ditanggung;\nb.\nkecukupan modal dan akses terhadap penambahan\nmodal;\nc.\nvolatilitas klaim masa lalu dan/atau klaim yang\ndiperkirakan; \nd.\ntingkat profitabilitas masing-masing lini usaha;\ne.\nukuran retensi yang sesuai dengan Perusahaan\nAsuransi dan Perusahaan Asuransi Syariah;\nf.\npenggunaan program reasuransi proporsional dan\nnonproporsional;\ng.\nkondisi lingkungan, khususnya untuk daerah yang\nrawan bencana;\nh.\nkapasitas reasuransi otomatis;\ni.\noptimalisasi\nkualitas,\npenggunaan,\ndan\nbiaya\nreasuransi;\nj.\ndampak bila reasuradur dalam negeri dengan porsi\nreasuransi otomatis mengalami kebangkrutan;",Apa saja faktor yang harus diperhatikan dalam strategi dukungan reasuransi menurut Pasal 6?,"Subjek yang diatur meliputi profil risiko, kecukupan modal, volatilitas klaim, tingkat profitabilitas, ukuran retensi, penggunaan program reasuransi, kondisi lingkungan, kapasitas reasuransi otomatis, optimalisasi kualitas dan biaya reasuransi, dampak kebangkrutan reasuradur, peringkat reasuradur, dan kondisi pasar reasuransi.",Subjek yang Diatur,Apa tujuan strategi dukungan reasuransi menurut Pasal 6?,Saya tidak tahu terkait tujuan strategi dukungan reasuransi menurut Pasal 6.,Tujuan,https://www.ojk.go.id/id/regulasi/Documents/Pages/POJK-tentang-Retensi-Sendiri-dan-Dukungan-Reasuransi-dalam-Negeri/pojk%2014-2015.pdf
614,"Pasal 60 (1) Perusahaan yang melanggar ketentuan sebagaimana dimaksud dalam Pasal 2 ayat (1), ayat (5), dan ayat (6), Pasal 3 ayat (1), Pasal 4 ayat (1), Pasal 7 ayat (1), Pasal 8 ayat (6), Pasal 10 ayat (1), Pasal 11, Pasal 12, Pasal 13 ayat (1), Pasal 14 ayat (1), Pasal 15, Pasal 16 ayat (1), ayat (2), ayat (3), dan ayat (4), Pasal 18 ayat (3), Pasal 19 ayat (1), Pasal 20, Pasal 21, Pasal 26 ayat (1), Pasal 27, Pasal 28 ayat (1), Pasal 28A ayat (1) huruf b, ayat (2), dan ayat (4), Pasal 28B ayat (1) huruf b dan ayat (2), Pasal 28C ayat (1) huruf c dan ayat (2), Pasal 29, Pasal 30 ayat (1), ayat (2), ayat (3), dan ayat (4), Pasal 31, Pasal 32 ayat (1), Pasal 33 ayat (2), Pasal 34 ayat (1), Pasal 35, Pasal 37, Pasal 38 ayat (1), Pasal 40 ayat (1), ayat (2), dan ayat (3), Pasal 41, Pasal 42 ayat (1), ayat (2), dan ayat (4), Pasal 43, Pasal 44, Pasal 45 ayat (1), Pasal 46, Pasal 47, Pasal 48, Pasal 50 ayat (1), Pasal 51 ayat (1), Pasal 53 ayat (2), Pasal 54 ayat (1), Pasal 55, Pasal 56, Pasal 58 ayat (1) dan ayat (4) Peraturan OJK ini, dikenai sanksi administratif berupa peringatan tertulis. (2) Perusahaan yang melanggar ketentuan sebagaimana dimaksud pada ayat (1) namun pelanggaran tersebut telah diselesaikan, tetap dikenakan sanksi administratif berupa peringatan tertulis yang berakhir dengan sendirinya. (3) Dalam hal Perusahaan telah memenuhi ketentuan sebagaimana dimaksud pada ayat (1), OJK mencabut sanksi administratif berupa peringatan tertulis.",Apa sanksi administratif bagi perusahaan yang melanggar ketentuan Pasal 60 ayat (1)?,Perubahan yang diatur mencakup sanksi administratif berupa peringatan tertulis bagi perusahaan yang melanggar ketentuan Pasal 60 ayat (1).,Perubahan Regulasi,Apa sanksi administratif bagi perusahaan asuransi yang melanggar ketentuan serupa?,Saya tidak tahu terkait sanksi administratif bagi perusahaan asuransi yang melanggar ketentuan serupa.,Perubahan Regulasi,https://www.ojk.go.id/id/regulasi/Documents/Pages/Perubahan-Atas-Peraturan-Otoritas-Jasa-Keuangan-Nomor-30-tentang-Tata-Kelola-Perusahaan-yang-Baik-Bagi-Perusah/pojk%2029-2020.pdf
508,"Pasal 23 (1) Setiap pihak yang melanggar ketentuan sebagaimana dimaksud dalam Pasal 3, Pasal 4, Pasal 6, Pasal 8, Pasal 9, Pasal 10 ayat (3), Pasal 11 huruf b, Pasal 16, Pasal 17, Pasal 19, Pasal 20, Pasal 21, dan Pasal 22 huruf a, huruf c angka 1, huruf d, huruf e, huruf h, dan huruf i, dikenai sanksi administratif. (2) Sanksi sebagaimana dimaksud pada ayat (1) dikenakan juga kepada Pihak yang menyebabkan terjadinya pelanggaran sebagaimana dimaksud pada ayat (1). (3) Sanksi sebagaimana dimaksud pada ayat (1) dan ayat (2) dijatuhkan oleh Otoritas jasa Keuangan. (4) Sanksi administratif sebagaimana dimaksud pada ayat (1) berupa: a. peringatan tertulis; b. denda yaitu kewajiban untuk membayar sejumlah uang tertentu; c. pembatasan kegiatan usaha; d. pembekuan kegiatan usaha; e. pencabutan izin usaha; f. pembatalan persetujuan; dan/atau g. pembatalan pendaftaran. (5) Sanksi administratif sebagaimana dimaksud pada ayat (4) huruf b, huruf c, huruf d, huruf e, huruf f, atau huruf g dapat dikenakan dengan atau tanpa didahului pengenaan sanksi administratif berupa peringatan tertulis sebagaimana dimaksud pada ayat (4) huruf a. (6) Sanksi administratif berupa denda sebagaimana dimaksud pada ayat (4) huruf b dapat dikenakan secara tersendiri atau secara bersama-sama dengan pengenaan sanksi administratif sebagaimana dimaksud pada ayat (4) huruf c, huruf d, huruf e, huruf f, atau huruf g. (7) Tata cara pengenaan sanksi sebagaimana dimaksud pada ayat (3) dilaksanakan sesuai dengan ketentuan peraturan perundang-undangan.",Apa saja sanksi administratif yang dapat dikenakan menurut Pasal 23?,"Kewajiban yang ditetapkan adalah sanksi administratif berupa peringatan tertulis, denda, pembatasan kegiatan usaha, pembekuan kegiatan usaha, pencabutan izin usaha, pembatalan persetujuan, dan/atau pembatalan pendaftaran.",Kewajiban yang Ditetapkan,Apa ketentuan umum yang diatur dalam Pasal 23?,Saya tidak tahu terkait ketentuan umum yang diatur dalam Pasal 23.,Ketentuan Umum yang Ditetapkan,https://www.ojk.go.id/id/regulasi/Documents/Pages/Rekening-Efek-pada-Kustodian/POJK%2053%20-%2004%20-%202020.pdf
77,Pasal 21 Saham hasil pembelian kembali dapat dialihkan dengan cara: a. dijual baik di Bursa Efek maupun di luar Bursa Efek; b. ditarik kembali dengan cara pengurangan modal; c. pelaksanaan program kepemilikan saham oleh karyawan dan/atau direksi dan dewan komisaris; d. pelaksanaan pembayaran/penyelesaian atas transaksi tertentu; e. pelaksanaan konversi Efek bersifat ekuitas yang diterbitkan oleh Perusahaan Terbuka; f. distribusi saham hasil pembelian kembali kepada pemegang saham secara proporsional; dan/atau g. cara lain dengan persetujuan Otoritas Jasa Keuangan.,Apa saja mekanisme proses pengalihan saham hasil pembelian kembali?,"Mekanisme proses dijelaskan sebagai pengalihan dengan cara dijual di Bursa Efek atau di luar Bursa Efek, penarikan kembali dengan pengurangan modal, program kepemilikan saham, pembayaran transaksi tertentu, konversi efek ekuitas, distribusi proporsional, atau cara lain dengan persetujuan OJK.",Mekanisme Proses,Apa saja mekanisme proses pelaporan hasil pembelian kembali saham dalam Pasal 21?,Saya tidak tahu terkait mekanisme proses pelaporan hasil pembelian kembali saham dalam Pasal 21.,Mekanisme Proses,https://www.ojk.go.id/id/regulasi/Documents/Pages/Pembelian-Kembali-Saham-yang-Dikeluarkan-oleh-Perusahaan-Terbuka-/POJK%2029%20Tahun%202023%20Pembelian%20Kembali%20Saham%20Yang%20Dikeluarkan%20Oleh%20Perusahaan%20Terbuka.pdf
1409,"Pasal 20 BPR yang melanggar ketentuan sebagaimana dimaksud dalam Pasal 2, Pasal 4, Pasal 12, Pasal 15 ayat (2) dan ayat (3), Pasal 18 ayat (1) dan ayat (2) dikenakan sanksi administratif: a. teguran ... - 13 - a. teguran tertulis; dan/atau b. penurunan tingkat kesehatan. Pasal 21 BPR yang tidak menyelesaikan kelengkapan administrasi dana setoran modal dalam jangka waktu sebagaimana dimaksud dalam Pasal 6 ayat (1), dikenakan sanksi administratif: a. dana setoran modal tidak dapat diperhitungkan sebagai komponen modal inti; b. penundaan pembagian dividen atas seluruh kepemilikan saham dari pemegang saham yang melakukan setoran modal, sampai dengan terpenuhinya kelengkapan administrasi.","Apa saja sanksi administratif bagi BPR yang melanggar Pasal 2, 4, 12, 15 ayat (2) dan (3), serta 18 ayat (1) dan (2)?",Sanksi administratif adalah teguran tertulis dan/atau penurunan tingkat kesehatan.,Kategori Penilaian,Apa saja kategori penilaian kesehatan BPR menurut Pasal 20?,Saya tidak tahu terkait kategori penilaian kesehatan BPR menurut Pasal 20.,Kategori Penilaian,https://www.ojk.go.id/id/regulasi/Documents/Pages/POJK-tentang-Kewajiban-Penyediaan-Modal-Minimum-dan-Pemenuhan-Modal-Inti-Minimum-BPR/POJK%205.%20Kewajiban%20Penyediaan%20Modal%20Minimum%20Bank%20Perkreditan%20Rakyat.pdf
700,"Pasal 21 (1) Bank wajib menempatkan Sistem Elektronik pada Pusat Data dan Pusat Pemulihan Bencana di wilayah Indonesia. (2) Bank hanya dapat menempatkan Sistem Elektronik pada Pusat Data dan/atau Pusat Pemulihan Bencana di luar wilayah Indonesia sepanjang memperoleh persetujuan dari Otoritas Jasa Keuangan. (3) Sistem Elektronik yang dapat ditempatkan pada Pusat Data dan/atau Pusat Pemulihan Bencana di luar wilayah Indonesia sebagaimana dimaksud pada ayat (2): a. Sistem Elektronik yang digunakan untuk mendukung analisis terintegrasi dalam rangka memenuhi ketentuan yang diterbitkan oleh otoritas negara asal Bank yang bersifat global, termasuk lintas negara; b. Sistem Elektronik yang digunakan untuk manajemen risiko secara terintegrasi dengan kantor pusat Bank atau kantor induk/kantor entitas utama di luar wilayah Indonesia; c. Sistem Elektronik yang digunakan untuk penerapan anti pencucian uang dan pencegahan pendanaan terorisme secara terintegrasi dengan kantor pusat Bank atau kantor induk Bank di luar wilayah Indonesia;",Apa saja ketentuan umum yang ditetapkan terkait penempatan Sistem Elektronik oleh bank?,"Ketentuan umum yang ditetapkan adalah bank wajib menempatkan Sistem Elektronik pada Pusat Data dan Pusat Pemulihan Bencana di wilayah Indonesia, dan hanya dapat menempatkannya di luar wilayah Indonesia dengan persetujuan Otoritas Jasa Keuangan.",Ketentuan Umum yang Ditetapkan,Apa saja kategori penilaian dalam Pasal 21?,Saya tidak tahu terkait kategori penilaian dalam Pasal 21.,Kategori Penilaian,https://www.ojk.go.id/id/regulasi/Documents/Pages/tentang-Penerapan-Manajemen-Risiko-dalam-Penggunaan-Teknologi-Informasi-oleh-Bank-Umum/pojk%2013-2020.pdf
812,Pasal 2 (1) BUS dan Bank Umum dapat melakukan Sinergi Perbankan. (2) Sinergi Perbankan sebagaimana dimaksud pada ayat (1) dilakukan oleh BUS dan Bank Umum yang memiliki hubungan kepemilikan: a. Bank Umum merupakan pemegang saham pengendali BUS; atau b. Bank Umum dimiliki oleh pemegang saham pengendali yang sama dengan BUS. (3) Sinergi Perbankan sebagaimana dimaksud pada ayat (1) dikecualikan untuk permodalan dan manajemen BUS.,Apa saja bentuk hubungan kepemilikan yang memungkinkan Sinergi Perbankan?,Subjek yang diatur meliputi Bank Umum sebagai pemegang saham pengendali BUS atau Bank Umum dimiliki oleh pemegang saham pengendali yang sama dengan BUS.,Subjek yang Diatur,Apa tujuan pengecualian Sinergi Perbankan untuk permodalan dan manajemen BUS?,Saya tidak tahu terkait tujuan pengecualian Sinergi Perbankan untuk permodalan dan manajemen BUS.,Tujuan,https://www.ojk.go.id/id/regulasi/Documents/Pages/Sinergi-Perbankan-dalam-Satu-Kepemilikan-untuk-Pengembangan-Perbankan-Syariah/pojk%2028-2019.pdf
918,"Pasal II 1. Perusahaan Terbuka yang telah menyampaikan mata acara rapat mengenai penambahan modal Perusahaan Terbuka tanpa memberikan HMETD kepada Otoritas Jasa Keuangan sebelum berlakunya Peraturan Otoritas Jasa Keuangan ini tetap mengikuti ketentuan sebagaimana diatur Peraturan Otoritas Jasa Keuangan Nomor 38/POJK.04/2014 tentang Penambahan Modal Perusahaan Terbuka Tanpa Memberikan Hak Memesan Efek Terlebih Dahulu. 2. Pada saat Peraturan Otoritas Jasa Keuangan ini mulai berlaku, Peraturan Otoritas Jasa Keuangan Nomor 38/POJK.04/2014 tentang Penambahan Modal Perusahaan Terbuka Tanpa Memberikan Hak Memesan Efek Terlebih Dahulu (Lembaran Negara Republik Indonesia Tahun 2014 Nomor 395, Tambahan Lembaran Negara Republik Indonesia Nomor 5652), dicabut dan dinyatakan tidak berlaku. Peraturan Otoritas Jasa Keuangan ini mulai berlaku pada tanggal diundangkan.",Kapan masa berlaku peraturan ini berakhir?,Masa berlaku peraturan ini sampai tanggal dicabut atau diganti dengan peraturan baru.,Waktu Berlaku,Kapan masa berlaku peraturan ini dimulai?,Saya tidak tahu terkait kapan masa berlaku peraturan ini dimulai.,Waktu Berlaku,https://www.ojk.go.id/id/regulasi/Documents/Pages/Perubahan-Atas-Peraturan-Otoritas-Jasa-Keuangan-Nomor-32-tentang-Penambahan-Modal-Perusahaan-Terbuka-dengan-Me/pojk%2014-2019.pdf
1551,"Pasal 4 (1) Dalam menjalankan kegiatan penyaluran Pinjaman atau Pembiayaan kepada anggota atau masyarakat, LKM menetapkan suku bunga maksimum Pinjaman atau imbal hasil maksimum Pembiayaan yang akan diterapkan, sesuai dengan peraturan perundang-undangan yang berlaku. (2) LKM wajib melaporkan suku bunga maksimum Pinjaman atau imbal hasil maksimum Pembiayaan sebagaimana dimaksud pada ayat (1) kepada OJK setiap 4 (empat) bulan. (3) Laporan sebagaimana dimaksud pada ayat (2) wajib disampaikan paling lambat minggu terakhir bulan April, bulan Agustus, dan bulan Desember sesuai dengan format dalam Lampiran I yang merupakan bagian yang tidak terpisahkan dari Peraturan OJK ini. (4) Dalam hal LKM bermaksud menaikkan suku bunga maksimum Pinjaman atau imbal hasil maksimum Pembiayaan sebelum periode pelaporan sebagaimana dimaksud pada ayat (2) berakhir, LKM wajib terlebih dahulu melaporkan kepada OJK sesuai dengan format dalam Lampiran II yang merupakan bagian yang tidak terpisahkan dari Peraturan OJK ini. (5) LKM dilarang menerapkan suku bunga Pinjaman atau imbal hasil Pembiayaan melebihi suku bunga maksimum Pinjaman atau imbal hasil maksimum Pembiayaan sebagaimana dimaksud pada ayat (1) dan ayat (4). Pasal 5 LKM wajib mengumumkan suku bunga maksimum Pinjaman atau imbal hasil maksimum Pembiayaan sebagaimana dimaksud dalam Pasal 4 melalui surat kabar harian lokal atau papan pengumuman di kantor LKM yang mudah diketahui oleh masyarakat.",Apa kewajiban LKM terkait pelaporan suku bunga maksimum Pinjaman menurut Pasal 4?,Kewajiban LKM adalah melaporkan suku bunga maksimum Pinjaman atau imbal hasil maksimum Pembiayaan kepada OJK setiap 4 (empat) bulan.,Pengertian,Apa pengertian rasio likuiditas menurut Pasal 4?,Saya tidak tahu terkait pengertian rasio likuiditas menurut Pasal 4.,Pengertian,https://www.ojk.go.id/id/regulasi/Documents/Pages/POJK-tentang-Penyelenggaraan-Usaha-Lembaga-Keuangan-Mikro/pojk%2013-2014.pdf
380,"I. UMUM Pesatnya perkembangan lingkungan eksternal dan internal di industri jasa keuangan seiring dengan kemajuan teknologi informasi, berpotensi menyebabkan peningkatan risiko yang dihadapi LJK dan dapat menimbulkan permasalahan pada LJK. Sebagai bagian dari pengaturan dan pengawasan sektor jasa keuangan, penilaian kembali terhadap Pihak Utama LJK dilakukan dalam hal terdapat indikasi keterlibatan dan/atau bertanggung jawab terhadap permasalahan integritas, kelayakan keuangan, reputasi keuangan, dan/atau kompetensi yang terjadi pada LJK, sehingga LJK senantiasa dimiliki dan dikelola oleh pihak yang memenuhi persyaratan kemampuan dan kepatutan. Untuk memperkuat pengaturan penilaian kembali terhadap Pihak Utama, penanganan permasalahan pada LJK perlu direspon dengan upaya dan langkah antisipatif melalui reidentifikasi cakupan kriteria pelanggaran Pihak Utama yang menimbulkan permasalahan pada LJK yang diikuti dengan penyesuaian pengenaan jangka waktu larangan sebagai konsekuensi hasil akhir penilaian kembali bagi Pihak Utama",Apa saja cakupan dokumen yang dijelaskan dalam bagian umum penjelasan?,"Dokumen ini mencakup pengaturan penilaian kembali Pihak Utama, kriteria pelanggaran, dan penyesuaian jangka waktu larangan.",Cakupan Dokumen,Apa mekanisme proses penilaian kembali menurut bagian umum penjelasan?,Saya tidak tahu terkait mekanisme proses penilaian kembali menurut bagian umum penjelasan.,Mekanisme Proses,https://www.ojk.go.id/id/regulasi/Documents/Pages/Penilaian-Kembali-bagi-Pihak-Utama-Lembaga-Jasa-Keuangan-/POJK%2014%20-%20%2003%20-%202021.pdf
