In [1]:
# Instalasi pustaka yang diperlukan
!pip install google-genai pypdf

# Impor pustaka
import os
import json
import re 
from google import genai
from pypdf import PdfReader



In [2]:
# =========================================================
# ⚠️ PENTING: GANTI DENGAN KUNCI API GEMINI ANDA
# =========================================================
API_KEY = "AIzaSyBNYLMMHHBXlw8t4PwOrqJFD5JaKhabbTA" 
# =========================================================

# Ganti dengan nama file PDF yang ingin Anda uji
PDF_PATH = "/kaggle/input/datatest-llm-ocr/SPT remote site.pdf" 

if API_KEY == "<GANTI_DENGAN_API_KEY_ANDA>":
    print("ERROR: Harap masukkan kunci API Gemini Anda.")
else:
    # Inisialisasi Klien
    client = genai.Client(api_key=API_KEY)
    print("Klien Gemini siap.")

Klien Gemini siap.


In [3]:
def extract_text_from_pdf(pdf_path):
    """Membaca file PDF dan mengembalikan seluruh teks."""
    print(f"Mencoba membaca file: {pdf_path}")
    try:
        reader = PdfReader(pdf_path)
        text = ""
        for page in reader.pages:
            text += page.extract_text() + "\n"
        print("✅ Teks berhasil diekstrak.")
        return text
    except FileNotFoundError:
        print(f"❌ ERROR: File tidak ditemukan di jalur: {pdf_path}")
        return None
    except Exception as e:
        print(f"❌ ERROR saat membaca PDF: {e}")
        return None

def pre_validate_spt_text(text):
    """
    Validasi awal untuk menghemat biaya. WAJIB ada 'SURAT TUGAS' dan pola '.../Balmon.33/...'
    """
    if not text:
        return False, "Teks kosong."
        
    text_upper = text.upper() 
        
    # Pengecekan 1: Memastikan dokumen memiliki header 'SURAT TUGAS'
    if "SURAT TUGAS" not in text_upper:
        return False, "Dokumen bukan Surat Tugas (Header 'SURAT TUGAS' tidak ditemukan)."
        
    # Pengecekan 2: WAJIB ada pola spesifik "Nomor: .../BALMON.33/..."
    # Pola Regex yang sangat ketat
    pattern = r"NOMOR.*BALMON\.33"
    
    if not re.search(pattern, text_upper, re.DOTALL):
        return False, "Nomor surat tidak sesuai format WAJIB '.../Balmon.33/...' di teks mentah."
        
    return True, "Validasi awal berhasil."

In [4]:
def analyze_text_with_llm(extracted_text):
    """Mengirim teks ke Gemini untuk ekstraksi JSON terstruktur."""
    
    if not extracted_text:
        return None
        
    print("\nMengirim teks ke LLM untuk analisis...")

    # Instruksi Sistem (System Instruction)
    system_instruction = (
        "Anda adalah parser data yang sangat akurat. Tugas Anda adalah mengekstrak informasi yang diminta dari teks Surat Tugas (SPT) "
        "dan mengembalikannya dalam format JSON. JIKA SEBUAH DATA TIDAK DITEMUKAN, isi nilainya dengan string kosong (\" \"). "
        "JANGAN sertakan teks atau penjelasan lain di luar blok JSON."
    )
    
    # Prompt Pengguna (User Prompt)
    user_prompt = f"""
      Ekstrak informasi berikut dari teks Surat Tugas di bawah:
      1. Nomor Surat (Nomor SPT)
      2. Tanggal Pelaksanaan (Format: DD MMMM YYYY s.d DD MMMM YYYY)
      3. Tempat Pelaksanaan
      4. Tujuan/Kegiatan
      5. Daftar Nama Personil yang bertugas (kembalikan sebagai array string. Jika tidak ada, kembalikan array kosong: []).
      
      Output harus dalam format JSON dengan kunci (key) berikut. PASTIKAN SEMUA KUNCI ADA:
      {{
        "nomor_surat": "...",
        "tanggal_pelaksanaan": "...",
        "tempat_pelaksanaan": "...",
        "tujuan_kegiatan": "...",
        "personil": ["Nama 1", "Nama 2", ...]
      }}
      
      Berikut teks Surat Tugas untuk dianalisis:
      ---
      {extracted_text}
      ---
    """
    
    try:
        response = client.models.generate_content(
            model='gemini-2.5-flash',
            contents=user_prompt,
            config={
                "system_instruction": system_instruction,
                "response_mime_type": "application/json", 
            }
        )
        
        # Pembersihan dan Parsing respons LLM
        json_string = response.text.strip()
        if json_string.startswith("```json"):
             json_string = json_string.strip("```json").strip()
        if json_string.endswith("```"):
             json_string = json_string.strip("```").strip()

        return json.loads(json_string)

    except json.JSONDecodeError:
        print("❌ ERROR: Respons LLM bukan JSON yang valid.")
        print(f"Respons mentah LLM:\n{response.text}")
        return None
    except Exception as e:
        print(f"❌ ERROR saat berinteraksi dengan LLM: {e}")
        return None

In [5]:
# --- Eksekusi Utama (MODIFIKASI: Output JSON) ---

# Cek inisialisasi API Key
if API_KEY == "<GANTI_DENGAN_API_KEY_ANDA>":
    print("PROSES DIBATALKAN: API Key belum dikonfigurasi.")
else:
    print(f"--- Membaca file: {PDF_PATH} ---")
    pdf_text = extract_text_from_pdf(PDF_PATH)
    
    if pdf_text:
        
        # LANGKAH 1: PRE-VALIDASI WAJIB BALMON.33
        is_valid, validation_message = pre_validate_spt_text(pdf_text)
        
        if not is_valid:
            print("\n==========================================")
            print("         ❌ SURAT TIDAK VALID ❌")
            print("==========================================")
            print(f"Surat dibatalkan (Validasi Awal): {validation_message}")
            print("==========================================")
            
        else:
            # LANGKAH 2: EKSTRAKSI LLM
            print(f"--- {validation_message}. Mengirim teks ke LLM... ---")
            extracted_data = analyze_text_with_llm(pdf_text)
            
            if extracted_data:
                # LANGKAH 3: VALIDASI AKHIR NILAI NOMOR SURAT
                final_nomor_surat = extracted_data.get('nomor_surat', '')
                
                if "BALMON.33" not in final_nomor_surat.upper():
                    print("\n==========================================")
                    print("         ❌ SURAT TIDAK VALID ❌")
                    print("==========================================")
                    print(f"Validasi Akhir Gagal: Nomor Surat hasil LLM ('{final_nomor_surat}')")
                    print("tidak mengandung 'Balmon.33' secara utuh. Proses dibatalkan.")
                    print("==========================================")
                else:
                    # LANGKAH 4: FORMAT FINAL DAN CETAK JSON
                    final_output = {}
                    
                    # Iterasi melalui data yang diekstrak LLM
                    for key, value in extracted_data.items():
                        
                        # Aturan: Jika string kosong, isi dengan ""
                        if isinstance(value, str):
                            final_output[key] = value.strip() if value and value.strip() != "" else ""
                        
                        # Aturan: Jika array kosong, biarkan array kosong []
                        elif isinstance(value, list):
                            final_output[key] = value
                        
                        else:
                            final_output[key] = value

                    print("\n==========================================")
                    print("         ✅ EKSTRAKSI BERHASIL ✅")
                    print("==========================================")
                    print("⬇️ HASIL OUTPUT DALAM FORMAT JSON ⬇️")
                    
                    # Mencetak objek Python dalam format JSON yang rapi (indent=4)
                    print(json.dumps(final_output, indent=4, ensure_ascii=False))
                    print("==========================================")
            else:
                print("\n❌ Gagal mendapatkan data terstruktur dari LLM.")
    else:
        print("\n❌ Proses gagal karena masalah pembacaan PDF.")

--- Membaca file: /kaggle/input/datatest-llm-ocr/SPT remote site.pdf ---
Mencoba membaca file: /kaggle/input/datatest-llm-ocr/SPT remote site.pdf
✅ Teks berhasil diekstrak.
--- Validasi awal berhasil.. Mengirim teks ke LLM... ---

Mengirim teks ke LLM untuk analisis...

         ✅ EKSTRAKSI BERHASIL ✅
⬇️ HASIL OUTPUT DALAM FORMAT JSON ⬇️
{
    "nomor_surat": "366/Balmon.33/KP.01.06/07/2025",
    "tanggal_pelaksanaan": "28 Juli 2025 s.d 01 Agustus 2025",
    "tempat_pelaksanaan": "Kota Semarang",
    "tujuan_kegiatan": "Inspeksi Dalam Rangka Validasi Data Izin Stasiun Radio (ISR) Monitoring Nasional Microwave Link Tahun 2025",
    "personil": [
        "Supriadi, S.H., M.H.",
        "Kuswahyudi, S.Kom., M.M.",
        "Purwanto, S.E.",
        "Agung Suryo Wibowo, S.Kom., M.T.",
        "Rully Prasetyo Baskoro, S.T.",
        "Wahyu Minarti, S.T.",
        "Mahardi Sentika, S.T.",
        "Ratna Mumpuni, S.T., M.Eng.",
        "Tanhidhul Umam Fatkhi, S.T.",
        "Santi Pramesthi, S.