### Import Libraries

In [90]:
import os
import json
import hashlib
import pdfplumber
import google.generativeai as genai
from google.generativeai.types import HarmCategory, HarmBlockThreshold
from google.api_core import exceptions as google_exceptions
from IPython.display import display, Markdown  # Untuk Jupyter/Colab

### Cek & Updates Manifest Files 

In [91]:
def calculate_file_hash(filepath):
    """Menghitung hash MD5 dari sebuah file untuk mendeteksi perubahan."""
    hash_md5 = hashlib.md5()
    try:
        with open(filepath, "rb") as f:
            for chunk in iter(lambda: f.read(4096), b""):
                hash_md5.update(chunk)
        return hash_md5.hexdigest()
    except IOError:
        return None

def update_combined_txt(pdf_folder, combined_txt_path, manifest_path):
    """
    Memperbarui file teks gabungan secara cerdas dengan hanya memproses
    file PDF yang baru atau yang telah diubah.
    """
    print("🔄 Memulai proses pembaruan cerdas...")
    
    # 1. Muat manifest/catatan yang ada
    try:
        with open(manifest_path, 'r') as f:
            manifest = json.load(f)
    except (FileNotFoundError, json.JSONDecodeError):
        manifest = {}  # Buat manifest baru jika tidak ada atau korup

    all_pdfs = [f for f in os.listdir(pdf_folder) if f.lower().endswith('.pdf')]
    anything_updated = False
    
    # 2. Buka file teks gabungan dalam mode 'append' (tambahkan di akhir)
    with open(combined_txt_path, 'a', encoding='utf-8') as combined_file:
        for pdf_filename in all_pdfs:
            pdf_path = os.path.join(pdf_folder, pdf_filename)
            current_hash = calculate_file_hash(pdf_path)

            # 3. Cek apakah file ini baru atau berubah
            if manifest.get(pdf_filename) != current_hash:
                print(f"⚙️  Terdeteksi file baru/berubah: '{pdf_filename}'. Memproses...")
                anything_updated = True
                
                try:
                    text = ""
                    with pdfplumber.open(pdf_path) as pdf:
                        for page in pdf.pages:
                            page_text = page.extract_text()
                            if page_text:
                                text += page_text + "\n"
                    
                    combined_file.write(f"\n\n--- MULAI DOKUMEN: {pdf_filename} ---\n\n")
                    combined_file.write(text)
                    combined_file.write(f"\n\n--- AKHIR DOKUMEN: {pdf_filename} ---\n\n")
                    
                    manifest[pdf_filename] = current_hash

                except Exception as e:
                    print(f"❌ Gagal memproses {pdf_filename}: {e}")

    # 4. Simpan kembali manifest yang sudah diperbarui
    with open(manifest_path, 'w') as f:
        json.dump(manifest, f, indent=4)
        
    if not anything_updated and os.path.exists(combined_txt_path):
        print("✅ Tidak ada pembaruan. File data sudah yang terbaru.")
    else:
        print("✨ Proses pembaruan selesai! File data telah diperbarui.")


### Function Chatbot

#### Prompt Templates

In [92]:
# ### BARU ### Daftar model yang bisa digunakan sebagai pilihan fallback
AVAILABLE_MODELS = [
    "models/gemini-2.5-pro",
    "models/gemini-2.5-flash",
    "models/gemini-2.0-flash",
    "models/gemini-2.0-flash-001",
    "models/gemini-2.0-flash-lite-001",
    "models/gemini-2.0-flash-lite",
    "models/gemini-1.5-flash", 
    "models/gemini-1.5-pro",  
    "models/gemini-1.5-flash-latest"
]

PROMPT_TEMPLATES = {
    "single_chunk_qa": """Anda adalah Asisten AI Analis Dokumen yang sangat teliti.
                        Aturan utama Anda:
                        1. JAWAB HANYA berdasarkan informasi dari <dokumen> yang diberikan.
                        2. JANGAN menambahkan informasi, asumsi, atau pengetahuan eksternal.
                        3. Jawaban harus dalam Bahasa Indonesia yang ringkas dan jelas.
                        4. Batasi jawaban Anda MAKSIMAL 200 Kata saja.
                        5. Jika informasi tidak ditemukan dalam dokumen, jawab dengan: "Informasi tidak ditemukan dalam sumber yang dimiliki"

                        <dokumen>
                        {chunk}
                        </dokumen>

                        Pertanyaan: {user_question}

                        Jawaban Langsung dan Ringkas:""",

    "extractor": """Anda adalah Asisten AI yang handal dalam mengekstraksi dokumen yang diberikan. Dari bagian dokumen berikut ekstrak semua informasi yang relevan dengan
                    pertanyaan: "{user_question}". Fokus hanya pada informasi yang ada pada dokumen dan menjawab pertanyaan. Jika tidak ada yang relevan katakan "Tidak ada informasi yang relevan".
                    Kemudian jika pertanyaan: "{user_question}" berupa slang indonesia seperti ucapan terimakasih atau tidak ada keterkaitannya dengan informasi pada sumber maka cukup katakan
                    "Saya sulit memahami pertanyaan anda".

                    <dokumen_bagian>
                    {chunk}
                    </dokumen_bagian>

                    Informasi Relevan:""",

    "synthesizer": """Anda adalah asisten AI yang ahli dalam merangkum informasi. Berdasarkan kumpulan informasi berikut, maka rangkum informasi tersebut sehingga menjawab pertanyaan pengguna.
                    Perlu diingat Aturan utama yang harus anda penuhi :
                    1. Gabungkan informasi yang relevan dan ringkas untuk memberikan jawaban yang padu dan relevan dengan pertanyaan.
                    2. Jawaban harus dalam Bahasa Indonesia yang jelas dan menyesuaikan gaya bahasa pengguna.
                    3. JAWAB SECARA LANGSUNG dan SINGKAT, hindari menggunakan kalimat pembuka atau penutup yang tidak perlu.
                    4. Batasi jawaban anda tidak lebih dari 200 kata, kecuali diminta.
                        <informasi_terkumpul>
                        {combined_info}
                        </informasi_terkumpul>
                        Pertanyaan Pengguna: {user_question}
                        Jawaban Akhir yang Ringkas:"""
}

#### Chatbot Class

In [93]:
class TxtChatbot:
    # ### Inisialisasi diubah untuk menerima daftar model dan konfigurasi
    def __init__(self, model_names: list, generation_config: dict, safety_settings: dict):
        """Inisialisasi Chatbot dengan daftar model untuk fallback."""
        self.model_names = model_names
        self.generation_config = generation_config
        self.safety_settings = safety_settings
        self.models = self._initialize_models()
        self.current_model_index = 0
        self.source_text = None
        self.data_source_name = None

        
        if self.models:
            print(f"✅ TxtChatbot berhasil diinisialisasi dengan model utama: '{self.models[0].model_name}'!")
        else:
            print("❌ Gagal menginisialisasi model. Pastikan nama model dan API key valid.")

    # ### Fungsi untuk membuat objek model dari daftar nama
    def _initialize_models(self):
        """Membuat instance model generatif untuk setiap nama model."""
        models = []
        for name in self.model_names:
            try:
                model = genai.GenerativeModel(
                    model_name=name,
                    generation_config=self.generation_config,
                    safety_settings=self.safety_settings
                )
                models.append(model)
            except Exception as e:
                print(f"⚠️ Peringatan: Gagal memuat model '{name}'. Error: {e}")
        return models
        
    def load_from_combined_txt(self, combined_txt_path):
        self.data_source_name = os.path.basename(combined_txt_path)
        print(f"📂 Membaca sumber data utama dari: '{self.data_source_name}'")
        try:
            with open(combined_txt_path, 'r', encoding='utf-8') as f:
                self.source_text = f.read()
            if not self.source_text.strip():
                print("⚠️ Peringatan: File sumber data kosong.")
                return False
            print("✅ Sumber data berhasil dimuat.")
            return True
        except FileNotFoundError:
            print(f"❌ File sumber data tidak ditemukan.")
            return False

    def get_info(self):
        if not self.source_text:
            print("❌ Belum ada data yang dimuat.")
            return
        lines = self.source_text.count('\n') + 1
        words = len(self.source_text.split())
        chars = len(self.source_text)
        info = (f"**📊 INFORMASI SUMBER DATA**\n"
                f"- 📄 **Sumber:** {self.data_source_name}\n"
                f"- 📝 **Total karakter:** {chars:,}\n"
                f"- 🗣️ **Total kata:** {words:,}\n"
                f"- 📄 **Total baris:** {lines:,}")
        try:
            display(Markdown(info))
        except NameError:
            print(info.replace('**', ''))
            

    def chunk_text(self, text, max_length=100000):
        if len(text) <= max_length:
            return [text]
        
        chunks, words = [], text.split()
        current_chunk, current_length = [], 0
        for word in words:
            word_length = len(word) + 1
            if current_length + word_length > max_length:
                if current_chunk: chunks.append(" ".join(current_chunk))
                current_chunk, current_length = [word], word_length
            else:
                current_chunk.append(word)
                current_length += word_length
        if current_chunk: chunks.append(" ".join(current_chunk))
        print(f"📝 Teks sumber terlalu besar, dibagi menjadi {len(chunks)} bagian untuk dianalisis.")
        return chunks
    
    # ### Logika switching/fallback model
    def _switch_to_next_model(self):
        """Beralih ke model berikutnya dalam daftar jika tersedia."""
        next_index = self.current_model_index + 1
        if next_index < len(self.models):
            self.current_model_index = next_index
            print(f"🔄 Beralih ke model fallback: {self.models[self.current_model_index].model_name}")
            return True
        else:
            print("❌ Semua model telah dicoba dan gagal.")
            return False

    # ### Fungsi _call_model dimodifikasi secara signifikan
    def _call_model(self, prompt: str, is_retry=False) -> str:
        """
        Memanggil model, menangani error spesifik, dan mencoba fallback.
        """
        if not self.models:
            return "❌ Tidak ada model yang berhasil diinisialisasi."
        
        # Atur ulang ke model utama jika ini adalah permintaan baru
        if not is_retry:
            self.current_model_index = 0

        current_model = self.models[self.current_model_index]
        print(f"🧠 Mencoba menghasilkan respons dengan model: {current_model.model_name}...")
        
        try:
            response = current_model.generate_content(prompt)
            
            # ### Bagian pelacakan token dihapus ###
            
            return response.text if response.parts else "❌ Respons diblokir oleh filter keamanan."

        except google_exceptions.ResourceExhausted as e:
            print(f"⚠️ Model '{current_model.model_name}' mencapai limit penggunaan.")
            if self._switch_to_next_model():
                return self._call_model(prompt, is_retry=True) # Coba lagi dengan model baru
            else:
                return "Tanya DTSEN belum dapat digunakan kembali karena telah mencapai limit penggunaan. Mohon untuk mencoba beberapa saat lagi."

        except (google_exceptions.InternalServerError, google_exceptions.ServiceUnavailable) as e:
            print(f"❌ Terjadi gangguan server pada model '{current_model.model_name}'.")
            if self._switch_to_next_model():
                return self._call_model(prompt, is_retry=True) # Coba lagi dengan model baru
            else:
                return "Maaf, layanan sedang mengalami gangguan teknis. Silakan coba lagi nanti."

        except Exception as e:
            print(f"❌ Terjadi kesalahan tak terduga dengan model '{current_model.model_name}': {e}")
            if self._switch_to_next_model():
                 return self._call_model(prompt, is_retry=True) # Coba lagi dengan model baru
            else:
                return f"Maaf, terjadi kesalahan yang tidak dapat diatasi setelah mencoba semua model."

    def get_response(self, user_question: str) -> str:
        if not self.source_text:
            return "❌ Belum ada data yang dimuat. Harap jalankan `load_from_combined_txt` terlebih dahulu."
        
        print(f"🤖 Memproses pertanyaan: {user_question}")
        chunks = self.chunk_text(self.source_text)
        
        if len(chunks) == 1:
            prompt = PROMPT_TEMPLATES["single_chunk_qa"].format(chunk=chunks[0], user_question=user_question)
            return self._call_model(prompt)
        else:
            relevant_info = []
            print(f"📊 Menganalisis {len(chunks)} bagian teks...")
            for i, chunk in enumerate(chunks):
                print(f"⏳ Mengekstrak info dari bagian {i+1}/{len(chunks)}...", end='\r')
                extract_prompt = PROMPT_TEMPLATES["extractor"].format(user_question=user_question, chunk=chunk)
                response_text = self._call_model(extract_prompt)
                
                if "belum dapat digunakan kembali" in response_text or "mengalami gangguan teknis" in response_text:
                    return response_text # Langsung hentikan jika ada error fatal

                if response_text and "tidak ada informasi relevan" not in response_text.lower():
                    relevant_info.append(response_text)
            
            print("\n✅ Ekstraksi selesai.")
            if not relevant_info:
                return "Informasi yang relevan dengan pertanyaan Anda tidak ditemukan di dalam dokumen."
            
            combined_info = "\n\n---\n\n".join(relevant_info)
            synthesis_prompt = PROMPT_TEMPLATES["synthesizer"].format(combined_info=combined_info, user_question=user_question)
            
            print("✍️  Merangkum informasi untuk jawaban akhir...")
            return self._call_model(synthesis_prompt)

### Main Function

In [94]:
if __name__ == "__main__":
    # Ganti dengan API Key Anda
    API_KEY = "AIzaSyAXMr24XVP1ohfCO29GdM-9nm1IpBF_A_o"
    
    try:
        genai.configure(api_key=API_KEY)
        print("✅ API Key berhasil dikonfigurasi!")
    except Exception as e:
        print(f"❌ Gagal mengkonfigurasi API Key: {e}")
        exit()

    my_generation_config = {
        "temperature": 0.5,
        "max_output_tokens": 4096,
        "top_p": 0.6
    }
    my_safety_settings = {
        HarmCategory.HARM_CATEGORY_HARASSMENT: HarmBlockThreshold.BLOCK_ONLY_HIGH,
        HarmCategory.HARM_CATEGORY_HATE_SPEECH: HarmBlockThreshold.BLOCK_ONLY_HIGH,
        HarmCategory.HARM_CATEGORY_SEXUALLY_EXPLICIT: HarmBlockThreshold.BLOCK_ONLY_HIGH,
        HarmCategory.HARM_CATEGORY_DANGEROUS_CONTENT: HarmBlockThreshold.BLOCK_ONLY_HIGH,
    }

    # Ganti dengan path ke file teks Anda
    combined_txt_path = "/Users/ptrayoga/Library/CloudStorage/GoogleDrive-hitmeup.yogaputra@gmail.com/My Drive/4. Improvement/9. BPS Code/11. LLM/Files/chatbot_data/combined.txt"

    print("\n" + "="*50)
    # ### BARU ### Inisialisasi chatbot dengan daftar model dan konfigurasi
    chatbot = TxtChatbot(
        model_names=AVAILABLE_MODELS,
        generation_config=my_generation_config,
        safety_settings=my_safety_settings
    )
    success = chatbot.load_from_combined_txt(combined_txt_path)

✅ API Key berhasil dikonfigurasi!

✅ TxtChatbot berhasil diinisialisasi dengan model utama: 'models/gemini-2.5-pro'!
📂 Membaca sumber data utama dari: 'combined.txt'
✅ Sumber data berhasil dimuat.


### Testing Question

In [None]:
if success:
    chatbot.get_info()
    print("\n" + "="*50)
    
    question = "apa itu DTSEN?"
    answer = chatbot.get_response(question)
    
    print(f"\n❓ Pertanyaan: {question}")
    print("🤖 Jawaban:")
    print("-" * 40)
    print(answer)
    print("-" * 40)
    
    
else:
    print("\n⚠️ Gagal memuat data. Chatbot tidak dapat digunakan.")

**📊 INFORMASI SUMBER DATA**
- 📄 **Sumber:** combined.txt
- 📝 **Total karakter:** 151,532
- 🗣️ **Total kata:** 20,611
- 📄 **Total baris:** 835


🤖 Memproses pertanyaan: apa itu DTSEN?
📝 Teks sumber terlalu besar, dibagi menjadi 2 bagian untuk dianalisis.
📊 Menganalisis 2 bagian teks...
🧠 Mencoba menghasilkan respons dengan model: models/gemini-2.5-pro...


In [None]:
if success:
    chatbot.get_info()
    print("\n" + "="*50)
    
    question = "jelaskan apa itu desil 1 dan 10?"
    answer = chatbot.get_response(question)
    
    print(f"\n❓ Pertanyaan: {question}")
    print("🤖 Jawaban:")
    print("-" * 40)
    print(answer)
else:
    print("\n⚠️ Gagal memuat data. Chatbot tidak dapat digunakan.")

**📊 INFORMASI SUMBER DATA**
- 📄 **Sumber:** combined.txt
- 📝 **Total karakter:** 151,532
- 🗣️ **Total kata:** 20,611
- 📄 **Total baris:** 835


🤖 Memproses pertanyaan: jelaskan apa itu desil 1 dan 10?
📝 Teks sumber terlalu besar, dibagi menjadi 2 bagian untuk dianalisis.
📊 Menganalisis 2 bagian teks...
🧠 Mencoba menghasilkan respons dengan model: models/gemini-2.5-pro...
🧠 Mencoba menghasilkan respons dengan model: models/gemini-2.5-pro...

✅ Ekstraksi selesai.
✍️  Merangkum informasi untuk jawaban akhir...
🧠 Mencoba menghasilkan respons dengan model: models/gemini-2.5-pro...

❓ Pertanyaan: jelaskan apa itu desil 1 dan 10?
🤖 Jawaban:
----------------------------------------
Desil 1 adalah kelompok dengan tingkat kesejahteraan terendah, yang dikategorikan sebagai "Miskin Ekstrem" dan "Miskin". Kelompok ini menjadi sasaran utama berbagai program bantuan sosial pemerintah, seperti Program Keluarga Harapan (PKH), Bantuan Pangan Non-Tunai (Sembako), dan Penerima Bantuan Iuran Jaminan Kesehatan (PBI JK).

Sebaliknya, Desil 10 adalah kelompok dengan tingkat kesejahteraan tertinggi. Kelompok ini dianggap sudah mampu dan tidak lagi la

In [None]:
if success:
    chatbot.get_info()
    print("\n" + "="*50)
    
    question = "siapa yang terlibat di DTSEN?"
    answer = chatbot.get_response(question)
    
    print(f"\n❓ Pertanyaan: {question}")
    print("🤖 Jawaban:")
    print("-" * 40)
    print(answer)
else:
    print("\n⚠️ Gagal memuat data. Chatbot tidak dapat digunakan.")

**📊 INFORMASI SUMBER DATA**
- 📄 **Sumber:** combined.txt
- 📝 **Total karakter:** 151,532
- 🗣️ **Total kata:** 20,611
- 📄 **Total baris:** 835


🤖 Memproses pertanyaan: siapa yang terlibat di DTSEN?
📝 Teks sumber terlalu besar, dibagi menjadi 2 bagian untuk dianalisis.
📊 Menganalisis 2 bagian teks...
🧠 Mencoba menghasilkan respons dengan model: models/gemini-2.5-pro...
🧠 Mencoba menghasilkan respons dengan model: models/gemini-2.5-pro...

✅ Ekstraksi selesai.
✍️  Merangkum informasi untuk jawaban akhir...
🧠 Mencoba menghasilkan respons dengan model: models/gemini-2.5-pro...

❓ Pertanyaan: siapa yang terlibat di DTSEN?
🤖 Jawaban:
----------------------------------------
Pihak yang terlibat dalam Data Tunggal Sosial dan Ekonomi Nasional (DTSEN) mencakup berbagai tingkatan, yaitu:

1.  **Pemerintah Pusat:** Peran utama dipegang oleh **Badan Pusat Statistik (BPS)** sebagai pengelola dan penyusun data, serta **Kementerian Sosial (Kemensos)** sebagai pengguna utama dan verifikator untuk bantuan sosial. Lembaga lain yang mendukung adalah **Kementerian Dalam Negeri (Dukcapil)** yang menyediakan data kependudukan, **Bappenas** yang men