In [11]:
import os
import json

# Path
txt_dir = os.path.abspath("../bahan-chatbot/txt")
output_file = os.path.abspath("source-chatbot.txt")
meta_file = os.path.abspath("source-chatbot.txt.meta")

# Ambil daftar file .txt (urut biar konsisten)
current_files = sorted([f for f in os.listdir(txt_dir) if f.endswith(".txt")])

# Fungsi baca metadata lama
def read_meta():
    if os.path.exists(meta_file):
        with open(meta_file, "r", encoding="utf-8") as f:
            return json.load(f)
    return None

# Fungsi simpan metadata baru
def save_meta(files_list):
    with open(meta_file, "w", encoding="utf-8") as f:
        json.dump(files_list, f)

# Bandingkan dengan metadata lama
old_meta = read_meta()

if old_meta == current_files and os.path.exists(output_file):
    print("✅ Tidak ada perubahan file. Menggunakan source-chatbot.txt yang lama.")
else:
    print("♻️ Perubahan terdeteksi. Menggabungkan ulang semua file...")
    combined_text = ""
    for filename in current_files:
        file_path = os.path.join(txt_dir, filename)
        with open(file_path, "r", encoding="utf-8") as f:
            combined_text += f.read().strip() + "\n\n"
    # Simpan file gabungan
    with open(output_file, "w", encoding="utf-8") as f:
        f.write(combined_text.strip())
    # Simpan metadata baru
    save_meta(current_files)
    print("✅ File gabungan berhasil dibuat:", output_file)


♻️ Perubahan terdeteksi. Menggabungkan ulang semua file...
✅ File gabungan berhasil dibuat: c:\laragon\www\siger-lampung\ai-backend\source-chatbot.txt


In [4]:
pip install pdfplumber

Collecting pdfplumber
  Using cached pdfplumber-0.11.7-py3-none-any.whl.metadata (42 kB)
Collecting pdfminer.six==20250506 (from pdfplumber)
  Using cached pdfminer_six-20250506-py3-none-any.whl.metadata (4.2 kB)
Collecting pypdfium2>=4.18.0 (from pdfplumber)
  Using cached pypdfium2-4.30.0-py3-none-win_amd64.whl.metadata (48 kB)
Collecting cryptography>=36.0.0 (from pdfminer.six==20250506->pdfplumber)
  Downloading cryptography-45.0.6-cp37-abi3-win_amd64.whl.metadata (5.7 kB)
Using cached pdfplumber-0.11.7-py3-none-any.whl (60 kB)
Using cached pdfminer_six-20250506-py3-none-any.whl (5.6 MB)
Downloading cryptography-45.0.6-cp37-abi3-win_amd64.whl (3.4 MB)
   ---------------------------------------- 0.0/3.4 MB ? eta -:--:--
   ---------------------------------------- 0.0/3.4 MB ? eta -:--:--
   --- ------------------------------------ 0.3/3.4 MB ? eta -:--:--
   --- ------------------------------------ 0.3/3.4 MB ? eta -:--:--
   ------ --------------------------------- 0.5/3.4 MB 699.0

In [5]:
import os
import json
import hashlib
import pdfplumber
import google.generativeai as genai
from google.generativeai.types import HarmCategory, HarmBlockThreshold
from IPython.display import display, Markdown  # Untuk Jupyter/Colab

  from .autonotebook import tqdm as notebook_tqdm


In [6]:
class TxtChatbot:
    def __init__(self, model):
        """Inisialisasi Chatbot yang membaca dari file teks."""
        self.model = model
        self.source_text = None
        self.data_source_name = None
        print(f"✅ TxtChatbot berhasil diinisialisasi dengan model '{model.model_name}'!")

    def load_from_combined_txt(self, combined_txt_path):
        """Memuat seluruh teks dari satu file .txt gabungan."""
        self.data_source_name = os.path.basename(combined_txt_path)
        print(f"📂 Membaca sumber data utama dari: '{self.data_source_name}'")
        try:
            with open(combined_txt_path, 'r', encoding='utf-8') as f:
                self.source_text = f.read()
            if not self.source_text.strip():
                print("⚠️ Peringatan: File sumber data kosong.")
                return False
            
            print("✅ Sumber data berhasil dimuat.")
            return True
        except FileNotFoundError:
            print(f"❌ File sumber data tidak ditemukan. Jalankan proses pembaruan terlebih dahulu.")
            return False

    def get_info(self):
        """Menampilkan statistik dari teks yang dimuat."""
        if not self.source_text:
            print("❌ Belum ada data yang dimuat.")
            return
        lines = self.source_text.count('\n') + 1
        words = len(self.source_text.split())
        chars = len(self.source_text)
        info = (f"**📊 INFORMASI SUMBER DATA**\n"
                f"- 📄 **Sumber:** {self.data_source_name}\n"
                f"- 📝 **Total karakter:** {chars:,}\n"
                f"- 🗣️ **Total kata:** {words:,}\n"
                f"- 📄 **Total baris:** {lines:,}")
        try:
            display(Markdown(info))
        except NameError:
            print(info.replace('**', ''))

    def chunk_text(self, text, max_length=100000):
        """Memecah teks menjadi beberapa bagian jika terlalu panjang."""
        if len(text) <= max_length:
            return [text]
        
        chunks, words = [], text.split()
        current_chunk, current_length = [], 0
        for word in words:
            word_length = len(word) + 1
            if current_length + word_length > max_length:
                if current_chunk: chunks.append(" ".join(current_chunk))
                current_chunk, current_length = [word], word_length
            else:
                current_chunk.append(word)
                current_length += word_length
        if current_chunk: chunks.append(" ".join(current_chunk))
        print(f"📝 Teks sumber terlalu besar, dibagi menjadi {len(chunks)} bagian untuk dianalisis.")
        return chunks

    def get_response(self, user_question):
        """Menghasilkan jawaban berdasarkan teks yang dimuat."""
        if not self.source_text:
            return "❌ Belum ada data yang dimuat. Harap jalankan `load_from_combined_txt` terlebih dahulu."
        
        try:
            print(f"🤖 Memproses pertanyaan: {user_question}")
            chunks = self.chunk_text(self.source_text)
            
            if len(chunks) == 1:
                prompt = f"""Anda adalah Asisten AI Analis Dokumen yang sangat teliti, yang bertugas memberikan jawaban dengan mengakses informasi dari dokumen yang diberikan.
                Aturan utama anda :
                1. JAWAB HANYA berdasarkan informasi dari <dokumen> yang diberikan.    
                2. JANGAN menambahkan informasi, asumsi, atau pengetahuan eksternal apapun jika tidak diminta.
                3. Jawaban harus dalam Bahasa Indonesia yang ringkas dan jelas.
                4. Batasi jawaban anda MAKSIMAL 250 kata.
                5. Jika informasi tidak ada dalam dokumen jawab dengan : "Informasi tidak ditemukan dalam sumber yang dimiliki"

<dokumen>
{chunks[0]}
</dokumen>

Pertanyaan: {user_question}

Jawaban:"""
                response = self.model.generate_content(prompt)
                return response.text if response.parts else "❌ Respons diblokir oleh filter keamanan."

            else:
                all_responses = []
                print(f"📊 Menganalisis {len(chunks)} bagian teks...")
                for i, chunk in enumerate(chunks):
                    print(f"⏳ Menganalisis bagian {i+1}/{len(chunks)}...", end='\r')
                    prompt = f"""Dari bagian dokumen berikut, ekstrak semua informasi yang relevan dengan pertanyaan: "{user_question}". Jika tidak ada yang relevan, katakan 'Tidak ada informasi relevan'.

<dokumen_bagian>
{chunk}
</dokumen_bagian>

Informasi Relevan:"""
                    response = self.model.generate_content(prompt)
                    if response.parts and "tidak ada informasi relevan" not in response.text.lower():
                        all_responses.append(response.text)
                print("\nAnalisis selesai.")
                
                if not all_responses:
                    return "❌ Informasi yang relevan dengan pertanyaan Anda tidak ditemukan di dalam dokumen."
                
                combined_info = "\n\n---\n\n".join(all_responses)
                synthesis_prompt = f"""Anda adalah asisten AI yang cerdas. Berdasarkan kumpulan informasi berikut yang diekstrak dari berbagai bagian dokumen, jawablah pertanyaan pengguna secara komprehensif.

<informasi_terkumpul>
{combined_info}
</informasi_terkumpul>

Pertanyaan Pengguna: {user_question}

Jawaban Akhir (dalam Bahasa Indonesia):"""
                final_response = self.model.generate_content(synthesis_prompt)
                return final_response.text if final_response.parts else "❌ Gagal menghasilkan jawaban akhir karena diblokir oleh filter keamanan."

        except Exception as e:
            return f"❌ Terjadi kesalahan tak terduga: {e}"

In [10]:
if __name__ == "__main__":

    # Konfigurasi Gemini Models
    API_KEY = "AIzaSyAXMr24XVP1ohfCO29GdM-9nm1IpBF_A_o"
    try:
        genai.configure(api_key=API_KEY)
        print("✅ API Key configured!")
    except Exception as e:
        print(f"❌ Gagal mengkonfigurasi API Key: {e}")
        exit()

    my_generation_config = {
        "temperature": 0.5,
        "max_output_tokens": 4096,
        "top_p": 0.6
    }
    my_safety_settings = {
        HarmCategory.HARM_CATEGORY_HARASSMENT: HarmBlockThreshold.BLOCK_ONLY_HIGH,
        HarmCategory.HARM_CATEGORY_HATE_SPEECH: HarmBlockThreshold.BLOCK_ONLY_HIGH,
        HarmCategory.HARM_CATEGORY_SEXUALLY_EXPLICIT: HarmBlockThreshold.BLOCK_ONLY_HIGH,
        HarmCategory.HARM_CATEGORY_DANGEROUS_CONTENT: HarmBlockThreshold.BLOCK_ONLY_HIGH,
    }
    model = genai.GenerativeModel(
        model_name="models/gemini-2.5-pro",
        generation_config=my_generation_config,
        safety_settings=my_safety_settings
    )

    #Inisiasi dan load data ke model
    print("\n" + "="*50)
    chatbot = TxtChatbot(model=model)
    success = chatbot.load_from_combined_txt("source-chatbot.txt")


✅ API Key configured!

✅ TxtChatbot berhasil diinisialisasi dengan model 'models/gemini-2.5-pro'!
📂 Membaca sumber data utama dari: 'source-chatbot.txt'
✅ Sumber data berhasil dimuat.


In [9]:
if success:
    chatbot.get_info()
    print("\n" + "="*50)
    
    question = "apa itu DTSEN?"
    answer = chatbot.get_response(question)
    
    print(f"\n❓ Pertanyaan: {question}")
    print("🤖 Jawaban:")
    print("-" * 40)
    print(answer)
else:
    print("\n⚠️ Gagal memuat data. Chatbot tidak dapat digunakan.")

**📊 INFORMASI SUMBER DATA**
- 📄 **Sumber:** combined.txt
- 📝 **Total karakter:** 149,304
- 🗣️ **Total kata:** 20,337
- 📄 **Total baris:** 822


🤖 Memproses pertanyaan: apa itu DTSEN?
📝 Teks sumber terlalu besar, dibagi menjadi 2 bagian untuk dianalisis.
📊 Menganalisis 2 bagian teks...
⏳ Menganalisis bagian 2/2...
Analisis selesai.

❓ Pertanyaan: apa itu DTSEN?
🤖 Jawaban:
----------------------------------------
Berdasarkan kumpulan informasi yang diberikan, berikut adalah jawaban komprehensif mengenai apa itu DTSEN:

DTSEN adalah singkatan dari **Data Tunggal Sosial dan Ekonomi Nasional**. Ini merupakan sebuah basis data tunggal yang akurat, terkini, dan terintegrasi untuk individu dan/atau keluarga di Indonesia, yang mencakup informasi kondisi sosial, ekonomi, peringkat kesejahteraan, serta data *by name by address*.

Secara lebih rinci, DTSEN dapat dijelaskan melalui beberapa poin utama berikut:

**1. Tujuan dan Fungsi Utama**
Tujuan utama dari DTSEN adalah untuk mendukung keterpaduan program pembangunan nasional dan memastikan program-program pemerintah, terutama yang berkaitan dengan kesejahteraan sosial, dapat terlaksana