<a href="https://colab.research.google.com/github/IPutuArcana/RAG-Komparatif-Multi-Dokumen-Temporal/blob/main/RAG_CSR_BANK.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
# File ini dirancang untuk dijalankan di Google Colaboratory (Colab)
# Keuntungan: Tidak memakan ruang disk lokal (Mengatasi Error "No space left on device")
# Semua proses komputasi berat (Embedding & LLM Generation) berjalan di Cloud.

# --- BAGIAN 1: INSTALASI DAN SETUP LINGKUNGAN ---
# Silakan jalankan sel ini terlebih dahulu di Colab.
# Output: Semua library terinstal.

# Instalasi Libraries yang dibutuhkan
# Kritis: Kita harus memasang library SBERT (sentence-transformers) untuk model lokal yang ringan.
# PERBAIKAN INSTALASI: Menambahkan langchain-chroma
!pip install --quiet pypdf langchain-text-splitters chromadb google-genai sentence-transformers numpy pandas langchain-chroma

In [7]:

import os
import json
import time
import numpy as np
import pandas as pd
import torch # Import PyTorch, tapi Colab yang akan menanganinya
from pathlib import Path
from pypdf import PdfReader

# Import RAG/Vector Store Components
from langchain_text_splitters import RecursiveCharacterTextSplitter
# PERBAIKAN IMPOR: Mengganti dari langchain_community menjadi langchain_chroma
from langchain_chroma import Chroma
from langchain_core.documents import Document
from sentence_transformers import SentenceTransformer # Untuk Embedding Lokal (Ringan)

# Import API Clients
# from langchain_openai import OpenAIEmbeddings # TIDAK DIPAKAI LAGI
from google import genai
from google.genai.errors import APIError

# --- Konfigurasi dan Variabel Global ---
# HANYA PERLU GEMINI API KEY
GEMINI_API_KEY = "AIzaSyC9IdJJRi7iFE-muSjJBxQpkt8nDl59kYM"
OPENAI_API_KEY = "" # Dihapus / Tidak digunakan

# Model Embedding Lokal yang SANGAT RINGAN (<200MB)
# Idealnya menggunakan all-MiniLM-L6-v2, yang tidak memicu instalasi Torch besar
EMBEDDING_MODEL_NAME = "all-MiniLM-L6-v2"

# Folder di Google Drive tempat Anda mengunggah PDF
DRIVE_FOLDER_NAME = "Project_RAG_CSR_Bank"
VECTOR_STORE_PATH = "chroma_db_csr_bank"

EMITEN_LIST = ["BBCA", "BBRI", "BMRI", "BBNI", "BNGA"]
YEARS_TO_PROCESS = ["2023", "2024"] # Asumsi 2 tahun data

# LLM untuk Generation (Gemini)
LLM_MODEL = "gemini-2.5-flash-preview-09-2025"

# Klien API (Harus diinisialisasi)
client = genai.Client(api_key=GEMINI_API_KEY)

In [8]:

# --- BAGIAN 2: AUTENTIKASI DAN MEMUAT DATA PDF DARI GOOGLE DRIVE ---
# Jalankan sel ini. Ikuti instruksi untuk menghubungkan Colab ke Drive Anda.

from google.colab import drive
drive.mount('/content/drive')

PDF_DIR = Path(f"/content/drive/MyDrive/{DRIVE_FOLDER_NAME}")
PROCESSED_DATA_DIR = Path("/content/processed_data")
PROCESSED_DATA_DIR.mkdir(exist_ok=True)

def extract_text_from_pdf(pdf_path: Path) -> str:
    """Ekstraksi teks dari file PDF."""
    try:
        reader = PdfReader(pdf_path)
        text = ""
        for page in reader.pages:
            text += page.extract_text() or ""
        return text
    except Exception as e:
        print(f"Error membaca {pdf_path}: {e}")
        return ""

def generate_chunks_with_metadata(emiten_code: str, year: str, text: str) -> list:
    """Membuat chunks teks dengan metadata emiten dan tahun."""
    # Ukuran chunk disesuaikan untuk dokumen panjang
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1200,
        chunk_overlap=200,
        separators=["\n\n", "\n", " ", ""]
    )

    chunks = text_splitter.create_documents([text])

    chunk_list = []
    for i, chunk in enumerate(chunks):
        chunk_data = {
            "text": chunk.page_content,
            "metadata": {
                "emiten": emiten_code,
                "tahun": year,
                "dokumen_id": f"{emiten_code}_CSR_{year}",
                # Metadata ini KRUSIAL untuk komparasi!
            }
        }
        # Konversi ke format LangChain Document
        chunk_list.append(Document(page_content=chunk_data['text'], metadata=chunk_data['metadata']))

    return chunk_list

all_documents = []
print("\n--- Memulai Pre-processing 10 Dokumen CSR ---")

for emiten in EMITEN_LIST:
    for year in YEARS_TO_PROCESS:
        file_name = f"{emiten}_CSR_{year}.pdf"
        pdf_path = PDF_DIR / file_name

        if pdf_path.exists():
            print(f"1. Memproses file: {file_name}")
            raw_text = extract_text_from_pdf(pdf_path)

            if len(raw_text) < 1000:
                 print(f"   [PERINGATAN] Teks terlalu pendek. Periksa file {file_name}.")

            chunks = generate_chunks_with_metadata(emiten, year, raw_text)
            all_documents.extend(chunks)
            print(f"   -> Dihasilkan {len(chunks)} chunks untuk {emiten} ({year}).")
        else:
            print(f"   [SKIP] File {file_name} tidak ditemukan di Google Drive.")

print(f"\n--- Selesai Pre-processing. Total {len(all_documents)} chunks siap di-index. ---")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).

--- Memulai Pre-processing 10 Dokumen CSR ---
1. Memproses file: BBCA_CSR_2023.pdf
   -> Dihasilkan 370 chunks untuk BBCA (2023).
1. Memproses file: BBCA_CSR_2024.pdf
   -> Dihasilkan 393 chunks untuk BBCA (2024).
1. Memproses file: BBRI_CSR_2023.pdf
   -> Dihasilkan 602 chunks untuk BBRI (2023).
1. Memproses file: BBRI_CSR_2024.pdf
   -> Dihasilkan 783 chunks untuk BBRI (2024).
1. Memproses file: BMRI_CSR_2023.pdf
   -> Dihasilkan 721 chunks untuk BMRI (2023).
1. Memproses file: BMRI_CSR_2024.pdf
   -> Dihasilkan 842 chunks untuk BMRI (2024).
1. Memproses file: BBNI_CSR_2023.pdf
   -> Dihasilkan 354 chunks untuk BBNI (2023).
1. Memproses file: BBNI_CSR_2024.pdf
   -> Dihasilkan 427 chunks untuk BBNI (2024).
1. Memproses file: BNGA_CSR_2023.pdf
   -> Dihasilkan 309 chunks untuk BNGA (2023).
1. Memproses file: BNGA_CSR_2024.pdf
   -> Dihasilkan 460 chunks unt

In [12]:
# --- BAGIAN 3: INDEXING (EMBEDDING) KE CHROMA DB ---
# Ini adalah langkah indexing komputasi berat. Dijalankan di RAM Colab.
# Jalankan sel ini.

try:
    # 1. Inisialisasi Model Embedding Lokal (Ringan)
    print(f"\n--- Memuat Model Embedding Lokal: {EMBEDDING_MODEL_NAME} ---")
    embedding_model = SentenceTransformer(EMBEDDING_MODEL_NAME)

    # Wrap SBERT model ke dalam format yang dipahami LangChain Chroma
    class SBERTEmbeddings:
        def embed_documents(self, texts):
            return embedding_model.encode(texts, convert_to_numpy=True).tolist()
        def embed_query(self, text):
            return embedding_model.encode([text], convert_to_numpy=True).tolist()[0]

    embeddings = SBERTEmbeddings()

    # 2. Membuat Vector Store ChromaDB
    print(f"\n--- Membuat Vector Store ChromaDB dari {len(all_documents)} dokumen ---")
    vectorstore = Chroma.from_documents(
        documents=all_documents,
        embedding=embeddings,
        persist_directory=VECTOR_STORE_PATH # Disimpan di Colab lokal
    )
    # PERBAIKAN: Menghapus .persist() yang sudah usang di versi ChromaDB ini.
    # Data akan disimpan secara otomatis atau hanya disimpan sementara di RAM Colab.
    # vectorstore.persist()
    print("--- Vector Store Berhasil Dibuat dan Indexing Selesai ---")

except Exception as e:
    print(f"\n[ERROR KRITIS PADA INDEXING] Pastikan koneksi internet stabil dan model {EMBEDDING_MODEL_NAME} berhasil dimuat.")
    print(f"Detail Error: {e}")


--- Memuat Model Embedding Lokal: all-MiniLM-L6-v2 ---

--- Membuat Vector Store ChromaDB dari 5261 dokumen ---
--- Vector Store Berhasil Dibuat dan Indexing Selesai ---


In [25]:
# --- BAGIAN 4: FUNGSI GENERASI LLM & UJI COBA RAG KOMPARATIF ---
# Jalankan sel ini untuk menguji fungsi RAG Komparatif Anda.

def generate_content_with_retry(prompt: str, max_retries: int = 5, initial_delay: int = 2) -> str:
    """Melakukan API call ke Gemini dengan exponential backoff."""
    if not GEMINI_API_KEY:
         return "Error: Gemini API Key tidak ditemukan. Generasi LLM dilewati."

    delay = initial_delay
    for attempt in range(max_retries):
        try:
            # Panggil Gemini API
            response = client.models.generate_content(
                model=LLM_MODEL,
                contents=prompt,
            )
            return response.text
        except APIError as e:
            if attempt < max_retries - 1:
                print(f"API Error: {e}. Retrying in {delay}s...")
                time.sleep(delay)
                delay *= 2  # Exponential backoff
            else:
                return f"Gagal menghasilkan konten setelah {max_retries} percobaan. Error: {e}"
        except Exception as e:
            return f"Error umum saat memanggil API: {e}"
    return "Gagal menghasilkan konten."

# PERBAIKAN KRITIS: Mengganti parameter 'year' menjadi 'year_a' dan 'year_b'
def perform_comparative_rag(vectorstore: Chroma, query: str, emiten_a: str, emiten_b: str, year_a: str = "2023", year_b: str = "2023"):
    """
    Melakukan RAG Komparatif: Retrieval dari dua emiten/tahun, LLM membandingkan.
    """

    # Fungsi helper untuk retrieval ber-filter
    def retrieve_context(emiten_code, year):
        # Filter metadata untuk mengambil dokumen dari emiten dan tahun spesifik
        # Menggunakan operator $and untuk dua kondisi filter (Fix ValueError)
        metadata_filter = {
            "$and": [
                {"emiten": emiten_code},
                {"tahun": year}
            ]
        }

        # Retrieval dari Chroma DB. k=4 untuk mengambil 4 chunk terbaik
        # Menggunakan as_retriever() untuk mengatasi TypeError: got multiple values for keyword argument 'where'
        retriever = vectorstore.as_retriever(
            search_kwargs={"k": 4, "filter": metadata_filter}
        )

        # PERBAIKAN ATTRIBUTE ERROR: Mengganti get_relevant_documents() dengan invoke()
        docs = retriever.invoke(query)

        # Gabungkan teks dan sumber untuk verifikasi
        context = []
        for doc in docs:
            context.append(f"[{doc.metadata['emiten']} {doc.metadata['tahun']}] {doc.page_content}")

        return "\n---\n".join(context)

    # 1. Retrieval untuk Emiten A (Tahun A) dan Emiten B (Tahun B)
    # PERBAIKAN: Menggunakan year_a dan year_b
    context_a = retrieve_context(emiten_a, year_a)
    context_b = retrieve_context(emiten_b, year_b)

    # 2. Prompt Engineering untuk Komparasi (meminta output terstruktur)
    prompt_template = """
        Anda adalah Analis CSR profesional. Tugas Anda adalah membandingkan
        kebijakan CSR dari dua laporan yang berbeda berdasarkan konteks yang diberikan.

        Pertanyaan Analisis: {query}

        [LAPORAN A: {emiten_a} TAHUN {year_a}]
        {context_a}

        [LAPORAN B: {emiten_b} TAHUN {year_b}]
        {context_b}

        Instruksi Jawaban:
        1. Berikan jawaban komparatif yang ringkas (maksimal 3 paragraf).
        2. Harus ada perbandingan yang jelas antara Laporan A dan Laporan B.
        3. Wajib sertakan kutipan atau referensi bukti dari konteks yang mendukung perbandingan Anda (Contoh: [{emiten_a} {year_a}] atau [{emiten_b} {year_b}]).

        --- JAWABAN ANALISIS KOMPARATIF DIMULAI DI SINI ---
        """

    # PERBAIKAN: Memasukkan year_a dan year_b ke dalam format
    full_prompt = prompt_template.format(
        query=query,
        emiten_a=emiten_a,
        year_a=year_a,
        context_a=context_a,
        emiten_b=emiten_b,
        year_b=year_b,
        context_b=context_b
    )

    print(f"\n--- Melakukan Generasi LLM Komparatif ({emiten_a} {year_a} vs {emiten_b} {year_b}) ---")

    llm_response = generate_content_with_retry(full_prompt)
    return llm_response

# --- EKSEKUSI UJI COBA RAG ---
# Anda bisa mengganti emiten dan tahun di sini untuk uji coba.

# Contoh 1: Komparasi Lintas Emiten
query_csr_1 = "Bandingkan program CSR Lingkungan (E) antara Mandiri dan BNI di tahun 2023. Siapa yang lebih fokus pada pendanaan proyek hijau?"
response_1 = perform_comparative_rag(
    vectorstore,
    query=query_csr_1,
    emiten_a="BMRI",
    emiten_b="BBNI",
    year_a="2023", # Mengubah parameter year menjadi year_a (year_b otomatis 2023)
)

print("\n=======================================================")
print(f"PERTANYAAN 1: {query_csr_1}")
print("=======================================================")
print(response_1)
print("=======================================================\n")

# Contoh 2: Komparasi Temporal (Pergeseran Prioritas)
# PERBAIKAN: Contoh 2 sekarang dapat dijalankan
query_csr_2 = "Apa perbedaan signifikan pada fokus CSR Sosial (S) yang dilakukan BRI dari tahun 2023 ke 2024?"
response_2 = perform_comparative_rag(
    vectorstore,
    query=query_csr_2,
    emiten_a="BBRI",
    emiten_b="BBRI", # Membandingkan dengan dirinya sendiri
    year_a="2023",
    year_b="2024"
)

print("\n=======================================================")
print(f"PERTANYAAN 2: {query_csr_2}")
print("=======================================================")
print(response_2)
print("=======================================================\n")


--- Melakukan Generasi LLM Komparatif (BMRI 2023 vs BBNI 2023) ---

PERTANYAAN 1: Bandingkan program CSR Lingkungan (E) antara Mandiri dan BNI di tahun 2023. Siapa yang lebih fokus pada pendanaan proyek hijau?
Berdasarkan konteks laporan yang tersedia, Bank Mandiri (BMRI) menunjukkan fokus yang lebih eksplisit terhadap integrasi aspek Lingkungan (E) ke dalam fungsi pembiayaan intinya, menjadikannya pihak yang lebih fokus pada pendanaan proyek hijau (atau manajemen risiko lingkungan pembiayaan). Bukti kunci terletak pada penyebutan langsung strategi keberlanjutan operasional yang mencakup **"Pengendalian Emisi dari Kegiatan Pembiayaan"** [BMRI 2023]. Frasa ini mengindikasikan bahwa BMRI secara formal mengakui dan berupaya mengelola dampak lingkungan (emisi) yang timbul dari portofolio pinjaman mereka, yang merupakan komponen fundamental dari kerangka *sustainable financing* (pendanaan hijau).

Sebaliknya, laporan dari Bank BNI (BBNI) yang disajikan, meskipun mengalokasikan dana besar u