In [1]:
# === IMPORT LIBRARY ===
import os
import pandas as pd
import psycopg2
from vanna.ollama import Ollama
from vanna.chromadb import ChromaDB_VectorStore

# === SETUP PATH ===
cdir = os.getcwd()
chroma = os.path.join(cdir, "database")
training_csv = os.path.join(cdir, "training", "dataset.csv")

# === CLASS VNANNA: COMBINE OLLAMA + CHROMADB ===
class Vanna(ChromaDB_VectorStore, Ollama):
    def __init__(self, config=None) -> None:
        ChromaDB_VectorStore.__init__(self, config=config)
        Ollama.__init__(self, config=config)

# === INSTANSIASI MODEL OLLAMA + CHROMA ===
print("🚀 Inisialisasi Vanna dengan model dan ChromaDB...")
vn = Vanna(
    config={
        "model": "qwen2.5:3b",
        "path": chroma,
    }
)
print("✅ Vanna siap!")

# === GANTI FUNGSI RUN_SQL DENGAN VERSI MANUAL (psycopg2) ===
def manual_run_sql(sql: str) -> pd.DataFrame:
    try:
        conn = psycopg2.connect(
            host="localhost",
            port=5433,
            user="postgres",
            password="KuRn1@26",
            dbname="data_telkomsel"
        )
        df = pd.read_sql_query(sql, conn)
        conn.close()
        return df
    except Exception as e:
        print("❌ Error pada manual_run_sql:", e)
        return pd.DataFrame()

vn.run_sql = manual_run_sql  # Override default run_sql()

# === TRAINING DARI DDL (schema/tabel di PostgreSQL) + COMMENT ===
try:
    print("🔍 Mengambil daftar tabel dari PostgreSQL...")
    ddls = vn.run_sql("SELECT table_name FROM information_schema.tables WHERE table_schema = 'public';")

    if ddls.empty:
        print("⚠️ Tidak ada tabel ditemukan.")
    else:
        print(f"📋 Ditemukan {len(ddls)} tabel:", ddls["table_name"].tolist())

        for table_name in ddls["table_name"]:
            print(f"📦 Memproses tabel: {table_name}...")

            # Ambil DDL utama
            ddl_query = f"""
            SELECT 'CREATE TABLE {table_name} (\n' ||
                   string_agg('    ' || a.attname || ' ' || format_type(a.atttypid, a.atttypmod), ',\n') ||
                   '\n);' AS ddl
            FROM pg_class c
            JOIN pg_attribute a ON a.attrelid = c.oid
            WHERE c.relname = '{table_name}' AND a.attnum > 0 AND NOT a.attisdropped;
            """
            ddl_result = vn.run_sql(ddl_query)

            # Ambil komentar kolom
            col_comment_query = f"""
            SELECT a.attname AS column_name, d.description AS comment
            FROM pg_class c
            JOIN pg_attribute a ON a.attrelid = c.oid
            LEFT JOIN pg_description d ON d.objoid = a.attrelid AND d.objsubid = a.attnum
            WHERE c.relname = '{table_name}' AND a.attnum > 0 AND NOT a.attisdropped;
            """
            col_comments = vn.run_sql(col_comment_query)

            # Ambil komentar tabel
            tbl_comment_query = f"""
            SELECT d.description AS comment
            FROM pg_class c
            LEFT JOIN pg_description d ON d.objoid = c.oid AND d.objsubid = 0
            WHERE c.relname = '{table_name}';
            """
            tbl_comment = vn.run_sql(tbl_comment_query)

            if not ddl_result.empty:
                ddl_base = ddl_result.iloc[0, 0]
                comment_block = f"-- DDL for table `{table_name}`\n"

                if not tbl_comment.empty and pd.notnull(tbl_comment.iloc[0, 0]):
                    comment_block += f"-- Table comment: {tbl_comment.iloc[0, 0]}\n"

                if not col_comments.empty:
                    for _, row in col_comments.iterrows():
                        if pd.notnull(row["comment"]):
                            comment_block += f"-- Column `{row['column_name']}`: {row['comment']}\n"

                final_ddl = comment_block + ddl_base
                vn.train(ddl=final_ddl)
                print(f"✅ Training DDL + COMMENT sukses untuk tabel: {table_name}")
            else:
                print(f"⚠️ DDL kosong untuk tabel: {table_name}")

except Exception as e:
    print("❌ Gagal saat training DDL + COMMENT:", e)

# === TRAINING DARI CSV Q&A ===
try:
    print("📥 Membaca file training CSV...")
    df = pd.read_csv(training_csv, delimiter=";", encoding="utf-8")

    if df.empty or "question" not in df.columns or "answer" not in df.columns:
        raise ValueError("CSV kosong atau kolom 'question' / 'answer' tidak ditemukan.")

    print(f"✅ CSV dibaca, {len(df)} baris ditemukan.")

    for index, row in df.iterrows():
        question = str(row["question"]).strip()
        answer = str(row["answer"]).strip() + ";"
        try:
            vn.train(question=question, sql=answer)
            print(f"✅ Q{index+1}: Training berhasil — \"{question}\"")
        except Exception as e:
            print(f"❌ Q{index+1}: Gagal training — \"{question}\" | Error: {e}")
except Exception as e:
    print("❌ Gagal membaca atau memproses CSV:", e) 

🚀 Inisialisasi Vanna dengan model dan ChromaDB...


Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given


✅ Vanna siap!
🔍 Mengambil daftar tabel dari PostgreSQL...


  df = pd.read_sql_query(sql, conn)


📋 Ditemukan 1 tabel: ['data_performance']
📦 Memproses tabel: data_performance...
Adding ddl: -- DDL for table `data_performance`
-- Table comment: Tabel "data_performance" menyimpan data transaksi harian dari berbagai channel penjualan Telkomsel. Tabel ini digunakan untuk menganalisis performa penjualan berdasarkan dimensi waktu (`trx_date`), wilayah (`region`, `area`), produk (`product_commercial_name`), kampanye pemasaran (`campaign_initiatives`), channel distribusi (`channel_name`), dan metode pembayaran (`payment_method`). Data mencakup metrik utama seperti jumlah transaksi (`trx`), total pendapatan (`revenue`), dan jumlah pengguna unik (`taker_uniq_all`). Tabel ini penting untuk pelaporan, evaluasi kampanye, dan pengambilan keputusan berbasis data. Query terhadap tabel ini akan menggunakan sintaks PostgreSQL.
-- Column `trx_date`: Tanggal terjadinya transaksi.
-- Column `groups`: Segmentasi pelanggan berdasarkan tahap campaign seperti Conversion atau Retention
-- Column `area`: Ar

Failed to send telemetry event CollectionAddEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event CollectionAddEvent: capture() takes 1 positional argument but 3 were given


✅ Training DDL + COMMENT sukses untuk tabel: data_performance
📥 Membaca file training CSV...
✅ CSV dibaca, 542 baris ditemukan.
✅ Q1: Training berhasil — "Bagaimana perubahan total revenue dari bulan Desember 2024 ke Januari 2025 di setiap region?"
✅ Q2: Training berhasil — "Bandingkan jumlah taker unik untuk bulan Januari 2025 dan Februari 2025 di setiap region"
✅ Q3: Training berhasil — "Berapa selisih transaksi antara bulan Desember 2024 dan Januari 2025 untuk tiap-tiap area?"
✅ Q4: Training berhasil — "Region mana yang mengalami peningkatan revenue tertinggi dari bulan Januari ke Februari 2025?"
✅ Q5: Training berhasil — "Apa perbandingan total transaksi antara region Jateng dan Jatim pada bulan Februari 2025?"
✅ Q6: Training berhasil — "Tampilkan perbedaan revenue antara bulan Januari 2025 dan Februari 2025 untuk setiap channel"
✅ Q7: Training berhasil — "Bagaimana pertumbuhan taker unik di region Kalimantan dari bulan Desember 2024 ke Januari 2025?"
✅ Q8: Training berhasil — "Ban

Add of existing embedding ID: 180fe5fc-5278-5ece-b097-07b5c829f775-sql
Insert of existing embedding ID: 180fe5fc-5278-5ece-b097-07b5c829f775-sql
Add of existing embedding ID: e32594a9-a8c8-5366-a679-a6d0593d39f9-sql
Insert of existing embedding ID: e32594a9-a8c8-5366-a679-a6d0593d39f9-sql
Add of existing embedding ID: 0b79ee59-0947-54c9-afcf-021ead4ba1ab-sql
Insert of existing embedding ID: 0b79ee59-0947-54c9-afcf-021ead4ba1ab-sql
Add of existing embedding ID: a6f47f32-6aef-5603-a3e7-92898f451213-sql
Insert of existing embedding ID: a6f47f32-6aef-5603-a3e7-92898f451213-sql
Add of existing embedding ID: f748868f-ce53-5d54-ac1c-c3270f9e86ca-sql


✅ Q383: Training berhasil — "Tunjukkan total revenue dan transaksi untuk masing-masing metode pembayaran selama Februari 2025"
✅ Q384: Training berhasil — "Sebutkan nama produk dengan performa revenue terbaik di Januari 2025"
✅ Q385: Training berhasil — "Tampilkan distribusi transaksi berdasarkan channel untuk region 07.Jabar sepanjang Desember 2024"
✅ Q386: Training berhasil — "Identifikasi area dengan revenue paling besar di bulan Maret 2025"


Insert of existing embedding ID: f748868f-ce53-5d54-ac1c-c3270f9e86ca-sql
Add of existing embedding ID: bd44ad7f-9653-58f0-9405-d31f2e312584-sql
Insert of existing embedding ID: bd44ad7f-9653-58f0-9405-d31f2e312584-sql
Add of existing embedding ID: cb12dd9f-cb1e-5eeb-83c7-e679c35ee268-sql
Insert of existing embedding ID: cb12dd9f-cb1e-5eeb-83c7-e679c35ee268-sql
Add of existing embedding ID: 46194b3f-8fc2-5c77-afde-57ccb88f76a1-sql
Insert of existing embedding ID: 46194b3f-8fc2-5c77-afde-57ccb88f76a1-sql
Add of existing embedding ID: 1c832b43-9a64-58f3-8f57-611a8c54686e-sql
Insert of existing embedding ID: 1c832b43-9a64-58f3-8f57-611a8c54686e-sql


✅ Q387: Training berhasil — "Cari tahu produk mana saja yang digunakan di channel MyTelkomsel selama Januari 2025"
✅ Q388: Training berhasil — "Tampilkan kombinasi area dan campaign_initiatives dengan transaksi tertinggi di Desember 2024"
✅ Q389: Training berhasil — "Identifikasi metode pembayaran yang menghasilkan revenue terbanyak di bulan Februari 2025"
✅ Q390: Training berhasil — "Tampilkan revenue per channel di region 09.Jatim selama Januari 2025"
✅ Q391: Training berhasil — "Tunjukkan channel dengan pengguna unik terbanyak selama Maret 2025"


Add of existing embedding ID: 4dd46e6b-106c-598b-8697-96b19c16e659-sql
Insert of existing embedding ID: 4dd46e6b-106c-598b-8697-96b19c16e659-sql
Add of existing embedding ID: 970139e3-4b13-5ba4-90fd-2effce5d6581-sql
Insert of existing embedding ID: 970139e3-4b13-5ba4-90fd-2effce5d6581-sql
Add of existing embedding ID: 50584624-3511-52e2-8ffa-04514423b42e-sql
Insert of existing embedding ID: 50584624-3511-52e2-8ffa-04514423b42e-sql
Add of existing embedding ID: 5c0076f8-fe97-5b95-86b7-749e7a070130-sql
Insert of existing embedding ID: 5c0076f8-fe97-5b95-86b7-749e7a070130-sql
Add of existing embedding ID: f54c5914-c3ca-5248-9aa9-142a33568c01-sql
Insert of existing embedding ID: f54c5914-c3ca-5248-9aa9-142a33568c01-sql


✅ Q392: Training berhasil — "Temukan 3 kombinasi produk dan campaign yang paling sering muncul sepanjang Februari 2025"
✅ Q393: Training berhasil — "Bandingkan total transaksi antara channel UMB dan channel MyTelkomsel di bulan Desember 2024"
✅ Q394: Training berhasil — "Tampilkan total revenue dan pengguna unik per produk untuk bulan Januari 2025"
✅ Q395: Training berhasil — "Identifikasi channel yang hanya digunakan di satu region selama Februari 2025"
✅ Q396: Training berhasil — "Sebutkan nama-nama produk yang tidak memiliki transaksi selama Maret 2025"


Add of existing embedding ID: e987e40e-a57b-591d-9e5e-ee81a45d95ed-sql
Insert of existing embedding ID: e987e40e-a57b-591d-9e5e-ee81a45d95ed-sql
Add of existing embedding ID: 19c35774-6e89-58e8-9984-aac0b767beb0-sql
Insert of existing embedding ID: 19c35774-6e89-58e8-9984-aac0b767beb0-sql
Add of existing embedding ID: f32a4a1c-b16f-574a-adff-fa4779b16148-sql
Insert of existing embedding ID: f32a4a1c-b16f-574a-adff-fa4779b16148-sql
Add of existing embedding ID: 701b7fc6-3960-5a71-9566-25a9a59f6d66-sql
Insert of existing embedding ID: 701b7fc6-3960-5a71-9566-25a9a59f6d66-sql
Add of existing embedding ID: 3babe54a-a467-558a-ae5d-f8378dd954c4-sql


✅ Q397: Training berhasil — "Tampilkan 5 area dengan pengguna unik paling sedikit di bulan Januari 2025"
✅ Q398: Training berhasil — "Identifikasi channel dengan selisih revenue tertinggi dibanding bulan sebelumnya (Februari ke Maret 2025)"
✅ Q399: Training berhasil — "Cari tahu kombinasi channel dan metode pembayaran yang menghasilkan transaksi terbanyak pada Desember 2024"
✅ Q400: Training berhasil — "Tampilkan semua campaign yang aktif di region 08.Jateng selama Februari 2025"


Insert of existing embedding ID: 3babe54a-a467-558a-ae5d-f8378dd954c4-sql
Add of existing embedding ID: d3835775-f4cf-50b2-b451-7bad620a77e0-sql
Insert of existing embedding ID: d3835775-f4cf-50b2-b451-7bad620a77e0-sql
Add of existing embedding ID: 316d87eb-941b-541e-96f3-4caff698d845-sql
Insert of existing embedding ID: 316d87eb-941b-541e-96f3-4caff698d845-sql
Add of existing embedding ID: b802b8ec-7689-5cc2-85de-bad4fd81437f-sql
Insert of existing embedding ID: b802b8ec-7689-5cc2-85de-bad4fd81437f-sql
Add of existing embedding ID: 79cabea9-a0a5-5047-822d-7ac7ea19ea96-sql


✅ Q401: Training berhasil — "Tampilkan rata-rata transaksi per pengguna unik untuk tiap area di Januari 2025"
✅ Q402: Training berhasil — "Tampilkan distribusi transaksi untuk produk tertentu di setiap region pada bulan Maret 2025"
✅ Q403: Training berhasil — "Cari tahu area mana saja yang hanya menggunakan satu metode pembayaran selama Desember 2024"
✅ Q404: Training berhasil — "Tampilkan 3 channel teratas dengan rasio revenue per transaksi tertinggi di Januari 2025"


Insert of existing embedding ID: 79cabea9-a0a5-5047-822d-7ac7ea19ea96-sql
Add of existing embedding ID: c6b5d07a-ea21-5425-a8bd-741eccf3b0ed-sql
Insert of existing embedding ID: c6b5d07a-ea21-5425-a8bd-741eccf3b0ed-sql
Add of existing embedding ID: a0c8ca19-757b-560f-999e-bb33c80132b6-sql
Insert of existing embedding ID: a0c8ca19-757b-560f-999e-bb33c80132b6-sql


✅ Q405: Training berhasil — "Tampilkan 5 kombinasi region dan produk dengan revenue terbesar di Februari 2025"
✅ Q406: Training berhasil — "Sebutkan seluruh kombinasi area dan channel yang menghasilkan revenue di bawah 10 juta pada Maret 2025"
✅ Q407: Training berhasil — "Identifikasi campaign yang menghasilkan revenue di atas rata-rata di bulan Januari 2025"
✅ Q408: Training berhasil — "Tunjukkan region dengan revenue tertinggi selama bulan Desember 2024"
✅ Q409: Training berhasil — "Sebutkan tiga produk dengan jumlah transaksi terbanyak di Januari 2025"
✅ Q410: Training berhasil — "Saluran penjualan apa yang memiliki taker unik tertinggi sepanjang Maret 2025?"
✅ Q411: Training berhasil — "Apa saja metode pembayaran yang digunakan di bulan Februari 2025?"
✅ Q412: Training berhasil — "Tampilkan 5 area dengan revenue terendah selama bulan Desember 2024"
✅ Q413: Training berhasil — "Di bulan Januari 2025, produk apa yang menghasilkan revenue paling besar?"
✅ Q414: Training berhasil — "Ma