In [8]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from whoosh import index
from whoosh.fields import Schema, TEXT, ID
import os

# Daftar tema (nama file CSV tanpa ekstensi)
themes = ['etd_ugm_clean', 'etd_usk_clean', 'kompas_clean', 'mojok_clean_all', 'tempo_clean']

# Buat folder utama untuk semua index
main_index_dir = "index"
os.makedirs(main_index_dir, exist_ok=True)

for theme in themes:
    # Baca data per tema
    df = pd.read_csv(f'dataset_clean/{theme}.csv')

    # Ambil teks dari kolom 'clean_tokens'
    if 'clean_tokens' not in df.columns:
        raise ValueError(f"Kolom 'clean_tokens' tidak ditemukan pada {theme}.csv. Kolom yang ada: {df.columns.tolist()}")
    texts = df['clean_tokens'].astype(str).tolist()

    # Buat folder index untuk setiap tema di dalam folder utama
    theme_index_dir = os.path.join(main_index_dir, f'index_{theme}')
    os.makedirs(theme_index_dir, exist_ok=True)

    # Definisikan schema dan buat index
    schema = Schema(id=ID(stored=True), content=TEXT(stored=True))
    ix = index.create_in(theme_index_dir, schema)
    writer = ix.writer()

    # Tambahkan setiap dokumen ke dalam index
    for i, text in enumerate(texts):
        writer.add_document(id=f"{theme}_{i}", content=text)
    writer.commit()

    print(f"✅ Index untuk tema '{theme}' berhasil dibuat di folder: {theme_index_dir}")


✅ Index untuk tema 'etd_ugm_clean' berhasil dibuat di folder: index\index_etd_ugm_clean
✅ Index untuk tema 'etd_usk_clean' berhasil dibuat di folder: index\index_etd_usk_clean
✅ Index untuk tema 'kompas_clean' berhasil dibuat di folder: index\index_kompas_clean
✅ Index untuk tema 'mojok_clean_all' berhasil dibuat di folder: index\index_mojok_clean_all
✅ Index untuk tema 'tempo_clean' berhasil dibuat di folder: index\index_tempo_clean
