# Notebook Refactored untuk Deteksi Ujaran Kebencian Bahasa Jawa

Notebook ini menggunakan utilitas dari `data_utils.py` dan `train_utils.py` untuk menjalankan alur kerja machine learning.

## 1. Setup dan Import Library

In [None]:
import pandas as pd
import sys
import os

# Menambahkan direktori root proyek ke sys.path agar bisa mengimpor dari src/
# Asumsi notebook ini berada di memory-bank/, sehingga ../ mengarah ke root proyek.
project_root = os.path.abspath(os.path.join(os.getcwd(), '..'))
if project_root not in sys.path:
    sys.path.insert(0, project_root)
    print(f"Ditambahkan ke sys.path: {project_root}")

try:
    from src.utils.data_utils import load_data_from_csv, preprocess_data
    from src.modelling.train_utils import split_data, train_model, evaluate_model, save_model
    print("Utilitas berhasil diimpor dari src/utils dan src/modelling.")
except ImportError as e:
    print(f"Error saat impor utilitas: {e}")
    print("Pastikan struktur folder sudah benar dan notebook dijalankan dari direktori 'memory-bank' atau root proyek.")
    print(f"Current sys.path: {sys.path}")
    print(f"Current working directory: {os.getcwd()}")

## 2. Memuat dan Melakukan Pra-pemrosesan Data

Kita akan memuat data dari file CSV yang sudah ada sebagai contoh. Dalam implementasi penuh, ini bisa diganti dengan pemanggilan `load_data_from_google_sheets`.

In [None]:
# Path ke dataset CSV (relatif terhadap root proyek, atau lokasi notebook jika path disesuaikan)
# Jika notebook ini berada di dalam 'memory-bank/', dan CSV di 'src/data_collection/'
# maka pathnya adalah '../src/data_collection/raw-dataset.csv'
# Jika CSV sudah dipindah ke 'data/raw/' dan notebook di 'memory-bank/', pathnya '../data/raw/raw-dataset.csv'
# Untuk pengujian awal, asumsikan CSV berada di path yang dapat dijangkau dari root proyek
csv_path = '../src/data_collection/raw-dataset.csv' # Sesuaikan jika perlu

raw_df = load_data_from_csv(csv_path)

if raw_df is not None:
    print(f"\nData mentah berhasil dimuat. Jumlah baris: {len(raw_df)}")
    display(raw_df.head())
    
    # Pra-pemrosesan data
    # Kolom teks diasumsikan bernama 'review' dan label 'sentiment'
    processed_df = preprocess_data(raw_df.copy(), text_column='review')
    
    if processed_df is not None and not processed_df.empty:
        print(f"\nData setelah pra-pemrosesan. Jumlah baris: {len(processed_df)}")
        display(processed_df.head())
    else:
        print("Pra-pemrosesan gagal atau menghasilkan DataFrame kosong.")
else:
    print("Gagal memuat data mentah.")

## 3. Pembagian Data (Train-Validation Split)

Fungsi `split_data` dari `train_utils.py` akan digunakan di sini. Untuk saat ini, ia menggunakan placeholder.

In [None]:
if 'processed_df' in locals() and processed_df is not None and not processed_df.empty:
    # Pastikan kolom label ada. Jika tidak, bagian ini akan error atau perlu disesuaikan.
    # Untuk data dummy dari train_utils, labelnya 'sentiment'. Untuk raw-dataset.csv juga 'sentiment'.
    train_df, val_df = split_data(processed_df, label_column='sentiment', test_size=0.2)
    
    if train_df is not None and val_df is not None:
        print(f"\nData berhasil dibagi:")
        print(f"Jumlah data latih: {len(train_df)}")
        print(f"Jumlah data validasi: {len(val_df)}")
        
        # Misal kita ingin memisahkan teks dan label untuk fungsi pelatihan placeholder
        # (Implementasi sebenarnya mungkin berbeda tergantung library ML)
        X_train_texts = train_df['review']
        y_train_labels = train_df['sentiment'] 
        # TODO: Label perlu di-encode ke format numerik jika belum (misal, negative=0, positive=1, dll.)
        # Untuk placeholder train_model, kita asumsikan label sudah numerik atau akan ditangani di sana.

        X_val_texts = val_df['review']
        y_val_labels = val_df['sentiment']
        # TODO: Encode label validasi juga
        
        print("\nContoh data latih (teks pertama):")
        display(X_train_texts.head(1))
        print("Contoh label latih (label pertama):")
        display(y_train_labels.head(1))
    else:
        print("Pembagian data gagal.")
else:
    print("Tidak ada processed_df untuk dibagi. Jalankan sel sebelumnya.")

## 4. Pelatihan Model

Menggunakan fungsi `train_model` placeholder.

In [None]:
if 'X_train_texts' in locals():
    # Asumsi label sudah di-encode ke integer untuk model klasifikasi
    # Ini adalah langkah penting yang perlu dilakukan sebelum pelatihan sebenarnya
    # Contoh encoding sederhana (jika labelnya 'negative', 'positive'):
    # label_map = {'negative': 0, 'positive': 1} # ...tambahkan kategori lain jika ada
    # y_train_labels_encoded = y_train_labels.map(label_map).fillna(-1) # Ganti NaN jika ada
    # y_val_labels_encoded = y_val_labels.map(label_map).fillna(-1)
    
    # Untuk placeholder, kita teruskan saja. Implementasi train_model sebenarnya akan menangani ini.
    trained_model_placeholder = train_model(X_train_texts, y_train_labels)
    print(f"\nModel (placeholder) selesai dilatih: {trained_model_placeholder}")
else:
    print("Data latih belum tersedia. Jalankan sel sebelumnya.")

## 5. Evaluasi Model

Menggunakan fungsi `evaluate_model` placeholder.

In [None]:
if 'trained_model_placeholder' in locals() and 'X_val_texts' in locals():
    # Mirip dengan pelatihan, label validasi juga perlu di-encode
    evaluation_results_placeholder = evaluate_model(trained_model_placeholder, X_val_texts, y_val_labels)
    print(f"\nHasil evaluasi (placeholder):")
    for metric, value in evaluation_results_placeholder.items():
        print(f"{metric}: {value}")
else:
    print("Model atau data validasi belum tersedia. Jalankan sel sebelumnya.")

## 6. Penyimpanan Model (Contoh)

Menggunakan fungsi `save_model` placeholder.

In [None]:
if 'trained_model_placeholder' in locals():
    # Pastikan direktori 'models/' ada di root proyek jika ingin menyimpan di sana
    # Jika notebook ini di memory-bank/, path relatifnya '../models/'
    import os
    model_dir = '../models' # Relatif dari memory-bank/
    if not os.path.exists(model_dir):
        os.makedirs(model_dir)
        print(f"Direktori {model_dir} dibuat.")
        
    save_model(trained_model_placeholder, path=os.path.join(model_dir, "dummy_model_refactored.pt"))
else:
    print("Model belum dilatih untuk disimpan.")

## Kesimpulan Placeholder

Notebook ini mendemonstrasikan alur kerja dasar menggunakan fungsi-fungsi utilitas yang telah dibuat. Implementasi penuh dari fungsi-fungsi di `data_utils.py` (terutama `load_data_from_google_sheets`) dan `train_utils.py` (pelatihan dan evaluasi model BERT sebenarnya) akan menggantikan placeholder saat ini untuk fungsionalitas penuh.