In [1]:
# Import library yang dibutuhkan
import pandas as pd
import os
from sklearn.feature_extraction.text import TfidfVectorizer
import joblib # Untuk menyimpan model/objek Python

# --- Konfigurasi Path File ---
NAMA_FILE_PROCESSED_CSV = 'processed_data_v2.csv'
PATH_PROCESSED_DATA_DIR = os.path.join('..', 'data', 'processed')
PATH_PROCESSED_FILE = os.path.join(PATH_PROCESSED_DATA_DIR, NAMA_FILE_PROCESSED_CSV)

# Path untuk menyimpan objek TF-IDF yang sudah dilatih (vectorizer)
PATH_MODELS_DIR = os.path.join('..', 'models')
NAMA_FILE_TFIDF_VECTORIZER = 'tfidf_vectorizer.joblib'
PATH_TFIDF_VECTORIZER = os.path.join(PATH_MODELS_DIR, NAMA_FILE_TFIDF_VECTORIZER)

# Nama kolom yang akan divektorisasi
COLUMN_FINDING_DESC = 'finding_description'

# --- 1. Memuat Data yang Sudah Diproses ---
print(f"Mencoba memuat data yang sudah diproses dari: {PATH_PROCESSED_FILE}")
try:
    processed_df = pd.read_csv(PATH_PROCESSED_FILE)
    print("Data yang sudah diproses berhasil dimuat!")
except FileNotFoundError:
    print(f"ERROR: File tidak ditemukan di {PATH_PROCESSED_FILE}")
    print("Pastikan Anda sudah menjalankan notebook '02_data_preprocessing.ipynb' dan file tersebut sudah tersimpan.")
    processed_df = pd.DataFrame()
except Exception as e:
    print(f"Terjadi error saat memuat CSV yang sudah diproses: {e}")
    processed_df = pd.DataFrame()

if not processed_df.empty:
    print("\n--- 2. Rekayasa Fitur Menggunakan TF-IDF pada 'finding_description' ---")
    
    # Pastikan kolom 'finding_description' tidak memiliki nilai NaN (seharusnya sudah ditangani, tapi cek lagi)
    if processed_df[COLUMN_FINDING_DESC].isnull().any():
        print(f"Peringatan: Ada nilai NaN di kolom '{COLUMN_FINDING_DESC}'. Menghilangkannya untuk TF-IDF.")
        processed_df.dropna(subset=[COLUMN_FINDING_DESC], inplace=True)

    # Inisialisasi TfidfVectorizer
    # Anda bisa menambahkan parameter lain di sini, misalnya:
    # max_features: Batasi jumlah fitur (kata) yang paling penting
    # ngram_range: Untuk mempertimbangkan kombinasi kata (misal, (1,2) untuk unigram dan bigram)
    # stop_words: Bisa 'english' atau daftar kata sendiri jika diperlukan (misal dari NLTK)
    tfidf_vectorizer = TfidfVectorizer(max_features=5000) # Contoh: membatasi hingga 5000 fitur teratas

    # Melatih (fit) vectorizer pada data 'finding_description' dan mentransformasi data tersebut
    # menjadi matriks TF-IDF
    print("Melatih TF-IDF Vectorizer...")
    tfidf_features = tfidf_vectorizer.fit_transform(processed_df[COLUMN_FINDING_DESC])
    
    print("Pelatihan TF-IDF Vectorizer selesai.")
    print(f"Bentuk (shape) dari matriks fitur TF-IDF: {tfidf_features.shape}")
    # Outputnya akan (jumlah_finding_description, jumlah_kata_unik_terpilih)

    # (Opsional) Melihat beberapa nama fitur (kata-kata) yang dipelajari oleh vectorizer
    try:
        feature_names = tfidf_vectorizer.get_feature_names_out()
        print(f"Contoh beberapa nama fitur (kata): {feature_names[:20]}") # Tampilkan 20 kata pertama
    except Exception as e:
        print(f"Tidak bisa mengambil nama fitur: {e}")

    # Fitur TF-IDF ini (tfidf_features) yang akan menjadi input untuk model kita.
    # Ini adalah representasi numerik dari 'finding_description'.
    # Tipe datanya adalah sparse matrix dari Scipy, yang efisien untuk data dimensi tinggi.

    print("\n--- 3. Menyimpan TF-IDF Vectorizer yang Sudah Dilatih ---")
    # Membuat direktori 'models' jika belum ada
    if not os.path.exists(PATH_MODELS_DIR):
        os.makedirs(PATH_MODELS_DIR)
        print(f"Direktori '{PATH_MODELS_DIR}' berhasil dibuat.")

    # Menyimpan vectorizer agar bisa digunakan nanti untuk mentransformasi data baru (input pengguna)
    # dengan cara yang sama seperti data pelatihan.
    joblib.dump(tfidf_vectorizer, PATH_TFIDF_VECTORIZER)
    print(f"TF-IDF Vectorizer berhasil disimpan di: {PATH_TFIDF_VECTORIZER}")
    
    # (Opsional) Anda juga bisa menyimpan matriks tfidf_features jika diperlukan,
    # misalnya jika Anda akan sering melakukan pencarian kesamaan tanpa perlu melatih ulang.
    # joblib.dump(tfidf_features, os.path.join(PATH_MODELS_DIR, 'tfidf_features_matrix.joblib'))

else:
    print("\nTidak ada data untuk direkayasa fiturnya karena DataFrame kosong.")

Mencoba memuat data yang sudah diproses dari: ..\data\processed\processed_data.csv
Data yang sudah diproses berhasil dimuat!

--- 2. Rekayasa Fitur Menggunakan TF-IDF pada 'finding_description' ---
Melatih TF-IDF Vectorizer...
Pelatihan TF-IDF Vectorizer selesai.
Bentuk (shape) dari matriks fitur TF-IDF: (6301, 5000)
Contoh beberapa nama fitur (kata): ['00' '000' '0005' '00082' '00089' '0009' '001' '00117' '00130' '0014'
 '00182' '001caj' '002' '003' '00308799' '004' '00400222' '0055' '01'
 '0100k0kzn']

--- 3. Menyimpan TF-IDF Vectorizer yang Sudah Dilatih ---
Direktori '..\models' berhasil dibuat.
TF-IDF Vectorizer berhasil disimpan di: ..\models\tfidf_vectorizer.joblib
