In [1]:
# Import library yang dibutuhkan
import pandas as pd
import os
import joblib # Untuk memuat model/objek Python
from sklearn.metrics.pairwise import cosine_similarity

# --- Konfigurasi Path File ---
NAMA_FILE_PROCESSED_CSV = 'processed_data_v2.csv'
PATH_PROCESSED_DATA_DIR = os.path.join('..', 'data', 'processed')
PATH_PROCESSED_FILE = os.path.join(PATH_PROCESSED_DATA_DIR, NAMA_FILE_PROCESSED_CSV)

PATH_MODELS_DIR = os.path.join('..', 'models')
NAMA_FILE_TFIDF_VECTORIZER = 'tfidf_vectorizer.joblib'
PATH_TFIDF_VECTORIZER = os.path.join(PATH_MODELS_DIR, NAMA_FILE_TFIDF_VECTORIZER)

# Nama kolom yang relevan
COLUMN_FINDING_DESC = 'finding_description'
COLUMN_ACTION_TAKEN = 'rectification_steps' # Sesuai output processed_df
COLUMN_MAN_HOURS = 'man_hours_per_step' # Sesuai output processed_df
COLUMN_WORK_CENTRE = 'work_centres_per_step' # Sesuai output processed_df
COLUMN_MATERIALS = 'materials_info' # Sesuai output processed_df


# --- 1. Memuat Data yang Sudah Diproses dan TF-IDF Vectorizer ---
print(f"Mencoba memuat data yang sudah diproses dari: {PATH_PROCESSED_FILE}")
try:
    processed_df = pd.read_csv(PATH_PROCESSED_FILE)
    # Kolom list mungkin dibaca sebagai string, perlu konversi jika iya
    # Contoh konversi (jika diperlukan, tergantung bagaimana disimpan dan dibaca)
    # import ast
    # list_columns = [COLUMN_ACTION_TAKEN, COLUMN_MAN_HOURS, COLUMN_WORK_CENTRE]
    # for col in list_columns:
    #    if col in processed_df.columns and isinstance(processed_df[col].iloc[0], str):
    #        processed_df[col] = processed_df[col].apply(ast.literal_eval)
    print("Data yang sudah diproses berhasil dimuat!")
except FileNotFoundError:
    print(f"ERROR: File tidak ditemukan di {PATH_PROCESSED_FILE}")
    processed_df = pd.DataFrame()
except Exception as e:
    print(f"Terjadi error saat memuat CSV yang sudah diproses: {e}")
    processed_df = pd.DataFrame()

print(f"\nMencoba memuat TF-IDF Vectorizer dari: {PATH_TFIDF_VECTORIZER}")
try:
    tfidf_vectorizer = joblib.load(PATH_TFIDF_VECTORIZER)
    print("TF-IDF Vectorizer berhasil dimuat!")
except FileNotFoundError:
    print(f"ERROR: File tidak ditemukan di {PATH_TFIDF_VECTORIZER}")
    print("Pastikan Anda sudah menjalankan notebook '03_feature_engineering.ipynb' dan vectorizer sudah tersimpan.")
    tfidf_vectorizer = None
except Exception as e:
    print(f"Terjadi error saat memuat TF-IDF Vectorizer: {e}")
    tfidf_vectorizer = None

# --- 2. Menyiapkan Matriks TF-IDF untuk Data Historis ---
historical_tfidf_features = None
if not processed_df.empty and tfidf_vectorizer:
    if COLUMN_FINDING_DESC in processed_df.columns:
        # Pastikan tidak ada NaN
        processed_df.dropna(subset=[COLUMN_FINDING_DESC], inplace=True)
        # Transformasi finding_description historis menggunakan vectorizer yang sudah dilatih
        historical_tfidf_features = tfidf_vectorizer.transform(processed_df[COLUMN_FINDING_DESC])
        print(f"Matriks TF-IDF untuk data historis berhasil dibuat. Shape: {historical_tfidf_features.shape}")
    else:
        print(f"ERROR: Kolom '{COLUMN_FINDING_DESC}' tidak ditemukan di processed_df.")
else:
    if processed_df.empty:
        print("DataFrame kosong, tidak bisa membuat matriks TF-IDF historis.")
    if not tfidf_vectorizer:
        print("TF-IDF Vectorizer tidak termuat, tidak bisa membuat matriks TF-IDF historis.")

# --- 3. Fungsi untuk Mendapatkan Rekomendasi ---
def get_recommendations(new_finding_text, top_n=1):
    """
    Memberikan rekomendasi berdasarkan kemiripan TF-IDF.
    """
    if not tfidf_vectorizer:
        return "TF-IDF Vectorizer tidak tersedia."
    if historical_tfidf_features is None:
        return "Matriks TF-IDF historis tidak tersedia."
    if processed_df.empty:
        return "Data historis tidak tersedia."

    # 1. Bersihkan dan transformasikan teks input baru
    #    (Gunakan pembersihan yang sama seperti saat preprocessing jika ada, misal .lower())
    cleaned_new_finding_text = new_finding_text.lower()
    new_tfidf_features = tfidf_vectorizer.transform([cleaned_new_finding_text])

    # 2. Hitung cosine similarity
    similarities = cosine_similarity(new_tfidf_features, historical_tfidf_features)

    # 3. Dapatkan N_recommendations finding paling mirip
    #    similarities adalah array 2D (1 baris), jadi kita ambil baris pertama [0]
    #    argsot akan memberikan indeks setelah diurutkan, kita ambil N terakhir untuk nilai tertinggi
    most_similar_indices = similarities[0].argsort()[-top_n:][::-1] # Urutkan dari yang paling mirip

    recommendations = []
    for i, index in enumerate(most_similar_indices):
        similarity_score = similarities[0][index]
        if similarity_score > 0: # Hanya tampilkan jika ada kemiripan
            recommendation = processed_df.iloc[index]
            recommendations.append({
                "rank": i + 1,
                "similarity_score": similarity_score,
                "historical_finding": recommendation[COLUMN_FINDING_DESC],
                "rectification_steps": recommendation[COLUMN_ACTION_TAKEN],
                "man_hours_per_step": recommendation[COLUMN_MAN_HOURS],
                "work_centres_per_step": recommendation[COLUMN_WORK_CENTRE],
                "materials_info": recommendation[COLUMN_MATERIALS]
            })
        else: # Jika skor kemiripan 0 atau negatif, tidak perlu ditampilkan
             recommendations.append({
                "rank": i + 1,
                "similarity_score": similarity_score,
                "message": "Tidak ada finding historis yang cukup mirip."
            })


    return recommendations

# --- 4. Contoh Penggunaan Fungsi Rekomendasi ---
if not processed_df.empty and tfidf_vectorizer and historical_tfidf_features is not None:
    # Anda bisa mencoba dengan salah satu finding_description dari data Anda sebagai tes
    # atau buat deskripsi hipotetis baru.
    # contoh_finding_baru = "engine oil leak detected near section B" # Ganti dengan contoh Anda
    
    # Mengambil contoh dari data yang ada untuk pengujian
    if len(processed_df) > 0:
        idx_contoh = 0 # Ambil baris pertama sebagai contoh
        if len(processed_df) > 5: # Jika data cukup banyak, ambil yg agak di tengah
            idx_contoh = min(5, len(processed_df)-1)

        contoh_finding_baru = processed_df[COLUMN_FINDING_DESC].iloc[idx_contoh]
        print(f"\n--- Contoh Penggunaan Rekomendasi ---")
        print(f"Input Finding Baru (diambil dari data historis baris ke-{idx_contoh}): \"{contoh_finding_baru}\"")
        
        hasil_rekomendasi = get_recommendations(contoh_finding_baru, top_n=3) # Dapatkan 3 rekomendasi teratas

        if isinstance(hasil_rekomendasi, str): # Jika ada pesan error dari fungsi
            print(hasil_rekomendasi)
        else:
            for rec in hasil_rekomendasi:
                print(f"\nRekomendasi Peringkat: {rec.get('rank')}")
                print(f"Skor Kemiripan: {rec.get('similarity_score'):.4f}")
                if "message" in rec:
                    print(rec['message'])
                else:
                    print(f"Finding Historis Mirip: {rec.get('historical_finding')}")
                    print(f"Langkah Rektifikasi: {rec.get('rectification_steps')}")
                    print(f"Man Hours per Langkah: {rec.get('man_hours_per_step')}")
                    print(f"Work Centre per Langkah: {rec.get('work_centres_per_step')}")
                    print(f"Info Material: {rec.get('materials_info')}")
    else:
        print("\nTidak ada data di processed_df untuk dijadikan contoh input.")
else:
    print("\nTidak bisa menjalankan contoh rekomendasi karena data atau vectorizer tidak siap.")

Mencoba memuat data yang sudah diproses dari: ..\data\processed\processed_data.csv
Data yang sudah diproses berhasil dimuat!

Mencoba memuat TF-IDF Vectorizer dari: ..\models\tfidf_vectorizer.joblib
TF-IDF Vectorizer berhasil dimuat!
Matriks TF-IDF untuk data historis berhasil dibuat. Shape: (6301, 5000)

--- Contoh Penggunaan Rekomendasi ---
Input Finding Baru (diambil dari data historis baris ke-5): "(umr) pk-gpt request part: maker, espresso"

Rekomendasi Peringkat: 1
Skor Kemiripan: 1.0000
Finding Historis Mirip: (umr) pk-gpt request part: maker, espresso
Langkah Rektifikasi: ['(umr) pk-gpt request part: maker, espres', '(umr) pk-gpt request part: maker, espres']
Man Hours per Langkah: [0.0, 0.0]
Work Centre per Langkah: ['gah260c1', 'gah260c1']
Info Material: hfe95-20d:aeaa2 (maker, espresso)

Rekomendasi Peringkat: 2
Skor Kemiripan: 0.9573
Finding Historis Mirip: [umr]pk-gpt pse request part maker, espresso
Langkah Rektifikasi: ['[umr]pk-gpt pse request part maker, espr']
Man Hou