In [18]:
# Sel 1: Impor Global, Pengaturan Path, Konfigurasi Logger, Impor Fungsi Fitur

# Impor Global yang Mungkin Diperlukan di Seluruh Notebook
import sys
import os
from pathlib import Path
import pandas as pd
import numpy as np
import logging # Impor logging standar
from typing import Optional, Callable, Any, Union, List # Pastikan semua type hints yang akan digunakan ada di sini

# --- 1. Pengaturan Path ---
# Sesuaikan ini berdasarkan lokasi notebook Anda relatif terhadap root proyek
# Jika notebook Anda ada di 'PROJECT_ROOT/notebooks/':
project_root_path = os.path.abspath(os.path.join(os.getcwd(), os.pardir))
# Jika notebook Anda ada di 'PROJECT_ROOT/src/models/' (seperti models_playground.ipynb Anda):
# project_root_path = os.path.abspath(os.path.join(os.getcwd(), os.pardir, os.pardir))

if project_root_path not in sys.path:
    sys.path.append(project_root_path)
    # Pesan ini hanya akan muncul sekali jika path baru ditambahkan
    print(f"Path proyek ditambahkan: {project_root_path}")


# --- 2. Impor dan Konfigurasi Logger ---
try:
    from src.utils.logger import setup_logging, get_logger
    # Panggil setup_logging SEKALI SAJA per sesi kernel notebook.
    if not logging.getLogger().hasHandlers(): # Cek jika root logger belum punya handler
         setup_logging(log_level=logging.INFO) # Atur level sesuai kebutuhan (misal: INFO atau DEBUG)
    logger = get_logger(__name__) # Mendapatkan logger untuk notebook ini
    logger.info("Logger kustom berhasil di-setup dan didapatkan untuk notebook.")
except ImportError:
    # Fallback ke basic config jika modul logger kustom tidak ditemukan
    logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
    logger = logging.getLogger(__name__) # Mendapatkan logger default
    logger.warning("Menggunakan basicConfig untuk logger karena src.utils.logger tidak ditemukan atau error impor.")
except Exception as e:
    # Fallback jika ada error lain saat setup logger kustom
    logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
    logger = logging.getLogger(__name__)
    logger.error(f"Error saat setup logger kustom: {e}. Menggunakan basicConfig.", exc_info=True)


# --- 3. Impor Fungsi Ekstraksi Fitur dari Modul Anda ---
try:
    from src.features.feature_extractor import extract_features # Ini adalah nama fungsi dari file Anda
    logger.info("Fungsi 'extract_features' dari feature_extractor.py berhasil diimpor.")
except ImportError:
    logger.critical("GAGAL mengimpor 'extract_features' dari src.features.feature_extractor.")
    logger.critical("Pastikan sys.path sudah benar, file ada, dan tidak ada error syntax di feature_extractor.py.")
    logger.critical("Inferensi TIDAK AKAN BEKERJA DENGAN BENAR tanpa fungsi ekstraksi fitur yang valid.")
    # Definisikan placeholder HANYA agar sisa notebook bisa dijalankan tanpa NameError,
    # TAPI ini TIDAK akan menghasilkan prediksi yang benar.
    def extract_features(url_string: str) -> Optional[list]:
        logger.error("!!! MENGGUNAKAN FUNGSI 'extract_features' PLACEHOLDER !!! Hasil prediksi akan SALAH.")
        # GANTI 'num_expected_features' dengan jumlah fitur aktual model Anda
        # Berdasarkan feature_extractor.py Anda, tampaknya ada 21 fitur (tanpa fitur WHOIS)
        # Jika fitur WHOIS diaktifkan dan valid, jumlahnya bisa lebih banyak.
        # Mari kita asumsikan 21 untuk placeholder ini.
        num_expected_features = 21 # GANTI INI jika jumlah fitur berbeda!
        logger.warning(f"Placeholder mengembalikan {num_expected_features} fitur acak.")
        return list(np.random.rand(num_expected_features)) if url_string else None
except Exception as e:
    logger.critical(f"Error tak terduga saat mengimpor 'extract_features': {e}", exc_info=True)
    def extract_features(url_string: str) -> Optional[list]:
        logger.error(f"!!! MENGGUNAKAN FUNGSI 'extract_features' PLACEHOLDER karena error impor: {e} !!! Hasil prediksi akan SALAH.")
        num_expected_features = 21 # GANTI INI!
        logger.warning(f"Placeholder mengembalikan {num_expected_features} fitur acak.")
        return list(np.random.rand(num_expected_features)) if url_string else None


logger.info("Setup awal tahap 1 notebook untuk inferensi URL tunggal selesai.") # Pesan log yang lebih spesifik

# --- 4. Konfigurasi Path untuk Model dan Preprocessor ---
# Path untuk Model
MODEL_DIR_RELATIVE_TO_SRC = Path("models") / "model_checkpoints_recall_focused"
MODEL_DIR_ABSOLUTE = Path(project_root_path) / "src" / MODEL_DIR_RELATIVE_TO_SRC # Model ada di dalam src
MODEL_NAME = "best_recall_model.keras" # Ganti dengan nama model terbaik Anda
SAVED_MODEL_PATH = MODEL_DIR_ABSOLUTE / MODEL_NAME

# Path untuk Preprocessor
# Karena "preprocessor" Anda adalah logika dalam feature_extractor.py (yang sudah diimpor sebagai fungsi),
# kita tidak memerlukan path ke file preprocessor terpisah.
PREPROCESSOR_PATH = None 
# Tidak perlu warning di sini karena kita sudah mengklarifikasi bahwa feature_extractor adalah preprocessornya.
# Jika Anda *memutuskan* untuk menambahkan scaler terpisah nanti, baru PREPROCESSOR_PATH ini diisi.

logger.info(f"Path model yang akan digunakan: {SAVED_MODEL_PATH}")
logger.info(f"Path preprocessor (file objek terpisah): {'Tidak digunakan' if PREPROCESSOR_PATH is None else PREPROCESSOR_PATH}")
logger.info("Setup awal tahap 2 notebook (path) untuk inferensi URL tunggal selesai.")

2025-06-02 10:57:15 - __main__ - INFO - Logger kustom berhasil di-setup dan didapatkan untuk notebook.
2025-06-02 10:57:15 - __main__ - INFO - Fungsi 'extract_features' dari feature_extractor.py berhasil diimpor.
2025-06-02 10:57:15 - __main__ - INFO - Setup awal tahap 1 notebook untuk inferensi URL tunggal selesai.
2025-06-02 10:57:15 - __main__ - INFO - Path model yang akan digunakan: h:\My Drive\01. COLLEGE\06. SEM VI\Studi Independen\Coding Camp DBS Foundation\08. Capstone\Playground 5\src\models\model_checkpoints_recall_focused\best_recall_model.keras
2025-06-02 10:57:15 - __main__ - INFO - Path preprocessor (file objek terpisah): Tidak digunakan
2025-06-02 10:57:15 - __main__ - INFO - Setup awal tahap 2 notebook (path) untuk inferensi URL tunggal selesai.


In [19]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

# --- Memuat Model ---
logger.info(f"Mencoba memuat model dari: {SAVED_MODEL_PATH}")
loaded_model = None # Inisialisasi sebagai None
try:
    if SAVED_MODEL_PATH.exists(): # Pastikan file model ada
        loaded_model = keras.models.load_model(SAVED_MODEL_PATH)
        logger.info("Model berhasil dimuat.")
        loaded_model.summary() # Tampilkan ringkasan model untuk verifikasi
    else:
        logger.error(f"File model tidak ditemukan di: {SAVED_MODEL_PATH}")
except Exception as e:
    logger.error(f"Gagal memuat model dari {SAVED_MODEL_PATH}: {e}", exc_info=True)

# --- Memuat Preprocessor (Scaler/Encoder) jika digunakan saat training ---
preprocessor = None # Inisialisasi sebagai None
# Pastikan PREPROCESSOR_PATH sudah didefinisikan di sel sebelumnya (bisa None jika tidak ada)
if PREPROCESSOR_PATH and Path(PREPROCESSOR_PATH).exists():
    try:
        import joblib # Pastikan joblib terinstal jika Anda menggunakannya
        preprocessor = joblib.load(PREPROCESSOR_PATH)
        logger.info(f"Preprocessor berhasil dimuat dari {PREPROCESSOR_PATH}.")
    except Exception as e:
        logger.error(f"Gagal memuat preprocessor dari {PREPROCESSOR_PATH}: {e}", exc_info=True)
elif PREPROCESSOR_PATH: # Jika path diset tapi file tidak ada
     logger.warning(f"File preprocessor tidak ditemukan di {PREPROCESSOR_PATH}. Melanjutkan tanpa preprocessor.")
else:
    logger.info("Tidak ada path preprocessor yang ditentukan atau preprocessor tidak digunakan.")

2025-06-02 10:57:15 - __main__ - INFO - Mencoba memuat model dari: h:\My Drive\01. COLLEGE\06. SEM VI\Studi Independen\Coding Camp DBS Foundation\08. Capstone\Playground 5\src\models\model_checkpoints_recall_focused\best_recall_model.keras
2025-06-02 10:57:15 - __main__ - INFO - Model berhasil dimuat.


2025-06-02 10:57:15 - __main__ - INFO - Tidak ada path preprocessor yang ditentukan atau preprocessor tidak digunakan.


In [20]:
# -*- coding: utf-8 -*-
# Diasumsikan ini adalah bagian dari Sel 3 atau file utilitas yang diimpor

import pandas as pd
import numpy as np
# 'extract_features' diasumsikan sudah diimpor atau didefinisikan sebelumnya
# from src.features.feature_extractor import extract_features # Contoh jika ada di path ini

def predict_url_type_with_features(url, model, feature_extractor_func, preprocessor_obj=None, threshold=0.5):
    """
    Memprediksi tipe URL dan mengembalikan fitur yang berkontribusi.

    Args:
        url (str): URL yang akan diperiksa.
        model (object): Model machine learning yang sudah dilatih.
        feature_extractor_func (function): Fungsi untuk mengekstrak fitur dari URL.
                                          Harus mengembalikan DataFrame pandas.
        preprocessor_obj (object, optional): Objek preprocessor (misal, scaler) jika ada. Defaults to None.
        threshold (float, optional): Threshold untuk klasifikasi biner jika output sigmoid. Defaults to 0.5.

    Returns:
        tuple: (str, float, list)
               - Tipe prediksi ('Phishing', 'Aman', atau 'Error').
               - Probabilitas phishing (jika model mendukung dan bukan error).
               - Daftar dictionary fitur yang berkontribusi (nama, nilai, kepentingan/bobot).
                 Akan kosong jika fitur tidak dapat diekstrak atau model tidak mendukung.
    """
    try:
        # 1. Ekstrak Fitur
        features_data = feature_extractor_func(url) # Ubah nama variabel sementara

        # Tambahkan pengecekan tipe di sini
        if features_data is None:
            logger.error(f"Gagal mengekstrak fitur (None) untuk URL: {url}")
            return "Error", None, []
        
        # Jika feature_extractor_func mengembalikan list saat error, tangani:
        if isinstance(features_data, list):
            if not features_data: # Jika list kosong
                logger.error(f"Gagal mengekstrak fitur (list kosong) untuk URL: {url}")
                return "Error", None, []
            else:
                # Jika list tidak kosong, coba konversi ke DataFrame.
                # Asumsi list berisi dictionary atau list of lists yang sesuai.
                # Ini mungkin perlu penyesuaian berdasarkan apa yang dikembalikan oleh extract_features Anda saat error.
                try:
                    # Jika extract_features mengembalikan list of dicts [{feature: value, ...}]
                    # atau list of values [[value1, value2, ...]] yang perlu nama kolom
                    # Anda perlu tahu nama kolom yang diharapkan.
                    # Untuk contoh, asumsikan ia mengembalikan list nilai fitur dan Anda punya feature_names_expected
                    # features_df = pd.DataFrame([features_data], columns=feature_names_expected_if_error)
                    # Lebih aman, jika dia mengembalikan list saat error, anggap saja error.
                    logger.error(f"Ekstraksi fitur mengembalikan list, bukan DataFrame, untuk URL: {url}. Data: {features_data}")
                    return "Error", None, []
                except Exception as e_conv:
                    logger.error(f"Gagal mengonversi hasil ekstraksi fitur (list) ke DataFrame untuk URL '{url}': {e_conv}")
                    return "Error", None, []
        elif not isinstance(features_data, pd.DataFrame):
             logger.error(f"Ekstraksi fitur tidak mengembalikan DataFrame untuk URL: {url}. Tipe: {type(features_data)}")
             return "Error", None, []
        
        features_df = features_data # Sekarang features_df pasti DataFrame jika lolos pengecekan

        if features_df.empty: # Sekarang .empty aman digunakan
            logger.error(f"DataFrame fitur kosong untuk URL: {url}")
            return "Error", None, []

        feature_names = list(features_df.columns)
        feature_values_dict = features_df.iloc[0].to_dict() # Nilai fitur asli sebelum preprocessing

        # 2. Preprocessing (jika ada)
        if preprocessor_obj:
            # Penting: Pastikan preprocessor tidak mengubah urutan/jumlah fitur
            # atau Anda memiliki cara untuk memetakan kembali nama fitur.
            # Untuk scaler standar, urutan dan jumlah biasanya tetap.
            processed_features = preprocessor_obj.transform(features_df)
        else:
            processed_features = features_df.values # Model mungkin dilatih dengan DataFrame langsung

        # 3. Prediksi
        proba = None
        if hasattr(model, 'predict_proba'):
            proba_all = model.predict_proba(processed_features)
            # Asumsi kelas phishing adalah kelas 1 (indeks 1)
            # Jika kelas phishing adalah 0, ubah menjadi proba_all[0][0]
            if proba_all.shape[1] > 1:
                 probability_phishing = proba_all[0][1]
            else: # Untuk model seperti SVM dengan probability=True yang outputnya (n_samples,) untuk binary
                 probability_phishing = proba_all[0]
        elif hasattr(model, 'decision_function'): # Untuk model seperti SVC tanpa predict_proba
            decision_val = model.decision_function(processed_features)
            # Perlu dikonversi ke probabilitas jika memungkinkan, atau gunakan decision value
            # Untuk simplisitas, kita bisa set probability_phishing berdasarkan ini jika perlu
            # atau biarkan None jika tidak langsung tersedia.
            # Ini contoh sederhana, mungkin perlu kalibrasi
            probability_phishing = 1 / (1 + np.exp(-decision_val[0])) if decision_val is not None else None
        else: # Model hanya punya .predict()
            probability_phishing = None # Atau coba dapatkan dari predict jika outputnya probabilitas

        # Dapatkan prediksi label
        if probability_phishing is not None:
            predicted_label = 1 if probability_phishing >= threshold else 0
        else: # Jika tidak ada probabilitas, gunakan predict langsung
            predicted_label = model.predict(processed_features)[0]


        predicted_type = "Phishing" if predicted_label == 1 else "Aman" # Sesuaikan dengan encoding label Anda

        # 4. Dapatkan Bobot/Kepentingan Fitur
        importances = None
        if hasattr(model, 'feature_importances_'):
            importances = model.feature_importances_
        elif hasattr(model, 'coef_'):
            # Untuk klasifikasi biner, coef_ seringkali (1, n_features) atau (n_features,)
            importances = model.coef_[0] if model.coef_.ndim > 1 else model.coef_

        feature_details_list = []
        if importances is not None and len(importances) == len(feature_names):
            for name, value, importance_val in zip(feature_names, features_df.iloc[0], importances):
                feature_details_list.append({'name': name, 'value': value, 'importance': importance_val})
            # Urutkan berdasarkan nilai absolut kepentingan untuk menunjukkan fitur paling berpengaruh
            feature_details_list.sort(key=lambda x: abs(x['importance']), reverse=True)
        else:
            # Fallback jika tidak ada atribut importance atau panjang tidak cocok: hanya tampilkan nama dan nilai fitur
            for name, value in feature_values_dict.items(): # Gunakan nilai asli
                feature_details_list.append({'name': name, 'value': value, 'importance': 'N/A (tidak tersedia dari model)'})
            if importances is not None and len(importances) != len(feature_names):
                logger.warning("Jumlah bobot fitur dari model tidak cocok dengan jumlah fitur yang diekstrak.")


        return predicted_type, probability_phishing, feature_details_list

    except Exception as e:
        logger.error(f"Error saat memprediksi URL '{url}': {e}", exc_info=True)
        return "Error", None, []

In [22]:
# Sel 4: Loop Interaktif untuk Input Pengguna

if 'loaded_model' in locals() and loaded_model: # Pastikan model sudah dimuat dari Sel 2
    print("\n--- Mode Inferensi URL Tunggal ---")
    print("Ketik 'exit' atau 'quit' untuk keluar.")
    while True:
        user_url = input("\nMasukkan URL yang ingin Anda periksa: ").strip()
        if user_url.lower() in ['exit', 'quit']:
            logger.info("Keluar dari mode inferensi.")
            break
        if not user_url:
            print("URL tidak boleh kosong. Silakan coba lagi.")
            continue

        # Panggil fungsi prediksi dari Sel 3
        # 'extract_features' sudah diimpor secara global di Sel 1
        # 'preprocessor' adalah objek yang dimuat di Sel 2 (bisa None)
        # 'loaded_model' adalah model yang dimuat di Sel 2
        
        # TODO: Tentukan threshold yang optimal dari eksperimen Anda jika model outputnya sigmoid
        prediction_threshold = 0.5 

        predicted_type, probability = predict_url_type(
            user_url,
            loaded_model, 
            preprocessor_obj=preprocessor, # Akan bernilai None jika tidak ada preprocessor dimuat
            threshold=prediction_threshold 
        )

        if predicted_type is not None:
            print(f"--> Hasil Prediksi untuk '{user_url}':")
            print(f"    Tipe Terdeteksi: {predicted_type}")
            if probability is not None:
                print(f"    Probabilitas (Phishing): {probability:.4f}")
        else:
            print(f"--> Tidak dapat membuat prediksi untuk '{user_url}'. Periksa log untuk detail.")
else:
    print("Model belum dimuat (variabel 'loaded_model' tidak ditemukan atau None). Jalankan Sel 2 terlebih dahulu.")
    logger.error("Inferensi tidak bisa dijalankan karena model belum dimuat.")


--- Mode Inferensi URL Tunggal ---
Ketik 'exit' atau 'quit' untuk keluar.
2025-06-02 11:13:58 - __main__ - INFO - Memproses URL: https://calendar.google.com/calendar/u/3/r
2025-06-02 11:13:58 - FeatureExtractor - INFO - Memulai ekstraksi fitur untuk URL: https://calendar.google.com/calendar/u/3/r
2025-06-02 11:13:59 - FeatureExtractor - INFO - Selesai ekstraksi fitur untuk URL: https://calendar.google.com/calendar/u/3/r. Total fitur: 21
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 20ms/step
2025-06-02 11:13:59 - __main__ - INFO - Prediksi untuk 'https://calendar.google.com/calendar/u/3/r': Tipe='Aman', Prob_Phishing=0.0323 (Threshold: 0.5)
--> Hasil Prediksi untuk 'https://calendar.google.com/calendar/u/3/r':
    Tipe Terdeteksi: Aman
    Probabilitas (Phishing): 0.0323
2025-06-02 11:14:03 - __main__ - INFO - Memproses URL: https://www.notion.so/fahmidza/Capstone-Project-1ce748923a5880a28875da6caabf7cec
2025-06-02 11:14:03 - FeatureExtractor - INFO - Memulai ekstraksi