In [8]:
# Sel 1: Impor Global, Pengaturan Path, Konfigurasi Logger, Impor Fungsi Fitur

# Impor Global yang Mungkin Diperlukan di Seluruh Notebook
import sys
import os
from pathlib import Path
import pandas as pd
import numpy as np
import logging # Impor logging standar
from typing import Optional, Callable, Any, Union, List, Tuple # Pastikan semua type hints yang akan digunakan ada di sini

# --- 1. Pengaturan Path ---
# Sesuaikan ini berdasarkan lokasi notebook Anda relatif terhadap root proyek
# Jika notebook Anda ada di 'PROJECT_ROOT/notebooks/':
project_root_path = os.path.abspath(os.path.join(os.getcwd(), os.pardir))
# Jika notebook Anda ada di 'PROJECT_ROOT/src/models/' (seperti models_playground.ipynb Anda):
# project_root_path = os.path.abspath(os.path.join(os.getcwd(), os.pardir, os.pardir))

if project_root_path not in sys.path:
    sys.path.append(project_root_path)
    # Pesan ini hanya akan muncul sekali jika path baru ditambahkan
    print(f"Path proyek ditambahkan: {project_root_path}")


# --- 2. Impor dan Konfigurasi Logger ---
try:
    from src.utils.logger import setup_logging, get_logger
    # Panggil setup_logging SEKALI SAJA per sesi kernel notebook.
    if not logging.getLogger().hasHandlers(): # Cek jika root logger belum punya handler
         setup_logging(log_level=logging.INFO) # Atur level sesuai kebutuhan (misal: INFO atau DEBUG)
    logger = get_logger(__name__) # Mendapatkan logger untuk notebook ini
    logger.info("Logger kustom berhasil di-setup dan didapatkan untuk notebook.")
except ImportError:
    # Fallback ke basic config jika modul logger kustom tidak ditemukan
    logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
    logger = logging.getLogger(__name__) # Mendapatkan logger default
    logger.warning("Menggunakan basicConfig untuk logger karena src.utils.logger tidak ditemukan atau error impor.")
except Exception as e:
    # Fallback jika ada error lain saat setup logger kustom
    logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
    logger = logging.getLogger(__name__)
    logger.error(f"Error saat setup logger kustom: {e}. Menggunakan basicConfig.", exc_info=True)


# --- 3. Impor Fungsi Ekstraksi Fitur dari Modul Anda ---
try:
    from src.features.feature_extractor import extract_features # Ini adalah nama fungsi dari file Anda
    logger.info("Fungsi 'extract_features' dari feature_extractor.py berhasil diimpor.")
except ImportError:
    logger.critical("GAGAL mengimpor 'extract_features' dari src.features.feature_extractor.")
    logger.critical("Pastikan sys.path sudah benar, file ada, dan tidak ada error syntax di feature_extractor.py.")
    logger.critical("Inferensi TIDAK AKAN BEKERJA DENGAN BENAR tanpa fungsi ekstraksi fitur yang valid.")
    # Definisikan placeholder HANYA agar sisa notebook bisa dijalankan tanpa NameError,
    # TAPI ini TIDAK akan menghasilkan prediksi yang benar.
    def extract_features(url_string: str) -> Optional[list]:
        logger.error("!!! MENGGUNAKAN FUNGSI 'extract_features' PLACEHOLDER !!! Hasil prediksi akan SALAH.")
        # GANTI 'num_expected_features' dengan jumlah fitur aktual model Anda
        # Berdasarkan feature_extractor.py Anda, tampaknya ada 21 fitur (tanpa fitur WHOIS)
        # Jika fitur WHOIS diaktifkan dan valid, jumlahnya bisa lebih banyak.
        # Mari kita asumsikan 21 untuk placeholder ini.
        num_expected_features = 21 # GANTI INI jika jumlah fitur berbeda!
        logger.warning(f"Placeholder mengembalikan {num_expected_features} fitur acak.")
        return list(np.random.rand(num_expected_features)) if url_string else None
except Exception as e:
    logger.critical(f"Error tak terduga saat mengimpor 'extract_features': {e}", exc_info=True)
    def extract_features(url_string: str) -> Optional[list]:
        logger.error(f"!!! MENGGUNAKAN FUNGSI 'extract_features' PLACEHOLDER karena error impor: {e} !!! Hasil prediksi akan SALAH.")
        num_expected_features = 21 # GANTI INI!
        logger.warning(f"Placeholder mengembalikan {num_expected_features} fitur acak.")
        return list(np.random.rand(num_expected_features)) if url_string else None


logger.info("Setup awal tahap 1 notebook untuk inferensi URL tunggal selesai.") # Pesan log yang lebih spesifik

# --- 4. Konfigurasi Path untuk Model dan Preprocessor ---
# Path untuk Model
MODEL_DIR_RELATIVE_TO_SRC = Path("models") / "model_checkpoints_recall_focused"
MODEL_DIR_ABSOLUTE = Path(project_root_path) / "src" / MODEL_DIR_RELATIVE_TO_SRC # Model ada di dalam src
MODEL_NAME = "best_recall_model.keras" # Ganti dengan nama model terbaik Anda
SAVED_MODEL_PATH = MODEL_DIR_ABSOLUTE / MODEL_NAME

# Path untuk Preprocessor
# Karena "preprocessor" Anda adalah logika dalam feature_extractor.py (yang sudah diimpor sebagai fungsi),
# kita tidak memerlukan path ke file preprocessor terpisah.
PREPROCESSOR_PATH = None 
# Tidak perlu warning di sini karena kita sudah mengklarifikasi bahwa feature_extractor adalah preprocessornya.
# Jika Anda *memutuskan* untuk menambahkan scaler terpisah nanti, baru PREPROCESSOR_PATH ini diisi.

logger.info(f"Path model yang akan digunakan: {SAVED_MODEL_PATH}")
logger.info(f"Path preprocessor (file objek terpisah): {'Tidak digunakan' if PREPROCESSOR_PATH is None else PREPROCESSOR_PATH}")
logger.info("Setup awal tahap 2 notebook (path) untuk inferensi URL tunggal selesai.")

2025-06-04 21:23:33 - __main__ - INFO - Logger kustom berhasil di-setup dan didapatkan untuk notebook.
2025-06-04 21:23:33 - __main__ - INFO - Fungsi 'extract_features' dari feature_extractor.py berhasil diimpor.
2025-06-04 21:23:33 - __main__ - INFO - Setup awal tahap 1 notebook untuk inferensi URL tunggal selesai.
2025-06-04 21:23:33 - __main__ - INFO - Path model yang akan digunakan: d:\Capstone\ML - Phishing Detection\Phishing-Detection\src\models\model_checkpoints_recall_focused\best_recall_model.keras
2025-06-04 21:23:33 - __main__ - INFO - Path preprocessor (file objek terpisah): Tidak digunakan
2025-06-04 21:23:33 - __main__ - INFO - Setup awal tahap 2 notebook (path) untuk inferensi URL tunggal selesai.


In [9]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

# --- Memuat Model ---
logger.info(f"Mencoba memuat model dari: {SAVED_MODEL_PATH}")
loaded_model = None # Inisialisasi sebagai None
try:
    if SAVED_MODEL_PATH.exists(): # Pastikan file model ada
        loaded_model = keras.models.load_model(SAVED_MODEL_PATH)
        logger.info("Model berhasil dimuat.")
        loaded_model.summary() # Tampilkan ringkasan model untuk verifikasi
    else:
        logger.error(f"File model tidak ditemukan di: {SAVED_MODEL_PATH}")
except Exception as e:
    logger.error(f"Gagal memuat model dari {SAVED_MODEL_PATH}: {e}", exc_info=True)

# --- Memuat Preprocessor (Scaler/Encoder) jika digunakan saat training ---
preprocessor = None # Inisialisasi sebagai None
# Pastikan PREPROCESSOR_PATH sudah didefinisikan di sel sebelumnya (bisa None jika tidak ada)
if PREPROCESSOR_PATH and Path(PREPROCESSOR_PATH).exists():
    try:
        import joblib # Pastikan joblib terinstal jika Anda menggunakannya
        preprocessor = joblib.load(PREPROCESSOR_PATH)
        logger.info(f"Preprocessor berhasil dimuat dari {PREPROCESSOR_PATH}.")
    except Exception as e:
        logger.error(f"Gagal memuat preprocessor dari {PREPROCESSOR_PATH}: {e}", exc_info=True)
elif PREPROCESSOR_PATH: # Jika path diset tapi file tidak ada
     logger.warning(f"File preprocessor tidak ditemukan di {PREPROCESSOR_PATH}. Melanjutkan tanpa preprocessor.")
else:
    logger.info("Tidak ada path preprocessor yang ditentukan atau preprocessor tidak digunakan.")

2025-06-04 21:23:36 - __main__ - INFO - Mencoba memuat model dari: d:\Capstone\ML - Phishing Detection\Phishing-Detection\src\models\model_checkpoints_recall_focused\best_recall_model.keras
2025-06-04 21:23:36 - __main__ - INFO - Model berhasil dimuat.


2025-06-04 21:23:36 - __main__ - INFO - Tidak ada path preprocessor yang ditentukan atau preprocessor tidak digunakan.


In [10]:
# Sel 3: Fungsi untuk Inferensi URL Tunggal

# (Pastikan 'extract_features' sudah diimpor dari src.features.feature_extractor di Sel 1)
# (Pastikan 'logger' sudah diinisialisasi dari Sel 1)
# (Pastikan 'Optional', 'Callable', 'Any', 'Tuple' sudah diimpor dari 'typing' di Sel 1)
# (Pastikan 'np' dari 'numpy' dan 'keras' dari 'tensorflow' sudah diimpor di Sel 1 atau Sel 2)

def predict_url_type(url_string: str, model: keras.Model,
                     # 'extract_features' akan digunakan langsung dari impor global
                     preprocessor_obj: Optional[Any] = None,
                     threshold: float = 0.5) -> Tuple[Optional[str], Optional[float]]:
    """
    Menerima URL, mengekstrak fitur, melakukan pra-pemrosesan (jika ada), membuat prediksi,
    dan mengembalikan tipe prediksi beserta probabilitasnya.

    Args:
        url_string (str): URL yang akan diprediksi.
        model (keras.Model): Model Keras yang sudah dilatih dan dimuat.
        preprocessor_obj (Optional[Any]): Objek preprocessor (misal, scaler) yang sudah di-fit.
                                       Jika None, tidak ada pra-pemrosesan scaler yang diterapkan.
        threshold (float): Ambang batas untuk klasifikasi jika output model adalah sigmoid.

    Returns:
        Tuple[Optional[str], Optional[float]]: (tipe_prediksi, probabilitas_phishing)
                                                atau (None, None) jika error.
    """
    if not url_string:
        logger.warning("Input URL kosong.")
        return None, None

    logger.info(f"Memproses URL: {url_string}")

    # 1. Ekstraksi Fitur menggunakan fungsi yang sudah diimpor dari feature_extractor.py
    try:
        # 'extract_features' Anda mengembalikan list
        list_of_features = extract_features(url_string) # Memanggil fungsi yang diimpor dari Sel 1
        if list_of_features is None:
            logger.error(f"Ekstraksi fitur mengembalikan None untuk URL: {url_string}")
            return None, None
        
        # Konversi ke NumPy array float32
        features_1d = np.array(list_of_features, dtype=np.float32)
        logger.debug(f"Fitur (1D) diekstrak: {features_1d.shape} -> {features_1d[:5]}...")

    except Exception as e:
        logger.error(f"Error saat ekstraksi fitur untuk URL '{url_string}': {e}", exc_info=True)
        return None, None
    
    # Validasi jumlah fitur terhadap input model (PENTING!)
    if model.input_shape[1] is not None and features_1d.shape[0] != model.input_shape[1]:
        logger.error(f"Jumlah fitur yang diekstrak ({features_1d.shape[0]}) tidak sesuai dengan input yang diharapkan model ({model.input_shape[1]}).")
        return None, None

    # 2. Pra-pemrosesan Fitur (jika ada preprocessor)
    # Fitur perlu diubah menjadi 2D array (1 sampel, N fitur)
    if features_1d.ndim == 1:
        features_2d_for_model = features_1d.reshape(1, -1)
    else: 
        logger.warning(f"Fitur yang diekstrak sudah {features_1d.ndim}D. Diharapkan 1D sebelum reshape.")
        features_2d_for_model = features_1d # Asumsikan sudah (1, N_fitur) jika bukan 1D

    if preprocessor_obj:
        try:
            logger.debug(f"Menerapkan preprocessor pada fitur shape: {features_2d_for_model.shape}")
            features_processed = preprocessor_obj.transform(features_2d_for_model) # transform() biasanya mengharapkan 2D
            logger.debug("Preprocessor berhasil diterapkan.")
        except Exception as e:
            logger.error(f"Error saat menerapkan preprocessor: {e}", exc_info=True)
            return None, None
    else:
        features_processed = features_2d_for_model # Gunakan fitur apa adanya jika tidak ada preprocessor

    logger.debug(f"Fitur setelah pra-pemrosesan (siap untuk model): {features_processed.shape} -> {features_processed[0, :5]}...")

    # 3. Membuat Prediksi
    try:
        prediction_proba = model.predict(features_processed) # Input ke model harus 2D
        logger.debug(f"Probabilitas mentah dari model: {prediction_proba}")

        # Interpretasi output model berdasarkan arsitektur output layer
        num_output_neurons = model.layers[-1].units
        activation_output = model.layers[-1].activation.__name__ # Mendapatkan nama aktivasi

        if num_output_neurons == 1 and activation_output == 'sigmoid':
            prob_phishing = prediction_proba[0, 0]
            predicted_label_int = 1 if prob_phishing > threshold else 0
        elif num_output_neurons > 1 and activation_output == 'softmax': # Misal 2 neuron untuk kelas 0 dan 1
            predicted_label_int = np.argmax(prediction_proba, axis=1)[0]
            prob_phishing = prediction_proba[0, 1] # Asumsi kelas 1 (phishing) adalah indeks 1
            # Jika kelas 0 adalah phishing, gunakan prediction_proba[0, 0]
        else:
            logger.error(f"Struktur output layer model tidak dikenali (neurons: {num_output_neurons}, activation: {activation_output}). Tidak bisa interpretasi prediksi.")
            return None, None
        
        # TODO: Sesuaikan label mapping ini dengan definisi kelas Anda
        label_mapping = {0: 'Aman', 1: 'Phishing'} 
        predicted_type = label_mapping.get(predicted_label_int, f"Label Int Tidak Diketahui: {predicted_label_int}")
        
        logger.info(f"Prediksi untuk '{url_string}': Tipe='{predicted_type}', Prob_Phishing={prob_phishing:.4f} (Threshold: {threshold if num_output_neurons == 1 else 'argmax'})")
        return predicted_type, prob_phishing

    except Exception as e:
        logger.error(f"Error saat membuat prediksi untuk URL '{url_string}': {e}", exc_info=True)
        return None, None

In [11]:
# Sel 4: Loop Interaktif untuk Input Pengguna

if 'loaded_model' in locals() and loaded_model: # Pastikan model sudah dimuat dari Sel 2
    print("\n--- Mode Inferensi URL Tunggal ---")
    print("Ketik 'exit' atau 'quit' untuk keluar.")
    while True:
        user_url = input("\nMasukkan URL yang ingin Anda periksa: ").strip()
        if user_url.lower() in ['exit', 'quit']:
            logger.info("Keluar dari mode inferensi.")
            break
        if not user_url:
            print("URL tidak boleh kosong. Silakan coba lagi.")
            continue

        # Panggil fungsi prediksi dari Sel 3
        # 'extract_features' sudah diimpor secara global di Sel 1
        # 'preprocessor' adalah objek yang dimuat di Sel 2 (bisa None)
        # 'loaded_model' adalah model yang dimuat di Sel 2
        
        # TODO: Tentukan threshold yang optimal dari eksperimen Anda jika model outputnya sigmoid
        prediction_threshold = 0.5 

        predicted_type, probability = predict_url_type(
            user_url,
            loaded_model, 
            preprocessor_obj=preprocessor, # Akan bernilai None jika tidak ada preprocessor dimuat
            threshold=prediction_threshold 
        )

        if predicted_type is not None:
            print(f"--> Hasil Prediksi untuk '{user_url}':")
            print(f"    Tipe Terdeteksi: {predicted_type}")
            if probability is not None:
                print(f"    Probabilitas (Phishing): {probability:.4f}")
        else:
            print(f"--> Tidak dapat membuat prediksi untuk '{user_url}'. Periksa log untuk detail.")
else:
    print("Model belum dimuat (variabel 'loaded_model' tidak ditemukan atau None). Jalankan Sel 2 terlebih dahulu.")
    logger.error("Inferensi tidak bisa dijalankan karena model belum dimuat.")


--- Mode Inferensi URL Tunggal ---
Ketik 'exit' atau 'quit' untuk keluar.
2025-06-04 21:23:43 - __main__ - INFO - Memproses URL: https://railway.com/dashboard
2025-06-04 21:23:43 - FeatureExtractor - INFO - Memulai ekstraksi fitur untuk URL: https://railway.com/dashboard
2025-06-04 21:23:44 - FeatureExtractor - INFO - Selesai ekstraksi fitur untuk URL: https://railway.com/dashboard. Total fitur: 21
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 225ms/step
2025-06-04 21:23:44 - __main__ - INFO - Prediksi untuk 'https://railway.com/dashboard': Tipe='Aman', Prob_Phishing=0.0498 (Threshold: 0.5)
--> Hasil Prediksi untuk 'https://railway.com/dashboard':
    Tipe Terdeteksi: Aman
    Probabilitas (Phishing): 0.0498
URL tidak boleh kosong. Silakan coba lagi.
2025-06-04 21:23:49 - __main__ - INFO - Keluar dari mode inferensi.
