In [1]:
import pandas as pd
import joblib
from sklearn.ensemble import IsolationForest

print("--- Entraînement du nouveau Modèle 1 : Détection d'Anomalies ---")

# --- 1. Chargement et Préparation des Données ---
input_path = "../../data/processed/dataset_clean_no_outliers.parquet"
df = pd.read_parquet(input_path)

# On utilise les mêmes features que pour votre meilleur modèle de risque
# (la préparation doit être identique)
features_to_exclude = [
    'loan_status', 'is_default', 'id', 'grade', 'sub_grade', 'int_rate', 'installment', 
    'last_pymnt_d', 'emp_title', 'emp_title_clean', 'title', 'zip_code', 
    'job_category', 'csp_category', 'issue_d', 'earliest_cr_line'
]
X_train = df.drop(columns=features_to_exclude, errors='ignore')
X_train = pd.get_dummies(X_train, drop_first=True, dtype=float)

# Sauvegarde des colonnes pour l'application
joblib.dump(X_train.columns.tolist(), "../../models/model_1_anomaly_columns.pkl")


# --- 2. Entraînement de l'Isolation Forest ---
# Le paramètre 'contamination' indique la proportion attendue d'anomalies (clients risqués). 
# On peut commencer avec une estimation (ex: 20% des prêts acceptés finissent en défaut).
iso_forest = IsolationForest(
    n_estimators=200, 
    contamination=0.20, 
    random_state=42, 
    n_jobs=-1
)

print("Entraînement du modèle en cours...")
iso_forest.fit(X_train)
print("✅ Modèle Isolation Forest entraîné.")


# --- 3. Sauvegarde du nouveau Modèle 1 ---
model_1_path = "../../models/model_1_anomaly_detection.pkl"
joblib.dump(iso_forest, model_1_path)
print(f"✅ Nouveau Modèle 1 sauvegardé dans : {model_1_path}")

--- Entraînement du nouveau Modèle 1 : Détection d'Anomalies ---
Entraînement du modèle en cours...
✅ Modèle Isolation Forest entraîné.
✅ Nouveau Modèle 1 sauvegardé dans : ../../models/model_1_anomaly_detection.pkl
