In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import mlflow

In [2]:
mlflow.set_tracking_uri("http://127.0.0.1:5000")

In [3]:
train = pd.read_csv('train_cleaned.csv')
test = pd.read_csv('test_cleaned.csv')

# Equilibrage des Données

In [4]:
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split


from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split

def balance_data(df, target_column, test_size=0.2, random_state=42):
    """
    Prépare les données en appliquant le suréchantillonnage SMOTE sur l'ensemble d'entraînement.

    Paramètres:
    - X : caractéristiques
    - y : variable cible
    - test_size : proportion de l'ensemble de test
    - random_state : graine pour la reproductibilité

    Retourne:
    - X_train_balanced, y_train_balanced : données d'entraînement équilibrées
    - X_test, y_test : données de test
    """
    X = df.drop(target_column, axis=1)
    y = df[target_column]
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=random_state)

    smote = SMOTE(random_state=random_state)
    X_train_balanced, y_train_balanced = smote.fit_resample(X_train, y_train)

    return X_train_balanced, y_train_balanced, X_test, y_test



In [5]:
def business_cost(y_true, y_pred, cost_fn, cost_fp):
    """
    Calcule le coût métier basé sur les faux négatifs et les faux positifs.
    """
    fn = sum((y_pred == 0) & (y_true == 1))
    fp = sum((y_pred == 1) & (y_true == 0))
    return fn * cost_fn + fp * cost_fp


In [6]:
import numpy as np

def find_optimal_threshold(y_test, y_scores, cost_fn, cost_fp):
    """
    Trouve le seuil optimal pour la classification.

    Paramètres :
    - y_test : valeurs réelles
    - y_scores : scores de probabilité prédits par le modèle
    - cost_fn : coût d'un faux négatif
    - cost_fp : coût d'un faux positif

    Retourne :
    - seuil optimal pour la classification
    """
    thresholds = np.linspace(0, 1, 100)
    costs = []
    
    for threshold in thresholds:
        y_pred = (y_scores >= threshold).astype(int)
        cost = business_cost(y_test, y_pred, cost_fn, cost_fp)
        costs.append(cost)
    
    # Trouver le seuil avec le coût le plus bas
    optimal_idx = np.argmin(costs)
    optimal_threshold = thresholds[optimal_idx]

    return optimal_threshold


In [10]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score

def train_model_with_optimal_threshold(df, target, model, test_size=0.2, random_state=42, cost_fn=10, cost_fp=1):
    """
    Entraîne un modèle avec le seuil de probabilité optimal sur un DataFrame donné.

    Paramètres :
    - df : DataFrame contenant les données.
    - features : liste des noms des colonnes de caractéristiques.
    - target : nom de la colonne cible.
    - model : modèle de machine learning à entraîner.
    - cost_fn : coût d'un faux négatif.
    - cost_fp : coût d'un faux positif.

    Retourne :
    - model : modèle entraîné avec seuil optimal.
    - optimal_threshold : seuil de probabilité optimal.
    """
    # Equilibrer le frame et séparer les caractéristiques et la cible dans le frame équilibré
    X_train, y_train, X_test, y_test = balance_data(df, target, test_size, random_state)

    # Entraîner le modèle
    model.fit(X_train, y_train)

    # Prédire les probabilités sur l'ensemble de test
    y_scores = model.predict_proba(X_test)[:, 1]

    # Trouver le seuil optimal
    optimal_threshold = find_optimal_threshold(y_test, y_scores, cost_fn, cost_fp)

    # Ajuster le modèle pour utiliser ce seuil lors de la prédiction
    model.threshold = optimal_threshold

    # Ajuster le modèle pour utiliser ce seuil lors de la prédiction
    evaluation_results =evaluate_model(X_test, y_test, model, optimal_threshold, cost_fn=10, cost_fp=1)

    return model, optimal_threshold, evaluation_results

In [None]:
from sklearn.ensemble import GradientBoostingClassifier
# Exemple d'utilisation
trained_model, optimal_threshold, evaluation_results = train_model_with_optimal_threshold(
    train, 'TARGET', GradientBoostingClassifier(), cost_fn=10, cost_fp=1)

In [None]:
pp

# Séparation des données

In [None]:
test_size=0.2

X_train, y_train, X_test, y_test=balance_data(train, 'TARGET', test_size, random_state=42)

# Cross-Validation et Optimisation des Hyperparamètres

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline

def optimize_hyperparameters(model, param_grid, X, y, cv=5, scoring='roc_auc'):
    """
    Optimise les hyperparamètres du modèle en utilisant GridSearchCV.

    Paramètres:
    - model : modèle à optimiser
    - param_grid : grille des paramètres à tester
    - X, y : données d'entraînement
    - cv : nombre de plis pour la validation croisée
    - scoring : métrique pour l'évaluation

    Retourne:
    - best_model : modèle avec les meilleurs paramètres
    """
    grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=cv, scoring=scoring, n_jobs=-1)
    grid_search.fit(X, y)

    best_model = grid_search.best_estimator_
    return best_model


# Définition d'une Fonction de Coût Métier

# Optimisation du Seuil de probabilité

## Calcul du seuil optimal

In [None]:
import time
from sklearn.metrics import accuracy_score, roc_auc_score

def evaluate_model(X_test, y_test, model, optimal_threshold, cost_fn, cost_fp):
    """
    Évalue le modèle en utilisant le seuil optimal et calcule le coût métier.

    Paramètres:
    - X_test, y_test : données de test
    - model : modèle à évaluer
    - optimal_threshold : seuil optimal pour la classification
    - cost_fn : coût d'un faux négatif
    - cost_fp : coût d'un faux positif

    Retourne:
    - Dictionnaire contenant Business Score, AUC, Accuracy et le temps d'exécution
    """
    start_time = time.time()

    y_scores = model.predict_proba(X_test)[:, 1]
    y_pred_optimal = (y_scores >= optimal_threshold).astype(int)

    business_score = business_cost(y_test, y_pred_optimal, cost_fn, cost_fp)
    auc_score = roc_auc_score(y_test, y_scores)
    accuracy = accuracy_score(y_test, y_pred_optimal)

    end_time = time.time()
    execution_time = end_time - start_time

    return {
        'Business Score': business_score,
        'AUC': auc_score,
        'Accuracy': accuracy,
        'Execution Time (seconds)': execution_time
    }

In [None]:
# Modèle GradientBoostingClassifier

In [None]:
from sklearn.ensemble import GradientBoostingClassifier

# Modèle Gradient Boosting
model_gb = GradientBoostingClassifier(random_state=42)

# Grille de paramètres pour Gradient Boosting
param_grid_gb = {
    'n_estimators': [100],
    'max_depth': [10]
}

# Optimisation des hyperparamètres
best_model_gb = optimize_hyperparameters(model_gb, param_grid_gb, X_train, y_train)

In [None]:
y_scores = best_model_gb.predict_proba(X_test)[:, 1]

optimal_threshold_gb = find_optimal_threshold(y_test, y_scores, cost_fn=10, cost_fp=1)

In [None]:
evaluation_results_gb=evaluate_model(X_test, y_test, best_model_gb, optimal_threshold_gb, cost_fn=10, cost_fp=1)

In [None]:
evaluation_results_gb

In [None]:
optimal_threshold_gb