In [1]:
# ==============================================================================
# NOTEBOOK FINAL POUR LE MODÈLE D'HEURES SUPPLÉMENTAIRES (BASÉ SUR LES VRAIES DONNÉES)
# ==============================================================================
import pandas as pd
from sqlalchemy import create_engine
import pymysql
import numpy as np
import lightgbm as lgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
import joblib
import os

# --- ÉTAPE 1: CONNEXION BDD ---
print("--- ÉTAPE 1: Connexion à la base de données ---")
db_user = 'root'
db_password = 'root' # TON MOT DE PASSE
db_host = 'localhost'
db_port = '3306'
db_name = 'sicda_easytime'
engine = create_engine(f"mysql+pymysql://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}")
print("Connexion réussie.")

# --- ÉTAPE 2: CHARGEMENT ET CALCUL DES DURÉES DE TRAVAIL ---
print("\n--- ÉTAPE 2: Chargement des pointages et calcul des durées ---")
# On charge tous les pointages de la base de données
df_pointages = pd.read_sql("SELECT BADGE as badge, DATE_MOUV as date_mouvement FROM mouvement", engine)
df_pointages['date_mouvement'] = pd.to_datetime(df_pointages['date_mouvement'])
df_pointages['date'] = df_pointages['date_mouvement'].dt.date
print(f"{len(df_pointages)} pointages chargés.")

# Pour chaque employé et chaque jour, on trouve le premier et le dernier pointage
df_duree = df_pointages.groupby(['badge', 'date']).agg(
    heure_debut=('date_mouvement', 'min'),
    heure_fin=('date_mouvement', 'max')
).reset_index()

# On calcule la durée totale travaillée en secondes
df_duree['duree_travaillee_secondes'] = (df_duree['heure_fin'] - df_duree['heure_debut']).dt.total_seconds()

# On définit la durée théorique d'une journée de travail (ex: 8 heures)
DUREE_THEORIQUE_SECONDES = 8 * 3600

# On identifie les jours où il y a eu des heures supplémentaires
# (durée travaillée > durée théorique + 30 minutes de marge)
df_hs = df_duree[df_duree['duree_travaillee_secondes'] > DUREE_THEORIQUE_SECONDES + 1800].copy()
df_hs['hs_minutes'] = (df_hs['duree_travaillee_secondes'] - DUREE_THEORIQUE_SECONDES) / 60
print(f"{len(df_hs)} jours avec heures supplémentaires potentielles identifiés.")

# --- ÉTAPE 3: GÉNÉRATION DU DATASET D'ENTRAÎNEMENT ---
print("\n--- ÉTAPE 3: Génération du dataset d'entraînement avec des features simulées ---")
# On ajoute des features contextuelles simulées pour rendre le modèle plus intelligent
df_hs['taux_absence_service'] = np.random.uniform(0.05, 0.4, size=len(df_hs))
df_hs['nb_hs_validees_historique'] = np.random.randint(0, 10, size=len(df_hs))

# On simule la décision d'un manager (0 = REJETER, 1 = ACCEPTER)
# C'est une logique simple mais plus réaliste que des données 100% aléatoires
conditions = [
    (df_hs['hs_minutes'] > 180),                 # Plus de 3h sup -> on accepte
    (df_hs['taux_absence_service'] > 0.25),      # Si beaucoup d'absents -> on accepte
    (df_hs['nb_hs_validees_historique'] < 3)     # Si l'employé en fait rarement -> on accepte
]
choices = [1, 1, 1]
df_hs['decision'] = np.select(conditions, choices, default=0) # Par défaut, on rejette

print("\nDistribution des décisions simulées :\n", df_hs['decision'].value_counts())

# --- ÉTAPE 4: ENTRAÎNEMENT DU MODÈLE ---
print("\n--- ÉTAPE 4: Entraînement du modèle ---")
features = ['hs_minutes', 'taux_absence_service', 'nb_hs_validees_historique']
target = 'decision'
X = df_hs[features]
y = df_hs[target]

# On vérifie qu'on a bien au moins 2 exemples pour chaque classe
if y.nunique() < 2:
    print("ERREUR: Le dataset généré ne contient qu'un seul type de décision. Impossible d'entraîner le modèle.")
else:
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)
    
    # On utilise un modèle binaire simple
    lgbm_classifier = lgb.LGBMClassifier(objective='binary', random_state=42)
    lgbm_classifier.fit(X_train, y_train)

    print("\nÉvaluation du modèle...")
    y_pred = lgbm_classifier.predict(X_test)
    print(classification_report(y_test, y_pred, target_names=['REJETER (0)', 'ACCEPTER (1)']))

    # --- ÉTAPE 5: SAUVEGARDE (avec les mêmes noms de fichiers) ---
    print("\n--- ÉTAPE 5: Sauvegarde du modèle ---")
    output_dir = './models'
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
        
    model_path = os.path.join(output_dir, '../model_hs_contextuel.pkl')
    joblib.dump(lgbm_classifier, model_path)
    print(f"Modèle sauvegardé dans : {model_path}")

print("\nProcessus terminé.")

--- ÉTAPE 1: Connexion à la base de données ---
Connexion réussie.

--- ÉTAPE 2: Chargement des pointages et calcul des durées ---
1121 pointages chargés.
338 jours avec heures supplémentaires potentielles identifiés.

--- ÉTAPE 3: Génération du dataset d'entraînement avec des features simulées ---

Distribution des décisions simulées :
 decision
1    207
0    131
Name: count, dtype: int64

--- ÉTAPE 4: Entraînement du modèle ---
[LightGBM] [Info] Number of positive: 165, number of negative: 105
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000564 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 192
[LightGBM] [Info] Number of data points in the train set: 270, number of used features: 3
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.611111 -> initscore=0.451985
[LightGBM] [Info] Start training from score 0.451985

Évaluation du mod