In [2]:
!pip install pandas
!pip install numpy
!pip install lightgbm
!pip install sqlalchemy
!pip install pymysql

Collecting pymysql
  Downloading PyMySQL-1.1.1-py3-none-any.whl.metadata (4.4 kB)
Downloading PyMySQL-1.1.1-py3-none-any.whl (44 kB)
Installing collected packages: pymysql
Successfully installed pymysql-1.1.1


In [4]:
!pip install matplotlib seaborn



In [3]:
# Import des librairies nécessaires
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
import pymysql
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration de la connexion à la base de données
# Assure-toi que le nom de la base, l'utilisateur et le mot de passe sont corrects
db_connection_str = 'mysql+pymysql://root:root@localhost/sicda_easytime'
db_connection = create_engine(db_connection_str)

print("Connexion à la base de données réussie !")

Connexion à la base de données réussie !


In [5]:
# Chargement des tables principales dans des DataFrames Pandas
try:
    df_mouvements = pd.read_sql('SELECT * FROM mouvement', con=db_connection)
    df_utilisateurs = pd.read_sql('SELECT * FROM utilisateur', con=db_connection)
    print("Tables 'mouvement' et 'utilisateur' chargées avec succès.")
    print(f"Nombre de mouvements: {len(df_mouvements)}")
    print(f"Nombre d'utilisateurs: {len(df_utilisateurs)}")
except Exception as e:
    print(f"Une erreur est survenue: {e}")

# Affiche les 5 premières lignes pour vérifier
df_mouvements.head()

Tables 'mouvement' et 'utilisateur' chargées avec succès.
Nombre de mouvements: 1348
Nombre d'utilisateurs: 13


Unnamed: 0,ID,POINTEUSE_CODE,BADGE,DATE_MOUV,CACHE_FK,UPDATED
0,1,0,2,2023-01-20 09:24:02,,0
1,2,0,1,2023-01-20 17:33:08,,0
2,3,0,8,2023-01-20 17:34:43,,0
3,4,0,3,2023-01-20 17:37:33,,0
4,5,0,5,2023-01-21 09:09:32,,0


In [6]:
# Conversion des colonnes de date au format datetime
df_mouvements['DATE_MOUV'] = pd.to_datetime(df_mouvements['DATE_MOUV'])
df_utilisateurs['DATE_EMB'] = pd.to_datetime(df_utilisateurs['DATE_EMB'])

# Création de colonnes utiles à partir de la date de mouvement
df_mouvements['jour'] = df_mouvements['DATE_MOUV'].dt.date
df_mouvements['heure'] = df_mouvements['DATE_MOUV'].dt.time

# Afficher les changements pour vérifier
print("Types de données de df_mouvements après conversion:")
print(df_mouvements.dtypes)
df_mouvements.head()

Types de données de df_mouvements après conversion:
ID                         int64
POINTEUSE_CODE            object
BADGE                     object
DATE_MOUV         datetime64[ns]
CACHE_FK                  object
UPDATED                    int64
jour                      object
heure                     object
dtype: object


Unnamed: 0,ID,POINTEUSE_CODE,BADGE,DATE_MOUV,CACHE_FK,UPDATED,jour,heure
0,1,0,2,2023-01-20 09:24:02,,0,2023-01-20,09:24:02
1,2,0,1,2023-01-20 17:33:08,,0,2023-01-20,17:33:08
2,3,0,8,2023-01-20 17:34:43,,0,2023-01-20,17:34:43
3,4,0,3,2023-01-20 17:37:33,,0,2023-01-20,17:37:33
4,5,0,5,2023-01-21 09:09:32,,0,2023-01-21,09:09:32


In [7]:
# Grouper par employé (BADGE) et par jour
df_journees = df_mouvements.groupby(['BADGE', 'jour']).agg(
    premier_pointage=('DATE_MOUV', 'min'),
    dernier_pointage=('DATE_MOUV', 'max'),
    nombre_pointages=('DATE_MOUV', 'count')
).reset_index()

# On ne garde que les jours avec un nombre pair de pointages (pas d'omission)
# C'est crucial car on ne peut définir un retard que si la journée est "complète"
df_journees = df_journees[df_journees['nombre_pointages'] % 2 == 0]

print(f"Nombre de journées de travail complètes à analyser: {len(df_journees)}")
df_journees.head()

Nombre de journées de travail complètes à analyser: 617


Unnamed: 0,BADGE,jour,premier_pointage,dernier_pointage,nombre_pointages
1,1,2023-01-20,2023-01-20 07:58:00,2023-01-20 17:33:08,2
2,1,2023-01-21,2023-01-21 09:12:17,2023-01-21 11:22:30,2
4,1,2023-01-24,2023-01-24 08:38:02,2023-01-24 14:00:00,2
5,1,2023-01-25,2023-01-25 08:31:42,2023-01-25 17:31:59,2
7,1,2023-01-30,2023-01-30 09:05:06,2023-01-30 17:29:13,2


In [16]:
# Chargement des tables de planification
try:
    df_plannings = pd.read_sql('SELECT * FROM planning', con=db_connection)
    df_horaires = pd.read_sql('SELECT * FROM horaire', con=db_connection)
    df_plages = pd.read_sql('SELECT * FROM plage_horaire', con=db_connection)
    df_jours_planning = pd.read_sql('SELECT * FROM jour', con=db_connection)
    print("Tables de planification chargées.")
except Exception as e:
    print(f"Une erreur est survenue: {e}")

# --- Reconstruction de la logique de planification en Python ---

# 1. Trouver l'heure de début pour chaque horaire.
df_horaires_debut = df_plages.groupby('SMPL_HORAIRE_FK')['DEBUT'].min().reset_index()
df_horaires_debut = df_horaires_debut.rename(columns={'SMPL_HORAIRE_FK': 'ID', 'DEBUT': 'heure_debut_theorique'})
df_horaires = pd.merge(df_horaires, df_horaires_debut, on='ID', how='left')

# 2. Joindre les jours de planning avec les horaires.
df_jours_planning_avec_horaire = pd.merge(df_jours_planning, df_horaires[['ID', 'heure_debut_theorique']], left_on='HORAIRE_FK', right_on='ID', how='left')

# 3. Joindre les utilisateurs avec leur planning.
df_utilisateurs_planning = pd.merge(df_utilisateurs[['BADGE', 'PLANNING_FK']], df_plannings, left_on='PLANNING_FK', right_on='ID', how='left')

# 4. Joindre le tout avec nos journées de travail.
df_analyse = pd.merge(df_journees, df_utilisateurs_planning, on='BADGE', how='left')

# 5. Créer une colonne numérique pour le jour de la semaine.
df_analyse['jour_semaine'] = pd.to_datetime(df_analyse['jour']).dt.dayofweek

# --- LA CORRECTION MAGIQUE ---
# 6. Créer un dictionnaire de traduction pour les jours de la semaine
jour_map = {
    'Lundi': 0, 'Mardi': 1, 'Mercredi': 2, 'Jeudi': 3, 
    'Vendredi': 4, 'Samedi': 5, 'Dimanche': 6
}
# On traduit la colonne LIBELLE en chiffres en utilisant notre dictionnaire
df_jours_planning_avec_horaire['jour_num_libelle'] = df_jours_planning_avec_horaire['LIBELLE'].map(jour_map)
# --- FIN DE LA CORRECTION ---

# 7. On fait la jointure finale en utilisant les colonnes qui correspondent maintenant.
df_final = pd.merge(
    df_analyse, 
    df_jours_planning_avec_horaire[['PLANNING_HEBDO_FK', 'jour_num_libelle', 'heure_debut_theorique']], 
    left_on=['PLANNING_FK', 'jour_semaine'], 
    right_on=['PLANNING_HEBDO_FK', 'jour_num_libelle'], 
    how='left'
)

print("\nAffichage du DataFrame final avant la création des 'features':")
# On affiche les colonnes les plus pertinentes pour vérifier la jointure
print(df_final[['BADGE', 'jour', 'premier_pointage', 'PLANNING_FK', 'jour_semaine', 'heure_debut_theorique']].head())

Tables de planification chargées.

Affichage du DataFrame final avant la création des 'features':
  BADGE        jour    premier_pointage  PLANNING_FK  jour_semaine  \
0     1  2023-01-20 2023-01-20 07:58:00          2.0             4   
1     1  2023-01-21 2023-01-21 09:12:17          2.0             5   
2     1  2023-01-24 2023-01-24 08:38:02          2.0             1   
3     1  2023-01-25 2023-01-25 08:31:42          2.0             2   
4     1  2023-01-30 2023-01-30 09:05:06          2.0             0   

   heure_debut_theorique  
0                    8.3  
1                    8.3  
2                    8.3  
3                    8.3  
4                    8.3  


In [17]:
# Convertir les colonnes en type de données correct pour la comparaison
df_final['heure_debut_theorique'] = pd.to_timedelta(df_final['heure_debut_theorique'])
df_final['premier_pointage_heure'] = pd.to_datetime(df_final['premier_pointage']).dt.time

# Fonction pour comparer les heures
def is_late(row):
    # Si l'heure théorique n'est pas définie, on ne peut pas conclure
    if pd.isna(row['heure_debut_theorique']):
        return np.nan
    # Conversion de l'heure du 1er pointage en timedelta pour la comparaison
    heure_reelle = pd.to_timedelta(str(row['premier_pointage_heure']))
    # On compare si l'heure réelle est après l'heure théorique (on ignore la tolérance pour l'instant)
    return 1 if heure_reelle > row['heure_debut_theorique'] else 0

# Appliquer la fonction pour créer notre colonne cible (target)
df_final['est_en_retard'] = df_final.apply(is_late, axis=1)

# Nettoyer les lignes où on n'a pas pu déterminer le retard
df_final_clean = df_final.dropna(subset=['est_en_retard'])
df_final_clean['est_en_retard'] = df_final_clean['est_en_retard'].astype(int)

# Afficher les résultats
print("Distribution des retards :")
print(df_final_clean['est_en_retard'].value_counts())

df_final_clean.head()

Distribution des retards :
est_en_retard
1    114
Name: count, dtype: int64


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_final_clean['est_en_retard'] = df_final_clean['est_en_retard'].astype(int)


Unnamed: 0,BADGE,jour,premier_pointage,dernier_pointage,nombre_pointages,PLANNING_FK,ID,LIBELLE,TYPE,METIER,...,DELTA_IN,DELTA_PAUSE,DELTA_OUT,USER_FK,jour_semaine,PLANNING_HEBDO_FK,jour_num_libelle,heure_debut_theorique,premier_pointage_heure,est_en_retard
0,1,2023-01-20,2023-01-20 07:58:00,2023-01-20 17:33:08,2,2.0,2.0,Planning Admin Ramadan,Hebdomadaire,1.0,...,30.0,0.0,30.0,299.0,4,2.0,4.0,0 days 00:00:00.000000008,07:58:00,1
1,1,2023-01-21,2023-01-21 09:12:17,2023-01-21 11:22:30,2,2.0,2.0,Planning Admin Ramadan,Hebdomadaire,1.0,...,30.0,0.0,30.0,299.0,5,2.0,5.0,0 days 00:00:00.000000008,09:12:17,1
2,1,2023-01-24,2023-01-24 08:38:02,2023-01-24 14:00:00,2,2.0,2.0,Planning Admin Ramadan,Hebdomadaire,1.0,...,30.0,0.0,30.0,299.0,1,2.0,1.0,0 days 00:00:00.000000008,08:38:02,1
3,1,2023-01-25,2023-01-25 08:31:42,2023-01-25 17:31:59,2,2.0,2.0,Planning Admin Ramadan,Hebdomadaire,1.0,...,30.0,0.0,30.0,299.0,2,2.0,2.0,0 days 00:00:00.000000008,08:31:42,1
4,1,2023-01-30,2023-01-30 09:05:06,2023-01-30 17:29:13,2,2.0,2.0,Planning Admin Ramadan,Hebdomadaire,1.0,...,30.0,0.0,30.0,299.0,0,2.0,0.0,0 days 00:00:00.000000008,09:05:06,1


In [9]:
print(df_plages.columns)

Index(['ID', 'DEBUT', 'FLEX_DEBUT', 'FIN', 'FLEX_FIN', 'TOL_ENTREE',
       'TOL_SORTIE', 'PAUSE', 'ANNOTATION_FK', 'SMPL_HORAIRE_FK', 'DEBUTPAUSE',
       'FINPAUSE'],
      dtype='object')


In [13]:
print("Colonnes de la table 'jour':")
print(df_jours_planning.columns)

print("\nColonnes de la table 'utilisateur':")
print(df_utilisateurs.columns)

print("\nColonnes de la table 'planning':")
print(df_plannings.columns)

Colonnes de la table 'jour':
Index(['ID', 'LIBELLE', 'HORAIRE_FK', 'PLANNING_HEBDO_FK'], dtype='object')

Colonnes de la table 'utilisateur':
Index(['ID', 'NB_CONGE_INITIAL', 'DATE_EMB', 'DATE_QUIT', 'LOGIN', 'PASSWORD',
       'MATRICULE', 'BADGE', 'PRENOM', 'NOM', 'MAIL', 'MODE_PAIEMENT',
       'ADRESS_POSTALE', 'CIN_NUM', 'CNSS_NUM', 'NAISS_LOC', 'DATE_NAISS',
       'OBSERVATIONS', 'PROFIL_METIER_FK', 'NOEUD_FK', 'SITE_FK',
       'PLANNING_FK', 'USER_FK', 'ZONE_FK', 'TYPE_CONTRAT', 'DROIT_PAIE',
       'PROFIL_AUTHORIZE_FK', 'SOLDE_ANNUEL', 'SOLDE_ANNCIENNETE',
       'SOLDE_CONSOMME', 'SALAIRE', 'TELEPHONE', 'IMAGE', 'PARAMETRECONGE_FK',
       'AUTHORISEHS', 'SOLDE_COM'],
      dtype='object')

Colonnes de la table 'planning':
Index(['ID', 'LIBELLE', 'TYPE', 'METIER', 'CATEGHRSP', 'DELTA_IN',
       'DELTA_PAUSE', 'DELTA_OUT', 'USER_FK'],
      dtype='object')


In [15]:
# --- CELLULE DE DÉBOGAGE POUR LA JOINTURE FINALE ---

print("Vérification des données pour la jointure finale.")

# Afficher les 5 premières lignes des colonnes de gauche (depuis df_analyse)
print("\nDonnées de gauche (df_analyse):")
print(df_analyse[['PLANNING_FK', 'jour_semaine']].head())

# Afficher TOUTES les valeurs uniques des colonnes de droite
print("\nDonnées de droite (df_jours_planning_avec_horaire):")

# On veut voir toutes les combinaisons possibles de planning et de jour
# pour comprendre pourquoi la jointure ne trouve rien.
print(df_jours_planning_avec_horaire[['PLANNING_HEBDO_FK', 'LIBELLE', 'jour_num_libelle']].drop_duplicates().sort_values(by=['PLANNING_HEBDO_FK', 'jour_num_libelle']))

Vérification des données pour la jointure finale.

Données de gauche (df_analyse):
   PLANNING_FK  jour_semaine
0          2.0             4
1          2.0             5
2          2.0             1
3          2.0             2
4          2.0             0

Données de droite (df_jours_planning_avec_horaire):
     PLANNING_HEBDO_FK   LIBELLE  jour_num_libelle
0                    2     Lundi               NaN
1                    2     Mardi               NaN
2                    2  Mercredi               NaN
3                    2     Jeudi               NaN
4                    2  Vendredi               NaN
..                 ...       ...               ...
198              10159  Mercredi               NaN
199              10159     Jeudi               NaN
200              10159  Vendredi               NaN
201              10159    Samedi               NaN
202              10159  Dimanche               NaN

[203 rows x 3 columns]


In [18]:
from sklearn.model_selection import train_test_split
from lightgbm import LGBMClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# --- Préparation des données X et y ---

# 1. Sélectionner les features pertinentes
# On choisit des colonnes numériques qui pourraient influencer le retard.
# 'jour_semaine' est une excellente feature. 'PLANNING_FK' aussi.
features = ['jour_semaine', 'PLANNING_FK', 'nombre_pointages']
target = 'est_en_retard'

X = df_final_clean[features]
y = df_final_clean[target]

# 2. Gérer les valeurs manquantes s'il y en a (bonne pratique)
# On remplace les NaN par 0, par exemple.
X = X.fillna(0)

# 3. Diviser les données en ensembles d'entraînement et de test
# 80% pour l'entraînement, 20% pour le test. random_state garantit que la division est toujours la même.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Les données sont prêtes pour l'entraînement !")
print(f"Taille de l'ensemble d'entraînement (X_train): {X_train.shape}")
print(f"Taille de l'ensemble de test (X_test): {X_test.shape}")

Les données sont prêtes pour l'entraînement !
Taille de l'ensemble d'entraînement (X_train): (91, 3)
Taille de l'ensemble de test (X_test): (23, 3)


In [19]:
# --- Entraînement du modèle ---

# 1. Créer le modèle
# On utilise des paramètres simples pour commencer.
lgbm = LGBMClassifier(random_state=42)

# 2. Entraîner le modèle sur les données d'entraînement
print("\nDébut de l'entraînement du modèle LightGBM...")
lgbm.fit(X_train, y_train)
print("Entraînement terminé !")

# --- Évaluation du modèle ---

# 3. Faire des prédictions sur l'ensemble de test
y_pred = lgbm.predict(X_test)

# 4. Évaluer la performance
accuracy = accuracy_score(y_test, y_pred)
print(f"\nPrécision (Accuracy) du modèle sur l'ensemble de test: {accuracy:.2f}")

# Afficher un rapport de classification plus détaillé
print("\nRapport de Classification :")
print(classification_report(y_test, y_pred))

# Afficher la matrice de confusion
print("\nMatrice de Confusion :")
print(confusion_matrix(y_test, y_pred))


Début de l'entraînement du modèle LightGBM...
[LightGBM] [Info] Number of positive: 0, number of negative: 91
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000832 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 6
[LightGBM] [Info] Number of data points in the train set: 91, number of used features: 1
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.000000 -> initscore=-34.538776
[LightGBM] [Info] Start training from score -34.538776
Entraînement terminé !

Précision (Accuracy) du modèle sur l'ensemble de test: 1.00

Rapport de Classification :
              precision    recall  f1-score   support

           1       1.00      1.00      1.00        23

    accuracy                           1.00        23
   macro avg       1.00      1.00      1.00        23
weighted avg       1.00      1.00      1.00        23


Matrice de Confusion



In [20]:
import pickle

# Définir le nom du fichier pour notre modèle avec l'extension .pkl
filename = 'lgbm_retard_classifier.pkl'

# Sauvegarder le modèle (lgbm) dans le fichier
# 'wb' signifie "write binary" (écrire en mode binaire), c'est important pour Pickle
with open(filename, 'wb') as file:
    pickle.dump(lgbm, file)

print(f"Modèle sauvegardé avec succès dans le fichier: {filename}")

Modèle sauvegardé avec succès dans le fichier: lgbm_retard_classifier.pkl
