In [4]:
# Installation des librairies pour se connecter à MySQL et manipuler les données
!pip install mysql-connector-python pandas scikit-learn



In [5]:
import mysql.connector
import pandas as pd

# --- Configuration de la connexion à la base de données ---
config = {
    'user': 'root',
    'password': 'root', # METS TON VRAI MOT DE PASSE ICI
    'host': '127.0.0.1',
    'database': 'sicda_easytime',
    'raise_on_warnings': True
}

# --- Requête SQL pour extraire les pointages d'un employé avec beaucoup de données ---
# On choisit l'employé avec le badge '1' car on sait qu'il a beaucoup de pointages
badge_a_etudier = '1'
query = f"""
    SELECT date_mouv 
    FROM mouvement 
    WHERE badge = '{badge_a_etudier}' 
    ORDER BY date_mouv ASC
"""

try:
    # Connexion à la base
    cnx = mysql.connector.connect(**config)
    
    # Exécution de la requête et chargement des données dans un DataFrame Pandas
    df_pointages = pd.read_sql(query, cnx)
    
    # Affichage des 5 premières lignes et des informations sur le DataFrame
    print("Extraction réussie !")
    print(f"Nombre de pointages pour le badge '{badge_a_etudier}': {len(df_pointages)}")
    print("\nPremières 5 lignes :")
    print(df_pointages.head())
    
except mysql.connector.Error as err:
    print(f"Erreur de connexion ou d'extraction : {err}")
finally:
    # On s'assure de bien fermer la connexion
    if 'cnx' in locals() and cnx.is_connected():
        cnx.close()
        print("\nConnexion à la base de données fermée.")

Extraction réussie !
Nombre de pointages pour le badge '1': 264

Premières 5 lignes :
            date_mouv
0 2023-01-20 17:33:08
1 2023-01-21 09:12:17
2 2023-01-21 11:22:30
3 2023-01-23 08:27:08
4 2023-01-24 08:38:02

Connexion à la base de données fermée.


  df_pointages = pd.read_sql(query, cnx)


In [6]:
import numpy as np

# --- Feature Engineering ---

# 1. S'assurer que la colonne 'date_mouv' est bien de type datetime
df_pointages['date_mouv'] = pd.to_datetime(df_pointages['date_mouv'])

# 2. Extraire des caractéristiques temporelles à partir de la date
df_pointages['jour_de_semaine'] = df_pointages['date_mouv'].dt.dayofweek # Lundi=0, Dimanche=6
df_pointages['jour_du_mois'] = df_pointages['date_mouv'].dt.day
df_pointages['semaine_de_annee'] = df_pointages['date_mouv'].dt.isocalendar().week
df_pointages['mois'] = df_pointages['date_mouv'].dt.month

# 3. La caractéristique la plus importante : l'heure du pointage
# On va la convertir en secondes depuis minuit pour avoir une valeur numérique continue.
df_pointages['heure_en_secondes'] = df_pointages['date_mouv'].dt.hour * 3600 + \
                                    df_pointages['date_mouv'].dt.minute * 60 + \
                                    df_pointages['date_mouv'].dt.second

# 4. Créer une colonne pour le jour "propre" (sans l'heure) pour pouvoir grouper les pointages par jour
df_pointages['jour'] = df_pointages['date_mouv'].dt.date

# --- Afficher le résultat ---
print("DataFrame avec les nouvelles caractéristiques ('features') :")
# On affiche les colonnes les plus pertinentes
print(df_pointages[['date_mouv', 'jour', 'jour_de_semaine', 'heure_en_secondes']].head())

# --- Préparer les données pour la prédiction ---
# Notre objectif est de prédire 'heure_en_secondes' (Y)
# en se basant sur 'jour_de_semaine', 'jour_du_mois', etc. (X)

# On sépare nos variables explicatives (X) et notre variable cible (Y)
X = df_pointages[['jour_de_semaine', 'jour_du_mois', 'semaine_de_annee', 'mois']]
Y = df_pointages['heure_en_secondes']

print("\nVariables explicatives (X) - 5 premières lignes :")
print(X.head())

print("\nVariable cible (Y) - 5 premières lignes :")
print(Y.head())

DataFrame avec les nouvelles caractéristiques ('features') :
            date_mouv        jour  jour_de_semaine  heure_en_secondes
0 2023-01-20 17:33:08  2023-01-20                4              63188
1 2023-01-21 09:12:17  2023-01-21                5              33137
2 2023-01-21 11:22:30  2023-01-21                5              40950
3 2023-01-23 08:27:08  2023-01-23                0              30428
4 2023-01-24 08:38:02  2023-01-24                1              31082

Variables explicatives (X) - 5 premières lignes :
   jour_de_semaine  jour_du_mois  semaine_de_annee  mois
0                4            20                 3     1
1                5            21                 3     1
2                5            21                 3     1
3                0            23                 4     1
4                1            24                 4     1

Variable cible (Y) - 5 premières lignes :
0    63188
1    33137
2    40950
3    30428
4    31082
Name: heure_en_secondes, dty

In [7]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
import time

# --- Phase 5 : Identification des données d'entraînement et de test ---

# On divise nos données en deux groupes :
# - 80% pour entraîner le modèle (le "livre de cours")
# - 20% pour le tester sur des données qu'il n'a jamais vues (l'"examen")
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

print(f"Taille du jeu d'entraînement (train): {len(X_train)} exemples")
print(f"Taille du jeu de test: {len(X_test)} exemples")


# --- Phase 4 & 6 : Étude, Configuration et Entraînement du modèle ---

# 1. On choisit notre premier modèle : la Régression Linéaire. C'est le plus simple.
model = LinearRegression()

# 2. On entraîne le modèle. C'est ici que "l'apprentissage" se produit.
print("\nDébut de l'entraînement du modèle...")
start_time = time.time()
model.fit(X_train, Y_train) # Le modèle apprend la relation entre X_train et Y_train
end_time = time.time()
print(f"Entraînement terminé en {end_time - start_time:.2f} secondes.")


# --- Phase 8 (partielle) : Prédiction sur le jeu de test ---
Y_pred = model.predict(X_test)


# --- Phase 7 : Évaluation du modèle ---

# On compare les prédictions (Y_pred) avec les vraies valeurs (Y_test).
# On calcule l'erreur absolue moyenne : en moyenne, de combien de secondes notre modèle se trompe-t-il ?
mae = mean_absolute_error(Y_test, Y_pred)

print(f"\nÉvaluation du modèle :")
print(f"Erreur Absolue Moyenne (MAE): {mae:.2f} secondes")
print(f"Cela correspond à une erreur moyenne de {mae/60:.2f} minutes.")


# --- Phase 8 : Prédiction sur un nouvel exemple ---

# Imaginons qu'on veuille prédire l'heure d'un pointage manquant un Lundi (0),
# le 15ème jour du mois, pendant la 7ème semaine de l'année, au mois de Février (2).
nouvel_exemple = [[0, 15, 7, 2]] 

prediction_secondes = model.predict(nouvel_exemple)[0]

# On reconvertit les secondes en un format lisible (HH:MM:SS)
heures = int(prediction_secondes / 3600)
minutes = int((prediction_secondes % 3600) / 60)
secondes = int(prediction_secondes % 60)

print("\n--- TEST DE PRÉDICTION CONCRET ---")
print(f"Pour un nouvel exemple : {nouvel_exemple}")
print(f"Le modèle prédit une heure de pointage autour de : {heures:02d}:{minutes:02d}:{secondes:02d}")

Taille du jeu d'entraînement (train): 211 exemples
Taille du jeu de test: 53 exemples

Début de l'entraînement du modèle...
Entraînement terminé en 0.22 secondes.

Évaluation du modèle :
Erreur Absolue Moyenne (MAE): 16077.45 secondes
Cela correspond à une erreur moyenne de 267.96 minutes.

--- TEST DE PRÉDICTION CONCRET ---
Pour un nouvel exemple : [[0, 15, 7, 2]]
Le modèle prédit une heure de pointage autour de : 13:09:28




In [8]:
# --- Amélioration du modèle : Séparation Entrée / Sortie ---

# Pour l'instant, nous n'avons pas cette information dans la base.
# On va donc faire une supposition simple :
# Pour un jour donné, le premier pointage est une ENTRÉE, le deuxième une SORTIE,
# le troisième une ENTRÉE (retour de pause), etc.

# On numérote les pointages pour chaque jour
df_pointages['num_pointage_jour'] = df_pointages.groupby('jour').cumcount() + 1

# On identifie les entrées (pointages impairs : 1, 3, ...) et les sorties (pairs : 2, 4, ...)
df_pointages_entree = df_pointages[df_pointages['num_pointage_jour'] % 2 != 0].copy()
df_pointages_sortie = df_pointages[df_pointages['num_pointage_jour'] % 2 == 0].copy()

print("Nombre de pointages d'ENTRÉE:", len(df_pointages_entree))
print("Nombre de pointages de SORTIE:", len(df_pointages_sortie))

print("\nExemple de pointages d'entrée :")
print(df_pointages_entree[['date_mouv', 'heure_en_secondes']].head())

print("\nExemple de pointages de sortie :")
print(df_pointages_sortie[['date_mouv', 'heure_en_secondes']].head())

# --- Entraînons un modèle UNIQUEMENT sur les ENTRÉES ---

# 1. Préparer X et Y pour le modèle d'entrée
X_entree = df_pointages_entree[['jour_de_semaine', 'jour_du_mois', 'semaine_de_annee', 'mois']]
Y_entree = df_pointages_entree['heure_en_secondes']

# 2. Séparer en train/test
X_train_e, X_test_e, Y_train_e, Y_test_e = train_test_split(X_entree, Y_entree, test_size=0.2, random_state=42)

# 3. Créer et entraîner le modèle d'entrée
model_entree = LinearRegression()
model_entree.fit(X_train_e, Y_train_e)

# 4. Évaluer le modèle d'entrée
Y_pred_e = model_entree.predict(X_test_e)
mae_e = mean_absolute_error(Y_test_e, Y_pred_e)

print(f"\n--- Évaluation du MODÈLE D'ENTRÉE ---")
print(f"Nouvelle Erreur Absolue Moyenne (MAE): {mae_e:.2f} secondes")
print(f"Cela correspond à une erreur moyenne de {mae_e/60:.2f} minutes.")

# 5. Prédiction avec le nouveau modèle
prediction_entree = model_entree.predict(nouvel_exemple)[0]
heures_e = int(prediction_entree / 3600)
minutes_e = int((prediction_entree % 3600) / 60)
print(f"Le modèle d'ENTRÉE prédit une heure d'arrivée autour de : {heures_e:02d}:{minutes_e:02d}")

Nombre de pointages d'ENTRÉE: 143
Nombre de pointages de SORTIE: 121

Exemple de pointages d'entrée :
            date_mouv  heure_en_secondes
0 2023-01-20 17:33:08              63188
1 2023-01-21 09:12:17              33137
3 2023-01-23 08:27:08              30428
4 2023-01-24 08:38:02              31082
6 2023-01-25 08:31:42              30702

Exemple de pointages de sortie :
             date_mouv  heure_en_secondes
2  2023-01-21 11:22:30              40950
5  2023-01-24 17:34:03              63243
7  2023-01-25 17:31:59              63119
9  2023-01-26 17:40:22              63622
12 2023-01-30 17:29:13              62953

--- Évaluation du MODÈLE D'ENTRÉE ---
Nouvelle Erreur Absolue Moyenne (MAE): 3956.38 secondes
Cela correspond à une erreur moyenne de 65.94 minutes.
Le modèle d'ENTRÉE prédit une heure d'arrivée autour de : 08:52




In [9]:
import joblib
import os

# --- Sauvegarde du modèle entraîné ---

# Nom du fichier dans lequel on va sauvegarder le modèle
nom_fichier_modele = 'model_prediction_entree.pkl'

# Créer un dossier 'models' s'il n'existe pas, à la racine du projet
# (au même niveau que 'src' et 'notebooks')
dossier_models = '../models' # '../' signifie 'remonter d'un dossier' depuis 'notebooks'
if not os.path.exists(dossier_models):
    os.makedirs(dossier_models)
    print(f"Dossier '{dossier_models}' créé.")

chemin_complet = os.path.join(dossier_models, nom_fichier_modele)

# Sauvegarde de l'objet 'model_entree' dans le fichier
joblib.dump(model_entree, chemin_complet)

print(f"\nModèle sauvegardé avec succès dans : {chemin_complet}")

Dossier '../models' créé.

Modèle sauvegardé avec succès dans : ../models\model_prediction_entree.pkl


In [10]:
!pip freeze > ../requirements.txt

In [11]:
# Force la réinstallation de joblib pour être sûr d'avoir une version standard
!pip install --force-reinstall joblib==1.3.2

# Ré-import pour être sûr d'utiliser la nouvelle version
import joblib

# On re-sauvegarde le modèle avec cette version spécifique de joblib
# Le reste du code est le même qu'avant
nom_fichier_modele = 'model_prediction_entree.pkl'
dossier_models = '../models'
chemin_complet = os.path.join(dossier_models, nom_fichier_modele)
joblib.dump(model_entree, chemin_complet)

print(f"Modèle re-sauvegardé avec succès dans : {chemin_complet} en utilisant joblib version {joblib.__version__}")

Collecting joblib==1.3.2
  Downloading joblib-1.3.2-py3-none-any.whl.metadata (5.4 kB)
Downloading joblib-1.3.2-py3-none-any.whl (302 kB)
Installing collected packages: joblib
  Attempting uninstall: joblib
    Found existing installation: joblib 1.4.2
    Uninstalling joblib-1.4.2:
      Successfully uninstalled joblib-1.4.2
Successfully installed joblib-1.3.2
Modèle re-sauvegardé avec succès dans : ../models\model_prediction_entree.pkl en utilisant joblib version 1.4.2
