In [29]:
# Importer les bibliothèques nécessaires
import pandas as pd
import os

In [30]:
file_path = os.path.join(
    os.getcwd(), "points_marquants", "Points marquants maintenance 2024.xlsx"
)

df = pd.read_excel(file_path)

# Filtrer les colonnes
df = df[
    [
        "DATE Début",
        "HEURE Début",
        "DATE Fin",
        "HEURE Fin",
        # "Durée indispo (j) totale",
        "LIGNE",
        "STATION",
        "N° EQUIP.",
        "COMMENTAIRE",
        "Motifs",
    ]
]

df.rename(
    columns={
        "DATE Début": "date_debut_panne",
        "HEURE Début": "heure_debut_panne",
        "DATE Fin": "date_fin_panne",
        "HEURE Fin": "heure_fin_panne",
        # "Durée indispo (j) totale": "nb_jours_indispo",
        "LIGNE": "ligne",
        "STATION": "station",
        "N° EQUIP.": "num_equip",
        "COMMENTAIRE": "commentaire",
        "Motifs": "motifs",
    },
    inplace=True,
)

# Convertir les colonnes de date au format dd/mm/yyyy
df["date_debut_panne"] = pd.to_datetime(df["date_debut_panne"]).dt.strftime("%d/%m/%Y")
df["date_fin_panne"] = pd.to_datetime(df["date_fin_panne"]).dt.strftime("%d/%m/%Y")


# Convertir les colonnes de temps au format HH:MM
def convert_time_format(time_str):
    if isinstance(time_str, str):
        time_str = time_str.replace("h", ":").replace("H", ":")
        if ":" in time_str and len(time_str.split(":")[1]) == 0:
            time_str += "00"
    return time_str


df["heure_debut_panne"] = df["heure_debut_panne"].apply(convert_time_format)
df["heure_fin_panne"] = df["heure_fin_panne"].apply(convert_time_format)

# Créer colonne type_equipement
df["type_equipement"] = (
    df["num_equip"].str.startswith("Asc").map({True: "ascenseur", False: "escalier"})
)

# Créer une colonne annee_debut_panne
df["annee_debut_panne"] = pd.to_datetime(
    df["date_debut_panne"], format="%d/%m/%Y"
).dt.year


# Calculer la durée d'indisponibilité en heures et jours
def calculate_duration(row):
    try:
        start = pd.to_datetime(
            f"{row['date_debut_panne']} {row['heure_debut_panne']}",
            format="%d/%m/%Y %H:%M",
        )
        end = pd.to_datetime(
            f"{row['date_fin_panne']} {row['heure_fin_panne']}", format="%d/%m/%Y %H:%M"
        )
        duration = (end - start).total_seconds() / 3600  # Convertir en heures
        return duration, duration / 24  # Retourner heures et jours
    except Exception:
        return None, None


df[["duree_indispo", "jour_indispo"]] = df.apply(
    calculate_duration, axis=1, result_type="expand"
)

# Replace 'T1 ' with 'T1' in the 'ligne' column
df["ligne"] = df["ligne"].str.replace("T1 ", "T1", regex=False)

# Extract integers from the 'num_equip' column and create a new column 'id'
df["id"] = (
    df["num_equip"].str.extract(r"(\d+)").astype(float)
)  # Use raw string for regex

df.to_csv(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_24_clean.csv"),
    sep=";",
    index=False,
)

df.to_excel(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_24_clean.xlsx"),
    index=False,
)



In [31]:
file_path = os.path.join(
    os.getcwd(), "points_marquants", "Points marquants maintenance Janv 2025.xlsx"
)

df = pd.read_excel(file_path, skiprows=1)

# Filtrer les colonnes
df = df[
    [
        "DATE Début",
        "HEURE Début",
        "DATE Fin",
        "HEURE Fin",
        # "Durée indispo (j) totale",
        "LIGNE",
        "STATION",
        "N° EQUIP.",
        "COMMENTAIRE",
        "Motifs",
    ]
]

df.rename(
    columns={
        "DATE Début": "date_debut_panne",
        "HEURE Début": "heure_debut_panne",
        "DATE Fin": "date_fin_panne",
        "HEURE Fin": "heure_fin_panne",
        # "Durée indispo (j) totale": "nb_jours_indispo",
        "LIGNE": "ligne",
        "STATION": "station",
        "N° EQUIP.": "num_equip",
        "COMMENTAIRE": "commentaire",
        "Motifs": "motifs",
    },
    inplace=True,
)

# Convertir les colonnes de date au format dd/mm/yyyy
df["date_debut_panne"] = pd.to_datetime(df["date_debut_panne"]).dt.strftime("%d/%m/%Y")
df["date_fin_panne"] = pd.to_datetime(df["date_fin_panne"]).dt.strftime("%d/%m/%Y")


# Convertir les colonnes de temps au format HH:MM
def convert_time_format(time_str):
    if isinstance(time_str, str):
        time_str = time_str.replace("h", ":").replace("H", ":")
        if ":" in time_str and len(time_str.split(":")[1]) == 0:
            time_str += "00"
    return time_str


df["heure_debut_panne"] = df["heure_debut_panne"].apply(convert_time_format)
df["heure_fin_panne"] = df["heure_fin_panne"].apply(convert_time_format)

# Créer colonne type_equipement
df["type_equipement"] = (
    df["num_equip"].str.startswith("Asc").map({True: "ascenseur", False: "escalier"})
)

# Créer une colonne annee_debut_panne
df["annee_debut_panne"] = pd.to_datetime(
    df["date_debut_panne"], format="%d/%m/%Y"
).dt.year


# Calculer la durée d'indisponibilité en heures et jours
def calculate_duration(row):
    try:
        start = pd.to_datetime(
            f"{row['date_debut_panne']} {row['heure_debut_panne']}",
            format="%d/%m/%Y %H:%M",
        )
        end = pd.to_datetime(
            f"{row['date_fin_panne']} {row['heure_fin_panne']}", format="%d/%m/%Y %H:%M"
        )
        duration = (end - start).total_seconds() / 3600  # Convertir en heures
        return duration, duration / 24  # Retourner heures et jours
    except Exception:
        return None, None


df[["duree_indispo", "jour_indispo"]] = df.apply(
    calculate_duration, axis=1, result_type="expand"
)

# Replace 'T1 ' with 'T1' in the 'ligne' column
df["ligne"] = df["ligne"].str.replace("T1 ", "T1", regex=False)

# Extract integers from the 'num_equip' column and create a new column 'id'
df["id"] = (
    df["num_equip"].str.extract(r"(\d+)").astype(float)
)  # Use raw string for regex

df.to_csv(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_janv_25_clean.csv"),
    sep=";",
    index=False,
)

df.to_excel(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_janv_25_clean.xlsx"),
    index=False,
)

  for idx, row in parser.parse():


In [32]:
file_path = os.path.join(
    os.getcwd(), "points_marquants", "Points marquants maintenance Fevrier 2025.xlsx"
)

df = pd.read_excel(file_path, skiprows=1, sheet_name="Fevr 25")

# Filtrer les colonnes
df = df[
    [
        "DATE Début",
        "HEURE Début",
        "DATE Fin",
        "HEURE Fin",
        # "Durée indispo (j) totale",
        "LIGNE",
        "STATION",
        "N° EQUIP.",
        "COMMENTAIRE",
        "Motifs",
    ]
]

df.rename(
    columns={
        "DATE Début": "date_debut_panne",
        "HEURE Début": "heure_debut_panne",
        "DATE Fin": "date_fin_panne",
        "HEURE Fin": "heure_fin_panne",
        # "Durée indispo (j) totale": "nb_jours_indispo",
        "LIGNE": "ligne",
        "STATION": "station",
        "N° EQUIP.": "num_equip",
        "COMMENTAIRE": "commentaire",
        "Motifs": "motifs",
    },
    inplace=True,
)

# Convertir les colonnes de date au format dd/mm/yyyy
df["date_debut_panne"] = pd.to_datetime(df["date_debut_panne"]).dt.strftime("%d/%m/%Y")
df["date_fin_panne"] = pd.to_datetime(df["date_fin_panne"]).dt.strftime("%d/%m/%Y")


# Convertir les colonnes de temps au format HH:MM
def convert_time_format(time_str):
    if isinstance(time_str, str):
        time_str = time_str.replace("h", ":").replace("H", ":")
        if ":" in time_str and len(time_str.split(":")[1]) == 0:
            time_str += "00"
    return time_str


df["heure_debut_panne"] = df["heure_debut_panne"].apply(convert_time_format)
df["heure_fin_panne"] = df["heure_fin_panne"].apply(convert_time_format)

# Créer colonne type_equipement
df["type_equipement"] = (
    df["num_equip"].str.startswith("Asc").map({True: "ascenseur", False: "escalier"})
)

# Créer une colonne annee_debut_panne
df["annee_debut_panne"] = pd.to_datetime(
    df["date_debut_panne"], format="%d/%m/%Y"
).dt.year


# Calculer la durée d'indisponibilité en heures et jours
def calculate_duration(row):
    try:
        start = pd.to_datetime(
            f"{row['date_debut_panne']} {row['heure_debut_panne']}",
            format="%d/%m/%Y %H:%M",
        )
        end = pd.to_datetime(
            f"{row['date_fin_panne']} {row['heure_fin_panne']}", format="%d/%m/%Y %H:%M"
        )
        duration = (end - start).total_seconds() / 3600  # Convertir en heures
        return duration, duration / 24  # Retourner heures et jours
    except Exception:
        return None, None


df[["duree_indispo", "jour_indispo"]] = df.apply(
    calculate_duration, axis=1, result_type="expand"
)

# Replace 'T1 ' with 'T1' in the 'ligne' column
df["ligne"] = df["ligne"].str.replace("T1 ", "T1", regex=False)

# Extract integers from the 'num_equip' column and create a new column 'id'
df["id"] = (
    df["num_equip"].str.extract(r"(\d+)").astype(float)
)  # Use raw string for regex

df.to_csv(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_fev_25_clean.csv"),
    sep=";",
    index=False,
)

df.to_excel(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_fev_25_clean.xlsx"),
    index=False,
)

  for idx, row in parser.parse():


In [33]:
file_path = os.path.join(
    os.getcwd(), "points_marquants", "Points marquants maintenance Mars 2025.xlsx"
)

df = pd.read_excel(file_path, skiprows=1)

# Filtrer les colonnes
df = df[
    [
        "DATE Début",
        "HEURE Début",
        "DATE Fin",
        "HEURE Fin",
        # "Durée indispo (j) totale",
        "LIGNE",
        "STATION",
        "N° EQUIP.",
        "COMMENTAIRE",
        "Motifs",
    ]
]

df.rename(
    columns={
        "DATE Début": "date_debut_panne",
        "HEURE Début": "heure_debut_panne",
        "DATE Fin": "date_fin_panne",
        "HEURE Fin": "heure_fin_panne",
        # "Durée indispo (j) totale": "nb_jours_indispo",
        "LIGNE": "ligne",
        "STATION": "station",
        "N° EQUIP.": "num_equip",
        "COMMENTAIRE": "commentaire",
        "Motifs": "motifs",
    },
    inplace=True,
)

# Convertir les colonnes de date au format dd/mm/yyyy
df["date_debut_panne"] = pd.to_datetime(df["date_debut_panne"]).dt.strftime("%d/%m/%Y")
df["date_fin_panne"] = pd.to_datetime(df["date_fin_panne"]).dt.strftime("%d/%m/%Y")


# Convertir les colonnes de temps au format HH:MM
def convert_time_format(time_str):
    if isinstance(time_str, str):
        time_str = time_str.replace("h", ":").replace("H", ":")
        if ":" in time_str and len(time_str.split(":")[1]) == 0:
            time_str += "00"
    return time_str


df["heure_debut_panne"] = df["heure_debut_panne"].apply(convert_time_format)
df["heure_fin_panne"] = df["heure_fin_panne"].apply(convert_time_format)

# Créer colonne type_equipement
df["type_equipement"] = (
    df["num_equip"].str.startswith("Asc").map({True: "ascenseur", False: "escalier"})
)

# Créer une colonne annee_debut_panne
df["annee_debut_panne"] = pd.to_datetime(
    df["date_debut_panne"], format="%d/%m/%Y"
).dt.year


# Calculer la durée d'indisponibilité en heures et jours
def calculate_duration(row):
    try:
        start = pd.to_datetime(
            f"{row['date_debut_panne']} {row['heure_debut_panne']}",
            format="%d/%m/%Y %H:%M",
        )
        end = pd.to_datetime(
            f"{row['date_fin_panne']} {row['heure_fin_panne']}", format="%d/%m/%Y %H:%M"
        )
        duration = (end - start).total_seconds() / 3600  # Convertir en heures
        return duration, duration / 24  # Retourner heures et jours
    except Exception:
        return None, None


df[["duree_indispo", "jour_indispo"]] = df.apply(
    calculate_duration, axis=1, result_type="expand"
)

# Replace 'T1 ' with 'T1' in the 'ligne' column
df["ligne"] = df["ligne"].str.replace("T1 ", "T1", regex=False)

# Extract integers from the 'num_equip' column and create a new column 'id'
df["id"] = (
    df["num_equip"].str.extract(r"(\d+)").astype(float)
)  # Use raw string for regex

df.to_csv(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_mars_25_clean.csv"),
    sep=";",
    index=False,
)

df.to_excel(os.path.join(os.getcwd(), "points_marquants", "points_marquants_mars_25_clean.xlsx"),index=False,)

  for idx, row in parser.parse():
  for idx, row in parser.parse():


In [34]:
# Définir le chemin vers le dossier contenant les fichiers Excel
folder_path = os.path.join(os.getcwd(), "points_marquants")

# Lire les fichiers CSV
annee_24 = pd.read_csv(os.path.join(folder_path, 'points_marquants_24_clean.csv'), delimiter=';')
janv_df = pd.read_csv(os.path.join(folder_path, 'points_marquants_janv_25_clean.csv'), delimiter=';')
fev_df = pd.read_csv(os.path.join(folder_path, 'points_marquants_fev_25_clean.csv'), delimiter=';')
mars_df = pd.read_csv(os.path.join(folder_path, 'points_marquants_mars_25_clean.csv'), delimiter=';')

# Fusionner les fichiers sur la colonne 'num_equip'
merged_df = pd.concat([annee_24,fev_df, janv_df, mars_df])

# Vérifier les doublons dans la colonne 'date_debut_panne'
duplicates = merged_df.duplicated(subset=['date_debut_panne','num_equip'], keep=False)

# Afficher les lignes avec des doublons
duplicate_rows = merged_df[duplicates]




In [35]:
import pandas as pd
import os

# Définir le chemin vers le dossier contenant les fichiers
folder_path = os.path.join(os.getcwd(), "points_marquants")

# Vérifier si le dossier existe
if not os.path.isdir(folder_path):
    print(f"Erreur : Le dossier '{folder_path}' n'a pas été trouvé.")
    # Quitter ou gérer l'erreur comme vous le souhaitez
    exit()

# Lire les fichiers CSV (en s'assurant qu'ils existent)
try:
    annee_24 = pd.read_csv(os.path.join(folder_path, 'points_marquants_24_clean.csv'), delimiter=';')
    janv_df = pd.read_csv(os.path.join(folder_path, 'points_marquants_janv_25_clean.csv'), delimiter=';')
    fev_df = pd.read_csv(os.path.join(folder_path, 'points_marquants_fev_25_clean.csv'), delimiter=';')
    mars_df = pd.read_csv(os.path.join(folder_path, 'points_marquants_mars_25_clean.csv'), delimiter=';')
except FileNotFoundError as e:
    print(f"Erreur lors de la lecture d'un fichier CSV : {e}")
    # Quitter ou gérer l'erreur
    exit()

# Fusionner (concaténer) les fichiers de Janvier, Février, Mars
# ignore_index=True réinitialise l'index du DataFrame résultant
# merged_df = pd.concat([annee_24,fev_df, janv_df, mars_df], ignore_index=True)
merged_df = pd.concat([janv_df, fev_df], ignore_index=True)

print("DataFrame avant la fusion des doublons :")
print(f"Nombre de lignes: {len(merged_df)}")

# 1. Nettoyer les données (optionnel mais recommandé)
# Supprimer les lignes où les identifiants clés sont manquants
merged_df.dropna(subset=['date_debut_panne', 'num_equip'], inplace=True)
# Supprimer les lignes potentiellement vides ou mal formées (si toutes les colonnes sont NaN)
merged_df.dropna(how='all', inplace=True)

print(f"\nNombre de lignes après nettoyage initial: {len(merged_df)}")


# 2. Convertir 'date_fin_panne' en format datetime
#    errors='coerce' transformera les dates invalides en NaT (Not a Time)
#    Il est crucial de spécifier le format si ce n'est pas le format standard YYYY-MM-DD
merged_df['date_fin_panne_dt'] = pd.to_datetime(merged_df['date_fin_panne'], format='%d/%m/%Y', errors='coerce')

# Afficher les lignes où la conversion a échoué (si nécessaire)
# print("\nLignes avec date_fin_panne invalide (NaT) :")
# print(merged_df[merged_df['date_fin_panne_dt'].isna()])


# 3. Trier les données
#    Trier par les clés d'identification, puis par la date de fin (datetime) en ordre décroissant (plus récent en premier)
#    na_position='last' met les NaT (dates invalides/manquantes) à la fin pour chaque groupe
merged_df_sorted = merged_df.sort_values(
    by=['date_debut_panne', 'num_equip', 'date_fin_panne_dt'],
    ascending=[True, True, False], # Trie date_debut asc, num_equip asc, date_fin_dt desc
    na_position='last' # Place les lignes sans date de fin valide à la fin
)

# 4. Supprimer les doublons en gardant la première ligne (qui est la plus récente après tri)
#    subset indique les colonnes à utiliser pour identifier les doublons
#    keep='first' conserve la première occurrence trouvée après le tri
final_df = merged_df_sorted.drop_duplicates(
    subset=['date_debut_panne', 'num_equip'],
    keep='first'
)

# 5. Nettoyage final (optionnel)
#    Supprimer la colonne de date temporaire si elle n'est plus nécessaire
final_df = final_df.drop(columns=['date_fin_panne_dt'])
#    Réinitialiser l'index si vous le souhaitez
final_df = final_df.reset_index(drop=True)


# --- Fin : Logique de fusion ---

# Afficher le résultat
print("\nDataFrame après fusion (en gardant la date_fin_panne la plus récente) :")
print(f"Nombre de lignes: {len(final_df)}")
print(final_df)

# Optionnel : Sauvegarder le résultat dans un nouveau fichier CSV
try:
    output_filename = 'points_marquants_fusionnes_recent.csv'
    output_path = os.path.join(os.getcwd(), output_filename) # Sauvegarde dans le répertoire courant
    final_df.to_csv(output_path, index=False, sep=';', encoding='utf-8-sig') # utf-8-sig pour compatibilité Excel
    print(f"\nRésultat sauvegardé dans : {output_path}")
except Exception as e:
    print(f"\nErreur lors de la sauvegarde du fichier : {e}")

DataFrame avant la fusion des doublons :
Nombre de lignes: 127

Nombre de lignes après nettoyage initial: 124

DataFrame après fusion (en gardant la date_fin_panne la plus récente) :
Nombre de lignes: 103
    date_debut_panne heure_debut_panne date_fin_panne heure_fin_panne ligne  \
0         01/01/2025             19:49     08/01/2025           12:53     D   
1         01/02/2025             13:22     19/02/2025           10:00     B   
2         02/01/2025             17:47     08/03/2025             NaN     D   
3         02/02/2025             06:00     31/03/2025             NaN     A   
4         03/02/2025            03:52      06/02/2025           09:35     D   
..               ...               ...            ...             ...   ...   
98        30/12/2024             19:27     03/01/2025           11:28     D   
99        31/01/2025             18:44     03/02/2025           14:05     A   
100       31/01/2025             07:04     11/02/2025            9:11     D   
101  