In [58]:
# Importer les bibliothèques nécessaires
import pandas as pd
import os

In [59]:
file_path = os.path.join(
    os.getcwd(), "points_marquants", "Points marquants maintenance 2024.xlsx"
)

df = pd.read_excel(file_path)

# Filtrer les colonnes
df = df[
    [
        "DATE Début",
        "HEURE Début",
        "DATE Fin",
        "HEURE Fin",
        # "Durée indispo (j) totale",
        "LIGNE",
        "STATION",
        "N° EQUIP.",
        "COMMENTAIRE",
        "Motifs",
    ]
]

df.rename(
    columns={
        "DATE Début": "date_debut_panne",
        "HEURE Début": "heure_debut_panne",
        "DATE Fin": "date_fin_panne",
        "HEURE Fin": "heure_fin_panne",
        # "Durée indispo (j) totale": "nb_jours_indispo",
        "LIGNE": "ligne",
        "STATION": "station",
        "N° EQUIP.": "num_equip",
        "COMMENTAIRE": "commentaire",
        "Motifs": "motifs",
    },
    inplace=True,
)

# Convertir les colonnes de date au format dd/mm/yyyy
df["date_debut_panne"] = pd.to_datetime(df["date_debut_panne"]).dt.strftime("%d/%m/%Y")
df["date_fin_panne"] = pd.to_datetime(df["date_fin_panne"]).dt.strftime("%d/%m/%Y")


# Convertir les colonnes de temps au format HH:MM
def convert_time_format(time_str):
    if isinstance(time_str, str):
        time_str = time_str.replace("h", ":").replace("H", ":")
        if ":" in time_str and len(time_str.split(":")[1]) == 0:
            time_str += "00"
    return time_str


df["heure_debut_panne"] = df["heure_debut_panne"].apply(convert_time_format)
df["heure_fin_panne"] = df["heure_fin_panne"].apply(convert_time_format)

# Créer colonne type_equipement
df["type_equipement"] = (
    df["num_equip"].str.startswith("Asc").map({True: "ascenseur", False: "escalier"})
)

# Créer une colonne annee_debut_panne
df["annee_debut_panne"] = pd.to_datetime(
    df["date_debut_panne"], format="%d/%m/%Y"
).dt.year


# Calculer la durée d'indisponibilité en heures et jours
def calculate_duration(row):
    try:
        start = pd.to_datetime(
            f"{row['date_debut_panne']} {row['heure_debut_panne']}",
            format="%d/%m/%Y %H:%M",
        )
        end = pd.to_datetime(
            f"{row['date_fin_panne']} {row['heure_fin_panne']}", format="%d/%m/%Y %H:%M"
        )
        duration = (end - start).total_seconds() / 3600  # Convertir en heures
        return duration, duration / 24  # Retourner heures et jours
    except Exception:
        return None, None


df[["duree_indispo", "jour_indispo"]] = df.apply(
    calculate_duration, axis=1, result_type="expand"
)

# Replace 'T1 ' with 'T1' in the 'ligne' column
df["ligne"] = df["ligne"].str.replace("T1 ", "T1", regex=False)

# Extract integers from the 'num_equip' column and create a new column 'id'
df["id"] = (
    df["num_equip"].str.extract(r"(\d+)").astype(float)
)  # Use raw string for regex

df.to_csv(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_24_clean.csv"),
    sep=";",
    index=False,
)

df.to_excel(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_24_clean.xlsx"),
    index=False,
)



In [60]:
file_path = os.path.join(
    os.getcwd(), "points_marquants", "Points marquants maintenance Janv 2025.xlsx"
)

df = pd.read_excel(file_path, skiprows=1)

# Filtrer les colonnes
df = df[
    [
        "DATE Début",
        "HEURE Début",
        "DATE Fin",
        "HEURE Fin",
        # "Durée indispo (j) totale",
        "LIGNE",
        "STATION",
        "N° EQUIP.",
        "COMMENTAIRE",
        "Motifs",
    ]
]

df.rename(
    columns={
        "DATE Début": "date_debut_panne",
        "HEURE Début": "heure_debut_panne",
        "DATE Fin": "date_fin_panne",
        "HEURE Fin": "heure_fin_panne",
        # "Durée indispo (j) totale": "nb_jours_indispo",
        "LIGNE": "ligne",
        "STATION": "station",
        "N° EQUIP.": "num_equip",
        "COMMENTAIRE": "commentaire",
        "Motifs": "motifs",
    },
    inplace=True,
)

# Convertir les colonnes de date au format dd/mm/yyyy
df["date_debut_panne"] = pd.to_datetime(df["date_debut_panne"]).dt.strftime("%d/%m/%Y")
df["date_fin_panne"] = pd.to_datetime(df["date_fin_panne"]).dt.strftime("%d/%m/%Y")


# Convertir les colonnes de temps au format HH:MM
def convert_time_format(time_str):
    if isinstance(time_str, str):
        time_str = time_str.replace("h", ":").replace("H", ":")
        if ":" in time_str and len(time_str.split(":")[1]) == 0:
            time_str += "00"
    return time_str


df["heure_debut_panne"] = df["heure_debut_panne"].apply(convert_time_format)
df["heure_fin_panne"] = df["heure_fin_panne"].apply(convert_time_format)

# Créer colonne type_equipement
df["type_equipement"] = (
    df["num_equip"].str.startswith("Asc").map({True: "ascenseur", False: "escalier"})
)

# Créer une colonne annee_debut_panne
df["annee_debut_panne"] = pd.to_datetime(
    df["date_debut_panne"], format="%d/%m/%Y"
).dt.year


# Calculer la durée d'indisponibilité en heures et jours
def calculate_duration(row):
    try:
        start = pd.to_datetime(
            f"{row['date_debut_panne']} {row['heure_debut_panne']}",
            format="%d/%m/%Y %H:%M",
        )
        end = pd.to_datetime(
            f"{row['date_fin_panne']} {row['heure_fin_panne']}", format="%d/%m/%Y %H:%M"
        )
        duration = (end - start).total_seconds() / 3600  # Convertir en heures
        return duration, duration / 24  # Retourner heures et jours
    except Exception:
        return None, None


df[["duree_indispo", "jour_indispo"]] = df.apply(
    calculate_duration, axis=1, result_type="expand"
)

# Replace 'T1 ' with 'T1' in the 'ligne' column
df["ligne"] = df["ligne"].str.replace("T1 ", "T1", regex=False)

# Extract integers from the 'num_equip' column and create a new column 'id'
df["id"] = (
    df["num_equip"].str.extract(r"(\d+)").astype(float)
)  # Use raw string for regex

df.to_csv(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_janv_25_clean.csv"),
    sep=";",
    index=False,
)

df.to_excel(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_janv_25_clean.xlsx"),
    index=False,
)

  for idx, row in parser.parse():


In [61]:
file_path = os.path.join(
    os.getcwd(), "points_marquants", "Points marquants maintenance Fevrier 2025.xlsx"
)

df = pd.read_excel(file_path, skiprows=1, sheet_name="Fevr 25")

# Filtrer les colonnes
df = df[
    [
        "DATE Début",
        "HEURE Début",
        "DATE Fin",
        "HEURE Fin",
        # "Durée indispo (j) totale",
        "LIGNE",
        "STATION",
        "N° EQUIP.",
        "COMMENTAIRE",
        "Motifs",
    ]
]

df.rename(
    columns={
        "DATE Début": "date_debut_panne",
        "HEURE Début": "heure_debut_panne",
        "DATE Fin": "date_fin_panne",
        "HEURE Fin": "heure_fin_panne",
        # "Durée indispo (j) totale": "nb_jours_indispo",
        "LIGNE": "ligne",
        "STATION": "station",
        "N° EQUIP.": "num_equip",
        "COMMENTAIRE": "commentaire",
        "Motifs": "motifs",
    },
    inplace=True,
)

# Convertir les colonnes de date au format dd/mm/yyyy
df["date_debut_panne"] = pd.to_datetime(df["date_debut_panne"]).dt.strftime("%d/%m/%Y")
df["date_fin_panne"] = pd.to_datetime(df["date_fin_panne"]).dt.strftime("%d/%m/%Y")


# Convertir les colonnes de temps au format HH:MM
def convert_time_format(time_str):
    if isinstance(time_str, str):
        time_str = time_str.replace("h", ":").replace("H", ":")
        if ":" in time_str and len(time_str.split(":")[1]) == 0:
            time_str += "00"
    return time_str


df["heure_debut_panne"] = df["heure_debut_panne"].apply(convert_time_format)
df["heure_fin_panne"] = df["heure_fin_panne"].apply(convert_time_format)

# Créer colonne type_equipement
df["type_equipement"] = (
    df["num_equip"].str.startswith("Asc").map({True: "ascenseur", False: "escalier"})
)

# Créer une colonne annee_debut_panne
df["annee_debut_panne"] = pd.to_datetime(
    df["date_debut_panne"], format="%d/%m/%Y"
).dt.year


# Calculer la durée d'indisponibilité en heures et jours
def calculate_duration(row):
    try:
        start = pd.to_datetime(
            f"{row['date_debut_panne']} {row['heure_debut_panne']}",
            format="%d/%m/%Y %H:%M",
        )
        end = pd.to_datetime(
            f"{row['date_fin_panne']} {row['heure_fin_panne']}", format="%d/%m/%Y %H:%M"
        )
        duration = (end - start).total_seconds() / 3600  # Convertir en heures
        return duration, duration / 24  # Retourner heures et jours
    except Exception:
        return None, None


df[["duree_indispo", "jour_indispo"]] = df.apply(
    calculate_duration, axis=1, result_type="expand"
)

# Replace 'T1 ' with 'T1' in the 'ligne' column
df["ligne"] = df["ligne"].str.replace("T1 ", "T1", regex=False)

# Extract integers from the 'num_equip' column and create a new column 'id'
df["id"] = (
    df["num_equip"].str.extract(r"(\d+)").astype(float)
)  # Use raw string for regex

df.to_csv(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_fev_25_clean.csv"),
    sep=";",
    index=False,
)

df.to_excel(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_fev_25_clean.xlsx"),
    index=False,
)

  for idx, row in parser.parse():


In [62]:
file_path = os.path.join(
    os.getcwd(), "points_marquants", "Points marquants maintenance Mars 2025.xlsx"
)

df = pd.read_excel(file_path, skiprows=1)

# Filtrer les colonnes
df = df[
    [
        "DATE Début",
        "HEURE Début",
        "DATE Fin",
        "HEURE Fin",
        # "Durée indispo (j) totale",
        "LIGNE",
        "STATION",
        "N° EQUIP.",
        "COMMENTAIRE",
        "Motifs",
    ]
]

df.rename(
    columns={
        "DATE Début": "date_debut_panne",
        "HEURE Début": "heure_debut_panne",
        "DATE Fin": "date_fin_panne",
        "HEURE Fin": "heure_fin_panne",
        # "Durée indispo (j) totale": "nb_jours_indispo",
        "LIGNE": "ligne",
        "STATION": "station",
        "N° EQUIP.": "num_equip",
        "COMMENTAIRE": "commentaire",
        "Motifs": "motifs",
    },
    inplace=True,
)

# Convertir les colonnes de date au format dd/mm/yyyy
df["date_debut_panne"] = pd.to_datetime(df["date_debut_panne"]).dt.strftime("%d/%m/%Y")
df["date_fin_panne"] = pd.to_datetime(df["date_fin_panne"]).dt.strftime("%d/%m/%Y")


# Convertir les colonnes de temps au format HH:MM
def convert_time_format(time_str):
    if isinstance(time_str, str):
        time_str = time_str.replace("h", ":").replace("H", ":")
        if ":" in time_str and len(time_str.split(":")[1]) == 0:
            time_str += "00"
    return time_str


df["heure_debut_panne"] = df["heure_debut_panne"].apply(convert_time_format)
df["heure_fin_panne"] = df["heure_fin_panne"].apply(convert_time_format)

# Créer colonne type_equipement
df["type_equipement"] = (
    df["num_equip"].str.startswith("Asc").map({True: "ascenseur", False: "escalier"})
)

# Créer une colonne annee_debut_panne
df["annee_debut_panne"] = pd.to_datetime(
    df["date_debut_panne"], format="%d/%m/%Y"
).dt.year


# Calculer la durée d'indisponibilité en heures et jours
def calculate_duration(row):
    try:
        start = pd.to_datetime(
            f"{row['date_debut_panne']} {row['heure_debut_panne']}",
            format="%d/%m/%Y %H:%M",
        )
        end = pd.to_datetime(
            f"{row['date_fin_panne']} {row['heure_fin_panne']}", format="%d/%m/%Y %H:%M"
        )
        duration = (end - start).total_seconds() / 3600  # Convertir en heures
        return duration, duration / 24  # Retourner heures et jours
    except Exception:
        return None, None


df[["duree_indispo", "jour_indispo"]] = df.apply(
    calculate_duration, axis=1, result_type="expand"
)

# Replace 'T1 ' with 'T1' in the 'ligne' column
df["ligne"] = df["ligne"].str.replace("T1 ", "T1", regex=False)

# Extract integers from the 'num_equip' column and create a new column 'id'
df["id"] = (
    df["num_equip"].str.extract(r"(\d+)").astype(float)
)  # Use raw string for regex

df.to_csv(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_mars_25_clean.csv"),
    sep=";",
    index=False,
)

df.to_excel(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_mars_25_clean.xlsx"),
    index=False,
)

  for idx, row in parser.parse():
  for idx, row in parser.parse():


PermissionError: [Errno 13] Permission denied: 'c:\\Users\\VBO\\code\\asc_esc_consolide\\points_marquants\\points_marquants_mars_25_clean.xlsx'

In [None]:
# Définir le chemin vers le dossier contenant les fichiers Excel
folder_path = os.path.join(os.getcwd(), "points_marquants")

# Lire les fichiers CSV
janv_df = pd.read_csv(os.path.join(folder_path, 'points_marquants_janv_25_clean.csv'), delimiter=';')
fev_df = pd.read_csv(os.path.join(folder_path, 'points_marquants_fev_25_clean.csv'), delimiter=';')
mars_df = pd.read_csv(os.path.join(folder_path, 'points_marquants_mars_25_clean.csv'), delimiter=';')

# Fusionner les fichiers sur la colonne 'num_equip'
merged_df = pd.concat([fev_df, janv_df, mars_df])

# Vérifier les doublons dans la colonne 'date_debut_panne'
duplicates = merged_df.duplicated(subset=['date_debut_panne'], keep=False)

# Afficher les lignes avec des doublons
duplicate_rows = merged_df[duplicates]
print(duplicate_rows)
print(duplicate_rows["num_equip"].unique())

# Garder les lignes avec la date_fin_panne et/ou heure_fin_panne la plus élevée
merged_df["datetime_fin_panne"] = pd.to_datetime(
    merged_df["date_fin_panne"] + " " + merged_df["heure_fin_panne"].fillna("00:00"),
    format="%d/%m/%Y %H:%M",
    errors="coerce",
)

result_df = merged_df.loc[
    merged_df.groupby("num_equip")["datetime_fin_panne"].idxmax()
].reset_index(drop=True)

# Supprimer la colonne temporaire
result_df.drop(columns=["datetime_fin_panne"], inplace=True)

# # Garder la date de début de panne minimale et la date de fin de panne maximale pour chaque équipement
# result_df = merged_df.groupby('num_equip').agg(
#     date_debut_panne_min=pd.NamedAgg(column='date_debut_panne', aggfunc='min'),
#     date_fin_panne_max=pd.NamedAgg(column='date_fin_panne', aggfunc='max')
#     ).reset_index()

# # Sauvegarder le fichier CSV fusionné
# result_df.to_csv(os.path.join(folder_path, 'points_marquants_fusionnes.csv'), index=False, sep=';')

   date_debut_panne heure_debut_panne date_fin_panne heure_fin_panne ligne  \
0        30/12/2023               NaN     31/03/2025             NaN     D   
1        29/08/2024             17:34     10/04/2025             NaN     B   
2        06/09/2024             09:00     01/05/2025             NaN     D   
3        13/10/2024             17:00     10/04/2025             NaN     B   
4        23/10/2024              7:47     30/03/2025             NaN     B   
..              ...               ...            ...             ...   ...   
51       25/03/2025             09:52     31/03/2025           16:57     D   
52       25/03/2025             13:25     10/04/2025           12:00     D   
53       25/03/2025             15:15     13/04/2025             NaN     D   
56       30/03/2025             00:10     07/04/2025           16:15     D   
57       30/03/2025              5:20     31/03/2025           14:00     A   

                station  num_equip  \
0            Vieux Lyon  