In [78]:
# Importer les bibliothèques nécessaires
import pandas as pd
import os

In [79]:
file_path = os.path.join(
    os.getcwd(), "points_marquants", "Points marquants maintenance 2024.xlsx"
)

df = pd.read_excel(file_path)

# Filtrer les colonnes
df = df[
    [
        "DATE Début",
        "HEURE Début",
        "DATE Fin",
        "HEURE Fin",
        # "Durée indispo (j) totale",
        "LIGNE",
        "STATION",
        "N° EQUIP.",
        "COMMENTAIRE",
        "Motifs",
    ]
]

df.rename(
    columns={
        "DATE Début": "date_debut_panne",
        "HEURE Début": "heure_debut_panne",
        "DATE Fin": "date_fin_panne",
        "HEURE Fin": "heure_fin_panne",
        # "Durée indispo (j) totale": "nb_jours_indispo",
        "LIGNE": "ligne",
        "STATION": "station",
        "N° EQUIP.": "num_equip",
        "COMMENTAIRE": "commentaire",
        "Motifs": "motifs",
    },
    inplace=True,
)

# Convertir les colonnes de date au format dd/mm/yyyy
df["date_debut_panne"] = pd.to_datetime(df["date_debut_panne"]).dt.strftime("%d/%m/%Y")
df["date_fin_panne"] = pd.to_datetime(df["date_fin_panne"]).dt.strftime("%d/%m/%Y")


# Convertir les colonnes de temps au format HH:MM
def convert_time_format(time_str):
    if isinstance(time_str, str):
        time_str = time_str.replace("h", ":").replace("H", ":")
        if ":" in time_str and len(time_str.split(":")[1]) == 0:
            time_str += "00"
    return time_str


df["heure_debut_panne"] = df["heure_debut_panne"].apply(convert_time_format)
df["heure_fin_panne"] = df["heure_fin_panne"].apply(convert_time_format)

# Créer colonne type_equipement
df["type_equipement"] = (
    df["num_equip"].str.startswith("Asc").map({True: "ascenseur", False: "escalier"})
)

# Créer une colonne annee_debut_panne
df["annee_debut_panne"] = pd.to_datetime(
    df["date_debut_panne"], format="%d/%m/%Y"
).dt.year


# Calculer la durée d'indisponibilité en heures et jours
def calculate_duration(row):
    try:
        start = pd.to_datetime(
            f"{row['date_debut_panne']} {row['heure_debut_panne']}",
            format="%d/%m/%Y %H:%M",
        )
        end = pd.to_datetime(
            f"{row['date_fin_panne']} {row['heure_fin_panne']}", format="%d/%m/%Y %H:%M"
        )
        duration = (end - start).total_seconds() / 3600  # Convertir en heures
        return duration, duration / 24  # Retourner heures et jours
    except Exception:
        return None, None


df[["duree_indispo", "jour_indispo"]] = df.apply(
    calculate_duration, axis=1, result_type="expand"
)

# Replace 'T1 ' with 'T1' in the 'ligne' column
df["ligne"] = df["ligne"].str.replace("T1 ", "T1", regex=False)

# Extract integers from the 'num_equip' column and create a new column 'id'
df["id"] = (
    df["num_equip"].str.extract(r"(\d+)").astype(float)
)  # Use raw string for regex

df.to_csv(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_24_clean.csv"),
    sep=";",
    index=False,
)

df.to_excel(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_24_clean.xlsx"),
    index=False,
)



In [80]:
file_path = os.path.join(
    os.getcwd(), "points_marquants", "Points marquants maintenance Janv 2025.xlsx"
)

df = pd.read_excel(file_path, skiprows=1)

# Filtrer les colonnes
df = df[
    [
        "DATE Début",
        "HEURE Début",
        "DATE Fin",
        "HEURE Fin",
        # "Durée indispo (j) totale",
        "LIGNE",
        "STATION",
        "N° EQUIP.",
        "COMMENTAIRE",
        "Motifs",
    ]
]

df.rename(
    columns={
        "DATE Début": "date_debut_panne",
        "HEURE Début": "heure_debut_panne",
        "DATE Fin": "date_fin_panne",
        "HEURE Fin": "heure_fin_panne",
        # "Durée indispo (j) totale": "nb_jours_indispo",
        "LIGNE": "ligne",
        "STATION": "station",
        "N° EQUIP.": "num_equip",
        "COMMENTAIRE": "commentaire",
        "Motifs": "motifs",
    },
    inplace=True,
)

# Convertir les colonnes de date au format dd/mm/yyyy
df["date_debut_panne"] = pd.to_datetime(df["date_debut_panne"]).dt.strftime("%d/%m/%Y")
df["date_fin_panne"] = pd.to_datetime(df["date_fin_panne"]).dt.strftime("%d/%m/%Y")


# Convertir les colonnes de temps au format HH:MM
def convert_time_format(time_str):
    if isinstance(time_str, str):
        time_str = time_str.replace("h", ":").replace("H", ":")
        if ":" in time_str and len(time_str.split(":")[1]) == 0:
            time_str += "00"
    return time_str


df["heure_debut_panne"] = df["heure_debut_panne"].apply(convert_time_format)
df["heure_fin_panne"] = df["heure_fin_panne"].apply(convert_time_format)

# Créer colonne type_equipement
df["type_equipement"] = (
    df["num_equip"].str.startswith("Asc").map({True: "ascenseur", False: "escalier"})
)

# Créer une colonne annee_debut_panne
df["annee_debut_panne"] = pd.to_datetime(
    df["date_debut_panne"], format="%d/%m/%Y"
).dt.year


# Calculer la durée d'indisponibilité en heures et jours
def calculate_duration(row):
    try:
        start = pd.to_datetime(
            f"{row['date_debut_panne']} {row['heure_debut_panne']}",
            format="%d/%m/%Y %H:%M",
        )
        end = pd.to_datetime(
            f"{row['date_fin_panne']} {row['heure_fin_panne']}", format="%d/%m/%Y %H:%M"
        )
        duration = (end - start).total_seconds() / 3600  # Convertir en heures
        return duration, duration / 24  # Retourner heures et jours
    except Exception:
        return None, None


df[["duree_indispo", "jour_indispo"]] = df.apply(
    calculate_duration, axis=1, result_type="expand"
)

# Replace 'T1 ' with 'T1' in the 'ligne' column
df["ligne"] = df["ligne"].str.replace("T1 ", "T1", regex=False)

# Extract integers from the 'num_equip' column and create a new column 'id'
df["id"] = (
    df["num_equip"].str.extract(r"(\d+)").astype(float)
)  # Use raw string for regex

df.to_csv(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_janv_25_clean.csv"),
    sep=";",
    index=False,
)

df.to_excel(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_janv_25_clean.xlsx"),
    index=False,
)

  for idx, row in parser.parse():


In [81]:
file_path = os.path.join(
    os.getcwd(), "points_marquants", "Points marquants maintenance Fevrier 2025.xlsx"
)

df = pd.read_excel(file_path, skiprows=1, sheet_name="Fevr 25")

# Filtrer les colonnes
df = df[
    [
        "DATE Début",
        "HEURE Début",
        "DATE Fin",
        "HEURE Fin",
        # "Durée indispo (j) totale",
        "LIGNE",
        "STATION",
        "N° EQUIP.",
        "COMMENTAIRE",
        "Motifs",
    ]
]

df.rename(
    columns={
        "DATE Début": "date_debut_panne",
        "HEURE Début": "heure_debut_panne",
        "DATE Fin": "date_fin_panne",
        "HEURE Fin": "heure_fin_panne",
        # "Durée indispo (j) totale": "nb_jours_indispo",
        "LIGNE": "ligne",
        "STATION": "station",
        "N° EQUIP.": "num_equip",
        "COMMENTAIRE": "commentaire",
        "Motifs": "motifs",
    },
    inplace=True,
)

# Convertir les colonnes de date au format dd/mm/yyyy
df["date_debut_panne"] = pd.to_datetime(df["date_debut_panne"]).dt.strftime("%d/%m/%Y")
df["date_fin_panne"] = pd.to_datetime(df["date_fin_panne"]).dt.strftime("%d/%m/%Y")


# Convertir les colonnes de temps au format HH:MM
def convert_time_format(time_str):
    if isinstance(time_str, str):
        time_str = time_str.replace("h", ":").replace("H", ":")
        if ":" in time_str and len(time_str.split(":")[1]) == 0:
            time_str += "00"
    return time_str


df["heure_debut_panne"] = df["heure_debut_panne"].apply(convert_time_format)
df["heure_fin_panne"] = df["heure_fin_panne"].apply(convert_time_format)

# Créer colonne type_equipement
df["type_equipement"] = (
    df["num_equip"].str.startswith("Asc").map({True: "ascenseur", False: "escalier"})
)

# Créer une colonne annee_debut_panne
df["annee_debut_panne"] = pd.to_datetime(
    df["date_debut_panne"], format="%d/%m/%Y"
).dt.year


# Calculer la durée d'indisponibilité en heures et jours
def calculate_duration(row):
    try:
        start = pd.to_datetime(
            f"{row['date_debut_panne']} {row['heure_debut_panne']}",
            format="%d/%m/%Y %H:%M",
        )
        end = pd.to_datetime(
            f"{row['date_fin_panne']} {row['heure_fin_panne']}", format="%d/%m/%Y %H:%M"
        )
        duration = (end - start).total_seconds() / 3600  # Convertir en heures
        return duration, duration / 24  # Retourner heures et jours
    except Exception:
        return None, None


df[["duree_indispo", "jour_indispo"]] = df.apply(
    calculate_duration, axis=1, result_type="expand"
)

# Replace 'T1 ' with 'T1' in the 'ligne' column
df["ligne"] = df["ligne"].str.replace("T1 ", "T1", regex=False)

# Extract integers from the 'num_equip' column and create a new column 'id'
df["id"] = (
    df["num_equip"].str.extract(r"(\d+)").astype(float)
)  # Use raw string for regex

df.to_csv(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_fev_25_clean.csv"),
    sep=";",
    index=False,
)

df.to_excel(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_fev_25_clean.xlsx"),
    index=False,
)

  for idx, row in parser.parse():


In [82]:
file_path = os.path.join(
    os.getcwd(), "points_marquants", "Points marquants maintenance Mars 2025.xlsx"
)

df = pd.read_excel(file_path, skiprows=1)

# Filtrer les colonnes
df = df[
    [
        "DATE Début",
        "HEURE Début",
        "DATE Fin",
        "HEURE Fin",
        # "Durée indispo (j) totale",
        "LIGNE",
        "STATION",
        "N° EQUIP.",
        "COMMENTAIRE",
        "Motifs",
    ]
]

df.rename(
    columns={
        "DATE Début": "date_debut_panne",
        "HEURE Début": "heure_debut_panne",
        "DATE Fin": "date_fin_panne",
        "HEURE Fin": "heure_fin_panne",
        # "Durée indispo (j) totale": "nb_jours_indispo",
        "LIGNE": "ligne",
        "STATION": "station",
        "N° EQUIP.": "num_equip",
        "COMMENTAIRE": "commentaire",
        "Motifs": "motifs",
    },
    inplace=True,
)

# Convertir les colonnes de date au format dd/mm/yyyy
df["date_debut_panne"] = pd.to_datetime(df["date_debut_panne"]).dt.strftime("%d/%m/%Y")
df["date_fin_panne"] = pd.to_datetime(df["date_fin_panne"]).dt.strftime("%d/%m/%Y")


# Convertir les colonnes de temps au format HH:MM
def convert_time_format(time_str):
    if isinstance(time_str, str):
        time_str = time_str.replace("h", ":").replace("H", ":")
        if ":" in time_str and len(time_str.split(":")[1]) == 0:
            time_str += "00"
    return time_str


df["heure_debut_panne"] = df["heure_debut_panne"].apply(convert_time_format)
df["heure_fin_panne"] = df["heure_fin_panne"].apply(convert_time_format)

# Créer colonne type_equipement
df["type_equipement"] = (
    df["num_equip"].str.startswith("Asc").map({True: "ascenseur", False: "escalier"})
)

# Créer une colonne annee_debut_panne
df["annee_debut_panne"] = pd.to_datetime(
    df["date_debut_panne"], format="%d/%m/%Y"
).dt.year


# Calculer la durée d'indisponibilité en heures et jours
def calculate_duration(row):
    try:
        start = pd.to_datetime(
            f"{row['date_debut_panne']} {row['heure_debut_panne']}",
            format="%d/%m/%Y %H:%M",
        )
        end = pd.to_datetime(
            f"{row['date_fin_panne']} {row['heure_fin_panne']}", format="%d/%m/%Y %H:%M"
        )
        duration = (end - start).total_seconds() / 3600  # Convertir en heures
        return duration, duration / 24  # Retourner heures et jours
    except Exception:
        return None, None


df[["duree_indispo", "jour_indispo"]] = df.apply(
    calculate_duration, axis=1, result_type="expand"
)

# Replace 'T1 ' with 'T1' in the 'ligne' column
df["ligne"] = df["ligne"].str.replace("T1 ", "T1", regex=False)

# Extract integers from the 'num_equip' column and create a new column 'id'
df["id"] = (
    df["num_equip"].str.extract(r"(\d+)").astype(float)
)  # Use raw string for regex

df.to_csv(
    os.path.join(os.getcwd(), "points_marquants", "points_marquants_mars_25_clean.csv"),
    sep=";",
    index=False,
)

df.to_excel(os.path.join(os.getcwd(), "points_marquants", "points_marquants_mars_25_clean.xlsx"),index=False,)

  for idx, row in parser.parse():
  for idx, row in parser.parse():


In [None]:
# Définir le chemin vers le dossier contenant les fichiers Excel
folder_path = os.path.join(os.getcwd(), "points_marquants")

# Lire les fichiers CSV
janv_df = pd.read_csv(os.path.join(folder_path, 'points_marquants_janv_25_clean.csv'), delimiter=';')
fev_df = pd.read_csv(os.path.join(folder_path, 'points_marquants_fev_25_clean.csv'), delimiter=';')
mars_df = pd.read_csv(os.path.join(folder_path, 'points_marquants_mars_25_clean.csv'), delimiter=';')

# Fusionner les fichiers sur la colonne 'num_equip'
merged_df = pd.concat([fev_df, janv_df, mars_df])

# Vérifier les doublons dans la colonne 'date_debut_panne'
duplicates = merged_df.duplicated(subset=['date_debut_panne','num_equip'], keep=False)

# Afficher les lignes avec des doublons
duplicate_rows = merged_df[duplicates]




   date_debut_panne heure_debut_panne date_fin_panne heure_fin_panne ligne  \
28       05/02/2025             11:53     31/03/2025             NaN     D   
28       02/01/2025             17:47     08/03/2025             NaN     D   
28       20/02/2025             23:20     30/04/2025             NaN     B   
22       02/02/2025             06:00     31/03/2025             NaN     A   
22       17/12/2024             13:13     22/02/2025             NaN     D   
..              ...               ...            ...             ...   ...   
5        23/10/2024              7:47     30/03/2025             NaN     B   
5        30/10/2024             12:00     31/05/2025             NaN     D   
0        30/12/2023               NaN     31/03/2025             NaN     D   
0        30/12/2023               NaN     01/03/2025             NaN     D   
0        30/12/2023               NaN     07/04/2025           07:45     D   

          station  num_equip  \
28      Garibaldi  Esc. 7701   

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  duplicate_rows['datetime_fin_panne'] = pd.to_datetime(duplicate_rows['date_fin_panne'], format='%d/%m/%Y', errors='coerce')
