In [None]:
import pandas as pd

# Lista de file_ids de los archivos públicos en Drive
file_ids = [
    "1yD28PmPmByNvtJAlZ7JchKuOss_oUYv_",    #mayo
    "1WnnLypdzIi9whk54FwpXG2ersSyGlnhT",    #junio
    "1aoQngs8yK65wTd8Kqqkw_K5lCKAUKQEz",    #julio
    "1pkNHi90yDIPVwjN_5QhQAgqwilqxeyow",    #agosto
    "1Duiq8PFAaSf8adVdWZPJvUcBxKlLyo_N",    #septiembre
    "1ol1iZJiVlM8Ova8EQjByvLNk01Lzu6Ph",    #octubre
    "1xnvdKLA8r3PSkB8UvEQq2VHGVHG8JnTC"     #noviembre
]
dfs = []

for file_id in file_ids:
    try:
        url = f"https://drive.google.com/uc?id={file_id}"
        df = pd.read_excel(url, sheet_name="AGU01 PERFIL", engine="openpyxl", header=1)
        dfs.append(df)
    except Exception as e:
        print(f"Error al leer archivo con ID {file_id}: {e}")

# Unir todos los DataFrames
df_total = pd.concat(dfs, ignore_index=True)

# Ver los primeros registros
print(df_total.head())



                           Load Profile Data Display           Unnamed: 1  \
1                                                                     NaN   
2                                                  #            0-0:1.0.0   
3                                                  1  2024-05-01 00:15:00   
4                                                  2  2024-05-01 00:30:00   

            Unnamed: 2      Unnamed: 3      Unnamed: 4        Unnamed: 5  \
0                  NaN             NaN             NaN               NaN   
1                  NaN         (W) RET        (W) INY.               NaN   
2  0-0:96.240.12 [hex]  1-1:1.5.0 [kW]  1-1:2.5.0 [kW]  1-1:5.5.0 [kvar]   
3             80800000             424               0               202   
4             80800000             421               0               210   

         Unnamed: 6        Unnamed: 7        Unnamed: 8       Unnamed: 9  ...  \
0               NaN               NaN               NaN              NaN  ..

In [None]:
        # Mantener solo las primeras 17 columnas
df_total = df_total.iloc[:, :17]

# Eliminar la columna 3
df_total = df_total.drop(df_total.columns[2], axis=1)

# Renombrar columnas
df_total.columns = [
    'Nro',
    'Fecha',
    'Potencia_activa_consumida [kW]',
    'Potencia_activa_generada [kW]',
    'Potencia_reactiva_consumida1 [kVAr]',
    'Potencia_reactiva_consumida2 [kVAr]',
    'Potencia_reactiva_generada1 [kVAr]',
    'Potencia_reactiva_generada2 [kVAr]',
    'Potencia_aparente_consumida [kVA]',
    'Potencia_aparente_generada [kVA]',
    'Voltaje_F-N_A [kV]',
    'Voltaje_F-N_B [kV]',
    'Voltaje_F-N_C [kV]',
    'Amperaje_A [A]',
    'Amperaje_B [A]',
    'Amperaje_C [A]'
]

In [None]:
print(df_total.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21052 entries, 0 to 21051
Data columns (total 16 columns):
 #   Column                               Non-Null Count  Dtype 
---  ------                               --------------  ----- 
 0   Nro                                  19161 non-null  object
 1   Fecha                                19147 non-null  object
 2   Potencia_activa_consumida [kW]       19154 non-null  object
 3   Potencia_activa_generada [kW]        19154 non-null  object
 4   Potencia_reactiva_consumida1 [kVAr]  19147 non-null  object
 5   Potencia_reactiva_consumida2 [kVAr]  19147 non-null  object
 6   Potencia_reactiva_generada1 [kVAr]   19147 non-null  object
 7   Potencia_reactiva_generada2 [kVAr]   19147 non-null  object
 8   Potencia_aparente_consumida [kVA]    19147 non-null  object
 9   Potencia_aparente_generada [kVA]     19147 non-null  object
 10  Voltaje_F-N_A [kV]                   19147 non-null  object
 11  Voltaje_F-N_B [kV]                   1914

In [None]:
# Eliminar filas no útiles (las primeras 3)
df_total = df_total.iloc[3:].copy()

# Reiniciar el índice
df_total.reset_index(drop=True, inplace=True)


In [None]:
print(df_total.head())


  Nro                Fecha Potencia_activa_consumida [kW]  \
0   1  2024-05-01 00:15:00                            424   
1   2  2024-05-01 00:30:00                            421   
2   3  2024-05-01 00:45:00                            494   
3   4  2024-05-01 01:00:00                            610   
4   5  2024-05-01 01:15:00                            562   

  Potencia_activa_generada [kW] Potencia_reactiva_consumida1 [kVAr]  \
0                             0                                 202   
1                             0                                 210   
2                             0                                 269   
3                             0                                 348   
4                             0                                 321   

  Potencia_reactiva_consumida2 [kVAr] Potencia_reactiva_generada1 [kVAr]  \
0                                   0                                  0   
1                                   0                 

In [None]:
# convertir la columna fecha a formato datetime
df_total['Fecha'] = pd.to_datetime(df_total['Fecha'], errors='coerce')

In [None]:
# Convertir todas las demás columnas numéricas
columnas_numericas = df_total.columns.drop(['Fecha'])

for col in columnas_numericas:
    df_total[col] = pd.to_numeric(df_total[col], errors='coerce')

In [None]:
print(df_total.head())


   Nro               Fecha  Potencia_activa_consumida [kW]  \
0  1.0 2024-05-01 00:15:00                           424.0   
1  2.0 2024-05-01 00:30:00                           421.0   
2  3.0 2024-05-01 00:45:00                           494.0   
3  4.0 2024-05-01 01:00:00                           610.0   
4  5.0 2024-05-01 01:15:00                           562.0   

   Potencia_activa_generada [kW]  Potencia_reactiva_consumida1 [kVAr]  \
0                            0.0                                202.0   
1                            0.0                                210.0   
2                            0.0                                269.0   
3                            0.0                                348.0   
4                            0.0                                321.0   

   Potencia_reactiva_consumida2 [kVAr]  Potencia_reactiva_generada1 [kVAr]  \
0                                  0.0                                 0.0   
1                               

In [None]:
df_total.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21049 entries, 0 to 21048
Data columns (total 16 columns):
 #   Column                               Non-Null Count  Dtype         
---  ------                               --------------  -----         
 0   Nro                                  19140 non-null  float64       
 1   Fecha                                19140 non-null  datetime64[ns]
 2   Potencia_activa_consumida [kW]       19140 non-null  float64       
 3   Potencia_activa_generada [kW]        19140 non-null  float64       
 4   Potencia_reactiva_consumida1 [kVAr]  19140 non-null  float64       
 5   Potencia_reactiva_consumida2 [kVAr]  19140 non-null  float64       
 6   Potencia_reactiva_generada1 [kVAr]   19140 non-null  float64       
 7   Potencia_reactiva_generada2 [kVAr]   19140 non-null  float64       
 8   Potencia_aparente_consumida [kVA]    19140 non-null  float64       
 9   Potencia_aparente_generada [kVA]     19140 non-null  float64       
 10  Voltaje_F-

In [None]:
# creamos una nueva columna para buscar fechas que pueden estar repetidas y poder hacer la eliminacion de duplicados
df_total = df_total.sort_values('Fecha')  # Ordenamos la tabla por la columna fecha
df_total['Delta'] = df_total['Fecha'].diff()  # Creamos una columna que contiene la diferencia de cada fila y la anterior
print(df_total['Delta'].value_counts())

Delta
0 days 00:15:00    18748
0 days 00:00:00      391
Name: count, dtype: int64


In [None]:
# Eliminar las filas con diferencia de 0 minutos entre fechas consecutivas
df_total = df_total[df_total['Delta'] != pd.Timedelta(0)]

# Eliminar la columna auxiliar
df_total = df_total.drop(columns=['Delta'])

# Verificar resultado
print(df_total.shape)


(20658, 16)


In [None]:
# eliminamos duplicados globales en la columna fecha
df_total = df_total[~df_total['Fecha'].duplicated(keep=False)]

In [None]:
print(df_total.shape)

(18749, 16)


In [None]:
print(df_total.head(50))

     Nro               Fecha  Potencia_activa_consumida [kW]  \
0    1.0 2024-05-01 00:15:00                           424.0   
1    2.0 2024-05-01 00:30:00                           421.0   
2    3.0 2024-05-01 00:45:00                           494.0   
3    4.0 2024-05-01 01:00:00                           610.0   
4    5.0 2024-05-01 01:15:00                           562.0   
5    6.0 2024-05-01 01:30:00                           499.0   
6    7.0 2024-05-01 01:45:00                           513.0   
7    8.0 2024-05-01 02:00:00                           495.0   
8    9.0 2024-05-01 02:15:00                           482.0   
9   10.0 2024-05-01 02:30:00                           507.0   
10  11.0 2024-05-01 02:45:00                           594.0   
11  12.0 2024-05-01 03:00:00                           557.0   
12  13.0 2024-05-01 03:15:00                           558.0   
13  14.0 2024-05-01 03:30:00                           575.0   
14  15.0 2024-05-01 03:45:00            

In [None]:
# ordenamos datos
df_total = df_total.sort_values('Fecha').reset_index(drop=True)

In [None]:
# Creamos una nueva columna Nro_evento que sera nuestro indice
df_total['Nro_evento'] = range(1, len(df_total) + 1)

In [None]:
# eliminamos la columna Nro
if 'Nro' in df_total.columns:
    df_total = df_total.drop(columns=['Nro'])


In [None]:
# Reorganizamos las columnas
columnas = ['Nro_evento'] + [col for col in df_total.columns if col != 'Nro_evento']
df_total = df_total[columnas]

In [None]:
print(df_total.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18749 entries, 0 to 18748
Data columns (total 16 columns):
 #   Column                               Non-Null Count  Dtype         
---  ------                               --------------  -----         
 0   Nro_evento                           18749 non-null  int64         
 1   Fecha                                18749 non-null  datetime64[ns]
 2   Potencia_activa_consumida [kW]       18749 non-null  float64       
 3   Potencia_activa_generada [kW]        18749 non-null  float64       
 4   Potencia_reactiva_consumida1 [kVAr]  18749 non-null  float64       
 5   Potencia_reactiva_consumida2 [kVAr]  18749 non-null  float64       
 6   Potencia_reactiva_generada1 [kVAr]   18749 non-null  float64       
 7   Potencia_reactiva_generada2 [kVAr]   18749 non-null  float64       
 8   Potencia_aparente_consumida [kVA]    18749 non-null  float64       
 9   Potencia_aparente_generada [kVA]     18749 non-null  float64       
 10  Voltaje_F-

In [None]:
# creacion de archivo de la tabla limpia
df_total.to_excel("AGU01_limpio.xlsx", index=False)
