## Instalación de librerias

In [2]:
!pip install seaborn




In [3]:
pip install plotly





## Exploración del Dataset

In [5]:
import pandas as pd
import plotly.graph_objs as go
import matplotlib.pyplot as plt
import plotly.io as pio
import seaborn as sns
import plotly.express as px
from collections import defaultdict
import numpy as np
import os
from sklearn.metrics import mean_absolute_error, root_mean_squared_error


In [6]:
# Lista de archivos CSV
archivos = [
    'demandatotal 2021.csv', 
    'demandatotal 2022.csv', 
    'demandatotal 2023.csv', 
    'demandatotal 2024.csv', 
    'demandatotal 2025.csv'
]

dataframes = []
for archivo in archivos:
    df = pd.read_csv(
        archivo,
        sep=';',
        decimal=',',
        encoding='utf-8',
        skiprows=[1],        # Salta la fila con unidades si existe
        low_memory=False
    )

    # Limpiar nombres de columnas (quita saltos y espacios)
    df.columns = [col.replace('\n', ' ').replace('\r', '').strip() for col in df.columns]

    dataframes.append(df)

# Unir todos los DataFrames por nombre de columna
datos_transformadores = pd.concat(dataframes, ignore_index=True, sort=False)


In [7]:
#filtrar columnas a estudiar
Columnas = [
    "SE_Valparaiso.Trf_Valparaiso_T1 Potencia activa media (kW)",
    "SE_Valparaiso.Trf_Valparaiso_T1 Potencia reactiva media (kVAr)",
    "SE_Placeres.Trf_Placeres_T1 Potencia activa media (kW)",
    "SE_Placeres.Trf_Placeres_T1 Potencia reactiva media (kVAr)",
    "SE_Placeres.Trf_Placeres_T2 Potencia activa media (kW)",
    "SE_Placeres.Trf_Placeres_T2 Potencia reactiva media (kVAr)",
    "SE_Placilla.Trf_Placilla_T2 Potencia activa media (kW)",
    "SE_Placilla.Trf_Placilla_T2 Potencia reactiva media (kVAr)",
    "SE_Concon.Trf_Concon_T2_2 Potencia activa media (kW)",
    "SE_Concon.Trf_Concon_T2_2 Potencia reactiva media (kVAr)",
    "SE_Bosquemar.Trf_Bosquemar_T1 Potencia activa media (kW)",
    "SE_Bosquemar.Trf_Bosquemar_T1 Potencia reactiva media (kVAr)",
    "SE_Bosquemar.Trf_Bosquemar_T2 Real Power Mean (kW)",
    "SE_Bosquemar.Trf_Bosquemar_T2 Reactive Power Mean (kVAr)",
    "SE_Playa_Ancha.Trf_Playa_Ancha_T1 Potencia activa media (kW)",
    "SE_Playa_Ancha.Trf_Playa_Ancha_T1 Potencia reactiva media (kVAr)",
    "SE_Playa_Ancha.Trf_Playa_Ancha_T2 Potencia activa media (kW)",
    "SE_Playa_Ancha.Trf_Playa_Ancha_T2 Potencia reactiva media (kVAr)",
    "SE_San_Rafael.Trf_San_Rafael_T1 Potencia activa media (kW)",
    "SE_San_Rafael.Trf_San_Rafael_T1 Potencia reactiva media (kVAr)",
    "SE_San_Rafael.Trf_San_Rafael_T3 Potencia activa media (kW)",
    "SE_San_Rafael.Trf_San_Rafael_T3 Potencia reactiva media (kVAr)",
    "SE_San_Felipe.Trf_San_Felipe_T1 Potencia activa media (kW)",
    "SE_San_Felipe.Trf_San_Felipe_T1 Potencia reactiva media (kVAr)",
    "SE_San_Felipe.Trf_San_Felipe_T2 Potencia activa media (kW)",
    "SE_San_Felipe.Trf_San_Felipe_T2 Potencia reactiva media (kVAr)",
    "SE_Calera.Trf_Calera_T2 Potencia activa media (kW)",
    "SE_Calera.Trf_Calera_T2 Potencia reactiva media (kVAr)",
    "Fecha y hora"

]

In [8]:
datos_transformadores = datos_transformadores[Columnas].copy()


In [9]:
datos_transformadores.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 152256 entries, 0 to 152255
Data columns (total 29 columns):
 #   Column                                                            Non-Null Count   Dtype  
---  ------                                                            --------------   -----  
 0   SE_Valparaiso.Trf_Valparaiso_T1 Potencia activa media (kW)        152255 non-null  float64
 1   SE_Valparaiso.Trf_Valparaiso_T1 Potencia reactiva media (kVAr)    152255 non-null  float64
 2   SE_Placeres.Trf_Placeres_T1 Potencia activa media (kW)            152256 non-null  float64
 3   SE_Placeres.Trf_Placeres_T1 Potencia reactiva media (kVAr)        152256 non-null  float64
 4   SE_Placeres.Trf_Placeres_T2 Potencia activa media (kW)            152255 non-null  float64
 5   SE_Placeres.Trf_Placeres_T2 Potencia reactiva media (kVAr)        152255 non-null  float64
 6   SE_Placilla.Trf_Placilla_T2 Potencia activa media (kW)            152163 non-null  float64
 7   SE_Placilla.Trf_Plac

In [10]:
#variables estadisticas
datos_transformadores.describe()

Unnamed: 0,SE_Valparaiso.Trf_Valparaiso_T1 Potencia activa media (kW),SE_Valparaiso.Trf_Valparaiso_T1 Potencia reactiva media (kVAr),SE_Placeres.Trf_Placeres_T1 Potencia activa media (kW),SE_Placeres.Trf_Placeres_T1 Potencia reactiva media (kVAr),SE_Placeres.Trf_Placeres_T2 Potencia activa media (kW),SE_Placeres.Trf_Placeres_T2 Potencia reactiva media (kVAr),SE_Placilla.Trf_Placilla_T2 Potencia activa media (kW),SE_Placilla.Trf_Placilla_T2 Potencia reactiva media (kVAr),SE_Concon.Trf_Concon_T2_2 Potencia activa media (kW),SE_Concon.Trf_Concon_T2_2 Potencia reactiva media (kVAr),...,SE_San_Rafael.Trf_San_Rafael_T1 Potencia activa media (kW),SE_San_Rafael.Trf_San_Rafael_T1 Potencia reactiva media (kVAr),SE_San_Rafael.Trf_San_Rafael_T3 Potencia activa media (kW),SE_San_Rafael.Trf_San_Rafael_T3 Potencia reactiva media (kVAr),SE_San_Felipe.Trf_San_Felipe_T1 Potencia activa media (kW),SE_San_Felipe.Trf_San_Felipe_T1 Potencia reactiva media (kVAr),SE_San_Felipe.Trf_San_Felipe_T2 Potencia activa media (kW),SE_San_Felipe.Trf_San_Felipe_T2 Potencia reactiva media (kVAr),SE_Calera.Trf_Calera_T2 Potencia activa media (kW),SE_Calera.Trf_Calera_T2 Potencia reactiva media (kVAr)
count,152255.0,152255.0,152256.0,152256.0,152255.0,152255.0,152163.0,152163.0,152254.0,152254.0,...,152256.0,152256.0,152256.0,152256.0,152256.0,152256.0,152255.0,152255.0,152255.0,152255.0
mean,6127.198284,211.331451,9.593843,0.177189,8.721532,0.639918,8776.25773,1289.366602,5.449943,1.654347,...,8.327093,1.891585,3258.974546,1125.124384,11.56343,2.75892,4.837287,1.423944,9.308306,0.683508
std,3665.371213,538.353941,2.006541,0.688,2.209327,0.615759,6217.273881,1238.12425,2.60885,1.14159,...,6.288123,2.499026,6335.961194,1763.09573,5.414135,2.481934,5.327286,2.09875,2.343114,1.077849
min,0.0,-760.470459,0.0,-2.620802,0.0,-0.89329,-0.01,-1094.933105,-7.743689,-9.667972,...,-12.917629,-5.717726,-14470.38184,-2068.353271,-19.066635,-10.858695,-9.81787,-10.635034,-1.774672,-4.162876
25%,4512.57959,-0.364831,7.879642,-0.315403,7.123807,0.194744,16.3,2.2,4.47347,0.931077,...,6.366568,0.619898,-2880.337219,-157.374085,8.990632,0.738827,0.459267,-0.164885,7.454265,-0.020339
50%,7202.771664,41.07262,9.857588,0.170993,8.560496,0.51531,10773.93359,1151.635498,5.864651,1.462888,...,9.145452,1.613688,5930.774659,637.190674,12.055058,2.316944,6.349187,1.025022,9.276958,0.755854
75%,8837.224121,404.6147,10.824621,0.626809,9.810593,0.97065,13614.36133,2328.721801,6.920639,2.270477,...,12.427804,3.207783,7968.393433,1995.441681,15.17179,4.258868,8.886354,2.80131,11.142896,1.447165
max,24165.83984,11055.82422,18.785688,2.957632,19.758825,3.855224,23051.97461,5265.297363,20.88023,8.051741,...,24.419912,9.259402,15706.2041,6731.941895,34.760376,15.002757,24.209816,8.867236,21.803572,5.297851


In [11]:
#revisamos valores nulos
datos_transformadores.isnull().sum()

SE_Valparaiso.Trf_Valparaiso_T1 Potencia activa media (kW)              1
SE_Valparaiso.Trf_Valparaiso_T1 Potencia reactiva media (kVAr)          1
SE_Placeres.Trf_Placeres_T1 Potencia activa media (kW)                  0
SE_Placeres.Trf_Placeres_T1 Potencia reactiva media (kVAr)              0
SE_Placeres.Trf_Placeres_T2 Potencia activa media (kW)                  1
SE_Placeres.Trf_Placeres_T2 Potencia reactiva media (kVAr)              1
SE_Placilla.Trf_Placilla_T2 Potencia activa media (kW)                 93
SE_Placilla.Trf_Placilla_T2 Potencia reactiva media (kVAr)             93
SE_Concon.Trf_Concon_T2_2 Potencia activa media (kW)                    2
SE_Concon.Trf_Concon_T2_2 Potencia reactiva media (kVAr)                2
SE_Bosquemar.Trf_Bosquemar_T1 Potencia activa media (kW)                0
SE_Bosquemar.Trf_Bosquemar_T1 Potencia reactiva media (kVAr)            0
SE_Bosquemar.Trf_Bosquemar_T2 Real Power Mean (kW)                  34564
SE_Bosquemar.Trf_Bosquemar_T2 Reactive

In [12]:
# Seleccionamos las columnas de interés
columnas_objetivo = [
    'SE_Placilla.Trf_Placilla_T2 Potencia activa media (kW)',
    'SE_Placilla.Trf_Placilla_T2 Potencia reactiva media (kVAr)',
    'Fecha y hora'
]

# Filtrar filas con NaNs en cualquiera de las dos columnas de potencia
nulos = datos_transformadores[
    datos_transformadores[
        ['SE_Placilla.Trf_Placilla_T2 Potencia activa media (kW)', 
         'SE_Placilla.Trf_Placilla_T2 Potencia reactiva media (kVAr)']
    ].isnull().any(axis=1)
]

# Mostrar la lista completa incluyendo la columna fecha y hora
print(nulos[columnas_objetivo].to_string(index=False))

 SE_Placilla.Trf_Placilla_T2 Potencia activa media (kW)  SE_Placilla.Trf_Placilla_T2 Potencia reactiva media (kVAr)     Fecha y hora
                                                    NaN                                                         NaN 25-11-2021 13:00
                                                    NaN                                                         NaN  04-04-2022 0:00
                                                    NaN                                                         NaN  18-04-2022 0:00
                                                    NaN                                                         NaN  16-05-2022 0:00
                                                    NaN                                                         NaN  11-12-2022 2:00
                                                    NaN                                                         NaN  11-12-2022 2:15
                                                    NaN              

In [13]:
duplicados_totales = datos_transformadores.duplicated(subset=['Fecha y hora']).sum()
print(f" Total de filas con fecha duplicada: {duplicados_totales}")


 Total de filas con fecha duplicada: 500


## Corrección data

In [15]:
#cambiar fecha a tipo DATE
datos_transformadores['Fecha y hora'] = pd.to_datetime(
    datos_transformadores['Fecha y hora'], errors='coerce', dayfirst=True
)

In [16]:
#tipos de datos
print(datos_transformadores.dtypes)

SE_Valparaiso.Trf_Valparaiso_T1 Potencia activa media (kW)                 float64
SE_Valparaiso.Trf_Valparaiso_T1 Potencia reactiva media (kVAr)             float64
SE_Placeres.Trf_Placeres_T1 Potencia activa media (kW)                     float64
SE_Placeres.Trf_Placeres_T1 Potencia reactiva media (kVAr)                 float64
SE_Placeres.Trf_Placeres_T2 Potencia activa media (kW)                     float64
SE_Placeres.Trf_Placeres_T2 Potencia reactiva media (kVAr)                 float64
SE_Placilla.Trf_Placilla_T2 Potencia activa media (kW)                     float64
SE_Placilla.Trf_Placilla_T2 Potencia reactiva media (kVAr)                 float64
SE_Concon.Trf_Concon_T2_2 Potencia activa media (kW)                       float64
SE_Concon.Trf_Concon_T2_2 Potencia reactiva media (kVAr)                   float64
SE_Bosquemar.Trf_Bosquemar_T1 Potencia activa media (kW)                   float64
SE_Bosquemar.Trf_Bosquemar_T1 Potencia reactiva media (kVAr)               float64
SE_B

### Corrección duplicados

In [18]:
# Filtrar duplicados por fecha
duplicados = datos_transformadores[datos_transformadores.duplicated(subset='Fecha y hora', keep=False)].copy()

# Lista de columnas P y Q (sin la fecha)
columnas_pq = [col for col in datos_transformadores.columns if col != 'Fecha y hora']

# Inicializar resultados
resultados_por_columna = {}

for col in columnas_pq:
    difs = []
    for fecha, grupo in duplicados.groupby('Fecha y hora'):
        valores_unicos = grupo[col].dropna().unique()
        if len(valores_unicos) > 1:
            difs.append({
                'Fecha y hora': fecha,
                'Valores distintos': "; ".join(map(str, valores_unicos))
            })
    if difs:
        resultados_por_columna[col] = pd.DataFrame(difs)

# Mostrar
for col, df in resultados_por_columna.items():
    print(f"\n Diferencias reales en columna: {col}")
    display(df)




 Diferencias reales en columna: SE_Valparaiso.Trf_Valparaiso_T1 Potencia activa media (kW)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,7.670649529; 7.331117153
1,2021-04-03 23:15:00,7.599096298; 7.217227459
2,2021-04-03 23:30:00,7.577868938; 7.099254131
3,2021-04-03 23:45:00,7.352056026; 6.931963921
4,2022-04-02 23:00:00,5949.049805; 5551.317383
5,2022-04-02 23:15:00,5826.722656; 5447.680176
6,2022-04-02 23:30:00,5720.647949; 5332.658203
7,2022-04-02 23:45:00,5619.288574; 5211.668945
8,2024-04-06 23:00:00,5227.395996; 4803.643555
9,2024-04-06 23:15:00,5116.906738; 4754.847168



 Diferencias reales en columna: SE_Valparaiso.Trf_Valparaiso_T1 Potencia reactiva media (kVAr)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,-0.147491604; -0.226810813
1,2021-04-03 23:15:00,-0.181880802; -0.230333835
2,2021-04-03 23:30:00,-0.186770082; -0.263028026
3,2021-04-03 23:45:00,-0.215893447; -0.263363659
4,2022-04-02 23:00:00,-44.78043747; -226.5193939
5,2022-04-02 23:15:00,-169.9120789; -231.2624969
6,2022-04-02 23:30:00,-193.386795; -173.0040131
7,2022-04-02 23:45:00,-203.6680145; -166.5038147
8,2024-04-06 23:00:00,2.328736067; -56.70703888
9,2024-04-06 23:15:00,-2.458311796; -33.40034103



 Diferencias reales en columna: SE_Placeres.Trf_Placeres_T1 Potencia activa media (kW)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,10.13799; 9.327496529
1,2021-04-03 23:15:00,9.87989521; 9.135277748
2,2021-04-03 23:30:00,9.731561661; 8.890352249
3,2021-04-03 23:45:00,9.563715935; 8.641563416
4,2022-04-02 23:00:00,10.1495142; 9.186957359
5,2022-04-02 23:15:00,9.983223915; 8.870559692
6,2022-04-02 23:30:00,9.686823845; 8.640319824
7,2022-04-02 23:45:00,9.472291946; 8.446471214
8,2024-04-06 23:00:00,9.639074326; 8.755750656
9,2024-04-06 23:15:00,9.4148283; 8.60633564



 Diferencias reales en columna: SE_Placeres.Trf_Placeres_T1 Potencia reactiva media (kVAr)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,-0.635275006; -0.767122149
1,2021-04-03 23:15:00,-0.695376396; -0.777453303
2,2021-04-03 23:30:00,-0.694778502; -0.798520029
3,2021-04-03 23:45:00,-0.698404968; -0.770756841
4,2022-04-02 23:00:00,-1.143760204; -1.313165784
5,2022-04-02 23:15:00,-1.214407802; -1.361498713
6,2022-04-02 23:30:00,-1.282096267; -1.383421063
7,2022-04-02 23:45:00,-1.260187984; -1.367290258
8,2024-04-06 23:00:00,-0.058859557; -0.132826567
9,2024-04-06 23:15:00,-0.078966163; -0.190651566



 Diferencias reales en columna: SE_Placeres.Trf_Placeres_T2 Potencia activa media (kW)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,10.27485275; 8.834486008
1,2021-04-03 23:15:00,9.763792038; 8.632545471
2,2021-04-03 23:30:00,9.153233528; 8.356567383
3,2021-04-03 23:45:00,9.0658741; 8.196501732
4,2022-04-02 23:00:00,10.12958908; 9.345446587
5,2022-04-02 23:15:00,10.0413456; 9.016363144
6,2022-04-02 23:30:00,9.840294838; 8.554136276
7,2022-04-02 23:45:00,9.670171738; 8.274440765
8,2024-04-06 23:00:00,9.25569725; 8.354258537
9,2024-04-06 23:15:00,8.938812256; 8.075573921



 Diferencias reales en columna: SE_Placeres.Trf_Placeres_T2 Potencia reactiva media (kVAr)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,0.631350696; 0.291064799
1,2021-04-03 23:15:00,0.501722574; 0.254432589
2,2021-04-03 23:30:00,0.273947507; 0.193763748
3,2021-04-03 23:45:00,0.283793449; 0.229636937
4,2022-04-02 23:00:00,0.518248439; 0.448602676
5,2022-04-02 23:15:00,0.490277916; 0.403705001
6,2022-04-02 23:30:00,0.469174862; 0.30706656
7,2022-04-02 23:45:00,0.480230331; 0.315762758
8,2024-04-06 23:00:00,0.6086514; 0.461686105
9,2024-04-06 23:15:00,0.486933321; 0.433936298



 Diferencias reales en columna: SE_Placilla.Trf_Placilla_T2 Potencia activa media (kW)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,10664.43262; 9783.054688
1,2021-04-03 23:15:00,10437.44043; 9576.46582
2,2021-04-03 23:30:00,10250.34766; 9386.655273
3,2021-04-03 23:45:00,10098.9873; 9157.890625
4,2022-04-02 23:00:00,10880.0; 10050.0
5,2022-04-02 23:15:00,10750.0; 9690.0
6,2022-04-02 23:30:00,10480.0; 9630.0
7,2022-04-02 23:45:00,10420.0; 9360.0
8,2024-04-06 23:00:00,11.89; 11.17
9,2024-04-06 23:15:00,11.84; 10.98



 Diferencias reales en columna: SE_Placilla.Trf_Placilla_T2 Potencia reactiva media (kVAr)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,-36.82220459; -195.3772583
1,2021-04-03 23:15:00,-116.0669785; -193.6909485
2,2021-04-03 23:30:00,-148.1897583; -247.3639069
3,2021-04-03 23:45:00,-132.8099823; -253.0247345
4,2024-04-06 23:00:00,0.84; 0.81
5,2024-04-06 23:15:00,0.87; 0.79
6,2024-04-06 23:30:00,0.87; 0.78
7,2024-04-06 23:45:00,0.84; 0.78
8,2025-04-05 23:00:00,917.6604004; 917.2658081
9,2025-04-05 23:15:00,908.9882813; 845.1002197



 Diferencias reales en columna: SE_Concon.Trf_Concon_T2_2 Potencia activa media (kW)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,3.93791914; 3.819260597
1,2021-04-03 23:15:00,3.910941362; 3.67130208
2,2021-04-03 23:30:00,3.916300535; 3.602154016
3,2021-04-03 23:45:00,3.889925718; 3.769519329
4,2022-04-02 23:00:00,4.25367403; 4.172013283
5,2022-04-02 23:15:00,4.197824001; 4.09769249
6,2022-04-02 23:30:00,4.220563889; 4.033860207
7,2022-04-02 23:45:00,4.165057659; 3.967660666
8,2024-04-06 23:00:00,4.847598553; 4.615825176
9,2024-04-06 23:15:00,4.83147049; 4.59240675



 Diferencias reales en columna: SE_Concon.Trf_Concon_T2_2 Potencia reactiva media (kVAr)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,0.203134835; 0.2825239
1,2021-04-03 23:15:00,0.247121647; 0.228165701
2,2021-04-03 23:30:00,0.286821812; 0.210586816
3,2021-04-03 23:45:00,0.271730453; 0.247260064
4,2022-04-02 23:00:00,0.591081083; 0.497878551
5,2022-04-02 23:15:00,0.543591499; 0.486955434
6,2022-04-02 23:30:00,0.506941974; 0.529187918
7,2022-04-02 23:45:00,0.483953655; 0.576177657
8,2024-04-06 23:00:00,-0.397412896; -0.420958281
9,2024-04-06 23:15:00,-0.425819486; -0.441476703



 Diferencias reales en columna: SE_Bosquemar.Trf_Bosquemar_T1 Potencia activa media (kW)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,9293.892578; 8364.585938
1,2021-04-03 23:15:00,9065.473633; 8196.893555
2,2021-04-03 23:30:00,8831.552734; 7986.038574
3,2021-04-03 23:45:00,8681.047852; 7731.786621
4,2022-04-02 23:00:00,10162.4375; 9041.097656
5,2022-04-02 23:15:00,9826.529297; 8831.12793
6,2022-04-02 23:30:00,9559.637695; 8580.557617
7,2022-04-02 23:45:00,9283.438477; 8334.615234
8,2024-04-06 23:00:00,6822.84668; 6122.927246
9,2024-04-06 23:15:00,6604.556152; 5984.050781



 Diferencias reales en columna: SE_Bosquemar.Trf_Bosquemar_T1 Potencia reactiva media (kVAr)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,1661.540649; 1599.376953
1,2021-04-03 23:15:00,1628.711548; 1579.363037
2,2021-04-03 23:30:00,1637.512939; 1563.363037
3,2021-04-03 23:45:00,1638.436279; 1583.509399
4,2022-04-02 23:00:00,905.0761719; 685.9198608
5,2022-04-02 23:15:00,781.2261353; 642.5179443
6,2022-04-02 23:30:00,725.1912231; 692.5686646
7,2022-04-02 23:45:00,712.5077515; 736.7017822
8,2024-04-06 23:00:00,450.8682861; 408.0688171
9,2024-04-06 23:15:00,427.6648254; 391.8938599



 Diferencias reales en columna: SE_Bosquemar.Trf_Bosquemar_T2 Real Power Mean (kW)


Unnamed: 0,Fecha y hora,Valores distintos
0,2022-03-30 00:00:00,0.322613239; 0.322876513
1,2022-04-02 23:00:00,0.36333701; 0.358887166
2,2022-04-02 23:15:00,0.359090924; 0.359349728
3,2022-04-02 23:30:00,0.359015912; 0.362409145
4,2022-04-02 23:45:00,0.35802722; 0.363963127
...,...,...
487,2025-01-06 00:00:00,0.0; 9634.46582
488,2025-04-05 23:00:00,3256.03833; 2983.022217
489,2025-04-05 23:15:00,3208.728271; 2878.460938
490,2025-04-05 23:30:00,3121.685059; 2799.726563



 Diferencias reales en columna: SE_Bosquemar.Trf_Bosquemar_T2 Reactive Power Mean (kVAr)


Unnamed: 0,Fecha y hora,Valores distintos
0,2022-03-30 00:00:00,-1.433969855; -1.441651464
1,2022-04-02 23:00:00,-1.45787096; -1.458843827
2,2022-04-02 23:15:00,-1.449979782; -1.459972978
3,2022-04-02 23:30:00,-1.451157212; -1.447390318
4,2022-04-02 23:45:00,-1.452806711; -1.433964729
...,...,...
487,2025-01-06 00:00:00,0.0; -240.8009644
488,2025-04-05 23:00:00,185.7671356; 197.1931305
489,2025-04-05 23:15:00,182.1278992; 187.4493256
490,2025-04-05 23:30:00,199.5280914; 185.2688751



 Diferencias reales en columna: SE_Playa_Ancha.Trf_Playa_Ancha_T1 Potencia activa media (kW)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,7.014393806; 6.33464098
1,2021-04-03 23:15:00,6.857873917; 6.182117462
2,2021-04-03 23:30:00,6.7150383; 5.950297356
3,2021-04-03 23:45:00,6.589838505; 5.77366972
4,2022-04-02 23:00:00,7290.766602; 6433.503418
5,2022-04-02 23:15:00,7054.974609; 6210.34375
6,2022-04-02 23:30:00,6902.206543; 6018.030762
7,2022-04-02 23:45:00,6719.125977; 5774.813965
8,2024-04-06 23:00:00,5957.958984; 5280.619629
9,2024-04-06 23:15:00,5770.563477; 5134.339844



 Diferencias reales en columna: SE_Playa_Ancha.Trf_Playa_Ancha_T1 Potencia reactiva media (kVAr)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,0.11451599; 0.037237905
1,2021-04-03 23:15:00,0.08914718; 0.042023379
2,2021-04-03 23:30:00,0.097883224; -0.022469662
3,2021-04-03 23:45:00,0.085895993; -0.016548052
4,2022-04-02 23:00:00,966.8845215; 1168.998169
5,2022-04-02 23:15:00,840.7363281; 649.536377
6,2022-04-02 23:30:00,820.4904175; 590.3825684
7,2022-04-02 23:45:00,1279.063232; 1086.113281
8,2024-04-06 23:00:00,1261.486328; 1122.531494
9,2024-04-06 23:15:00,696.8310547; 1103.948364



 Diferencias reales en columna: SE_Playa_Ancha.Trf_Playa_Ancha_T2 Potencia activa media (kW)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,6.69159174; 6.137037754
1,2021-04-03 23:15:00,6.576095581; 5.815614223
2,2021-04-03 23:30:00,6.287392616; 5.625892639
3,2021-04-03 23:45:00,6.265818119; 5.56167841
4,2022-04-02 23:00:00,6950.862793; 6156.29834
5,2022-04-02 23:15:00,6791.541504; 6039.112305
6,2022-04-02 23:30:00,6529.898926; 5709.906738
7,2022-04-02 23:45:00,6434.763672; 5618.950684
8,2024-04-06 23:00:00,5819.50293; 5179.887695
9,2024-04-06 23:15:00,5676.839355; 5067.90625



 Diferencias reales en columna: SE_Playa_Ancha.Trf_Playa_Ancha_T2 Potencia reactiva media (kVAr)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,-1.402499676; -1.485602021
1,2021-04-03 23:15:00,-1.421193838; -1.089547634
2,2021-04-03 23:30:00,-1.528911114; -1.104477286
3,2021-04-03 23:45:00,-1.50043571; -1.059193611
4,2022-04-02 23:00:00,-1567.611572; -98.6363678
5,2022-04-02 23:15:00,-1198.900146; 435.6764221
6,2022-04-02 23:30:00,-435.5630798; 372.8872986
7,2022-04-02 23:45:00,-31.39923668; 422.5654602
8,2024-04-06 23:00:00,-571.3630371; -80.98447418
9,2024-04-06 23:15:00,-26.8590107; -88.18304443



 Diferencias reales en columna: SE_San_Rafael.Trf_San_Rafael_T1 Potencia activa media (kW)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,12.0864172; 10.24701405
1,2021-04-03 23:15:00,11.44414997; 10.14076614
2,2021-04-03 23:30:00,10.87695313; 9.984170914
3,2021-04-03 23:45:00,10.64579678; 9.790462494
4,2022-04-02 23:00:00,11.8269434; 10.66333199
5,2022-04-02 23:15:00,11.65728378; 10.34896851
6,2022-04-02 23:30:00,11.0489912; 10.48016739
7,2022-04-02 23:45:00,10.8935709; 10.18053246
8,2024-04-06 23:00:00,10.64550781; 9.936559677
9,2024-04-06 23:15:00,10.86236858; 9.728595734



 Diferencias reales en columna: SE_San_Rafael.Trf_San_Rafael_T1 Potencia reactiva media (kVAr)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,1.976981521; 1.39233005
1,2021-04-03 23:15:00,1.658473492; 1.412139893
2,2021-04-03 23:30:00,1.496734977; 1.399451375
3,2021-04-03 23:45:00,1.461133242; 1.421827674
4,2022-04-02 23:00:00,-2.670991421; -2.971682072
5,2022-04-02 23:15:00,-2.653245449; -3.067934275
6,2022-04-02 23:30:00,-2.892230034; -2.795685053
7,2022-04-02 23:45:00,-2.920072317; -2.748463154
8,2024-04-06 23:00:00,1.722671986; 1.397961855
9,2024-04-06 23:15:00,1.486904979; 1.448955536



 Diferencias reales en columna: SE_San_Rafael.Trf_San_Rafael_T3 Potencia activa media (kW)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,7348.753418; 7115.487305
1,2021-04-03 23:15:00,7284.487305; 6974.390625
2,2021-04-03 23:30:00,7289.159668; 6886.068359
3,2021-04-03 23:45:00,7252.419922; 6690.011719
4,2022-04-02 23:00:00,7710.068848; 7457.411133
5,2022-04-02 23:15:00,7730.958496; 7535.682129
6,2022-04-02 23:30:00,7647.890137; 7429.147949
7,2022-04-02 23:45:00,7557.557617; 7414.040527
8,2024-04-06 23:00:00,7928.927734; 7491.726074
9,2024-04-06 23:15:00,7938.027344; 7062.866699



 Diferencias reales en columna: SE_San_Rafael.Trf_San_Rafael_T3 Potencia reactiva media (kVAr)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,635.8583374; 740.8028564
1,2021-04-03 23:15:00,660.5546265; 663.5950928
2,2021-04-03 23:30:00,729.0720825; 668.2304077
3,2021-04-03 23:45:00,748.8362427; 668.2646484
4,2022-04-02 23:00:00,-47.72828293; 111.8080826
5,2022-04-02 23:15:00,7.646894455; 208.0229492
6,2022-04-02 23:30:00,0.451008916; 244.3500824
7,2022-04-02 23:45:00,51.32077408; 291.2106323
8,2024-04-06 23:00:00,347.6090393; 197.3870697
9,2024-04-06 23:15:00,267.8173523; 82.1894989



 Diferencias reales en columna: SE_San_Felipe.Trf_San_Felipe_T1 Potencia activa media (kW)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,13.43259907; 12.52556705
1,2021-04-03 23:15:00,13.10899925; 12.24377823
2,2021-04-03 23:30:00,13.0267849; 12.0097723
3,2021-04-03 23:45:00,12.76742268; 11.74855995
4,2022-04-02 23:00:00,13.57099819; 13.15578747
5,2022-04-02 23:15:00,13.45926762; 12.93398857
6,2022-04-02 23:30:00,13.6040678; 12.75950813
7,2022-04-02 23:45:00,13.39654446; 12.36390018
8,2024-04-06 23:00:00,13.5980978; 12.43856907
9,2024-04-06 23:15:00,13.36002541; 12.39277744



 Diferencias reales en columna: SE_San_Felipe.Trf_San_Felipe_T1 Potencia reactiva media (kVAr)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,0.336175799; -0.008490129
1,2021-04-03 23:15:00,0.491871744; 0.076864548
2,2021-04-03 23:30:00,0.499173224; 0.09672609
3,2021-04-03 23:45:00,0.373761296; 0.358719528
4,2022-04-02 23:00:00,0.424286544; 0.674973011
5,2022-04-02 23:15:00,0.482126713; 0.849689782
6,2022-04-02 23:30:00,0.543930233; 0.947515965
7,2022-04-02 23:45:00,0.538653135; 0.915918767
8,2024-04-06 23:00:00,2.063627005; 1.925057888
9,2024-04-06 23:15:00,2.071598768; 1.917492032



 Diferencias reales en columna: SE_San_Felipe.Trf_San_Felipe_T2 Potencia activa media (kW)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,8.633575439; 8.315961838
1,2021-04-03 23:15:00,8.617292404; 7.989110947
2,2021-04-03 23:30:00,8.620084763; 7.797372818
3,2021-04-03 23:45:00,8.514339447; 7.623583794
4,2022-04-02 23:00:00,10.14360714; 10.2153101
5,2022-04-02 23:15:00,10.13408852; 9.868783951
6,2022-04-02 23:30:00,10.13441944; 9.623990059
7,2022-04-02 23:45:00,10.78476906; 9.419827461
8,2024-04-06 23:00:00,8.679519653; 8.135001183
9,2024-04-06 23:15:00,8.47147274; 8.066173553



 Diferencias reales en columna: SE_San_Felipe.Trf_San_Felipe_T2 Potencia reactiva media (kVAr)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,0.208316669; 0.208446309
1,2021-04-03 23:15:00,0.257009059; 0.646646917
2,2021-04-03 23:30:00,0.265326291; 0.638169229
3,2021-04-03 23:45:00,0.229662672; 0.645249009
4,2022-04-02 23:00:00,-1.758048773; -1.749044538
5,2022-04-02 23:15:00,-1.738159418; -2.034108877
6,2022-04-02 23:30:00,-1.697281718; -2.020823956
7,2022-04-02 23:45:00,-1.369950771; -1.980284572
8,2024-04-06 23:00:00,0.887986779; 1.505138397
9,2024-04-06 23:15:00,1.369734883; 1.538291812



 Diferencias reales en columna: SE_Calera.Trf_Calera_T2 Potencia activa media (kW)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,7.779502869; 7.139467239
1,2021-04-03 23:15:00,7.654681206; 7.172371864
2,2021-04-03 23:30:00,7.648907661; 7.106059551
3,2021-04-03 23:45:00,7.426557541; 6.866599083
4,2022-04-02 23:00:00,8.365895271; 7.437803268
5,2022-04-02 23:15:00,8.130419731; 7.291394234
6,2022-04-02 23:30:00,7.907258987; 7.584945202
7,2022-04-02 23:45:00,7.610426903; 7.382337093
8,2024-04-06 23:00:00,7.269657612; 6.665511131
9,2024-04-06 23:15:00,7.207897186; 6.491993427



 Diferencias reales en columna: SE_Calera.Trf_Calera_T2 Potencia reactiva media (kVAr)


Unnamed: 0,Fecha y hora,Valores distintos
0,2021-04-03 23:00:00,-1.177108169; -0.762885928
1,2021-04-03 23:15:00,-0.805192828; -0.139923021
2,2021-04-03 23:30:00,-0.65036428; -0.114638597
3,2021-04-03 23:45:00,-0.679319859; -0.164918795
4,2022-04-02 23:00:00,-1.076935291; -0.491645724
5,2022-04-02 23:15:00,-0.783014894; -0.070233293
6,2022-04-02 23:30:00,-0.634097993; 0.248120725
7,2022-04-02 23:45:00,-0.636677444; 0.209350869
8,2024-04-06 23:00:00,0.185325041; 0.737807691
9,2024-04-06 23:15:00,0.769597292; 0.698148727


In [19]:
# Lista de columnas P y Q (sin la fecha)
columnas_pq = [col for col in datos_transformadores.columns if col != 'Fecha y hora']

# Duplicados por fecha
duplicados = datos_transformadores[datos_transformadores.duplicated(subset='Fecha y hora', keep=False)].copy()
grupos = duplicados.groupby('Fecha y hora')

# Lista para filas corregidas
filas_corregidas = []

for fecha, grupo in grupos:
    # Caso especial Bosquemar T2
    col_p = 'SE_Bosquemar.Trf_Bosquemar_T2 Real Power Mean (kW)'
    col_q = 'SE_Bosquemar.Trf_Bosquemar_T2 Reactive Power Mean (kVAr)'

    if col_p in grupo.columns and col_q in grupo.columns:
        valores_p = grupo[col_p].dropna().unique()
        valores_q = grupo[col_q].dropna().unique()

        if len(valores_p) > 1 or len(valores_q) > 1:
            grupo_filtrado = grupo[(grupo[col_p] != 0) | (grupo[col_q] != 0)]
            if not grupo_filtrado.empty:
                filas_corregidas.append(grupo_filtrado.iloc[[-1]])
                continue

    # Caso general
    if grupo[columnas_pq].nunique().max() == 1:
        filas_corregidas.append(grupo.iloc[[0]])
    else:
        filas_corregidas.append(grupo.iloc[[-1]])


# Verifica si hay filas corregidas antes de concatenar
if filas_corregidas:
    duplicados_corregidos = pd.concat(filas_corregidas)
else:
    duplicados_corregidos = pd.DataFrame(columns=datos_transformadores.columns)

# Eliminar duplicados originales
datos_sin_duplicados = datos_transformadores.drop_duplicates(subset='Fecha y hora', keep=False)

# Solo concatenar si duplicados_corregidos no está vacío
if not duplicados_corregidos.empty:
    datos_transformadores = pd.concat([datos_sin_duplicados, duplicados_corregidos], ignore_index=True)
else:
    datos_transformadores = datos_sin_duplicados.copy()

# Orden final
datos_transformadores = datos_transformadores.sort_values('Fecha y hora').reset_index(drop=True)



In [20]:
# Contar ocurrencias de cada fecha
conteo_fechas = datos_transformadores['Fecha y hora'].value_counts()

# Filtrar fechas que aparecen más de una vez
fechas_duplicadas = conteo_fechas[conteo_fechas > 1].sort_index()

# Mostrar cantidad de duplicadas y las fechas
print(f" Total de fechas duplicadas: {len(fechas_duplicadas)}")
print(fechas_duplicadas)

 Total de fechas duplicadas: 0
Series([], Name: count, dtype: int64)


### Correcion de valores (pasar de Kw - KvAr)

In [22]:
# Lista de columnas a multiplicar por 1000
columnas_a_multiplicar = [
    "SE_Calera.Trf_Calera_T2 Potencia activa media (kW)",
    "SE_Calera.Trf_Calera_T2 Potencia reactiva media (kVAr)",
    "SE_Concon.Trf_Concon_T2_2 Potencia activa media (kW)",
    "SE_Concon.Trf_Concon_T2_2 Potencia reactiva media (kVAr)",
    "SE_Placeres.Trf_Placeres_T1 Potencia activa media (kW)",
    "SE_Placeres.Trf_Placeres_T2 Potencia activa media (kW)", 
    "SE_Placeres.Trf_Placeres_T1 Potencia reactiva media (kVAr)",
    "SE_Placeres.Trf_Placeres_T2 Potencia reactiva media (kVAr)",
    "SE_San_Felipe.Trf_San_Felipe_T1 Potencia reactiva media (kVAr)",    
    "SE_San_Felipe.Trf_San_Felipe_T2 Potencia reactiva media (kVAr)",
    "SE_San_Felipe.Trf_San_Felipe_T1 Potencia activa media (kW)",
    "SE_San_Felipe.Trf_San_Felipe_T2 Potencia activa media (kW)",
    "SE_San_Rafael.Trf_San_Rafael_T1 Potencia activa media (kW)",   
    "SE_San_Rafael.Trf_San_Rafael_T1 Potencia reactiva media (kVAr)",   
]

# Multiplicar por 1000 solo esas columnas
for col in columnas_a_multiplicar:
    if col in datos_transformadores.columns:
        datos_transformadores[col] = datos_transformadores[col] * 1000


In [23]:

# Filtrar filas del año 2021
filtro_2021 = datos_transformadores['Fecha y hora'].dt.year == 2021

# Lista de columnas que quieres multiplicar (por ejemplo, P y Q de ciertos transformadores)
columnas_a_multiplicar = [
    "SE_Playa_Ancha.Trf_Playa_Ancha_T1 Potencia activa media (kW)",  
    "SE_Playa_Ancha.Trf_Playa_Ancha_T2 Potencia activa media (kW)",
    "SE_Playa_Ancha.Trf_Playa_Ancha_T1 Potencia reactiva media (kVAr)",   
    "SE_Playa_Ancha.Trf_Playa_Ancha_T2 Potencia reactiva media (kVAr)",
    "SE_Valparaiso.Trf_Valparaiso_T1 Potencia activa media (kW)",
    "SE_Valparaiso.Trf_Valparaiso_T1 Potencia reactiva media (kVAr)"
]

# Aplicar multiplicación solo en filas del año 2021
datos_transformadores.loc[filtro_2021, columnas_a_multiplicar] *= 1000


In [24]:
# Rango de fechas a corregir
fecha_inicio = pd.to_datetime('2023-09-13 18:00:00')
fecha_fin = pd.to_datetime('2024-12-23 00:00:00')

# Filtro de fechas
filtro_fechas = (datos_transformadores['Fecha y hora'] >= fecha_inicio) & (datos_transformadores['Fecha y hora'] <= fecha_fin)

# Columnas a corregir
columnas_placilla = [
    "SE_Placilla.Trf_Placilla_T2 Potencia activa media (kW)",
    "SE_Placilla.Trf_Placilla_T2 Potencia reactiva media (kVAr)"
]

# Aplicar la corrección (multiplicación por 1000)
datos_transformadores.loc[filtro_fechas, columnas_placilla] *= 1000

In [25]:
datos_transformadores.head()

Unnamed: 0,SE_Valparaiso.Trf_Valparaiso_T1 Potencia activa media (kW),SE_Valparaiso.Trf_Valparaiso_T1 Potencia reactiva media (kVAr),SE_Placeres.Trf_Placeres_T1 Potencia activa media (kW),SE_Placeres.Trf_Placeres_T1 Potencia reactiva media (kVAr),SE_Placeres.Trf_Placeres_T2 Potencia activa media (kW),SE_Placeres.Trf_Placeres_T2 Potencia reactiva media (kVAr),SE_Placilla.Trf_Placilla_T2 Potencia activa media (kW),SE_Placilla.Trf_Placilla_T2 Potencia reactiva media (kVAr),SE_Concon.Trf_Concon_T2_2 Potencia activa media (kW),SE_Concon.Trf_Concon_T2_2 Potencia reactiva media (kVAr),...,SE_San_Rafael.Trf_San_Rafael_T1 Potencia reactiva media (kVAr),SE_San_Rafael.Trf_San_Rafael_T3 Potencia activa media (kW),SE_San_Rafael.Trf_San_Rafael_T3 Potencia reactiva media (kVAr),SE_San_Felipe.Trf_San_Felipe_T1 Potencia activa media (kW),SE_San_Felipe.Trf_San_Felipe_T1 Potencia reactiva media (kVAr),SE_San_Felipe.Trf_San_Felipe_T2 Potencia activa media (kW),SE_San_Felipe.Trf_San_Felipe_T2 Potencia reactiva media (kVAr),SE_Calera.Trf_Calera_T2 Potencia activa media (kW),SE_Calera.Trf_Calera_T2 Potencia reactiva media (kVAr),Fecha y hora
0,6657.0611,392.181486,9087.688446,-89.524969,9393.958092,1439.777136,8747.844727,-132.386734,4363.275051,705.139697,...,3649.591208,8986.115234,1787.86792,14563.25817,1948.054075,8607.710838,1346.0778,7858.459949,467.431158,2021-01-01 00:30:00
1,6600.084782,370.762348,9007.22599,-48.079155,9353.917122,1430.533409,8626.563477,-140.52449,4372.547626,669.971287,...,3558.793068,8946.944336,1806.897827,14303.06339,2033.608913,8421.904564,1292.887449,7973.084927,486.736864,2021-01-01 00:45:00
2,6579.427719,385.641813,8908.111572,-71.154483,9084.967613,1380.251646,8546.049805,-164.159393,4297.423363,676.845014,...,3533.697605,8749.44043,1736.990967,14161.10229,2011.147261,8396.206856,1296.282291,7781.050682,708.620131,2021-01-01 01:00:00
3,6523.938179,389.757663,8725.055695,-123.746052,8897.53437,1328.508615,8458.301758,-164.846237,4189.702034,644.257247,...,3551.494598,8650.058594,1721.460083,14255.7354,2104.893208,8420.323372,1306.474209,7601.181507,1331.551671,2021-01-01 01:15:00
4,6389.933586,364.31101,8571.299553,-159.668446,8714.198112,1283.114433,8302.192383,-205.847855,4165.856361,633.750796,...,3438.510895,8527.763672,1702.901367,13911.45802,1989.736915,8410.838127,1365.293384,7718.300819,1400.925994,2021-01-01 01:30:00


In [26]:
#variables estadisticas
datos_transformadores.describe()

Unnamed: 0,SE_Valparaiso.Trf_Valparaiso_T1 Potencia activa media (kW),SE_Valparaiso.Trf_Valparaiso_T1 Potencia reactiva media (kVAr),SE_Placeres.Trf_Placeres_T1 Potencia activa media (kW),SE_Placeres.Trf_Placeres_T1 Potencia reactiva media (kVAr),SE_Placeres.Trf_Placeres_T2 Potencia activa media (kW),SE_Placeres.Trf_Placeres_T2 Potencia reactiva media (kVAr),SE_Placilla.Trf_Placilla_T2 Potencia activa media (kW),SE_Placilla.Trf_Placilla_T2 Potencia reactiva media (kVAr),SE_Concon.Trf_Concon_T2_2 Potencia activa media (kW),SE_Concon.Trf_Concon_T2_2 Potencia reactiva media (kVAr),...,SE_San_Rafael.Trf_San_Rafael_T1 Potencia reactiva media (kVAr),SE_San_Rafael.Trf_San_Rafael_T3 Potencia activa media (kW),SE_San_Rafael.Trf_San_Rafael_T3 Potencia reactiva media (kVAr),SE_San_Felipe.Trf_San_Felipe_T1 Potencia activa media (kW),SE_San_Felipe.Trf_San_Felipe_T1 Potencia reactiva media (kVAr),SE_San_Felipe.Trf_San_Felipe_T2 Potencia activa media (kW),SE_San_Felipe.Trf_San_Felipe_T2 Potencia reactiva media (kVAr),SE_Calera.Trf_Calera_T2 Potencia activa media (kW),SE_Calera.Trf_Calera_T2 Potencia reactiva media (kVAr),Fecha y hora
count,145707.0,145707.0,145708.0,145708.0,145707.0,145707.0,145615.0,145615.0,145706.0,145706.0,...,145708.0,145708.0,145708.0,145708.0,145708.0,145707.0,145707.0,145707.0,145707.0,145708
mean,7784.121259,255.425017,9606.116828,188.962439,8735.303374,630.602104,12418.451478,1787.392366,5462.210148,1650.433744,...,1899.8267,3264.216691,1109.785683,11613.941624,2735.645802,4891.657748,1402.581975,9301.843263,665.367094,2023-03-02 16:14:48.881873152
min,0.0,-1496.349335,0.0,-2620.802164,0.0,-893.289685,-10.0,-1094.933105,-7743.68906,-9667.971611,...,-5717.726231,-14470.38184,-2068.353271,-19066.63513,-10858.69503,-9817.87014,-10635.03361,-1774.671793,-4162.876129,2021-01-01 00:30:00
25%,6556.569115,-77.694359,7885.689855,-300.611884,7129.635334,187.303453,10382.119145,1011.570892,4487.929344,928.518459,...,634.641841,-2839.563599,-171.144455,9066.683769,714.06661,547.453225,-187.844395,7442.446471,-38.180599,2022-01-27 12:26:15
50%,7820.007801,183.151504,9863.690376,182.778015,8566.651344,507.204771,12480.0,1873.094116,5872.466087,1455.958367,...,1612.935245,5918.378174,619.820618,12084.684845,2287.932754,6373.838902,996.02896,9284.467697,737.192392,2023-03-17 00:22:30
75%,9032.382324,501.148607,10841.966632,638.123393,9835.612297,948.911548,14768.25049,2524.044799,6931.60224,2267.948389,...,3190.997422,7952.210571,1965.798035,15202.919247,4238.156199,8938.681603,2788.245797,11136.558535,1427.131892,2024-04-06 12:18:45
max,24165.83984,11055.82422,18785.6884,2957.632303,19758.8253,3855.223894,23051.97461,5265.297363,20880.22995,8051.740646,...,9259.402275,15706.2041,6708.144043,34760.37598,15002.75707,24209.81598,8867.236137,21803.5717,5297.851086,2025-04-21 00:00:00
std,1735.510169,570.533401,2016.115644,687.494401,2224.478748,615.94792,3448.591351,1049.155374,2610.292127,1143.508742,...,2490.95616,6319.958061,1762.146244,5404.155679,2484.0679,5312.392761,2099.60707,2343.852857,1080.299486,


## Calculo errores

### Calculo Potencia Activa (transformadores que no invierten)

In [29]:
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np

# Asegurar formato de fecha
datos_transformadores['Fecha y hora'] = pd.to_datetime(datos_transformadores['Fecha y hora'])

# Columnas a evaluar
columnas_deseadas = [ "Fecha y hora",
    "SE_Valparaiso.Trf_Valparaiso_T1 Potencia activa media (kW)",
    "SE_Placeres.Trf_Placeres_T1 Potencia activa media (kW)",
    "SE_Placeres.Trf_Placeres_T2 Potencia activa media (kW)",
    "SE_Placilla.Trf_Placilla_T2 Potencia activa media (kW)",
    "SE_Bosquemar.Trf_Bosquemar_T1 Potencia activa media (kW)",
    "SE_Bosquemar.Trf_Bosquemar_T2 Real Power Mean (kW)",
    "SE_Playa_Ancha.Trf_Playa_Ancha_T1 Potencia activa media (kW)",
    "SE_Playa_Ancha.Trf_Playa_Ancha_T2 Potencia activa media (kW)",
    "SE_Calera.Trf_Calera_T2 Potencia activa media (kW)"]

# Fechas que indican inicio de la semana real
fechas_reales = [
    '2024-11-25', '2024-11-04', '2024-10-14', '2024-09-23',
    '2025-02-24', '2025-02-03', '2025-01-13', '2024-12-23',
    '2025-03-24', '2025-03-03', '2024-05-27', '2024-05-06',
    '2024-08-26', '2024-08-05', '2024-07-15', '2024-06-24'
]


# Lista para guardar resultados
resultados = []

for fecha_str in fechas_reales:
    fecha_real_inicio = pd.Timestamp(fecha_str)
    fecha_real_fin = fecha_real_inicio + pd.Timedelta(days=7)

    # Semana de pronóstico (semana anterior)
    fecha_pronostico_inicio = fecha_real_inicio - pd.Timedelta(days=7)
    fecha_pronostico_fin = fecha_real_inicio

    # Datos pronóstico (+5%)
    df_pronostico = datos_transformadores[
        (datos_transformadores['Fecha y hora'] >= fecha_pronostico_inicio) &
        (datos_transformadores['Fecha y hora'] < fecha_pronostico_fin)
    ][columnas_deseadas].copy()
    columnas_numericas = df_pronostico.columns.drop('Fecha y hora')
    df_pronostico[columnas_numericas] *= 1.05

    # Datos reales
    df_real = datos_transformadores[
        (datos_transformadores['Fecha y hora'] >= fecha_real_inicio) &
        (datos_transformadores['Fecha y hora'] < fecha_real_fin)
    ][columnas_deseadas].copy()

    # Alinear por posición
    df_pronostico.reset_index(drop=True, inplace=True)
    df_real.reset_index(drop=True, inplace=True)

    min_len = min(len(df_pronostico), len(df_real))
    if min_len == 0:
        continue  # saltar si no hay datos

    # Calcular MAE y RMSE por variable
    resultado_semana = {
        'Semana_real': fecha_real_inicio.date(),
        'Semana_pronosticada': fecha_pronostico_inicio.date()
    }

    # Exportar valores reales y pronosticados para todas las columnas deseadas
    df_export = pd.DataFrame()
    
    for col in columnas_numericas:
        df_col = pd.DataFrame({
            'fecha_real': df_real['Fecha y hora'][:min_len],
            'transformador': col,
            'P_real': df_real[col][:min_len].values,
            'P_predicha': df_pronostico[col][:min_len].values,
            'semana_real': fecha_real_inicio.date(),
            'semana_pronosticada': fecha_pronostico_inicio.date()
        })
        df_export = pd.concat([df_export, df_col], ignore_index=True)
    
    # Acumular semana a semana
    if 'df_export_total' not in locals():
        df_export_total = df_export.copy()
    else:
        df_export_total = pd.concat([df_export_total, df_export], ignore_index=True)


    for col in columnas_numericas:

        real = df_real[col][:min_len]
        pron = df_pronostico[col][:min_len]
        
        # Combinar en un DataFrame temporal y eliminar filas con NaN
        df_temp = pd.DataFrame({'real': real, 'pron': pron}).dropna()
        
        if not df_temp.empty:
            mae = mean_absolute_error(df_temp['real'], df_temp['pron'])
            rmse = root_mean_squared_error(df_temp['real'], df_temp['pron'])
        
            resultado_semana[f'MAE_{col}'] = mae
            resultado_semana[f'RMSE_{col}'] = rmse
        else:
            # Puedes omitir, o guardar NaN como resultado si lo prefieres
            resultado_semana[f'MAE_{col}'] = np.nan
            resultado_semana[f'RMSE_{col}'] = np.nan

        resultado_semana[f'MAE_{col}'] = mae
        resultado_semana[f'RMSE_{col}'] = rmse

    resultados.append(resultado_semana)

# Crear DataFrame con resultados finales
df_resultados = pd.DataFrame(resultados)

# Promedio de cada métrica por columna (ignorando columnas de fecha)
promedios = df_resultados.drop(columns=['Semana_real', 'Semana_pronosticada']).mean()

# Mostrar promedios de forma ordenada
promedios = promedios.to_frame(name='Promedio')
promedios.index.name = 'Métrica'

# Convertir la serie de promedios a un DataFrame separado
df_promedios = promedios.reset_index()

# Cambiar nombre de las columnas para mayor claridad (opcional)
df_promedios.columns = ['Métrica', 'Promedio']

pd.set_option('display.max_colwidth', None)

# Mostrar DataFrame de promedios
display(df_promedios)



Unnamed: 0,Métrica,Promedio
0,MAE_SE_Valparaiso.Trf_Valparaiso_T1 Potencia activa media (kW),1019.902085
1,RMSE_SE_Valparaiso.Trf_Valparaiso_T1 Potencia activa media (kW),1436.218299
2,MAE_SE_Placeres.Trf_Placeres_T1 Potencia activa media (kW),787.269854
3,RMSE_SE_Placeres.Trf_Placeres_T1 Potencia activa media (kW),1180.745141
4,MAE_SE_Placeres.Trf_Placeres_T2 Potencia activa media (kW),883.544123
5,RMSE_SE_Placeres.Trf_Placeres_T2 Potencia activa media (kW),1322.81499
6,MAE_SE_Placilla.Trf_Placilla_T2 Potencia activa media (kW),1788.708246
7,RMSE_SE_Placilla.Trf_Placilla_T2 Potencia activa media (kW),2340.758742
8,MAE_SE_Bosquemar.Trf_Bosquemar_T1 Potencia activa media (kW),693.48897
9,RMSE_SE_Bosquemar.Trf_Bosquemar_T1 Potencia activa media (kW),1008.099413


In [30]:
# Exportar a CSV final
df_export_total.to_excel('P_real_vs_predicha_todas_semanas.xlsx', index=False)



### Calculo potencia reactiva (transformadores que no invierten)

In [32]:
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np
import pandas as pd

# Asegurar formato de fecha
datos_transformadores['Fecha y hora'] = pd.to_datetime(datos_transformadores['Fecha y hora'])

# Columnas a evaluar (Q)
columnas_deseadas = [
    "Fecha y hora",
    "SE_Valparaiso.Trf_Valparaiso_T1 Potencia reactiva media (kVAr)",
    "SE_Placeres.Trf_Placeres_T1 Potencia reactiva media (kVAr)",
    "SE_Placeres.Trf_Placeres_T2 Potencia reactiva media (kVAr)",
    "SE_Placilla.Trf_Placilla_T2 Potencia reactiva media (kVAr)",
    "SE_Bosquemar.Trf_Bosquemar_T1 Potencia reactiva media (kVAr)",
    "SE_Bosquemar.Trf_Bosquemar_T2 Reactive Power Mean (kVAr)",
    "SE_Playa_Ancha.Trf_Playa_Ancha_T1 Potencia reactiva media (kVAr)",
    "SE_Playa_Ancha.Trf_Playa_Ancha_T2 Potencia reactiva media (kVAr)",
    "SE_Calera.Trf_Calera_T2 Potencia reactiva media (kVAr)"
]

# Fechas que indican inicio de la semana real
fechas_reales = [
    '2024-11-25', '2024-11-04', '2024-10-14', '2024-09-23',
    '2025-02-24', '2025-02-03', '2025-01-13', '2024-12-23',
    '2025-03-24', '2025-03-03', '2024-05-27', '2024-05-06',
    '2024-08-26', '2024-08-05', '2024-07-15', '2024-06-24'
]

# Inicializar listas para resultados
resultados = []
df_export_total_Q = pd.DataFrame()  # Aquí se acumulan Q_real y Q_predicha

# Bucle principal
for fecha_str in fechas_reales:
    fecha_real_inicio = pd.Timestamp(fecha_str)
    fecha_real_fin = fecha_real_inicio + pd.Timedelta(days=7)

    fecha_pronostico_inicio = fecha_real_inicio - pd.Timedelta(days=7)
    fecha_pronostico_fin = fecha_real_inicio

    # Filtrar semana pronosticada y aplicar +5%
    df_pronostico = datos_transformadores[
        (datos_transformadores['Fecha y hora'] >= fecha_pronostico_inicio) &
        (datos_transformadores['Fecha y hora'] < fecha_pronostico_fin)
    ][['Fecha y hora'] + columnas_deseadas[1:]].copy()

    columnas_numericas = df_pronostico.columns.drop('Fecha y hora')
    df_pronostico[columnas_numericas] *= 1.05

    # Filtrar semana real
    df_real = datos_transformadores[
        (datos_transformadores['Fecha y hora'] >= fecha_real_inicio) &
        (datos_transformadores['Fecha y hora'] < fecha_real_fin)
    ][['Fecha y hora'] + columnas_deseadas[1:]].copy()

    # Alinear por posición
    df_pronostico.reset_index(drop=True, inplace=True)
    df_real.reset_index(drop=True, inplace=True)

    min_len = min(len(df_pronostico), len(df_real))
    if min_len == 0:
        continue

    resultado_semana = {
        'Semana_real': fecha_real_inicio.date(),
        'Semana_pronosticada': fecha_pronostico_inicio.date()
    }

    for col in columnas_numericas:
        real = df_real[col][:min_len]
        pron = df_pronostico[col][:min_len]

        # Guardar Q real y predicha
        df_col = pd.DataFrame({
            'fecha': df_real['Fecha y hora'][:min_len].values,
            'transformador': col,
            'Q_real': real.values,
            'Q_predicha': pron.values,
            'semana_real': fecha_real_inicio.date(),
            'semana_pronosticada': fecha_pronostico_inicio.date()
        })
        df_export_total_Q = pd.concat([df_export_total_Q, df_col], ignore_index=True)

        # Calcular métricas
        df_temp = pd.DataFrame({'real': real, 'pron': pron}).dropna()
        if not df_temp.empty:
            mae = mean_absolute_error(df_temp['real'], df_temp['pron'])
            rmse = root_mean_squared_error(df_temp['real'], df_temp['pron'])
        else:
            mae = np.nan
            rmse = np.nan

        resultado_semana[f'MAE_{col}'] = mae
        resultado_semana[f'RMSE_{col}'] = rmse

    resultados.append(resultado_semana)

# Crear DataFrame con métricas agregadas
df_resultados = pd.DataFrame(resultados)

# Calcular promedios de errores
promedios = df_resultados.drop(columns=['Semana_real', 'Semana_pronosticada']).mean()
df_promedios = promedios.to_frame(name='Promedio').reset_index()
df_promedios.columns = ['Métrica', 'Promedio']


# Mostrar los promedios
pd.set_option('display.max_colwidth', None)
display(df_promedios)


Unnamed: 0,Métrica,Promedio
0,MAE_SE_Valparaiso.Trf_Valparaiso_T1 Potencia reactiva media (kVAr),154.229084
1,RMSE_SE_Valparaiso.Trf_Valparaiso_T1 Potencia reactiva media (kVAr),219.212437
2,MAE_SE_Placeres.Trf_Placeres_T1 Potencia reactiva media (kVAr),370.58487
3,RMSE_SE_Placeres.Trf_Placeres_T1 Potencia reactiva media (kVAr),449.108811
4,MAE_SE_Placeres.Trf_Placeres_T2 Potencia reactiva media (kVAr),230.303122
5,RMSE_SE_Placeres.Trf_Placeres_T2 Potencia reactiva media (kVAr),314.112761
6,MAE_SE_Placilla.Trf_Placilla_T2 Potencia reactiva media (kVAr),669.31186
7,RMSE_SE_Placilla.Trf_Placilla_T2 Potencia reactiva media (kVAr),868.395197
8,MAE_SE_Bosquemar.Trf_Bosquemar_T1 Potencia reactiva media (kVAr),83.530855
9,RMSE_SE_Bosquemar.Trf_Bosquemar_T1 Potencia reactiva media (kVAr),116.807968


In [33]:
# Exportar resultados detallados a Excel
df_export_total_Q.to_excel('Q_real_vs_predicha_todas_semanas.xlsx', index=False)


### Calculo potencia aparente (transformadores que no invierten)

In [35]:
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np
import pandas as pd

# 1. Renombrar la columna de fecha
df_export_total = df_export_total.rename(columns={'fecha_real': 'fecha'})

# 2. Extraer nombre base del transformador sin el sufijo
df_export_total['transformador_base'] = df_export_total['transformador'].str.extract(r'(SE_.*?Trf_.*?)(?: Potencia| Real Power)')
df_export_total_Q['transformador_base'] = df_export_total_Q['transformador'].str.extract(r'(SE_.*?Trf_.*?)(?: Potencia| Reactive Power)')

# 3. Hacer merge por 'fecha' y 'transformador_base'
df_s = pd.merge(
    df_export_total,
    df_export_total_Q,
    on=['fecha', 'transformador_base'],
    how='inner',
    suffixes=('_P', '_Q')
)

# 4. Eliminar nulos
df_s = df_s.dropna(subset=['P_real', 'P_predicha', 'Q_real', 'Q_predicha'])

# 5. Calcular potencia aparente real y predicha
df_s['S_real'] = np.sqrt(df_s['P_real']**2 + df_s['Q_real']**2)
df_s['S_predicha'] = np.sqrt(df_s['P_predicha']**2 + df_s['Q_predicha']**2)

# 6. Calcular errores por transformador base
transformadores = []
mae_list = []
rmse_list = []

for trf, grupo in df_s.groupby('transformador_base'):
    mae = mean_absolute_error(grupo['S_real'], grupo['S_predicha']) / 1000
    rmse = np.sqrt(mean_squared_error(grupo['S_real'], grupo['S_predicha'])) / 1000
    transformadores.append(trf)
    mae_list.append(round(mae, 3))
    rmse_list.append(round(rmse, 3))

# 7. Construir tabla final
df_resultados_s = pd.DataFrame({
    'Transformador': transformadores,
    'MAE_S (MW)': mae_list,
    'RMSE_S (MW)': rmse_list
})

# 8. Agregar promedio general
df_resultados_s.loc[len(df_resultados_s)] = [
    'Total general',
    round(np.mean(mae_list), 3),
    round(np.mean(rmse_list), 3)
]

# 9. Mostrar
print(df_resultados_s)


                       Transformador  MAE_S (MW)  RMSE_S (MW)
0      SE_Bosquemar.Trf_Bosquemar_T1       0.694        1.136
1      SE_Bosquemar.Trf_Bosquemar_T2       0.776        1.924
2            SE_Calera.Trf_Calera_T2       1.000        1.785
3        SE_Placeres.Trf_Placeres_T1       0.793        1.306
4        SE_Placeres.Trf_Placeres_T2       0.882        1.444
5        SE_Placilla.Trf_Placilla_T2       1.839        2.528
6  SE_Playa_Ancha.Trf_Playa_Ancha_T1       0.713        1.517
7  SE_Playa_Ancha.Trf_Playa_Ancha_T2       0.763        1.462
8    SE_Valparaiso.Trf_Valparaiso_T1       1.021        1.719
9                      Total general       0.942        1.647


### Calculo potencia activa transformadores que invierten

In [37]:
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np

# Asegurar formato de fecha
datos_transformadores['Fecha y hora'] = pd.to_datetime(datos_transformadores['Fecha y hora'])

# Columnas a evaluar
columnas_deseadas = [ "Fecha y hora",
    "SE_Concon.Trf_Concon_T2_2 Potencia activa media (kW)",
    "SE_San_Rafael.Trf_San_Rafael_T1 Potencia activa media (kW)",
    "SE_San_Rafael.Trf_San_Rafael_T3 Potencia activa media (kW)",
    "SE_San_Felipe.Trf_San_Felipe_T1 Potencia activa media (kW)",
    "SE_San_Felipe.Trf_San_Felipe_T2 Potencia activa media (kW)"
]

# Fechas que indican inicio de la semana real
fechas_reales = [
    '2024-11-25','2024-11-04','2024-10-14','2024-09-23',
    '2025-02-24','2025-02-03','2025-01-13','2024-12-23',
    '2025-03-24','2025-03-03','2024-03-17','2024-08-26',
    '2024-08-05','2024-07-15'
    ]


# Lista para guardar resultados
resultados = []

for fecha_str in fechas_reales:
    fecha_real_inicio = pd.Timestamp(fecha_str)
    fecha_real_fin = fecha_real_inicio + pd.Timedelta(days=7)

    # Semana de pronóstico (semana anterior)
    fecha_pronostico_inicio = fecha_real_inicio - pd.Timedelta(days=7)
    fecha_pronostico_fin = fecha_real_inicio

    # Datos pronóstico (+5%)
    df_pronostico = datos_transformadores[
        (datos_transformadores['Fecha y hora'] >= fecha_pronostico_inicio) &
        (datos_transformadores['Fecha y hora'] < fecha_pronostico_fin)
    ][columnas_deseadas].copy()
    columnas_numericas = df_pronostico.columns.drop('Fecha y hora')
    df_pronostico[columnas_numericas] *= 1.05

    # Datos reales
    df_real = datos_transformadores[
        (datos_transformadores['Fecha y hora'] >= fecha_real_inicio) &
        (datos_transformadores['Fecha y hora'] < fecha_real_fin)
    ][columnas_deseadas].copy()

    # Alinear por posición
    df_pronostico.reset_index(drop=True, inplace=True)
    df_real.reset_index(drop=True, inplace=True)

    min_len = min(len(df_pronostico), len(df_real))
    if min_len == 0:
        continue  # saltar si no hay datos

    # Calcular MAE y RMSE por variable
    resultado_semana = {
        'Semana_real': fecha_real_inicio.date(),
        'Semana_pronosticada': fecha_pronostico_inicio.date()
    }

    # Exportar valores reales y pronosticados para todas las columnas deseadas
    df_export = pd.DataFrame()
    
    for col in columnas_numericas:
        df_col = pd.DataFrame({
            'fecha_real': df_real['Fecha y hora'][:min_len],
            'transformador': col,
            'P_real': df_real[col][:min_len].values,
            'P_predicha': df_pronostico[col][:min_len].values,
            'semana_real': fecha_real_inicio.date(),
            'semana_pronosticada': fecha_pronostico_inicio.date()
        })
        df_export = pd.concat([df_export, df_col], ignore_index=True)
    
    # Acumular semana a semana
    if 'df_export_total_inv' not in locals():
        df_export_total_inv = df_export.copy()
    else:
        df_export_total_inv = pd.concat([df_export_total_inv, df_export], ignore_index=True)


    for col in columnas_numericas:

        real = df_real[col][:min_len]
        pron = df_pronostico[col][:min_len]
        
        # Combinar en un DataFrame temporal y eliminar filas con NaN
        df_temp = pd.DataFrame({'real': real, 'pron': pron}).dropna()
        
        if not df_temp.empty:
            mae = mean_absolute_error(df_temp['real'], df_temp['pron'])
            rmse = root_mean_squared_error(df_temp['real'], df_temp['pron'])
        
            resultado_semana[f'MAE_{col}'] = mae
            resultado_semana[f'RMSE_{col}'] = rmse
        else:
            # Puedes omitir, o guardar NaN como resultado si lo prefieres
            resultado_semana[f'MAE_{col}'] = np.nan
            resultado_semana[f'RMSE_{col}'] = np.nan

        resultado_semana[f'MAE_{col}'] = mae
        resultado_semana[f'RMSE_{col}'] = rmse

    resultados.append(resultado_semana)

# Crear DataFrame con resultados finales
df_resultados = pd.DataFrame(resultados)

# Promedio de cada métrica por columna (ignorando columnas de fecha)
promedios = df_resultados.drop(columns=['Semana_real', 'Semana_pronosticada']).mean()

# Mostrar promedios de forma ordenada
promedios = promedios.to_frame(name='Promedio')
promedios.index.name = 'Métrica'

# Convertir la serie de promedios a un DataFrame separado
df_promedios = promedios.reset_index()

# Cambiar nombre de las columnas para mayor claridad (opcional)
df_promedios.columns = ['Métrica', 'Promedio']

pd.set_option('display.max_colwidth', None)

# Mostrar DataFrame de promedios
display(df_promedios)



Unnamed: 0,Métrica,Promedio
0,MAE_SE_Concon.Trf_Concon_T2_2 Potencia activa media (kW),1493.101707
1,RMSE_SE_Concon.Trf_Concon_T2_2 Potencia activa media (kW),2342.632172
2,MAE_SE_San_Rafael.Trf_San_Rafael_T1 Potencia activa media (kW),2533.828929
3,RMSE_SE_San_Rafael.Trf_San_Rafael_T1 Potencia activa media (kW),3956.908993
4,MAE_SE_San_Rafael.Trf_San_Rafael_T3 Potencia activa media (kW),1912.738085
5,RMSE_SE_San_Rafael.Trf_San_Rafael_T3 Potencia activa media (kW),3240.631133
6,MAE_SE_San_Felipe.Trf_San_Felipe_T1 Potencia activa media (kW),2432.910175
7,RMSE_SE_San_Felipe.Trf_San_Felipe_T1 Potencia activa media (kW),3753.597021
8,MAE_SE_San_Felipe.Trf_San_Felipe_T2 Potencia activa media (kW),1685.616653
9,RMSE_SE_San_Felipe.Trf_San_Felipe_T2 Potencia activa media (kW),2696.527021


In [38]:
# Exportar a CSV final
df_export_total_inv.to_excel('P_real_vs_predicha_transformadores_invierten.xlsx', index=False)

### Calculo potencia reactiva transformadores que invierten

In [40]:
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np

# Asegurar formato de fecha
datos_transformadores['Fecha y hora'] = pd.to_datetime(datos_transformadores['Fecha y hora'])

# Columnas a evaluar
columnas_deseadas = [ "Fecha y hora",
    "SE_Concon.Trf_Concon_T2_2 Potencia reactiva media (kVAr)",
    "SE_San_Rafael.Trf_San_Rafael_T1 Potencia reactiva media (kVAr)",
    "SE_San_Rafael.Trf_San_Rafael_T3 Potencia reactiva media (kVAr)",
    "SE_San_Felipe.Trf_San_Felipe_T1 Potencia reactiva media (kVAr)",
    "SE_San_Felipe.Trf_San_Felipe_T2 Potencia reactiva media (kVAr)"
]

# Fechas que indican inicio de la semana real
fechas_reales = [
    '2024-11-25','2024-11-04','2024-10-14','2024-09-23',
    '2025-02-24','2025-02-03','2025-01-13','2024-12-23',
    '2025-03-24','2025-03-03','2024-03-17','2024-08-26',
    '2024-08-05','2024-07-15'
]


# Lista para guardar resultados
resultados = []

for fecha_str in fechas_reales:
    fecha_real_inicio = pd.Timestamp(fecha_str)
    fecha_real_fin = fecha_real_inicio + pd.Timedelta(days=7)

    # Semana de pronóstico (semana anterior)
    fecha_pronostico_inicio = fecha_real_inicio - pd.Timedelta(days=7)
    fecha_pronostico_fin = fecha_real_inicio

    # Datos pronóstico (+5%)
    df_pronostico = datos_transformadores[
        (datos_transformadores['Fecha y hora'] >= fecha_pronostico_inicio) &
        (datos_transformadores['Fecha y hora'] < fecha_pronostico_fin)
    ][columnas_deseadas].copy()
    columnas_numericas = df_pronostico.columns.drop('Fecha y hora')
    df_pronostico[columnas_numericas] *= 1.05

    # Datos reales
    df_real = datos_transformadores[
        (datos_transformadores['Fecha y hora'] >= fecha_real_inicio) &
        (datos_transformadores['Fecha y hora'] < fecha_real_fin)
    ][columnas_deseadas].copy()

    # Alinear por posición
    df_pronostico.reset_index(drop=True, inplace=True)
    df_real.reset_index(drop=True, inplace=True)

    min_len = min(len(df_pronostico), len(df_real))
    if min_len == 0:
        continue  # saltar si no hay datos

    # Calcular MAE y RMSE por variable
    resultado_semana = {
        'Semana_real': fecha_real_inicio.date(),
        'Semana_pronosticada': fecha_pronostico_inicio.date()
    }

    # Exportar valores reales y pronosticados para todas las columnas deseadas
    df_export = pd.DataFrame()
    
    for col in columnas_numericas:
        df_col = pd.DataFrame({
            'fecha_real': df_real['Fecha y hora'][:min_len],
            'transformador': col,
            'Q_real': df_real[col][:min_len].values,
            'Q_predicha': df_pronostico[col][:min_len].values,
            'semana_real': fecha_real_inicio.date(),
            'semana_pronosticada': fecha_pronostico_inicio.date()
        })
        df_export = pd.concat([df_export, df_col], ignore_index=True)
    
    # Acumular semana a semana
    if 'df_export_total_Q_inv' not in locals():
        df_export_total_Q_inv = df_export.copy()
    else:
        df_export_total_Q_inv = pd.concat([df_export_total_Q_inv, df_export], ignore_index=True)


    for col in columnas_numericas:

        real = df_real[col][:min_len]
        pron = df_pronostico[col][:min_len]
        
        # Combinar en un DataFrame temporal y eliminar filas con NaN
        df_temp = pd.DataFrame({'real': real, 'pron': pron}).dropna()
        
        if not df_temp.empty:
            mae = mean_absolute_error(df_temp['real'], df_temp['pron'])
            rmse = root_mean_squared_error(df_temp['real'], df_temp['pron'])
        
            resultado_semana[f'MAE_{col}'] = mae
            resultado_semana[f'RMSE_{col}'] = rmse
        else:
            # Puedes omitir, o guardar NaN como resultado si lo prefieres
            resultado_semana[f'MAE_{col}'] = np.nan
            resultado_semana[f'RMSE_{col}'] = np.nan

        resultado_semana[f'MAE_{col}'] = mae
        resultado_semana[f'RMSE_{col}'] = rmse

    resultados.append(resultado_semana)

# Crear DataFrame con resultados finales
df_resultados = pd.DataFrame(resultados)

# Promedio de cada métrica por columna (ignorando columnas de fecha)
promedios = df_resultados.drop(columns=['Semana_real', 'Semana_pronosticada']).mean()

# Mostrar promedios de forma ordenada
promedios = promedios.to_frame(name='Promedio')
promedios.index.name = 'Métrica'

# Convertir la serie de promedios a un DataFrame separado
df_promedios = promedios.reset_index()

# Cambiar nombre de las columnas para mayor claridad (opcional)
df_promedios.columns = ['Métrica', 'Promedio']

pd.set_option('display.max_colwidth', None)

# Mostrar DataFrame de promedios
display(df_promedios)


Unnamed: 0,Métrica,Promedio
0,MAE_SE_Concon.Trf_Concon_T2_2 Potencia reactiva media (kVAr),526.58784
1,RMSE_SE_Concon.Trf_Concon_T2_2 Potencia reactiva media (kVAr),785.934887
2,MAE_SE_San_Rafael.Trf_San_Rafael_T1 Potencia reactiva media (kVAr),737.257478
3,RMSE_SE_San_Rafael.Trf_San_Rafael_T1 Potencia reactiva media (kVAr),1160.310084
4,MAE_SE_San_Rafael.Trf_San_Rafael_T3 Potencia reactiva media (kVAr),534.856281
5,RMSE_SE_San_Rafael.Trf_San_Rafael_T3 Potencia reactiva media (kVAr),839.353274
6,MAE_SE_San_Felipe.Trf_San_Felipe_T1 Potencia reactiva media (kVAr),712.426655
7,RMSE_SE_San_Felipe.Trf_San_Felipe_T1 Potencia reactiva media (kVAr),1020.413457
8,MAE_SE_San_Felipe.Trf_San_Felipe_T2 Potencia reactiva media (kVAr),624.917182
9,RMSE_SE_San_Felipe.Trf_San_Felipe_T2 Potencia reactiva media (kVAr),847.346844


In [41]:
# Exportar a CSV final
df_export_total_Q_inv.to_excel('Q_real_vs_predicha_transformadores_invierten.xlsx', index=False)

## Calculo potencia aparente: Transformadores que invierten

In [43]:
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np
import pandas as pd

# 1. Renombrar la columna de fecha
df_export_total_inv = df_export_total_inv.rename(columns={'fecha_real': 'fecha'})
df_export_total_Q_inv = df_export_total_Q_inv.rename(columns={'fecha_real': 'fecha'})

# 2. Extraer nombre base del transformador sin el sufijo
df_export_total_inv['transformador_base'] = df_export_total_inv['transformador'].str.extract(r'(SE_.*?Trf_.*?)(?: Potencia| Real Power)')
df_export_total_Q_inv['transformador_base'] = df_export_total_Q_inv['transformador'].str.extract(r'(SE_.*?Trf_.*?)(?: Potencia| Reactive Power)')

# 3. Hacer merge por 'fecha' y 'transformador_base'
df_s = pd.merge(
    df_export_total_inv,
    df_export_total_Q_inv,
    on=['fecha', 'transformador_base'],
    how='inner',
    suffixes=('_P', '_Q')
)

# 4. Eliminar nulos
df_s = df_s.dropna(subset=['P_real', 'P_predicha', 'Q_real', 'Q_predicha'])

# 5. Calcular potencia aparente real y predicha
df_s['S_real'] = np.sqrt(df_s['P_real']**2 + df_s['Q_real']**2)
df_s['S_predicha'] = np.sqrt(df_s['P_predicha']**2 + df_s['Q_predicha']**2)

# 6. Calcular errores por transformador base
transformadores = []
mae_list = []
rmse_list = []

for trf, grupo in df_s.groupby('transformador_base'):
    mae = mean_absolute_error(grupo['S_real'], grupo['S_predicha']) / 1000
    rmse = np.sqrt(mean_squared_error(grupo['S_real'], grupo['S_predicha'])) / 1000
    transformadores.append(trf)
    mae_list.append(round(mae, 3))
    rmse_list.append(round(rmse, 3))

# 7. Construir tabla final
df_resultados_s = pd.DataFrame({
    'Transformador': transformadores,
    'MAE_S (MW)': mae_list,
    'RMSE_S (MW)': rmse_list
})

# 8. Agregar promedio general
df_resultados_s.loc[len(df_resultados_s)] = [
    'Total general',
    round(np.mean(mae_list), 3),
    round(np.mean(rmse_list), 3)
]

# 9. Mostrar
print(df_resultados_s)

                     Transformador  MAE_S (MW)  RMSE_S (MW)
0        SE_Concon.Trf_Concon_T2_2       1.037        1.574
1  SE_San_Felipe.Trf_San_Felipe_T1       1.973        3.324
2  SE_San_Felipe.Trf_San_Felipe_T2       1.222        1.940
3  SE_San_Rafael.Trf_San_Rafael_T1       1.762        2.827
4  SE_San_Rafael.Trf_San_Rafael_T3       1.362        2.206
5                    Total general       1.471        2.374
