In [26]:
import pandas as pd
import numpy as np
from pathlib import Path

In [27]:
# 1. Definir la ruta principal que contiene las carpetas mensuales.
# La 'r' al principio es para tratar la cadena como una ruta literal, lo cual es una buena práctica.
ruta_principal = Path(r'E:\Dev\Deep-Solar-Grid\datos')

# 2. Construir el patrón de búsqueda.
# El primer '*' buscará en todas las carpetas dentro de 'datos' (ej: 2024_01, 2024_02).
# El segundo '*' coincidirá con cualquier nombre de archivo que empiece con "Inversor_" y termine en ".xlsx".
patron_archivos = "**/Inversor_6T2099037507*.xlsx"

# 3. Usar .glob() para encontrar todos los archivos que coincidan con el patrón.
# Esto te dará una lista de todas las rutas a tus archivos de Excel.
lista_de_archivos = list(ruta_principal.glob(patron_archivos))

# Verificamos que se encontraron archivos (opcional, pero recomendado)
if not lista_de_archivos:
    print(f"¡Error! No se encontraron archivos con el patrón '{patron_archivos}' en la carpeta '{ruta_principal}'.")
    print("Por favor, revisa la ruta y el patrón.")
else:
    print(f"Se encontraron {len(lista_de_archivos)} archivos. Procediendo a cargarlos...")

    # 4. Crear una lista para almacenar cada DataFrame individual.
    lista_de_dfs = []

    # 5. Iterar sobre cada ruta de archivo encontrada.
    for archivo in lista_de_archivos:
        # Imprimir el archivo que se está procesando (útil para seguimiento).
        print(f"  Cargando: {archivo.name}")
        
        # Leer cada archivo de Excel, recordando saltar las primeras 3 filas.
        temp_df = pd.read_excel(archivo, header=3)
        
        # Agregar el DataFrame recién leído a nuestra lista.
        lista_de_dfs.append(temp_df)

    # 6. Combinar todos los DataFrames de la lista en uno solo.
    # ignore_index=True crea un nuevo índice limpio para el DataFrame final.
    df_energia = pd.concat(lista_de_dfs, ignore_index=True)

    # 7. Realizar la limpieza final que ya tenías.
    # Se eliminan las columnas que están completamente vacías.
    df_energia.dropna(axis=1, how='all', inplace=True)

    # 8. ¡Listo! Mostrar información del DataFrame resultante.
    print("\n¡Proceso completado! Todos los archivos han sido combinados.")
    print("Información del DataFrame final:")
    df_energia.info()

    # Muestra las primeras 5 filas para una revisión rápida.
    print("\nPrimeras filas del DataFrame combinado:")
    print(df_energia.head())
df_energia

Se encontraron 16 archivos. Procediendo a cargarlos...
  Cargando: Inversor_6T2099037507_Inverter(COM1-2)_20240101000000_20240131235959.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")


  Cargando: Inversor_6T2099037507_Inverter(COM1-2)_20240201000000_20240229235959.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")


  Cargando: Inversor_6T2099037507_Inverter(COM1-2)_20240301000000_20240331235959.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")


  Cargando: Inversor_6T2099037507_Inverter(COM1-2)_20240401000000_20240430235959.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")


  Cargando: Inversor_6T2099037507_Inverter(COM1-2)_20240501000000_20240531235959.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")


  Cargando: Inversor_6T2099037507_Inverter(COM1-2)_20240601000000_20240630235959.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")


  Cargando: Inversor_6T2099037507_Inverter(COM1-2)_20240701000000_20240731235959.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")


  Cargando: Inversor_6T2099037507_Inverter(COM1-2)_20240801000000_20240831235959.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")


  Cargando: Inversor_6T2099037507_Inverter(COM1-2)_20240901000000_20240930235959.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")


  Cargando: Inversor_6T2099037507_Inverter(COM1-2)_20241001000000_20241031235959.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")


  Cargando: Inversor_6T2099037507_Inverter(COM1-2)_20241101000000_20241130235959.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")


  Cargando: Inversor_6T2099037507_Inverter(COM1-2)_20241201000000_20241231235959.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")


  Cargando: Inversor_6T2099037507_Inverter(COM1-2)_20250101000000_20250131235959.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")


  Cargando: Inversor_6T2099037507_Inverter(COM1-2)_20250201000000_20250228235959.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")


  Cargando: Inversor_6T2099037507_Inverter(COM1-2)_20250301000000_20250331235959.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")


  Cargando: Inversor_6T2099037507_Inverter(COM1-2)_20250401000000_20250430235959.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")



¡Proceso completado! Todos los archivos han sido combinados.
Información del DataFrame final:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 79304 entries, 0 to 79303
Data columns (total 97 columns):
 #   Column                                                 Non-Null Count  Dtype  
---  ------                                                 --------------  -----  
 0   Nombre del sitio                                       79304 non-null  object 
 1   Dominio de gestión                                     79304 non-null  object 
 2   Nombre del dispositivo                                 79304 non-null  object 
 3   Hora de inicio                                         79304 non-null  object 
 4   Alimentación de CA de la red(V)                        67797 non-null  float64
 5   Cantidad acumulada de electricidad absorbida(kWh)      79304 non-null  int64  
 6   Corriente B de fase de la red(A)                       79304 non-null  float64
 7   Corriente C de fase de la red(A)   

Unnamed: 0,Nombre del sitio,Dominio de gestión,Nombre del dispositivo,Hora de inicio,Alimentación de CA de la red(V),Cantidad acumulada de electricidad absorbida(kWh),Corriente B de fase de la red(A),Corriente C de fase de la red(A),Corriente de entrada de FV1(A),Corriente de entrada de FV2(A),...,Tensión de entrada PV10(V),Tensión de entrada PV11(V),Tensión de entrada PV12(V),Tensión de entrada PV13(V),Tensión de entrada PV14(V),Tensión de fase A(V),Tensión de fase B(V),Tensión de fase C(V),Tensión de línea AB de la red/Tensión de la red(V),Tensión entre PV- y la tierra(V)
0,MonteCaseros1,/ENCOR S.A.,102070049226/Inverter(COM1-2),2024-01-01 00:00:00,,0,0.000,0.000,0.00,0.00,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,-0.1
1,MonteCaseros1,/ENCOR S.A.,102070049226/Inverter(COM1-2),2024-01-01 05:35:00,,0,0.000,0.000,0.00,0.00,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,-0.1
2,MonteCaseros1,/ENCOR S.A.,102070049226/Inverter(COM1-2),2024-01-01 05:40:00,,0,0.000,0.000,0.00,0.00,...,572.3,212.4,212.4,568.0,568.0,227.0,227.3,225.2,,-0.1
3,MonteCaseros1,/ENCOR S.A.,102070049226/Inverter(COM1-2),2024-01-01 05:45:00,390.7,0,0.000,0.000,0.00,0.00,...,526.6,526.6,526.6,526.5,526.5,227.1,227.4,226.2,391.8,0.0
4,MonteCaseros1,/ENCOR S.A.,102070049226/Inverter(COM1-2),2024-01-01 05:50:00,389.6,0,0.091,0.148,0.03,0.00,...,538.6,487.2,487.2,556.5,556.5,226.0,226.6,226.2,391.8,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
79299,MonteCaseros1,/ENCOR S.A.,102070049226/Inverter(COM1-2),2025-04-30 18:25:00,398.0,0,0.203,0.011,0.06,-0.03,...,578.7,585.2,585.2,578.8,578.8,231.6,232.9,231.4,400.5,0.0
79300,MonteCaseros1,/ENCOR S.A.,102070049226/Inverter(COM1-2),2025-04-30 18:30:00,397.9,0,0.000,0.000,0.00,0.00,...,629.8,630.3,630.3,630.1,630.1,231.7,233.2,230.4,400.6,0.0
79301,MonteCaseros1,/ENCOR S.A.,102070049226/Inverter(COM1-2),2025-04-30 18:35:00,399.0,0,0.000,0.000,0.00,0.00,...,483.7,483.5,483.5,483.6,483.6,232.1,233.2,230.4,401.5,0.0
79302,MonteCaseros1,/ENCOR S.A.,102070049226/Inverter(COM1-2),2025-04-30 18:40:00,398.9,0,0.000,0.000,0.00,0.00,...,143.3,144.0,144.0,143.7,143.7,232.1,233.2,230.4,401.5,0.0


In [28]:
df_energia.drop(
    [
    'Nombre del sitio', 
    'Dominio de gestión',
    'Nombre del dispositivo', 
    # 'WiFi Intensidad de la señal(dBm)', 
    'Cantidad acumulada de electricidad absorbida(kWh)',
    'Tensión entre PV- y la tierra(V)',
    'Tensión de línea AB de la red/Tensión de la red(V)',
    'Tensión entre PV- y la tierra(V)',

    ], 
    axis=1, 
    inplace=True
    )

df_energia['Estado del inversor'] = np.where(df_energia['Estado del inversor'] == 'En la red', 1, 0) # ONE HOT ENCODING 
df_energia['Hora de inicio'] = pd.to_datetime(df_energia['Hora de inicio'])
df_energia['Hora de apagado del inversor'] = pd.to_datetime(df_energia['Hora de apagado del inversor'])
df_energia['Hora de inicio del inversor'] = pd.to_datetime(df_energia['Hora de inicio del inversor'])
df_energia

Unnamed: 0,Hora de inicio,Alimentación de CA de la red(V),Corriente B de fase de la red(A),Corriente C de fase de la red(A),Corriente de entrada de FV1(A),Corriente de entrada de FV2(A),Corriente de entrada de FV3(A),Corriente de entrada de FV4(A),Corriente de entrada de FV5(A),Corriente de entrada de FV6(A),...,Tensión de entrada de FV28(V),Tensión de entrada PV9(V),Tensión de entrada PV10(V),Tensión de entrada PV11(V),Tensión de entrada PV12(V),Tensión de entrada PV13(V),Tensión de entrada PV14(V),Tensión de fase A(V),Tensión de fase B(V),Tensión de fase C(V)
0,2024-01-01 00:00:00,,0.000,0.000,0.00,0.00,0.00,0.00,0.00,0.00,...,-0.1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,2024-01-01 05:35:00,,0.000,0.000,0.00,0.00,0.00,0.00,0.00,0.00,...,-0.1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,2024-01-01 05:40:00,,0.000,0.000,0.00,0.00,0.00,0.00,0.00,0.00,...,-0.1,572.3,572.3,212.4,212.4,568.0,568.0,227.0,227.3,225.2
3,2024-01-01 05:45:00,390.7,0.000,0.000,0.00,0.00,0.00,0.00,0.00,0.00,...,-0.1,526.6,526.6,526.6,526.6,526.5,526.5,227.1,227.4,226.2
4,2024-01-01 05:50:00,389.6,0.091,0.148,0.03,0.00,0.03,0.00,0.03,0.00,...,-0.1,538.6,538.6,487.2,487.2,556.5,556.5,226.0,226.6,226.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
79299,2025-04-30 18:25:00,398.0,0.203,0.011,0.06,-0.03,0.02,-0.01,0.05,-0.02,...,,578.7,578.7,585.2,585.2,578.8,578.8,231.6,232.9,231.4
79300,2025-04-30 18:30:00,397.9,0.000,0.000,0.00,0.00,0.00,0.00,0.00,0.00,...,,629.8,629.8,630.3,630.3,630.1,630.1,231.7,233.2,230.4
79301,2025-04-30 18:35:00,399.0,0.000,0.000,0.00,0.00,0.00,0.00,0.00,0.00,...,,483.7,483.7,483.5,483.5,483.6,483.6,232.1,233.2,230.4
79302,2025-04-30 18:40:00,398.9,0.000,0.000,0.00,0.00,0.00,0.00,0.00,0.00,...,,143.3,143.3,144.0,144.0,143.7,143.7,232.1,233.2,230.4


In [29]:
df_energia.columns

Index(['Hora de inicio', 'Alimentación de CA de la red(V)',
       'Corriente B de fase de la red(A)', 'Corriente C de fase de la red(A)',
       'Corriente de entrada de FV1(A)', 'Corriente de entrada de FV2(A)',
       'Corriente de entrada de FV3(A)', 'Corriente de entrada de FV4(A)',
       'Corriente de entrada de FV5(A)', 'Corriente de entrada de FV6(A)',
       'Corriente de entrada de FV7(A)', 'Corriente de entrada de FV8(A)',
       'Corriente de entrada de FV15(A)', 'Corriente de entrada de FV16(A)',
       'Corriente de entrada de FV17(A)', 'Corriente de entrada de FV18(A)',
       'Corriente de entrada de FV19(A)', 'Corriente de entrada de FV20(A)',
       'Corriente de entrada de FV21(A)', 'Corriente de entrada de FV22(A)',
       'Corriente de entrada de FV23(A)', 'Corriente de entrada de FV24(A)',
       'Corriente de entrada de FV25(A)', 'Corriente de entrada de FV26(A)',
       'Corriente de entrada de FV27(A)', 'Corriente de entrada de FV28(A)',
       'Corriente de e

In [30]:
columnas_df_final = ['Hora de inicio', 'Alimentación de CA de la red(V)', 'Corriente B de fase de la red(A)', 'Corriente C de fase de la red(A)', 'Corriente de entrada de FV1(A)', 'Corriente de entrada de FV2(A)', 'Corriente de entrada de FV3(A)', 'Corriente de entrada de FV4(A)', 'Corriente de entrada de FV5(A)', 'Corriente de entrada de FV6(A)', 'Corriente de entrada de FV7(A)', 'Corriente de entrada de FV8(A)', 'Corriente de entrada de FV15(A)', 'Corriente de entrada de FV16(A)', 'Corriente de entrada de FV17(A)', 'Corriente de entrada de FV18(A)', 'Corriente de entrada de FV19(A)', 'Corriente de entrada de FV20(A)', 'Corriente de entrada de FV21(A)', 'Corriente de entrada de FV22(A)', 'Corriente de entrada de FV23(A)', 'Corriente de entrada de FV24(A)', 'Corriente de entrada de FV25(A)', 'Corriente de entrada de FV26(A)', 'Corriente de entrada de FV27(A)', 'Corriente de entrada de FV28(A)', 'Corriente de entrada PV9(A)', 'Corriente de entrada PV10(A)', 'Corriente de entrada PV11(A)', 'Corriente de entrada PV12(A)', 'Corriente de entrada PV13(A)', 'Corriente de entrada PV14(A)', 'Corriente de fase A de la red/ Corriente de la red(A)', 'Eficiencia del inversor(%)', 'Energía acumulativa CC MPPT 1(kWh)', 'Energía acumulativa CC MPPT 2(kWh)', 'Energía acumulativa CC MPPT 3(kWh)', 'Energía acumulativa CC MPPT 4(kWh)', 'Energía acumulativa CC MPPT 5(kWh)', 'Energía acumulativa CC MPPT 6(kWh)', 'Energía acumulativa CC MPPT 7(kWh)', 'Energía acumulativa CC MPPT 8(kWh)', 'Energía acumulativa CC MPPT 9(kWh)', 'Energía acumulativa CC MPPT 10(kWh)', 'Energía acumulativa(kWh)', 'Energía annual(kWh)', 'Energía diaria(kWh)', 'Energía mensual(kWh)', 'Estado del inversor', 'Factor de potencia', 'Frecuencia de la red eléctrica(Hz)', 'Hora de apagado del inversor', 'Hora de inicio del inversor', 'Potencia activa(kW)', 'Potencia de entrada total(kW)', 'Potencia reactiva de salida(kvar)', 'Producción de hoy(kWh)', 'Producción total(kWh)', 'Temperatura interna(℃)', 'Tensión BC de la red(V)', 'Tensión de entrada de FV1(V)', 'Tensión de entrada de FV2(V)', 'Tensión de entrada de FV3(V)', 'Tensión de entrada de FV4(V)', 'Tensión de entrada de FV5(V)', 'Tensión de entrada de FV6(V)', 'Tensión de entrada de FV7(V)', 'Tensión de entrada de FV8(V)', 'Tensión de entrada de FV15(V)', 'Tensión de entrada de FV16(V)', 'Tensión de entrada de FV17(V)', 'Tensión de entrada de FV18(V)', 'Tensión de entrada de FV19(V)', 'Tensión de entrada de FV20(V)', 'Tensión de entrada de FV21(V)', 'Tensión de entrada de FV22(V)', 'Tensión de entrada de FV23(V)', 'Tensión de entrada de FV24(V)', 'Tensión de entrada de FV25(V)', 'Tensión de entrada de FV26(V)', 'Tensión de entrada de FV27(V)', 'Tensión de entrada de FV28(V)', 'Tensión de entrada PV9(V)', 'Tensión de entrada PV10(V)', 'Tensión de entrada PV11(V)', 'Tensión de entrada PV12(V)', 'Tensión de entrada PV13(V)', 'Tensión de entrada PV14(V)', 'Tensión de fase A(V)', 'Tensión de fase B(V)', 'Tensión de fase C(V)']

# Columnas de Corriente FV: Selecciona las que empiezan con 'Corriente de entrada'.
cols_corriente_fv = [col for col in columnas_df_final if col.startswith('Corriente de entrada')]

# Columnas de Tensión FV: Selecciona las que empiezan con 'Tensión de entrada'.
cols_tension_fv = [col for col in columnas_df_final if col.startswith('Tensión de entrada')]

# Columnas de Energía MPPT: Selecciona las que empiezan con 'Energía acumulativa CC MPPT'.
cols_energia_mppt = [col for col in columnas_df_final if col.startswith('Energía acumulativa CC MPPT')]


# --- 2. CREACIÓN DE NUEVAS FEATURES AGREGADAS ---
print("Creando nuevas features agregadas...")

# Llenar valores nulos con 0 antes de sumar/promediar para evitar resultados nulos
df_energia[cols_corriente_fv] = df_energia[cols_corriente_fv].fillna(0)
df_energia[cols_tension_fv] = df_energia[cols_tension_fv].fillna(0)
df_energia[cols_energia_mppt] = df_energia[cols_energia_mppt].fillna(0)

# A. Corriente Total FV
df_energia['Corriente_FV_Total(A)'] = df_energia[cols_corriente_fv].sum(axis=1)

# B. Tensión Promedio FV
# Se reemplazan los 0 con NaN para que no afecten el promedio si no hay tensión
df_tension_no_cero = df_energia[cols_tension_fv].replace(0, np.nan)
df_energia['Tension_FV_Promedio(V)'] = df_tension_no_cero.mean(axis=1)

# C. Potencia Total de Entrada FV (Opción recomendada)
# (Tension1 * Corriente1) + (Tension2 * Corriente2) + ...
potencia_total = pd.Series(0, index=df_energia.index)
for v_col, c_col in zip(cols_tension_fv, cols_corriente_fv):
    # Asegurarse de que ambas columnas existan en el df antes de multiplicar
    if v_col in df_energia.columns and c_col in df_energia.columns:
        potencia_total += df_energia[v_col] * df_energia[c_col]
# Convertir de W a kW y crear la columna
df_energia['Potencia_Entrada_FV_Total(kW)'] = potencia_total / 1000

# D. Energía Total MPPT
df_energia['Energia_MPPT_Total(kWh)'] = df_energia[cols_energia_mppt].sum(axis=1)

print("Nuevas features creadas.")


# --- 3. ELIMINACIÓN DE COLUMNAS ORIGINALES ---
print("Eliminando columnas originales redundantes...")

# Juntar todas las listas de columnas que ya no necesitamos
columnas_a_dropear = cols_corriente_fv + cols_tension_fv + cols_energia_mppt

# Eliminar las columnas
df_energia.drop(columns=columnas_a_dropear, inplace=True)

print("Columnas eliminadas.")


# --- 4. VERIFICACIÓN FINAL ---
print("\n--- Vista previa del DataFrame transformado ---")
# Filtramos para ver solo algunas de las columnas nuevas y otras importantes
columnas_a_mostrar = [
    'Hora de inicio', 
    'Corriente_FV_Total(A)', 
    'Tension_FV_Promedio(V)', 
    'Potencia_Entrada_FV_Total(kW)',
    'Potencia activa(kW)',
    'Energia_MPPT_Total(kWh)',
    'Eficiencia del inversor(%)'
]
columnas_existentes = [col for col in columnas_a_mostrar if col in df_energia.columns]


Creando nuevas features agregadas...
Nuevas features creadas.
Eliminando columnas originales redundantes...
Columnas eliminadas.

--- Vista previa del DataFrame transformado ---


In [31]:
df_energia[columnas_existentes].head()

Unnamed: 0,Hora de inicio,Corriente_FV_Total(A),Tension_FV_Promedio(V),Potencia_Entrada_FV_Total(kW),Potencia activa(kW),Energia_MPPT_Total(kWh),Eficiencia del inversor(%)
0,2024-01-01 00:00:00,-0.08,-0.1,8e-06,0.0,400041.4,0.0
1,2024-01-01 05:35:00,-0.08,-0.1,8e-06,0.0,400041.4,0.0
2,2024-01-01 05:40:00,-0.08,345.985714,8e-06,0.0,400041.4,0.0
3,2024-01-01 05:45:00,-0.04,403.883333,4e-06,0.0,400041.4,0.0
4,2024-01-01 05:50:00,0.2,397.916667,0.12517,0.121,400041.41,76.72


In [32]:
df = df_energia[columnas_existentes]

In [33]:
df.columns.to_list()

['Hora de inicio',
 'Corriente_FV_Total(A)',
 'Tension_FV_Promedio(V)',
 'Potencia_Entrada_FV_Total(kW)',
 'Potencia activa(kW)',
 'Energia_MPPT_Total(kWh)',
 'Eficiencia del inversor(%)']

In [34]:
df.describe().T

Unnamed: 0,count,mean,min,25%,50%,75%,max,std
Hora de inicio,79304.0,2024-08-29 19:51:23.220266240,2024-01-01 00:00:00,2024-04-24 16:53:45,2024-09-06 08:27:30,2024-12-27 19:56:15,2025-04-30 18:45:00,
Corriente_FV_Total(A),79304.0,46.976295,-0.33,4.33,29.26,87.2,167.19,46.728406
Tension_FV_Promedio(V),73698.0,614.630328,-0.1,601.62,626.86,647.21,806.28,69.351529
Potencia_Entrada_FV_Total(kW),79304.0,32.103767,-0.262185,2.90577,20.751545,60.1062,114.876044,31.406718
Potencia activa(kW),79304.0,31.382062,0.0,2.839,20.4835,58.76275,110.0,30.598347
Energia_MPPT_Total(kWh),79304.0,478411.071459,0.0,447931.625,495075.31,550227.7875,615028.48,124392.405354
Eficiencia del inversor(%),79304.0,85.021007,0.0,95.49,98.17,98.37,98.69,31.540957


In [35]:
df.isnull().sum()

Hora de inicio                      0
Corriente_FV_Total(A)               0
Tension_FV_Promedio(V)           5606
Potencia_Entrada_FV_Total(kW)       0
Potencia activa(kW)                 0
Energia_MPPT_Total(kWh)             0
Eficiencia del inversor(%)          0
dtype: int64

In [36]:
df.corr()

Unnamed: 0,Hora de inicio,Corriente_FV_Total(A),Tension_FV_Promedio(V),Potencia_Entrada_FV_Total(kW),Potencia activa(kW),Energia_MPPT_Total(kWh),Eficiencia del inversor(%)
Hora de inicio,1.0,0.062453,-0.007206,0.059515,0.058771,0.493874,0.045044
Corriente_FV_Total(A),0.062453,1.0,0.14517,0.998542,0.998399,0.230839,0.420738
Tension_FV_Promedio(V),-0.007206,0.14517,1.0,0.165053,0.167013,-0.013247,0.603114
Potencia_Entrada_FV_Total(kW),0.059515,0.998542,0.165053,1.0,0.999956,0.23236,0.427894
Potencia activa(kW),0.058771,0.998399,0.167013,0.999956,1.0,0.232665,0.429469
Energia_MPPT_Total(kWh),0.493874,0.230839,-0.013247,0.23236,0.232665,1.0,0.554745
Eficiencia del inversor(%),0.045044,0.420738,0.603114,0.427894,0.429469,0.554745,1.0


In [37]:
df

Unnamed: 0,Hora de inicio,Corriente_FV_Total(A),Tension_FV_Promedio(V),Potencia_Entrada_FV_Total(kW),Potencia activa(kW),Energia_MPPT_Total(kWh),Eficiencia del inversor(%)
0,2024-01-01 00:00:00,-0.08,-0.100000,0.000008,0.000,400041.40,0.00
1,2024-01-01 05:35:00,-0.08,-0.100000,0.000008,0.000,400041.40,0.00
2,2024-01-01 05:40:00,-0.08,345.985714,0.000008,0.000,400041.40,0.00
3,2024-01-01 05:45:00,-0.04,403.883333,0.000004,0.000,400041.40,0.00
4,2024-01-01 05:50:00,0.20,397.916667,0.125170,0.121,400041.41,76.72
...,...,...,...,...,...,...,...
79299,2025-04-30 18:25:00,-0.12,480.890000,-0.059997,0.000,615028.46,0.00
79300,2025-04-30 18:30:00,0.00,576.380000,0.000000,0.000,615028.48,0.00
79301,2025-04-30 18:35:00,0.00,442.780000,0.000000,0.000,615028.48,0.00
79302,2025-04-30 18:40:00,0.00,133.450000,0.000000,0.000,615028.48,0.00


In [38]:
df_irradiancia = pd.read_csv('E:\Dev\Deep-Solar-Grid\datos_irradiancia\POWER_Point_Hourly_20240101_20250531_029d64S_058d99W_LST.csv')
df_irradiancia

Unnamed: 0,YEAR,MO,DY,HR,ALLSKY_SFC_SW_DWN,T2M,WS10M,RH2M
0,2024,1,1,0,0.0,17.53,2.11,84.25
1,2024,1,1,1,0.0,17.22,1.87,87.93
2,2024,1,1,2,0.0,16.99,1.84,90.20
3,2024,1,1,3,0.0,17.15,2.05,89.04
4,2024,1,1,4,0.0,17.58,2.67,85.94
...,...,...,...,...,...,...,...,...
12403,2025,5,31,19,-999.0,10.84,1.45,73.87
12404,2025,5,31,20,-999.0,9.96,1.58,77.16
12405,2025,5,31,21,-999.0,9.10,1.75,81.22
12406,2025,5,31,22,-999.0,8.43,1.82,84.72


In [39]:
# 1. Identificar las columnas de energía acumulativa MPPT
cols_energia_mppt = [col for col in df_energia.columns if col.startswith('Energía acumulativa CC MPPT')]

# 2. Calcular la diferencia (energía generada) para cada columna MPPT
#    .diff() calcula la diferencia con la fila anterior.
#    .clip(lower=0) convierte cualquier valor negativo (reseteos) en 0.
#    .fillna(0) convierte el primer valor (que será NaN) en 0.
energia_generada_mppt = df_energia[cols_energia_mppt].diff().clip(lower=0).fillna(0)

# 3. Crear nuevas columnas para la energía generada por intervalo
#    Añadimos un sufijo '_generada_intervalo' para las nuevas columnas.
nuevos_nombres_cols = {col: col.replace('(kWh)', '_generada_intervalo(kWh)') for col in cols_energia_mppt}
energia_generada_mppt = energia_generada_mppt.rename(columns=nuevos_nombres_cols)

# 4. Unir las nuevas columnas al DataFrame original
df_energia = pd.concat([df_energia, energia_generada_mppt], axis=1)

Combinar datasets

In [40]:
# --- Preprocesamiento de df_energia ---
# Convertimos la columna 'Hora de inicio' a un objeto de fecha y hora (datetime)
df['Hora de inicio'] = pd.to_datetime(df['Hora de inicio'])
# Establecemos esa columna como el índice del DataFrame
df_energia = df.set_index('Hora de inicio')

# --- Preprocesamiento de df_irradiancia ---
# Combinamos las columnas de año, mes, día y hora para crear una columna de fecha y hora
df_irradiancia['datetime'] = pd.to_datetime(df_irradiancia[['YEAR', 'MO', 'DY', 'HR']].rename(columns={'YEAR': 'year', 'MO': 'month', 'DY': 'day', 'HR': 'hour'}))
# Establecemos la nueva columna 'datetime' como el índice
df_irradiancia = df_irradiancia.set_index('datetime')
# Eliminamos las columnas originales de fecha y hora, ya que no son necesarias
df_irradiancia = df_irradiancia.drop(['YEAR', 'DY', 'HR'], axis=1)


# ==============================================================================
# 3. COMBINAR LOS DATAFRAMES
# ==============================================================================

# Dado que df_energia tiene datos en intervalos de minutos y df_irradiancia
# tiene datos horarios, necesitamos agrupar los datos de energía por hora.
# 'resample('h')' agrupa los datos por hora y '.mean()' calcula el promedio.
df_energia_horaria = df_energia.resample('h').mean()

# Ahora combinamos (merge) los dos DataFrames usando sus índices (que son las fechas horarias).
# 'how='left'' asegura que todas las filas de df_energia_horaria se mantengan.
df_combinado = pd.merge(df_energia_horaria, df_irradiancia, left_index=True, right_index=True, how='left')

# Después de remuestrear, pueden aparecer valores nulos (NaN).
# 'ffill' (forward fill) rellena los valores NaN con el último valor válido observado.
df_combinado = df_combinado.fillna(method='ffill')


# ==============================================================================
# 4. MOSTRAR Y GUARDAR EL RESULTADO
# ==============================================================================

# Imprime las primeras 5 filas del DataFrame combinado
print("DataFrame Combinado:")
print(df_combinado.head())

df_train = df_combinado.loc['2024']
df_test = df_combinado.loc['2025']
# Guarda el DataFrame resultante en un nuevo archivo CSV
df_train.to_csv("dataset_final_train.csv")
df_test.to_csv("dataset_final_test.csv")

print("\n¡El archivo 'dataset_final.csv' ha sido creado con éxito!")

DataFrame Combinado:
                     Corriente_FV_Total(A)  Tension_FV_Promedio(V)  \
Hora de inicio                                                       
2024-01-01 00:00:00                  -0.08                    -0.1   
2024-01-01 01:00:00                  -0.08                    -0.1   
2024-01-01 02:00:00                  -0.08                    -0.1   
2024-01-01 03:00:00                  -0.08                    -0.1   
2024-01-01 04:00:00                  -0.08                    -0.1   

                     Potencia_Entrada_FV_Total(kW)  Potencia activa(kW)  \
Hora de inicio                                                            
2024-01-01 00:00:00                       0.000008                  0.0   
2024-01-01 01:00:00                       0.000008                  0.0   
2024-01-01 02:00:00                       0.000008                  0.0   
2024-01-01 03:00:00                       0.000008                  0.0   
2024-01-01 04:00:00                   

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Hora de inicio'] = pd.to_datetime(df['Hora de inicio'])
  df_combinado = df_combinado.fillna(method='ffill')
