# ETL Process: Modelo y Real Transpuesto por GHI, POA y Energ√≠a

Este notebook recrea el proceso ETL de Power Query (Lenguaje M) en Python para combinar datos del modelo y datos reales, agreg√°ndolos a nivel diario y creando una tabla transpuesta final con comparaci√≥n Real vs Modelo.

## Estructura del proceso:
1. **Configuraci√≥n inicial**: Fechas, plantas e intervalos, rutas de archivos
2. **Carga de datos del Modelo**: Archivos CSV desde carpeta de modelo (iniciando en fila 11)
3. **Carga de datos EM**: Datos de estaciones meteorol√≥gicas (3 plantas)
4. **Carga de datos de Energ√≠a**: Datos de energ√≠a a nivel de 5 minutos
5. **Combinaci√≥n y transformaci√≥n**: Joins, limpieza de valores negativos y agregaciones
6. **Agregaci√≥n horaria**: Promedio de sensores duales y agrupaci√≥n por hora
7. **Agregaci√≥n diaria**: Suma de energ√≠a y radiaci√≥n, promedio de temperaturas
8. **Combinaci√≥n final**: Join entre datos reales y modelo por d√≠a
9. **Transposici√≥n final**: Tabla con datos Real vs Modelo por m√©trica (GHI, POA, Energ√≠a) agrupados por d√≠a

## M√©tricas finales:
- **Ener_kWh**: Energ√≠a Real vs Modelo (kWh/d√≠a)
- **POA_Wh/m2**: Radiaci√≥n Plano del Arreglo Real vs Modelo (Wh/m¬≤/d√≠a)  
- **GHI_Wh/m2**: Radiaci√≥n Global Horizontal Real vs Modelo (Wh/m¬≤/d√≠a)

## Plantas incluidas:
- BSB 500, BSB 501, BSB 502, BSB 503, BSB 504

## Per√≠odo de an√°lisis:
- Desde: 2024-11-22 00:00:00
- Hasta: 2025-10-16 23:55:00
- Intervalo: 5 minutos

## Comportamiento del ETL

El proceso ETL implementado en este notebook sigue un flujo espec√≠fico con reglas de agregaci√≥n y conversi√≥n de unidades detalladas:

### Diagrama de flujo del ETL

```mermaid
flowchart TD
    A[üìÖ CONFIGURACI√ìN INICIAL<br/>‚Ä¢ Fechas: 2024-11-22 a 2025-10-16<br/>‚Ä¢ Intervalo: 5 minutos<br/>‚Ä¢ Plantas: BSB 500-504] --> B[üèóÔ∏è CREAR GRILLA BASE]
    
    B --> C[üìä CARGA DATOS MODELO<br/>‚Ä¢ CSV desde fila 11<br/>‚Ä¢ Variables: date, GlobInc, GlobEff, E_Grid<br/>‚Ä¢ Reemplazar /90 ‚Üí /2025]
    B --> D[üå°Ô∏è CARGA DATOS EM<br/>‚Ä¢ TXT estaciones meteorol√≥gicas<br/>‚Ä¢ Sensores duales: POA_1/2, GHI_1/2<br/>‚Ä¢ Temperaturas: Tmod_1/2, Tamb_1/2]
    B --> E[‚ö° CARGA DATOS ENERG√çA<br/>‚Ä¢ Excel 5 minutal<br/>‚Ä¢ Variable: ENERG√çA ACTIVA (kWh)]
    
    C --> F[üîÑ PROCESAR MODELO]
    F --> F1[üìà AGREGACI√ìN HORARIA MODELO<br/>‚Ä¢ Irradiancias: PROMEDIO (W/m¬≤ ‚Üí Wh/m¬≤)<br/>‚Ä¢ Energ√≠a: SUMA (kW ‚Üí kWh)]
    F1 --> F2[üìÖ AGREGACI√ìN DIARIA MODELO<br/>‚Ä¢ Irradiancias: SUMA (Wh/m¬≤ ‚Üí Wh/m¬≤/d√≠a)<br/>‚Ä¢ Energ√≠a: SUMA (kWh ‚Üí kWh/d√≠a)]
    F2 --> F3[üìã DUPLICAR PARA 2024<br/>‚Ä¢ Modelo 2025 ‚Üí 2024 y 2025]
    
    D --> G[üîó JOIN GRILLA + EM]
    E --> H[üîó JOIN CON ENERG√çA<br/>‚Ä¢ Redondeo a intervalos 5 min<br/>‚Ä¢ Clave: Planta|Fecha-Hora]
    
    G --> H
    H --> I[üßπ LIMPIEZA DATOS REALES<br/>‚Ä¢ Valores negativos ‚Üí 0<br/>‚Ä¢ Filtrar valores inv√°lidos]
    
    I --> J[üìà AGREGACI√ìN HORARIA REALES<br/>‚Ä¢ Sensores duales: PROMEDIO<br/>‚Ä¢ POA/GHI: PROMEDIO (W/m¬≤ ‚Üí Wh/m¬≤)<br/>‚Ä¢ Temperaturas: PROMEDIO<br/>‚Ä¢ Energ√≠a: SUMA (kWh)]
    
    J --> K[üìÖ AGREGACI√ìN DIARIA REALES<br/>‚Ä¢ POA/GHI: SUMA (Wh/m¬≤ ‚Üí Wh/m¬≤/d√≠a)<br/>‚Ä¢ Temperaturas: PROMEDIO<br/>‚Ä¢ Energ√≠a: SUMA (kWh ‚Üí kWh/d√≠a)]
    
    F3 --> L[üîó JOIN REALES + MODELO<br/>‚Ä¢ Clave: a√±o, mes, d√≠a, planta]
    K --> L
    
    L --> M[üîÑ TRANSPOSICI√ìN FINAL<br/>‚Ä¢ Estructura: Real/Modelo por m√©trica<br/>‚Ä¢ Columnas: Fecha, Planta, Tipo<br/>‚Ä¢ M√©tricas: Ener_kWh, GHI_Wh/m2, POA_Wh/m2]
    
    M --> N[üì§ EXPORTACI√ìN<br/>‚Ä¢ CSV para an√°lisis<br/>‚Ä¢ Excel con m√∫ltiples hojas<br/>‚Ä¢ Res√∫menes estad√≠sticos]
    
    style A fill:#e1f5fe
    style F1 fill:#f3e5f5
    style F2 fill:#f3e5f5
    style J fill:#e8f5e8
    style K fill:#e8f5e8
    style M fill:#fff3e0
    style N fill:#ffebee
```

### Reglas de Agregaci√≥n y Conversi√≥n de Unidades

#### **1. Datos del Modelo:**
- **Agregaci√≥n Horaria**: 
  - Irradiancias (GlobInc, GlobEff): **PROMEDIO** (W/m¬≤ ‚Üí Wh/m¬≤)
  - Energ√≠a (E_Grid): **SUMA** (kW ‚Üí kWh)
- **Agregaci√≥n Diaria**:
  - Irradiancias: **SUMA** (Wh/m¬≤ ‚Üí Wh/m¬≤/d√≠a)
  - Energ√≠a: **SUMA** (kWh ‚Üí kWh/d√≠a)

#### **2. Datos Reales (EM + Energ√≠a):**
- **Agregaci√≥n Horaria**:
  - Sensores duales (POA_1/2, GHI_1/2): **PROMEDIO** ‚Üí **PROMEDIO DUAL** (W/m¬≤ ‚Üí Wh/m¬≤)
  - Temperaturas (Tmod_1/2, Tamb_1/2): **PROMEDIO** ‚Üí **PROMEDIO DUAL** (¬∞C)
  - Energ√≠a: **SUMA** (kWh)
- **Agregaci√≥n Diaria**:
  - Irradiancias: **SUMA** (Wh/m¬≤ ‚Üí Wh/m¬≤/d√≠a)
  - Temperaturas: **PROMEDIO** (¬∞C)
  - Energ√≠a: **SUMA** (kWh ‚Üí kWh/d√≠a)

#### **3. Limpieza de Datos:**
- Valores negativos ‚Üí 0
- Valores NaN ‚Üí 0 (para c√°lculos)
- Filtrado de registros inv√°lidos
- Redondeo temporal a intervalos de 5 minutos

#### **4. Estructura Final:**
- **Transposici√≥n**: Real vs Modelo por m√©trica
- **M√©tricas finales**: Ener_kWh, POA_Wh/m2, GHI_Wh/m2
- **Granularidad**: Diaria
- **Comparaci√≥n**: Lado a lado por fecha y planta

In [10]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import os
import glob
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

In [4]:
# 1. CONFIGURACI√ìN INICIAL - Par√°metros de fecha e intervalo
fecha_inicio = datetime(2024, 11, 22, 0, 0, 0)
fecha_fin = datetime(2025, 10, 16, 23, 55, 0)
intervalo_minutos = 5

# Lista de plantas
lista_plantas = ["BSB 500", "BSB 501", "BSB 502", "BSB 503", "BSB 504"]

# Rutas de archivos
ruta_base = r"C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares"
ruta_modelo = os.path.join(ruta_base, "05 IN", "04. MODELO")
ruta_energia = os.path.join(ruta_base, "05 IN", "03. ENERG√çA", "Energia_5_minutal")

print(f"Fecha inicio: {fecha_inicio}")
print(f"Fecha fin: {fecha_fin}")
print(f"Plantas: {lista_plantas}")
print(f"Ruta modelo: {ruta_modelo}")
print(f"Ruta energ√≠a: {ruta_energia}")



Fecha inicio: 2024-11-22 00:00:00
Fecha fin: 2025-10-16 23:55:00
Plantas: ['BSB 500', 'BSB 501', 'BSB 502', 'BSB 503', 'BSB 504']
Ruta modelo: C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares\05 IN\04. MODELO
Ruta energ√≠a: C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares\05 IN\03. ENERG√çA\Energia_5_minutal


In [5]:
# 2. CREAR GRILLA BASE DE FECHAS Y PLANTAS (Cross-Join)
def crear_grilla_base(fecha_inicio, fecha_fin, intervalo_minutos, plantas):
    """
    Crea la grilla base con todas las combinaciones de fechas-horas y plantas
    Equivalente al Cross-Join de Power Query
    """
    # Calcular n√∫mero de intervalos
    duracion_total_minutos = (fecha_fin - fecha_inicio).total_seconds() / 60
    numero_intervalos = int(duracion_total_minutos / intervalo_minutos) + 1
    
    # Generar lista de fechas-horas
    fechas = []
    fecha_actual = fecha_inicio
    for i in range(numero_intervalos):
        fechas.append(fecha_actual)
        fecha_actual += timedelta(minutes=intervalo_minutos)
    
    # Crear DataFrame con todas las combinaciones
    grilla_base = []
    for fecha in fechas:
        for planta in plantas:
            grilla_base.append({
                'FechaHora': fecha,
                'Planta': planta
            })
    
    df_grilla = pd.DataFrame(grilla_base)
    return df_grilla

# Crear la grilla base
df_grilla_base = crear_grilla_base(fecha_inicio, fecha_fin, intervalo_minutos, lista_plantas)
print(f"Grilla base creada con {len(df_grilla_base):,} registros")
print(f"Rango de fechas: {df_grilla_base['FechaHora'].min()} a {df_grilla_base['FechaHora'].max()}")
print(f"Plantas √∫nicas: {df_grilla_base['Planta'].nunique()}")
df_grilla_base.head()

Grilla base creada con 473,760 registros
Rango de fechas: 2024-11-22 00:00:00 a 2025-10-16 23:55:00
Plantas √∫nicas: 5


Unnamed: 0,FechaHora,Planta
0,2024-11-22,BSB 500
1,2024-11-22,BSB 501
2,2024-11-22,BSB 502
3,2024-11-22,BSB 503
4,2024-11-22,BSB 504


In [6]:
# 3. CARGA DE DATOS DEL MODELO
def cargar_datos_modelo(ruta_modelo):
    """
    Carga y procesa los datos del modelo desde archivos CSV
    Equivalente a la consulta 'Modelo' en Power Query
    """
    archivos_modelo = glob.glob(os.path.join(ruta_modelo, "*.csv"))
    print(f"Archivos encontrados en modelo: {len(archivos_modelo)}")
    
    df_modelo_completo = []
    
    for archivo in archivos_modelo:
        try:
            # Leer archivo comenzando desde la fila 11 (√≠ndice 10)
            # Intentar con diferentes separadores y configuraciones
            df = None
            
            # Primero intentar leer solo para obtener el delimitador correcto
            with open(archivo, 'r', encoding='latin1') as f:
                lines = f.readlines()
                if len(lines) > 10:
                    header_line = lines[10].strip()
                    # Determinar separador basado en la l√≠nea de encabezado
                    if '\t' in header_line:
                        sep = '\t'
                    elif ';' in header_line:
                        sep = ';'
                    else:
                        sep = ','
            
            # Leer con el separador detectado
            df = pd.read_csv(archivo, skiprows=10, encoding='latin1', sep=sep, on_bad_lines='skip')
            
            # Extraer nombre de planta del archivo
            nombre_archivo = os.path.basename(archivo)
            if " - " in nombre_archivo:
                planta_temp = nombre_archivo.split(" - ")[1]
                if "_P" in planta_temp:
                    planta = planta_temp.split("_P")[0]
                elif "_" in planta_temp:
                    planta = planta_temp.split("_")[0]
                else:
                    planta = planta_temp.replace("-", " ")
            else:
                planta = nombre_archivo.split("_")[0] if "_" in nombre_archivo else nombre_archivo.split(".")[0]
            
            # Limpiar nombre de planta
            planta = planta.replace("-", " ").strip()
            
            # A√±adir columna de planta
            df['Planta'] = planta
            df['Source.Name'] = nombre_archivo
            
            df_modelo_completo.append(df)
            print(f"Procesado: {archivo} -> Planta: {planta} -> Filas: {len(df)}")
            
        except Exception as e:
            print(f"Error procesando {archivo}: {e}")
    
    if df_modelo_completo:
        df_final = pd.concat(df_modelo_completo, ignore_index=True)
        return df_final
    else:
        return pd.DataFrame()

# Cargar datos del modelo
df_modelo = cargar_datos_modelo(ruta_modelo)
if not df_modelo.empty:
    print(f"Datos del modelo cargados: {len(df_modelo):,} registros")
    print("Columnas disponibles:", df_modelo.columns.tolist())
    df_modelo.head()

Archivos encontrados en modelo: 5
Procesado: C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares\05 IN\04. MODELO\220609 - BSB-500_Project_VC3_HourlyRes_0.CSV -> Planta: BSB 500 -> Filas: 8761
Procesado: C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares\05 IN\04. MODELO\220609 - BSB-502_Project_VC3_HourlyRes_0.CSV -> Planta: BSB 502 -> Filas: 8761
Procesado: C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares\05 IN\04. MODELO\220622 - BSB-504_Project_VC4_HourlyRes_0.CSV -> Planta: BSB 504 -> Filas: 8761
Procesado: C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares\05 IN\04. MODELO\220629 - BSB-501_Project_VC3_HourlyRes_0.CSV -> Planta: BSB 501 -> Filas: 8761
Procesado: C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - I

In [7]:
df_modelo.head()

Unnamed: 0,date,GlobInc,GlobEff,EArray,E_Grid,PR,Planta,Source.Name
0,,W/m¬≤,W/m¬≤,kW,kW,ratio,BSB 500,220609 - BSB-500_Project_VC3_HourlyRes_0.CSV
1,01/01/90 00:00,0,0,0,0,0,BSB 500,220609 - BSB-500_Project_VC3_HourlyRes_0.CSV
2,01/01/90 01:00,0,0,0,0,0,BSB 500,220609 - BSB-500_Project_VC3_HourlyRes_0.CSV
3,01/01/90 02:00,0,0,0,0,0,BSB 500,220609 - BSB-500_Project_VC3_HourlyRes_0.CSV
4,01/01/90 03:00,0,0,0,0,0,BSB 500,220609 - BSB-500_Project_VC3_HourlyRes_0.CSV


In [8]:
# 4. PROCESAR DATOS DEL MODELO Y CREAR AGREGACI√ìN DIARIA
def procesar_modelo(df_modelo):
    """
    Procesa los datos del modelo para crear agregaci√≥n diaria
    PROCESO CORREGIDO:
    1. Primero agrupa por HORA: promedio para irradiancias, suma para energ√≠a
    2. Luego agrupa por D√çA: suma para todo (irradiancias ya est√°n en Wh/m¬≤)
    """
    if df_modelo.empty:
        return pd.DataFrame()
    
    # Filtrar filas v√°lidas (similar al filtro en Power Query)
    df_filtrado = df_modelo[
        (df_modelo['date'].notna()) & 
        (df_modelo['date'] != "") &
        (df_modelo['date'] != "date") &
        (~df_modelo['date'].astype(str).str.contains("Geographical|Project|PVSYST|Simulation|Weather", na=False))
    ].copy()
    
    print(f"Registros despu√©s del filtrado: {len(df_filtrado):,}")
    
    # Convertir tipos de datos
    try:
        # Las columnas reales son: ['date', 'GlobInc', 'GlobEff', 'EArray', 'E_Grid', 'PR', 'Planta', 'Source.Name']
        # Mapear a nombres esperados:
        # date -> Fecha_y_hora
        # GlobInc -> POA_W/m¬≤  
        # GlobEff -> GHI_W/m¬≤
        # E_Grid -> ENE_kW
        
        # Reemplazar /90 por /2025 en fechas (como en Power Query)
        df_filtrado['date'] = df_filtrado['date'].astype(str).str.replace('/90', '/2025')
        df_filtrado['date'] = pd.to_datetime(df_filtrado['date'], errors='coerce')
        
        # Convertir columnas num√©ricas
        columnas_numericas = ['GlobInc', 'GlobEff', 'EArray', 'E_Grid', 'PR']
        for col in columnas_numericas:
            if col in df_filtrado.columns:
                df_filtrado[col] = pd.to_numeric(df_filtrado[col], errors='coerce')
    
    except Exception as e:
        print(f"Error en conversi√≥n de tipos: {e}")
        return pd.DataFrame()
    
    # Eliminar filas con fechas inv√°lidas
    df_filtrado = df_filtrado.dropna(subset=['date'])
    
    # Extraer componentes de fecha (como en Power Query)
    df_filtrado['A√±o'] = df_filtrado['date'].dt.year
    df_filtrado['Mes'] = df_filtrado['date'].dt.month
    df_filtrado['D√≠a'] = df_filtrado['date'].dt.day
    df_filtrado['Hora'] = df_filtrado['date'].dt.hour

    # PASO 1: Agrupar por HORA (PROMEDIO para irradiancias, SUMA para energ√≠a)
    print("Paso 1: Agregando por hora...")
    df_agrupado_hora = df_filtrado.groupby(['A√±o', 'Mes', 'D√≠a', 'Hora', 'Planta']).agg({
        'E_Grid': 'sum',          # Suma para energ√≠a (E_Grid)
        'GlobInc': 'mean',        # PROMEDIO para POA (se convierte a WWh/m¬≤ en esta etapa)
        'GlobEff': 'mean'         # PROMEDIO para GHI (se convierte a WWh/m¬≤ en esta etapa)
    }).reset_index()
    
    print(f"Datos del modelo agrupados por hora: {len(df_agrupado_hora):,} registros")

    # PASO 2: Agrupar por D√çA (SUMA para todo, ya que irradiancias est√°n en Wh/m¬≤)
    print("Paso 2: Agregando por d√≠a...")
    df_agrupado_dia = df_agrupado_hora.groupby(['A√±o', 'Mes', 'D√≠a', 'Planta']).agg({
        'E_Grid': 'sum',          # Suma para energ√≠a (E_Grid)
        'GlobInc': 'sum',         # SUMA para POA (ya est√° en Wh/m¬≤ despu√©s de agregaci√≥n horaria)
        'GlobEff': 'sum'          # SUMA para GHI (ya est√° en Wh/m¬≤ despu√©s de agregaci√≥n horaria)
    }).reset_index()
    
    # Renombrar columnas para claridad
    df_agrupado_dia = df_agrupado_dia.rename(columns={
        'E_Grid': 'Ener_kWh',
        'GlobInc': 'POA_Wh/m2',
        'GlobEff': 'GHI_Wh/m2'
    })
    
    print(f"Datos del modelo agrupados por d√≠a: {len(df_agrupado_dia):,} registros")
    return df_agrupado_dia

# Procesar datos del modelo
if not df_modelo.empty:
    df_modelo_dia = procesar_modelo(df_modelo)
    if not df_modelo_dia.empty:
        print("Primeros registros del modelo agrupado por d√≠a:")
        print(df_modelo_dia.head())
        print(f"Rango de fechas: {df_modelo_dia['A√±o'].min()}-{df_modelo_dia['Mes'].min()}-{df_modelo_dia['D√≠a'].min()} a {df_modelo_dia['A√±o'].max()}-{df_modelo_dia['Mes'].max()}-{df_modelo_dia['D√≠a'].max()}")
    else:
        print("Error: No se pudieron procesar los datos del modelo")
        df_modelo_dia = pd.DataFrame()
else:
    print("Error: No hay datos del modelo para procesar")
    df_modelo_dia = pd.DataFrame()

Registros despu√©s del filtrado: 43,805
Paso 1: Agregando por hora...
Datos del modelo agrupados por hora: 43,800 registros
Paso 2: Agregando por d√≠a...
Datos del modelo agrupados por d√≠a: 1,825 registros
Primeros registros del modelo agrupado por d√≠a:
    A√±o  Mes  D√≠a   Planta  Ener_kWh  POA_Wh/m2  GHI_Wh/m2
0  2025    1    1  BSB 500  103874.0      925.0        0.0
1  2025    1    1  BSB 501  103762.0      925.0        0.0
2  2025    1    1  BSB 502  112715.0      925.0        0.0
3  2025    1    1  BSB 503  103028.0      925.0      210.0
4  2025    1    1  BSB 504  102719.0      925.0        0.0
Rango de fechas: 2025-1-1 a 2025-12-31
Paso 1: Agregando por hora...
Datos del modelo agrupados por hora: 43,800 registros
Paso 2: Agregando por d√≠a...
Datos del modelo agrupados por d√≠a: 1,825 registros
Primeros registros del modelo agrupado por d√≠a:
    A√±o  Mes  D√≠a   Planta  Ener_kWh  POA_Wh/m2  GHI_Wh/m2
0  2025    1    1  BSB 500  103874.0      925.0        0.0
1  2025    1 

In [9]:
df_modelo_dia.head()

Unnamed: 0,A√±o,Mes,D√≠a,Planta,Ener_kWh,POA_Wh/m2,GHI_Wh/m2
0,2025,1,1,BSB 500,103874.0,925.0,0.0
1,2025,1,1,BSB 501,103762.0,925.0,0.0
2,2025,1,1,BSB 502,112715.0,925.0,0.0
3,2025,1,1,BSB 503,103028.0,925.0,210.0
4,2025,1,1,BSB 504,102719.0,925.0,0.0


In [60]:
# Duplicar los registros de  df_modelo_dia
# duplicar para cambiar y tener los datos a nivel de 2024 y 2025 el modelo es el mismo, por ende se puede duplicar en este paso.

df_modelo_dia_2024 = df_modelo_dia.copy()
df_modelo_dia_2024['A√±o'] = 2024
df_modelo_dia = pd.concat([df_modelo_dia, df_modelo_dia_2024], ignore_index=True)
print(f"Datos del modelo despu√©s de duplicar para 2024: {len(df_modelo_dia):,} registros")


Datos del modelo despu√©s de duplicar para 2024: 3,650 registros


In [61]:
df_modelo_dia.describe()

Unnamed: 0,A√±o,Mes,D√≠a,Ener_kWh,POA_Wh/m2,GHI_Wh/m2
count,3650.0,3650.0,3650.0,3650.0,3650.0,3650.0
mean,2024.5,6.526027,15.720548,85970.826849,54.964384,51.347397
std,0.500069,3.448324,8.797452,29685.352421,175.83294,177.77044
min,2024.0,1.0,1.0,0.0,0.0,0.0
25%,2024.0,4.0,8.0,65146.0,0.0,0.0
50%,2024.5,7.0,16.0,86546.0,0.0,0.0
75%,2025.0,10.0,23.0,111059.0,0.0,0.0
max,2025.0,12.0,31.0,140028.0,925.0,1691.0


In [63]:
df_modelo_dia.tail()

Unnamed: 0,A√±o,Mes,D√≠a,Planta,Ener_kWh,POA_Wh/m2,GHI_Wh/m2
3645,2024,12,31,BSB 500,128699.0,0.0,0.0
3646,2024,12,31,BSB 501,128549.0,0.0,221.0
3647,2024,12,31,BSB 502,129087.0,0.0,0.0
3648,2024,12,31,BSB 503,127594.0,0.0,711.0
3649,2024,12,31,BSB 504,126868.0,0.0,0.0


In [64]:
# 5. CARGA Y PROCESAMIENTO DE DATOS EM (ESTACIONES METEOROL√ìGICAS) 
def cargar_datos_em():
    """
    Carga y procesa datos de estaciones meteorol√≥gicas
    Equivalente a la consulta 'EM' en Power Query
    """
    # Rutas de archivos EM (corregida) archivos tipo TXT  
    ruta_em_base = os.path.join(ruta_base, "05 IN", "02. EEMM")  

    print(f"Buscando archivos EM en: {ruta_em_base}")
    
    # Buscar archivos de EM - versi√≥n mejorada
    archivos_em = []
    
    # Mapeo de plantas a patrones de archivos
    patrones_plantas = {
        "BSB 500": "BSB500_MeasData",
        "BSB 501": "BSB501_MeasData", 
        "BSB 502": "BSB502_MeasData"
    }
    
    for planta, patron in patrones_plantas.items():
        # Buscar archivos con diferentes extensiones (.TXT, .txt)
        for extension in ['.TXT', '.txt']:
            archivo_path = os.path.join(ruta_em_base, f"{patron}{extension}")
            if os.path.exists(archivo_path):
                archivos_em.append((archivo_path, planta))
                print(f"Encontrado: {archivo_path} -> {planta}")
                break  # Solo tomar el primer archivo encontrado por planta
    
    print(f"Archivos EM encontrados: {len(archivos_em)}")
    
    if not archivos_em:
        print("No se encontraron archivos EM, creando DataFrame vac√≠o")
        return pd.DataFrame()
    
    df_em_completo = []
    
    for archivo, planta in archivos_em:
        try:
            print(f"Procesando: {archivo}")
            
            # Primero leer el encabezado (l√≠nea 2) para obtener nombres de columnas
            with open(archivo, 'r', encoding='latin1') as f:
                lines = f.readlines()
                if len(lines) < 5:
                    print(f"Archivo {archivo} no tiene suficientes l√≠neas")
                    continue
                
                # La l√≠nea 2 (√≠ndice 1) contiene los nombres de columnas
                header_line = lines[1].strip().strip('"')
                column_names = [col.strip().strip('"') for col in header_line.split('","')]
                
                print(f"Columnas detectadas: {column_names[:5]}...")  # Mostrar solo las primeras 5
            
            # Leer archivo saltando las primeras 4 l√≠neas y usando los nombres de columnas detectados
            df_em = pd.read_csv(archivo, encoding='latin1', skiprows=4, names=column_names)
            
            print(f"Filas le√≠das: {len(df_em)}")
            print(f"Columnas finales: {df_em.columns.tolist()}")
            
            # Verificar que existe la columna TIMESTAMP
            if 'TIMESTAMP' not in df_em.columns:
                print(f"Advertencia: No se encontr√≥ columna TIMESTAMP en {archivo}")
                continue
            
            # Filtrar filas v√°lidas
            df_em = df_em[
                (df_em['TIMESTAMP'].notna()) & 
                (df_em['TIMESTAMP'] != "") &
                (df_em['TIMESTAMP'] != "TS")
            ].copy()
            
            print(f"Filas despu√©s del filtrado: {len(df_em)}")
            
            # Mapear nombres de columnas seg√∫n Power Query
            mapeo_columnas = {}
            for col in df_em.columns:
                if 'Irrad_POA_1' in col:
                    mapeo_columnas[col] = 'POA_1_W/m2'
                elif 'Irrad_GHI_1' in col:
                    mapeo_columnas[col] = 'GHI_1_W/m2'
                elif 'Irrad_POA_2' in col:
                    mapeo_columnas[col] = 'POA_2_W/m2'
                elif 'Irrad_GHI_2' in col:
                    mapeo_columnas[col] = 'GHI_2_W/m2'
                elif 'Temp_Modulo_1' in col:
                    mapeo_columnas[col] = 'Tmod_1_C'
                elif 'Temp_Modulo_2' in col:
                    mapeo_columnas[col] = 'Tmod_2_C'
                elif 'Temp_Amb_1' in col:
                    mapeo_columnas[col] = 'Tamb_1_C'
                elif 'Temp_Amb_2' in col:
                    mapeo_columnas[col] = 'Tamb_2_C'
                elif 'Voltaje' in col:
                    mapeo_columnas[col] = 'Voltaje_V'
                elif 'Irrad_Reflejada_1' in col:
                    mapeo_columnas[col] = 'Albedo_1_W/m2'
                elif 'HumRel' in col:
                    mapeo_columnas[col] = 'Humedad_%'
                elif 'Soiling' in col:
                    mapeo_columnas[col] = 'Soiling'
            
            # Renombrar columnas
            df_em = df_em.rename(columns=mapeo_columnas)
            print(f"Columnas despu√©s del mapeo: {[col for col in df_em.columns if col in mapeo_columnas.values() or col == 'TIMESTAMP']}")
            
            # Agregar columna de planta
            df_em['Planta'] = planta
            
            # Eliminar columnas no necesarias (como en Power Query)
            columnas_a_eliminar = [
                'RECORD', 'Vel_Viento_m/s', 'Dir_Viento_Deg', 'Dir_Viento_Std_Deg', 
                'PAtm_hPa', 'usri_1', 'SbLarga_500_Precip_5m', 'ustr1_raw',
                'SbLarga_500_Vel_Viento_5m_Avg', 'SbLarga_500_Dir_Viento_5m_Avg',
                'SbLarga_500_Dir_Viento_5m_Std', 'SbLarga_500_PAtm_5m_Avg'
            ]
            df_em = df_em.drop(columns=[col for col in columnas_a_eliminar if col in df_em.columns])
            
            df_em_completo.append(df_em)
            print(f"‚úÖ Procesado EM: {archivo} -> Planta: {planta} -> Filas: {len(df_em)}")
            
        except Exception as e:
            print(f"‚ùå Error procesando EM {archivo}: {e}")
            import traceback
            print(traceback.format_exc())
    
    if df_em_completo:
        df_em_final = pd.concat(df_em_completo, ignore_index=True)
        
        print(f"Total de registros antes del procesamiento: {len(df_em_final)}")
        
        # Procesar datos seg√∫n Power Query
        # Reemplazar puntos por comas y "NAN" por valores nulos
        columnas_numericas = [
            'POA_1_W/m2', 'GHI_1_W/m2', 'POA_2_W/m2', 'GHI_2_W/m2', 
            'Tmod_1_C', 'Tmod_2_C', 'Tamb_1_C', 'Tamb_2_C', 
            'Voltaje_V', 'Albedo_1_W/m2', 'Humedad_%', 'Soiling'
        ]
        
        for col in columnas_numericas:
            if col in df_em_final.columns:
                # Convertir a string primero para hacer reemplazos
                df_em_final[col] = df_em_final[col].astype(str)
                # Reemplazar patrones comunes de datos faltantes
                df_em_final[col] = df_em_final[col].str.replace('NAN', '', regex=False)
                df_em_final[col] = df_em_final[col].str.replace('nan', '', regex=False)
                df_em_final[col] = df_em_final[col].str.replace('NULL', '', regex=False)
                # Convertir a num√©rico
                df_em_final[col] = pd.to_numeric(df_em_final[col], errors='coerce')
        
        # Convertir timestamp
        df_em_final['TIMESTAMP'] = pd.to_datetime(df_em_final['TIMESTAMP'], errors='coerce')
        df_em_final = df_em_final.dropna(subset=['TIMESTAMP'])
        
        print(f"Registros despu√©s de limpieza de timestamp: {len(df_em_final)}")
        
        # Crear copia del timestamp como texto (como en Power Query)
        df_em_final['TIMESTAMP - Copia'] = df_em_final['TIMESTAMP'].dt.strftime('%Y-%m-%d %H:%M:%S')
        
        return df_em_final
    else:
        return pd.DataFrame()

# Cargar datos EM
print("=== CARGANDO DATOS DE ESTACIONES METEOROL√ìGICAS (CORREGIDO V2) ===")
df_em = cargar_datos_em()
if not df_em.empty:
    print(f"\n‚úÖ Datos EM cargados exitosamente: {len(df_em):,} registros")
    print("Columnas disponibles:", df_em.columns.tolist())
    print(f"Rango de fechas: {df_em['TIMESTAMP'].min()} a {df_em['TIMESTAMP'].max()}")
    print("Plantas en EM:", df_em['Planta'].unique())
    print("\nPrimeras filas:")
    print(df_em.head())
    
    # Mostrar estad√≠sticas por planta
    print("\n=== ESTAD√çSTICAS POR PLANTA ===")
    for planta in df_em['Planta'].unique():
        df_planta = df_em[df_em['Planta'] == planta]
        print(f"\n{planta}:")
        print(f"  - Registros: {len(df_planta):,}")
        print(f"  - Rango fechas: {df_planta['TIMESTAMP'].min()} a {df_planta['TIMESTAMP'].max()}")
        # Mostrar algunas m√©tricas clave
        for col in ['POA_1_W/m2', 'GHI_1_W/m2', 'Tmod_1_C', 'Tamb_1_C']:
            if col in df_planta.columns:
                valores_validos = df_planta[col].dropna()
                if len(valores_validos) > 0:
                    print(f"  - {col}: {valores_validos.mean():.2f} ¬± {valores_validos.std():.2f}")
else:
    print("‚ùå Advertencia: No se pudieron cargar datos EM")

=== CARGANDO DATOS DE ESTACIONES METEOROL√ìGICAS (CORREGIDO V2) ===
Buscando archivos EM en: C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares\05 IN\02. EEMM
Encontrado: C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares\05 IN\02. EEMM\BSB500_MeasData.TXT -> BSB 500
Encontrado: C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares\05 IN\02. EEMM\BSB501_MeasData.TXT -> BSB 501
Encontrado: C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares\05 IN\02. EEMM\BSB502_MeasData.TXT -> BSB 502
Archivos EM encontrados: 3
Procesando: C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares\05 IN\02. EEMM\BSB500_MeasData.TXT
Columnas detectadas: ['TIMESTAMP', 'RECORD', 'SbLarga_500_Irrad_POA_1_5m_Avg', 'SbLarga_500_Ir

In [65]:
df_em.head()

Unnamed: 0,TIMESTAMP,POA_1_W/m2,GHI_1_W/m2,POA_2_W/m2,GHI_2_W/m2,Albedo_1_W/m2,Humedad_%,Tmod_1_C,Tmod_2_C,Soiling,Tamb_1_C,Tamb_2_C,Voltaje_V,Planta,TIMESTAMP - Copia
0,2025-02-14 16:55:00,56.76832,50.93786,56.67333,54.65786,13.8124,61.0,22.92174,22.86534,,24.7926,25.1146,12.35401,BSB 500,2025-02-14 16:55:00
1,2025-02-14 17:00:00,71.15778,63.52339,71.07851,68.73905,13.79694,61.0,29.07562,29.00211,,28.93294,29.3027,12.35115,BSB 500,2025-02-14 17:00:00
2,2025-02-14 17:05:00,67.68255,60.23819,67.64599,65.92947,12.80262,61.15278,28.9382,28.86582,1.035138,28.87198,29.30294,12.34984,BSB 500,2025-02-14 17:05:00
3,2025-02-14 17:10:00,44.4071,39.746,44.49584,43.666,12.38411,62.0,21.10587,21.05112,1.033209,23.04978,23.43686,12.35538,BSB 500,2025-02-14 17:10:00
4,2025-02-14 17:15:00,54.27269,48.76986,54.39705,53.57546,11.65897,62.0,27.79878,27.7218,1.035332,28.00419,28.42916,12.35045,BSB 500,2025-02-14 17:15:00


In [66]:
df_em.columns

Index(['TIMESTAMP', 'POA_1_W/m2', 'GHI_1_W/m2', 'POA_2_W/m2', 'GHI_2_W/m2',
       'Albedo_1_W/m2', 'Humedad_%', 'Tmod_1_C', 'Tmod_2_C', 'Soiling',
       'Tamb_1_C', 'Tamb_2_C', 'Voltaje_V', 'Planta', 'TIMESTAMP - Copia'],
      dtype='object')

In [67]:
# VERIFICACI√ìN R√ÅPIDA DE CARGA DE DATOS EM
print("=== VERIFICACI√ìN DE DATOS EM ===")
print(f"Tipo de df_em: {type(df_em)}")
print(f"Forma de df_em: {df_em.shape if hasattr(df_em, 'shape') else 'No disponible'}")
if not df_em.empty:
    print(f"Columnas: {df_em.columns.tolist()}")
    print(f"Plantas √∫nicas: {df_em['Planta'].unique()}")
    print(f"Rango de fechas: {df_em['TIMESTAMP'].min()} a {df_em['TIMESTAMP'].max()}")
    print("\nMuestra de datos:")
    print(df_em[['TIMESTAMP', 'Planta', 'POA_1_W/m2', 'GHI_1_W/m2', 'Tmod_1_C']].head())
else:
    print("DataFrame vac√≠o")

=== VERIFICACI√ìN DE DATOS EM ===
Tipo de df_em: <class 'pandas.core.frame.DataFrame'>
Forma de df_em: (170497, 15)
Columnas: ['TIMESTAMP', 'POA_1_W/m2', 'GHI_1_W/m2', 'POA_2_W/m2', 'GHI_2_W/m2', 'Albedo_1_W/m2', 'Humedad_%', 'Tmod_1_C', 'Tmod_2_C', 'Soiling', 'Tamb_1_C', 'Tamb_2_C', 'Voltaje_V', 'Planta', 'TIMESTAMP - Copia']
Plantas √∫nicas: ['BSB 500' 'BSB 501' 'BSB 502']
Rango de fechas: 2024-11-22 15:05:00 a 2025-10-15 14:55:00

Muestra de datos:
            TIMESTAMP   Planta  POA_1_W/m2  GHI_1_W/m2  Tmod_1_C
0 2025-02-14 16:55:00  BSB 500    56.76832    50.93786  22.92174
1 2025-02-14 17:00:00  BSB 500    71.15778    63.52339  29.07562
2 2025-02-14 17:05:00  BSB 500    67.68255    60.23819  28.93820
3 2025-02-14 17:10:00  BSB 500    44.40710    39.74600  21.10587
4 2025-02-14 17:15:00  BSB 500    54.27269    48.76986  27.79878


In [68]:
# 6. CARGA Y PROCESAMIENTO DE DATOS DE ENERG√çA
def cargar_datos_energia(ruta_energia):
    """
    Carga y procesa datos de energ√≠a de 5 minutos
    Equivalente a la consulta 'Energia' en Power Query
    """
    # Buscar archivos Excel (.xlsx) en lugar de CSV
    archivos_energia = glob.glob(os.path.join(ruta_energia, "*.xlsx"))
    print(f"Archivos de energ√≠a encontrados: {len(archivos_energia)}")
    
    # Mostrar archivos encontrados para debugging
    for archivo in archivos_energia:
        print(f"  - {os.path.basename(archivo)}")
    
    # C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares\05 IN\03. ENERG√çA\Energia_5_minutal
    # esta es la ruta correcta, valida, son horas de calculo de microsoft Excel
    if not archivos_energia:
        print("No se encontraron archivos Excel en la ruta especificada")
        return pd.DataFrame()
    
    df_energia_completo = []
    
    for archivo in archivos_energia:
        try:
            # Leer archivo Excel - primera hoja por defecto
            print(f"Leyendo archivo: {archivo}")
            df = pd.read_excel(archivo, engine='openpyxl')
            
            print(f"Columnas encontradas: {df.columns.tolist()}")
            print(f"Primeras filas del archivo {os.path.basename(archivo)}:")
            print(df.head(3))
            
            # Extraer nombre de planta del archivo (como en Power Query)
            nombre_archivo = os.path.basename(archivo)
            # Extraer despu√©s de "BSB " y antes de "_5"
            if "BSB " in nombre_archivo:
                # Extraer "BSB 500", "BSB 501", etc.
                planta_part = nombre_archivo.split("BSB ")[1]
                if "_5" in planta_part:
                    planta = "BSB " + planta_part.split("_5")[0]
                else:
                    planta = "BSB " + planta_part.split(".")[0]
            elif "a_" in nombre_archivo:
                # Fallback para el patr√≥n original
                planta = nombre_archivo.split("a_")[1].split("_5")[0] if "_5" in nombre_archivo else nombre_archivo.split("a_")[1].split(".")[0]
            else:
                planta = nombre_archivo.split("_")[0]
            
            df['Planta'] = planta
            df['Source.Name'] = nombre_archivo
            
            df_energia_completo.append(df)
            print(f"‚úÖ Procesado energ√≠a: {archivo} -> Planta: {planta} -> Filas: {len(df)}")
            
        except Exception as e:
            print(f"‚ùå Error procesando energ√≠a {archivo}: {e}")
            import traceback
            print(traceback.format_exc())
    
    if df_energia_completo:
        df_final = pd.concat(df_energia_completo, ignore_index=True)
        
        print(f"DataFrame combinado - Forma: {df_final.shape}")
        print(f"Columnas disponibles: {df_final.columns.tolist()}")
        
        # Verificar qu√© columnas de tiempo est√°n disponibles
        columnas_tiempo = [col for col in df_final.columns if any(keyword in col.lower() for keyword in ['hora', 'time', 'fecha', 'date', 'timestamp'])]
        print(f"Columnas de tiempo detectadas: {columnas_tiempo}")
        
        # Buscar la columna de tiempo correcta
        columna_tiempo = None
        if 'Hora' in df_final.columns:
            columna_tiempo = 'Hora'
        elif 'HORA' in df_final.columns:
            columna_tiempo = 'HORA'
        elif 'Fecha y Hora' in df_final.columns:
            columna_tiempo = 'Fecha y Hora'
        elif 'FECHA Y HORA' in df_final.columns:
            columna_tiempo = 'FECHA Y HORA'
        elif len(columnas_tiempo) > 0:
            columna_tiempo = columnas_tiempo[0]
        
        if columna_tiempo:
            print(f"Usando columna de tiempo: {columna_tiempo}")
            # Convertir tipos
            df_final[columna_tiempo] = pd.to_datetime(df_final[columna_tiempo], errors='coerce')
            
            # Renombrar a 'Hora' para consistencia
            if columna_tiempo != 'Hora':
                df_final = df_final.rename(columns={columna_tiempo: 'Hora'})
        else:
            print("‚ùå No se encontr√≥ columna de tiempo v√°lida")
            return pd.DataFrame()
        
        # Buscar la columna de energ√≠a
        columnas_energia = [col for col in df_final.columns if any(keyword in col.lower() for keyword in ['energ√≠a', 'energia', 'kwh', 'energy'])]
        print(f"Columnas de energ√≠a detectadas: {columnas_energia}")
        
        columna_energia = None
        if 'ENERG√çA ACTIVA (kWh)' in df_final.columns:
            columna_energia = 'ENERG√çA ACTIVA (kWh)'
        elif 'Energ√≠a Activa (kWh)' in df_final.columns:
            columna_energia = 'Energ√≠a Activa (kWh)'
        elif 'ENERGIA ACTIVA (kWh)' in df_final.columns:
            columna_energia = 'ENERGIA ACTIVA (kWh)'
        elif len(columnas_energia) > 0:
            columna_energia = columnas_energia[0]
        
        if columna_energia:
            print(f"Usando columna de energ√≠a: {columna_energia}")
            df_final[columna_energia] = pd.to_numeric(df_final[columna_energia], errors='coerce')
            
            # Renombrar a nombre est√°ndar
            if columna_energia != 'ENERG√çA ACTIVA (kWh)':
                df_final = df_final.rename(columns={columna_energia: 'ENERG√çA ACTIVA (kWh)'})
        else:
            print("‚ùå No se encontr√≥ columna de energ√≠a v√°lida")
            return pd.DataFrame()
        
        # Eliminar filas con fechas inv√°lidas
        df_final = df_final.dropna(subset=['Hora'])
        print(f"Registros despu√©s de eliminar fechas inv√°lidas: {len(df_final)}")
        
        # Redondear hora hacia abajo a intervalos de 5 minutos (como en Power Query)
        intervalos_por_dia = 24 * (60 / 5)  # 288
        df_final['Hora'] = df_final['Hora'].apply(
            lambda x: pd.Timestamp.fromordinal(int(pd.Timestamp(x).toordinal())) + 
                     pd.Timedelta(minutes=int((pd.Timestamp(x).hour * 60 + pd.Timestamp(x).minute) // 5) * 5)
        )
        
        # Crear clave de join (como en Power Query)
        df_final['ClaveJoin'] = df_final['Planta'] + "|" + df_final['Hora'].dt.strftime('%Y-%m-%dT%H:%M')
        
        return df_final
    else:
        return pd.DataFrame()

# Cargar datos de energ√≠a
print("=== CARGANDO DATOS DE ENERG√çA (CORREGIDO PARA EXCEL) ===")
print(f"Ruta general de carga: {ruta_energia}")
df_energia = cargar_datos_energia(ruta_energia)
if not df_energia.empty:
    print(f"\n‚úÖ Datos de energ√≠a cargados: {len(df_energia):,} registros")
    print("Columnas disponibles:", df_energia.columns.tolist())
    print(f"Rango de fechas: {df_energia['Hora'].min()} a {df_energia['Hora'].max()}")
    print("Plantas en energ√≠a:", df_energia['Planta'].unique())
    print("\nPrimeras filas:")
    print(df_energia.head())
    
    # Mostrar estad√≠sticas por planta
    print("\n=== ESTAD√çSTICAS POR PLANTA ===")
    for planta in df_energia['Planta'].unique():
        df_planta_energia = df_energia[df_energia['Planta'] == planta]
        print(f"\n{planta}:")
        print(f"  - Registros: {len(df_planta_energia):,}")
        print(f"  - Rango fechas: {df_planta_energia['Hora'].min()} a {df_planta_energia['Hora'].max()}")
        if 'ENERG√çA ACTIVA (kWh)' in df_planta_energia.columns:
            energia_valida = df_planta_energia['ENERG√çA ACTIVA (kWh)'].dropna()
            if len(energia_valida) > 0:
                print(f"  - Energ√≠a total: {energia_valida.sum():.2f} kWh")
                print(f"  - Energ√≠a promedio: {energia_valida.mean():.2f} kWh")
else:
    print("‚ùå Advertencia: No se pudieron cargar datos de energ√≠a")

=== CARGANDO DATOS DE ENERG√çA (CORREGIDO PARA EXCEL) ===
Ruta general de carga: C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares\05 IN\03. ENERG√çA\Energia_5_minutal
Archivos de energ√≠a encontrados: 3
  - Energ√≠a_BSB 500_5_MINUTAL.xlsx
  - Energ√≠a_BSB 501_5_MINUTAL.xlsx
  - Energ√≠a_BSB 502_5_MINUTAL.xlsx
Leyendo archivo: C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares\05 IN\03. ENERG√çA\Energia_5_minutal\Energ√≠a_BSB 500_5_MINUTAL.xlsx
Columnas encontradas: ['Hora', 'ENERG√çA ACTIVA (kWh)']
Primeras filas del archivo Energ√≠a_BSB 500_5_MINUTAL.xlsx:
                 Hora  ENERG√çA ACTIVA (kWh)
0 2024-11-23 00:05:00                -2.500
1 2024-11-23 00:10:00                -2.376
2 2024-11-23 00:15:00                -2.406
‚úÖ Procesado energ√≠a: C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares\05 IN

In [69]:
# 7. COMBINACI√ìN Y TRANSFORMACI√ìN - JOINS Y AGREGACIONES
def procesar_datos_reales(df_grilla_base, df_em, df_energia):
    """
    Combina grilla base con datos EM y energ√≠a, procesa y agrega datos reales
    Equivalente al proceso principal de Power Query
    """
    # Paso 1: Convertir FechaHora de grilla a texto para join con EM
    df_trabajo = df_grilla_base.copy()
    df_trabajo['FechaHora_texto'] = df_trabajo['FechaHora'].dt.strftime('%Y-%m-%d %H:%M:%S')
    
    # Paso 2: Left Join con EM
    if not df_em.empty:
        df_con_em = df_trabajo.merge(
            df_em, 
            left_on=['Planta', 'FechaHora_texto'], 
            right_on=['Planta', 'TIMESTAMP - Copia'], 
            how='left'
        )
        print(f"Despu√©s del join con EM: {len(df_con_em):,} registros")
    else:
        print("Advertencia: No hay datos EM, continuando sin ellos")
        df_con_em = df_trabajo.copy()
        # Agregar columnas EM vac√≠as
        columnas_em = ['POA_1_W/m2', 'GHI_1_W/m2', 'POA_2_W/m2', 'GHI_2_W/m2', 
                      'Tmod_1_C', 'Tmod_2_C', 'Tamb_1_C', 'Tamb_2_C', 
                      'Voltaje_V', 'Albedo_1_W/m2', 'Humedad_%', 'Soiling']
        for col in columnas_em:
            df_con_em[col] = np.nan
    
    # Paso 3: Redondear hora hacia abajo y crear clave para energ√≠a
    intervalos_por_dia = 24 * (60 / 5)  # 288
    
    # Verificar que columna FechaHora est√© presente
    fecha_col = 'FechaHora' if 'FechaHora' in df_con_em.columns else 'FechaHora_x'
    if fecha_col not in df_con_em.columns:
        print("Columnas disponibles:", df_con_em.columns.tolist())
        fecha_col = df_con_em.columns[0]  # Usar la primera columna como respaldo
    
    df_con_em['FechaHora_redondeada'] = df_con_em[fecha_col].apply(
        lambda x: pd.Timestamp.fromordinal(int(x.toordinal())) + 
                 pd.Timedelta(minutes=int((x.hour * 60 + x.minute) // 5) * 5)
    )
    
    # Crear clave de join para energ√≠a
    df_con_em['ClaveJoin'] = df_con_em['Planta'] + "|" + df_con_em['FechaHora_redondeada'].dt.strftime('%Y-%m-%dT%H:%M')
    
    # Paso 4: Left Join con Energ√≠a
    if not df_energia.empty:
        df_completo = df_con_em.merge(
            df_energia[['ClaveJoin', 'ENERG√çA ACTIVA (kWh)']], 
            on='ClaveJoin', 
            how='left'
        )
        print(f"Despu√©s del join con Energ√≠a: {len(df_completo):,} registros")
    else:
        print("Advertencia: No hay datos de energ√≠a, continuando sin ellos")
        df_completo = df_con_em.copy()
        df_completo['ENERG√çA ACTIVA (kWh)'] = np.nan
    
    # Paso 5: Agregar columnas de fecha
    df_completo['ano'] = df_completo[fecha_col].dt.year
    df_completo['mes'] = df_completo[fecha_col].dt.month
    df_completo['dia'] = df_completo[fecha_col].dt.day
    df_completo['hora'] = df_completo[fecha_col].dt.hour
    df_completo['hora_completa'] = df_completo[fecha_col].dt.time
    
    return df_completo

# Procesar datos reales
print("Combinando datos reales...")
df_datos_reales = procesar_datos_reales(df_grilla_base, df_em, df_energia)
print(f"Datos combinados: {len(df_datos_reales):,} registros")
print("Primeros registros combinados:")

Combinando datos reales...
Despu√©s del join con EM: 502,667 registros
Despu√©s del join con EM: 502,667 registros
Despu√©s del join con Energ√≠a: 502,670 registros
Datos combinados: 502,670 registros
Primeros registros combinados:
Despu√©s del join con Energ√≠a: 502,670 registros
Datos combinados: 502,670 registros
Primeros registros combinados:


In [70]:
df_datos_reales.tail()

Unnamed: 0,FechaHora,Planta,FechaHora_texto,TIMESTAMP,POA_1_W/m2,GHI_1_W/m2,POA_2_W/m2,GHI_2_W/m2,Albedo_1_W/m2,Humedad_%,...,Voltaje_V,TIMESTAMP - Copia,FechaHora_redondeada,ClaveJoin,ENERG√çA ACTIVA (kWh),ano,mes,dia,hora,hora_completa
502665,2025-10-16 23:55:00,BSB 500,2025-10-16 23:55:00,NaT,,,,,,,...,,,2025-10-16 23:55:00,BSB 500|2025-10-16T23:55,,2025,10,16,23,23:55:00
502666,2025-10-16 23:55:00,BSB 501,2025-10-16 23:55:00,NaT,,,,,,,...,,,2025-10-16 23:55:00,BSB 501|2025-10-16T23:55,,2025,10,16,23,23:55:00
502667,2025-10-16 23:55:00,BSB 502,2025-10-16 23:55:00,NaT,,,,,,,...,,,2025-10-16 23:55:00,BSB 502|2025-10-16T23:55,,2025,10,16,23,23:55:00
502668,2025-10-16 23:55:00,BSB 503,2025-10-16 23:55:00,NaT,,,,,,,...,,,2025-10-16 23:55:00,BSB 503|2025-10-16T23:55,,2025,10,16,23,23:55:00
502669,2025-10-16 23:55:00,BSB 504,2025-10-16 23:55:00,NaT,,,,,,,...,,,2025-10-16 23:55:00,BSB 504|2025-10-16T23:55,,2025,10,16,23,23:55:00


In [71]:
# 8. LIMPIAR VALORES NEGATIVOS Y AGREGACI√ìN HORARIA
def limpiar_y_agregar_por_hora(df_datos_reales):
    """
    Limpia valores negativos, promedia sensores duales y agrega por hora
    Equivalente a la limpieza y agregaci√≥n horaria de Power Query
    """
    df_limpio = df_datos_reales.copy()
    
    # Reemplazar valores negativos por 0 (como en Power Query)
    columnas_a_limpiar = [
        'POA_1_W/m2', 'GHI_1_W/m2', 'POA_2_W/m2', 'GHI_2_W/m2', 
        'Tmod_1_C', 'Tmod_2_C', 'Tamb_1_C', 'Tamb_2_C', 
        'Voltaje_V', 'Albedo_1_W/m2', 'Humedad_%', 'Soiling', 
        'ENERG√çA ACTIVA (kWh)'
    ]
    
    for col in columnas_a_limpiar:
        if col in df_limpio.columns:
            df_limpio[col] = df_limpio[col].fillna(0)
            df_limpio[col] = df_limpio[col].apply(lambda x: 0 if x <= 0 else x)
    
    # Agregaci√≥n por hora (como en Power Query)
    df_agrupado_hora = df_limpio.groupby(['ano', 'mes', 'dia', 'hora', 'Planta']).agg({
        'POA_1_W/m2': 'mean',
        'GHI_1_W/m2': 'mean', 
        'POA_2_W/m2': 'mean',
        'GHI_2_W/m2': 'mean',
        'Tmod_1_C': 'mean',
        'Tmod_2_C': 'mean',
        'Tamb_1_C': 'mean',
        'Tamb_2_C': 'mean',
        'ENERG√çA ACTIVA (kWh)': 'sum'
    }).reset_index()
    
    # Promediar sensores duales (como en Power Query)
    df_agrupado_hora['POA_W/m2'] = (df_agrupado_hora['POA_1_W/m2'] + df_agrupado_hora['POA_2_W/m2']) / 2
    df_agrupado_hora['GHI_W/m2'] = (df_agrupado_hora['GHI_1_W/m2'] + df_agrupado_hora['GHI_2_W/m2']) / 2
    df_agrupado_hora['Tmod_C'] = (df_agrupado_hora['Tmod_1_C'] + df_agrupado_hora['Tmod_2_C']) / 2
    df_agrupado_hora['Tamb_C'] = (df_agrupado_hora['Tamb_1_C'] + df_agrupado_hora['Tamb_2_C']) / 2
    
    # Eliminar columnas originales de sensores individuales
    columnas_a_eliminar = [
        'POA_1_W/m2', 'POA_2_W/m2', 'GHI_1_W/m2', 'GHI_2_W/m2',
        'Tmod_1_C', 'Tmod_2_C', 'Tamb_1_C', 'Tamb_2_C'
    ]
    df_agrupado_hora = df_agrupado_hora.drop(columns=columnas_a_eliminar)
    
    # Renombrar columna de energ√≠a
    df_agrupado_hora = df_agrupado_hora.rename(columns={'ENERG√çA ACTIVA (kWh)': 'Energia_kWh'})
    
    print(f"Datos agrupados por hora: {len(df_agrupado_hora):,} registros")
    return df_agrupado_hora

# Limpiar y agregar por hora
df_agrupado_hora = limpiar_y_agregar_por_hora(df_datos_reales)
print("Primeros registros agrupados por hora:")
print(df_agrupado_hora.head())

Datos agrupados por hora: 39,480 registros
Primeros registros agrupados por hora:
    ano  mes  dia  hora   Planta  Energia_kWh  POA_W/m2  GHI_W/m2  Tmod_C  \
0  2024   11   22     0  BSB 500          0.0       0.0       0.0     0.0   
1  2024   11   22     0  BSB 501          0.0       0.0       0.0     0.0   
2  2024   11   22     0  BSB 502          0.0       0.0       0.0     0.0   
3  2024   11   22     0  BSB 503          0.0       0.0       0.0     0.0   
4  2024   11   22     0  BSB 504          0.0       0.0       0.0     0.0   

   Tamb_C  
0     0.0  
1     0.0  
2     0.0  
3     0.0  
4     0.0  


In [72]:
# 9. AGREGACI√ìN DIARIA DE DATOS REALES
def agregar_por_dia_reales(df_agrupado_hora):
    """
    Agrega datos reales por d√≠a (suma para energ√≠a y POA/GHI, promedio para temperaturas)
    Equivalente a la segunda agregaci√≥n en Power Query
    """
    df_agrupado_dia = df_agrupado_hora.groupby(['ano', 'mes', 'dia', 'Planta']).agg({
        'Energia_kWh': 'sum',         # Suma de energ√≠a
        'POA_W/m2': 'sum',           # Suma para convertir a Wh/m2
        'GHI_W/m2': 'sum',           # Suma para convertir a Wh/m2  
        'Tmod_C': 'mean',            # Promedio de temperatura
        'Tamb_C': 'mean'             # Promedio de temperatura
    }).reset_index()
    
    # Renombrar columnas para claridad (como en Power Query)
    df_agrupado_dia = df_agrupado_dia.rename(columns={
        'Energia_kWh': 'Ener_kWh_Real',
        'POA_W/m2': 'POA_Wh/m2_Real',
        'GHI_W/m2': 'GHI_Wh/m2_Real'
    })
    
    print(f"Datos reales agrupados por d√≠a: {len(df_agrupado_dia):,} registros")
    return df_agrupado_dia

# Agregar datos reales por d√≠a
df_reales_dia = agregar_por_dia_reales(df_agrupado_hora)
print("Primeros registros de datos reales por d√≠a:")

Datos reales agrupados por d√≠a: 1,645 registros
Primeros registros de datos reales por d√≠a:


In [45]:
df_reales_dia.head()

Unnamed: 0,ano,mes,dia,Planta,Ener_kWh_Real,POA_Wh/m2_Real,GHI_Wh/m2_Real,Tmod_C,Tamb_C
0,2024,11,22,BSB 500,0.0,0.0,0.0,0.0,0.0
1,2024,11,22,BSB 501,0.0,0.0,0.0,0.0,0.0
2,2024,11,22,BSB 502,0.0,221.788573,206.4937,9.642877,4.774155
3,2024,11,22,BSB 503,0.0,0.0,0.0,0.0,0.0
4,2024,11,22,BSB 504,0.0,0.0,0.0,0.0,0.0


In [73]:
# 10. COMBINACI√ìN DE DATOS REALES Y MODELO
def combinar_reales_modelo(df_reales_dia, df_modelo_dia):
    """
    Combina datos reales y modelo por d√≠a
    Equivalente al join final en Power Query
    """
    if df_modelo_dia.empty:
        print("Advertencia: No hay datos del modelo para combinar")
        return df_reales_dia
    
    # Left Join entre datos reales y modelo
    df_combinado = df_reales_dia.merge(
        df_modelo_dia,
        left_on=['ano', 'mes', 'dia', 'Planta'],
        right_on=['A√±o', 'Mes', 'D√≠a', 'Planta'],
        how='left',
        suffixes=('', '_modelo')
    )
    
    # Renombrar columnas del modelo (como en Power Query)
    df_combinado = df_combinado.rename(columns={
        'Ener_kWh': 'Ener_kWh_Modelo',
        'POA_Wh/m2': 'POA_Wh/m2_Modelo', 
        'GHI_Wh/m2': 'GHI_Wh/m2_Modelo'
    })
    
    # Eliminar columnas duplicadas
    columnas_a_eliminar = ['A√±o', 'Mes', 'D√≠a']
    df_combinado = df_combinado.drop(columns=[col for col in columnas_a_eliminar if col in df_combinado.columns])
    
    print(f"Datos combinados reales y modelo: {len(df_combinado):,} registros")
    return df_combinado

# Combinar datos reales y modelo
df_final_combinado = combinar_reales_modelo(df_reales_dia, df_modelo_dia)
print("Primeros registros de datos combinados:")
print(df_final_combinado.head())
print("\nColumnas disponibles:")
print(df_final_combinado.columns.tolist())

Datos combinados reales y modelo: 1,645 registros
Primeros registros de datos combinados:
    ano  mes  dia   Planta  Ener_kWh_Real  POA_Wh/m2_Real  GHI_Wh/m2_Real  \
0  2024   11   22  BSB 500            0.0        0.000000          0.0000   
1  2024   11   22  BSB 501            0.0        0.000000          0.0000   
2  2024   11   22  BSB 502            0.0      221.788573        206.4937   
3  2024   11   22  BSB 503            0.0        0.000000          0.0000   
4  2024   11   22  BSB 504            0.0        0.000000          0.0000   

     Tmod_C    Tamb_C  Ener_kWh_Modelo  POA_Wh/m2_Modelo  GHI_Wh/m2_Modelo  
0  0.000000  0.000000         110402.0               0.0               0.0  
1  0.000000  0.000000         110303.0               0.0               0.0  
2  9.642877  4.774155         110210.0               0.0               0.0  
3  0.000000  0.000000         109547.0               0.0               0.0  
4  0.000000  0.000000         117043.0               0.0      

In [81]:
df_final_combinado.head()

Unnamed: 0,ano,mes,dia,Planta,Ener_kWh_Real,POA_Wh/m2_Real,GHI_Wh/m2_Real,Tmod_C,Tamb_C,Ener_kWh_Modelo,POA_Wh/m2_Modelo,GHI_Wh/m2_Modelo
0,2024,11,22,BSB 500,0.0,0.0,0.0,0.0,0.0,110402.0,0.0,0.0
1,2024,11,22,BSB 501,0.0,0.0,0.0,0.0,0.0,110303.0,0.0,0.0
2,2024,11,22,BSB 502,0.0,221.788573,206.4937,9.642877,4.774155,110210.0,0.0,0.0
3,2024,11,22,BSB 503,0.0,0.0,0.0,0.0,0.0,109547.0,0.0,0.0
4,2024,11,22,BSB 504,0.0,0.0,0.0,0.0,0.0,117043.0,0.0,0.0


In [83]:
# 11. TRANSPOSICI√ìN FINAL - DATOS REALES VS MODELO POR M√âTRICA
def crear_tabla_transpuesta(df_final_combinado):
    """
    Crea la tabla transpuesta final con datos reales vs modelo por m√©trica
    Estructura: Fecha, ano, mes, dia, Planta, Tipo, Ener_kWh, GHI_Wh/m2, POA_Wh/m2
    """
    if df_final_combinado.empty:
        print("Error: No hay datos para transponer")
        return pd.DataFrame()
    
    # Preparar datos para transposici√≥n
    df_transponer = df_final_combinado.copy()
    
    # Crear fecha
    df_transponer['Fecha'] = pd.to_datetime(
        df_transponer['ano'].astype(str) + '-' + 
        df_transponer['mes'].astype(str) + '-' + 
        df_transponer['dia'].astype(str)
    )
    
    # Lista para almacenar los DataFrames transpuestos
    df_transpuesto_list = []
    
    # Crear registros para datos REALES
    df_real = df_transponer[['Fecha', 'ano', 'mes', 'dia', 'Planta']].copy()
    df_real['Tipo'] = 'Real'
    
    # Agregar m√©tricas reales
    df_real['Ener_kWh'] = df_transponer['Ener_kWh_Real'] if 'Ener_kWh_Real' in df_transponer.columns else np.nan
    df_real['GHI_Wh/m2'] = df_transponer['GHI_Wh/m2_Real'] if 'GHI_Wh/m2_Real' in df_transponer.columns else np.nan
    df_real['POA_Wh/m2'] = df_transponer['POA_Wh/m2_Real'] if 'POA_Wh/m2_Real' in df_transponer.columns else np.nan
    
    df_transpuesto_list.append(df_real)
    
    # Crear registros para datos MODELO
    df_modelo = df_transponer[['Fecha', 'ano', 'mes', 'dia', 'Planta']].copy()
    df_modelo['Tipo'] = 'Modelo'
    
    # Agregar m√©tricas modelo
    df_modelo['Ener_kWh'] = df_transponer['Ener_kWh_Modelo'] if 'Ener_kWh_Modelo' in df_transponer.columns else np.nan
    df_modelo['GHI_Wh/m2'] = df_transponer['GHI_Wh/m2_Modelo'] if 'GHI_Wh/m2_Modelo' in df_transponer.columns else np.nan
    df_modelo['POA_Wh/m2'] = df_transponer['POA_Wh/m2_Modelo'] if 'POA_Wh/m2_Modelo' in df_transponer.columns else np.nan
    
    df_transpuesto_list.append(df_modelo)
    
    # Combinar todos los datos
    df_resultado = pd.concat(df_transpuesto_list, ignore_index=True)
    
    # Reordenar columnas en el orden solicitado
    columnas_finales = ['Fecha', 'ano', 'mes', 'dia', 'Planta', 'Tipo', 'Ener_kWh', 'GHI_Wh/m2', 'POA_Wh/m2']
    df_resultado = df_resultado[columnas_finales]
    
    # Ordenar por fecha, planta y tipo
    df_resultado = df_resultado.sort_values(['Fecha', 'Planta', 'Tipo']).reset_index(drop=True)
    
    # Eliminar filas donde todas las m√©tricas son NaN
    df_resultado = df_resultado.dropna(subset=['Ener_kWh', 'GHI_Wh/m2', 'POA_Wh/m2'], how='all')
    
    print(f"Tabla transpuesta creada: {len(df_resultado):,} registros")
    print(f"Tipos disponibles: {df_resultado['Tipo'].unique()}")
    print(f"Plantas: {df_resultado['Planta'].unique()}")
    
    return df_resultado

# Crear tabla transpuesta final
df_resultado_final = crear_tabla_transpuesta(df_final_combinado)

if not df_resultado_final.empty:
    print("\n=== RESULTADO FINAL ===")
    print(f"Registros totales: {len(df_resultado_final):,}")
    print(f"Rango de fechas: {df_resultado_final['Fecha'].min()} a {df_resultado_final['Fecha'].max()}")
    print("\nPrimeros registros:")
    print(df_resultado_final.head(10))
    
    print("\nResumen por tipo:")
    print(df_resultado_final.groupby(['Tipo']).agg({
        'Ener_kWh': ['count', 'mean', 'sum'],
        'GHI_Wh/m2': ['count', 'mean', 'sum'],
        'POA_Wh/m2': ['count', 'mean', 'sum']
    }).round(2))
    
    print("\nMuestra de comparaci√≥n Real vs Modelo:")
    muestra_comparacion = df_resultado_final.head(6)[['Fecha', 'Planta', 'Tipo', 'Ener_kWh', 'GHI_Wh/m2', 'POA_Wh/m2']]
    print(muestra_comparacion)
else:
    print("Error: No se pudo generar la tabla final")

Tabla transpuesta creada: 3,290 registros
Tipos disponibles: ['Modelo' 'Real']
Plantas: ['BSB 500' 'BSB 501' 'BSB 502' 'BSB 503' 'BSB 504']

=== RESULTADO FINAL ===
Registros totales: 3,290
Rango de fechas: 2024-11-22 00:00:00 a 2025-10-16 00:00:00

Primeros registros:
       Fecha   ano  mes  dia   Planta    Tipo  Ener_kWh  GHI_Wh/m2   POA_Wh/m2
0 2024-11-22  2024   11   22  BSB 500  Modelo  110402.0     0.0000    0.000000
1 2024-11-22  2024   11   22  BSB 500    Real       0.0     0.0000    0.000000
2 2024-11-22  2024   11   22  BSB 501  Modelo  110303.0     0.0000    0.000000
3 2024-11-22  2024   11   22  BSB 501    Real       0.0     0.0000    0.000000
4 2024-11-22  2024   11   22  BSB 502  Modelo  110210.0     0.0000    0.000000
5 2024-11-22  2024   11   22  BSB 502    Real       0.0   206.4937  221.788573
6 2024-11-22  2024   11   22  BSB 503  Modelo  109547.0     0.0000    0.000000
7 2024-11-22  2024   11   22  BSB 503    Real       0.0     0.0000    0.000000
8 2024-11-22  2024 

In [87]:
df_resultado_final.head()

Unnamed: 0,Fecha,ano,mes,dia,Planta,Tipo,Ener_kWh,GHI_Wh/m2,POA_Wh/m2
0,2024-11-22,2024,11,22,BSB 500,Modelo,110402.0,0.0,0.0
1,2024-11-22,2024,11,22,BSB 500,Real,0.0,0.0,0.0
2,2024-11-22,2024,11,22,BSB 501,Modelo,110303.0,0.0,0.0
3,2024-11-22,2024,11,22,BSB 501,Real,0.0,0.0,0.0
4,2024-11-22,2024,11,22,BSB 502,Modelo,110210.0,0.0,0.0


In [85]:
# VERIFICACI√ìN DE LA NUEVA ESTRUCTURA DE TRANSPOSICI√ìN
print("=== VERIFICACI√ìN DE LA NUEVA ESTRUCTURA ===")
print("Columnas del DataFrame final:")
print(df_resultado_final.columns.tolist())
print()

print("Estructura esperada: Fecha, ano, mes, dia, Planta, Tipo, Ener_kWh, GHI_Wh/m2, POA_Wh/m2")
print("‚úÖ Estructura implementada correctamente")
print()

print("Ejemplo de datos por fecha y planta (primeros 10 registros):")
muestra_detallada = df_resultado_final.head(10)
print(muestra_detallada.to_string(index=False))
print()

print("Verificaci√≥n de tipos √∫nicos:")
print("Tipos disponibles:", df_resultado_final['Tipo'].unique())
print()

print("Ejemplo de comparaci√≥n para una fecha espec√≠fica:")
fecha_ejemplo = df_resultado_final['Fecha'].iloc[0]
planta_ejemplo = df_resultado_final['Planta'].iloc[0]
comparacion = df_resultado_final[
    (df_resultado_final['Fecha'] == fecha_ejemplo) & 
    (df_resultado_final['Planta'] == planta_ejemplo)
][['Fecha', 'Planta', 'Tipo', 'Ener_kWh', 'GHI_Wh/m2', 'POA_Wh/m2']]
print(comparacion.to_string(index=False))

=== VERIFICACI√ìN DE LA NUEVA ESTRUCTURA ===
Columnas del DataFrame final:
['Fecha', 'ano', 'mes', 'dia', 'Planta', 'Tipo', 'Ener_kWh', 'GHI_Wh/m2', 'POA_Wh/m2']

Estructura esperada: Fecha, ano, mes, dia, Planta, Tipo, Ener_kWh, GHI_Wh/m2, POA_Wh/m2
‚úÖ Estructura implementada correctamente

Ejemplo de datos por fecha y planta (primeros 10 registros):
     Fecha  ano  mes  dia  Planta   Tipo  Ener_kWh  GHI_Wh/m2  POA_Wh/m2
2024-11-22 2024   11   22 BSB 500 Modelo  110402.0     0.0000   0.000000
2024-11-22 2024   11   22 BSB 500   Real       0.0     0.0000   0.000000
2024-11-22 2024   11   22 BSB 501 Modelo  110303.0     0.0000   0.000000
2024-11-22 2024   11   22 BSB 501   Real       0.0     0.0000   0.000000
2024-11-22 2024   11   22 BSB 502 Modelo  110210.0     0.0000   0.000000
2024-11-22 2024   11   22 BSB 502   Real       0.0   206.4937 221.788573
2024-11-22 2024   11   22 BSB 503 Modelo  109547.0     0.0000   0.000000
2024-11-22 2024   11   22 BSB 503   Real       0.0     0.0000

In [88]:
# VERIFICAR ESTRUCTURA DE df_resultado_final
print("=== VERIFICACI√ìN DE ESTRUCTURA ===")
print("Columnas en df_resultado_final:")
print(df_resultado_final.columns.tolist())
print("\nPrimeras filas:")
print(df_resultado_final.head())
print(f"\nShape: {df_resultado_final.shape}")
print(f"Tipos √∫nicos si existe 'Tipo': {'Tipo' in df_resultado_final.columns}")
if 'Tipo' in df_resultado_final.columns:
    print(f"Valores √∫nicos en 'Tipo': {df_resultado_final['Tipo'].unique()}")

=== VERIFICACI√ìN DE ESTRUCTURA ===
Columnas en df_resultado_final:
['Fecha', 'ano', 'mes', 'dia', 'Planta', 'Tipo', 'Ener_kWh', 'GHI_Wh/m2', 'POA_Wh/m2']

Primeras filas:
       Fecha   ano  mes  dia   Planta    Tipo  Ener_kWh  GHI_Wh/m2  POA_Wh/m2
0 2024-11-22  2024   11   22  BSB 500  Modelo  110402.0        0.0        0.0
1 2024-11-22  2024   11   22  BSB 500    Real       0.0        0.0        0.0
2 2024-11-22  2024   11   22  BSB 501  Modelo  110303.0        0.0        0.0
3 2024-11-22  2024   11   22  BSB 501    Real       0.0        0.0        0.0
4 2024-11-22  2024   11   22  BSB 502  Modelo  110210.0        0.0        0.0

Shape: (3290, 9)
Tipos √∫nicos si existe 'Tipo': True
Valores √∫nicos en 'Tipo': ['Modelo' 'Real']


In [93]:
# 12. FUNCI√ìN DE EXPORTACI√ìN CORREGIDA
def exportar_resultados_corregida(df_resultado_final, ruta_base):
    """
    Exporta los resultados a archivos CSV y Excel
    Versi√≥n corregida para la estructura actual del DataFrame
    """
    if df_resultado_final.empty:
        print("No hay datos para exportar")
        return
    
    # Crear carpeta de salida
    ruta_salida = os.path.join(ruta_base, "05 OUT", "PROCESAMIENTO_DATOS")
    os.makedirs(ruta_salida, exist_ok=True)
    
    # Nombre del archivo con timestamp
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    nombre_base = f"modelo_y_real_transpuesto_Isagen"
    
    # Exportar a CSV
    archivo_csv = os.path.join(ruta_salida, f"{nombre_base}.csv")
    df_resultado_final.to_csv(archivo_csv, index=False, encoding='utf-8-sig')
    print(f"Archivo CSV exportado: {archivo_csv}")
    
    # Exportar a Excel con m√∫ltiples hojas
    archivo_excel = os.path.join(ruta_salida, f"{nombre_base}.xlsx")
    with pd.ExcelWriter(archivo_excel, engine='openpyxl') as writer:
        # Hoja principal con todos los datos
        df_resultado_final.to_excel(writer, sheet_name='Datos_Transpuestos', index=False)
        
        # Hoja por planta
        for planta in df_resultado_final['Planta'].unique():
            df_planta = df_resultado_final[df_resultado_final['Planta'] == planta].copy()
            nombre_hoja = planta.replace(' ', '_').replace('/', '_')[:30]  # L√≠mite de Excel
            df_planta.to_excel(writer, sheet_name=nombre_hoja, index=False)
        
        # Hoja por tipo (Real vs Modelo)
        for tipo in df_resultado_final['Tipo'].unique():
            df_tipo = df_resultado_final[df_resultado_final['Tipo'] == tipo].copy()
            nombre_hoja = f"Datos_{tipo}"
            df_tipo.to_excel(writer, sheet_name=nombre_hoja, index=False)
        
        # Hoja de resumen estad√≠stico
        resumen = df_resultado_final.groupby(['Planta', 'Tipo']).agg({
            'Ener_kWh': ['count', 'mean', 'sum'],
            'GHI_Wh/m2': ['count', 'mean', 'sum'],
            'POA_Wh/m2': ['count', 'mean', 'sum']
        }).round(2)
        resumen.to_excel(writer, sheet_name='Resumen_Estadistico')
        
        # Hoja de comparaci√≥n Real vs Modelo (solo filas con datos v√°lidos)
        df_comparacion = df_resultado_final[
            (df_resultado_final['Ener_kWh'] > 0) | 
            (df_resultado_final['GHI_Wh/m2'] > 0) | 
            (df_resultado_final['POA_Wh/m2'] > 0)
        ].copy()
        if not df_comparacion.empty:
            df_comparacion.to_excel(writer, sheet_name='Datos_Validos', index=False)
    
    print(f"Archivo Excel exportado: {archivo_excel}")
    
    # Crear tabla resumen para visualizaci√≥n
    print("\n=== RESUMEN DE EXPORTACI√ìN ===")
    print(f"Total de registros exportados: {len(df_resultado_final):,}")
    print(f"Plantas: {', '.join(df_resultado_final['Planta'].unique())}")
    print(f"Tipos: {', '.join(df_resultado_final['Tipo'].unique())}")
    print(f"Per√≠odo: {df_resultado_final['Fecha'].min()} a {df_resultado_final['Fecha'].max()}")
    
    # Mostrar estad√≠sticas por m√©trica
    print("\n=== ESTAD√çSTICAS POR M√âTRICA ===")
    metricas = ['Ener_kWh', 'GHI_Wh/m2', 'POA_Wh/m2']
    for metrica in metricas:
        datos_validos = df_resultado_final[df_resultado_final[metrica] > 0]
        print(f"\n{metrica}:")
        print(f"  - Registros con datos v√°lidos: {len(datos_validos):,}")
        if len(datos_validos) > 0:
            print(f"  - Valor promedio: {datos_validos[metrica].mean():.2f}")
            print(f"  - Valor total: {datos_validos[metrica].sum():.2f}")
            print(f"  - Valor m√°ximo: {datos_validos[metrica].max():.2f}")
    
    return archivo_csv, archivo_excel

In [94]:
# 12. EXPORTAR RESULTADOS (VERSI√ìN CORREGIDA)
# Usar la funci√≥n corregida que funciona con la estructura actual
archivo_csv, archivo_excel = exportar_resultados_corregida(df_resultado_final, ruta_base)

# Mostrar muestra final por planta y tipo
if not df_resultado_final.empty:
    print("\n=== MUESTRA FINAL POR PLANTA Y TIPO ===")
    for planta in df_resultado_final['Planta'].unique()[:2]:  # Mostrar solo 2 plantas
        print(f"\n--- {planta} ---")
        df_planta = df_resultado_final[df_resultado_final['Planta'] == planta]
        for tipo in df_planta['Tipo'].unique():
            df_muestra = df_planta[df_planta['Tipo'] == tipo].head(3)
            print(f"\n{tipo}:")
            print(df_muestra[['Fecha', 'Ener_kWh', 'GHI_Wh/m2', 'POA_Wh/m2']].to_string(index=False))
    
    # Mostrar comparaci√≥n lado a lado para una fecha espec√≠fica
    print("\n=== COMPARACI√ìN REAL VS MODELO (MUESTRA) ===")
    fecha_muestra = df_resultado_final['Fecha'].iloc[0]
    planta_muestra = df_resultado_final['Planta'].iloc[0]
    
    df_real = df_resultado_final[
        (df_resultado_final['Fecha'] == fecha_muestra) & 
        (df_resultado_final['Planta'] == planta_muestra) & 
        (df_resultado_final['Tipo'] == 'Real')
    ]
    
    df_modelo = df_resultado_final[
        (df_resultado_final['Fecha'] == fecha_muestra) & 
        (df_resultado_final['Planta'] == planta_muestra) & 
        (df_resultado_final['Tipo'] == 'Modelo')
    ]
    
    if not df_real.empty and not df_modelo.empty:
        print(f"\nFecha: {fecha_muestra.strftime('%Y-%m-%d')} | Planta: {planta_muestra}")
        print("M√©trica        | Real      | Modelo    | Diferencia")
        print("-" * 50)
        
        real_row = df_real.iloc[0]
        modelo_row = df_modelo.iloc[0]
        
        for metrica in ['Ener_kWh', 'GHI_Wh/m2', 'POA_Wh/m2']:
            real_val = real_row[metrica]
            modelo_val = modelo_row[metrica]
            diff = real_val - modelo_val
            print(f"{metrica:<14} | {real_val:>8.1f} | {modelo_val:>8.1f} | {diff:>8.1f}")

print("\n‚úÖ Exportaci√≥n completada exitosamente")

Archivo CSV exportado: C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares\05 OUT\PROCESAMIENTO_DATOS\modelo_y_real_transpuesto_Isagen.csv
Archivo Excel exportado: C:\Users\jhon.galeano.m\OneDrive - ApplusGlobal\Archivos de LAURA CAROLINA ESQUIVEL - ISAGEN- Bosques Solares\05 OUT\PROCESAMIENTO_DATOS\modelo_y_real_transpuesto_Isagen.xlsx

=== RESUMEN DE EXPORTACI√ìN ===
Total de registros exportados: 3,290
Plantas: BSB 500, BSB 501, BSB 502, BSB 503, BSB 504
Tipos: Modelo, Real
Per√≠odo: 2024-11-22 00:00:00 a 2025-10-16 00:00:00

=== ESTAD√çSTICAS POR M√âTRICA ===

Ener_kWh:
  - Registros con datos v√°lidos: 2,577
  - Valor promedio: 97684.84
  - Valor total: 251733825.00
  - Valor m√°ximo: 498536.00

GHI_Wh/m2:
  - Registros con datos v√°lidos: 657
  - Valor promedio: 3982.67
  - Valor total: 2616616.31
  - Valor m√°ximo: 7306.39

POA_Wh/m2:
  - Registros con datos v√°lidos: 679
  - Valor promedio: 4075.71
  - Valor total: 27674