#Automático de Balances de Energía por Kathiana Murillo
##Problema
El proceso manual del cálculo del balance realizado por el analista de mercados enfrenta varios problemas: Horarios de la entrega de los datos (retrasos en la entrega) , Calidad y precisión de los datos para el balance, Falta de estandarización de la información (genera errores en la fuente de datos), Consolidado de la información, imprecisiones en los cálculos realizados, cumplimiento de los plazos establecidos para la entrega del informe final.

En este proceso la ETL se encargará de extraer la información de las fuentes de forma remota, para luego transformar a un formato manejable, la cruzará y filtrará, y finalmente la disponibilizará para descarga en un destino para que los analistas o el regulador la usen.

##Fuentes
- Descarga Archivo de despacho horario de las centrales de energia consolidado.
- Consumo de API de despacho programado para la fecha del ente regulador.
- Consumo de API de Precio de la energia por kWh para el día asignado.



### Preparación de prerequisitos

En esta sección se instalan los paquetes, librerías y componentes que le permitirán al pipeline realizar sus procesos internos.

In [0]:
%sh
pip install openpyxl xlrd pydrive

Collecting openpyxl
  Obtaining dependency information for openpyxl from https://files.pythonhosted.org/packages/c0/da/977ded879c29cbd04de313843e76868e6e13408a94ed6b987245dc7c8506/openpyxl-3.1.5-py2.py3-none-any.whl.metadata
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting xlrd
  Obtaining dependency information for xlrd from https://files.pythonhosted.org/packages/a6/0c/c2a72d51fe56e08a08acc85d13013558a2d793028ae7385448a6ccdfae64/xlrd-2.0.1-py2.py3-none-any.whl.metadata
  Downloading xlrd-2.0.1-py2.py3-none-any.whl.metadata (3.4 kB)
Collecting pydrive
  Downloading PyDrive-1.3.1.tar.gz (987 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/987.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m122.9/987.4 kB[0m [31m3.6 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━[0m [32m522.2/987.4 kB[0m [31m7.6 MB/s


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.2.1[0m[39;49m -> [0m[32;49m24.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


## Declaracion de Librerías y Variables

En estas dos celdas importamos las librerías de Python y frameworks como Pandas y definimos las variables:

- Fecha de inicio del balance.
- Fecha final del balance.
- Identificación del archivo publico de despacho de generacion.


In [0]:
import requests
import pandas as pd


In [0]:
# Variables
fecha_inicio = "2024-06-09"
fecha_fin = "2024-06-20"
id_archivo_balance_drive = "1kXBIgeXQzM6i1slWQE0vuiPsdgFCSUy2"
api_key_1 = "BzctZym8mKm8vnn10ASmWOaYXsWIm6hJdkripJAUXe9rXdt6FbS6NDVZMf8Fsph0"
api_key_2 = "jsTEumwIybpuXobpqQJyFCFJtYhxkvPKMVHVnVl9elFRGvxzjLiSINouZVPBTKwV"

# (E) Fuentes

### (*E*) Extraccion del API de Precios de la Energía

Aquí descargamos del API los datos en formato JSON, usamos una librería nativa de Python llamada Requests y con ella consumimos el api de la URL, y almacenamos el resultado en una estructura de datos denominada un dataframe, que servirá para procesamiento posterior.

### (*E*) Extraccion del Plan de Despacho de Energía por Unidad y Central

Aqui descargamos del API los datos del despacho en formato JSON, usamos una librería nativa de Python llamada Requests y con ella consumimos el api de la URL, y almacenamos el resultado en una estructura de datos denominada un dataframe, que servirá para procesamiento posterior.

### (*E*) Descarga del archivo con nuestros datos reales de generación

En estas 2 celdas, descargamos de Google Drive nuestro archivo de consolidado de generación, igual que antes, usamos Requests y con ella descargamos el archivo de la URL, en este caso tenemos que traer el archivo a una ubicación local, y posteriormente lo cargamos con Pandas, un framework de procesamiento de datos de python para analítica, y lo cargamos como un dataframe de Pandas.

In [0]:
# Descargar datos de precios de bolsa
url_precios = f"https://www.simem.co/backend-files/api/PublicData?startDate={fecha_inicio}&endDate={fecha_fin}&datasetId=96D56E"
response = requests.get(url_precios)

# Verificar la respuesta
if response.status_code == 200:
    data = response.json()
    if 'result' in data and 'records' in data['result']:
        # Normalizar los datos JSON a un DataFrame
        df_precios = pd.json_normalize(data['result']['records'])
        print("Datos de precios de bolsa descargados y procesados correctamente.")
    else:
        print("La estructura de datos en la respuesta no es la esperada.")
        df_precios = pd.DataFrame()
else:
    print(f"Error al descargar los datos: {response.status_code}")
    df_precios = pd.DataFrame()

display(df_precios)

Datos de precios de bolsa descargados y procesados correctamente.


CodigoVariable,Fecha,CodigoDuracion,UnidadMedida,Version,Valor
PPBOGReal,2024-06-20,P1D,COP/kWh,TXF,322.0811
PPBO,2024-06-20,P1D,COP/kWh,TXF,316.4945
PPBOGReal,2024-06-20,P1D,COP/kWh,TX2,308.2125
PPBO,2024-06-20,P1D,COP/kWh,TX2,302.7103
PPBO,2024-06-20,P1D,COP/kWh,TX3,316.9398
PPBOGReal,2024-06-20,P1D,COP/kWh,TX3,322.5297
PPBO,2024-06-20,P1D,COP/kWh,TXR,316.4859
PPBOGReal,2024-06-20,P1D,COP/kWh,TXR,322.0841
PPBOGReal,2024-06-20,P1D,COP/kWh,TX1,308.2145
PPBOGReal,2024-06-19,P1D,COP/kWh,TX2,304.5383


In [0]:
# Descargar datos de despachos
url_despachos = f"https://www.simem.co/backend-files/api/PublicData?startdate={fecha_inicio}&enddate={fecha_fin}&datasetId=ff027b"
response = requests.get(url_despachos)

# Verificar la respuesta
if response.status_code == 200:
    data = response.json()
    if 'result' in data and 'records' in data['result']:
        # Normalizar los datos JSON a un DataFrame
        df_despachos = pd.json_normalize(data['result']['records'])
        print("Datos de despachos descargados y procesados correctamente.")
    else:
        print("La estructura de datos en la respuesta no es la esperada.")
        df_despachos = pd.DataFrame()
else:
    print(f"Error al descargar los datos: {response.status_code}")
    df_despachos = pd.DataFrame()

display(df_despachos)

Datos de despachos descargados y procesados correctamente.


FechaHora,CodigoDuracion,CodigoPlanta,Valor
2024-06-20 01:00:00,PT1H,3EFY,0.0
2024-06-20 01:00:00,PT1H,3ENA,0.0
2024-06-20 01:00:00,PT1H,3ENE,0.0
2024-06-20 01:00:00,PT1H,3EP6,0.0
2024-06-20 01:00:00,PT1H,3EV1,0.0
2024-06-20 01:00:00,PT1H,3EV3,0.0
2024-06-20 01:00:00,PT1H,3EXB,0.0
2024-06-20 01:00:00,PT1H,3EXH,8150.0
2024-06-20 01:00:00,PT1H,3F5L,0.0
2024-06-20 01:00:00,PT1H,3F5N,0.0


In [0]:
# Descargar archivo de Google Drive
download_url = f'https://drive.google.com/uc?export=download&id={id_archivo_balance_drive}'
local_file_path = '/tmp/balances3.xlsx'
response = requests.get(download_url)
with open(local_file_path, 'wb') as file:
    file.write(response.content)


In [0]:
#Base de datos de capacidad
df_archivo_capacidad = pd.read_excel(local_file_path, engine='openpyxl')
display(df_archivo_capacidad)

  Expected bytes, got a 'datetime.datetime' object
Attempting non-optimization as 'spark.sql.execution.arrow.pyspark.fallback.enabled' is set to true.
  warn(msg)


Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
,Programa de Generación por Planta,,,,
,Empresa Generadora ACME S.A. E.S.P.,,,,
,Despacho Real 10/07/2024,,,,
,,,,,
,FECHA,PLANTA,GENERADOR,CAPACIDAD (Kwh),CODIGO
,"java.util.GregorianCalendar[time=?,areFieldsSet=false,areAllFieldsSet=false,lenient=true,zone=sun.util.calendar.ZoneInfo[id=""Etc/UTC"",offset=0,dstSavings=0,useDaylight=false,transitions=0,lastRule=null],firstDayOfWeek=1,minimalDaysInFirstWeek=1,ERA=?,YEAR=2024,MONTH=6,WEEK_OF_YEAR=?,WEEK_OF_MONTH=?,DAY_OF_MONTH=10,DAY_OF_YEAR=?,DAY_OF_WEEK=?,DAY_OF_WEEK_IN_MONTH=?,AM_PM=0,HOUR=0,HOUR_OF_DAY=0,MINUTE=0,SECOND=0,MILLISECOND=0,ZONE_OFFSET=?,DST_OFFSET=?]",TERMOZIPA,2,33000,ZPA2
,"java.util.GregorianCalendar[time=?,areFieldsSet=false,areAllFieldsSet=false,lenient=true,zone=sun.util.calendar.ZoneInfo[id=""Etc/UTC"",offset=0,dstSavings=0,useDaylight=false,transitions=0,lastRule=null],firstDayOfWeek=1,minimalDaysInFirstWeek=1,ERA=?,YEAR=2024,MONTH=6,WEEK_OF_YEAR=?,WEEK_OF_MONTH=?,DAY_OF_MONTH=10,DAY_OF_YEAR=?,DAY_OF_WEEK=?,DAY_OF_WEEK_IN_MONTH=?,AM_PM=0,HOUR=1,HOUR_OF_DAY=1,MINUTE=0,SECOND=0,MILLISECOND=0,ZONE_OFFSET=?,DST_OFFSET=?]",TERMOZIPA,2,33000,ZPA2
,"java.util.GregorianCalendar[time=?,areFieldsSet=false,areAllFieldsSet=false,lenient=true,zone=sun.util.calendar.ZoneInfo[id=""Etc/UTC"",offset=0,dstSavings=0,useDaylight=false,transitions=0,lastRule=null],firstDayOfWeek=1,minimalDaysInFirstWeek=1,ERA=?,YEAR=2024,MONTH=6,WEEK_OF_YEAR=?,WEEK_OF_MONTH=?,DAY_OF_MONTH=10,DAY_OF_YEAR=?,DAY_OF_WEEK=?,DAY_OF_WEEK_IN_MONTH=?,AM_PM=0,HOUR=2,HOUR_OF_DAY=2,MINUTE=0,SECOND=0,MILLISECOND=0,ZONE_OFFSET=?,DST_OFFSET=?]",TERMOZIPA,2,33000,ZPA2
,"java.util.GregorianCalendar[time=?,areFieldsSet=false,areAllFieldsSet=false,lenient=true,zone=sun.util.calendar.ZoneInfo[id=""Etc/UTC"",offset=0,dstSavings=0,useDaylight=false,transitions=0,lastRule=null],firstDayOfWeek=1,minimalDaysInFirstWeek=1,ERA=?,YEAR=2024,MONTH=6,WEEK_OF_YEAR=?,WEEK_OF_MONTH=?,DAY_OF_MONTH=10,DAY_OF_YEAR=?,DAY_OF_WEEK=?,DAY_OF_WEEK_IN_MONTH=?,AM_PM=0,HOUR=3,HOUR_OF_DAY=3,MINUTE=0,SECOND=0,MILLISECOND=0,ZONE_OFFSET=?,DST_OFFSET=?]",TERMOZIPA,2,33000,ZPA2
,"java.util.GregorianCalendar[time=?,areFieldsSet=false,areAllFieldsSet=false,lenient=true,zone=sun.util.calendar.ZoneInfo[id=""Etc/UTC"",offset=0,dstSavings=0,useDaylight=false,transitions=0,lastRule=null],firstDayOfWeek=1,minimalDaysInFirstWeek=1,ERA=?,YEAR=2024,MONTH=6,WEEK_OF_YEAR=?,WEEK_OF_MONTH=?,DAY_OF_MONTH=10,DAY_OF_YEAR=?,DAY_OF_WEEK=?,DAY_OF_WEEK_IN_MONTH=?,AM_PM=0,HOUR=4,HOUR_OF_DAY=4,MINUTE=0,SECOND=0,MILLISECOND=0,ZONE_OFFSET=?,DST_OFFSET=?]",TERMOZIPA,2,20834,ZPA2


# (T) Transformaciones




## Filtrado de Columnas

Nuestras fuentes, vienen en un estado crudo, o "raw", y hay datos, que no nos servirán para nuestro propósito, por lo cual, la primera transformación será quitar, o filtrar, los atributos que no se necesitan.

### (*T*) Filtrado de los atributos que traen el precio de bolsa, el despacho de las plantas


La documentación del API nos muestra que trae muchas columnas de información, denominados metadatos, necesitamos puntualmente los datos válidos para nuestro análisis. 

```
CodigoDuracion:string
CodigoPlanta:string
FechaHora:string
Valor:long
```

En estas 3 celdas, transformamos el formato utilizando funciones como aplanar o explotar, colocando alias y realizando un filtro o un select.

In [0]:
# Filtrar datos Primer Tabla de Precios de la Bolsa
columnas_requeridas_precios = ['Fecha', 'Valor', 'CodigoVariable','CodigoDuracion','UnidadMedida','Version']
if all(col in df_precios.columns for col in columnas_requeridas_precios):
    # Filtra solo las columnas requeridas
    df_precios_bolsa = df_precios[columnas_requeridas_precios]
    
    # Convierte 'FechaHora' a datetime con el formato correcto
    df_precios_bolsa['Fecha'] = pd.to_datetime(df_precios_bolsa['Fecha'], errors='coerce')
    
    # Extrae año, mes y día de la fecha
    df_precios_bolsa['anio'] = df_precios_bolsa['Fecha'].dt.year
    df_precios_bolsa['mes'] = df_precios_bolsa['Fecha'].dt.month
    df_precios_bolsa['dia'] = df_precios_bolsa['Fecha'].dt.day

else:
    print("Algunas columnas requeridas no están en df_precios.")
    df_precios_bolsa = pd.DataFrame()

display(df_precios_bolsa)

Fecha,Valor,CodigoVariable,CodigoDuracion,UnidadMedida,Version,anio,mes,dia
2024-06-20T00:00:00Z,322.0811,PPBOGReal,P1D,COP/kWh,TXF,2024,6,20
2024-06-20T00:00:00Z,316.4945,PPBO,P1D,COP/kWh,TXF,2024,6,20
2024-06-20T00:00:00Z,308.2125,PPBOGReal,P1D,COP/kWh,TX2,2024,6,20
2024-06-20T00:00:00Z,302.7103,PPBO,P1D,COP/kWh,TX2,2024,6,20
2024-06-20T00:00:00Z,316.9398,PPBO,P1D,COP/kWh,TX3,2024,6,20
2024-06-20T00:00:00Z,322.5297,PPBOGReal,P1D,COP/kWh,TX3,2024,6,20
2024-06-20T00:00:00Z,316.4859,PPBO,P1D,COP/kWh,TXR,2024,6,20
2024-06-20T00:00:00Z,322.0841,PPBOGReal,P1D,COP/kWh,TXR,2024,6,20
2024-06-20T00:00:00Z,308.2145,PPBOGReal,P1D,COP/kWh,TX1,2024,6,20
2024-06-19T00:00:00Z,304.5383,PPBOGReal,P1D,COP/kWh,TX2,2024,6,19


In [0]:
# Transformar datos de despachos
if 'FechaHora' in df_despachos.columns and 'Valor' in df_despachos.columns and 'CodigoPlanta' in df_despachos.columns:
    df_despachos['anio'] = pd.to_datetime(df_despachos['FechaHora']).dt.year
    df_despachos['mes'] = pd.to_datetime(df_despachos['FechaHora']).dt.month
    df_despachos['dia'] = pd.to_datetime(df_despachos['FechaHora']).dt.day
    df_despachos['hora'] = pd.to_datetime(df_despachos['FechaHora']).dt.hour
    df_despachos_transformed = df_despachos[['anio', 'mes', 'dia', 'hora', 'Valor', 'CodigoPlanta']]
    df_despachos_transformed = df_despachos_transformed.rename(columns={'Valor': 'capacidad_despacho', 'CodigoPlanta': 'codigo'})
else:
    print("Algunas columnas requeridas no están en df_despachos.")
    df_despachos_transformed = pd.DataFrame()

display(df_despachos_transformed)

anio,mes,dia,hora,capacidad_despacho,codigo
2024,6,20,1,0.0,3EFY
2024,6,20,1,0.0,3ENA
2024,6,20,1,0.0,3ENE
2024,6,20,1,0.0,3EP6
2024,6,20,1,0.0,3EV1
2024,6,20,1,0.0,3EV3
2024,6,20,1,0.0,3EXB
2024,6,20,1,8150.0,3EXH
2024,6,20,1,0.0,3F5L
2024,6,20,1,0.0,3F5N


### (*T*) Filtrado de Plantas

El despacho trae todas las plantas, de nuevo, tenemos que filtrar, pero ahora solo debemos traer las que nos interesan, por ejemplo Zipaquirá, Guavio, Quimbo y Chivor, de la Empresa de Energía ACME. Lo haremos con SQL.

In [0]:
# Códigos específicos para filtrar de la tabla anterior por las generadoras que necesitamos
codigos_especificos = ['ZPA2', 'ZPA3', 'ZPA4', 'ZPA5', 'GVIO', 'QUI1', 'CHVR']

# Filtrar el DataFrame por los códigos específicos
dfDespachosAcme = df_despachos_transformed[df_despachos_transformed['codigo'].isin(codigos_especificos)]

# Mostrar el DataFrame filtrado
print("DataFrame filtrado por códigos específicos:")
display(dfDespachosAcme)

DataFrame filtrado por códigos específicos:


anio,mes,dia,hora,capacidad_despacho,codigo
2024,6,20,1,0.0,CHVR
2024,6,20,1,950350.0,GVIO
2024,6,20,0,73000.0,QUI1
2024,6,20,0,0.0,CHVR
2024,6,20,0,972000.0,GVIO
2024,6,20,0,17000.0,ZPA2
2024,6,20,0,31000.0,ZPA3
2024,6,20,0,31000.0,ZPA4
2024,6,20,0,31000.0,ZPA5
2024,6,20,2,17000.0,ZPA2


In [0]:
#Se hace la transformación del tipo de dato para aplicaar qué tipo de daato es y dar nombre a las columnas
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

schemaArchivo = StructType([
    StructField("useless", StringType(), True),
    StructField("fecha", StringType(), True),
    StructField("planta", StringType(), True),
    StructField("generador", StringType(), True),
    StructField("capacidad", StringType(), True),
    StructField("codigo", StringType(), True)
])
df_archivo_capacidad_transformado = spark.createDataFrame(df_archivo_capacidad,schema=schemaArchivo)
df_archivo_capacidad_transformado.createOrReplaceTempView("CapacidadArchivo")
display(df_archivo_capacidad_transformado)


  Exception thrown when converting pandas.Series (object) with name 'Unnamed: 1' to Arrow Array (string).
Direct cause: Expected bytes, got a 'datetime.datetime' object
Attempting non-optimization as 'spark.sql.execution.arrow.pyspark.fallback.enabled' is set to true.
  warn(msg)


useless,fecha,planta,generador,capacidad,codigo
,Programa de Generación por Planta,,,,
,Empresa Generadora ACME S.A. E.S.P.,,,,
,Despacho Real 10/07/2024,,,,
,,,,,
,FECHA,PLANTA,GENERADOR,CAPACIDAD (Kwh),CODIGO
,"java.util.GregorianCalendar[time=?,areFieldsSet=false,areAllFieldsSet=false,lenient=true,zone=sun.util.calendar.ZoneInfo[id=""Etc/UTC"",offset=0,dstSavings=0,useDaylight=false,transitions=0,lastRule=null],firstDayOfWeek=1,minimalDaysInFirstWeek=1,ERA=?,YEAR=2024,MONTH=6,WEEK_OF_YEAR=?,WEEK_OF_MONTH=?,DAY_OF_MONTH=10,DAY_OF_YEAR=?,DAY_OF_WEEK=?,DAY_OF_WEEK_IN_MONTH=?,AM_PM=0,HOUR=0,HOUR_OF_DAY=0,MINUTE=0,SECOND=0,MILLISECOND=0,ZONE_OFFSET=?,DST_OFFSET=?]",TERMOZIPA,2,33000,ZPA2
,"java.util.GregorianCalendar[time=?,areFieldsSet=false,areAllFieldsSet=false,lenient=true,zone=sun.util.calendar.ZoneInfo[id=""Etc/UTC"",offset=0,dstSavings=0,useDaylight=false,transitions=0,lastRule=null],firstDayOfWeek=1,minimalDaysInFirstWeek=1,ERA=?,YEAR=2024,MONTH=6,WEEK_OF_YEAR=?,WEEK_OF_MONTH=?,DAY_OF_MONTH=10,DAY_OF_YEAR=?,DAY_OF_WEEK=?,DAY_OF_WEEK_IN_MONTH=?,AM_PM=0,HOUR=1,HOUR_OF_DAY=1,MINUTE=0,SECOND=0,MILLISECOND=0,ZONE_OFFSET=?,DST_OFFSET=?]",TERMOZIPA,2,33000,ZPA2
,"java.util.GregorianCalendar[time=?,areFieldsSet=false,areAllFieldsSet=false,lenient=true,zone=sun.util.calendar.ZoneInfo[id=""Etc/UTC"",offset=0,dstSavings=0,useDaylight=false,transitions=0,lastRule=null],firstDayOfWeek=1,minimalDaysInFirstWeek=1,ERA=?,YEAR=2024,MONTH=6,WEEK_OF_YEAR=?,WEEK_OF_MONTH=?,DAY_OF_MONTH=10,DAY_OF_YEAR=?,DAY_OF_WEEK=?,DAY_OF_WEEK_IN_MONTH=?,AM_PM=0,HOUR=2,HOUR_OF_DAY=2,MINUTE=0,SECOND=0,MILLISECOND=0,ZONE_OFFSET=?,DST_OFFSET=?]",TERMOZIPA,2,33000,ZPA2
,"java.util.GregorianCalendar[time=?,areFieldsSet=false,areAllFieldsSet=false,lenient=true,zone=sun.util.calendar.ZoneInfo[id=""Etc/UTC"",offset=0,dstSavings=0,useDaylight=false,transitions=0,lastRule=null],firstDayOfWeek=1,minimalDaysInFirstWeek=1,ERA=?,YEAR=2024,MONTH=6,WEEK_OF_YEAR=?,WEEK_OF_MONTH=?,DAY_OF_MONTH=10,DAY_OF_YEAR=?,DAY_OF_WEEK=?,DAY_OF_WEEK_IN_MONTH=?,AM_PM=0,HOUR=3,HOUR_OF_DAY=3,MINUTE=0,SECOND=0,MILLISECOND=0,ZONE_OFFSET=?,DST_OFFSET=?]",TERMOZIPA,2,33000,ZPA2
,"java.util.GregorianCalendar[time=?,areFieldsSet=false,areAllFieldsSet=false,lenient=true,zone=sun.util.calendar.ZoneInfo[id=""Etc/UTC"",offset=0,dstSavings=0,useDaylight=false,transitions=0,lastRule=null],firstDayOfWeek=1,minimalDaysInFirstWeek=1,ERA=?,YEAR=2024,MONTH=6,WEEK_OF_YEAR=?,WEEK_OF_MONTH=?,DAY_OF_MONTH=10,DAY_OF_YEAR=?,DAY_OF_WEEK=?,DAY_OF_WEEK_IN_MONTH=?,AM_PM=0,HOUR=4,HOUR_OF_DAY=4,MINUTE=0,SECOND=0,MILLISECOND=0,ZONE_OFFSET=?,DST_OFFSET=?]",TERMOZIPA,2,20834,ZPA2


In [0]:
import numpy as np

# Verificación de la existencia de la columna 'generador'
if 'generador' in df_archivo_capacidad_transformado.columns:
    print("La columna 'generador' existe.")
else:
    raise ValueError("La columna 'generador' no existe en el DataFrame.")

# Verificación de los primeros registros del DataFrame
print("Primeros registros del DataFrame:")
print(df_archivo_capacidad)

# Verificación del tipo de datos de la columna 'generador'
print("Tipo de datos de la columna 'generador':")
print(df_archivo_capacidad_transformado['generador'].dtype)

# Intenta imprimir los valores únicos en la columna 'generador'
try:
    print("Valores únicos en la columna 'generador':")
    print(df_archivo_capacidad_transformado['generador'].unique())
except Exception as e:
    print(f"Error al obtener valores únicos: {e}")
display(df_archivo_capacidad_transformado)

La columna 'generador' existe.
Primeros registros del DataFrame:
     Unnamed: 0  ... Unnamed: 5
0           NaN  ...        NaN
1           NaN  ...        NaN
2           NaN  ...        NaN
3           NaN  ...        NaN
4           NaN  ...     CODIGO
..          ...  ...        ...
144         NaN  ...       QUI1
145         NaN  ...       QUI1
146         NaN  ...       QUI1
147         NaN  ...       QUI1
148         NaN  ...       QUI1

[149 rows x 6 columns]
Tipo de datos de la columna 'generador':
Column<'generador[dtype]'>
Valores únicos en la columna 'generador':
Error al obtener valores únicos: 'Column' object is not callable


useless,fecha,planta,generador,capacidad,codigo
,Programa de Generación por Planta,,,,
,Empresa Generadora ACME S.A. E.S.P.,,,,
,Despacho Real 10/07/2024,,,,
,,,,,
,FECHA,PLANTA,GENERADOR,CAPACIDAD (Kwh),CODIGO
,"java.util.GregorianCalendar[time=?,areFieldsSet=false,areAllFieldsSet=false,lenient=true,zone=sun.util.calendar.ZoneInfo[id=""Etc/UTC"",offset=0,dstSavings=0,useDaylight=false,transitions=0,lastRule=null],firstDayOfWeek=1,minimalDaysInFirstWeek=1,ERA=?,YEAR=2024,MONTH=6,WEEK_OF_YEAR=?,WEEK_OF_MONTH=?,DAY_OF_MONTH=10,DAY_OF_YEAR=?,DAY_OF_WEEK=?,DAY_OF_WEEK_IN_MONTH=?,AM_PM=0,HOUR=0,HOUR_OF_DAY=0,MINUTE=0,SECOND=0,MILLISECOND=0,ZONE_OFFSET=?,DST_OFFSET=?]",TERMOZIPA,2,33000,ZPA2
,"java.util.GregorianCalendar[time=?,areFieldsSet=false,areAllFieldsSet=false,lenient=true,zone=sun.util.calendar.ZoneInfo[id=""Etc/UTC"",offset=0,dstSavings=0,useDaylight=false,transitions=0,lastRule=null],firstDayOfWeek=1,minimalDaysInFirstWeek=1,ERA=?,YEAR=2024,MONTH=6,WEEK_OF_YEAR=?,WEEK_OF_MONTH=?,DAY_OF_MONTH=10,DAY_OF_YEAR=?,DAY_OF_WEEK=?,DAY_OF_WEEK_IN_MONTH=?,AM_PM=0,HOUR=1,HOUR_OF_DAY=1,MINUTE=0,SECOND=0,MILLISECOND=0,ZONE_OFFSET=?,DST_OFFSET=?]",TERMOZIPA,2,33000,ZPA2
,"java.util.GregorianCalendar[time=?,areFieldsSet=false,areAllFieldsSet=false,lenient=true,zone=sun.util.calendar.ZoneInfo[id=""Etc/UTC"",offset=0,dstSavings=0,useDaylight=false,transitions=0,lastRule=null],firstDayOfWeek=1,minimalDaysInFirstWeek=1,ERA=?,YEAR=2024,MONTH=6,WEEK_OF_YEAR=?,WEEK_OF_MONTH=?,DAY_OF_MONTH=10,DAY_OF_YEAR=?,DAY_OF_WEEK=?,DAY_OF_WEEK_IN_MONTH=?,AM_PM=0,HOUR=2,HOUR_OF_DAY=2,MINUTE=0,SECOND=0,MILLISECOND=0,ZONE_OFFSET=?,DST_OFFSET=?]",TERMOZIPA,2,33000,ZPA2
,"java.util.GregorianCalendar[time=?,areFieldsSet=false,areAllFieldsSet=false,lenient=true,zone=sun.util.calendar.ZoneInfo[id=""Etc/UTC"",offset=0,dstSavings=0,useDaylight=false,transitions=0,lastRule=null],firstDayOfWeek=1,minimalDaysInFirstWeek=1,ERA=?,YEAR=2024,MONTH=6,WEEK_OF_YEAR=?,WEEK_OF_MONTH=?,DAY_OF_MONTH=10,DAY_OF_YEAR=?,DAY_OF_WEEK=?,DAY_OF_WEEK_IN_MONTH=?,AM_PM=0,HOUR=3,HOUR_OF_DAY=3,MINUTE=0,SECOND=0,MILLISECOND=0,ZONE_OFFSET=?,DST_OFFSET=?]",TERMOZIPA,2,33000,ZPA2
,"java.util.GregorianCalendar[time=?,areFieldsSet=false,areAllFieldsSet=false,lenient=true,zone=sun.util.calendar.ZoneInfo[id=""Etc/UTC"",offset=0,dstSavings=0,useDaylight=false,transitions=0,lastRule=null],firstDayOfWeek=1,minimalDaysInFirstWeek=1,ERA=?,YEAR=2024,MONTH=6,WEEK_OF_YEAR=?,WEEK_OF_MONTH=?,DAY_OF_MONTH=10,DAY_OF_YEAR=?,DAY_OF_WEEK=?,DAY_OF_WEEK_IN_MONTH=?,AM_PM=0,HOUR=4,HOUR_OF_DAY=4,MINUTE=0,SECOND=0,MILLISECOND=0,ZONE_OFFSET=?,DST_OFFSET=?]",TERMOZIPA,2,20834,ZPA2


In [0]:
# Verificación de las columnas en df_archivo_capacidad
if all(col in df_archivo_capacidad.columns for col in ['anio', 'mes', 'dia', 'hora', 'codigo', 'capacidad_despacho']):
    # Verificación de las columnas en dfDespachosAcme
    if all(col in dfDespachosAcme.columns for col in ['anio', 'mes', 'dia', 'hora', 'codigo', 'capacidad_despacho']):
        # Unión de los DataFrames
        df_balance = pd.merge(
            df_archivo_capacidad,
            dfDespachosAcme,
            on=['anio', 'mes', 'dia', 'hora', 'codigo'],
            suffixes=('_capacidad', '_despacho')
        )
        
        # Calculo del balance
        df_balance['balance_disponible_horario'] = df_balance['capacidad'] - df_balance['capacidad_despacho']
        
        print("Balance calculado correctamente.")
    else:
        print("Algunas columnas requeridas no están en dfDespachosAcme.")
        df_balance = pd.DataFrame()
else:
    print("Algunas columnas requeridas no están en df_archivo_capacidad.")
    df_balance = pd.DataFrame()

print(df_balance)

Algunas columnas requeridas no están en df_archivo_capacidad.
Empty DataFrame
Columns: []
Index: []


In [0]:
# Calculo del consolidado
if 'balance_disponible_horario' in df_balance.columns:
    df_consolidado = df_balance.groupby(['anio', 'mes', 'dia', 'codigo']) \
                              .agg({'balance_disponible_horario': 'sum'}) \
                              .reset_index()
    print("Consolidado calculado correctamente.")
else:
    print("La columna 'balance_disponible_horario' no está en df_balance.")
    df_consolidado = pd.DataFrame()


La columna 'balance_disponible_horario' no está en df_balance.


In [0]:
# Calculo del compromiso
if 'Valor' in df_precios_filtrado.columns and 'codigo' in df_consolidado.columns and 'balance_disponible_horario' in df_consolidado.columns:
    df_consolidado = pd.merge(df_consolidado, df_precios_filtrado[['anio', 'mes', 'dia', 'Valor', 'codigo']],
                              on=['anio', 'mes', 'dia', 'codigo'], how='left')
    df_consolidado['Compromisos_MCOP'] = (df_consolidado['balance_disponible_horario'] * df_consolidado['Valor']) / 1000
    df_consolidado = df_consolidado[['anio', 'mes', 'dia', 'codigo', 'balance_disponible_horario', 'Compromisos_MCOP']]
    print("Compromisos calculados correctamente.")
else:
    print("Algunas columnas requeridas no están en los DataFrames.")
    df_consolidado = pd.DataFrame()

print(df_consolidado)


[0;31m---------------------------------------------------------------------------[0m
[0;31mNameError[0m                                 Traceback (most recent call last)
File [0;32m<command-2555198705198800>, line 2[0m
[1;32m      1[0m [38;5;66;03m# Calculo del compromiso[39;00m
[0;32m----> 2[0m [38;5;28;01mif[39;00m [38;5;124m'[39m[38;5;124mValor[39m[38;5;124m'[39m [38;5;129;01min[39;00m df_precios_filtrado[38;5;241m.[39mcolumns [38;5;129;01mand[39;00m [38;5;124m'[39m[38;5;124mcodigo[39m[38;5;124m'[39m [38;5;129;01min[39;00m df_consolidado[38;5;241m.[39mcolumns [38;5;129;01mand[39;00m [38;5;124m'[39m[38;5;124mbalance_disponible_horario[39m[38;5;124m'[39m [38;5;129;01min[39;00m df_consolidado[38;5;241m.[39mcolumns:
[1;32m      3[0m     df_consolidado [38;5;241m=[39m pd[38;5;241m.[39mmerge(df_consolidado, df_precios_filtrado[[[38;5;124m'[39m[38;5;124manio[39m[38;5;124m'[39m, [38;5;124m'[39m[38;5;124mmes[39m[38;5;124m'[39m

In [0]:
# Determinación de la operación
if 'Compromisos_MCOP' in df_consolidado.columns:
    df_consolidado['Operacion'] = df_consolidado['Compromisos_MCOP'].apply(lambda x: 'Comprar' if x < 0 else 'Vender')
    print("Operaciones determinadas correctamente.")
else:
    print("La columna 'Compromisos_MCOP' no está en df_consolidado.")
    df_consolidado['Operacion'] = pd.Series()

print(df_consolidado)

[0;31m---------------------------------------------------------------------------[0m
[0;31mNameError[0m                                 Traceback (most recent call last)
File [0;32m<command-2555198705198800>, line 2[0m
[1;32m      1[0m [38;5;66;03m# Calculo del compromiso[39;00m
[0;32m----> 2[0m [38;5;28;01mif[39;00m [38;5;124m'[39m[38;5;124mValor[39m[38;5;124m'[39m [38;5;129;01min[39;00m df_precios_filtrado[38;5;241m.[39mcolumns [38;5;129;01mand[39;00m [38;5;124m'[39m[38;5;124mcodigo[39m[38;5;124m'[39m [38;5;129;01min[39;00m df_consolidado[38;5;241m.[39mcolumns [38;5;129;01mand[39;00m [38;5;124m'[39m[38;5;124mbalance_disponible_horario[39m[38;5;124m'[39m [38;5;129;01min[39;00m df_consolidado[38;5;241m.[39mcolumns:
[1;32m      3[0m     df_consolidado [38;5;241m=[39m pd[38;5;241m.[39mmerge(df_consolidado, df_precios_filtrado[[[38;5;124m'[39m[38;5;124manio[39m[38;5;124m'[39m, [38;5;124m'[39m[38;5;124mmes[39m[38;5;124m'[39m

##(*L*) Transferencia de Archivo de Resultados a Destino

Ahora tomamos el resultado de las compras y ventas de energía, lo consolidamos y guardamos en formato .CSV y después lo transferimos al destino para que lo cargue el usuario final.

Hice la simulación de la carga del archivo a un servicio de transferencia de archivos llamado https://fastupload.io

Para poder **cargar archivos**, hay que **iniciar sesión** en la plataforma, para ello se utiliza un API, https://fastupload.io/api#authorize , en el api, la plataforma iniciará sesión y obtendrá un token (secuencia de texto y números) que nos permitirá subir el archivo.

Para ello usamos otra API https://fastupload.io/api#file-upload, la cual nos pide algunos parámetros, como el nombre del archivo, el token, la cuenta y el folder, al final, al imprimir la respuesta, veremos que el arhivo fue cargado "File Uploaded".

In [0]:
# Guardado del archivo en CSV
output_csv_path = "/tmp/dfReporteCompraVentaEnergiaAcme.csv"
df_consolidado.to_csv(output_csv_path, index=False)


[0;31m---------------------------------------------------------------------------[0m
[0;31mNameError[0m                                 Traceback (most recent call last)
File [0;32m<command-2555198705198800>, line 2[0m
[1;32m      1[0m [38;5;66;03m# Calculo del compromiso[39;00m
[0;32m----> 2[0m [38;5;28;01mif[39;00m [38;5;124m'[39m[38;5;124mValor[39m[38;5;124m'[39m [38;5;129;01min[39;00m df_precios_filtrado[38;5;241m.[39mcolumns [38;5;129;01mand[39;00m [38;5;124m'[39m[38;5;124mcodigo[39m[38;5;124m'[39m [38;5;129;01min[39;00m df_consolidado[38;5;241m.[39mcolumns [38;5;129;01mand[39;00m [38;5;124m'[39m[38;5;124mbalance_disponible_horario[39m[38;5;124m'[39m [38;5;129;01min[39;00m df_consolidado[38;5;241m.[39mcolumns:
[1;32m      3[0m     df_consolidado [38;5;241m=[39m pd[38;5;241m.[39mmerge(df_consolidado, df_precios_filtrado[[[38;5;124m'[39m[38;5;124manio[39m[38;5;124m'[39m, [38;5;124m'[39m[38;5;124mmes[39m[38;5;124m'[39m

In [0]:
# Carga del archivo a mi servicio externo
params = {'key1': api_key_1, 'key2': api_key_2}
response = requests.get("https://fastupload.io/api/v2/authorize", params=params)
json_response = response.json()

file_upload_access_token = json_response.get("data", {}).get("access_token", "")
file_upload_account_id = json_response.get("data", {}).get("account_id", "")
with open(output_csv_path, "rb") as archivo:
    files = {"upload_file": (archivo.name, archivo)}
    data = {
        "access_token": file_upload_access_token,
        "account_id": file_upload_account_id,
        "folder_id": upload_folder_id
    }
    response = requests.post("https://fastupload.io/api/v2/file/upload", files=files, data=data)
    print(response.text)


[0;31m---------------------------------------------------------------------------[0m
[0;31mNameError[0m                                 Traceback (most recent call last)
File [0;32m<command-2555198705198800>, line 2[0m
[1;32m      1[0m [38;5;66;03m# Calculo del compromiso[39;00m
[0;32m----> 2[0m [38;5;28;01mif[39;00m [38;5;124m'[39m[38;5;124mValor[39m[38;5;124m'[39m [38;5;129;01min[39;00m df_precios_filtrado[38;5;241m.[39mcolumns [38;5;129;01mand[39;00m [38;5;124m'[39m[38;5;124mcodigo[39m[38;5;124m'[39m [38;5;129;01min[39;00m df_consolidado[38;5;241m.[39mcolumns [38;5;129;01mand[39;00m [38;5;124m'[39m[38;5;124mbalance_disponible_horario[39m[38;5;124m'[39m [38;5;129;01min[39;00m df_consolidado[38;5;241m.[39mcolumns:
[1;32m      3[0m     df_consolidado [38;5;241m=[39m pd[38;5;241m.[39mmerge(df_consolidado, df_precios_filtrado[[[38;5;124m'[39m[38;5;124manio[39m[38;5;124m'[39m, [38;5;124m'[39m[38;5;124mmes[39m[38;5;124m'[39m