![SIMEM_logo_1.png](attachment:SIMEM_logo_1.png)

[SiMEM](https://www.simem.co/)

## Caso de uso - Energía de Referencia para el Mercado Secundario

# Objetivos de este Notebook

* Explicar cómo se realiza la instalación e importación de la librería pydataxm desde la consola para su uso en ambientes locales
* Explicar cómo se pueden consultar los conjuntos de datos a través de la librería Pydataxm
* Explicar cómo realizar el procesamiento y manipulación de los datos consultados
* Explicar el análisis de los datos consultados para dar respuesta al caso de uso propuesto
 
**Índice**

1. [Instalación de librerías](#section1)

2. [Importación de librerías](#section2)

3. [Consultar información de los conjuntos de datos](#section3)

4. [Manipulación de datos](#section4)

5. [Análisis para dar respuesta al caso de uso](#section5)

<a id='section1'></a>
# 1. Instalación de la librería
Ejecutar el siguiente comando en el CMD para instalar la librería de python.

In [1]:
# import sys
# !{sys.executable} -m pip install pydataxm

<a id='section2'></a>
# 2. Importación de librerías

In [2]:
# Importación de librerías necesarias para la consulta y análisis de datos
from pydataxm.pydatasimem import ReadSIMEM  # Importa clases para interactuar con datos del sistema SIMEM, utilizado para acceder a información energética en Colombia
import pandas as pd                         # Librería para manipulación y análisis de datos en estructuras tipo DataFrame, muy útil para limpiar, transformar y explorar datos
import plotly.graph_objects as go           # Módulo de Plotly para crear visualizaciones interactivas y personalizadas, como gráficos de líneas, barras, áreas, etc.

<a id='section3'></a>
# 3. Consultar información de los conjuntos de datos
El método de extracción recibe los parámetros con los que se va a realizar la consulta. 
El datasetID para un conjunto particular se puede encontrar en el [catálogo de conjuntos de datos.](https://www.simem.co/pages/catalogodatos/51FC0A59-3A00-462C-B449-9CB8D5E007FB)  
Para este ejemplo el conjunto a presentar es  [Energía de Referencia para el Mercado Secundario](https://www.simem.co/datadetail/d808d43d-e3da-493d-aab5-015a818ade10).

Se definen los parámetros de entrada y se crea el objeto ReadSIMEM() para realizar las consultas.

La función main contiene todo el proceso para transportar la información del dataset entre el rango de fechas solicitadas a un dataframe. Después de este paso, el proceso es de manipulación y visualización de datos.

In [3]:
id_dataset = 'd808d4'                                       # ID del conjunto de datos a consultar
fecha_inicial = '2025-07-01'                                # Fecha de inicio del rango de consulta
fecha_final = '2026-01-31'                                  # Fecha de fin del rango de consulta
simem = ReadSIMEM(id_dataset, fecha_inicial, fecha_final)   # Instancia de la clase ReadSIMEM con los parámetros definidos
df_dataset = simem.main()                                   # Ejecución del método principal para obtener los datos en un DataFrame
display(df_dataset.head(20))                                # Visualización de las primeras 20 filas del DataFrame

****************************************************************************************************
Initializing object
The object has been initialized with the dataset: "Energía de Referencia para el Mercado Secundario"
****************************************************************************************************
Inicio consulta sincronica
Creacion url: 0.0015680789947509766
Extraccion de registros: 73.39360475540161
End of data extracting process
****************************************************************************************************


Unnamed: 0,FechaPublicacion,Fecha,CodigoDuracion,CodigoSICAgente,CodigoPlanta,ENFICCVerificada,EDA,OEF,VCMSENFICC,VCMSEDA,VCMSTotales,ENFICCNoComp,EDANoComp,EnergiaReferenciaMercadoSecundario
0,2025-07-27,2025-07-31,P1D,TYPG,TYP2,623520.0,0.0,0.0,528000.0,0.0,528000.0,95520.0,0.0,95520.0
1,2025-07-27,2025-07-31,P1D,TYPG,TYP5,1131536.0,0.0,1139999.0,0.0,0.0,0.0,-8463.0,0.0,-8463.0
2,2025-07-27,2025-07-31,P1D,TYPG,TYP3,1137984.0,0.0,1139999.0,0.0,0.0,0.0,-2015.0,0.0,-2015.0
3,2025-07-27,2025-07-31,P1D,TYPG,TYP1,189600.0,0.0,0.0,189000.0,0.0,189000.0,600.0,0.0,600.0
4,2025-07-27,2025-07-31,P1D,TYPG,TYP4,1140000.0,0.0,1139999.0,0.0,0.0,0.0,1.0,0.0,1.0
5,2025-07-27,2025-07-31,P1D,TRMG,TSJ1,3830853.0,0.0,3553472.0,80000.0,0.0,80000.0,197381.0,0.0,197381.0
6,2025-07-27,2025-07-31,P1D,TMVG,TVL1,5478572.0,0.0,5550728.0,0.0,0.0,0.0,-72156.0,0.0,-72156.0
7,2025-07-27,2025-07-31,P1D,TMNG,TRN1,1829900.0,0.0,1887700.0,0.0,0.0,0.0,-57800.0,0.0,-57800.0
8,2025-07-27,2025-07-31,P1D,TMFG,TFL4,9957707.0,0.0,10365425.0,0.0,0.0,0.0,-407718.0,0.0,-407718.0
9,2025-07-27,2025-07-31,P1D,TMFG,TFL1,3515013.0,0.0,3645028.0,0.0,0.0,0.0,-130015.0,0.0,-130015.0


<a id='section4'></a>
# 4. Manipulación de datos
Los siguientes pasos corresponden a las actividades de manipulación y preparación de los datos que son relevantes para el análisis. 

Los dataframes se filtarán para tener los datos necesarios para la visualización.

In [4]:
df_ordenado = df_dataset.sort_values('FechaPublicacion', ascending=False)                                           # Ordenamos por FechaPublicacion descendente

df_resultado = df_ordenado.drop_duplicates(subset=['Fecha', 'CodigoPlanta'], keep='first').reset_index(drop=True)   # Eliminamos duplicados manteniendo el más reciente por grupo

df_resultado

Unnamed: 0,FechaPublicacion,Fecha,CodigoDuracion,CodigoSICAgente,CodigoPlanta,ENFICCVerificada,EDA,OEF,VCMSENFICC,VCMSEDA,VCMSTotales,ENFICCNoComp,EDANoComp,EnergiaReferenciaMercadoSecundario
0,2025-08-11,2025-10-16,P1D,CHVG,CHVR,8021002.0,0.0,7762692.00,0.0,0.0,0.0,258310.00,0.0,258310.00
1,2025-08-11,2025-11-10,P1D,TBSG,TBST,18436293.0,0.0,18331181.00,0.0,0.0,0.0,105112.00,0.0,105112.00
2,2025-08-11,2025-11-10,P1D,TBSG,TBQ4,1276687.0,0.0,1138538.00,0.0,0.0,0.0,138149.00,0.0,138149.00
3,2025-08-11,2025-11-10,P1D,SOCG,PPA4,3865079.0,0.0,3863497.32,0.0,0.0,0.0,1581.68,0.0,1581.68
4,2025-08-11,2025-11-10,P1D,SLUG,3IZ6,371517.0,0.0,272888.00,130000.0,0.0,130000.0,-31371.00,0.0,-31371.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15690,2025-06-30,2025-07-01,P1D,EPMG,ESMR,312088.0,220038.0,312087.00,0.0,0.0,0.0,1.00,220038.0,220039.00
15691,2025-06-30,2025-07-01,P1D,EPMG,LTSJ,2328817.0,0.0,2655897.00,0.0,0.0,0.0,-327080.00,0.0,-327080.00
15692,2025-06-30,2025-07-01,P1D,EPMG,TSR1,7620617.0,0.0,7638380.00,0.0,0.0,0.0,-17763.00,0.0,-17763.00
15693,2025-06-30,2025-07-01,P1D,EPMG,PES1,14444252.0,1501446.0,14238910.00,0.0,3022828.0,3022828.0,205342.00,-1521382.0,-1316040.00


In [5]:
listado_plantas = []                                  # Listado de plantas por el cuál se desea filtrar, vacío significa que se usarán todas las plantas para el análisis

df_filtrado = df_resultado.drop(columns=['FechaPublicacion', 'CodigoDuracion'])   # Se eliminan las columnas que no son de interés

if len(listado_plantas) > 0:
    df_filtrado = df_filtrado[df_filtrado['CodigoPlanta'].isin(listado_plantas)]  # Se filtra por el listado de plantas

display(df_filtrado)                                                              # Muestra el DataFrame filtrado

Unnamed: 0,Fecha,CodigoSICAgente,CodigoPlanta,ENFICCVerificada,EDA,OEF,VCMSENFICC,VCMSEDA,VCMSTotales,ENFICCNoComp,EDANoComp,EnergiaReferenciaMercadoSecundario
0,2025-10-16,CHVG,CHVR,8021002.0,0.0,7762692.00,0.0,0.0,0.0,258310.00,0.0,258310.00
1,2025-11-10,TBSG,TBST,18436293.0,0.0,18331181.00,0.0,0.0,0.0,105112.00,0.0,105112.00
2,2025-11-10,TBSG,TBQ4,1276687.0,0.0,1138538.00,0.0,0.0,0.0,138149.00,0.0,138149.00
3,2025-11-10,SOCG,PPA4,3865079.0,0.0,3863497.32,0.0,0.0,0.0,1581.68,0.0,1581.68
4,2025-11-10,SLUG,3IZ6,371517.0,0.0,272888.00,130000.0,0.0,130000.0,-31371.00,0.0,-31371.00
...,...,...,...,...,...,...,...,...,...,...,...,...
15690,2025-07-01,EPMG,ESMR,312088.0,220038.0,312087.00,0.0,0.0,0.0,1.00,220038.0,220039.00
15691,2025-07-01,EPMG,LTSJ,2328817.0,0.0,2655897.00,0.0,0.0,0.0,-327080.00,0.0,-327080.00
15692,2025-07-01,EPMG,TSR1,7620617.0,0.0,7638380.00,0.0,0.0,0.0,-17763.00,0.0,-17763.00
15693,2025-07-01,EPMG,PES1,14444252.0,1501446.0,14238910.00,0.0,3022828.0,3022828.0,205342.00,-1521382.0,-1316040.00


<a id='section5'></a>
# 5. Análisis para dar respuesta al caso de uso

Ahora se realizan gráficas de distintas series de tiempo que pueden ser de interés

In [6]:
df_filtrado["Fecha"] = pd.to_datetime(df_filtrado["Fecha"])                                 # Convertir la fecha

df_filtrado_grouped = (                                                                     # Agrupar por Fecha y sumar solo columnas numéricas
    df_filtrado.groupby("Fecha", as_index=False)
               .mean(numeric_only=True)
)

cols_num = df_filtrado_grouped.select_dtypes(include="number").columns                      # Se cambia la unidad de medida por MWh
df_filtrado_grouped[cols_num] = df_filtrado_grouped[cols_num] / 1000

def plot_time_series(df_filtrado, date_col, variables, title):                              # Definir una función para graficar series de tiempo con múltiples variables

    fig = go.Figure()                    # Crear una figura vacía con Plotly
    
    for var in variables:                # Iterar sobre cada variable a graficar
        fig.add_trace(go.Scatter(        # Agregar una línea a la gráfica para cada variable
            x=df_filtrado[date_col],     # Eje X: fechas
            y=df_filtrado[var],          # Eje Y: valores de la variable
            mode='lines',                # Tipo de gráfico: líneas
            name=var                     # Nombre de la serie en la leyenda
        ))
    
    fig.update_layout(                   # Personalizar el diseño de la gráfica
        title=title,                     # Título de la gráfica
        xaxis_title="Fecha",             # Etiqueta del eje X
        yaxis_title="MWh",                # Etiqueta del eje Y
        template="plotly_white"          # Estilo visual claro
    )
    
    fig.show()                           # Mostrar la gráfica

Comportamiento EDA

In [7]:
# Categoría: EDA
produccion_vars = ["EDANoComp", "EDA", "VCMSEDA"]                                     # Variables que se usarán en la gráfica
plot_time_series(df_filtrado_grouped, "Fecha", produccion_vars, "Comportamiento EDA") # Llamado a la función creada para graficar

Comportamiento Ventas

In [8]:
# Categoría: Ventas
ventas_vars = ["VCMSENFICC", "VCMSEDA", "VCMSTotales"]                                 # Variables que se usarán en la gráfica
plot_time_series(df_filtrado_grouped, "Fecha", ventas_vars, "Comportamiento ventas")   # Llamado a la función creada para graficar

Comportamiento ENFICC

In [9]:
# Categoría: ENFICC
compromisos_vars = ["ENFICCVerificada", "ENFICCNoComp", "VCMSENFICC"]                      # Variables que se usarán en la gráfica
plot_time_series(df_filtrado_grouped, "Fecha", compromisos_vars, "Comportamiento ENFICC")  # Llamado a la función creada para graficar

Referencia:
Medir el indicador clave del mercado secundario mediante la EnergiaReferenciaMercadoSecundario.

Es una variable agregada que puede verse como el resultado de la interacción entre producción, ventas y compromisos.

In [10]:
# Categoría: Referencia
referencia_vars = ["EnergiaReferenciaMercadoSecundario", "VCMSTotales"]                                             # Variables que se usarán en la gráfica
plot_time_series(df_filtrado_grouped, "Fecha", referencia_vars, "Energía de Referencia para el Mercado Secundario") # Llamado a la función creada para graficar