# **Analisis Exploratorio de Datos**


Los objetivos del presente proyecto de analisis de datos son:

1. Comprender el comportamiento general del precio del sistema interconectado nacional.
2. Determinar la correlacion del precio con las otras variables del sistema de generación eléctrica.
3. Comprender la influencia de los fenomenos climáticos en el precio del SIN.
4. Encontrar la influencia del consumo de combustible en el precio de la eléctricidad.

In [15]:
import pandas as pd
import os
import pandas as pd
from sqlalchemy import create_engine
import dotenv

## Conexión a la Base de Datos de Analítica en AWS

In [16]:
dotenv.load_dotenv("vars.env", override=True)

db_user = os.getenv('DB_USER_AWS')
db_password = os.getenv('DB_PASSWORD_AWS')
db_host = os.getenv('DB_HOST_AWS')
db_port = os.getenv('DB_PORT_AWS')
db_name = os.getenv('DB_NAME_AWS')

conn = create_engine(f'postgresql://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}', echo=False)

## Lectura del DataSet de Analítica

In [17]:
sql_query = """SELECT * FROM analitica_sistema_electrico_colombia"""
df_sistema_electrico = pd.read_sql_query(sql_query, con=conn)
df_sistema_electrico['Date'] = pd.to_datetime(df_sistema_electrico['Date'])
df_sistema_electrico

Unnamed: 0,Date,generacion_sistema_daily,generacion_ideal_sistema_daily,perdidas_sistema_daily,volumen_util_energia_sistema_daily,emisiones_sistema_daily,aportes_energia_sistema_daily,aportes_energia_mediaHist_sistema_daily,capacidad_util_energia_sistema_daily,demanda_real_sistema_daily,exportaciones_sistema_daily,importaciones_sistema_daily,precio_bolsa_sistema_daily,precio_escasez_sistema_daily,comsumo_combustible_daily
0,2010-01-01,1.154191e+08,1.154409e+08,2079352.97,1.000661e+10,0.00000,45616100,75130000,15428396811,1.133616e+08,4536.91,21849.64,120.501228,356.70894,7.278816e+05
1,2010-01-02,1.276812e+08,1.276983e+08,2226467.46,9.995147e+09,0.00000,43097100,75130000,15428396811,1.254718e+08,12551.38,17079.39,118.495340,355.06286,7.439290e+05
2,2010-01-03,1.236378e+08,1.236548e+08,2509638.35,9.992677e+09,0.00000,43400400,75130000,15428396811,1.211452e+08,9118.35,17032.69,121.160145,355.07299,7.490638e+05
3,2010-01-04,1.459575e+08,1.444114e+08,2032914.64,9.965341e+09,0.00000,40410400,75130000,15428396811,1.439317e+08,1513370.10,7174.60,123.962937,355.07299,7.727362e+05
4,2010-01-05,1.521480e+08,1.490348e+08,2278901.51,9.926760e+09,0.00000,41190600,75130000,15428396811,1.498691e+08,3057651.95,0.00,120.666437,354.78317,7.674916e+05
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5229,2024-04-26,2.246048e+08,2.246048e+08,3468541.50,5.399084e+09,81390.03841,175197100,222790000,17359561885,2.211362e+08,0.00,0.00,215.201028,742.65054,1.077649e+06
5230,2024-04-27,2.171655e+08,2.171655e+08,3317765.92,5.454065e+09,72221.14808,190925700,222790000,17359561885,2.138478e+08,0.00,0.00,160.221522,742.65054,9.592092e+05
5231,2024-04-28,1.941888e+08,1.941931e+08,2880163.08,5.557993e+09,65899.83428,206187700,222790000,17359561885,1.913129e+08,12438.22,4315.01,106.818940,742.65054,8.649091e+05
5232,2024-04-29,2.223545e+08,2.223672e+08,2869374.84,5.672510e+09,50743.73833,303206200,222790000,17359561885,2.194978e+08,41646.96,12662.44,136.110230,742.65054,6.467688e+05


## Exploración del Dataset y sus Variables

In [18]:
df_sistema_electrico.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5234 entries, 0 to 5233
Data columns (total 15 columns):
 #   Column                                   Non-Null Count  Dtype         
---  ------                                   --------------  -----         
 0   Date                                     5234 non-null   datetime64[ns]
 1   generacion_sistema_daily                 5234 non-null   float64       
 2   generacion_ideal_sistema_daily           5234 non-null   float64       
 3   perdidas_sistema_daily                   5234 non-null   float64       
 4   volumen_util_energia_sistema_daily       5234 non-null   float64       
 5   emisiones_sistema_daily                  5234 non-null   float64       
 6   aportes_energia_sistema_daily            5234 non-null   int64         
 7   aportes_energia_mediaHist_sistema_daily  5234 non-null   int64         
 8   capacidad_util_energia_sistema_daily     5234 non-null   int64         
 9   demanda_real_sistema_daily               

In [19]:
df_sistema_electrico.describe()

Unnamed: 0,Date,generacion_sistema_daily,generacion_ideal_sistema_daily,perdidas_sistema_daily,volumen_util_energia_sistema_daily,emisiones_sistema_daily,aportes_energia_sistema_daily,aportes_energia_mediaHist_sistema_daily,capacidad_util_energia_sistema_daily,demanda_real_sistema_daily,exportaciones_sistema_daily,importaciones_sistema_daily,precio_bolsa_sistema_daily,precio_escasez_sistema_daily,comsumo_combustible_daily
count,5234,5234.0,5234.0,5234.0,5234.0,5234.0,5234.0,5234.0,5234.0,5234.0,5234.0,5234.0,5234.0,5234.0,5234.0
mean,2017-03-01 12:00:00,185062100.0,185175200.0,2800156.0,10866320000.0,14180.501519,162732900.0,167408400.0,16494450000.0,183253800.0,1731938.0,991816.6,225.569533,499.731301,381504.8
min,2010-01-01 00:00:00,115419100.0,115440900.0,-2118570.0,4958518000.0,0.0,29032100.0,69770000.0,15097510000.0,113361600.0,0.0,0.0,35.356673,289.78734,113521.4
25%,2013-08-01 06:00:00,168157400.0,168207500.0,2432048.0,9258528000.0,0.0,104724300.0,127120000.0,15428400000.0,166184100.0,4538.618,865.135,106.35109,363.17655,249152.4
50%,2017-03-01 12:00:00,184299300.0,184529400.0,2753888.0,11088630000.0,0.0,149289600.0,177260000.0,16920880000.0,182850100.0,39605.14,11467.63,158.98226,449.83058,340936.0
75%,2020-09-29 18:00:00,199077400.0,199330500.0,3118325.0,12777190000.0,24442.364002,205474700.0,206670000.0,17197710000.0,198367000.0,2418663.0,374573.6,247.326889,555.40103,476947.5
max,2024-04-30 00:00:00,250439100.0,250439100.0,7079952.0,15649800000.0,83577.43823,591245300.0,280040000.0,18237180000.0,246937400.0,35052390.0,10911030.0,1942.692797,1037.23236,1104847.0
std,,22842770.0,22883040.0,568683.3,2412986000.0,18506.220919,79487530.0,49623120.0,932983900.0,22869580.0,2978020.0,2152138.0,205.73435,182.292409,172910.7


## Descripción de las Variables

A continuación se lista todas las variables disponibles para el analisis.
El dataset continue el valor de la variable por cada dia de operacion del sistema.

| No. | Variable                                | Metrica                               | Unidad | Descripción                                                                                                    | Unidad de Análisis |
|-----|-----------------------------------------|---------------------------------------|--------|----------------------------------------------------------------------------------------------------------------|---------------------|
| 1   | generacion_sistema_daily                | Generación por Sistema                | kWh    | Generación neta de cada una de las plantas Nacionales en sus puntos de frontera.                               | GWh                 |
| 2   | generacion_ideal_sistema_daily          | Generación Ideal por Sistema          | kWh    | Despacho de generación que resulta de considerar una red de transporte inexistente.                             | GWh                 |
| 3   | perdidas_sistema_daily                  | Pérdidas de Energía por Sistema       | kWh    | Cantidad de las inyecciones de energía al Sistema de Transmisión Nacional, menos la cantidad de los flujos... | GWh                 |
| 4   | volumen_util_energia_sistema_daily     | Volumen Útil diario Energía Sistema  | kWh    | Volumen almacenado por encima del Nivel Mínimo Técnico, reportado diariamente por los agentes.                 | GWh                 |
| 5   | emisiones_sistema_daily                 | Emisiones de CO2 por RecursoComb      | TonCO2 | Emisiones totales de Dióxido de Carbono – CO2 de las plantas de generación registradas ante el CND.            | kTonCO2             |
| 6   | aportes_energia_sistema_daily           | Aportes Energía por Río               | kWh    | Caudales en energía de los ríos que aportan agua a algún embalse del SIN.                                       | GWh                 |
| 7   | aportes_energia_mediaHist_sistema_daily| Aportes Media Histórica Energía por Río| kWh    | Caudal medio mensual histórico en energía para los ríos del SIN.                                                | GWh                 |
| 8   | capacidad_util_energia_sistema_daily   | Capacidad Útil Energía por Embalse    | kWh    | Corresponde al Volumen Útil del Embalse, que se define como el volumen almacenado entre el nivel Mínimo Téc... | GWh                 |
| 9   | demanda_real_sistema_daily             | Demanda Real por sistema              | kWh    | Demanda de usuarios regulados y no regulados que hacen parte del Sistema Interconectado Nacional.               | GWh                 |
| 10  | exportaciones_sistema_daily            | Exportaciones de energía              | kWh    | Transferencias de Energía desde Colombia hacia otros países.                                                    | GWh                 |
| 11  | importaciones_sistema_daily            | Importaciones de energía              | COP    | Transferencias de Energía desde otros países para abastecer la demanda nacional.                                | GWh                 |
| 12  | precio_bolsa_sistema_daily             | Precio Bolsa Promedio Aritmético      | COP/kWh| Promedio aritmético del precio de bolsa nacional.                                                               | COP/kWh             |
| 13  | precio_escasez_sistema_daily           | Precio Marginal Escasez por Sistema   | COP/kWh| Precio Marginal de Escasez calculado de acuerdo con la Resolución CREG 140 del 2017.                            | COP/kWh             |
| 14  | comsumo_combustible_daily              | Consumo Combustible MBTU por Recurso  | MBTU   | Los generadores térmicos deben reportar diariamente el consumo de combustible en MBTU.                          | MMBTU               |
