## Análisis de Datos de Energía del mercado español

El objetivo de este análisis es explorar y comprender el comportamiento del mercado energético a partir de datos reales de consumo y/o precios de electricidad. Se busca identificar patrones temporales, variaciones en el consumo, posibles tendencias de energía más económica y diferencias entre períodos, con el fin de detectar oportunidades de optimización energética.

## Dataset 

1. Spanish Electricity Market: Demand, Gen. & Price

##  Descripción del dataset – Mercado eléctrico (España, Francia y Portugal)

Cada **nombre de columna describe una serie temporal**, y a continuación se detalla su significado:

###  Demanda

* **Demanda programada PBF total (MWh)** (estimacion previa del consumo)
  → Demanda total programada en el PBF (Programación Base de Funcionamiento).

* **Demanda real (MW)** (consumo real)
  → Potencia demandada real.

###  Mercados SPOT(subasta diaria de electricidad.)

* **Energía asignada en Mercado SPOT Diario España (MWh)**
  → Energía negociada en el mercado diario español (OMIE).

* **Energía asignada en Mercado SPOT Diario Francia (MWh)**
  → Energía negociada en el mercado diario francés.

### Generación eléctrica programada (PBF) (origen de la energia)

* **Generación programada PBF Carbón (MWh)**(energia planeada a producir de carbon)
  → Generación eléctrica programada con carbón.

* **Generación programada PBF Ciclo combinado (MWh)**
  → Generación eléctrica programada con ciclos combinados.

* **Generación programada PBF Eólica (MWh)**
  → Generación eléctrica programada de origen eólico.

* **Generación programada PBF Gas Natural Cogeneración (MWh)**
  → Generación eléctrica programada mediante cogeneración con gas natural.

* **Generación programada PBF Nuclear (MWh)**
  → Generación eléctrica programada de origen nuclear.

* **Generación programada PBF Solar fotovoltaica (MWh)**
  → Generación eléctrica programada de origen solar fotovoltaico.

* **Generación programada PBF Turbinación bombeo (MWh)**
  → Generación eléctrica programada mediante hidráulica reversible (bombeo).

* **Generación programada PBF UGH + no UGH (MWh)**
  → Generación hidráulica total (unidades de gestión hidráulica + no UGH).

* **Generación programada PBF total (MWh)**(suma total de toda la energía que se planea generar)
  → Generación eléctrica total programada.

### Precios del mercado diario (variable objetivo)

* **Precio mercado SPOT Diario ESP (€/MWh)**
  → Precio diario del mercado SPOT en España.

* **Precio mercado SPOT Diario FRA (€/MWh)**
  → Precio diario del mercado SPOT en Francia.

* **Precio mercado SPOT Diario POR (€/MWh)**
  → Precio diario del mercado SPOT en Portugal.

### Rentas de congestión (interconexiones) 

Excedentes económicos que se generan cuando la red de transporte alcanza su límite de capacidad. En estos casos, la importación de energía suele estar asociada a precios más elevados.

* **Rentas de congestión mecanismos implícitos diario Francia exportación (€/MWh)**
  → Precio asociado a la exportación diaria hacia Francia.

* **Rentas de congestión mecanismos implícitos diario Francia importación (€/MWh)**
  → Precio asociado a la importación diaria desde Francia.

* **Rentas de congestión mecanismos implícitos diario Portugal exportación (€/MWh)**
  → Precio asociado a la exportación diaria hacia Portugal.

* **Rentas de congestión mecanismos implícitos diario Portugal importación (€/MWh)**
  → Precio asociado a la importación diaria desde Portugal.

---

### Notas adicionales

* El **formato original de los datos se mantiene**, para facilitar la incorporación futura de nuevos datos descargados desde **ESIOS**.
* Las columnas geográficas están en **null**, ya que no se utilizan en este dataset.

## Hipotesis iniciales

### **Relación entre demanda y precio**

Se espera que **a mayor demanda eléctrica, mayor sea el precio de la energía en el mercado spot**

### **Patrones temporales del precio**

Existen **patrones temporales en el precio de la energía**, donde ciertos períodos del día, meses o estaciones del año presentan precios sistemáticamente más bajos o más altos.

### **Influencia del origen de la generación**

El **tipo de fuente de generación eléctrica influye en el precio**. Se espera que una mayor participación de energías renovables (como eólica y solar) esté asociada a precios más bajos, mientras que una mayor dependencia de fuentes fósiles incremente el costo.

### **Impacto de la importación de energía**

Cuando la demanda interna no puede ser cubierta por la generación nacional y es necesario **importar energía desde otros países**, el precio promedio del mercado español tiende a aumentar.

### **Rentas de congestión y precios elevados**

Las **altas rentas de congestión** indican saturación de las interconexiones eléctricas y posibles desequilibrios entre oferta y demanda, lo que suele estar asociado a **precios más elevados de la energía**.

### **Diferencia entre demanda programada y demanda real**

Las **desviaciones entre la demanda programada y la demanda real** podrían generar ineficiencias en el sistema eléctrico y provocar variaciones inesperadas en el precio.

### **Efecto fin de semana vs días laborables**

Los **fines de semana presentan menor demanda y precios más bajos** en comparación con los días laborables, debido a la reducción de actividad industrial.

### **Dependencia del mercado francés**

Los precios del mercado spot español **podrían verse influenciados por el precio del mercado francés**, especialmente en momentos de alta importación o congestión.


In [1]:
import pandas as pd # trabajar con datasets
import numpy as np # calculo
import matplotlib.pyplot as plt # graficos
import seaborn as sns # plus de matlotlib

In [8]:
df = pd.read_csv("../data/spain_energy_market.csv")
df.head()

Unnamed: 0,datetime,id,name,geoid,geoname,value
0,2014-01-01 23:00:00,600,Precio mercado SPOT Diario ESP,3.0,España,25.280833
1,2014-01-02 23:00:00,600,Precio mercado SPOT Diario ESP,3.0,España,39.924167
2,2014-01-03 23:00:00,600,Precio mercado SPOT Diario ESP,3.0,España,4.992083
3,2014-01-04 23:00:00,600,Precio mercado SPOT Diario ESP,3.0,España,4.091667
4,2014-01-05 23:00:00,600,Precio mercado SPOT Diario ESP,3.0,España,13.5875


In [9]:
df.tail()

Unnamed: 0,datetime,id,name,geoid,geoname,value
40207,2018-12-27 23:00:00,3,Generación programada PBF Turbinación bombeo,,,8838.0
40208,2018-12-28 23:00:00,3,Generación programada PBF Turbinación bombeo,,,8738.8
40209,2018-12-29 23:00:00,3,Generación programada PBF Turbinación bombeo,,,9020.0
40210,2018-12-30 23:00:00,3,Generación programada PBF Turbinación bombeo,,,8466.2
40211,2018-12-31 23:00:00,3,Generación programada PBF Turbinación bombeo,,,10764.0


In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40212 entries, 0 to 40211
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   datetime  40212 non-null  object 
 1   id        40212 non-null  int64  
 2   name      34734 non-null  object 
 3   geoid     10956 non-null  float64
 4   geoname   10956 non-null  object 
 5   value     40212 non-null  float64
dtypes: float64(2), int64(1), object(3)
memory usage: 1.8+ MB


In [11]:
df.describe()

Unnamed: 0,id,geoid,value
count,40212.0,10956.0,40212.0
mean,2767.757286,2.0,132596.7
std,4014.664966,0.816534,214712.9
min,3.0,1.0,-1426133.0
25%,600.0,1.0,51.12708
50%,602.0,2.0,27787.78
75%,1334.0,3.0,161539.9
max,10258.0,3.0,2584390.0


## Previsualizacion del dataset

En esta fase se realizó una exploración inicial del dataset del mercado eléctrico español con el objetivo de comprender su estructura y características principales.

Se identificó que los datos se encuentran en formato largo (long format), donde cada fila representa una medición de una variable específica en un momento determinado. Esto explica la presencia de múltiples valores nulos, especialmente en columnas como geoid y geoname, que solo aplican a ciertas series.

Asimismo, se detectaron valores extremos y atípicos en la columna value, incluyendo valores negativos, lo que indica que el dataset refleja comportamientos reales del mercado y requiere un proceso de limpieza y preparación antes del análisis exploratorio.

Este conjunto de datos presenta mayor complejidad y heterogeneidad, por lo que será necesario filtrar, transformar y reorganizar las variables antes de avanzar al EDA.

## Limpieza y transformacion de datos

In [12]:
# Convertir la variable datatime de tipo objeto a datetime
df["datetime"] = pd.to_datetime(df["datetime"])

In [13]:
# seleccion de variables relevantes

series_relevantes = [
    "Precio mercado SPOT Diario ESP (€/MWh)",
    "Demanda real (MW)",
    "Demanda programada PBF total (MWh)",
    "Generación programada PBF Eólica (MWh)",
    "Generación programada PBF Solar fotovoltaica (MWh)",
    "Generación programada PBF UGH + no UGH (MWh)",
    "Generación programada PBF Ciclo combinado (MWh)",
    "Generación programada PBF Carbón (MWh)",
    "Generación programada PBF Nuclear (MWh)",
    "Generación programada PBF total (MWh)",
    "Rentas de congestión mecanismos implícitos diario Francia importación (€/MWh)",
    "Rentas de congestión mecanismos implícitos diario Portugal importación (€/MWh)"
]

df_filtrado = df[df["name"].isin(series_relevantes)]


In [14]:
# formato long a wild
# datetime | Precio_SPOT | Demanda_real | Generación_eólica | ...

df_wide = df_filtrado.pivot(#  pivot, reestructura un DataFrame, tomando valores de una columna y convirtiéndolos en nuevas columnas
    index="datetime", # indice
    columns="name",# cada variable se convierte en una columna
    values="value"
)


In [15]:
(df_wide < 0).sum()

Series([], dtype: float64)

El dataset original se encontraba en formato largo, con múltiples series mezcladas y valores faltantes.
En esta fase se transformaron las fechas al formato adecuado, se seleccionaron únicamente las variables relevantes para el análisis del precio de la energía en España y se reestructuraron los datos a un formato ancho, dejando el conjunto preparado para realizar un análisis exploratorio claro y efectivo.