In [40]:
#Let's import the necessary libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [41]:
#Now let's load the dataset
df_capacidad = pd.read_csv('c:/Users/ignac/Desktop/202502PT/Proyecto final/CSV/Capacidad.csv', sep=';')
df_demanda = pd.read_csv('c:/Users/ignac/Desktop/202502PT/Proyecto final/CSV/Demanda(bc).csv', sep=';')
df_generacion = pd.read_csv('c:/Users/ignac/Desktop/202502PT/Proyecto final/CSV/Generacion.csv', sep=';')
df_perdidas = pd.read_csv('c:/Users/ignac/Desktop/202502PT/Proyecto final/CSV/Perdidas.csv', sep=';')
df_precios = pd.read_csv('c:/Users/ignac/Desktop/202502PT/Proyecto final/CSV/Precios.csv', sep=';', encoding="latin1")
df_clima1 = pd.read_csv('c:/Users/ignac/Desktop/202502PT/Proyecto final/CSV/Clima.csv', sep=';', encoding="latin1")
df_clima2 = pd.read_csv('c:/Users/ignac/Desktop/202502PT/Proyecto final/CSV/Clima2.csv', sep=';', encoding="latin1")

In [42]:
df_clima = pd.concat([df_clima1, df_clima2], ignore_index=True)

Now we have the datasets loaded, so let's start with some basic analysis:
- Duplicate rows
- Nulls
- Data types

In [43]:
#Let's see those rows that are duplicated
clima_duplicados = df_clima.duplicated().sum()
print(f"Número de filas duplicadas en df_clima: {clima_duplicados}")

#Let's see if we have null values in the dataset and the percentage they represent
null_values_clima = df_clima.isnull().sum()
null_percentage_clima = (null_values_clima / len(df_clima)) * 100
print("Valores nulos en df_clima:")
print(null_values_clima[null_values_clima > 0])
print("Porcentaje de valores nulos en df_clima:")
print(null_percentage_clima[null_percentage_clima > 0])

#Let's now check the data types of the columns
data_types_clima = df_clima.dtypes
print("Tipos de datos en df_clima:")
print(data_types_clima)

Número de filas duplicadas en df_clima: 26620
Valores nulos en df_clima:
Temp Media (ºC)        1999
Humedad Media (%)      5972
Precipitacion (mm)    10339
dtype: int64
Porcentaje de valores nulos en df_clima:
Temp Media (ºC)       0.108596
Humedad Media (%)     0.324430
Precipitacion (mm)    0.561668
dtype: float64
Tipos de datos en df_clima:
Source.Name           object
IdProvincia            int64
IdEstacion             int64
Fecha                 object
Año                    int64
Dia                    int64
Temp Media (ºC)       object
Humedad Media (%)     object
Precipitacion (mm)    object
dtype: object


Now we know:
- We have a lot of duplicate rows we must remove.
- We don't have any relevant nulls.
- We have some columns that are not in the correct data type and we will need to convert them (Fecha to datetime, for example).

In [44]:
#Let's remove the duplicated rows
df_clima = df_clima.drop_duplicates()
#Now leet's fix the data types of the columns:
#First the column 'Fecha' should be in datetime format
df_clima['Fecha'] = pd.to_datetime(df_clima['Fecha'], format='%d/%m/%Y')
#Now columns 'Temp Media (ºC)', 'Humedad Media (%)' and 'Precipitacion (mm)' should be in float format
df_clima['Temp Media (ºC)'] = df_clima['Temp Media (ºC)'].astype(str).str.replace(',', '.').astype(float)
df_clima['Humedad Media (%)'] = df_clima['Humedad Media (%)'].astype(str).str.replace(',', '.').astype(float)
df_clima['Precipitacion (mm)'] = df_clima['Precipitacion (mm)'].astype(str).str.replace(',', '.').astype(float)

#Let's do the same analysis for the `df_precios` dataset.

In [45]:
#Let's see those rows that are duplicated
precios_duplicados = df_precios.duplicated().sum()
print(f"Número de filas duplicadas en df_precios: {precios_duplicados}")

#Let's see if we have null values in the dataset and the percentage they represent
null_values_precios = df_precios.isnull().sum()
null_percentage_precios = (null_values_precios / len(df_precios)) * 100
print("Valores nulos en df_precios:")
print(null_values_precios[null_values_precios > 0])
print("Porcentaje de valores nulos en df_precios:")
print(null_percentage_precios[null_percentage_precios > 0])

#Let's now check the data types of the columns
data_types_precios = df_precios.dtypes
print("Tipos de datos en df_precios:")
print(data_types_precios)

Número de filas duplicadas en df_precios: 0
Valores nulos en df_precios:
Reserva de potencia adicional a subir    41
Fallo nominacion UPG                     41
Servicio de interrumpibilidad            41
Mecanismo ajuste RD-L 10/2022            96
dtype: int64
Porcentaje de valores nulos en df_precios:
Reserva de potencia adicional a subir    29.927007
Fallo nominacion UPG                     29.927007
Servicio de interrumpibilidad            29.927007
Mecanismo ajuste RD-L 10/2022            70.072993
dtype: float64
Tipos de datos en df_precios:
Año                                                  int64
Mes                                                  int64
Mercado diario                                      object
Mercado intradiario (subastas MIBEL y continuo)     object
Restricciones tecnicas PDBF                         object
Banda de regulacion secundaria                      object
Reserva de potencia adicional a subir               object
Restricciones tecnicas en tiempo 

The only thing we need to fix in this dataset is to replace the commas with dots so we can converts values to float.

In [46]:
#Let's replace the commas with dots in all columns and convert them to float
df_precios = df_precios.apply(lambda x: x.str.replace(',', '.') if x.dtype == "object" else x)
df_precios['Mercado diario'] = df_precios['Mercado diario'].astype(str).str.replace(',', '.').astype(float)
df_precios['Mercado intradiario (subastas MIBEL y continuo)'] = df_precios['Mercado intradiario (subastas MIBEL y continuo)'].astype(str).str.replace(',', '.').astype(float)
df_precios['Restricciones tecnicas PDBF'] = df_precios['Restricciones tecnicas PDBF'].astype(str).str.replace(',', '.').astype(float)
df_precios['Banda de regulacion secundaria'] = df_precios['Banda de regulacion secundaria'].astype(str).str.replace(',', '.').astype(float)
df_precios['Reserva de potencia adicional a subir'] = df_precios['Reserva de potencia adicional a subir'].astype(str).str.replace(',', '.').astype(float)
df_precios['Restricciones tecnicas en tiempo real'] = df_precios['Restricciones tecnicas en tiempo real'].astype(str).str.replace(',', '.').astype(float)
df_precios['Incumplimiento de energia de balance'] = df_precios['Incumplimiento de energia de balance'].astype(str).str.replace(',', '.').astype(float)
df_precios['Coste desvios'] = df_precios['Coste desvios'].astype(str).str.replace(',', '.').astype(float)
df_precios['Saldo desvios'] = df_precios['Saldo desvios'].astype(str).str.replace(',', '.').astype(float)
df_precios['Control del factor de potencia'] = df_precios['Control del factor de potencia'].astype(str).str.replace(',', '.').astype(float)
df_precios['Saldo PO 14.6'] = df_precios['Saldo PO 14.6'].astype(str).str.replace(',', '.').astype(float)
df_precios['Pagos por capacidad'] = df_precios['Pagos por capacidad'].astype(str).str.replace(',', '.').astype(float)
df_precios['Servicio de interrumpibilidad'] = df_precios['Servicio de interrumpibilidad'].astype(str).str.replace(',', '.').astype(float)
df_precios['Precio total (/MWh)'] = df_precios['Precio total (/MWh)'].astype(str).str.replace(',', '.').astype(float)
df_precios['Energia de cierre (MWh)'] = df_precios['Energia de cierre (MWh)'].astype(str).str.replace(',', '.').astype(float)
df_precios['Mecanismo ajuste RD-L 10/2022'] = df_precios['Mecanismo ajuste RD-L 10/2022'].astype(str).str.replace(',', '.').astype(float)


#Let's analyze the next dataset

In [47]:
#Let's see those rows that are duplicated
perdidas_duplicados = df_perdidas.duplicated().sum()
print(f"Número de filas duplicadas en df_perdidas: {perdidas_duplicados}")

#Let's see if we have null values in the dataset and the percentage they represent
null_values_perdidas = df_perdidas.isnull().sum()
null_percentage_perdidas = (null_values_perdidas / len(df_perdidas)) * 100
print("Valores nulos en df_perdidas:")
print(null_values_perdidas[null_values_perdidas > 0])
print("Porcentaje de valores nulos en df_perdidas:")
print(null_percentage_perdidas[null_percentage_perdidas > 0])

#Let's now check the data types of the columns
data_types_perdidas = df_perdidas.dtypes
print("Tipos de datos en df_perdidas:")
print(data_types_perdidas)

Número de filas duplicadas en df_perdidas: 0
Valores nulos en df_perdidas:
Series([], dtype: int64)
Porcentaje de valores nulos en df_perdidas:
Series([], dtype: float64)
Tipos de datos en df_perdidas:
Fecha                     object
Perdidas de transporte    object
Demanda                   object
Region                    object
dtype: object


We have to change the format of the three first columns

In [48]:
#Let's change column 'Fecha' as it should be in datetime format
df_perdidas['Fecha'] = pd.to_datetime(df_perdidas['Fecha'], format='%d/%m/%Y')
#Now columns 'Perdidas de transporte' and 'Demanda' should be in float format
df_perdidas['Perdidas de transporte'] = df_perdidas['Perdidas de transporte'].astype(str).str.replace(',', '.').astype(float)
df_perdidas['Demanda'] = df_perdidas['Demanda'].astype(str).str.replace(',', '.').astype(float)

Time to check the next dataset.

In [49]:
#Let's see those rows that are duplicated
generacion_duplicados = df_generacion.duplicated().sum()
print(f"Número de filas duplicadas en df_generacion: {generacion_duplicados}")

#Let's see if we have null values in the dataset and the percentage they represent
null_values_generacion = df_generacion.isnull().sum()
null_percentage_generacion = (null_values_generacion / len(df_generacion)) * 100
print("Valores nulos en df_generacion:")
print(null_values_generacion[null_values_generacion > 0])
print("Porcentaje de valores nulos en df_generacion:")
print(null_percentage_generacion[null_percentage_generacion > 0])

#Let's now check the data types of the columns
data_types_generacion = df_generacion.dtypes
print("Tipos de datos en df_generacion:")
print(data_types_generacion)

Número de filas duplicadas en df_generacion: 0
Valores nulos en df_generacion:
Hidroeolica    911
dtype: int64
Porcentaje de valores nulos en df_generacion:
Hidroeolica    18.591837
dtype: float64
Tipos de datos en df_generacion:
Fecha                     object
Hidraulica                object
Nuclear                   object
Carbon                    object
Motores diesel            object
Turbina de gas            object
Turbina de vapor          object
Ciclo combinado           object
Eolica                    object
Solar fotovoltaica        object
Solar termica             object
Otras renovables          object
Cogeneracion              object
Residuos no renovables    object
Residuos renovables       object
Fuel + Gas                object
Hidroeolica               object
Generacion total          object
dtype: object


All columns have the wrong format

In [50]:
#All columns except "Fecha", which should be datetime, should be as float
df_generacion['Fecha'] = pd.to_datetime(df_generacion['Fecha'], format='%d/%m/%Y')
df_generacion = df_generacion.apply(lambda x: x.str.replace(',', '.') if x.dtype == "object" else x)
df_generacion['Hidraulica'] = df_generacion['Hidraulica'].astype(str).str.replace(',', '.').astype(float)
df_generacion['Nuclear'] = df_generacion['Nuclear'].astype(str).str.replace(',', '.').astype(float)
df_generacion['Carbon'] = df_generacion['Carbon'].astype(str).str.replace(',', '.').astype(float)
df_generacion['Motores diesel'] = df_generacion['Motores diesel'].astype(str).str.replace(',', '.').astype(float)
df_generacion['Turbina de gas'] = df_generacion['Turbina de gas'].astype(str).str.replace(',', '.').astype(float)
df_generacion['Turbina de vapor'] = df_generacion['Turbina de vapor'].astype(str).str.replace(',', '.').astype(float)
df_generacion['Ciclo combinado'] = df_generacion['Ciclo combinado'].astype(str).str.replace(',', '.').astype(float)
df_generacion['Eolica'] = df_generacion['Eolica'].astype(str).str.replace(',', '.').astype(float)
df_generacion['Solar fotovoltaica'] = df_generacion['Solar fotovoltaica'].astype(str).str.replace(',', '.').astype(float)
df_generacion['Solar termica'] = df_generacion['Solar termica'].astype(str).str.replace(',', '.').astype(float)
df_generacion['Otras renovables'] = df_generacion['Otras renovables'].astype(str).str.replace(',', '.').astype(float)
df_generacion['Cogeneracion'] = df_generacion['Cogeneracion'].astype(str).str.replace(',', '.').astype(float)
df_generacion['Residuos no renovables'] = df_generacion['Residuos no renovables'].astype(str).str.replace(',', '.').astype(float)
df_generacion['Residuos renovables'] = df_generacion['Residuos renovables'].astype(str).str.replace(',', '.').astype(float)
df_generacion['Fuel + Gas'] = df_generacion['Fuel + Gas'].astype(str).str.replace(',', '.').astype(float)
df_generacion['Hidroeolica'] = df_generacion['Hidroeolica'].astype(str).str.replace(',', '.').astype(float)
df_generacion['Generacion total'] = df_generacion['Generacion total'].astype(str).str.replace(',', '.').astype(float)


Now let's check the next dataset.

In [51]:
#Let's see those rows that are duplicated
demanda_duplicados = df_demanda.duplicated().sum()
print(f"Número de filas duplicadas en df_demanda: {demanda_duplicados}")

#Let's see if we have null values in the dataset and the percentage they represent
null_values_demanda = df_demanda.isnull().sum()
null_percentage_demanda = (null_values_demanda / len(df_demanda)) * 100
print("Valores nulos en df_demanda:")
print(null_values_demanda[null_values_demanda > 0])
print("Porcentaje de valores nulos en df_demanda:")
print(null_percentage_demanda[null_percentage_demanda > 0])

#Let's now check the data types of the columns
data_types_demanda = df_demanda.dtypes
print("Tipos de datos en df_demanda:")
print(data_types_demanda)

Número de filas duplicadas en df_demanda: 0
Valores nulos en df_demanda:
Series([], dtype: int64)
Porcentaje de valores nulos en df_demanda:
Series([], dtype: float64)
Tipos de datos en df_demanda:
Fecha      object
Demanda    object
Tipo       object
dtype: object


Columns 'Fecha' and 'Demanda' have the wrong format

In [52]:
#First the column 'Fecha' should be in datetime format
df_demanda['Fecha'] = pd.to_datetime(df_demanda['Fecha'], format='%d/%m/%Y')
#Now columns 'Demanda' should be in float format
df_demanda['Demanda'] = df_demanda['Demanda'].astype(str).str.replace(',', '.').astype(float)

Let's analyze the last dataset

In [53]:
#Let's see those rows that are duplicated
capacidad_duplicados = df_capacidad.duplicated().sum()
print(f"Número de filas duplicadas en df_capacidad: {capacidad_duplicados}")

#Let's see if we have null values in the dataset and the percentage they represent
null_values_capacidad = df_capacidad.isnull().sum()
null_percentage_capacidad = (null_values_capacidad / len(df_capacidad)) * 100
print("Valores nulos en df_capacidad:")
print(null_values_capacidad[null_values_capacidad > 0])
print("Porcentaje de valores nulos en df_capacidad:")
print(null_percentage_capacidad[null_percentage_capacidad > 0])

#Let's now check the data types of the columns
data_types_capacidad = df_capacidad.dtypes
print("Tipos de datos en df_capacidad:")
print(data_types_capacidad)

Número de filas duplicadas en df_capacidad: 0
Valores nulos en df_capacidad:
Series([], dtype: int64)
Porcentaje de valores nulos en df_capacidad:
Series([], dtype: float64)
Tipos de datos en df_capacidad:
Type of Energy         object
Capacity/Generation    object
On/Off grid            object
Year                    int64
MW                     object
dtype: object


The only change we must do is to correct the format on column 'MW'

In [None]:
df_capacidad['MW'] = df_capacidad['MW'].astype(str).str.replace(',', '.').astype(float)