In [1]:
import pandas as pd
import numpy as np

In [2]:
### CARPETA BALANCE:

df_balance = pd.read_csv('balance-electrico.csv')

In [3]:
df_balance.info()
df_balance

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 992860 entries, 0 to 992859
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   fecha    992860 non-null  object 
 1   valor    992860 non-null  float64
 2   tipo     992860 non-null  object 
 3   energia  992860 non-null  object 
 4   region   992860 non-null  object 
dtypes: float64(1), object(4)
memory usage: 37.9+ MB


Unnamed: 0,fecha,valor,tipo,energia,region
0,2019-01-01T00:00:00.000+01:00,53722.120,Hidráulica,Renovable,peninsular
1,2019-01-02T00:00:00.000+01:00,61294.768,Hidráulica,Renovable,peninsular
2,2019-01-03T00:00:00.000+01:00,82981.951,Hidráulica,Renovable,peninsular
3,2019-01-04T00:00:00.000+01:00,94301.940,Hidráulica,Renovable,peninsular
4,2019-01-05T00:00:00.000+01:00,58822.692,Hidráulica,Renovable,peninsular
...,...,...,...,...,...
992855,2024-12-27T00:00:00.000+01:00,675212.456,Demanda en b.c.,Demanda,region de murcia
992856,2024-12-28T00:00:00.000+01:00,641243.762,Demanda en b.c.,Demanda,region de murcia
992857,2024-12-29T00:00:00.000+01:00,618610.074,Demanda en b.c.,Demanda,region de murcia
992858,2024-12-30T00:00:00.000+01:00,690745.398,Demanda en b.c.,Demanda,region de murcia


In [4]:
# Cambiamos el formato de fecha y en valor, trabajamos con MWh ya que se ven mejor

df_balance['fecha'] = pd.to_datetime(df_balance['fecha'].str.split('T').str[0])
df_balance['valor'] = df_balance['valor']/1e3


In [5]:
df_balance.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 992860 entries, 0 to 992859
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype         
---  ------   --------------   -----         
 0   fecha    992860 non-null  datetime64[ns]
 1   valor    992860 non-null  float64       
 2   tipo     992860 non-null  object        
 3   energia  992860 non-null  object        
 4   region   992860 non-null  object        
dtypes: datetime64[ns](1), float64(1), object(3)
memory usage: 37.9+ MB


In [6]:
# Comprobamos los valores unicos que hay en las columnas para hacernos una idea general

df_balance['tipo'].unique()

array(['Hidráulica', 'Eólica', 'Solar fotovoltaica', 'Solar térmica',
       'Hidroeólica', 'Otras renovables', 'Residuos renovables',
       'Generación renovable', 'Nuclear', 'Ciclo combinado', 'Carbón',
       'Motores diésel', 'Turbina de gas', 'Turbina de vapor',
       'Fuel + Gas', 'Cogeneración', 'Residuos no renovables',
       'Generación no renovable', 'Turbinación bombeo', 'Consumo bombeo',
       'Saldo almacenamiento', 'Saldo I. internacionales',
       'Demanda en b.c.', 'Entrega batería', 'Carga batería'],
      dtype=object)

In [7]:
df_balance['energia'].unique()

array(['Renovable', 'No-Renovable', 'Almacenamiento', 'Demanda'],
      dtype=object)

In [8]:
# Comprobamos los valores que hay en cada región

df_balance.groupby('region')['valor'].sum()

region
andalucia                  4.584612e+06
aragon                     4.584612e+06
baleares                   4.584612e+06
canarias                   4.584612e+06
cantabria                  4.584612e+06
castilla la mancha         4.584612e+06
castilla y leon            4.584612e+06
cataluña                   4.584612e+06
ceuta                      4.584612e+06
comunidad de madrid        4.584612e+06
comunidad de navarra       4.584612e+06
comunidad de valenciana    4.584612e+06
extremadura                4.584612e+06
galicia                    4.584612e+06
la rioja                   4.584612e+06
melilla                    4.584612e+06
pais vasco                 4.584612e+06
peninsular                 4.584612e+06
principado de asturias     4.584612e+06
region de murcia           4.584612e+06
Name: valor, dtype: float64

In [9]:
# La columna de las regiones parece que está repitiendo los datos, con lo que eliminamos los duplicados que haya en 
# el resto de columnas sin tener en cuenta esa

df_balance_sin_duplicados = df_balance.drop_duplicates(subset=['fecha', 'valor', 'tipo', 'energia'])

In [10]:
# Vemos que se eliminan gran cantidad de filas porque efectivamente se estaban duplicando en cada region

total_filas_original_balance = len(df_balance)
total_filas_sin_duplicados_balance = len(df_balance_sin_duplicados)
filas_eliminadas_balance = total_filas_original_balance - total_filas_sin_duplicados_balance

print(f'Número de filas eliminadas: {filas_eliminadas_balance}, Número de filas restantes: {total_filas_sin_duplicados_balance}')

Número de filas eliminadas: 943217, Número de filas restantes: 49643


In [11]:
# Guardamos el csv limpio
df_balance_sin_duplicados.to_csv('balance-electrico-limpio.csv', index=False)

In [2]:
### CARPETA DEMANDA:

df1_demanda = pd.read_csv('../data/sinprocesar/demanda/demanda-evolucion.csv')
df1_demanda.info()
df1_demanda

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43840 entries, 0 to 43839
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   fecha      43840 non-null  object 
 1   valor      43840 non-null  float64
 2   indicador  43840 non-null  object 
 3   region     43840 non-null  object 
 4   año        43840 non-null  int64  
dtypes: float64(1), int64(1), object(3)
memory usage: 1.7+ MB


Unnamed: 0,fecha,valor,indicador,region,año
0,2019-01-01T00:00:00.000+01:00,582949.806,Demanda,peninsular,2019
1,2019-01-02T00:00:00.000+01:00,742199.407,Demanda,peninsular,2019
2,2019-01-03T00:00:00.000+01:00,787764.963,Demanda,peninsular,2019
3,2019-01-04T00:00:00.000+01:00,796010.035,Demanda,peninsular,2019
4,2019-01-05T00:00:00.000+01:00,721029.651,Demanda,peninsular,2019
...,...,...,...,...,...
43835,2024-12-27T00:00:00.000+01:00,675212.456,Demanda,region de murcia,2024
43836,2024-12-28T00:00:00.000+01:00,641243.762,Demanda,region de murcia,2024
43837,2024-12-29T00:00:00.000+01:00,618610.074,Demanda,region de murcia,2024
43838,2024-12-30T00:00:00.000+01:00,690745.398,Demanda,region de murcia,2024


In [3]:
df2_demanda = pd.read_csv('../data/sinprocesar/demanda/ire-general.csv')
df2_demanda.info()
df2_demanda

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5760 entries, 0 to 5759
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   fecha       5760 non-null   object 
 1   valor       5760 non-null   float64
 2   porcentaje  5760 non-null   float64
 3   indicador   5760 non-null   object 
 4   region      5760 non-null   object 
dtypes: float64(2), object(3)
memory usage: 225.1+ KB


Unnamed: 0,fecha,valor,porcentaje,indicador,region
0,2019-01-01T00:00:00.000+01:00,123.969000,0.541252,Índice general,peninsular
1,2019-02-01T00:00:00.000+01:00,114.805000,0.516888,Índice general,peninsular
2,2019-03-01T00:00:00.000+01:00,126.515000,0.541843,Índice general,peninsular
3,2019-04-01T00:00:00.000+02:00,119.432000,0.532477,Índice general,peninsular
4,2019-05-01T00:00:00.000+02:00,130.280000,0.552359,Índice general,peninsular
...,...,...,...,...,...
5755,2024-08-01T00:00:00.000+02:00,9.271854,1.000000,Variación mensual corregida,region de murcia
5756,2024-09-01T00:00:00.000+02:00,6.671507,1.000000,Variación mensual corregida,region de murcia
5757,2024-10-01T00:00:00.000+02:00,6.646472,1.000000,Variación mensual corregida,region de murcia
5758,2024-11-01T00:00:00.000+01:00,-3.968766,1.000000,Variación mensual corregida,region de murcia


In [4]:
df3_demanda = pd.read_csv('../data/sinprocesar/demanda/ire-industria.csv')
df3_demanda.info()
df3_demanda

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5760 entries, 0 to 5759
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   fecha       5760 non-null   object 
 1   valor       5760 non-null   float64
 2   porcentaje  5760 non-null   float64
 3   indicador   5760 non-null   object 
 4   region      5760 non-null   object 
 5   año         5760 non-null   int64  
dtypes: float64(2), int64(1), object(3)
memory usage: 270.1+ KB


Unnamed: 0,fecha,valor,porcentaje,indicador,region,año
0,2019-01-01T00:00:00.000+01:00,123.055000,0.546496,Índice industria,peninsular,2019
1,2019-02-01T00:00:00.000+01:00,114.847000,0.524797,Índice industria,peninsular,2019
2,2019-03-01T00:00:00.000+01:00,126.334000,0.550785,Índice industria,peninsular,2019
3,2019-04-01T00:00:00.000+02:00,118.926000,0.539966,Índice industria,peninsular,2019
4,2019-05-01T00:00:00.000+02:00,128.074000,0.556735,Índice industria,peninsular,2019
...,...,...,...,...,...,...
5755,2024-08-01T00:00:00.000+02:00,10.834805,1.000000,Variación mensual corregida,region de murcia,2024
5756,2024-09-01T00:00:00.000+02:00,8.310854,1.000000,Variación mensual corregida,region de murcia,2024
5757,2024-10-01T00:00:00.000+02:00,8.405139,1.000000,Variación mensual corregida,region de murcia,2024
5758,2024-11-01T00:00:00.000+01:00,-3.514518,1.000000,Variación mensual corregida,region de murcia,2024


In [5]:
df4_demanda = pd.read_csv('../data/sinprocesar/demanda/ire-servicios.csv')
df4_demanda.info()
df4_demanda

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5760 entries, 0 to 5759
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   fecha       5760 non-null   object 
 1   valor       5760 non-null   float64
 2   porcentaje  5760 non-null   float64
 3   indicador   5760 non-null   object 
 4   region      5760 non-null   object 
 5   año         5760 non-null   int64  
dtypes: float64(2), int64(1), object(3)
memory usage: 270.1+ KB


Unnamed: 0,fecha,valor,porcentaje,indicador,region,año
0,2019-01-01T00:00:00.000+01:00,123.361000,0.530453,Índice servicios,peninsular,2019
1,2019-02-01T00:00:00.000+01:00,110.564000,0.497673,Índice servicios,peninsular,2019
2,2019-03-01T00:00:00.000+01:00,118.720000,0.517344,Índice servicios,peninsular,2019
3,2019-04-01T00:00:00.000+02:00,114.018000,0.511831,Índice servicios,peninsular,2019
4,2019-05-01T00:00:00.000+02:00,123.886000,0.534581,Índice servicios,peninsular,2019
...,...,...,...,...,...,...
5755,2024-08-01T00:00:00.000+02:00,5.983826,1.000000,Variación mensual corregida,region de murcia,2024
5756,2024-09-01T00:00:00.000+02:00,2.626348,1.000000,Variación mensual corregida,region de murcia,2024
5757,2024-10-01T00:00:00.000+02:00,2.709339,1.000000,Variación mensual corregida,region de murcia,2024
5758,2024-11-01T00:00:00.000+01:00,-5.640029,1.000000,Variación mensual corregida,region de murcia,2024


In [6]:
# Cambiamos el formato de fecha y en valor, trabajamos con MWh ya que se ven mejor

df1_demanda['fecha'] = pd.to_datetime(df1_demanda['fecha'].str.split('T').str[0])
df2_demanda['fecha'] = pd.to_datetime(df2_demanda['fecha'].str.split('T').str[0])
df3_demanda['fecha'] = pd.to_datetime(df3_demanda['fecha'].str.split('T').str[0])
df4_demanda['fecha'] = pd.to_datetime(df4_demanda['fecha'].str.split('T').str[0])

df1_demanda['valor'] = df1_demanda['valor']/1e3

In [7]:
# Creo que puede ser interesante unir los df2, df3 y df4 ya que se comparan los ire del sector industria, servicios y general
# como df2 le falta el año, creo la columna con la fecha
df2_demanda['año'] = df2_demanda['fecha'].dt.year

# Reordenamos columnas para colocar 'año' después de 'region'
cols = df2_demanda.columns.tolist()
region_index = cols.index('region')
new_order = cols[:region_index+1] + ['año'] + cols[region_index+1:-1] 


In [8]:
df2_demanda

Unnamed: 0,fecha,valor,porcentaje,indicador,region,año
0,2019-01-01,123.969000,0.541252,Índice general,peninsular,2019
1,2019-02-01,114.805000,0.516888,Índice general,peninsular,2019
2,2019-03-01,126.515000,0.541843,Índice general,peninsular,2019
3,2019-04-01,119.432000,0.532477,Índice general,peninsular,2019
4,2019-05-01,130.280000,0.552359,Índice general,peninsular,2019
...,...,...,...,...,...,...
5755,2024-08-01,9.271854,1.000000,Variación mensual corregida,region de murcia,2024
5756,2024-09-01,6.671507,1.000000,Variación mensual corregida,region de murcia,2024
5757,2024-10-01,6.646472,1.000000,Variación mensual corregida,region de murcia,2024
5758,2024-11-01,-3.968766,1.000000,Variación mensual corregida,region de murcia,2024


In [9]:
# Comprobamos los valores unicos que hay en las columnas para hacernos una idea general

df1_demanda['indicador'].unique()

array(['Demanda'], dtype=object)

In [10]:
df2_demanda['indicador'].unique()

array(['Índice general', 'Índice general corregido', 'Variación mensual',
       'Variación mensual corregida'], dtype=object)

In [11]:
df3_demanda['indicador'].unique()

array(['Índice industria', 'Índice industria corregido',
       'Variación mensual', 'Variación mensual corregida'], dtype=object)

In [12]:
df4_demanda['indicador'].unique()

array(['Índice servicios', 'Índice servicios corregido',
       'Variación mensual', 'Variación mensual corregida'], dtype=object)

In [13]:
# Comprobamos los valores de las regiones

df1_demanda.groupby('region')['valor'].sum()

region
andalucia                  1.517207e+06
aragon                     1.517207e+06
baleares                   1.517207e+06
canarias                   1.517207e+06
cantabria                  1.517207e+06
castilla la mancha         1.517207e+06
castilla y leon            1.517207e+06
cataluña                   1.517207e+06
ceuta                      1.517207e+06
comunidad de madrid        1.517207e+06
comunidad de navarra       1.517207e+06
comunidad de valenciana    1.517207e+06
extremadura                1.517207e+06
galicia                    1.517207e+06
la rioja                   1.517207e+06
melilla                    1.517207e+06
pais vasco                 1.517207e+06
peninsular                 1.517207e+06
principado de asturias     1.517207e+06
region de murcia           1.517207e+06
Name: valor, dtype: float64

In [14]:
df2_demanda.groupby('region')['valor'].sum()

region
andalucia                  14919.452362
aragon                     14919.452362
baleares                   14919.452362
canarias                   14919.452362
cantabria                  14919.452362
castilla la mancha         14919.452362
castilla y leon            14919.452362
cataluña                   14919.452362
ceuta                      14919.452362
comunidad de madrid        14919.452362
comunidad de navarra       14919.452362
comunidad de valenciana    14919.452362
extremadura                14919.452362
galicia                    14919.452362
la rioja                   14919.452362
melilla                    14919.452362
pais vasco                 14919.452362
peninsular                 14919.452362
principado de asturias     14919.452362
region de murcia           14919.452362
Name: valor, dtype: float64

In [15]:
df3_demanda.groupby('region')['valor'].sum()

region
andalucia                  14032.873579
aragon                     14032.873579
baleares                   14032.873579
canarias                   14032.873579
cantabria                  14032.873579
castilla la mancha         14032.873579
castilla y leon            14032.873579
cataluña                   14032.873579
ceuta                      14032.873579
comunidad de madrid        14032.873579
comunidad de navarra       14032.873579
comunidad de valenciana    14032.873579
extremadura                14032.873579
galicia                    14032.873579
la rioja                   14032.873579
melilla                    14032.873579
pais vasco                 14032.873579
peninsular                 14032.873579
principado de asturias     14032.873579
region de murcia           14032.873579
Name: valor, dtype: float64

In [16]:
df4_demanda.groupby('region')['valor'].sum()

region
andalucia                  15606.616442
aragon                     15606.616442
baleares                   15606.616442
canarias                   15606.616442
cantabria                  15606.616442
castilla la mancha         15606.616442
castilla y leon            15606.616442
cataluña                   15606.616442
ceuta                      15606.616442
comunidad de madrid        15606.616442
comunidad de navarra       15606.616442
comunidad de valenciana    15606.616442
extremadura                15606.616442
galicia                    15606.616442
la rioja                   15606.616442
melilla                    15606.616442
pais vasco                 15606.616442
peninsular                 15606.616442
principado de asturias     15606.616442
region de murcia           15606.616442
Name: valor, dtype: float64

In [17]:
# Como se repiten los valores, borramos los duplicados:

df1_demanda_sin_duplicados = df1_demanda.drop_duplicates(subset=['fecha', 'valor', 'indicador', 'año'])
df2_demanda_sin_duplicados = df2_demanda.drop_duplicates(subset=['fecha', 'valor', 'porcentaje', 'indicador'])
df3_demanda_sin_duplicados = df3_demanda.drop_duplicates(subset=['fecha', 'valor', 'porcentaje', 'indicador'])
df4_demanda_sin_duplicados = df4_demanda.drop_duplicates(subset=['fecha', 'valor', 'porcentaje', 'indicador'])

In [18]:
total_filas_original1_demanda = len(df1_demanda)
total_filas_sin_duplicados1_demanda = len(df1_demanda_sin_duplicados)
filas_eliminadas1_demanda = total_filas_original1_demanda - total_filas_sin_duplicados1_demanda

print(f'Número de filas eliminadas: {filas_eliminadas1_demanda}, Número de filas restantes: {total_filas_sin_duplicados1_demanda}')

Número de filas eliminadas: 41648, Número de filas restantes: 2192


In [19]:
total_filas_original2_demanda = len(df2_demanda)
total_filas_sin_duplicados2_demanda = len(df2_demanda_sin_duplicados)
filas_eliminadas2_demanda= total_filas_original2_demanda - total_filas_sin_duplicados2_demanda

print(f'Número de filas eliminadas: {filas_eliminadas2_demanda}, Número de filas restantes: {total_filas_sin_duplicados2_demanda}')

Número de filas eliminadas: 5472, Número de filas restantes: 288


In [20]:
total_filas_original3_demanda = len(df3_demanda)
total_filas_sin_duplicados3_demanda = len(df3_demanda_sin_duplicados)
filas_eliminadas3_demanda = total_filas_original3_demanda - total_filas_sin_duplicados3_demanda

print(f'Número de filas eliminadas: {filas_eliminadas3_demanda}, Número de filas restantes: {total_filas_sin_duplicados3_demanda}')

Número de filas eliminadas: 5472, Número de filas restantes: 288


In [21]:
total_filas_original4_demanda = len(df4_demanda)
total_filas_sin_duplicados4_demanda = len(df4_demanda_sin_duplicados)
filas_eliminadas4_demanda = total_filas_original4_demanda - total_filas_sin_duplicados4_demanda

print(f'Número de filas eliminadas: {filas_eliminadas4_demanda}, Número de filas restantes: {total_filas_sin_duplicados4_demanda}')

Número de filas eliminadas: 5472, Número de filas restantes: 288


In [22]:
# Los uno los 3:
df_ire = pd.concat([df2_demanda_sin_duplicados, df3_demanda_sin_duplicados, df4_demanda_sin_duplicados], ignore_index=True)

In [23]:
df_ire

Unnamed: 0,fecha,valor,porcentaje,indicador,region,año
0,2019-01-01,123.969000,0.541252,Índice general,peninsular,2019
1,2019-02-01,114.805000,0.516888,Índice general,peninsular,2019
2,2019-03-01,126.515000,0.541843,Índice general,peninsular,2019
3,2019-04-01,119.432000,0.532477,Índice general,peninsular,2019
4,2019-05-01,130.280000,0.552359,Índice general,peninsular,2019
...,...,...,...,...,...,...
859,2024-08-01,5.983826,1.000000,Variación mensual corregida,peninsular,2024
860,2024-09-01,2.626348,1.000000,Variación mensual corregida,peninsular,2024
861,2024-10-01,2.709339,1.000000,Variación mensual corregida,peninsular,2024
862,2024-11-01,-5.640029,1.000000,Variación mensual corregida,peninsular,2024


In [24]:
# Quito las variaciones mensuales y las variaciones mensuales corregidas porque no se que aportan
df_ire = df_ire[~df_ire['indicador'].isin(['Variación mensual corregida', 'Variación mensual'])]


In [25]:
# Guardamos los csv limpios:

df1_demanda_sin_duplicados.to_csv('../data/processed/demanda/demanda-limpio.csv', index=False)
df_ire.to_csv('../data/processed/demanda/ire-limpio.csv', index=False)

In [36]:
### CARPETA GENEREACION:

df_generacion = pd.read_csv('estructura-generacion.csv')
df_generacion.info()
df_generacion

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 701980 entries, 0 to 701979
Data columns (total 7 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   fecha       701980 non-null  object 
 1   valor       701980 non-null  float64
 2   porcentaje  701980 non-null  float64
 3   indicador   701980 non-null  object 
 4   region      701980 non-null  object 
 5   tipo        701980 non-null  object 
 6   año         701980 non-null  int64  
dtypes: float64(2), int64(1), object(4)
memory usage: 37.5+ MB


Unnamed: 0,fecha,valor,porcentaje,indicador,region,tipo,año
0,2019-01-01T00:00:00.000+01:00,53722.120,0.097735,Hidráulica,peninsular,Renovable,2019
1,2019-01-02T00:00:00.000+01:00,61294.768,0.086331,Hidráulica,peninsular,Renovable,2019
2,2019-01-03T00:00:00.000+01:00,82981.951,0.115989,Hidráulica,peninsular,Renovable,2019
3,2019-01-04T00:00:00.000+01:00,94301.940,0.125121,Hidráulica,peninsular,Renovable,2019
4,2019-01-05T00:00:00.000+01:00,58822.692,0.086633,Hidráulica,peninsular,Renovable,2019
...,...,...,...,...,...,...,...
701975,2024-12-27T00:00:00.000+01:00,698575.476,1.000000,Generación total,region de murcia,Generación total,2024
701976,2024-12-28T00:00:00.000+01:00,654119.295,1.000000,Generación total,region de murcia,Generación total,2024
701977,2024-12-29T00:00:00.000+01:00,639267.781,1.000000,Generación total,region de murcia,Generación total,2024
701978,2024-12-30T00:00:00.000+01:00,691342.180,1.000000,Generación total,region de murcia,Generación total,2024


In [37]:
# Cambiamos el formato de fecha y en valor, trabajamos con MWh ya que se ven mejor

df_generacion['fecha'] = pd.to_datetime(df_generacion['fecha'].str.split('T').str[0])

df_generacion['valor'] = df_generacion['valor']/1e3

In [38]:
# Comprobamos los valores unicos que hay en las columnas para hacernos una idea general

df_generacion['indicador'].unique()

array(['Hidráulica', 'Nuclear', 'Carbón', 'Fuel + Gas', 'Motores diésel',
       'Turbina de gas', 'Turbina de vapor', 'Ciclo combinado',
       'Hidroeólica', 'Eólica', 'Solar fotovoltaica', 'Solar térmica',
       'Otras renovables', 'Cogeneración', 'Residuos no renovables',
       'Residuos renovables', 'Generación total'], dtype=object)

In [39]:
df_generacion['tipo'].unique()

array(['Renovable', 'No-Renovable', 'Generación total'], dtype=object)

In [40]:
# Como hay un grupo que se llama "Generación total" comprobamos que no sea la suma de los otros dos:

df_generacion.groupby('tipo')['valor'].sum()

tipo
Generación total    3.127287e+07
No-Renovable        1.665853e+07
Renovable           1.461434e+07
Name: valor, dtype: float64

In [41]:
# Quitamos las filas de Generación total porque es la suma de renovable y no renovable y no aporta nada

df_generacion = df_generacion[df_generacion['tipo'] != 'Generación total']

In [42]:
# Comprobamos que se ha eliminado correctamente

df_generacion.groupby('tipo')['valor'].sum()

tipo
No-Renovable    1.665853e+07
Renovable       1.461434e+07
Name: valor, dtype: float64

In [43]:
# Comprobamos los valores que hay en cada región

df_generacion.groupby('region')['valor'].sum()

region
andalucia                  1.563644e+06
aragon                     1.563644e+06
baleares                   1.563644e+06
canarias                   1.563644e+06
cantabria                  1.563644e+06
castilla la mancha         1.563644e+06
castilla y leon            1.563644e+06
cataluña                   1.563644e+06
ceuta                      1.563644e+06
comunidad de madrid        1.563644e+06
comunidad de navarra       1.563644e+06
comunidad de valenciana    1.563644e+06
extremadura                1.563644e+06
galicia                    1.563644e+06
la rioja                   1.563644e+06
melilla                    1.563644e+06
pais vasco                 1.563644e+06
peninsular                 1.563644e+06
principado de asturias     1.563644e+06
region de murcia           1.563644e+06
Name: valor, dtype: float64

In [44]:
# La columna de las regiones parece que está repitiendo los datos, con lo que eliminamos los duplicados que haya en 
# el resto de columnas sin tener en cuenta esa

df_generacion_sin_duplicados = df_generacion.drop_duplicates(subset=['fecha', 'valor', 'porcentaje', 'indicador', 'tipo', 'año'])

In [45]:
# Vemos que se eliminan gran cantidad de filas porque efectivamente se estaban duplicando en cada region

total_filas_original_generacion = len(df_generacion)
total_filas_sin_duplicados_generacion = len(df_generacion_sin_duplicados)
filas_eliminadas_generacion = total_filas_original_generacion - total_filas_sin_duplicados_generacion

print(f'Número de filas eliminadas: {filas_eliminadas_generacion}, Número de filas restantes: {total_filas_sin_duplicados_generacion}')

Número de filas eliminadas: 625233, Número de filas restantes: 32907


In [46]:
# Guardamos el csv limpio:

df_generacion_sin_duplicados.to_csv('estructura-generacion-limpio.csv', index=False)

In [47]:
### Hacemos lo mismo con el otro csv:
df_evolucion = pd.read_csv('evolucion-renovable-NoRenovable.csv')
df_evolucion.info()
df_evolucion

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 87680 entries, 0 to 87679
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   fecha       87680 non-null  object 
 1   valor       87680 non-null  float64
 2   porcentaje  87680 non-null  float64
 3   indicador   87680 non-null  object 
 4   region      87680 non-null  object 
 5   tipo        87680 non-null  object 
 6   año         87680 non-null  int64  
dtypes: float64(2), int64(1), object(4)
memory usage: 4.7+ MB


Unnamed: 0,fecha,valor,porcentaje,indicador,region,tipo,año
0,2019-01-01T00:00:00.000+01:00,169351.7695,0.308096,Renovable,peninsular,Renovable,2019
1,2019-01-02T00:00:00.000+01:00,294297.6145,0.414504,Renovable,peninsular,Renovable,2019
2,2019-01-03T00:00:00.000+01:00,229057.3825,0.320167,Renovable,peninsular,Renovable,2019
3,2019-01-04T00:00:00.000+01:00,210376.4825,0.279131,Renovable,peninsular,Renovable,2019
4,2019-01-05T00:00:00.000+01:00,214172.6470,0.315429,Renovable,peninsular,Renovable,2019
...,...,...,...,...,...,...,...
87675,2024-12-27T00:00:00.000+01:00,410612.6265,0.587786,No renovable,region de murcia,No renovable,2024
87676,2024-12-28T00:00:00.000+01:00,400567.7750,0.612377,No renovable,region de murcia,No renovable,2024
87677,2024-12-29T00:00:00.000+01:00,422326.2345,0.660641,No renovable,region de murcia,No renovable,2024
87678,2024-12-30T00:00:00.000+01:00,459213.5205,0.664235,No renovable,region de murcia,No renovable,2024


In [48]:

df_evolucion['fecha'] = pd.to_datetime(df_evolucion['fecha'].str.split('T').str[0])

df_evolucion['valor'] = df_evolucion['valor']/1e3

In [49]:
#Quito las filas de Generación total porque es la suma de renovable y no renovable
df_evolucion = df_evolucion[df_evolucion['tipo'] != 'Generación total']

In [50]:
df_evolucion_sin_duplicados = df_evolucion.drop_duplicates(subset=['fecha', 'valor', 'porcentaje', 'indicador', 'tipo', 'año'])

In [51]:
total_filas_original_evolucion = len(df_evolucion)
total_filas_sin_duplicados_evolucion = len(df_evolucion_sin_duplicados)
filas_eliminadas_evolucion = total_filas_original_evolucion - total_filas_sin_duplicados_evolucion

print(f'Número de filas eliminadas: {filas_eliminadas_evolucion}, Número de filas restantes: {total_filas_sin_duplicados_evolucion}')

Número de filas eliminadas: 83296, Número de filas restantes: 4384


In [52]:
# Comprobamos los valores totales de los dos archivos a ver si son diferentes

a = df_generacion_sin_duplicados.groupby(['año', 'tipo'])['valor'].sum().reset_index()
a

Unnamed: 0,año,tipo,valor
0,2019,No-Renovable,161270.032635
1,2019,Renovable,97913.29882
2,2020,No-Renovable,138042.11125
3,2020,Renovable,110605.198343
4,2021,No-Renovable,135902.714876
5,2021,Renovable,121459.14631
6,2022,No-Renovable,155896.555908
7,2022,Renovable,116695.210767
8,2023,No-Renovable,128566.484379
9,2023,Renovable,135045.786653


In [53]:
b = df_evolucion_sin_duplicados.groupby(['año', 'tipo'])['valor'].sum().reset_index()
b

Unnamed: 0,año,tipo,valor
0,2019,No renovable,161270.032635
1,2019,Renovable,97913.29882
2,2020,No renovable,138042.11125
3,2020,Renovable,110605.198343
4,2021,No renovable,135902.714876
5,2021,Renovable,121459.14631
6,2022,No renovable,155896.555908
7,2022,Renovable,116695.210767
8,2023,No renovable,128566.484379
9,2023,Renovable,135045.786653


In [54]:
# Ambos archivos son iguales, solo que el primero tiene mas datos, con lo que descartamos el segundo.

In [55]:
# CARPETA FRONTERAS

df_fronteras= pd.read_csv('fronteras.csv')
df_fronteras.info()
df_fronteras

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8768 entries, 0 to 8767
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   value       8768 non-null   float64
 1   percentage  8768 non-null   float64
 2   datetime    8768 non-null   object 
 3   pais        8768 non-null   object 
 4   año         8768 non-null   int64  
dtypes: float64(2), int64(1), object(2)
memory usage: 342.6+ KB


Unnamed: 0,value,percentage,datetime,pais,año
0,-208.239,0.003465,2019-01-01T00:00:00.000+01:00,francia-frontera,2019
1,-2325.553,0.036857,2019-01-02T00:00:00.000+01:00,francia-frontera,2019
2,-11123.719,0.243767,2019-01-03T00:00:00.000+01:00,francia-frontera,2019
3,-17758.093,0.397978,2019-01-04T00:00:00.000+01:00,francia-frontera,2019
4,-4267.317,0.102386,2019-01-05T00:00:00.000+01:00,francia-frontera,2019
...,...,...,...,...,...
8763,-1261.830,1.000000,2024-12-27T00:00:00.000+01:00,andorra-frontera,2024
8764,-1482.480,1.000000,2024-12-28T00:00:00.000+01:00,andorra-frontera,2024
8765,-1456.660,1.000000,2024-12-29T00:00:00.000+01:00,andorra-frontera,2024
8766,-1373.690,1.000000,2024-12-30T00:00:00.000+01:00,andorra-frontera,2024


In [56]:
# Cambiamos el formato de fecha y en valor, trabajamos con kWh ya que se ven mejor

df_fronteras['datetime'] = pd.to_datetime(df_fronteras['datetime'].str.split('T').str[0])
df_fronteras['value'] = df_fronteras['value']/1e3

# Cambiamos los nombres de las columnas que se entiende mejor

df_fronteras.rename(columns={
    'datetime': 'fecha',
    'value': 'valor',
    'percentage': 'porcentaje'}, inplace=True)


In [57]:
df_fronteras

Unnamed: 0,valor,porcentaje,fecha,pais,año
0,-0.208239,0.003465,2019-01-01,francia-frontera,2019
1,-2.325553,0.036857,2019-01-02,francia-frontera,2019
2,-11.123719,0.243767,2019-01-03,francia-frontera,2019
3,-17.758093,0.397978,2019-01-04,francia-frontera,2019
4,-4.267317,0.102386,2019-01-05,francia-frontera,2019
...,...,...,...,...,...
8763,-1.261830,1.000000,2024-12-27,andorra-frontera,2024
8764,-1.482480,1.000000,2024-12-28,andorra-frontera,2024
8765,-1.456660,1.000000,2024-12-29,andorra-frontera,2024
8766,-1.373690,1.000000,2024-12-30,andorra-frontera,2024


In [58]:
df_fronteras.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8768 entries, 0 to 8767
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   valor       8768 non-null   float64       
 1   porcentaje  8768 non-null   float64       
 2   fecha       8768 non-null   datetime64[ns]
 3   pais        8768 non-null   object        
 4   año         8768 non-null   int64         
dtypes: datetime64[ns](1), float64(2), int64(1), object(1)
memory usage: 342.6+ KB


In [59]:
# Comprobamos los valores unicos que hay en las columnas para hacernos una idea general

df_fronteras['pais'].unique()

array(['francia-frontera', 'portugal-frontera', 'marruecos-frontera',
       'andorra-frontera'], dtype=object)

In [60]:
# Comprobamos los valores que hay en cada región

df_fronteras.groupby('pais')['valor'].sum()

pais
andorra-frontera      -1391.572890
francia-frontera     -45125.041375
marruecos-frontera    -8714.611819
portugal-frontera    -65522.164158
Name: valor, dtype: float64

In [61]:
# Guardamos el csv limpio:

df_fronteras.to_csv('fronteras-limpio.csv', index=False)

In [62]:
# Hacemos lo mismo con el otro csv:

df_baleares= pd.read_csv('enlace-baleares.csv')
df_baleares.info()
df_baleares

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2189 entries, 0 to 2188
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   value       2189 non-null   float64
 1   percentage  2189 non-null   float64
 2   datetime    2189 non-null   object 
 3   pais        2189 non-null   object 
 4   año         2189 non-null   int64  
dtypes: float64(2), int64(1), object(2)
memory usage: 85.6+ KB


Unnamed: 0,value,percentage,datetime,pais,año
0,-3181.766,0.5,2019-01-01T00:00:00.000+01:00,andorra-frontera,2019
1,-3959.886,0.5,2019-01-02T00:00:00.000+01:00,andorra-frontera,2019
2,-4407.091,0.5,2019-01-03T00:00:00.000+01:00,andorra-frontera,2019
3,-4373.999,0.5,2019-01-04T00:00:00.000+01:00,andorra-frontera,2019
4,-3870.764,0.5,2019-01-05T00:00:00.000+01:00,andorra-frontera,2019
...,...,...,...,...,...
2184,-2115.590,0.5,2024-12-27T00:00:00.000+01:00,andorra-frontera,2024
2185,-2167.777,0.5,2024-12-28T00:00:00.000+01:00,andorra-frontera,2024
2186,-2025.647,0.5,2024-12-29T00:00:00.000+01:00,andorra-frontera,2024
2187,-2504.866,0.5,2024-12-30T00:00:00.000+01:00,andorra-frontera,2024


In [63]:
# Cambiamos el formato de fecha y en valor, trabajamos con kWh ya que se ven mejor

df_baleares['datetime'] = pd.to_datetime(df_baleares['datetime'].str.split('T').str[0])
df_baleares['value'] = df_baleares['value']/1e6

# Cambiamos los nombres de las columnas que se entiende mejor

df_baleares.rename(columns={
    'datetime': 'fecha',
    'value': 'valor',
    'percentage': 'porcentaje'}, inplace=True)


In [64]:
df_baleares

Unnamed: 0,valor,porcentaje,fecha,pais,año
0,-0.003182,0.5,2019-01-01,andorra-frontera,2019
1,-0.003960,0.5,2019-01-02,andorra-frontera,2019
2,-0.004407,0.5,2019-01-03,andorra-frontera,2019
3,-0.004374,0.5,2019-01-04,andorra-frontera,2019
4,-0.003871,0.5,2019-01-05,andorra-frontera,2019
...,...,...,...,...,...
2184,-0.002116,0.5,2024-12-27,andorra-frontera,2024
2185,-0.002168,0.5,2024-12-28,andorra-frontera,2024
2186,-0.002026,0.5,2024-12-29,andorra-frontera,2024
2187,-0.002505,0.5,2024-12-30,andorra-frontera,2024


In [65]:
# Se parece bastante al otro, vamos a comprobar que no sean iguales

df_baleares.groupby('pais')['valor'].sum()

pais
andorra-frontera   -7.620209
Name: valor, dtype: float64

In [66]:
## nos quedamos solo con el otro archivo porque parece que este no se ha descargado bien
