# __Consumo de energía en edificios de la Comunidad de Madrid e instalaciones fotovoltaicas__

##### _Grupo Erasmus_

In [1]:
import pandas as pd
energia = pd.read_csv('energia_solar_madrid_definitivo.csv', encoding='utf-8', sep=',')

In [2]:
energia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23654 entries, 0 to 23653
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   tipo del edificio    23654 non-null  object 
 1   edificio             23654 non-null  object 
 2   dirección            23654 non-null  object 
 3   distrito             23654 non-null  object 
 4   clase                23654 non-null  object 
 5   unidades             23654 non-null  object 
 6   consumo              23034 non-null  float64
 7   puesta en servicio   23654 non-null  object 
 8   potencia kwp         620 non-null    float64
 9   empresa instaladora  23654 non-null  object 
dtypes: float64(2), object(8)
memory usage: 1.8+ MB


In [3]:
energia

Unnamed: 0,tipo del edificio,edificio,dirección,distrito,clase,unidades,consumo,puesta en servicio,potencia kwp,empresa instaladora
0,Centros culturales y bibliotecas,Biblioteca Ana María Matute,"CALLE ISAAC ALBENIZ, 1 28019 MADRID",CARABANCHEL,Energía activa,kWh,13099.0,2020-03-01,,empresa desconocida
1,Centros culturales y bibliotecas,Biblioteca Ana María Matute,"CALLE ISAAC ALBENIZ, 1 28019 MADRID",CARABANCHEL,Energía Reactiva,kvarh,104.0,2020-03-01,,empresa desconocida
2,Centros culturales y bibliotecas,Biblioteca Ángel González,"CALLE GRANJA DE TORREHERMOSA, 1 28024 MADRID",LATINA,Energía activa,kWh,9688.0,2020-03-01,,empresa desconocida
3,Centros culturales y bibliotecas,Biblioteca Ángel González,"CALLE GRANJA DE TORREHERMOSA, 1 28024 MADRID",LATINA,Energía Reactiva,kvarh,4262.0,2020-03-01,,empresa desconocida
4,Centros culturales y bibliotecas,Biblioteca Ángel González,"CALLE GRANJA DE TORREHERMOSA, 1 28024 MADRID",LATINA,Gas,m3,0.0,2020-03-01,,empresa desconocida
...,...,...,...,...,...,...,...,...,...,...
23649,medioambiental,CENTRO MUNICIPAL DE RECOGIDAS TRECE ROSAS,"AVENIDA DE LAS TRECE ROSAS, 5, 28017 MADRID",CIUDAD LINEAL,Energía renovable,kWh,,2024-07-01,10.0,Empresa desconocida
23650,deportivo,CDM EL QUIJOTE,"CALLE NUMANCIA,2",MONCLOA - ARAVACA,Energía renovable,kWh,,2024-09-12,20.0,Empresa desconocida
23651,deportivo,CDM MOSCARDO,CALLE PILAR DE ZARAGOZA 93,SALAMANCA,Energía renovable,kWh,,2024-09-11,10.0,Empresa desconocida
23652,seguridad,CID VILLA DE VALLECAS / OAC,CALLE REAL DE ARGANDA 64,VILLA DE VALLECAS,Energía renovable,kWh,,2024-09-11,10.0,Empresa desconocida


Creamos columnas nuevas de año y mes para posteriormente introducir el precio de la luz por meses y años.

In [6]:
# Asegurarnos de que la columna 'puesta_en_servicio' está en formato datetime
energia['puesta en servicio'] = pd.to_datetime(energia['puesta en servicio'], errors='coerce')

# Crear columnas separadas para el año y el mes
energia['agno'] = energia['puesta en servicio'].dt.year
energia['mes'] = energia['puesta en servicio'].dt.month



In [10]:
energia.columns

Index(['tipo del edificio', 'edificio', 'dirección', 'distrito', 'clase',
       'unidades', 'consumo', 'puesta en servicio', 'potencia kwp',
       'empresa instaladora', 'agno', 'mes'],
      dtype='object')

A continuación, utilizamos una función para normalizar  los datos de la columna distrito ya que cada entrada presenta un formato distinto. 

In [13]:
import unicodedata

def normalizar_distrito(distrito):
    # Eliminar espacios extra al principio y al final
    distrito = distrito.strip()

    # Convertir todo a minúsculas
    distrito = distrito.lower()
    
    # Reemplazar guiones por espacios (si es necesario)
    distrito = distrito.replace('-', ' ')
    
    # Eliminar caracteres especiales (como \xad o \x) y normalizar caracteres
    distrito = ''.join(c for c in distrito if c.isalnum() or c.isspace())
    
    # Eliminar caracteres no alfanuméricos adicionales si es necesario (por ejemplo, tildes)
    distrito = unicodedata.normalize('NFD', distrito)
    distrito = ''.join([c for c in distrito if unicodedata.category(c) != 'Mn'])  # Quitar acentos
    
    return distrito

# Aplicar la función de normalización a la columna 'distrito'
energia['distrito'] = energia['distrito'].apply(normalizar_distrito)

# Eliminar los espacios extra entre las palabras (reemplazar múltiples espacios por uno solo)
energia['distrito'] = energia['distrito'].str.replace(r'\s+', ' ', regex=True)


# Ver los distritos únicos después de normalizarlos
distritos_unicos = energia['distrito'].unique()
distritos_unicos

array(['carabanchel', 'latina', 'retiro', 'villa de vallecas',
       'san blas canillejas', 'ciudad lineal', 'centro', 'moratalaz',
       'arganzuela', 'fuencarral el pardo', 'vicalvaro', 'barajas',
       'puente de vallecas', 'hortaleza', 'usera', 'villaverde', 'tetuan',
       'chamberi', 'salamanca', 'chamartin', 'moncloa aravaca', 'nd',
       'chambera', 'chamartan'], dtype=object)

In [14]:
energia['distrito'] = energia['distrito'].replace({'chamartan': 'chamartin', 'chambera': 'chamberi'})

In [17]:
energia.columns

Index(['tipo del edificio', 'edificio', 'dirección', 'distrito', 'clase',
       'unidades', 'consumo', 'puesta en servicio', 'potencia kwp',
       'empresa instaladora', 'agno', 'mes'],
      dtype='object')

Extraer todas las entradas únicas de la columna especificada.

In [20]:
tipos_de_edificio = energia['tipo del edificio'].dropna().unique()
tipos_de_edificio


array(['Centros culturales y bibliotecas', 'Centros mixtos',
       'Centros deportivos', 'Centros escolares',
       'Centros administrativos', 'Centros sociales',
       'Seguridad y emergencias', 'Otras dependencias', 'Salud',
       'Centros Mixtos', '#N/D', 'cultural', 'administrativo',
       'medioambiental', 'almacén', 'sanitario', 'seguridad', 'social',
       'educativo', 'deportivo', 'mixto', 'cultural, social', ' social ',
       ' deportivo ', ' seguridad ', 'almacÃ©n', 'deportivo ',
       'industrial'], dtype=object)

Cambiamos los nombres a las entradas de la columna de tipo del edificio.

In [23]:
energia['tipo del edificio'] = energia['tipo del edificio'].replace({'Centros culturales y bibliotecas': 'cultural', 'Centros mixtos': 'mixto', 'Centros deportivos': 'deportivo', 'Centros escolares': 'educativo', 'Centros administrativos': 'administrativo', 'Centros sociales': 'social', 'Seguridad y emergencias': 'seguridad', 'Salud': 'sanitario', 'Centros Mixtos': 'mixto', 'almacÃ©n':'almacén'})

In [25]:
# Elimina espacios adicionales alrededor de las entradas en la columna 'tipo de edificio'
energia['tipo del edificio'] = energia['tipo del edificio'].apply(lambda x: x.strip() if isinstance(x, str) else x)
print(energia['tipo del edificio'].unique())


['cultural' 'mixto' 'deportivo' 'educativo' 'administrativo' 'social'
 'seguridad' 'Otras dependencias' 'sanitario' '#N/D' 'medioambiental'
 'almacén' 'cultural, social' 'industrial']


In [27]:
energia['empresa instaladora'].unique()


array(['empresa desconocida', 'ORTIZ', 'FULTON', 'Empresa desconocida',
       'AURA', 'SAVEFFI', 'POWEN', 'FERROVIAL', 'IMESAPI', 'EULEN',
       'DRAGADOS', 'PECSA', 'ORTHEM', 'CONDISA', 'CYOPSA', 'OHL',
       'ELECTOSA ', 'UGARTE', 'ACCIONA', 'ETRALUX',
       'AVELSA (Avance Electrico S.L) ', 'Ortiz', 'CONDISA (grupo Ortiz)',
       'ACCIONA FACILITY SERVICES',
       'EXTRACO CONSTRUCCIONS E PROXECTOS SA (subontrata Servipack Mantenimientos Industriales)',
       'No conocen cual es la instaladora( podrÃ\xada ser AURA ya que la constructora que es FDEZ MOLINA trabaja con ellos)',
       'INGEDOM, S.L.',
       'No conocen cual es la instaladora( podría ser AURA ya que la constructora que es FDEZ MOLINA trabaja con ellos)',
       'HERRERA Y LOBATOS.L.'], dtype=object)

In [29]:
print(energia['empresa instaladora'].value_counts())


empresa instaladora
empresa desconocida                                                                                                 23034
Empresa desconocida                                                                                                   175
AURA                                                                                                                   98
PECSA                                                                                                                  71
FERROVIAL                                                                                                              48
DRAGADOS                                                                                                               40
ACCIONA                                                                                                                21
OHL                                                                                                                    20
EULE

In [31]:
energia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23654 entries, 0 to 23653
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   tipo del edificio    23654 non-null  object        
 1   edificio             23654 non-null  object        
 2   dirección            23654 non-null  object        
 3   distrito             23654 non-null  object        
 4   clase                23654 non-null  object        
 5   unidades             23654 non-null  object        
 6   consumo              23034 non-null  float64       
 7   puesta en servicio   23654 non-null  datetime64[ns]
 8   potencia kwp         620 non-null    float64       
 9   empresa instaladora  23654 non-null  object        
 10  agno                 23654 non-null  int32         
 11  mes                  23654 non-null  int32         
dtypes: datetime64[ns](1), float64(2), int32(2), object(7)
memory usage: 2.0+ MB


In [33]:
#energia.to_csv('energia_solar_madrid_definitivo_modificado.csv', index=False)

Longitud de las filas

In [36]:
longitudes_filas = energia.apply(lambda row: len(row), axis=1)
print("Longitudes de las filas:")
print(longitudes_filas.value_counts())  # Esto muestra cuántas filas tienen cada longitud


Longitudes de las filas:
12    23654
Name: count, dtype: int64


Mostramos todos valores únicos de cada columna

In [39]:
print("Valores únicos de 'tipo del edificio':")
print(energia['tipo del edificio'].unique())
print("\n")

print("Valores únicos de 'edificio':")
print(energia['edificio'].unique())
print("\n")

print("Valores únicos de 'dirección':")
print(energia['dirección'].unique())
print("\n")

print("Valores únicos de 'distrito':")
print(energia['distrito'].unique())
print("\n")

print("Valores únicos de 'clase':")
print(energia['clase'].unique())
print("\n")

print("Valores únicos de 'unidades':")
print(energia['unidades'].unique())
print("\n")

print("Valores únicos de 'consumo':")
print(energia['consumo'].unique())
print("\n")

print("Valores únicos de 'puesta en servicio':")
print(energia['puesta en servicio'].unique())
print("\n")

print("Valores únicos de 'potencia kwp':")
print(energia['potencia kwp'].unique())
print("\n")

print("Valores únicos de 'empresa instaladora':")
print(energia['empresa instaladora'].unique())
print("\n")


Valores únicos de 'tipo del edificio':
['cultural' 'mixto' 'deportivo' 'educativo' 'administrativo' 'social'
 'seguridad' 'Otras dependencias' 'sanitario' '#N/D' 'medioambiental'
 'almacén' 'cultural, social' 'industrial']


Valores únicos de 'edificio':
['Biblioteca Ana María Matute' 'Biblioteca Ángel González'
 'Biblioteca Eugenio Trías' 'Biblioteca Gerardo Diego'
 'Biblioteca José Hierro' 'Biblioteca La Elipa - Islas Filipinas'
 'Biblioteca Mario Vargas Llosa' 'Biblioteca Miguel Delibes'
 'Biblioteca Pablo Neruda' 'Biblioteca Pío Baroja' 'CC Conde Duque'
 'CC La Vaguada' 'CC Valdebernardo y Biblioteca Francisco Ayala'
 'CC/BPM Gloria Fuertes' 'CDI Arganzuela' 'CDM Aluche'
 'CDM Ángel Nieto - Puente de Vallecas' 'CDM Barajas'
 'CDM Cerro Almodóvar' 'CDM Concepción'
 'CDM Faustina Valladolid - Valdebernardo' 'CDM Gallur' 'CDM Hortaleza'
 'CDM La Elipa' 'CDM La Masó' 'CDM Luis Aragonés' 'CDM Orcasitas'
 'CDM Plata y Castañar' 'CDM Playa Victoria' 'CDM Pueblo Nuevo'
 'CDM Samaranch' 'CD

-----------------------------------

Limpiamos y estandarizamos las columnas y los valores de cada una del dataset.

In [41]:
energia.columns = energia.columns.str.strip()  # Eliminar espacios al principio y al final
energia.columns = energia.columns.str.lower()  # Convertir a minúsculas
energia.columns = energia.columns.str.replace(r'[^a-z0-9\s]', '', regex=True)  # Eliminar caracteres especiales
energia.columns = energia.columns.str.replace(r'\s+', '_', regex=True)  # Reemplazar espacios por guiones bajos
energia.columns

Index(['tipo_del_edificio', 'edificio', 'direccin', 'distrito', 'clase',
       'unidades', 'consumo', 'puesta_en_servicio', 'potencia_kwp',
       'empresa_instaladora', 'agno', 'mes'],
      dtype='object')

In [43]:
for col in energia.columns:
    energia[col] = energia[col].apply(lambda x: str(x).strip().lower())  # Eliminar espacios y convertir a minúsculas
    energia[col] = energia[col].apply(lambda x: ''.join(e for e in x if e.isalnum() or e.isspace()))  # Eliminar caracteres especiales
    energia[col] = energia[col].apply(lambda x: '_'.join(x.split()))  # Reemplazar espacios por guiones bajos
energia

Unnamed: 0,tipo_del_edificio,edificio,direccin,distrito,clase,unidades,consumo,puesta_en_servicio,potencia_kwp,empresa_instaladora,agno,mes
0,cultural,biblioteca_ana_maría_matute,calle_isaac_albeniz_1_28019_madrid,carabanchel,energía_activa,kwh,130990,20200301_000000,,empresa_desconocida,2020,3
1,cultural,biblioteca_ana_maría_matute,calle_isaac_albeniz_1_28019_madrid,carabanchel,energía_reactiva,kvarh,1040,20200301_000000,,empresa_desconocida,2020,3
2,cultural,biblioteca_ángel_gonzález,calle_granja_de_torrehermosa_1_28024_madrid,latina,energía_activa,kwh,96880,20200301_000000,,empresa_desconocida,2020,3
3,cultural,biblioteca_ángel_gonzález,calle_granja_de_torrehermosa_1_28024_madrid,latina,energía_reactiva,kvarh,42620,20200301_000000,,empresa_desconocida,2020,3
4,cultural,biblioteca_ángel_gonzález,calle_granja_de_torrehermosa_1_28024_madrid,latina,gas,m3,00,20200301_000000,,empresa_desconocida,2020,3
...,...,...,...,...,...,...,...,...,...,...,...,...
23649,medioambiental,centro_municipal_de_recogidas_trece_rosas,avenida_de_las_trece_rosas_5_28017_madrid,ciudad_lineal,energía_renovable,kwh,,20240701_000000,100,empresa_desconocida,2024,7
23650,deportivo,cdm_el_quijote,calle_numancia2,moncloa_aravaca,energía_renovable,kwh,,20240912_000000,200,empresa_desconocida,2024,9
23651,deportivo,cdm_moscardo,calle_pilar_de_zaragoza_93,salamanca,energía_renovable,kwh,,20240911_000000,100,empresa_desconocida,2024,9
23652,seguridad,cid_villa_de_vallecas_oac,calle_real_de_arganda_64,villa_de_vallecas,energía_renovable,kwh,,20240911_000000,100,empresa_desconocida,2024,9


In [44]:

print("Valores únicos de 'empresa instaladora':")
print(energia['empresa_instaladora'].unique())
print("\n")

Valores únicos de 'empresa instaladora':
['empresa_desconocida' 'ortiz' 'fulton' 'aura' 'saveffi' 'powen'
 'ferrovial' 'imesapi' 'eulen' 'dragados' 'pecsa' 'orthem' 'condisa'
 'cyopsa' 'ohl' 'electosa' 'ugarte' 'acciona' 'etralux'
 'avelsa_avance_electrico_sl' 'condisa_grupo_ortiz'
 'acciona_facility_services'
 'extraco_construccions_e_proxectos_sa_subontrata_servipack_mantenimientos_industriales'
 'no_conocen_cual_es_la_instaladora_podrãa_ser_aura_ya_que_la_constructora_que_es_fdez_molina_trabaja_con_ellos'
 'ingedom_sl'
 'no_conocen_cual_es_la_instaladora_podría_ser_aura_ya_que_la_constructora_que_es_fdez_molina_trabaja_con_ellos'
 'herrera_y_lobatosl']




In [265]:
#energia_s.to_csv('energia_solar_madrid_definitivo_modificado2.csv', index=False)

--------------------------

# Coneconexión a la base de datos en docker 

In [268]:
pip install pymysql pandas


Collecting pymysql
  Downloading PyMySQL-1.1.1-py3-none-any.whl.metadata (4.4 kB)
Downloading PyMySQL-1.1.1-py3-none-any.whl (44 kB)
   ---------------------------------------- 0.0/45.0 kB ? eta -:--:--
   ---------------------------------------- 45.0/45.0 kB 2.2 MB/s eta 0:00:00
Installing collected packages: pymysql
Successfully installed pymysql-1.1.1
Note: you may need to restart the kernel to use updated packages.


In [269]:
import pymysql

# Probar la conexión
try:
    connection = pymysql.connect(
        host="localhost",      # Dirección del servidor
        user="root",           # Usuario de MySQL
        password="Alba2501",   # Contraseña
        database="Energia",    # Nombre de la base de datos
        port=3306              # Puerto
    )
    print("Conexión exitosa")

    # Crear un cursor y listar las tablas
    cursor = connection.cursor()
    cursor.execute("SHOW TABLES;")
    for table in cursor.fetchall():
        print(table)
finally:
    connection.close()


NameError: name 'connection' is not defined

In [None]:

import pymysql
import pandas as pd

# Conexión a la base de datos
connection = pymysql.connect(
    host="localhost",       # Dirección del servidor
    user="root",            # Usuario de MySQL
    password="Alba2501",    # Contraseña
    database="Energia",     # Nombre de la base de datos
    port=3306               # Puerto
)

# Consulta para obtener los datos de la tabla 'energia_solar_madrid'
query = "SELECT * FROM energia_solar_madrid;"
energia_df = pd.read_sql(query, connection)

# Verificar los datos cargados
print(energia_df.head())

# Cerrar la conexión
connection.close()


In [None]:
from sqlalchemy import create_engine

# Crear el motor de conexión con SQLAlchemy
engine = create_engine("mysql+pymysql://root:Alba2501@localhost:3306/Energia")

# Consulta para obtener los datos
query = "SELECT * FROM energia_solar_madrid;"
energia_s = pd.read_sql(query, engine)

# Verificar los datos cargados
print(energia_s.head())


In [None]:
# Reemplazar 'nan' con 'NULL' en las columnas
energia_s = energia_s.fillna("NULL")

# Eliminar caracteres innecesarios como '\r' en las cadenas
energia_s["empresa_instaladora"] = energia_s["empresa_instaladora"].str.strip()

# Verificar nuevamente
print(energia_s.head())


--------------------

# Análisis

In [47]:
import matplotlib.pyplot as plt

Análisis por Distrito. Encontramos la potencia y el consumo total que genera cada distrito y el número de edificios públicos en cada distrito de la Comunidad de Madrid.

In [49]:
energia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23654 entries, 0 to 23653
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   tipo_del_edificio    23654 non-null  object
 1   edificio             23654 non-null  object
 2   direccin             23654 non-null  object
 3   distrito             23654 non-null  object
 4   clase                23654 non-null  object
 5   unidades             23654 non-null  object
 6   consumo              23654 non-null  object
 7   puesta_en_servicio   23654 non-null  object
 8   potencia_kwp         23654 non-null  object
 9   empresa_instaladora  23654 non-null  object
 10  agno                 23654 non-null  object
 11  mes                  23654 non-null  object
dtypes: object(12)
memory usage: 2.2+ MB


Pasamos a float las columnas de consumo y potencia.

In [51]:
energia['consumo'] = pd.to_numeric(energia['consumo'], errors='coerce')
energia['potencia_kwp'] = pd.to_numeric(energia['potencia_kwp'], errors='coerce')

Vamos a eliminar la fila nd tanto en la columna de distrito como de tipo de edificio porque no nos aporta nada de información a nuestro análisis.

In [56]:
energia = energia[energia['distrito'] != 'nd']
energia = energia[energia['tipo_del_edificio'] != '#N/D']

In [58]:
print("Valores únicos de 'tipo del edificio':")
print(energia['distrito'].unique())
print("\n")

Valores únicos de 'tipo del edificio':
['carabanchel' 'latina' 'retiro' 'villa_de_vallecas' 'san_blas_canillejas'
 'ciudad_lineal' 'centro' 'moratalaz' 'arganzuela' 'fuencarral_el_pardo'
 'vicalvaro' 'barajas' 'puente_de_vallecas' 'hortaleza' 'usera'
 'villaverde' 'tetuan' 'chamberi' 'salamanca' 'chamartin'
 'moncloa_aravaca']




Antes de nada vamos a completar las columnas que tienen NaN. 

En primer lugar, vamos a completar la columna potencia con el valor 0 porque la potencia equivale a la que generan las placas solares, entonces si lo rellenamos con 0 quiere decir que no tienen placas solares.

In [61]:
energia['potencia_kwp'] = energia['potencia_kwp'].fillna(0)

En la siguiente, completamos la columna consumo haciendo la media de los mismos edificios y el distrito en el que se localizan.

In [64]:
energia['consumo'] = energia.groupby('tipo_del_edificio')['consumo'].transform(lambda x: x.fillna(x.mean()))

In [66]:
energia['consumo'] = energia.groupby('edificio')['consumo'].transform(lambda x: x.fillna(x.mean()))

In [68]:
energia['consumo'] = energia.groupby('distrito')['consumo'].transform(lambda x: x.fillna(x.mean()))

In [70]:
energia.info()

<class 'pandas.core.frame.DataFrame'>
Index: 23653 entries, 0 to 23653
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   tipo_del_edificio    23653 non-null  object 
 1   edificio             23653 non-null  object 
 2   direccin             23653 non-null  object 
 3   distrito             23653 non-null  object 
 4   clase                23653 non-null  object 
 5   unidades             23653 non-null  object 
 6   consumo              23653 non-null  float64
 7   puesta_en_servicio   23653 non-null  object 
 8   potencia_kwp         23653 non-null  float64
 9   empresa_instaladora  23653 non-null  object 
 10  agno                 23653 non-null  object 
 11  mes                  23653 non-null  object 
dtypes: float64(2), object(10)
memory usage: 2.3+ MB


A continuación filtramos la columna de unidades para saber las energías que consumen kwh para posteriormente ver cuanta energía consumen en Mwh.

In [75]:
energia_kwh = energia[energia['unidades'] == 'kwh']
energia['consumo_MWh'] = energia_kwh['consumo'] / 1000
energia


Unnamed: 0,tipo_del_edificio,edificio,direccin,distrito,clase,unidades,consumo,puesta_en_servicio,potencia_kwp,empresa_instaladora,agno,mes,consumo_MWh
0,cultural,biblioteca_ana_maría_matute,calle_isaac_albeniz_1_28019_madrid,carabanchel,energía_activa,kwh,130990.000000,20200301_000000,0.0,empresa_desconocida,2020,3,130.990000
1,cultural,biblioteca_ana_maría_matute,calle_isaac_albeniz_1_28019_madrid,carabanchel,energía_reactiva,kvarh,1040.000000,20200301_000000,0.0,empresa_desconocida,2020,3,
2,cultural,biblioteca_ángel_gonzález,calle_granja_de_torrehermosa_1_28024_madrid,latina,energía_activa,kwh,96880.000000,20200301_000000,0.0,empresa_desconocida,2020,3,96.880000
3,cultural,biblioteca_ángel_gonzález,calle_granja_de_torrehermosa_1_28024_madrid,latina,energía_reactiva,kvarh,42620.000000,20200301_000000,0.0,empresa_desconocida,2020,3,
4,cultural,biblioteca_ángel_gonzález,calle_granja_de_torrehermosa_1_28024_madrid,latina,gas,m3,0.000000,20200301_000000,0.0,empresa_desconocida,2020,3,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
23649,medioambiental,centro_municipal_de_recogidas_trece_rosas,avenida_de_las_trece_rosas_5_28017_madrid,ciudad_lineal,energía_renovable,kwh,33133.177365,20240701_000000,100.0,empresa_desconocida,2024,7,33.133177
23650,deportivo,cdm_el_quijote,calle_numancia2,moncloa_aravaca,energía_renovable,kwh,55118.067812,20240912_000000,200.0,empresa_desconocida,2024,9,55.118068
23651,deportivo,cdm_moscardo,calle_pilar_de_zaragoza_93,salamanca,energía_renovable,kwh,55118.067812,20240911_000000,100.0,empresa_desconocida,2024,9,55.118068
23652,seguridad,cid_villa_de_vallecas_oac,calle_real_de_arganda_64,villa_de_vallecas,energía_renovable,kwh,2145.169082,20240911_000000,100.0,empresa_desconocida,2024,9,2.145169


In [99]:
print("Valores únicos de 'mes':")
print(energia['unidades'].unique())
print("\n")

Valores únicos de 'mes':
['kwh' 'kvarh' 'm3']




In [83]:
# Verifica que la columna 'mes' sea de tipo entero
energia['mes'] = energia['mes'].astype(int)
energia.info()

<class 'pandas.core.frame.DataFrame'>
Index: 23653 entries, 0 to 23653
Data columns (total 15 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   tipo_del_edificio    23653 non-null  object 
 1   edificio             23653 non-null  object 
 2   direccin             23653 non-null  object 
 3   distrito             23653 non-null  object 
 4   clase                23653 non-null  object 
 5   unidades             23653 non-null  object 
 6   consumo              23653 non-null  float64
 7   puesta_en_servicio   23653 non-null  object 
 8   potencia_kwp         23653 non-null  float64
 9   empresa_instaladora  23653 non-null  object 
 10  agno                 23653 non-null  object 
 11  mes                  23653 non-null  int32  
 12  consumo_MWh          13297 non-null  float64
 13  precio_energia_MWh   0 non-null      float64
 14  coste_total          0 non-null      float64
dtypes: float64(5), int32(1), object(9)
memory

Sabiendo que el Mwh cuesta al mes lo siguiente, vamos a crear una columna con el coste de electricidad. 

Enero: 90,25 €/MWh

Febrero: 88,50 €/MWh

Marzo: 87,75 €/MWh

Abril: 85,58 €/MWh 

Mayo: 92,10 €/MWh

Junio: 95,45 €/MWh

Julio: 100,30 €/MWh

Agosto: 105,75 €/MWh

Septiembre: 110,20 €/MWh

Octubre: 115,60 €/MWh

Noviembre: 120,85 €/MWh

Diciembre: 175,18 €/MWh

In [97]:
precios_por_mes = {
    1: 90.25,   # Enero
    2: 88.50,   # Febrero
    3: 87.75,   # Marzo
    4: 85.58,   # Abril
    5: 92.10,   # Mayo
    6: 95.45,   # Junio
    7: 100.30,  # Julio
    8: 105.75,  # Agosto
    9: 110.20,  # Septiembre
    10: 115.60, # Octubre
    11: 120.85, # Noviembre
    12: 175.18  # Diciembre
}

energia['precio_energia_MWh'] = energia['mes'].map(precios_por_mes)

# Calcular el coste total del consumo por edificio
energia['coste_total'] = energia['consumo_MWh'] * energia['precio_energia_MWh']

# Verificar el resultado
energia.info()



<class 'pandas.core.frame.DataFrame'>
Index: 23653 entries, 0 to 23653
Data columns (total 15 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   tipo_del_edificio    23653 non-null  object 
 1   edificio             23653 non-null  object 
 2   direccin             23653 non-null  object 
 3   distrito             23653 non-null  object 
 4   clase                23653 non-null  object 
 5   unidades             23653 non-null  object 
 6   consumo              23653 non-null  float64
 7   puesta_en_servicio   23653 non-null  object 
 8   potencia_kwp         23653 non-null  float64
 9   empresa_instaladora  23653 non-null  object 
 10  agno                 23653 non-null  object 
 11  mes                  23653 non-null  int32  
 12  consumo_MWh          13297 non-null  float64
 13  precio_energia_MWh   23653 non-null  float64
 14  coste_total          13297 non-null  float64
dtypes: float64(5), int32(1), object(9)
memory

In [137]:
conteo_clase = energia['clase'].value_counts()
print(conteo_clase)

clase
energía_activa       9139
energía_reactiva     8039
gas                  5855
energía_renovable     620
Name: count, dtype: int64


Nos hemos dado cuenta que la columna de direccin tenemos una dirección que es 0 entonces vamos a eliminar esa fila.

In [119]:
energia = energia[energia['direccin'] != 0]

Filtramos por clase gas para ver si sus columnas de consumo y potencia son todas 0 para posteriormente poder completar las otras columnas.

In [139]:
# Filtrar filas donde 'clase' sea igual a 'gas'
filtrado_gas = energia[energia['clase'] == 'gas']
filtrado_gas.info()


<class 'pandas.core.frame.DataFrame'>
Index: 5855 entries, 4 to 23027
Data columns (total 15 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   tipo_del_edificio    5855 non-null   object 
 1   edificio             5855 non-null   object 
 2   direccin             5855 non-null   object 
 3   distrito             5855 non-null   object 
 4   clase                5855 non-null   object 
 5   unidades             5855 non-null   object 
 6   consumo              5855 non-null   float64
 7   puesta_en_servicio   5855 non-null   object 
 8   potencia_kwp         5855 non-null   float64
 9   empresa_instaladora  5855 non-null   object 
 10  agno                 5855 non-null   object 
 11  mes                  5855 non-null   int32  
 12  consumo_MWh          3538 non-null   float64
 13  precio_energia_MWh   5855 non-null   float64
 14  coste_total          3538 non-null   float64
dtypes: float64(5), int32(1), object(9)
memory 

In [130]:
suma_consumo = filtrado_gas['consumo'].sum()
suma_potencia = filtrado_gas['potencia_kwp'].sum()
suma_consumo


16180000.0

In [132]:
suma_potencia

0.0

Ahora vamos a crear otra columna para saber el precio de la instalación y el coste de las placas solares según la empresa instaladora.

'FULTON'
 'ORTHEM' 
 'ETRALUX' ' ' ''
 '
 'No conocen cual es la instaladora( podrÃ\xada ser AURA ya que la constructora que es FDEZ MOLINA trabaja con ellos)'
 
 'No conocen cual es la instaladora( podría ser AURA ya que la constructora que es FDEZ MOLINA trabaja con ellos)'
 '

powen: 5.500 €

acciona: 6.000 €

ferrovial: 6.500 €

dragados: 6.800 €

ohl: 6.800 €

imesapi: 6.200 €

eulen: 6.000 €

ortiz: 5.800 €

aura: 5.500 € 

no_conocen_cual_es_la_instaladora_podrãa_ser_aura_ya_que_la_constructora_que_es_fdez_molina_trabaja_con_ellos:  5.500 € 

saveffi: 5.200 €

cyopsa: 5.700 €

pecsa: 5.600 €

ugarte: 5.300 €

electosa: 5.500 €

avelsa_avance_electrico_sl: 5.400 €

acciona_facility_services: 6.200 €

ingedom_sl: 5.900 €

herrera_y_lobatosl: 5.800 €

extraco_construccions_e_proxectos_sa_subontrata_servipack_mantenimientos_industriales: 6.000 €

condisa_grupo_ortiz: 5.800 €

empresa_desconocida: 0€


In [159]:
print("Valores únicos de 'mes':")
print(energia['precio_energia_MWh'].unique())
print("\n")

Valores únicos de 'mes':
[ 87.75  85.58  92.1   95.45 100.3  105.75 110.2  115.6  120.85 175.18
  90.25  88.5 ]




In [161]:
energia

Unnamed: 0,tipo_del_edificio,edificio,direccin,distrito,clase,unidades,consumo,puesta_en_servicio,potencia_kwp,empresa_instaladora,agno,mes,consumo_MWh,precio_energia_MWh,coste_total,precio_instaladora
0,cultural,biblioteca_ana_maría_matute,calle_isaac_albeniz_1_28019_madrid,carabanchel,energía_activa,kwh,130990.000000,20200301_000000,0.0,empresa_desconocida,2020,3,130.990000,87.75,11494.372500,0.0
1,cultural,biblioteca_ana_maría_matute,calle_isaac_albeniz_1_28019_madrid,carabanchel,energía_reactiva,kvarh,1040.000000,20200301_000000,0.0,empresa_desconocida,2020,3,,87.75,,0.0
2,cultural,biblioteca_ángel_gonzález,calle_granja_de_torrehermosa_1_28024_madrid,latina,energía_activa,kwh,96880.000000,20200301_000000,0.0,empresa_desconocida,2020,3,96.880000,87.75,8501.220000,0.0
3,cultural,biblioteca_ángel_gonzález,calle_granja_de_torrehermosa_1_28024_madrid,latina,energía_reactiva,kvarh,42620.000000,20200301_000000,0.0,empresa_desconocida,2020,3,,87.75,,0.0
4,cultural,biblioteca_ángel_gonzález,calle_granja_de_torrehermosa_1_28024_madrid,latina,gas,m3,0.000000,20200301_000000,0.0,empresa_desconocida,2020,3,,87.75,,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
23649,medioambiental,centro_municipal_de_recogidas_trece_rosas,avenida_de_las_trece_rosas_5_28017_madrid,ciudad_lineal,energía_renovable,kwh,33133.177365,20240701_000000,100.0,empresa_desconocida,2024,7,33.133177,100.30,3323.257690,0.0
23650,deportivo,cdm_el_quijote,calle_numancia2,moncloa_aravaca,energía_renovable,kwh,55118.067812,20240912_000000,200.0,empresa_desconocida,2024,9,55.118068,110.20,6074.011073,0.0
23651,deportivo,cdm_moscardo,calle_pilar_de_zaragoza_93,salamanca,energía_renovable,kwh,55118.067812,20240911_000000,100.0,empresa_desconocida,2024,9,55.118068,110.20,6074.011073,0.0
23652,seguridad,cid_villa_de_vallecas_oac,calle_real_de_arganda_64,villa_de_vallecas,energía_renovable,kwh,2145.169082,20240911_000000,100.0,empresa_desconocida,2024,9,2.145169,110.20,236.397633,0.0


In [155]:
# Diccionario de precios según la empresa instaladora
precios_instaladora = {
    'powen': 5500,
    'acciona': 6000,
    'ferrovial': 6500,
    'dragados': 6800,
    'ohl': 6800,
    'imesapi': 6200,
    'eulen': 6000,
    'ortiz': 5800,
    'aura': 5500,
    'no_conocen_cual_es_la_instaladora_podrãa_ser_aura_ya_que_la_constructora_que_es_fdez_molina_trabaja_con_ellos': 5500,
    'saveffi': 5200,
    'cyopsa': 5700,
    'pecsa': 5600,
    'ugarte': 5300,
    'electosa': 5500,
    'avelsa_avance_electrico_sl': 5400,
    'acciona_facility_services': 6200,
    'ingedom_sl': 5900,
    'herrera_y_lobatosl': 5800,
    'extraco_construccions_e_proxectos_sa_subontrata_servipack_mantenimientos_industriales': 6000,
    'condisa_grupo_ortiz': 5800,
    'empresa_desconocida': 0
}

# Crear la nueva columna 'precio_instaladora' en el DataFrame
energia['precio_instaladora'] = energia['empresa_instaladora'].map(precios_instaladora)

energia.info()


<class 'pandas.core.frame.DataFrame'>
Index: 23653 entries, 0 to 23653
Data columns (total 16 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   tipo_del_edificio    23653 non-null  object 
 1   edificio             23653 non-null  object 
 2   direccin             23653 non-null  object 
 3   distrito             23653 non-null  object 
 4   clase                23653 non-null  object 
 5   unidades             23653 non-null  object 
 6   consumo              23653 non-null  float64
 7   puesta_en_servicio   23653 non-null  object 
 8   potencia_kwp         23653 non-null  float64
 9   empresa_instaladora  23653 non-null  object 
 10  agno                 23653 non-null  object 
 11  mes                  23653 non-null  int32  
 12  consumo_MWh          13297 non-null  float64
 13  precio_energia_MWh   23653 non-null  float64
 14  coste_total          13297 non-null  float64
 15  precio_instaladora   23633 non-null  floa

Calculamos a través de datos externos el precio medio del kw/h de los distintos edificios de la comunidad de madrid entre los años 2020 y 2024.

In [None]:
numeros = [0.122, 0.162, 0.277, 0.212, 0.184]

precio_kwh = sum(numeros) / len(numeros)

print(f"La media de los números es: {media:.3f}")

In [None]:
# Filtrar los edificios industriales
edificios_industriales = energia[energia['tipo_del_edificio'] == 'industrial']
distritos = edificios_industriales.groupby('edificio').agg(
    consumo_total=('consumo', 'sum')
).reset_index()
edificios_industriales

In [None]:
# Agrupamos por tipo de edificio y contar la cantidad de cada uno
contador_edificios = energia['tipo_del_edificio'].value_counts()

print("Contador de edificios por tipo:")
(contador_edificios)

In [None]:
no_renovables = energia[energia['clase'].isin(['energía_activa'])]

In [None]:
no_renovables['precio_kwh_elec'] = no_renovables['consumo'] * precio_kwh
energia.info()


---------------------

In [None]:
distritos = energia.groupby('distrito').agg(
    consumo_total=('consumo', 'sum'),
    potencia_total=('potencia_kwp', 'sum'),
    num_edificios=('edificio', 'count')
).reset_index()

distritos = distritos.sort_values(by='num_edificios', ascending=False)

distritos

In [None]:
valores_unicos = energia['tipo_del_edificio'].unique()
valores_unicos

In [None]:
energia = energia[energia['tipo_del_edificio'] != 'nd']

In [None]:
energia.info()

------------------------------------------

Creamos una función para calcular la moda del distrito dependiendo del tipo de empresa instaladora.

In [None]:
def calcular_moda(series):
    return series.mode().tolist()

resultado = energia.groupby('empresa_instaladora')['distrito'] \
                  .apply(calcular_moda) \
                  .reset_index(name='moda_distrito')
resultado


Filtramos las filas donde la clase sea 'energia renovable'.

In [None]:
energia_renovable = energia[energia['clase'] == 'energía_renovable']
resultado = energia_renovable[['empresa_instaladora', 'distrito','clase']]
resultado

Calculamos los estadísticos básicos de la columna potencia para ver la distribución de dicha columna por distrito.

In [None]:
energia_renovable['potencia_kwp'].describe()

In [None]:
plt.figure(figsize=(10,6))
plt.bar(distritos['distrito'], distritos['potencia_total'])
plt.title('Potencia Total Solar por Distrito')
plt.xlabel('distrito')
plt.ylabel('potencia_kWp')
plt.xticks(rotation=90)
plt.tight_layout()
plt.show()


Como podemos ver en el histograma anterior, usera es el distrito que más potencia genera con diferenciay además es el cuarto distrito con mayor número de edificios registrados. Llama la atención que el Centro apenas registra datos de potencia. A continuación, vamos a ver el número de edificios que representan a los renovables dentro de cada distrito.

In [None]:
renovables = energia_renovable.groupby('distrito').agg(
    potencia_total=('potencia_kwp', 'sum'),
    num_edificios=('edificio', 'count')
).reset_index()

renovables['total_edificios'] = energia.groupby('distrito')['edificio'].transform('count').reset_index(drop=True)
renovables['porcentaje_edificios'] = (renovables['num_edificios'] / renovables['total_edificios']) * 100
renovables = renovables.sort_values(by='total_edificios', ascending=False)
renovables


A continuación, identificamos los distritos con mayor consumo no renovable.

In [None]:
distritos_no_renovables = energia[energia['potencia_kwp'].isna() | (energia['potencia_kwp'] == 0)]
distritos_no_renovables = distritos_no_renovables.groupby('distrito').agg(
    consumo_total_no_renovable=('consumo', 'sum')
).reset_index()

plt.figure(figsize=(10, 6))  
colors = plt.cm.viridis(np.linspace(0, 1, len(distritos_no_renovables)))
plt.barh(distritos_no_renovables['distrito'], distritos_no_renovables['consumo_total_no_renovable'], color=colors)
plt.xlabel('Consumo Total No Renovable (kWh)')
plt.ylabel('distrito')
plt.title('Consumo total de energía no renovable por distrito')
plt.show()


Observando el diagrama anterior vemos que el distrito del retiro es el que más consume de la Comunidad de Madrid.
A continuación, filtramos los datos para agrupar por distritos y calcular el consumo total y el número de edificios que utilizan energías no renovables. Calculamos el porcentaje de los edificios que representan los no renovables sobre el total por distritos.

In [None]:
no_renovables = energia[energia['clase'].isin(['energía_activa'])]

no_renovables = no_renovables.groupby('distrito').agg(
    consumo_total=('consumo', 'sum'),
    num_edificios=('edificio', 'count')
).reset_index()

no_renovables['total_edificios'] = energia.groupby('distrito')['edificio'].transform('count').reset_index(drop=True)
no_renovables['porcentaje_edificios'] = (no_renovables['num_edificios'] / no_renovables['total_edificios']) * 100
no_renovables = no_renovables.sort_values(by='porcentaje_edificios', ascending=False)
no_renovables


Como vemos en la tabla anterior, el distrito de la latina tiene el mayor porcentaje de edificios que consumen energía no renovable.

Ahora, obtenemos la dirección con la mayor potencia en cada distrito y el tipo de edificio que es. En primer lugar, vamos a crear un DataFrame paralelo sin los valores NaN en 'potencia kwp, y más abajo lo haremos igual con la columna de consumo.

CDI : Centro de Desarrollo Infantil

CDM : centro deportivo municipal 

CSC : Centro Socio-Cultural 

CEIP : Centro de Educación Infantil y Primaria 

JMD : Junta Municipal de Distrito IDB : Instituto de Diversidad y Bienestar


In [None]:
energia_limpia = energia[energia['potencia_kwp'].notna()]
max_potencia_distrito = energia_limpia.groupby(['distrito', 'direccin'])['potencia_kwp'].max().reset_index()
max_potencia_distrito = max_potencia_distrito.loc[max_potencia_distrito.groupby('distrito')['potencia_kwp'].idxmax()]
# Añadir la columna 'edificio' correspondiente a esa dirección
max_potencia_distrito['tipo_del_edificio'] = max_potencia_distrito.apply(
    lambda row: energia[(energia['distrito'] == row['distrito']) & (energia['direccin'] == row['direccin'])].iloc[0]['tipo_del_edificio'],
    axis=1
)
max_potencia_distrito


In [None]:
energia_limpia_consumo = energia[energia['consumo'].notna()]
max_consumo_distrito = energia_limpia_consumo.groupby(['distrito', 'direccin'])['consumo'].sum().reset_index()
max_consumo_distrito = max_consumo_distrito.loc[max_consumo_distrito.groupby('distrito')['consumo'].idxmax()]
max_consumo_distrito['tipo_del_edificio'] = max_consumo_distrito.apply(
    lambda row: energia[(energia['distrito'] == row['distrito']) & (energia['direccin'] == row['direccin'])].iloc[0]['tipo_del_edificio'],
    axis=1
)
max_consumo_distrito


# Latina

Filtramos los edificios que están en el distrito Latina y utilizan energía no renovable.

In [None]:
la_latina = energia[(energia['distrito'] == 'latina') & 
                    (energia['clase'].isin(['energía_reactiva', 'energía_activa', 'gas']))]

In [None]:
consumo_la_latina = la_latina.groupby(['tipo_del_edificio']).agg(
    consumo_total=('consumo', 'sum'),
    num_edificios=('edificio', 'count')
).reset_index()


Calculamos la moda de la columna dirección por cada tipo de edificio del distrito Latina.

In [None]:
moda_direccion = la_latina.groupby('tipo_del_edificio')['direccin'].agg(
    lambda x: x.mode().iloc[0] if not x.mode().empty else None
).reset_index()

consumo_la_latina = consumo_la_latina.merge(moda_direccion, on='tipo_del_edificio', how='left')


In [None]:
consumo_la_latina = consumo_la_latina.sort_values(by='num_edificios', ascending=False)
consumo_la_latina

Podemos observar que en el distrito que más consume de la Comunidad de Madrid el tipo de edificio que más consume son los deportivos.

In [None]:

import seaborn as sns

consumo_la_latina = consumo_la_latina.sort_values(by='consumo_total', ascending=False)

# Gráfico de barras
plt.figure(figsize=(12, 6))
sns.barplot(
    data=consumo_la_latina,
    x='tipo_del_edificio',
    y='consumo_total',
    palette='viridis'
)
plt.title("Consumo Total en La Latina por Tipo de Edificio", fontsize=16)
plt.xlabel("Tipo de Edificio", fontsize=12)
plt.ylabel("Consumo Total (kWh)", fontsize=12)
plt.xticks(rotation=45, ha='right')  # Rotar etiquetas si son largas
plt.tight_layout()  # Ajustar el diseño
plt.grid(axis='y', linestyle='--', alpha=0.7)  # Agregar rejilla para eje Y
plt.show()



# Arganzuela

In [None]:
# Filtrar filas donde el distrito sea 'Arganzuela'
arganzuela_data = energia[energia['distrito'] == 'arganzuela']

# Seleccionar las columnas 'edificio' y 'clase' para mostrar los tipos de edificios y clases de energía
resultado = arganzuela_data[['edificio', 'clase']]

# Mostrar el resultado
resultado


In [None]:
# Agrupar por la columna 'clase' y contar el número de edificios únicos
resultado = arganzuela_data.groupby('clase')['edificio'].nunique().reset_index(name='numero_edificios')

# Mostrar el resultado
resultado


In [None]:
# Filtrar las filas donde la clase sea 'energia renovable'
energia_renovable_arg = arganzuela_data[arganzuela_data['clase'] == 'energía_renovable']

# Seleccionar las columnas 'edificio' y 'tipo de edificio' (ajusta los nombres si son distintos)
resultado1 = energia_renovable_arg[['edificio', 'tipo_del_edificio']].drop_duplicates()
# Mostrar el resultado
resultado1


In [None]:
energia_renovable_arg2 = arganzuela_data[arganzuela_data['clase'] == 'gas']

# Seleccionar las columnas 'edificio' y 'tipo de edificio' (ajusta los nombres si son distintos)
resultado2 = energia_renovable_arg2[['edificio', 'tipo_del_edificio']].drop_duplicates()
# Mostrar el resultado
resultado2

Correlación entre potencia y consumo: Representa la relación entre la potencia generada y el consumo de energía para identificar distritos que no están aprovechando al máximo la energía generada.


In [None]:
plt.figure(figsize=(10, 6))
plt.scatter(distritos['potencia_total'], distritos['consumo_total'], alpha=0.7)
plt.title('Relación entre Potencia Generada y Consumo por Distrito')
plt.xlabel('Potencia Total (kWp)')
plt.ylabel('Consumo Total (kWh)')
plt.grid(True)
plt.show()


Gráfico de líneas para las tendencias de consumo de energía no renovable.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Filtrar energías no renovables
energia_no_renovable = energia[energia['clase'].isin(['gas', 'energia_activa', 'energia_reactiva'])]

# Agrupar por fecha y sumar consumo
energia_no_renovable['puesta_en_servicio'] = pd.to_datetime(energia_no_renovable['puesta_en_servicio'])
consumo_no_renovable = energia_no_renovable.groupby('puesta_en_servicio')['consumo'].sum()

# Crear gráfico
plt.figure(figsize=(12, 6))
plt.plot(consumo_no_renovable.index, consumo_no_renovable.values, label='Consumo No Renovable')
plt.title('Tendencia del Consumo No Renovable', fontsize=16)
plt.xlabel('Fecha', fontsize=12)
plt.ylabel('Consumo (kWh)', fontsize=12)
plt.legend()
plt.grid()
plt.show()


In [None]:
# Dirección concreta que deseas consultar
#direccion_concreta = 'AVENIDA MONFORTE DE LEMOS, 38-40 28029 MADRID'  # Sustituye con la dirección que deseas
# Filtrar el DataFrame por la dirección especificada
#edificios_direccion = energia[energia['dirección'] == direccion_concreta]
# Mostrar los edificios encontrados en esa dirección
#print(edificios_direccion[['edificio', 'dirección']])

In [None]:
pip install geopy


In [None]:
import pandas as pd
import time
from geopy.geocoders import Nominatim
import plotly.express as px

# Inicializar el geolocalizador
geolocator = Nominatim(user_agent="geopyExercises")

# Función para obtener latitud y longitud de una dirección
def get_coordinates(address):
    try:
        location = geolocator.geocode(address)
        if location:
            return location.latitude, location.longitude
        else:
            return None, None  # Si no se encuentra la dirección
    except Exception as e:
        print(f"Error geocodificando la dirección {address}: {e}")
        return None, None  # Si ocurre un error

# Suponiendo que tienes un DataFrame 'max_potencia_distrito' con una columna 'direccion'
# Asegúrate de que el nombre de la columna sea correcto ('direccion' en lugar de 'direccin')
max_potencia_distrito[['latitud', 'longitud']] = max_potencia_distrito['direccin'].apply(
    lambda x: pd.Series(get_coordinates(x))
)

# Espera de tiempo para evitar bloqueos por exceso de peticiones a la API
time.sleep(1)

# Crear el gráfico interactivo de Plotly
fig = px.scatter_mapbox(max_potencia_distrito,
                        lat='latitud', lon='longitud',
                        color='potencia_kwp',
                        size='potencia_kwp',
                        hover_data=['distrito', 'direccin', 'potencia_kwp'],
                        title='Edificios Públicos con Mayor Potencia Solar por Distrito',
                        color_continuous_scale=px.colors.sequential.Viridis,
                        mapbox_style="open-street-map")

# Ajustar el centro del mapa y el nivel de zoom
fig.update_layout(mapbox_center_lat=40.5, mapbox_center_lon=-3.7, mapbox_zoom=8)

# Mostrar el gráfico interactivo
fig.show()

# Agrupar por distrito y obtener la moda de edificios
moda_edificios_distrito = energia.groupby('distrito')['edificio'].agg(lambda x: x.mode()[0]).reset_index()

# Para cada edificio en la moda, obtener la dirección correspondiente
moda_edificios_distrito['direccin'] = moda_edificios_distrito.apply(
    lambda row: energia[energia['edificio'] == row['edificio']].iloc[0]['direccin'],
    axis=1
)

moda_edificios_distrito
