# EDA

> Autors: Ivan Aguilar, Marc Serrano, Pau Maranges, Oksana K., Juan Diego Bustamante, Alam
>
> Data: 08/02/2025  

### Notebook preparation

In [None]:
!pip install requests



In [None]:
from IPython.display import display
import pandas as pd
import pandas as pd
from google.colab import files
import io
import requests

## Read and clean dataset

In [None]:
certificats = pd.read_csv("/content/drive/MyDrive/HACKATHON_PROVES/certificats.csv")

In [None]:
display(certificats)

Unnamed: 0,num_cas,adre_a,numero,escala,pis,porta,codi_postal,poblacio,comarca,nom_provincia,...,qualificaci_energia_2,energia_refrigeraci_demanda,ventilacio_us_residencial,longitud,latitud,georeferencia,rehabilitacio_energetica,actuacions_rehabilitacio,data_entrada,mundissec
0,BMGDF6CPF,Plaça Constitució,3,,,,8630.0,Abrera,Baix Llobregat,Barcelona,...,,,,1.901261,41.515900,POINT (1.901261244149 41.515899972165),,,26/01/2016,8.001801e+09
1,YT0MZMXMG,Carrer de la Font,44,,,,8630.0,Abrera,Baix Llobregat,Barcelona,...,,,0.63,1.902843,41.513518,POINT (1.902843106253 41.513517711742),,,16/11/2015,8.001801e+09
2,D4F3KFL7T,Avinguda LLUIS COMPANYS,25,,4,3,8630.0,Abrera,Baix Llobregat,Barcelona,...,,,,1.899301,41.515738,POINT (1.899300634003 41.51573845805),,,22/04/2016,8.001801e+09
3,WNCV3P13M,Carrer de la Font,27,,,,8630.0,Abrera,Baix Llobregat,Barcelona,...,,,0.63,1.903057,41.513610,POINT (1.903056537018 41.513609820129),,,22/04/2015,8.001801e+09
4,9K0RVRLD4,Carrer SANT PERE,4,,AT,1,8630.0,Abrera,Baix Llobregat,Barcelona,...,D,9.91,,1.902255,41.513983,POINT (1.902255349697 41.513983450863),NO,,02/06/2023,8.001801e+09
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1336920,WGVBWQCCS,Partida Mas Grau,1,,,,43775.0,Marçà,Priorat,Tarragona,...,B,12.65,,,,,NO,,07/01/2025,
1336921,J20RTDPHP,Carrer Torrentet,8,,BJ,4ª,8505.0,Santa Eulàlia de Riuprimer,Osona,Barcelona,...,,0.02,0.63,2.190868,41.912715,POINT (2.190867874724 41.912715454327),,,06/06/2016,
1336922,L0C4VRTWB,Carrer Pau Coll,11,,3,,25630.0,Talarn,Pallars Jussà,Lleida,...,G,57.57,,0.899886,42.185600,POINT (0.899885987426 42.185599824229),NO,,30/09/2019,
1336923,YQF488ZVJ,Paseo RAFAEL CAMPALANS,S/N,A,0,1,43830.0,Torredembarra,Tarragonès,Tarragona,...,G,144.09,,1.402140,41.135469,POINT (1.402139949595 41.135468924025),NO,,14/04/2021,


A simple vista tenim columnes que no necessitem:

  - **adre_a** (Nom del carrer):	És informació textual sense rellevància per l’eficiència energètica.

  - **numero, escala, pis, porta**: Dades específiques de l'adreça que no tenen impacte en l’anàlisi energètic.

  - **codi_postal**: Si ja tenim el codi de província i codi de població, el codi postal és redundant.

  - **poblacio, comarca, nom_provincia**:	No són necessaris si ja tenim els codis (codi_poblacio, codi_comarca, codi_provincia), que són més fàcils d'usar que text.

  - **vehicle_electric**:	Disposar d’un vehicle elèctric no influeix en l’eficiència energètica global de l’edifici.

  - **eina_de_certificacio**:	No afecta el consum energètic; només indica l'eina utilitzada per a la certificació.

  - **motiu_de_la_certificacio**:	No és rellevant per a l'anàlisi del consum d’energia i emissions.

  - **normativa_construccio**:	La normativa pot ser important en altres contextos, però no aporta informació directa sobre l’eficiència de l’edifici.

  - **actuacions_rehabilitacio**:	Pot ser útil en altres tipus d’anàlisis, però aquí no aporta dades quantitatives sobre el consum o les emissions.

In [None]:
# Llista de columnes a eliminar
columnes_a_eliminar = [
    "adre_a", "numero", "escala", "pis", "porta", "codi_postal", "poblacio",
    "comarca", "nom_provincia", "vehicle_electric", "eina_de_certificacio",
    "motiu_de_la_certificacio", "normativa_construcci", "actuacions_rehabilitacio"
]

# Eliminar columnes
certificats = certificats.drop(columns=columnes_a_eliminar)

KeyError: "['adre_a', 'numero', 'escala', 'pis', 'porta', 'codi_postal', 'poblacio', 'comarca', 'nom_provincia', 'vehicle_electric', 'eina_de_certificacio', 'motiu_de_la_certificacio', 'normativa_construcci', 'actuacions_rehabilitacio'] not found in axis"

In [None]:
certificats.shape

In [None]:
# Calcular el porcentaje de valores nulos por columna
porcentaje_nulos = certificats.isnull().sum() / len(certificats) * 100
# Filtrar columnas con 70% o más de valores nulos
columnas_mas_70_nulos = porcentaje_nulos[porcentaje_nulos >= 70].index
print(porcentaje_nulos)
print("Columnas con 70% o más valores nulos:")
display(columnas_mas_70_nulos)

In [None]:
# Eliminar columnes
certificats = certificats.drop(columns=columnas_mas_70_nulos)

In [None]:
certificats.shape

(1336925, 51)

### Categorical data

Podem veure com hi ha columnes categóriques amb un sol valor, com son: "**solar_termica**" i "**solar_fotovoltaica**". Aquest tipus de columnes no aporten informació rellevant per a l'anàlisi, ja que no permeten cap tipus de diferenciació entre les observacions, per tant, també s'eliminen.

In [None]:
categorical_columns = certificats.select_dtypes(include=['object']).columns
display(certificats[categorical_columns].nunique())

Unnamed: 0,0
num_cas,1336900
referencia_cadastral,1179294
zona_climatica,7
us_edifici,11
qualificaci_de_consum_d,7
qualificacio_d_emissions,7
solar_termica,1
solar_fotovoltaica,1
sistema_biomassa,2
xarxa_districte,2


In [None]:
# Llista de columnes a eliminar
columnes_a_eliminar = [
    "solar_termica", "solar_fotovoltaica"
]

# Eliminar columnes
certificats = certificats.drop(columns=columnes_a_eliminar)

In [None]:
certificats.shape

(1336925, 49)

In [None]:
categorical_columns = certificats.select_dtypes(include=['object']).columns
for col in categorical_columns:
    print(f"Valores únicos en {col}: {certificats[col].unique()}")

Valores únicos en num_cas: ['BMGDF6CPF' 'YT0MZMXMG' 'D4F3KFL7T' ... 'L0C4VRTWB' 'YQF488ZVJ'
 '34XQR8KYB']
Valores únicos en referencia_cadastral: ['8468003DF0986N0001TA' '8566417DF0986N0001PA' '8367801DF0986N0015PX' ...
 '6728033CG2762N0007PE' '5852701CF6555S0017UL' '2603005DG3420S0001HA']
Valores únicos en zona_climatica: ['C2' 'D2' 'D1' nan 'C3' 'E1' 'B3' 'D3']
Valores únicos en us_edifici: ['Habitatge unifamiliar' "Habitatge individual en bloc d'habitatges"
 'Terciari' "Bloc d'habitatges plurifamiliar" 'Vivienda unifamiliar'
 'Vivienda individual en bloque de viviendas' 'Terciario'
 "Bloc d'habitatges" 'Bloque de viviendas'
 'Bloque de viviendas plurifamiliar' 'Habitatge Unifamiliar']
Valores únicos en qualificaci_de_consum_d: ['D' 'E' 'G' 'F' 'C' 'B' 'A']
Valores únicos en qualificacio_d_emissions: ['D' 'E' 'F' 'G' 'C' 'B' 'A']
Valores únicos en sistema_biomassa: ['NO' nan 'SI']
Valores únicos en xarxa_districte: [nan 'NO' 'SI']
Valores únicos en energia_geotermica: ['NO' 'SI' nan]

Transformar variables categóriques amb valors SI/NO a Numericas transformant-les en binàries

In [None]:
# Lista de las columnas para transformar a valores binarios
cols_a_transformar = [
    'sistema_biomassa',
    'xarxa_districte',
    'energia_geotermica',
    'rehabilitacio_energetica'
]

# Aplicar la transformación binaria
for col in cols_a_transformar:
    certificats[col] = certificats[col].map({'SI': 1, 'NO': 0})

In [None]:
for col in cols_a_transformar:
    print(f"Valores únicos en {col}: {certificats[col].unique()}")

Valores únicos en sistema_biomassa: [ 0. nan  1.]
Valores únicos en xarxa_districte: [nan  0.  1.]
Valores únicos en energia_geotermica: [ 0.  1. nan]
Valores únicos en rehabilitacio_energetica: [nan  0.  1.]


### Numerical data

In [None]:
numerical_columns = certificats.select_dtypes(include=['float64', 'int64']).columns
display(certificats[numerical_columns].nunique())

Unnamed: 0,0
codi_poblacio,948
codi_comarca,42
codi_provincia,4
metres_cadastre,35844
energia_prim_ria_no_renovable,60877
emissions_de_co2,17910
consum_d_energia_final,47403
cost_anual_aproximat_d_energia,211107
sistema_biomassa,2
xarxa_districte,2


In [None]:
certificats.shape

(1336925, 49)

### Meteorological data


Irradiància solar global, la velocitat i la direccio del vent, precipitació, (per centrals eòliques, hidroelectriques, posar plaques solars, etc).

In [None]:
url = "https://analisi.transparenciacatalunya.cat/resource/4fb2-n3yi.json?$query=SELECT%0A%20%20%60codi_variable%60%2C%0A%20%20%60nom_variable%60%2C%0A%20%20%60unitat%60%2C%0A%20%20%60acronim%60%2C%0A%20%20%60codi_tipus_var%60%2C%0A%20%20%60decimals%60"
response = requests.get(url)

if response.status_code == 200:
    data_codis_variables = response.json()  # Parse JSON response

In [None]:
url = "https://analisi.transparenciacatalunya.cat/resource/nzvn-apee.json?$query=SELECT%0A%20%20%60id%60%2C%0A%20%20%60codi_estacio%60%2C%0A%20%20%60codi_variable%60%2C%0A%20%20%60data_lectura%60%2C%0A%20%20%60data_extrem%60%2C%0A%20%20%60valor_lectura%60%2C%0A%20%20%60codi_estat%60%2C%0A%20%20%60codi_base%60"
response = requests.get(url)

if response.status_code == 200:
    data_lectura = response.json()  # Parse JSON response
    display(data_lectura)

[{'id': 'U2401901170400',
  'codi_estacio': 'U2',
  'codi_variable': '40',
  'data_lectura': '2017-01-19T04:00:00.000',
  'data_extrem': '2017-01-19T04:29:00.000',
  'valor_lectura': '-1.3',
  'codi_estat': 'V',
  'codi_base': 'SH'},
 {'id': 'U2421901170400',
  'codi_estacio': 'U2',
  'codi_variable': '42',
  'data_lectura': '2017-01-19T04:00:00.000',
  'data_extrem': '2017-01-19T04:12:00.000',
  'valor_lectura': '-1.7',
  'codi_estat': 'V',
  'codi_base': 'SH'},
 {'id': 'U2331901170400',
  'codi_estacio': 'U2',
  'codi_variable': '33',
  'data_lectura': '2017-01-19T04:00:00.000',
  'valor_lectura': '67',
  'codi_estat': 'V',
  'codi_base': 'SH'},
 {'id': 'U2441901170400',
  'codi_estacio': 'U2',
  'codi_variable': '44',
  'data_lectura': '2017-01-19T04:00:00.000',
  'data_extrem': '2017-01-19T04:00:00.000',
  'valor_lectura': '66',
  'codi_estat': 'V',
  'codi_base': 'SH'},
 {'id': 'U2031901170400',
  'codi_estacio': 'U2',
  'codi_variable': '3',
  'data_lectura': '2017-01-19T04:00:00

In [None]:
url = "https://analisi.transparenciacatalunya.cat/resource/yqwd-vj5e.json?$query=SELECT%0A%20%20%60codi_estacio%60%2C%0A%20%20%60nom_estacio%60%2C%0A%20%20%60codi_tipus%60%2C%0A%20%20%60latitud%60%2C%0A%20%20%60longitud%60%2C%0A%20%20%60geocoded_column%60%2C%0A%20%20%60emplacament%60%2C%0A%20%20%60altitud%60%2C%0A%20%20%60codi_municipi%60%2C%0A%20%20%60nom_municipi%60%2C%0A%20%20%60codi_comarca%60%2C%0A%20%20%60nom_comarca%60%2C%0A%20%20%60codi_provincia%60%2C%0A%20%20%60nom_provincia%60%2C%0A%20%20%60codi_xarxa%60%2C%0A%20%20%60nom_xarxa%60%2C%0A%20%20%60codi_estat_ema%60%2C%0A%20%20%60nom_estat_ema%60%2C%0A%20%20%60data_inici%60%2C%0A%20%20%60data_fi%60"
response = requests.get(url)

if response.status_code == 200:
    data_estacions = response.json()  # Parse JSON response
    display(data_estacions)

[{'codi_estacio': 'DH',
  'nom_estacio': 'Badalona - Mas Ram',
  'codi_tipus': 'A',
  'latitud': '41.47638',
  'longitud': '2.25213',
  'geocoded_column': {'type': 'Point', 'coordinates': [2.25213, 41.47638]},
  'emplacament': 'Urb. Mas Ram - Escola Pere Vergès',
  'altitud': '126',
  'codi_municipi': '080155',
  'nom_municipi': 'Badalona',
  'codi_comarca': '13',
  'nom_comarca': 'Barcelonès',
  'codi_provincia': '8',
  'nom_provincia': 'Barcelona',
  'codi_xarxa': '1',
  'nom_xarxa': 'XEMA',
  'codi_estat_ema': '1',
  'nom_estat_ema': 'Desmantellada',
  'data_inici': '1998-03-23T00:00:00.000',
  'data_fi': '2005-09-08T00:00:00.000'},
 {'codi_estacio': 'WQ',
  'nom_estacio': "Montsec d'Ares (1.572 m)",
  'codi_tipus': 'A',
  'latitud': '42.0513',
  'longitud': '0.72952',
  'geocoded_column': {'type': 'Point', 'coordinates': [0.72952, 42.0513]},
  'emplacament': "Serra de la Corona - Centre d'Observació de l'Univers",
  'altitud': '1572',
  'codi_municipi': '251961',
  'nom_municipi': 

Convertir conjunt de dades a dataframes

In [None]:
data_codis_variables = pd.DataFrame(data_codis_variables)
data_lectura = pd.DataFrame(data_lectura)
data_estacions = pd.DataFrame(data_estacions)
print("DATA CODIS VARIABLES SHAPE:",data_codis_variables.shape)
print("DATA LECTURA SHAPE:",data_lectura.shape)
print("DATA ESTACIONS SHAPE:",data_estacions.shape)

DATA CODIS VARIABLES SHAPE: (26, 6)
DATA LECTURA SHAPE: (1000, 8)
DATA ESTACIONS SHAPE: (240, 20)


In [None]:
display(data_codis_variables)

Unnamed: 0,codi_variable,nom_variable,unitat,acronim,codi_tipus_var,decimals
0,44,Humitat relativa mínima,%,HRn,DAT,0
1,40,Temperatura màxima,°C,Tx,DAT,1
2,46,Velocitat del vent a 2 m (esc.),m/s,VV2,DAT,1
3,32,Temperatura,°C,T,DAT,1
4,72,Precipitació màxima en 1 minut,mm,PPTx1min,DAT,1
5,51,Direcció de la ratxa màxima del vent a 10 m,°,DVVx10,DAT,0
6,3,Humitat relativa màxima,%,HRx,DAT,0
7,30,Velocitat del vent a 10 m (esc.),m/s,VV10,DAT,1
8,56,Ratxa màxima del vent a 2 m,m/s,VVx2,DAT,1
9,31,Direcció de vent 10 m (m. 1),°,DV10,DAT,0


In [None]:
display(data_lectura)

Unnamed: 0,id,codi_estacio,codi_variable,data_lectura,data_extrem,valor_lectura,codi_estat,codi_base
0,U2401901170400,U2,40,2017-01-19T04:00:00.000,2017-01-19T04:29:00.000,-1.3,V,SH
1,U2421901170400,U2,42,2017-01-19T04:00:00.000,2017-01-19T04:12:00.000,-1.7,V,SH
2,U2331901170400,U2,33,2017-01-19T04:00:00.000,,67,V,SH
3,U2441901170400,U2,44,2017-01-19T04:00:00.000,2017-01-19T04:00:00.000,66,V,SH
4,U2031901170400,U2,3,2017-01-19T04:00:00.000,2017-01-19T04:10:00.000,68,V,SH
...,...,...,...,...,...,...,...,...
995,XT721901170400,XT,72,2017-01-19T04:00:00.000,2017-01-19T04:00:00.000,0,V,SH
996,XT361901170400,XT,36,2017-01-19T04:00:00.000,,0,V,SH
997,XT341901170400,XT,34,2017-01-19T04:00:00.000,,940.4,V,SH
998,XT321901170400,XT,32,2017-01-19T04:00:00.000,,-5.6,V,SH


In [None]:
display(data_estacions)

Unnamed: 0,codi_estacio,nom_estacio,codi_tipus,latitud,longitud,geocoded_column,emplacament,altitud,codi_municipi,nom_municipi,codi_comarca,nom_comarca,codi_provincia,nom_provincia,codi_xarxa,nom_xarxa,codi_estat_ema,nom_estat_ema,data_inici,data_fi
0,DH,Badalona - Mas Ram,A,41.47638,2.25213,"{'type': 'Point', 'coordinates': [2.25213, 41....",Urb. Mas Ram - Escola Pere Vergès,126,080155,Badalona,13,Barcelonès,8,Barcelona,1,XEMA,1,Desmantellada,1998-03-23T00:00:00.000,2005-09-08T00:00:00.000
1,WQ,Montsec d'Ares (1.572 m),A,42.0513,0.72952,"{'type': 'Point', 'coordinates': [0.72952, 42....",Serra de la Corona - Centre d'Observació de l'...,1572,251961,Sant Esteve de la Sarga,25,Pallars Jussà,25,Lleida,1,XEMA,2,Operativa,2003-06-17T00:00:00.000,
2,XJ,Girona,A,41.98223,2.80686,"{'type': 'Point', 'coordinates': [2.80686, 41....",Horts de Santa Eugènia,72,170792,Girona,20,Gironès,17,Girona,1,XEMA,2,Operativa,2010-09-15T00:00:00.000,
3,KX,la Roca del Vallès - ETAP Cardedeu,A,41.61865,2.36114,"{'type': 'Point', 'coordinates': [2.36114, 41....",Planta tractament d'Aigües Ter - Llobregat,156,081810,La Roca del Vallès,41,Vallès Oriental,8,Barcelona,1,XEMA,2,Operativa,1996-01-05T00:00:00.000,
4,VY,Nulles,A,41.25095,1.29863,"{'type': 'Point', 'coordinates': [1.29863, 41....",Cooperativa agrària,240,430982,Nulles,1,Alt Camp,43,Tarragona,1,XEMA,2,Operativa,2000-09-18T00:00:00.000,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
235,DP,Das - Aeròdrom,A,42.38605,1.8664,"{'type': 'Point', 'coordinates': [1.8664, 42.3...",Aeròdrom de la Cerdanya,1097,170617,Das,15,Cerdanya,17,Girona,1,XEMA,2,Operativa,2001-05-22T00:00:00.000,
236,XX,Anglesola - Tornabous,A,41.68835,1.04476,"{'type': 'Point', 'coordinates': [1.04476, 41....",Masia Mingot,291,252252,Tornabous,38,Urgell,25,Lleida,1,XEMA,2,Operativa,2013-08-06T00:00:00.000,
237,YN,Vielha - Elipòrt,A,42.6966,0.80211,"{'type': 'Point', 'coordinates': [0.80211, 42....",Elipòrt de VIelha,1027,252430,Vielha e Mijaran,39,Val d'Aran,25,Lleida,1,XEMA,2,Operativa,2021-03-11T00:00:00.000,
238,VW,Caldes de Montbui - Torre Marimon,A,41.61235,2.17099,"{'type': 'Point', 'coordinates': [2.17099, 41....",Finca Torre Marimon,164.5,080333,Caldes de Montbui,41,Vallès Oriental,8,Barcelona,1,XEMA,1,Desmantellada,1990-12-23T00:00:00.000,2007-03-08T00:00:00.000


In [None]:
merged_df=pd.merge(data_lectura,data_codis_variables,on="codi_variable", how='inner' )
display(merged_df)

Unnamed: 0,id,codi_estacio,codi_variable,data_lectura,data_extrem,valor_lectura,codi_estat,codi_base,nom_variable,unitat,acronim,codi_tipus_var,decimals
0,U2401901170400,U2,40,2017-01-19T04:00:00.000,2017-01-19T04:29:00.000,-1.3,V,SH,Temperatura màxima,°C,Tx,DAT,1
1,U2421901170400,U2,42,2017-01-19T04:00:00.000,2017-01-19T04:12:00.000,-1.7,V,SH,Temperatura mínima,°C,Tn,DAT,1
2,U2331901170400,U2,33,2017-01-19T04:00:00.000,,67,V,SH,Humitat relativa,%,HR,DAT,0
3,U2441901170400,U2,44,2017-01-19T04:00:00.000,2017-01-19T04:00:00.000,66,V,SH,Humitat relativa mínima,%,HRn,DAT,0
4,U2031901170400,U2,3,2017-01-19T04:00:00.000,2017-01-19T04:10:00.000,68,V,SH,Humitat relativa màxima,%,HRx,DAT,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,XT721901170400,XT,72,2017-01-19T04:00:00.000,2017-01-19T04:00:00.000,0,V,SH,Precipitació màxima en 1 minut,mm,PPTx1min,DAT,1
996,XT361901170400,XT,36,2017-01-19T04:00:00.000,,0,V,SH,Irradiància solar global,W/m²,RS,DAT,0
997,XT341901170400,XT,34,2017-01-19T04:00:00.000,,940.4,V,SH,Pressió atmosfèrica,hPa,P,DAT,1
998,XT321901170400,XT,32,2017-01-19T04:00:00.000,,-5.6,V,SH,Temperatura,°C,T,DAT,1


In [None]:
df=pd.merge(merged_df,data_estacions,on="codi_estacio", how='inner' )
display(df)

Unnamed: 0,id,codi_estacio,codi_variable,data_lectura,data_extrem,valor_lectura,codi_estat,codi_base,nom_variable,unitat,...,codi_comarca,nom_comarca,codi_provincia,nom_provincia,codi_xarxa,nom_xarxa,codi_estat_ema,nom_estat_ema,data_inici,data_fi
0,U2401901170400,U2,40,2017-01-19T04:00:00.000,2017-01-19T04:29:00.000,-1.3,V,SH,Temperatura màxima,°C,...,2,Alt Empordà,17,Girona,1,XEMA,2,Operativa,1989-05-01T00:00:00.000,
1,U2421901170400,U2,42,2017-01-19T04:00:00.000,2017-01-19T04:12:00.000,-1.7,V,SH,Temperatura mínima,°C,...,2,Alt Empordà,17,Girona,1,XEMA,2,Operativa,1989-05-01T00:00:00.000,
2,U2331901170400,U2,33,2017-01-19T04:00:00.000,,67,V,SH,Humitat relativa,%,...,2,Alt Empordà,17,Girona,1,XEMA,2,Operativa,1989-05-01T00:00:00.000,
3,U2441901170400,U2,44,2017-01-19T04:00:00.000,2017-01-19T04:00:00.000,66,V,SH,Humitat relativa mínima,%,...,2,Alt Empordà,17,Girona,1,XEMA,2,Operativa,1989-05-01T00:00:00.000,
4,U2031901170400,U2,3,2017-01-19T04:00:00.000,2017-01-19T04:10:00.000,68,V,SH,Humitat relativa màxima,%,...,2,Alt Empordà,17,Girona,1,XEMA,2,Operativa,1989-05-01T00:00:00.000,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,XT721901170400,XT,72,2017-01-19T04:00:00.000,2017-01-19T04:00:00.000,0,V,SH,Precipitació màxima en 1 minut,mm,...,35,Solsonès,25,Lleida,1,XEMA,2,Operativa,2012-07-12T00:00:00.000,
996,XT361901170400,XT,36,2017-01-19T04:00:00.000,,0,V,SH,Irradiància solar global,W/m²,...,35,Solsonès,25,Lleida,1,XEMA,2,Operativa,2012-07-12T00:00:00.000,
997,XT341901170400,XT,34,2017-01-19T04:00:00.000,,940.4,V,SH,Pressió atmosfèrica,hPa,...,35,Solsonès,25,Lleida,1,XEMA,2,Operativa,2012-07-12T00:00:00.000,
998,XT321901170400,XT,32,2017-01-19T04:00:00.000,,-5.6,V,SH,Temperatura,°C,...,35,Solsonès,25,Lleida,1,XEMA,2,Operativa,2012-07-12T00:00:00.000,


In [None]:
df=pd.DataFrame(df)
display(df)

Unnamed: 0,id,codi_estacio,codi_variable,data_lectura,data_extrem,valor_lectura,codi_estat,codi_base,nom_variable,unitat,...,codi_comarca,nom_comarca,codi_provincia,nom_provincia,codi_xarxa,nom_xarxa,codi_estat_ema,nom_estat_ema,data_inici,data_fi
0,U2401901170400,U2,40,2017-01-19T04:00:00.000,2017-01-19T04:29:00.000,-1.3,V,SH,Temperatura màxima,°C,...,2,Alt Empordà,17,Girona,1,XEMA,2,Operativa,1989-05-01T00:00:00.000,
1,U2421901170400,U2,42,2017-01-19T04:00:00.000,2017-01-19T04:12:00.000,-1.7,V,SH,Temperatura mínima,°C,...,2,Alt Empordà,17,Girona,1,XEMA,2,Operativa,1989-05-01T00:00:00.000,
2,U2331901170400,U2,33,2017-01-19T04:00:00.000,,67,V,SH,Humitat relativa,%,...,2,Alt Empordà,17,Girona,1,XEMA,2,Operativa,1989-05-01T00:00:00.000,
3,U2441901170400,U2,44,2017-01-19T04:00:00.000,2017-01-19T04:00:00.000,66,V,SH,Humitat relativa mínima,%,...,2,Alt Empordà,17,Girona,1,XEMA,2,Operativa,1989-05-01T00:00:00.000,
4,U2031901170400,U2,3,2017-01-19T04:00:00.000,2017-01-19T04:10:00.000,68,V,SH,Humitat relativa màxima,%,...,2,Alt Empordà,17,Girona,1,XEMA,2,Operativa,1989-05-01T00:00:00.000,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,XT721901170400,XT,72,2017-01-19T04:00:00.000,2017-01-19T04:00:00.000,0,V,SH,Precipitació màxima en 1 minut,mm,...,35,Solsonès,25,Lleida,1,XEMA,2,Operativa,2012-07-12T00:00:00.000,
996,XT361901170400,XT,36,2017-01-19T04:00:00.000,,0,V,SH,Irradiància solar global,W/m²,...,35,Solsonès,25,Lleida,1,XEMA,2,Operativa,2012-07-12T00:00:00.000,
997,XT341901170400,XT,34,2017-01-19T04:00:00.000,,940.4,V,SH,Pressió atmosfèrica,hPa,...,35,Solsonès,25,Lleida,1,XEMA,2,Operativa,2012-07-12T00:00:00.000,
998,XT321901170400,XT,32,2017-01-19T04:00:00.000,,-5.6,V,SH,Temperatura,°C,...,35,Solsonès,25,Lleida,1,XEMA,2,Operativa,2012-07-12T00:00:00.000,


Elimnar columnes irrelavants o innecessaries:
**nom_municipi**,
**nom_provincia**,
**nom_comarca**,
**nom_estat_ema**,
**nom_xarxa**

In [None]:
# Llista de columnes a eliminar
columnes_a_eliminar = [
    "nom_municipi", "nom_provincia", "nom_comarca", "nom_estat_ema", "nom_xarxa"
]

# Eliminar columnes
df = df.drop(columns=columnes_a_eliminar)

In [None]:
# Calcular el porcentaje de valores nulos por columna
porcentaje_nulos = df.isnull().sum() / len(df) * 100
# Filtrar columnas con 70% o más de valores nulos
columnas_mas_70_nulos = porcentaje_nulos[porcentaje_nulos >= 70].index

print("Columnas con 70% o más valores nulos:")
display(columnas_mas_70_nulos)

Columnas con 70% o más valores nulos:


Index(['data_fi'], dtype='object')

In [None]:
# Eliminar columnes
df = df.drop(columns=columnas_mas_70_nulos)

In [None]:
# Ver los tipos de datos de todas las columnas en el DataFrame
print(df.dtypes)

In [None]:
numeric_columns = [
    "codi_variable", "valor_lectura", "codi_comarca", "codi_provincia", "codi_xarxa", "codi_estat_ema",
    "latitud", "longitud"
]

# Convertir las columnas a tipo numérico
df[numeric_columns] = df[numeric_columns].apply(pd.to_numeric, errors='coerce')

In [None]:
df.dtypes

Unnamed: 0,0
id,object
codi_estacio,object
codi_variable,int64
data_lectura,object
data_extrem,object
valor_lectura,float64
codi_estat,object
codi_base,object
nom_variable,object
unitat,object


In [None]:
categorical_columns = df.select_dtypes(include=['object']).columns
display(df[categorical_columns])

Unnamed: 0,id,codi_estacio,data_lectura,data_extrem,codi_estat,codi_base,nom_variable,unitat,acronim,codi_tipus_var,decimals,nom_estacio,codi_tipus,geocoded_column,emplacament,altitud,codi_municipi,data_inici
0,U2401901170400,U2,2017-01-19T04:00:00.000,2017-01-19T04:29:00.000,V,SH,Temperatura màxima,°C,Tx,DAT,1,Sant Pere Pescador,A,"{'type': 'Point', 'coordinates': [3.0968, 42.1...","Mas Blanc, Mas Fages 17",4,171788,1989-05-01T00:00:00.000
1,U2421901170400,U2,2017-01-19T04:00:00.000,2017-01-19T04:12:00.000,V,SH,Temperatura mínima,°C,Tn,DAT,1,Sant Pere Pescador,A,"{'type': 'Point', 'coordinates': [3.0968, 42.1...","Mas Blanc, Mas Fages 17",4,171788,1989-05-01T00:00:00.000
2,U2331901170400,U2,2017-01-19T04:00:00.000,,V,SH,Humitat relativa,%,HR,DAT,0,Sant Pere Pescador,A,"{'type': 'Point', 'coordinates': [3.0968, 42.1...","Mas Blanc, Mas Fages 17",4,171788,1989-05-01T00:00:00.000
3,U2441901170400,U2,2017-01-19T04:00:00.000,2017-01-19T04:00:00.000,V,SH,Humitat relativa mínima,%,HRn,DAT,0,Sant Pere Pescador,A,"{'type': 'Point', 'coordinates': [3.0968, 42.1...","Mas Blanc, Mas Fages 17",4,171788,1989-05-01T00:00:00.000
4,U2031901170400,U2,2017-01-19T04:00:00.000,2017-01-19T04:10:00.000,V,SH,Humitat relativa màxima,%,HRx,DAT,0,Sant Pere Pescador,A,"{'type': 'Point', 'coordinates': [3.0968, 42.1...","Mas Blanc, Mas Fages 17",4,171788,1989-05-01T00:00:00.000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,XT721901170400,XT,2017-01-19T04:00:00.000,2017-01-19T04:00:00.000,V,SH,Precipitació màxima en 1 minut,mm,PPTx1min,DAT,1,Solsona,A,"{'type': 'Point', 'coordinates': [1.51165, 41....",Magatzem Municipal,691,252075,2012-07-12T00:00:00.000
996,XT361901170400,XT,2017-01-19T04:00:00.000,,V,SH,Irradiància solar global,W/m²,RS,DAT,0,Solsona,A,"{'type': 'Point', 'coordinates': [1.51165, 41....",Magatzem Municipal,691,252075,2012-07-12T00:00:00.000
997,XT341901170400,XT,2017-01-19T04:00:00.000,,V,SH,Pressió atmosfèrica,hPa,P,DAT,1,Solsona,A,"{'type': 'Point', 'coordinates': [1.51165, 41....",Magatzem Municipal,691,252075,2012-07-12T00:00:00.000
998,XT321901170400,XT,2017-01-19T04:00:00.000,,V,SH,Temperatura,°C,T,DAT,1,Solsona,A,"{'type': 'Point', 'coordinates': [1.51165, 41....",Magatzem Municipal,691,252075,2012-07-12T00:00:00.000


In [None]:
# Llista de columnes a eliminar
columnes_a_eliminar = [
    "geocoded_column", "unitat", "decimals"
]

# Eliminar columnes
df = df.drop(columns=columnes_a_eliminar)

In [None]:
display(df)

Unnamed: 0,id,codi_estacio,codi_variable,data_lectura,data_extrem,valor_lectura,codi_estat,codi_base,nom_variable,acronim,...,latitud,longitud,emplacament,altitud,codi_municipi,codi_comarca,codi_provincia,codi_xarxa,codi_estat_ema,data_inici
0,U2401901170400,U2,40,2017-01-19T04:00:00.000,2017-01-19T04:29:00.000,-1.3,V,SH,Temperatura màxima,Tx,...,42.17716,3.09680,"Mas Blanc, Mas Fages 17",4,171788,2,17,1,2,1989-05-01T00:00:00.000
1,U2421901170400,U2,42,2017-01-19T04:00:00.000,2017-01-19T04:12:00.000,-1.7,V,SH,Temperatura mínima,Tn,...,42.17716,3.09680,"Mas Blanc, Mas Fages 17",4,171788,2,17,1,2,1989-05-01T00:00:00.000
2,U2331901170400,U2,33,2017-01-19T04:00:00.000,,67.0,V,SH,Humitat relativa,HR,...,42.17716,3.09680,"Mas Blanc, Mas Fages 17",4,171788,2,17,1,2,1989-05-01T00:00:00.000
3,U2441901170400,U2,44,2017-01-19T04:00:00.000,2017-01-19T04:00:00.000,66.0,V,SH,Humitat relativa mínima,HRn,...,42.17716,3.09680,"Mas Blanc, Mas Fages 17",4,171788,2,17,1,2,1989-05-01T00:00:00.000
4,U2031901170400,U2,3,2017-01-19T04:00:00.000,2017-01-19T04:10:00.000,68.0,V,SH,Humitat relativa màxima,HRx,...,42.17716,3.09680,"Mas Blanc, Mas Fages 17",4,171788,2,17,1,2,1989-05-01T00:00:00.000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,XT721901170400,XT,72,2017-01-19T04:00:00.000,2017-01-19T04:00:00.000,0.0,V,SH,Precipitació màxima en 1 minut,PPTx1min,...,41.98766,1.51165,Magatzem Municipal,691,252075,35,25,1,2,2012-07-12T00:00:00.000
996,XT361901170400,XT,36,2017-01-19T04:00:00.000,,0.0,V,SH,Irradiància solar global,RS,...,41.98766,1.51165,Magatzem Municipal,691,252075,35,25,1,2,2012-07-12T00:00:00.000
997,XT341901170400,XT,34,2017-01-19T04:00:00.000,,940.4,V,SH,Pressió atmosfèrica,P,...,41.98766,1.51165,Magatzem Municipal,691,252075,35,25,1,2,2012-07-12T00:00:00.000
998,XT321901170400,XT,32,2017-01-19T04:00:00.000,,-5.6,V,SH,Temperatura,T,...,41.98766,1.51165,Magatzem Municipal,691,252075,35,25,1,2,2012-07-12T00:00:00.000


In [None]:
df.shape

(1000, 23)

In [None]:
df.dtypes

Unnamed: 0,0
id,object
codi_estacio,object
codi_variable,int64
data_lectura,object
data_extrem,object
valor_lectura,float64
codi_estat,object
codi_base,object
nom_variable,object
acronim,object


Guardem el conjunt de dades df

In [None]:
# Guarda el DataFrame como un archivo CSV
df.to_csv('dades_estacions.csv', index=False)
files.download('dades_estacions.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
# Guarda el DataFrame como un archivo CSV
certificats.to_csv('certificats_clean.csv', index=False)

files.download('certificats_clean.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
from google.colab import files

In [None]:
certificats_clean = pd.read_csv("/content/drive/MyDrive/HACKATHON_PROVES/certificats_clean.csv")

In [None]:
df = pd.read_csv("/content/drive/MyDrive/HACKATHON_PROVES/dades_estacions.csv")

In [None]:
for column in certificats_clean.columns:
    print(f"Valores únicos en la columna '{column}':")
    display(certificats_clean[column].unique())
    print("\n")

Valores únicos en la columna 'num_cas':


array(['BMGDF6CPF', 'YT0MZMXMG', 'D4F3KFL7T', ..., 'L0C4VRTWB',
       'YQF488ZVJ', '34XQR8KYB'], dtype=object)



Valores únicos en la columna 'codi_poblacio':


array([ 8001,  8114,  8019,  8020,  8123,  8245,  8102,  8161,  8156,
        8147,  8002,  8003,  8118,  8180,  8279,  8281, 43019,  8101,
        8197,  8068,  8120,  8004,  8005, 43038,  8184,  8124,  8134,
        8046,  8033,  8187,  8088, 17033,  8006,  8007,  8040,  8155,
        8015,  8121,  8029,  8172,  8030,  8035, 17103,  8163,  8203,
        8107,  8008,  8009,  8073,  8153,  8010,  8113,  8061,  8204,
        8022,  8192,  8218,  8011,  8092,  8012,  8141,  8191,  8013,
        8014,  8094,  8282,  8194,  8205,  8301,  8096,  8296,  8126,
        8268,  8266,  8904, 17022, 17095,  8169,  8125, 25120, 43148,
        8263,  8200,  8289,  8016,  8166,  8089,  8017,  8037,  8067,
        8298,  8283,  8018,  8196,  8202,  8047, 17079,  8270,  8104,
       43037,  8260,  8252,  8217, 17160,  8307,  8077, 43153, 43136,
        8211,  8074,  8238,  8051, 43155, 17006, 43028,  8198,  8221,
       17142, 17118,  8076, 17009,  8208, 17152,  8231,  8179,  8056,
        8041,  8159,



Valores únicos en la columna 'codi_comarca':


array([11., 33., 13.,  6., 40.,  7., 21., 30., 24., 41.,  8., 34., 14.,
        3., 10., 17., 36., 20., 12., 22.,  9., 15.,  2., 28., 35., 42.,
       nan, 31., 16.,  4., 19., 29., 27., 38., 26.,  1., 39.,  5., 32.,
       23., 25., 18., 37.])



Valores únicos en la columna 'codi_provincia':


array([ 8, 43, 17, 25])



Valores únicos en la columna 'referencia_cadastral':


array(['8468003DF0986N0001TA', '8566417DF0986N0001PA',
       '8367801DF0986N0015PX', ..., '6728033CG2762N0007PE',
       '5852701CF6555S0017UL', '2603005DG3420S0001HA'], dtype=object)



Valores únicos en la columna 'zona_climatica':


array(['C2', 'D2', 'D1', nan, 'C3', 'E1', 'B3', 'D3'], dtype=object)



Valores únicos en la columna 'metres_cadastre':


array([ 164.  ,   70.53,   74.06, ..., 6738.  ,  483.17,  132.69])



Valores únicos en la columna 'us_edifici':


array(['Habitatge unifamiliar',
       "Habitatge individual en bloc d'habitatges", 'Terciari',
       "Bloc d'habitatges plurifamiliar", 'Vivienda unifamiliar',
       'Vivienda individual en bloque de viviendas', 'Terciario',
       "Bloc d'habitatges", 'Bloque de viviendas',
       'Bloque de viviendas plurifamiliar', 'Habitatge Unifamiliar'],
      dtype=object)



Valores únicos en la columna 'qualificaci_de_consum_d':


array(['D', 'E', 'G', 'F', 'C', 'B', 'A'], dtype=object)



Valores únicos en la columna 'energia_prim_ria_no_renovable':


array([151.3 , 192.11, 323.1 , ..., 758.78, 485.74, 567.58])



Valores únicos en la columna 'qualificacio_d_emissions':


array(['D', 'E', 'F', 'G', 'C', 'B', 'A'], dtype=object)



Valores únicos en la columna 'emissions_de_co2':


array([ 31.6 ,  49.59,  54.7 , ..., 162.72, 182.06, 195.69])



Valores únicos en la columna 'consum_d_energia_final':


array([  0.  ,  30.87, 156.79, ..., 365.33, 627.66, 384.68])



Valores únicos en la columna 'cost_anual_aproximat_d_energia':


array([   0.  , 2491.  ,  966.7 , ..., 2017.82, 4094.92, 1304.46])



Valores únicos en la columna 'sistema_biomassa':


array([ 0., nan,  1.])



Valores únicos en la columna 'xarxa_districte':


array([nan,  0.,  1.])



Valores únicos en la columna 'energia_geotermica':


array([ 0.,  1., nan])



Valores únicos en la columna 'valor_aillaments':


array([0.00e+00, 1.13e+00, 2.38e+00, 2.40e-01, 1.69e+00, 1.80e+00,
       5.20e-01, 2.01e+00, 1.17e+00, 1.53e+00, 7.40e-01, 1.81e+00,
       6.60e-01, 6.30e-01, 1.93e+00, 5.00e-01, 1.34e+00, 1.36e+00,
       1.90e+00, 5.10e-01, 7.50e-01, 2.19e+00, 6.90e-01, 7.20e-01,
       8.40e-01, 3.20e-01, 9.10e-01, 3.13e+00, 1.20e+00, 2.21e+00,
       1.41e+00, 7.90e-01, 2.20e-01, 2.70e-01, 1.99e+00, 9.30e-01,
       3.10e-01, 6.00e-01, 8.50e-01, 1.60e+00, 2.25e+00, 2.03e+00,
       2.15e+00, 3.60e-01, 2.00e-01, 4.10e-01, 2.33e+00, 1.35e+00,
       2.02e+00, 1.40e-01, 2.31e+00, 1.08e+00, 5.90e-01, 7.30e-01,
       9.90e-01, 1.97e+00, 7.00e-01, 1.43e+00, 1.12e+00, 1.82e+00,
       1.92e+00, 8.10e-01, 1.83e+00, 1.84e+00, 5.30e-01, 2.00e+00,
       1.77e+00, 1.11e+00, 2.29e+00, 1.89e+00, 1.70e+00, 1.37e+00,
       1.28e+00, 6.40e-01, 1.87e+00, 1.74e+00, 1.94e+00, 1.66e+00,
       1.96e+00, 1.72e+00, 9.80e-01, 1.75e+00, 4.70e-01, 1.56e+00,
       2.10e+00, 7.60e-01, 2.09e+00, 1.14e+00, 2.27e+00, 1.24e



Valores únicos en la columna 'valor_finestres':


array([0.0000e+00, 4.3200e+00, 3.8300e+00, 3.4400e+00, 3.7200e+00,
       4.2600e+00, 4.6100e+00, 3.7800e+00, 3.5400e+00, 4.7100e+00,
       3.5700e+00, 5.0000e+00, 5.3700e+00, 5.7000e+00, 3.3100e+00,
       3.6600e+00, 3.0800e+00, 3.7000e+00, 3.0700e+00, 5.1200e+00,
       5.2300e+00, 3.2800e+00, 3.2000e+00, 3.9300e+00, 2.9600e+00,
       3.8900e+00, 4.1600e+00, 3.9000e+00, 4.4400e+00, 4.3300e+00,
       5.4900e+00, 5.0200e+00, 5.3600e+00, 3.8200e+00, 3.7300e+00,
       5.2200e+00, 4.1400e+00, 5.2100e+00, 3.9400e+00, 2.9400e+00,
       4.6700e+00, 5.2400e+00, 4.1100e+00, 4.2200e+00, 2.5700e+00,
       4.0200e+00, 5.5700e+00, 4.3900e+00, 1.5500e+00, 3.3000e+00,
       3.2900e+00, 3.9200e+00, 3.4900e+00, 5.1300e+00, 4.7500e+00,
       4.5000e+00, 2.9700e+00, 4.6900e+00, 3.4200e+00, 4.0600e+00,
       3.4500e+00, 4.0300e+00, 3.1600e+00, 4.0700e+00, 2.2100e+00,
       4.0800e+00, 3.7100e+00, 4.3500e+00, 4.1800e+00, 3.5000e+00,
       3.9800e+00, 4.2900e+00, 3.6700e+00, 4.0400e+00, 5.0500e



Valores únicos en la columna 'valor_aillaments_cte':


array([0.49, 0.41, 0.  , 0.37, 0.56])



Valores únicos en la columna 'valor_finestres_cte':


array([2.1, 1.8, 0. , 2.3])



Valores únicos en la columna 'utm_x':


array([408317.96, 408446.6 , 408154.13, ..., 326541.43, 432659.09,
       432538.36])



Valores únicos en la columna 'utm_y':


array([4596612.14, 4596345.98, 4596596.29, ..., 4672685.66, 4640170.78,
       4640179.33])



Valores únicos en la columna 'tipus_tramit':


array(['Edificis existents', 'Edificis existents acabats',
       'Edificis acabats'], dtype=object)



Valores únicos en la columna 'qualificaci_emissions':


array([nan, 'E', 'C', 'D', 'F', 'G', 'B', 'A'], dtype=object)



Valores únicos en la columna 'emissions_calefacci':


array([   nan,  36.53,   6.97, ..., 119.09, 161.75, 170.93])



Valores únicos en la columna 'qualificaci_emissions_1':


array([nan, 'C', 'B', 'A', 'D', 'E', 'F', 'G'], dtype=object)



Valores únicos en la columna 'emissions_refrigeraci':


array([  nan,  1.64,  1.45, ..., 50.48, 37.14, 23.85])



Valores únicos en la columna 'qualificaci_emissions_acs':


array([nan, 'G', 'E', 'D', 'F', 'A', 'C', 'B'], dtype=object)



Valores únicos en la columna 'emissions_acs':


array([   nan,  10.99,  12.4 , ...,  74.69, 260.08, 202.36])



Valores únicos en la columna 'emissions_enllumenament':


array([   nan,   0.  ,   4.96, ...,  44.27, 229.26,  44.18])



Valores únicos en la columna 'qualificaci_energia_calefacci':


array([nan, 'E', 'C', 'F', 'D', 'G', 'B', 'A'], dtype=object)



Valores únicos en la columna 'energia_calefacci':


array([   nan, 172.5 ,  32.91, ..., 670.55, 613.21, 474.18])



Valores únicos en la columna 'qualificaci_energia':


array([nan, 'D', 'B', 'C', 'A', 'E', 'G', 'F'], dtype=object)



Valores únicos en la columna 'energia_refrigeraci':


array([   nan,   9.68,   8.56, ..., 219.27,  72.1 , 140.77])



Valores únicos en la columna 'qualificaci_energia_acs':


array([nan, 'G', 'F', 'E', 'B', 'C', 'D', 'A'], dtype=object)



Valores únicos en la columna 'energia_acs':


array([   nan,  64.88,  58.55, ..., 955.59, 190.56, 237.8 ])



Valores únicos en la columna 'energia_enllumenament':


array([   nan,   0.  ,  29.28, ...,  70.8 , 235.38, 260.82])



Valores únicos en la columna 'qualificaci_energia_calefacci_1':


array([nan, 'G', 'C', 'E', 'F', 'D', 'B', 'A'], dtype=object)



Valores únicos en la columna 'energia_calefacci_demanda':


array([   nan, 133.36,  25.44, ..., 262.14, 268.78, 362.75])



Valores únicos en la columna 'qualificaci_energia_2':


array([nan, 'D', 'B', 'C', 'A', 'E', 'G', 'F', '-'], dtype=object)



Valores únicos en la columna 'energia_refrigeraci_demanda':


array([   nan,   9.91,   8.76, ...,  73.48, 108.53, 144.09])



Valores únicos en la columna 'ventilacio_us_residencial':


array([  nan,  0.63,  0.86,  0.8 ,  1.65,  0.37,  0.76,  0.6 ,  0.82,
        0.72,  1.15,  0.68,  0.55,  0.85,  0.78,  0.54,  0.97,  0.5 ,
        0.16,  0.88,  0.81,  0.83,  1.  ,  0.52,  0.58,  0.77,  0.79,
        1.68,  0.67,  0.48,  0.92,  2.46,  0.84,  0.75,  0.96,  0.74,
        0.9 ,  0.3 ,  0.64,  0.98,  1.01,  0.22,  0.41,  0.93,  0.95,
        0.4 ,  0.7 ,  0.31,  2.65,  0.91,  0.56,  0.51,  0.27,  0.36,
        0.87,  0.66,  1.37,  0.94,  0.57,  0.49,  0.69,  1.2 ,  0.62,
        0.99,  0.53,  0.45,  0.21,  0.73,  1.08,  1.81,  0.71,  0.24,
        0.46,  1.5 ,  0.65,  1.04,  0.42,  0.44,  0.47,  1.02,  1.05,
        0.33,  0.59,  0.89,  0.25,  0.61,  0.35,  1.6 ,  0.05,  0.38,
        0.43,  1.3 ,  0.1 ,  0.18,  1.12,  1.11,  1.06,  0.01,  1.19,
        1.86,  1.1 ,  1.26,  1.22,  1.27,  0.28,  0.06,  1.25,  1.43,
        1.46,  0.2 ,  0.34,  0.29,  1.24,  1.47,  1.42,  1.21,  1.44,
        1.94,  0.32,  1.63,  1.84,  1.38,  1.4 ,  0.14,  0.03,  2.84,
        2.28,  1.17,



Valores únicos en la columna 'longitud':


array([1.90126124, 1.90284311, 1.89930063, ..., 0.89941776, 2.18801537,
       2.1865588 ])



Valores únicos en la columna 'latitud':


array([41.51589997, 41.51351771, 41.51573846, ..., 42.18709791,
       41.9106154 , 41.9106821 ])



Valores únicos en la columna 'georeferencia':


array(['POINT (1.901261244149 41.515899972165)',
       'POINT (1.902843106253 41.513517711742)',
       'POINT (1.899300634003 41.51573845805)', ...,
       'POINT (0.899417757899 42.187097913344)',
       'POINT (2.188015372842 41.910615399107)',
       'POINT (2.186558796006 41.91068209703)'], dtype=object)



Valores únicos en la columna 'rehabilitacio_energetica':


array([nan,  0.,  1.])



Valores únicos en la columna 'data_entrada':


array(['26/01/2016', '16/11/2015', '22/04/2016', ..., '27/08/2022',
       '18/01/2025', '09/04/2023'], dtype=object)



Valores únicos en la columna 'mundissec':


array([8.0018010e+09, 8.0018010e+09, 8.0018010e+09, ..., 4.3907601e+10,
       4.3907601e+10,           nan])





### Censal sections

In [None]:
import requests

# URL de descarga del ZIP con los datos más recientes
url = "https://datacloud.icgc.cat/datacloud/bseccen_etrs89/shp/bseccenv10sh1f1_20230101_0.zip"

# Descargar el archivo ZIP
zip_path = "seccions_censals.zip"
response = requests.get(url)
with open(zip_path, "wb") as file:
    file.write(response.content)

print("Descarga completa:", zip_path)


Descarga completa: seccions_censals.zip


In [None]:
import zipfile
import os

# Extraer archivos en una carpeta
extract_path = "seccions_censals/"
with zipfile.ZipFile(zip_path, "r") as zip_ref:
    zip_ref.extractall(extract_path)

print("Archivos extraídos en:", extract_path)

# Listar archivos extraídos
print(os.listdir(extract_path))

Archivos extraídos en: seccions_censals/
['bseccenv10sh1f1_20230101_0.html', 'bseccenv10sh1f1_20230101_0.shx', 'bseccenv10sh1f1_20230101_0.sbx', 'bseccenv10sh1f1_20230101_0.prj', 'bseccenv10sh1f1_20230101_0.shp', 'bseccenv10sh1f1_20230101_0.dbf', 'bseccenv10sh1f1_20230101_0.sbn']


In [None]:
import geopandas as gpd

# Ruta del archivo SHP
shapefile_path = os.path.join(extract_path, "bseccenv10sh1f1_20230101_0.shp")

# Cargar el shapefile
seccions_censals = gpd.read_file(shapefile_path)
display(seccions_censals)

Unnamed: 0,MUNICIPI,DISTRICTE,SECCIO,MUNDISSEC,geometry
0,080018,01,001,08001801001,"POLYGON ((408792.512 4596753.053, 408797.803 4..."
1,080018,01,002,08001801002,"POLYGON ((408265.107 4597223.944, 408314.501 4..."
2,080018,01,003,08001801003,"POLYGON ((409202.138 4598159.531, 409215.4 459..."
3,080018,01,004,08001801004,"POLYGON ((408670.544 4598076.591, 408718.938 4..."
4,080018,01,005,08001801005,"POLYGON ((408075.992 4597102.922, 408093.732 4..."
...,...,...,...,...,...
5103,439060,01,002,43906001002,"MULTIPOLYGON (((308777.86 4521146.72, 308777.1..."
5104,439076,01,001,43907601001,"POLYGON ((347378.253 4554705.805, 347385.9 455..."
5105,439076,01,002,43907601002,"POLYGON ((348005.5 4553797.1, 348017.748 45537..."
5106,439076,01,003,43907601003,"POLYGON ((346261.4 4555701.4, 346505.5 4555732..."


In [None]:
print(seccions_censals.columns)

Index(['MUNICIPI', 'DISTRICTE', 'SECCIO', 'MUNDISSEC', 'geometry'], dtype='object')


In [None]:
display(seccions_censals.info())

<class 'geopandas.geodataframe.GeoDataFrame'>
RangeIndex: 5108 entries, 0 to 5107
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype   
---  ------     --------------  -----   
 0   MUNICIPI   5108 non-null   object  
 1   DISTRICTE  5108 non-null   object  
 2   SECCIO     5108 non-null   object  
 3   MUNDISSEC  5108 non-null   object  
 4   geometry   5108 non-null   geometry
dtypes: geometry(1), object(4)
memory usage: 199.7+ KB


None

In [None]:
import geopandas as gpd
import matplotlib.pyplot as plt

# Visualizar el mapa de las secciones censales
fig, ax = plt.subplots(figsize=(10, 10))

# Dibujar el mapa usando la geometría de las secciones censales
seccions_censals.plot(ax=ax, column='MUNDISSEC', cmap='Set3', edgecolor='black', legend=True)

plt.title('Mapa de Secciones Censales', fontsize=15)
plt.xlabel('Longitud')
plt.ylabel('Latitud')

# Mostrar el mapa
plt.show()

Output hidden; open in https://colab.research.google.com to view.

Unir dataset de secciones censales con el dataset principal de certificados a través de MUNDISSEC, para tener información detallada por barrios o zonas más pequeñas dentro de la ciudad.

In [None]:
seccions_censals['MUNDISSEC']

Unnamed: 0,MUNDISSEC
0,08001801001
1,08001801002
2,08001801003
3,08001801004
4,08001801005
...,...
5103,43906001002
5104,43907601001
5105,43907601002
5106,43907601003


In [None]:
certificats_clean['mundissec'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 1336925 entries, 0 to 1336924
Series name: mundissec
Non-Null Count    Dtype  
--------------    -----  
1317571 non-null  float64
dtypes: float64(1)
memory usage: 10.2 MB


In [None]:
certificats_clean['mundissec'] = certificats_clean['mundissec'].astype('object')

In [None]:
# Convertir la columna 'mundissec' de tipo object a tipo float
certificats_clean['mundissec'] = pd.to_numeric(certificats_clean['mundissec'], errors='coerce')

# Verificar el cambio
print(certificats_clean.dtypes['mundissec'])

float64


In [None]:
# Convertir solo los valores no NaN a enteros (sin decimales) y luego a 'object'
certificats_clean['mundissec'] = certificats_clean['mundissec'].apply(lambda x: str(int(x)) if pd.notnull(x) else x)

# Verificar el cambio
print(certificats_clean.dtypes['mundissec'])

object


In [None]:
display(certificats_clean['mundissec'])

Unnamed: 0,mundissec
0,8001801001
1,8001801001
2,8001801001
3,8001801001
4,8001801001
...,...
1336920,
1336921,
1336922,
1336923,


In [None]:
# Cambiar el nombre de la columna 'mundissec' a 'MUNDISSEC'
certificats_clean = certificats_clean.rename(columns={'mundissec': 'MUNDISSEC'})


print(certificats_clean.columns)


Index(['num_cas', 'codi_poblacio', 'codi_comarca', 'codi_provincia',
       'referencia_cadastral', 'zona_climatica', 'metres_cadastre',
       'us_edifici', 'qualificaci_de_consum_d',
       'energia_prim_ria_no_renovable', 'qualificacio_d_emissions',
       'emissions_de_co2', 'consum_d_energia_final',
       'cost_anual_aproximat_d_energia', 'sistema_biomassa', 'xarxa_districte',
       'energia_geotermica', 'valor_aillaments', 'valor_finestres',
       'valor_aillaments_cte', 'valor_finestres_cte', 'utm_x', 'utm_y',
       'tipus_tramit', 'qualificaci_emissions', 'emissions_calefacci',
       'qualificaci_emissions_1', 'emissions_refrigeraci',
       'qualificaci_emissions_acs', 'emissions_acs', 'emissions_enllumenament',
       'qualificaci_energia_calefacci', 'energia_calefacci',
       'qualificaci_energia', 'energia_refrigeraci', 'qualificaci_energia_acs',
       'energia_acs', 'energia_enllumenament',
       'qualificaci_energia_calefacci_1', 'energia_calefacci_demanda',
     

Unir certificats amd les dades de seccions censals

In [None]:
# Elimina ceros a la izquierda en MUNDISSEC
seccions_censals['MUNDISSEC'] = seccions_censals['MUNDISSEC'].str.lstrip('0')


In [None]:
display(certificats_clean['MUNDISSEC'])
display(seccions_censals['MUNDISSEC'])

Unnamed: 0,MUNDISSEC
0,8001801001
1,8001801001
2,8001801001
3,8001801001
4,8001801001
...,...
1336920,
1336921,
1336922,
1336923,


Unnamed: 0,MUNDISSEC
0,8001801001
1,8001801002
2,8001801003
3,8001801004
4,8001801005
...,...
5103,43906001002
5104,43907601001
5105,43907601002
5106,43907601003


In [None]:
certifcats_amb_seccions_censals = certificats_clean.merge(seccions_censals, on='MUNDISSEC', how='left')

In [None]:
display(certifcats_amb_seccions_censals)

Unnamed: 0,num_cas,codi_poblacio,codi_comarca,codi_provincia,referencia_cadastral,zona_climatica,metres_cadastre,us_edifici,qualificaci_de_consum_d,energia_prim_ria_no_renovable,...,longitud,latitud,georeferencia,rehabilitacio_energetica,data_entrada,MUNDISSEC,MUNICIPI,DISTRICTE,SECCIO,geometry
0,BMGDF6CPF,8001,11.0,8,8468003DF0986N0001TA,C2,164.00,Habitatge unifamiliar,D,151.30,...,1.901261,41.515900,POINT (1.901261244149 41.515899972165),,26/01/2016,8001801001,080018,01,001,"POLYGON ((408792.512 4596753.053, 408797.803 4..."
1,YT0MZMXMG,8001,11.0,8,8566417DF0986N0001PA,C2,70.53,Habitatge unifamiliar,E,192.11,...,1.902843,41.513518,POINT (1.902843106253 41.513517711742),,16/11/2015,8001801001,080018,01,001,"POLYGON ((408792.512 4596753.053, 408797.803 4..."
2,D4F3KFL7T,8001,11.0,8,8367801DF0986N0015PX,C2,74.06,Habitatge individual en bloc d'habitatges,G,323.10,...,1.899301,41.515738,POINT (1.899300634003 41.51573845805),,22/04/2016,8001801001,080018,01,001,"POLYGON ((408792.512 4596753.053, 408797.803 4..."
3,WNCV3P13M,8001,11.0,8,8667613DF0986N0001WA,C2,102.00,Habitatge unifamiliar,E,31.06,...,1.903057,41.513610,POINT (1.903056537018 41.513609820129),,22/04/2015,8001801001,080018,01,001,"POLYGON ((408792.512 4596753.053, 408797.803 4..."
4,9K0RVRLD4,8001,11.0,8,8566002DF0986N0001QA,C2,33.00,Habitatge individual en bloc d'habitatges,G,247.06,...,1.902255,41.513983,POINT (1.902255349697 41.513983450863),0.0,02/06/2023,8001801001,080018,01,001,"POLYGON ((408792.512 4596753.053, 408797.803 4..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1336920,WGVBWQCCS,43076,29.0,43,000300300CF15D0001BI,C3,92.00,Habitatge unifamiliar,E,237.78,...,,,,0.0,07/01/2025,,,,,
1336921,J20RTDPHP,8247,24.0,8,3005306DG3430N0048TL,D1,43.47,Habitatge individual en bloc d'habitatges,G,369.80,...,2.190868,41.912715,POINT (2.190867874724 41.912715454327),,06/06/2016,,,,,
1336922,L0C4VRTWB,25215,25.0,25,6728033CG2762N0007PE,D3,38.00,Habitatge individual en bloc d'habitatges,G,340.45,...,0.899886,42.185600,POINT (0.899885987426 42.185599824229),0.0,30/09/2019,,,,,
1336923,YQF488ZVJ,43153,36.0,43,5852701CF6555S0017UL,B3,53.00,Terciario,E,567.58,...,1.402140,41.135469,POINT (1.402139949595 41.135468924025),0.0,14/04/2021,,,,,


In [None]:
certifcats_amb_seccions_censals[['MUNDISSEC', 'MUNICIPI', 'DISTRICTE', 'SECCIO', 'geometry']].isna().sum()

Unnamed: 0,0
MUNDISSEC,19354
MUNICIPI,19354
DISTRICTE,19354
SECCIO,19354
geometry,19354


In [None]:
# Filtra el DataFrame por MUNDISSEC igual a 8001801001
df_filtrado = certifcats_amb_seccions_censals[certifcats_amb_seccions_censals['MUNDISSEC'] == "8001801001"]

df_filtrado[['MUNDISSEC', 'MUNICIPI', 'DISTRICTE', 'SECCIO', 'geometry']]



Unnamed: 0,MUNDISSEC,MUNICIPI,DISTRICTE,SECCIO,geometry
0,8001801001,080018,01,001,"POLYGON ((408792.512 4596753.053, 408797.803 4..."
1,8001801001,080018,01,001,"POLYGON ((408792.512 4596753.053, 408797.803 4..."
2,8001801001,080018,01,001,"POLYGON ((408792.512 4596753.053, 408797.803 4..."
3,8001801001,080018,01,001,"POLYGON ((408792.512 4596753.053, 408797.803 4..."
4,8001801001,080018,01,001,"POLYGON ((408792.512 4596753.053, 408797.803 4..."
...,...,...,...,...,...
221,8001801001,080018,01,001,"POLYGON ((408792.512 4596753.053, 408797.803 4..."
222,8001801001,080018,01,001,"POLYGON ((408792.512 4596753.053, 408797.803 4..."
223,8001801001,080018,01,001,"POLYGON ((408792.512 4596753.053, 408797.803 4..."
224,8001801001,080018,01,001,"POLYGON ((408792.512 4596753.053, 408797.803 4..."


In [None]:
seccions_censals.info()

<class 'geopandas.geodataframe.GeoDataFrame'>
RangeIndex: 5108 entries, 0 to 5107
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype   
---  ------     --------------  -----   
 0   MUNICIPI   5108 non-null   object  
 1   DISTRICTE  5108 non-null   object  
 2   SECCIO     5108 non-null   object  
 3   MUNDISSEC  5108 non-null   object  
 4   geometry   5108 non-null   geometry
dtypes: geometry(1), object(4)
memory usage: 199.7+ KB


In [None]:
certifcats_amb_seccions_censals.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1336925 entries, 0 to 1336924
Data columns (total 53 columns):
 #   Column                           Non-Null Count    Dtype   
---  ------                           --------------    -----   
 0   num_cas                          1336925 non-null  object  
 1   codi_poblacio                    1336925 non-null  int64   
 2   codi_comarca                     1336908 non-null  float64 
 3   codi_provincia                   1336925 non-null  int64   
 4   referencia_cadastral             1335859 non-null  object  
 5   zona_climatica                   1308447 non-null  object  
 6   metres_cadastre                  1336925 non-null  float64 
 7   us_edifici                       1336925 non-null  object  
 8   qualificaci_de_consum_d          1336925 non-null  object  
 9   energia_prim_ria_no_renovable    1336795 non-null  float64 
 10  qualificacio_d_emissions         1336925 non-null  object  
 11  emissions_de_co2                 1336

In [None]:
certifcats_amb_seccions_censals = certifcats_amb_seccions_censals.drop(columns=['MUNICIPI'])

In [None]:
certificats_clean.to_csv('certificats_data_clean.csv', index=False)

files.download('certificats_data_clean.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
certificats_clean

In [None]:
# Guarda el DataFrame como un archivo CSV
seccions_censals.to_csv('seccions_censals.csv', index=False)

files.download('seccions_censals.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

### Merge new data

-ENCUESTAS (2008): https://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736176950&menu=resultados&idp=1254735576508

HABITATGE CATALUÑA EN DADES: https://analisi.transparenciacatalunya.cat/?sortBy=relevance&pageSize=20&category=Habitatge
https://analisi.transparenciacatalunya.cat/d/hepw-33ik (PREU MITJA LLOGUER PER MUNICIPI)

https://www.ine.es/dynt3/inebase/es/index.htm?padre=12385&capsel=12384# (IMPORTANT PER VISUALIZAR-HO)
https://www.idescat.cat/indicadors/?id=aec&n=15384&lang=es (IMPORTANT)

### Other questions

Quin és l’impacte de l’adopció d’energies renovables en les qualificacions d’eficiència energètica?

In [None]:
certificats_net = pd.read_csv("/content/drive/MyDrive/HACKATHON_PROVES/certificats_clean.csv")

In [None]:
display(certificats_net)

Unnamed: 0,num_cas,codi_poblacio,codi_comarca,codi_provincia,referencia_cadastral,zona_climatica,metres_cadastre,us_edifici,qualificaci_de_consum_d,energia_prim_ria_no_renovable,...,energia_calefacci_demanda,qualificaci_energia_2,energia_refrigeraci_demanda,ventilacio_us_residencial,longitud,latitud,georeferencia,rehabilitacio_energetica,data_entrada,mundissec
0,BMGDF6CPF,8001,11.0,8,8468003DF0986N0001TA,C2,164.00,Habitatge unifamiliar,D,151.30,...,,,,,1.901261,41.515900,POINT (1.901261244149 41.515899972165),,26/01/2016,8.001801e+09
1,YT0MZMXMG,8001,11.0,8,8566417DF0986N0001PA,C2,70.53,Habitatge unifamiliar,E,192.11,...,,,,0.63,1.902843,41.513518,POINT (1.902843106253 41.513517711742),,16/11/2015,8.001801e+09
2,D4F3KFL7T,8001,11.0,8,8367801DF0986N0015PX,C2,74.06,Habitatge individual en bloc d'habitatges,G,323.10,...,,,,,1.899301,41.515738,POINT (1.899300634003 41.51573845805),,22/04/2016,8.001801e+09
3,WNCV3P13M,8001,11.0,8,8667613DF0986N0001WA,C2,102.00,Habitatge unifamiliar,E,31.06,...,,,,0.63,1.903057,41.513610,POINT (1.903056537018 41.513609820129),,22/04/2015,8.001801e+09
4,9K0RVRLD4,8001,11.0,8,8566002DF0986N0001QA,C2,33.00,Habitatge individual en bloc d'habitatges,G,247.06,...,133.36,D,9.91,,1.902255,41.513983,POINT (1.902255349697 41.513983450863),0.0,02/06/2023,8.001801e+09
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1336920,WGVBWQCCS,43076,29.0,43,000300300CF15D0001BI,C3,92.00,Habitatge unifamiliar,E,237.78,...,83.18,B,12.65,,,,,0.0,07/01/2025,
1336921,J20RTDPHP,8247,24.0,8,3005306DG3430N0048TL,D1,43.47,Habitatge individual en bloc d'habitatges,G,369.80,...,149.82,,0.02,0.63,2.190868,41.912715,POINT (2.190867874724 41.912715454327),,06/06/2016,
1336922,L0C4VRTWB,25215,25.0,25,6728033CG2762N0007PE,D3,38.00,Habitatge individual en bloc d'habitatges,G,340.45,...,116.61,G,57.57,,0.899886,42.185600,POINT (0.899885987426 42.185599824229),0.0,30/09/2019,
1336923,YQF488ZVJ,43153,36.0,43,5852701CF6555S0017UL,B3,53.00,Terciario,E,567.58,...,212.42,G,144.09,,1.402140,41.135469,POINT (1.402139949595 41.135468924025),0.0,14/04/2021,


In [None]:
# Convertir a valores numéricos, forzando errores a NaN si hay problemas
certificats_net[cols_consumo] = certificats_net[cols_consumo].apply(pd.to_numeric, errors='coerce')


In [None]:
certificats_net[cols_consumo].describe().round(2)

Unnamed: 0,consum_d_energia_final,cost_anual_aproximat_d_energia,energia_calefacci,energia_refrigeraci,energia_acs,energia_enllumenament,energia_calefacci_demanda,energia_refrigeraci_demanda
count,1308439.0,1308439.0,1262802.0,1262683.0,1262802.0,1244495.0,1262806.0,1262503.0
mean,132.75,849.58,142.47,8.76,52.89,5.7,99.5,8.07
std,138.37,9490.73,88.24,11.53,110.43,52.75,49.42,8.98
min,-123.75,-2441.69,0.0,-4.73,-5.06,-99.71,0.0,0.0
25%,73.74,8.63,89.42,3.46,26.69,0.0,66.17,3.4
50%,129.44,15.01,129.31,6.07,45.53,0.0,92.28,5.8
75%,180.73,500.72,180.98,11.05,68.51,0.0,125.52,10.39
max,60589.2,5300218.69,20919.03,3438.24,72154.64,15657.01,3622.3,1573.1


In [None]:
# Columnas de consumo de energía
cols_consumo = [
    "consum_d_energia_final",
    "cost_anual_aproximat_d_energia",
    "energia_calefacci",
    "energia_refrigeraci",
    "energia_acs",
    "energia_enllumenament",
    "energia_calefacci_demanda",
    "energia_refrigeraci_demanda"
]

# Mostrar estadísticas descriptivas
certificats_net[cols_consumo].describe()


Unnamed: 0,consum_d_energia_final,cost_anual_aproximat_d_energia,energia_calefacci,energia_refrigeraci,energia_acs,energia_enllumenament,energia_calefacci_demanda,energia_refrigeraci_demanda
count,1308439.0,1308439.0,1262802.0,1262683.0,1262802.0,1244495.0,1262806.0,1262503.0
mean,132.7467,849.5791,142.4693,8.763096,52.89414,5.70121,99.5012,8.071672
std,138.3655,9490.725,88.23625,11.53429,110.43,52.75293,49.41546,8.979883
min,-123.75,-2441.69,0.0,-4.73,-5.06,-99.71,0.0,0.0
25%,73.74,8.63,89.42,3.46,26.69,0.0,66.17,3.4
50%,129.44,15.01,129.31,6.07,45.53,0.0,92.28,5.8
75%,180.73,500.72,180.98,11.05,68.51,0.0,125.52,10.39
max,60589.2,5300219.0,20919.03,3438.24,72154.64,15657.01,3622.3,1573.1


In [None]:
# Seleccionar solo las columnas necesarias
df_selected = certificats_net[['qualificaci_de_consum_d', 'energia_prim_ria_no_renovable', 'qualificacio_d_emissions']]
display(df_selected)

Unnamed: 0,qualificaci_de_consum_d,energia_prim_ria_no_renovable,qualificacio_d_emissions
0,D,151.30,D
1,E,192.11,E
2,G,323.10,F
3,E,31.06,E
4,G,247.06,F
...,...,...,...
1336920,E,237.78,E
1336921,G,369.80,F
1336922,G,340.45,E
1336923,E,567.58,E


In [None]:
df = pd.read_csv("/content/drive/MyDrive/HACKATHON_PROVES/df.csv")

# Q1

# Q2

# Q3: ¿Cómo influye la dependencia de la red eléctrica en la eficiencia energética global?

Para abordar esta pregunta, se analizará la dependencia de las viviendas con la red eléctrica a partir de diversas variables energéticas. Se desarrollará una métrica que permita clasificar los edificios como "dependientes" o "independientes", considerando factores clave relacionados con el consumo y la generación de energía.

El análisis incluirá la conexión del edificio a una red de calefacción o refrigeración distrital (xarxa_districte), el uso de fuentes de energía alternativas como la geotermia (energia_geotermica) o biomasa (sistema_biomassa), y el consumo energético específico en calefacción (energia_calefacci), refrigeración (energia_refrigeraci), agua caliente sanitaria (energia_acs) e iluminación (energia_enllumenament). Además, se evaluará el consumo total de energía (consum_d_energia_final) y su costo anual aproximado (cost_anual_aproximat_d_energia) para determinar el nivel de dependencia de la red eléctrica.

A partir de estos datos, se establecerán criterios para definir umbrales de dependencia, permitiendo clasificar los edificios y analizar cómo la variabilidad en estos factores influye en la eficiencia energética global.

In [None]:
df = pd.read_csv("/content/certificats_data_clean.csv")

In [None]:
sub_df = df[['energia_calefacci', 'energia_refrigeraci', 'energia_acs', 'energia_enllumenament', 'consum_d_energia_final', 'cost_anual_aproximat_d_energia']]

In [None]:
percentiles = sub_df.quantile([0.33, 0.66])

def calcular_dependencia(row):
    puntuacion = 0

    if row['xarxa_districte'] == 1:
        puntuacion -= 1
    if row['energia_geotermica'] == 1:
        puntuacion -= 2
    if row['sistema_biomassa'] == 1:
        puntuacion -= 2

    for var in ['energia_calefacci', 'energia_refrigeraci', 'energia_acs', 'energia_enllumenament', 'consum_d_energia_final']:
        if row[var] >= percentiles.loc[0.66, var]:
            puntuacion += 2
        elif row[var] >= percentiles.loc[0.33, var]:
            puntuacion += 1
        else:
            puntuacion -= 1

    if row['cost_anual_aproximat_d_energia'] >= percentiles.loc[0.66, 'cost_anual_aproximat_d_energia']:
        puntuacion += 2
    elif row['cost_anual_aproximat_d_energia'] >= percentiles.loc[0.33, 'cost_anual_aproximat_d_energia']:
        puntuacion += 1
    else:
        puntuacion -= 1

    return 1 if puntuacion > 2 else 0


In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
df["dependencia_red"] = df.apply(calcular_dependencia, axis=1)

In [None]:
print(df[['referencia_cadastral', 'dependencia_red']].head())

# Q4

# ¿Qué zonas geográficas tienen el mayor potencial para la producción de energía renovable y la autosuficiencia?

Para responder a esta pregunta hemos decidido considerar dos factores: El primero, factores medioambientales; segundo, presupuesto disponible para el aprovechamiento de estos factores. Esto en razón a que de nada sirve que en un municipio se presenten factores medioambientales que propicien la producción de energías renovables pero su presupuesto para inversión en este rubro sea mínima, por lo cual probablemente no habrá aprovechamiento.

Se decidió usar el nivel de desagregación del territorio por municipios para diferenciar entre zonas geográficas, ya que divide el territorio de forma óptima, así como también cada unidad (municipio) tiene la potestad de ejecutar su propio presupuesto. De igual forma, los datos medioambientales obtenidos están desagregados por municipios.

Se tomaran entonces los datos obtenidos por diferentes estaciones meteorológicas esparcidas a lo largo de Catalunya y se calcularan los valores de velocidad promedio del viento (m/s) oobtenidos para cada municipio. Luego se uniran estos datos con el presupuesto que existe para cada zona, para encontrar la zona con niveles altos de presupuesto y factores ambientales propicios.


In [2]:
!pip install pdfminer.six

Collecting pdfminer.six
  Downloading pdfminer.six-20240706-py3-none-any.whl.metadata (4.1 kB)
Downloading pdfminer.six-20240706-py3-none-any.whl (5.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.6/5.6 MB[0m [31m32.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pdfminer.six
Successfully installed pdfminer.six-20240706


In [4]:
import pandas as pd

presupuesto = pd.read_csv("/content/drive/MyDrive/Hackathon/pressupostos_2024.csv", sep = ";", encoding="latin-1", on_bad_lines='skip')
#Filtrar la BD:
presupuesto_filtrado = presupuesto[(presupuesto["Tipus d'ens"] == 'Municipis') & ((presupuesto['Descripció estructura'] == "Administració general del medi ambient") | (presupuesto['Descripció estructura'] == "Medi ambient") | (presupuesto['Descripció estructura'] == "Protecció i millora del medi ambient"))]
#Sumar por cada ayuntamiento el presupuesto para invertir en medio ambiente (Cada uno de los tres programas):
presupuesto_filtrado["Previsió/Crèdits inicials consolidats"] = pd.to_numeric(presupuesto_filtrado["Previsió/Crèdits inicials consolidats"].str.replace(',', '.'), errors="coerce")
presupuesto_sumado = presupuesto_filtrado.groupby(["Codi de l'ens dependent/adscrit"])["Previsió/Crèdits inicials consolidats"].sum()

#Función para extraer los primeros 5 dígitos del código de municipio, ya que está concatenado con otros códigos diferentes
def obtener_codigo(codigo):
    codigo = str(codigo)
    if len(codigo)==9:
      try:
         return str(codigo)[:5]
      except:
         return codigo

    else:
      try:
         return str(codigo)[:6]
      except:
         return codigo

#Aplicar la función a presupuesto_sumado
presupuesto_sumado = presupuesto_sumado.reset_index()
presupuesto_sumado["codigo"] = presupuesto_sumado["Codi de l'ens dependent/adscrit"].apply(obtener_codigo)
presupuesto_final = presupuesto_sumado.drop(columns=["Codi de l'ens dependent/adscrit"])
presupuesto_final

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  presupuesto_filtrado["Previsió/Crèdits inicials consolidats"] = pd.to_numeric(presupuesto_filtrado["Previsió/Crèdits inicials consolidats"].str.replace(',', '.'), errors="coerce")


Unnamed: 0,Previsió/Crèdits inicials consolidats,codigo
0,1634339.00,80018
1,577763.19,80039
2,784000.00,80044
3,957700.00,80057
4,1461721.74,80060
...,...,...
784,82151.20,439039
785,128600.00,439044
786,3740871.38,439057
787,449414.40,439060


In [5]:
datos_estacion = pd.read_csv("/content/drive/MyDrive/Hackathon/Copia de dades_estacions.csv")
#Filtrar la BD:
datos_estacion_filtrados = datos_estacion[(datos_estacion["acronim"] == 'VV6') | (datos_estacion["acronim"] == 'VV10') | (datos_estacion["acronim"] == 'VV2') | (datos_estacion["acronim"] == 'VVx2') | (datos_estacion["acronim"] == 'VVx6') | (datos_estacion["acronim"] == 'VVx10')]
# Queremos sumar los 'valor_lectura' y luego dividir para sacar el promedio de todas las lecturas
datos_estacion_suma = datos_estacion_filtrados.groupby("codi_municipi")["valor_lectura"].sum()
datos_estacion_count = datos_estacion_filtrados.groupby("codi_municipi")["valor_lectura"].count()
datos_estacion_promedio = datos_estacion_suma / datos_estacion_count
datos_estacion_promedio


Unnamed: 0_level_0,valor_lectura
codi_municipi,Unnamed: 1_level_1
80155,6.25
80229,2.60
80543,3.85
80620,2.10
80811,10.60
...,...
431482,5.90
431541,0.75
431573,0.65
431785,2.25


In [6]:
presupuesto_final['codigo'] = pd.to_numeric(presupuesto_final['codigo'], errors='coerce')
#Left join de presuspuesto_final y datos_estacion_suma:
merged_df = pd.merge(presupuesto_final.reset_index(), datos_estacion_promedio, left_on='codigo', right_on='codi_municipi', how='left')
merged_df.fillna(0, inplace=True)
merged_df

Unnamed: 0,index,Previsió/Crèdits inicials consolidats,codigo,valor_lectura
0,0,1634339.00,80018,0.00
1,1,577763.19,80039,0.00
2,2,784000.00,80044,0.00
3,3,957700.00,80057,0.00
4,4,1461721.74,80060,0.00
...,...,...,...,...
784,784,82151.20,439039,0.00
785,785,128600.00,439044,4.85
786,786,3740871.38,439057,0.00
787,787,449414.40,439060,0.00


In [12]:
merged_df['codigo'] = pd.to_numeric(merged_df['codigo'], errors='coerce')
merged_df.to_csv('merged_data.csv', index=False)
from google.colab import files
files.download('merged_data.csv')