# Sesi√≥n de Trabajo 2: Base de Datos
**Asignatura:** Ci√®ncia de Dades i Intel¬∑lig√®ncia Artificial Aplicades a la Construcci√≥ i Estructures  
**Instituci√≥n:** ETSEIB - UPC  

---

## Objetivos de la sesi√≥n
El objetivo de esta Sesi√≥n de Trabajo es entender de qu√© datos disponemos a priori en referencia a la tem√°tica de estudio para poder confrontarlos con las variables de entrada y salida involucradas en la cualificaci√≥n energ√©tica de un edificio (identificadas en la Sesi√≥n de Trabajo 1). La sesi√≥n se estructura en diversas tareas.

* **S2.T0.** Importar la base de datos

* **S2.T1.** Qu√© hay en la base de datos?

* **S2.T2.** C√≥mo son las variables categ√≥ricas?

* **S2.T3.** C√≥mo son las variables continuas?

* **S2.T4.** Entonces, qu√© tengo y qu√© no tengo sobre las certificaciones energ√©ticas de los edificios?


---

### S2.T0. Importar la base de datos
* Conectamos con Google Drive.
* Cargamos el archivo `BBDD_ST2.csv`.
* Optimizamos los tipos de datos (`float32` e `int32`) para no saturar la RAM de Colab.

‚è≥ *Tiempo de ejecuci√≥n estimado: 1-2 minutos (dependiendo de la velocidad de conexi√≥n a Drive).*


In [2]:

# Importar librer√≠as
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib

# Montar Drive
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

# Ruta y Carga
ruta_drive = '/content/drive/MyDrive/Sostenibilidad/BBDD_ST2.csv'
df = pd.read_csv(ruta_drive, low_memory=False)

# Optimizaci√≥n
float64_cols = df.select_dtypes(include='float64').columns.tolist()
df[float64_cols] = df[float64_cols].astype('float32')
int64_cols = df.select_dtypes(include='int64').columns.tolist()
df[int64_cols] = df[int64_cols].astype('int32')

print("Base de datos cargada y optimizada.")

Mounted at /content/drive
Base de datos cargada y optimizada.



### S2.T1. Qu√© hay en la base de datos?
Hacer una exploraci√≥n inicial de la base de datos importada. Se deben responder las siguientes cuestiones:
* **S2.T1.1.** ¬øN√∫mero de filas?
* **S2.T1.2.** ¬øN√∫mero de columnas?
* **S2.T1.3.** A qu√© corresponde cada una de las filas?
* **S2.T1.4.** Nombre, tipo (object, float64, int64, ...) y % de observaciones no nulas de las columnas?


### üìñ Gu√≠a de Comandos de Exploraci√≥n
Utiliza estos comandos en las celdas de abajo para completar las tareas:

| Comando | Descripci√≥n |
| :--- | :--- |
| `df.head(5)` | Muestra las primeras 5 filas (puedes activar la vista interactiva). |
| `df.tail(10)` | Muestra las √∫ltimas 10 filas. |
| `df.info()` | Resumen t√©cnico (tipos de datos y valores nulos). |
| `df.index` | Rango de √≠ndices de las filas. |
| `len(df)` | Devuelve el n√∫mero total de filas. |
| `df.columns` | Lista con los nombres de todas las columnas. |
| `df.columns[13]` | Nombre de la columna en la posici√≥n 13. |
| `list(df)` | Nombres de columnas en formato lista. |
| `100 * df[df.columns[3]].notnull().mean()` | % de valores **no nulos** de la columna 3. |

In [5]:
len(df)

803963

S2.T1.1. N√É¬∫mero de filas?

Comandos √É¬∫tiles

In [None]:
df.info()  # Devuelve informaci√É¬≥n b√É¬°sica de todas las columnas (nombre, tipo y cantidad de missing values)
df.index  # Devuelve el rango de los √É¬≠ndices del dataframe (filas u observaciones)
len(df)  # Devuelve el n√É¬∫mero de filas u observaciones del dataframe
df.axes  # Devuelve una lista con las filas y las columnas


803963<br>


TODO S2.T1.2. N√É¬∫mero de columnas?

Comandos √É¬∫tiles

In [None]:
df.info()  # Devuelve informaci√É¬≥n b√É¬°sica de todas las columnas (nombre, tipo y cantidad de missing values)
len(df.columns)  # Devuelve el n√É¬∫mero de columnas del dataframe
len(list(df))  # Devuelve la longitud de la lista que comprenden los nombres de las variables (columnas) del df


Responde aqu√É¬≠<br>


TODO S2.T1.3. A qu√É¬© corresponde cada una de las filas?


Responde aqu√É¬≠<br>


TODO S2.T1.4. Nombre, tipo (object, float64, int64,√¢‚Ç¨¬¶) y % de observaciones no nulas de las columnas?

Comandos √É¬∫tiles

In [None]:
df.info()  # Devuelve informaci√É¬≥n b√É¬°sica de todas las columnas (nombre, tipo y cantidad de missing values)
100*(df[df.columns].notnull()).mean()  # Devuelve el % de valores no nulos de las columnas


<br>
Pega aqu√É¬≠ con "Ctrl + v" el resultado de ejecutar el comando df.info(), a√É¬±adiendo el % posteriormente en la consola de PyCharm<br>
#   Column                                                  Non-Null Count   Dtype       No-Null % <br>
---  ------                                                  --------------   -----     ----------<br>
 0   NUM_CAS                                                 803963 non-null  object     100.00%<br>
 1   ADRE√É‚Ä°A                                                  803963 non-null  object     100.00%<br>
 2   NUMERO                                                  803919 non-null  object      99.99%<br>
 3   ESCALA                                                  164952 non-null  object      20.53%<br>
 <br>
...<br>



 S2.T2. C√É¬≥mo son las variables categ√É¬≥ricas ?<br>
Explorar las variables categ√É¬≥ricas de la base de datos. Se deben responder las siguientes cuestiones:<br>
√Ø∆íÀú S2T2.1. Cu√É¬°les son las variables categ√É¬≥ricas? No consider√É¬©is las variables identificativas no informativas(NUM_CAS/REF CATASTRAL/NUMERO,√¢‚Ç¨¬¶ ).<br>
√Ø∆íÀú S2T2.2. Cuantas campos tiene cada variable categ√É¬≥rica?<br>
√Ø∆íÀú S2T2.3.Para las variables que tengan hasta 10 categor√É¬≠as distintas, representad gr√É¬°ficamente c√É¬≥mo se distribuyen las observaciones.<br>
√Ø∆íÀú S2T2.4.Para las variables que tengan desde 11-30 categor√É¬≠as distintas, cuantificad la distribuci√É¬≥n de observaciones en una tabla.<br>
√Ø∆íÀú S2T2.5.De las variables categ√É¬≥ricas, cu√É¬°les observ√É¬°is que requieren correcciones/modificaciones debido a una mala clasificaci√É¬≥n de sus categor√É¬≠as?<br>


TODO S2T2.1. Cu√É¬°les son las variables categ√É¬≥ricas?<br>
 No consider√É¬©is las variables identificativas (NUM_CAS/REF CATASTRAL/NUMERO,√¢‚Ç¨¬¶ )<br>
 ni las variables que representan coordenadas para su geolocalizaci√É¬≥n (UTM_X, UTM_Y, LONGITUD, LATITUD, GEOREFERENCIA)

Comandos √É¬∫tiles

In [None]:
df["SOLAR TERMICA"].value_counts(dropna=False)  # Distribuci√É¬≥n de una variable en las distintas sub-categor√É¬≠as de la misma


'PIS', 'CODI_POSTAL','POBLACIO', 'COMARCA', 'NOM_PROVINCIA', 'REFERENCIA CADASTRAL',<br>
       'ZONA CLIMATICA', 'METRES_CADASTRE', 'ANY_CONSTRUCCIO', 'US_EDIFICI',<br>
       'Qualificaci√É¬≥ de consum d'energia primaria no renovable',<br>
       'Energia prim√É¬†ria no renovable', 'Qualificacio d'emissions de CO2',<br>
       'Emissions de CO2', 'Consum d'energia final',<br>
       'Cost anual aproximat d'energia per habitatge', 'VEHICLE ELECTRIC',<br>
       'SOLAR TERMICA', 'SOLAR FOTOVOLTAICA', 'SISTEMA BIOMASSA',<br>
       'XARXA DISTRICTE', 'ENERGIA GEOTERMICA', 'INFORME_INS_TECNICA_EDIFICI',<br>
       'Eina de certificacio', 'VALOR AILLAMENTS', 'VALOR FIENESTRES',<br>
       'Motiu de la certificacio', 'VALOR AILLAMENTS CTE',<br>
       'VALOR FINESTRES CTE', 'Normativa construcci√É¬≥', 'Tipus Tramit',<br>
       'Qualificaci√É¬≥ emissions calefacci√É¬≥', 'Emissions calefacci√É¬≥',<br>
       'Qualificaci√É¬≥ emissions refrigeraci√É¬≥', 'Emissions refrigeraci√É¬≥',<br>
       'Qualificaci√É¬≥ emissions ACS', 'Emissions ACS',<br>
       'Qualificaci√É¬≥ emissions enllumenament', 'Emissions enllumenament',<br>
       'Qualificaci√É¬≥ energia calefacci√É¬≥', 'Energia calefacci√É¬≥',<br>
       'Qualificaci√É¬≥ energia refrigeraci√É¬≥', 'Energia refrigeraci√É¬≥',<br>
       'Qualificaci√É¬≥ energia ACS', 'Energia ACS',<br>
       'Qualificaci√É¬≥ energia enllumenament', 'Energia enllumenament',<br>
       'Qualificaci√É¬≥ energia calefacci√É¬≥ demanda', 'Energia calefacci√É¬≥ demanda',<br>
       'Qualificaci√É¬≥ energia refrigeraci√É¬≥ demanda',<br>
       'Energia refrigeraci√É¬≥ demanda', 'VENTILACIO US RESIDENCIAL',<br>
       'TITULACIO_TECNIC', 'NOMB_PLANT_SOBRERASANT', 'NOMB_PLANT_BAJORASANT',<br>
       'COMPACITAT', 'PERC_SUPERF_ACRIST_NORD', 'PERC_SUPERF_ACRIST_NORDEST',<br>
       'PERC_SUPERF_ACRIST_EST', 'PERC_SUPERF_ACRIST_SUR',<br>
       'PERC_SUPERF_ACRIST_SUREST', 'PERC_SUPERF_ACRIST_SUROEST',<br>
       'PERC_SUPERF_ACRIST_OEST', 'PERC_SUPERF_ACRIST_NORDOEST'<br>


TODO S2T2.2. Cuantas categor√É¬≠as o grupos tiene cada variable categ√É¬≥rica?

Ejemplo

In [None]:
len(df["PIS"].value_counts(dropna=False))  # N√É¬∫mero de campos de PIS=1079

TAREA: Continuar con el resto de variables categ√É¬≥ricas en el mismo formato que el Ejemplo (c√É¬≥digo + # Num. campos):

TODO S2T2.3. Para variables con hasta 10 categor√É¬≠as distintas, representad gr√É¬°ficamente c√É¬≥mo se distribuyen las observaciones.

EJEMPLO. Pod√É¬©is usar uno u otro en funci√É¬≥n de cu√É¬°l os se represente mejor

In [None]:
df["NOM_PROVINCIA"].value_counts(dropna=False).plot(kind="pie", table=True, ylabel='N√Ç¬∫ Observaciones')  # Para generar gr√É¬°ficas "pie" con tabla de valores
df["NOM_PROVINCIA"].value_counts(dropna=False).plot(kind="pie", table=False, ylabel='N√Ç¬∫ Observaciones', autopct='%.f')  # Para generar gr√É¬°ficas "pie" con % de valores
df["NOM_PROVINCIA"].value_counts(dropna=False).plot(kind="bar", table=False, ylabel='N√Ç¬∫ Observaciones')  # Para generar gr√É¬°ficas "bar" sin tabla de valores

TAREA: Escribe el c√É¬≥digo ejecutado a continuaci√É¬≥n (como en el EJEMPLO).<br>
Pod√É¬©is guardar las gr√É¬°ficas generadas en el formato que quer√É¬°is (png, jpg, pdf, dentro de un powerpoint, etc.)

TODO S2T2.4. Para variables desde 11-30 categor√É¬≠as distintas, cuantificad la distribuci√É¬≥n de observaciones en una tabla.

EJEMPLO

In [None]:
df["Eina de certificacio"].value_counts(dropna=False)  # Distribuci√É¬≥n de una variable en las distintas sub-categor√É¬≠as de la misma

TAREA: Escribe el c√É¬≥digo ejecutado a continuaci√É¬≥n (como en el EJEMPLO).<br>
Pod√É¬©is guardas las tablas generadas en de la forma que quer√É¬°is. Por ejemplo, una opci√É¬≥n ser√É¬≠a asignar la tabla a una variable auxilar:<br>
aux = df["Eina de certificacio"].value_counts(dropna=False)<br>
En el visualizador de variables de Pycharm, seleccionar la opci√É¬≥n "View as Series" al final de la serie "aux" y hacer recortes de la misma.

TODO S2T2.5. Qu√É¬© variables requieren correcciones/modificaciones?

EJEMPLO de variables que requieren correcciones/modificaciones.

In [None]:
"PIS"  # Hay 1391 categor√É¬≠as, deber√É¬≠an ser muchas menos. Hay que agruparlas corrigiendo ortograf√É¬≠a, etc.
"NOM_PROVINCIA"  # Hay 9 categor√É¬≠as, deber√É¬≠an ser 4. Hay que agruparlas corrigiendo ortograf√É¬≠a, etc.

TAREA: Completa la lista con el mismo formato que en el EJEMPLO: "Nombre_variable"  # Comentario sobre la variable


 S2.T3. C√É¬≥mo son las variables continuas?<br>
Hacer una exploraci√É¬≥n de las variables continuas. Se deben responder las siguientes cuestiones:<br>
√Ø∆íÀú S2.T3.1. Cu√É¬°les son las variables continuas?<br>
√Ø∆íÀú S2.T3.2. Indica informaci√É¬≥n estad√É¬≠stica b√É¬°sica de todas las variables continuas que lo permitan (Max, min, mean, 25%, 50%, 75%)<br>
√Ø∆íÀú S2.T3.3. Haced una representaci√É¬≥n gr√É¬°fica de c√É¬≥mo se distribuyen las observaciones dentro de cada variable continua<br>
√Ø∆íÀú S2.T3.4. Cu√É¬°les de ellas requieren de modificaciones/correcciones?<br>


Comandos √É≈°tiles

In [None]:
df['Nombre_columna'].describe()  # Informaci√É¬≥n estad√É¬≠stica b√É¬°sica de la variable
df["Nombre_columna"].plot(kind='box', showfliers=False)  # Grafica la distribuci√É¬≥n de una variable categ√É¬≥rica en un gr√É¬°fico circular o barras
sns.kdeplot(data=[df['METRES_CADASTRE']])  # Grafica la distribuci√É¬≥n de una variable continua en un gr√É¬°fico de densidad

TODO  S2.T3.1. Cu√É¬°les son las variables continuas?


Responde aqu√É¬≠<br>


TODO  S2.T3.2.Indica informaci√É¬≥n estad√É¬≠stica b√É¬°sica de todas las variables continuas que lo permitan (Max, min, mean, 25%, 50%, 75%)

EJEMPLO

In [None]:
df['METRES_CADASTRE'].describe()  # Informaci√É¬≥n estad√É¬≠stica b√É¬°sica de la variable
"""
count    803963.000000
mean        118.220566
std         792.555969
min           0.000000
25%          54.750000
50%          71.000000
75%          95.540001
max      357792.000000"""

TAREA: Escribe el c√É¬≥digo ejecutado a continuaci√É¬≥n (como en el EJEMPLO).

TODO  S2.T3.3.Haced la representaci√É¬≥n gr√É¬°fica de la distribuci√É¬≥n de las observaciones dentro de cada variable continua

EJEMPLO

In [None]:
df['METRES_CADASTRE'].plot(kind='box', showfliers=False, ylabel='m2')  # Grafica la distribuci√É¬≥n de una variable cont√É¬≠nua en un gr√É¬°fico de cajas

TAREA: Escribe el c√É¬≥digo ejecutado a continuaci√É¬≥n (como en el EJEMPLO).<br>
Pod√É¬©is guardar las gr√É¬°ficas generadas en el formato que quer√É¬°is (png, jpg, pdf, dentro de un powerpoint, etc.)

TODO  S2.T3.4. Cu√É¬°les de ellas requieren de modificaciones/correcciones?

EJEMPLO variables continuas que requieren correcciones/modificaciones.

In [None]:
'ANY_CONSTRUCCIO'  # PROBLEMAS por ser dtype object. Tiene valores num√É¬©ricos y strings combinados. Hay que limpiarlo.

TAREA: Completa la lista con el mismo formato que en el EJEMPLO: "Nombre_variable"  # Comentario sobre la variable