# Sesi√≥n de Trabajo 2: Base de Datos
**Asignatura:** Ci√®ncia de Dades i Intel¬∑lig√®ncia Artificial Aplicades a la Construcci√≥ i Estructures  
**Instituci√≥n:** ETSEIB - UPC  

---

## Objetivos de la sesi√≥n
El objetivo de esta Sesi√≥n de Trabajo es entender de qu√© datos disponemos a priori en referencia a la tem√°tica de estudio para poder confrontarlos con las variables de entrada y salida involucradas en la cualificaci√≥n energ√©tica de un edificio (identificadas en la Sesi√≥n de Trabajo 1). La sesi√≥n se estructura en diversas tareas.

* **S2.T0.** Importar la base de datos

* **S2.T1.** Qu√© hay en la base de datos?

* **S2.T2.** C√≥mo son las variables categ√≥ricas?

* **S2.T3.** C√≥mo son las variables continuas?

* **S2.T4.** Entonces, qu√© tengo y qu√© no tengo sobre las certificaciones energ√©ticas de los edificios?


---

### S2.T0. Importar la base de datos

1.   Descarga el Dataset `BBDD_ST2.csv` en el siguiente enlace: [üì• Descargar BBDD_ST2.csv](https://drive.google.com/file/d/1HaScpQx5WX8jpw38-vrJ6PUaT4H1_n_5/view?usp=sharing).
2.   Acceda a su Google Drive personal.
>*  Cree una carpeta llamada `Sostenibilidad` en la ra√≠z
>* Suba el archivo descargado a esta carpeta. La ruta debe ser exactamente `Mi Unidad/Sostenibilidad/BBDD_ST2.csv`.
3.   Al Ejecutar el c√≥digo inferior, nos:
>* Conectamos con Google Drive.
>* Cargamos el archivo `BBDD_ST2.csv`.
>* Optimizamos los tipos de datos (`float32` e `int32`) para no saturar la RAM de Colab.
>* Se le solicitar√°n permisos para conectar su Drive; **acepte todos los permisos** para que el notebook pueda leer el archivo de datos.

‚è≥ *Tiempo de ejecuci√≥n estimado: 1-2 minutos (dependiendo de la velocidad de conexi√≥n a Drive).*


In [None]:

# Importar librer√≠as
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib
import matplotlib.pyplot as plt

# Montar Drive
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

# Ruta y Carga
ruta_drive = '/content/drive/MyDrive/Sostenibilidad/BBDD_ST2.csv'
df = pd.read_csv(ruta_drive, low_memory=False)

# Optimizaci√≥n
float64_cols = df.select_dtypes(include='float64').columns.tolist()
df[float64_cols] = df[float64_cols].astype('float32')
int64_cols = df.select_dtypes(include='int64').columns.tolist()
df[int64_cols] = df[int64_cols].astype('int32')

print("Base de datos cargada y optimizada.")

---

### S2.T1. Qu√© hay en la base de datos?
Hacer una exploraci√≥n inicial de la base de datos importada. Se deben responder las siguientes cuestiones:
* **S2.T1.1.** ¬øN√∫mero de filas?
* **S2.T1.2.** ¬øN√∫mero de columnas?
* **S2.T1.3.** A qu√© corresponde cada una de las filas?
* **S2.T1.4.** Nombre, tipo (object, float64, int64, ...) y % de observaciones no nulas de las columnas?

---

>### üìñ Gu√≠a de Comandos de Exploraci√≥n
Utiliza estos comandos en las celdas de abajo para completar las tareas:

| Comando | Descripci√≥n |
| :--- | :--- |
| `df.head(5)` | Muestra las primeras 5 filas (puedes activar la vista interactiva). |
| `df.tail(10)` | Muestra las √∫ltimas 10 filas. |
| `df.info()` | Resumen t√©cnico (tipos de datos y valores nulos). |
| `df.index` | Rango de √≠ndices de las filas. |
| `len(df)` | Devuelve el n√∫mero total de filas. |
| `df.columns` | Lista con los nombres de todas las columnas. |
| `df.columns[13]` | Nombre de la columna en la posici√≥n 13. |
| `list(df)` | Nombres de columnas en formato lista. |
| `100 * df[df.columns[3]].notnull().mean()` | % de valores **no nulos** de la columna 3. |

* **S2.T1.1. ¬øN√∫mero de filas?**

* **S2.T1.2. ¬øN√∫mero de columnas?**

* **S2.T1.3. A qu√© corresponde cada una de las filas?**

* **S2.T1.4. Crea una √∫nica tabla con: Nombre, tipo (object, float64, int64, ...) y % de observaciones no nulas de las columnas**

*Pista para el c√°lculo:*
>`df.dtypes` Devuelve una serie con los tipos de cada columna.

>`df.count()` Cuenta los valores no nulos.

>`len(df)` es el total de filas

> `porcentajes = (Parte / Total) * 100`

> Puedes crear una tabla uniendo varias series de datos usando:  
> `resumen = pd.concat([df.dtypes, df.count(), porcentajes], axis=1)`

> Puedes redondear a 2 decimales el resumen usando:  
> `resumen.round(2)`


---

### S2.T2. C√≥mo son las variables categ√≥ricas?
Explorar las variables categ√≥ricas de la base de datos. Se deben responder las siguientes cuestiones:
* **S2.T2.1.** ¬øQu√© variables de la base de datos se consideran categ√≥ricas?
* **S2.T2.2.** Cuantos campos tiene cada variable categ√≥rica?
* **S2.T2.3.** Para las variables que tengan hasta 10 categorias distintas, representad gr√°ficamente c√≥mo se distribuyen las observaciones.
* **S2.T2.4.** Para las variables que tengan desde 11-30 categorias distintas, cuantificad la distribuci√≥n de observaciones en una tabla.
* **S2.T2.5.** De las variables categ√≥ricas, cuales observais que requieren correcciones/modificaciones debido a una mala clasificaci√≥n de sus categorias?


---

* **S2.T2.1. ¬øQu√© variables de la base de datos se consideran categ√≥ricas?**
> **‚ö†Ô∏è Exclusiones:** Para este an√°lisis, **no** debemos considerar:
> * **Variables identificativas (no informativas):** `NUM_CAS`, `REFERENCIA CADASTRAL`, `NUMERO`, `ADRE√áA`, etc.
> * **Variables de geolocalizaci√≥n:** `UTM_X`, `UTM_Y`, `LONGITUD`, etc.

>Utiliza el comando '.value_counts' para ver la distribuci√≥n de las variables


In [None]:
df["SOLAR TERMICA"].value_counts(dropna=False)

>>*Escribe aqu√≠ todas las variables categ√≥ricas de la BBDD*

* **S2.T2.2. Cuantas categor√≠as o grupos tiene cada variable categ√≥rica?**

>Ejemplo:

>`len(df["PIS"].value_counts(dropna=False))`  # N√∫mero de campos de PIS=1079


>Modifica este c√≥digo para considerar todas las varaibles categ√≥ricas identificads en S2.T2.1:

In [None]:
# Lista de variables categ√≥ricas seleccionadas en S2.T2.1
vars_categoricas = ["CODI_POSTAL", "POBLACIO", "PIS", "COMARCA"] # El alumno a√±ade las suyas

for col in vars_categoricas:
    # Calculamos el n√∫mero de grupos
    num_grupos = len(df[col].value_counts(dropna=False))

    print(f"Variable: {col} -> {num_grupos} categor√≠as distintas.")


* **S2.T2.3. Para las variables que tengan menos de 10 categorias distintas, representad gr√°ficamente c√≥mo se distribuyen las observaciones. Seleccione y represente gr√°ficamente 5 variables que ilustren distintos escenarios de distribuci√≥n. El objetivo es identificar casos que condicionen el valor de la informaci√≥n, tales como:**

  * ***Variables sin variabilidad:*** Una sola categor√≠a es absoluta (valor informativo nulo o casi nulo).
  * ***Variables equilibradas:*** Repartici√≥n homog√©nea entre categor√≠as.
  * ***Variables con baja calidad:*** El volumen de valores nulos (NaN) compromete la utilidad de la columna.
  * ***Variables sesgadas:*** Grandes disparidades de frecuencia entre los grupos observados.
  * ***Variables bimodales:*** Existencia de dos grupos dominantes que dividen la muestra en dos realidades.
  * ***Variables de bajo peso (Ruido):*** Muchas categor√≠as con frecuencias muy bajas que no permiten extraer patrones.

In [None]:
# Selecci√≥n de 5 variables representativas de distintos escenarios
variables_seleccionadas = [
    "NOM_PROVINCIA", # Variable 1
    "ZONA CLIMATICA", # Variable 2
    "Qualificaci√≥ de consum d'energia primaria no renovable", # Variable 3
    "Qualificacio d'emissions de CO2", # Variable 4
    "SOLAR TERMICA"  # Variable 5
]

# Creamos una figura con una cuadr√≠cula de 3 filas y 2 columnas
fig, axes = plt.subplots(nrows=3, ncols=2, figsize=(15, 12))
axes = axes.flatten() # Aplanamos la matriz de ejes para iterar f√°cilmente

for i, col in enumerate(variables_seleccionadas):
    if col:
        # Dibujamos cada gr√°fico en su posici√≥n correspondiente (ax)
        df[col].value_counts(dropna=False).plot(
            kind="bar",
            ax=axes[i],
            color="slategray",
            edgecolor="black"
        )
        axes[i].set_title(f"Distribuci√≥n: {col}", fontsize=12, fontweight='bold')
        axes[i].set_ylabel("N¬∫ de observaciones")
        axes[i].tick_params(axis='x', rotation=45)

# Eliminamos el √∫ltimo gr√°fico (el sexto) que quedar√° vac√≠o
fig.delaxes(axes[5])

# Ajustamos el espaciado para que no se solapen los t√≠tulos
plt.tight_layout()
plt.show()

* **S2.T2.4. Para las variables que tengan desde 11-30 categor√≠as distintas, cuantificad la distribuci√≥n de observaciones en una tabla de frecuencias.**



In [None]:
# Lista de variables identificadas (11-30 categor√≠as)
vars_inspeccion = ["Normativa construcci√≥","Eina de certificacio"] # A√±adir el resto

for col in vars_inspeccion:
    print(f"\n--- An√°lisis de frecuencia: {col} ---")
    # Convertimos a DataFrame para una visualizaci√≥n m√°s clara
    tabla = df[col].value_counts(dropna=False).to_frame()
    tabla.columns = ['Frecuencia']
    display(tabla)

* **S2.T2.5. Qu√© variables requieren correcciones/modificaciones futuras?**

>**Instrucci√≥n:** Identifique y justifique brevemente qu√© variables requieren correcciones o modificaciones futuras bas√°ndose en los resultados obtenidos en los apartados anteriores.

> **Hallazgos detectados (Ejemplos):**

>* **`PIS`**: Presenta m√°s de 1.300 categor√≠as distintas. Esta dispersi√≥n se debe a inconsistencias en el registro (mezcla de acentos, may√∫sculas, abreviaturas y errores ortogr√°ficos). Requiere un proceso de normalizaci√≥n para reducir dr√°sticamente su cardinalidad.
>* **`NOM_PROVINCIA`**: Se han registrado 9 categor√≠as cuando administrativamente solo existen 4. La duplicidad responde a errores tipogr√°ficos y falta de estandarizaci√≥n en la entrada de datos.



---

>**Bit√°cora de diagn√≥stico del alumno:**
*(A√±ade aqu√≠ otras variables que hayas detectado con problemas de calidad o nulos excesivos)*

>* **Variable [Nombre]:** [Breve descripci√≥n del problema detectado]
>* **Variable [Nombre]:** [Breve descripci√≥n del problema detectado]

---

### S2.T3. C√≥mo son las variables continuas?
Explorar las variables continuas de la base de datos. Se deben responder las siguientes cuestiones:
* **S2.T3.1.** ¬øQu√© variables de la base de datos se consideran continuas?
* **S2.T3.2.** Indica informaci√≥n estad√≠stica b√°sica de todas las variables continuas que lo permitan (max, min, mean, 25%, 50%, 75%)
* **S2.T3.3.** Haced una representaci√≥n gr√°fica de c√≥mo se distribuyen las observaciones dentro de cada variable continua.
* **S2.T3.4.** Qu√© variables requieren modificaciones/correcciones?

---




### üìñ Gu√≠a de Comandos de Exploraci√≥n
Utiliza estos comandos en las celdas de abajo para completar las tareas:

| Comando | Descripci√≥n |
| :--- | :--- |
| `df['Nombre_columna'].describe()` | Informaci√≥n estad√≠stica b√°sica de la variable. |
| `df["Nombre_columna"].plot(kind='box', showfliers=False)` | Grafica la dispersi√≥n y la mediana de una variable continua. |
| `sns.kdeplot(data=[df['METRES_CADASTRE']])` | Grafica la distribuci√≥n de una variable continua en un gr√°fico de densidad. |


* **S2.T3.1. ¬øQu√© variables de la base de datos se consideran continuas?**


>*(A√±ade aqu√≠ otras variables que hayas detectado )*

>* **Variable 1 [Nombre]**
>* **Variable 2 [Nombre]**

* **S2.T3.2. Indica informaci√≥n estad√≠stica b√°sica de todas las variables continuas que lo permitan (max, min, mean, 25%, 50%, 75%)**


In [None]:
# Definimos la lista de variables continuas identificadas en el punto anterior
vars_continuas = ["METRES_CADASTRE", "Emissions de CO2","Energia ACS", "Emissions enllumenament" ] # A√±adid aqu√≠ las dem√°s variables continuas

# Generamos la tabla resumen, el comando describe √∫nicamente se ejecutar√° en aquellas variables totalmente num√©ricas, las otras, las ignorar√°
resumen_estadistico = df[vars_continuas].describe()

# Mostramos la tabla formateada
display(resumen_estadistico)

* **S2.T3.3. Seleccione y represente gr√°ficamente 5 variables continuas utilizando histogramas o gr√°ficos de densidad (KDE). El objetivo es identificar alguno de los casos que condicionan la calidad del an√°lisis num√©rico, tales como:**

  * **Sesgo Extremo (Long Tail):** La mayor√≠a de datos se concentran en valores bajos, pero existen valores muy altos que desplazan la media.
  * **Variabilidad Nula:** Variables que presentan el mismo valor (o casi el mismo) para toda la muestra.
  * **Outliers (Valores At√≠picos):** Datos que se sit√∫an fuera del rango f√≠sicamente l√≥gico (ej. a√±os de construcci√≥n futuros o consumos imposibles).
  * **Distribuciones Multimodales:** Presencia de varios "picos", lo que sugiere que la muestra mezcla tipolog√≠as de edificios muy distintas.
  * **Acumulaci√≥n en el Cero:** Gran concentraci√≥n de valores en 0 que podr√≠a indicar datos faltantes mal registrados.

In [None]:
# Selecciona las 5 variables continuas que presenten comportamientos m√°s interesantes
vars_continuas_selec = [
    "", # Variable 1
    "", # Variable 2
    "", # Variable 3
    "", # Variable 4
    ""  # Variable 5
]

print(df[vars_continuas_selec].dtypes)

fig, axes = plt.subplots(nrows=3, ncols=2, figsize=(15, 15))
axes = axes.flatten()

for i, col in enumerate(vars_continuas_selec):
    if col in df.columns:
        df[col].plot(
            kind='hist',
            bins=200,
            ax=axes[i],
            color="indianred",
            edgecolor="none"
        )
        axes[i].set_title(f"Distribuci√≥n: {col}", fontweight='bold')
        axes[i].grid(axis='y', alpha=0.3)

# Eliminamos el sexto hueco vac√≠o
fig.delaxes(axes[5])

plt.tight_layout()
plt.show()

* **S2.T3.4. Qu√© variables requieren correcciones/modificaciones futuras?**

>**Instrucci√≥n:** Identifique y justifique brevemente qu√© variables requieren correcciones o modificaciones futuras bas√°ndose en los resultados obtenidos en los apartados anteriores.

 >**Hallazgos detectados (Ejemplos):**

>* **`ANY_CONSTRUCCIO`**: dtype object. Seguramente tiene valores num√©ricos y strings combinados. Hay que limpiarlo.



---

>**Bit√°cora de diagn√≥stico del alumno:**
*(A√±ade aqu√≠ otras variables que hayas detectado con problemas)*

>* **Variable [Nombre]:** [Breve descripci√≥n del problema detectado]
>* **Variable [Nombre]:** [Breve descripci√≥n del problema detectado]

---

### S2.T4. ¬øQu√© tenemos realmente para modelar la eficiencia energ√©tica?
En la Sesi√≥n 1 identificaste los inputs y outputs te√≥ricos necesarios para certificar un edificio. Ahora, tras explorar la base de datos (S2.T1 a S2.T3), debes confrontar esa "teor√≠a" con la "realidad" de los datos disponibles.

---

### Tabla de Confrontaci√≥n: Realidad (S1) vs. BBDD (S2)

*Instrucci√≥n para el alumno: Haz doble clic en esta celda y completa la tabla (debes a√±adir todas las filas que necesites) comparando tus resultados.*

| Categor√≠a | Concepto Te√≥rico (S1) | ¬øDisponible en BBDD? | Nombre de la Columna(s) en BBDD | Diagn√≥stico / Acci√≥n necesaria |
| :--- | :--- | :--- | :--- | :--- |
| **OUTPUT** | Calificaci√≥n de Consumo | S√≠ / No | | Ej: OK / Lista para usar. |
| **OUTPUT** | Emisiones de CO2 | | | |
| **INPUT**| Referencia Catastral | | | |
| **INPUT** | A√±o de construcci√≥n | | | Ej: Limpiar (es 'object') |
| **INPUT** | Normativa vigente | | | |
| **INPUT** | Zona Clim√°tica | | | |
| **INPUT** | Superficie (m2) | | | Ej: Revisar Outliers |



---


**A) La Variable Ausente:**
> ¬øQu√© informaci√≥n identificada en la S1 consideras **fundamental** pero no has encontrado en la base de datos? ¬øC√≥mo crees que afectar√° esta falta de informaci√≥n a la precisi√≥n de un futuro modelo de IA?
*Escribe aqu√≠ tu respuesta:*

**B) El Mayor Reto de Limpieza:**
> De las variables disponibles, ¬øcu√°l crees que ser√° la m√°s dif√≠cil de "arreglar" para poder usarla en un modelo matem√°tico (por nulos, errores de escritura o valores at√≠picos)?
*Escribe aqu√≠ tu respuesta:*

