# Sesi√≥n de Trabajo 3: LIMPIEZA DE LA BASE DE DATOS
**Asignatura:** Ci√®ncia de Dades i Intel¬∑lig√®ncia Artificial Aplicades a la Construcci√≥ i Estructures  
**Instituci√≥n:** ETSEIB - UPC  

---

## Objetivos de la sesi√≥n
Antes de usar modelos estad√≠sticos o de aprendizaje aut√≥nomo, siempre tenemos que limpiar los datos. Ning√∫n modelo produce resultados significativos con datos sucios. En la sesi√≥n anterior, ya hicimos el primer paso para realizar la limpieza: detectar aquellas variables que requieren de correcciones. La sesi√≥n de trabajo actual se centra en corregir/rellenar/eliminar aquellos datos incorrectos/innecesarios/inconsistentes/nulos identificados perdiendo la m√≠nima informaci√≥n posible. La sesi√≥n se estructura en diversas tareas.

* **S3.T1.** Tratamiento de los datos no relevantes

* **S3.T2.** Tratamiento de los datos inconsistentes

* **S3.T3.** Tratamiento de las observaciones nulas (missing data)

* **S3.T4.** Tratamiento de las observaciones at√≠picas (outliers)

No existe un orden ni estrategia establecida para encarar esta tarea. En general, se intenta empezar por aquellas acciones m√°s simples y de mayor impacto y poco a poco se va hacia las acciones m√°s espec√≠ficas.
El objetivo es claro: obtener una BBDD relevante, consistente y sin observaciones nulas ni at√≠picas que sea lo m√°s completa posible. Hay muchos caminos alternativos para alcanzarlo.

---


### S3.T0. Importar la base de datos
* Conectamos con Google Drive.
* Cargamos el archivo `BBDD_ST2.csv`.
* Optimizamos los tipos de datos (`float32` e `int32`) para no saturar la RAM de Colab.

‚è≥ *Tiempo de ejecuci√≥n estimado: 1-2 minutos (dependiendo de la velocidad de conexi√≥n a Drive).*


In [None]:
# Importar librer√≠as
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib
import matplotlib.pyplot as plt

# Montar Drive
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

# Ruta y Carga
ruta_drive = '/content/drive/MyDrive/Sostenibilidad/BBDD_ST2.csv'
df = pd.read_csv(ruta_drive, low_memory=False)

# Optimizaci√≥n
float64_cols = df.select_dtypes(include='float64').columns.tolist()
df[float64_cols] = df[float64_cols].astype('float32')
int64_cols = df.select_dtypes(include='int64').columns.tolist()
df[int64_cols] = df[int64_cols].astype('int32')

print("Base de datos cargada y optimizada.")


---

### S3.T1. Tratamiento de datos NO RELEVANTES

* **S3.T1.1.** Identificar y Eliminar columnas no informativas debido a su alta repetitividad de sus observaciones.
* **S3.T1.2.** Identificar y Eliminar columnas no informativas debido a su nula relaci√≥n con el fen√≥meno de estudio.
* **S3.T1.3.** Eliminar observaciones duplicadas. Esto se deber√≠a hacer al final de la limpieza de la BBDD.

---

* **S3.T1.1.** Identificar y Eliminar columnas no informativas debido a su alta repetitividad de sus observaciones.

    

>>EJEMPLO: Columnas no informativas por repetici√≥n de valores o NaNs

In [None]:
df['SOLAR TERMICA'].value_counts(dropna=False) * 100 / len(df.index)

>>EJEMPLO: Variables con pocos datos pero valiosos. Antes de eliminar una variable, mejor analizar su distribuci√≥n con atenci√≥n y asegurar que no aporta informaci√≥n relevante para el fen√≥meno de estudio

In [None]:
# 1. Preparaci√≥n de datos
ind_ve = df[df['VEHICLE ELECTRIC'] == 'SI'].index
data_ve = df.loc[ind_ve, "Qualificaci√≥ de consum d'energia primaria no renovable"].value_counts(normalize=True, dropna=False).sort_index()
data_global = df["Qualificaci√≥ de consum d'energia primaria no renovable"].value_counts(normalize=True, dropna=False).sort_index()

# 2. Definir una paleta de colores fija para que las letras (A, B, C...) coincidan siempre
# Usamos un mapa de colores 'RdYlGn' (Rojo-Amarillo-Verde) invertido para eficiencia energ√©tica
colores = plt.cm.RdYlGn_r(np.linspace(0, 1, len(data_global)))

# 3. Crear la figura con 1 fila y 2 columnas
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 6))

# Gr√°fico 1: Subgrupo con Veh√≠culo El√©ctrico
data_ve.plot(
    kind="pie",
    ax=ax1,
    autopct='%1.1f%%',
    startangle=90,
    colors=colores,
    wedgeprops={'edgecolor': 'white'}
)
ax1.set_title("Edificios con VEH√çCULO EL√âCTRICO\n(Submuestreo)", fontweight='bold')
ax1.set_ylabel("") # Elimina el texto lateral innecesario

# Gr√°fico 2: Distribuci√≥n Global
data_global.plot(
    kind="pie",
    ax=ax2,
    autopct='%1.1f%%',
    startangle=90,
    colors=colores,
    wedgeprops={'edgecolor': 'white'}
)
ax2.set_title("Distribuci√≥n GLOBAL de la BBDD\n(Poblaci√≥n Total)", fontweight='bold')
ax2.set_ylabel("")

>>*TAREA: Completa la definici√≥n de la variable "cols_baja_varianza" con las variables (columnas) que tienen falta de variabilidad (Repetitividad o NaNs).*

>>*Criterio: Columnas con >95% de valores id√©nticos o nulos.*

In [None]:
cols_baja_varianza = [
    'SOLAR TERMICA',              # 100% "NO"
    'INFORME_INS_TECNICA_EDIFICI', # 99.83 % NaN
    # ... A√±ade aqu√≠ el resto de variables, poniendo al lado el motivo de su inclusi√≥n ...
]

>>Eliminar columnas no informativas por repetici√≥n de valores o NaNs

In [None]:
df = df.drop(columns=cols_baja_varianza, errors='ignore')

* **S3.T1.2.** Identificar y Eliminar columnas no informativas debido a su nula relaci√≥n con el fen√≥meno de estudio.

In [None]:
# Lista de variables a eliminar por nula relaci√≥n
cols_no_relacionadas = [
    'NUM_CAS',              # ID administrativo de la Generalitat
    'REFERENCIA CADASTRAL', # No influye en la f√≠sica del edificio
    # --- A√±ade aqu√≠ el resto de variables detectadas ---
]

# Ejecuci√≥n de la eliminaci√≥n
df = df.drop(columns=cols_no_relacionadas, errors='ignore')

* **S3.T1.3.** Eliminar observaciones duplicadas. Esto se deber√≠a repetir al final de la limpieza de la BBDD.

In [None]:
df = df.drop_duplicates()  # Eliminar observaciones duplicadas

---

### S3.T2. Tratamiento de datos INCONSISTENTES

* **S3.T2.1.** Uniformizar uso de las may√∫sculas/min√∫sculas y corregir errores de escritura en variables categ√≥ricas.
* **S3.T2.2.** Errores de formato en direcciones, n√∫meros, ...

---


* **S3.T2.1.** Uniformizar uso de las may√∫sculas/min√∫sculas y corregir errores de escritura en variables categ√≥ricas.

>Las variables categ√≥ricas a menudo presentan "suciedad" debido a la entrada manual: mezcla de may√∫sculas, errores ortogr√°ficos o sin√≥nimos. Para limpiar estas variables, seguiremos estas cuatro estrategias:

>1. **Normalizaci√≥n de texto:** Convertimos todo a min√∫sculas para que el sistema no trate como categor√≠as distintas palabras que solo var√≠an en su graf√≠a (ej: "Vivienda" vs "vivienda").

>>> `df['COL'] = df['COL'].str.lower()`

>2. **Mapeo de sin√≥nimos (Agrupaci√≥n):** Unificamos t√©rminos que significan lo mismo o agrupamos categor√≠as muy similares mediante un diccionario de correcci√≥n.

>>> `df['COL'] = df['COL'].replace({'antiguo': 'nuevo'})`

>3. **Filtrado de errores:** Si detectamos valores imposibles, s√≠mbolos extra√±os o errores que no pueden corregirse por falta de informaci√≥n, eliminamos esas filas (observaciones).

>>> `df = df.drop(df[df['COL'] == 'error'].index, axis=0)`

>4. **Tratamiento del ruido:** En variables con much√≠sima dispersi√≥n (como municipios o tipos de uso muy espec√≠ficos), aparecen categor√≠as con poqu√≠simas muestras. Corregirlas manualmente requiere un esfuerzo excesivo para el beneficio que aportan, y estad√≠sticamente pueden "confundir" al modelo de IA al no tener suficientes ejemplos para aprender un patr√≥n fiable. Estrategia: Establecemos un umbral m√≠nimo (ej. 400 observaciones). Si una categor√≠a no llega a ese m√≠nimo, eliminamos esas filas para quedarnos con un dataset m√°s robusto y limpio.

>>>`counts = df['US_EDIFICI'].value_counts()`

>>>`to_remove = counts[counts <= 400].index`

>>>`df = df[~df['US_EDIFICI'].isin(to_remove)]`

>5. **Evaluar siempre la relaci√≥n esfuerzo/beneficio:** A veces, una variable tiene tantos errores ortogr√°ficos o categor√≠as ca√≥ticas (ej. POBLACIO) que el tiempo necesario para limpiarla no compensa la informaci√≥n que aporta. En estos casos, es m√°s eficiente eliminar la columna completa.

>>>`print(df['POBLACIO'].value_counts())`

In [None]:
# EJEMPLO DE TRATAMIENTO COMPLETO DE UNA VARIABLE: Limpieza de NOM_PROVINCIA

print("ESTADO INICIAL DE 'NOM_PROVINCIA':")
print(df['NOM_PROVINCIA'].value_counts(dropna=False))

# 1. Uniformizar a min√∫sculas
df['NOM_PROVINCIA'] = df['NOM_PROVINCIA'].str.lower()

# 2. Eliminar observaciones err√≥neas (ejemplo: valor '0')
# Identificamos √≠ndices y eliminamos esas filas
ind_erroneos = df[df['NOM_PROVINCIA'] == '0'].index
df = df.drop(ind_erroneos, axis=0)

# 3. Reubicar columna al principio para facilitar la inspecci√≥n visual
col_name = "NOM_PROVINCIA"
df.insert(0, col_name, df.pop(col_name))

print("\nESTADO FINAL TRAS LIMPIEZA:")
print(df['NOM_PROVINCIA'].value_counts(dropna=False))

In [None]:
# EJEMPLO DE TRATAMIENTO COMPLETO DE UNA VARIABLE: Limpieza de US_EDIFICI

print("ESTADO INICIAL DE 'US_EDIFICI':")
print(df['US_EDIFICI'].value_counts(dropna=False))

df['US_EDIFICI'].value_counts(dropna=False)  # Distribuci√≥n de valores de US_EDIFICI
df['US_EDIFICI'] = df['US_EDIFICI'].str.lower()  # Convertir a min√∫sculas
# 2. Diccionario de correcciones (Agrupaci√≥n de categor√≠as)
correcciones_uso = {
    'terciario': 'terciari',
    'terciari: locals, oficines...': 'terciari',
    'vivienda unifamiliar': 'habitatge unifamiliar',
    'habitatge unifamiliar a√Øllat': 'habitatge unifamiliar',
    'habitatge unifamiliar adossat': 'habitatge unifamiliar',
    'bloque de viviendas': "bloc d'habitatges plurifamiliar",
    'bloque de viviendas plurifamiliar': "bloc d'habitatges plurifamiliar",
    "bloc d'habitatges": "bloc d'habitatges plurifamiliar",
    "habitatge plurifamiliar": "bloc d'habitatges plurifamiliar",
    "vivienda individual en bloque de viviendas": "habitatge individual en bloc d'habitatges",
    "bloque de viviendas": "bloc d'habitatges plurifamiliar"
}
# Aplicamos el mapeo
df['US_EDIFICI'] = df['US_EDIFICI'].replace(correcciones_uso)

# 3. Eliminaci√≥n de ruido (Categor√≠as con <= 400 observaciones)
counts = df['US_EDIFICI'].value_counts()
to_remove = counts[counts <= 400].index
df = df[~df['US_EDIFICI'].isin(to_remove)]

# 4. Reubicar columna al principio (es una buena pr√°ctica)
df.insert(0, 'US_EDIFICI', df.pop('US_EDIFICI'))

print("\nESTADO FINAL TRAS LIMPIEZA:")
print(df['US_EDIFICI'].value_counts(dropna=False))


>TAREA: Repite el proceso en una celda de c√≥digo independiente para cada variable categ√≥rica que consideres que se debe limpiar (crea tantas celdas de c√≥digo como necesites).

In [None]:
#Insertar c√≥digo aqu√≠ para la limpieza de la variable 1

In [None]:
#Insertar c√≥digo aqu√≠ para la limpieza de la variable 2

In [None]:
#Insertar c√≥digo aqu√≠ para la limpieza de la variable 3 ...

* **S3.T2.2.** Errores de formato en direcciones, n√∫meros, ...

>A menudo, los datos num√©ricos vienen "contaminados" por formatos regionales (comas en lugar de puntos) o errores de exportaci√≥n que convierten n√∫meros en texto. En esta secci√≥n, aprenderemos a estandarizar estos formatos.

>#### Estrategias comunes:
>1. **Ceros a la izquierda:** Los c√≥digos postales o IDs deben tener una longitud fija (ej. `08001`). Si se cargan como n√∫meros, el `0` inicial desaparece.
>2. **Correcci√≥n de separadores:** En Python, los decimales usan el punto (`.`). Si el dataset usa comas (`,`) para miles o decimales incorrectos, hay que eliminarlas o sustituirlas.
>3. **Casteo de tipos (Casting):** Forzar a que una variable sea `float` (n√∫mero con decimales) o `str` (texto) para que las funciones de an√°lisis no den error.

*En esta tarea os damos todo el c√≥digo ya realizado. No ten√©is que realizar ni implementar c√≥digo nuevo, simplemente ejecutar el que os proporcionamos.*

In [None]:
# --- Limpieza de CODI_POSTAL ---

print("Muestra de C√≥digos Postales iniciales:")
print(df['CODI_POSTAL'].head())

# El objetivo es que todos tengan 5 d√≠gitos y sean texto.
# 1. Eliminar valores nulos (NaN) ya que no podemos inventar un c√≥digo postal
df = df.dropna(subset=['CODI_POSTAL'])

# 2. Asegurar formato: De n√∫mero -> a Entero (quita decimal .0) -> a Texto -> Rellenar ceros
df['CODI_POSTAL'] = df['CODI_POSTAL'].astype(int).astype(str).str.zfill(5)

# 3. Mover al principio
df.insert(0, 'CODI_POSTAL', df.pop('CODI_POSTAL'))

print("Muestra de C√≥digos Postales limpios:")
print(df['CODI_POSTAL'].head())

In [None]:
# --- Limpieza de Emissions de CO2 y Energia prim√†ria no renovable ---

print("Verificaci√≥n de tipos de datos inicial:")
print(df[["Emissions de CO2", "Energia prim√†ria no renovable"]].dtypes)

# Eliminamos la coma para que Python pueda tratarlos como n√∫meros decimales (float).

# Tratamiento de Emissions de CO2
df["Emissions de CO2"] = [float(str(i).replace(",", "")) for i in df["Emissions de CO2"]]

# Tratamiento de Energia prim√†ria no renovable
df["Energia prim√†ria no renovable"] = [float(str(i).replace(",", "")) for i in df["Energia prim√†ria no renovable"]]

print("Verificaci√≥n de tipos de datos final:")
print(df[["Emissions de CO2", "Energia prim√†ria no renovable"]].dtypes)

# Visualizamos las primeras filas para confirmar que son n√∫meros limpios
display(df[["Emissions de CO2", "Energia prim√†ria no renovable"]].head())

In [None]:
# --- Limpieza de Valor finestres y aillaments CTE ---

df['VALOR FINESTRES CTE'] = df['VALOR FINESTRES CTE'].astype(str)  # Convertir el tipo de datos de VALOR FINESTRES CTE a str
df['VALOR AILLAMENTS CTE'] = df['VALOR AILLAMENTS CTE'].astype(str)  # Convertir el tipo de datos de VALOR AILLAMENTS CTE a str

---

### S3.T3. Tratamiento de observaciones nulas (missing data)

No todos los nulos se deben tratar igual. Dependiendo de cu√°ntos falten y qu√© tipo de variable sea, elegiremos una de estas 5 alternativas:

1. **Borrado por densidad:** Si a una fila le faltan casi todos los datos y no tenemos criterio para rellenar los valores, no es √∫til. Borrar observaciones (filas) es "barato".
2. **Borrado puntual:** Si faltan muy pocos datos en una columna cr√≠tica (ej. `ZONA CLIMATICA`), borramos esas filas, nunca la columna entera.
3. **Imputaci√≥n por tendencia central:** Sustituir nulos por la **mediana** (num√©ricas) o la **moda** (categ√≥ricas).
4. **Categor√≠a "Missing":** Crear una categor√≠a nueva llamada "DESCONOCIDO" para no perder la informaci√≥n de las otras columnas.
5. **Borrado de columna:** Si la columna aporta poco y est√° casi vac√≠a.

---



>Diagn√≤stico 1: Ver n¬∫ NaNs por columnas

In [None]:
# 1. Recuento de NaNs por columna

# Configuramos pandas para que no ponga l√≠mites al n√∫mero de filas mostradas al imprimir
pd.set_option('display.max_rows', 100) # Suficiente para tus 69 columnas

print("--- Recuento total de NaNs por columna (69 columnas) ---")
# Calculamos los nulos y los mostramos todos
nulos_totales = df.isnull().sum().sort_values(ascending=False)
print(nulos_totales)

# Restablecemos la configuraci√≥n por defecto (opcional, para no saturar futuras celdas)
pd.reset_option('display.max_rows')

>Diagn√≥stico 2: Ver n¬∫ NaNs por filas

In [None]:
# Creamos una serie con el conteo de nulos por cada fila
nans_por_fila = df.isnull().sum(axis=1)

# Contamos cu√°ntas filas hay con 0 nulos, con 1 nulo, con 2, etc.
distribucion_nans = nans_por_fila.value_counts().sort_index()

# Visualizaci√≥n
distribucion_nans.plot.bar(
    figsize=(10, 5),
    title="Diagn√≥stico 2: ¬øCu√°ntos campos vac√≠os tienen los edificios?",
    xlabel="N√∫mero de NaNs detectados en una fila",
    ylabel="Cantidad de edificios (registros)",
    color='skyblue',
    edgecolor='black'
)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

>> Alternativa 1: Borrar filas con exceso de NaNs. Por ejemplo, si un edificio tiene m√°s de 6 campos vac√≠os, lo descartamos

In [None]:
umbral = 6
df = df[df.isnull().sum(axis=1) <= umbral]

>>Alternativa 2: Borrar filas puntuales

In [None]:
df.drop([5], axis=0)  # Eliminar observaci√≥n con √≠¬≠ndice 5

>>Alternativa 3: Borrar filas que tengan un NaN en una determinada columna. Apropiado si hay muy pocos NaNs en la columna.

In [None]:
df = df.dropna(subset=['ZONA CLIMATICA'])

>>Alternativa 4: Borrar columnas poco informativas que contengan observaciones nulas

In [None]:
df = df.drop(df.columns[3], axis=1)  # Eliminar columna 3

>>Alternativa 5: Asignar un valor a la observaci√≥n nula. Distintos casos seg√∫n variables continuas o categ√≥ricas

In [None]:
med = df['METRES_CADASTRE'].median()  # Calcular la mediana de la variable METRES_CADASTRE
df['METRES_CADASTRE'] = df['METRES_CADASTRE'].fillna(med)  # Sustituimos NaNs por la mediana

In [None]:
top = df['SISTEMA BIOMASSA'].describe()['top']  # Calcular el valor m√°s frecuente de la variable SISTEMA BIOMASSA
df['SISTEMA BIOMASSA'] = df['SISTEMA BIOMASSA'].fillna(top)  # Sustituimos NaNs por el campo m√É¬°s com√É¬∫n

In [None]:
df['XARXA DISTRICTE'] = df['XARXA DISTRICTE'].fillna('MISSING')  # Sustituimos NaNs una categor√≠¬≠a nueva

>TAREA: Trata las observaciones NaNs de tu base de datos con adoptando la alternativa m√°s adiente en cada caso. Justifica tu decisi√≥n con un comentario al lado del c√≥digo. El objetivo es terminar sin ning√∫n NaN en tu BBDD.


EJEMPLO Limpieza de ZONA CLIMATICA.

In [None]:
# EJEMPLO DE TRATAMIENTO COMPLETO DE UNA VARIABLE: Zona clim√°tica
# 1. Diagn√≥stico: ¬øCu√°ntos nulos tenemos realmente?
num_missing = df["ZONA CLIMATICA"].isnull().sum()
print(f"Valores nulos iniciales en ZONA CLIMATICA: {num_missing}")

# 2. Decisi√≥n y Ejecuci√≥n:
# Como solo hay 46 nulos sobre miles de registros, la p√©rdida es despreciable (<1%).
# Optamos por eliminar las filas (Alternativa 3).
df = df[df['ZONA CLIMATICA'].notna()]

# 3. Organizaci√≥n:
# Movemos la columna al principio para facilitar la inspecci√≥n visual
col_name = "ZONA CLIMATICA"
first_col = df.pop(col_name)
df.insert(0, col_name, first_col)

num_missing = df["ZONA CLIMATICA"].isnull().sum()
print(f"Valores nulos finales en ZONA CLIMATICA: {num_missing}")

In [None]:
# Introduce aqu√≠ el c√≥digo para la limpieza de otra variable (utiliza una celda de c√≥digo por variable)

---

### S3.T4. Tratamiento de Outliers en Variables Continuas

No todos los nulos se deben tratar igual. Dependiendo de cu√°ntos falten y qu√© tipo de variable sea, elegiremos una de estas 5 alternativas:

Un **outlier** en una variable continua es un valor que se aleja dr√°sticamente del comportamiento general. En nuestro contexto (edificios), suele indicar:
* **Errores de entrada:** Un edificio de 100,000 $m^2$ que en realidad ten√≠a 100.
* **Casos at√≠picos:** Edificios singulares que no representan la norma y que pueden sesgar las predicciones de la IA.

En ambos casos, hay que eliminar estas observaciones de nuestra base de datos.

---



Paso 1: Diagn√≥stico Visual y Estad√≠stico

In [None]:
# 1. Diagn√≥stico estad√≠stico y visual
print(df['METRES_CADASTRE'].describe())

# Visualizamos la densidad para detectar "colas" largas en el gr√°fico
sns.kdeplot(data=df['METRES_CADASTRE'])
plt.title("Distribuci√≥n de Metros Cuadrados")
plt.show()

Paso 2: Control de filas a eliminar

In [None]:
# 1. Definir l√≠mites basados en el diagn√≥stico anterior
limite_inferior = 5
limite_superior = 50000

# 2. Identificar y Contar
ind_out = df[(df['METRES_CADASTRE'] < limite_inferior) | (df['METRES_CADASTRE'] > limite_superior)].index

print(f"Registros que se eliminar√°n: {len(ind_out)}")
print(f"Porcentaje de p√©rdida: {(len(ind_out) / len(df)) * 100:.2f}%")

Paso 3: Eliminaci√≥n y validaci√≥n

In [None]:
# 3. EJECUCI√ìN (Solo si el porcentaje es razonable)
if len(ind_out) > 0:
    df = df.drop(ind_out, axis=0)
    # Reubicamos la columna para ver el resultado
    df.insert(0, 'METRES_CADASTRE', df.pop('METRES_CADASTRE'))
    print(f"\n Eliminaci√≥n completada. Nuevo tama√±o: {df.shape[0]} filas.")
else:
    print("\n No se han eliminado registros.")

TAREA: Elimina los outliers de tu base de datos

In [None]:
# Introduce aqu√≠ el c√≥digo para la limpieza de otra variable (utiliza una celda de c√≥digo por variable)

Eliminar observaciones duplicadas.

In [None]:
n_antes_dupl = len(df)
df = df.drop_duplicates()
print(f"Registros duplicados eliminados: {n_antes_dupl - len(df)}")

Guardar BBDD limpia

In [None]:
# Usamos la misma carpeta donde cargamos la BBDD_ST2
ruta_salida = '/content/drive/MyDrive/Sostenibilidad/BBDD_ST3.csv'
df.to_csv(ruta_salida, index=False)

# üèÅ TAREAS FINALES: Wrap-up de la Sesi√≥n de Trabajo 3

**Descripci√≥n:** Una vez finalizado el proceso de depuraci√≥n, es necesario auditar la calidad de la base de datos resultante. Contesta a las siguientes preguntas comparando el estado inicial (**BBDD_ST2**) y el estado final tras la limpieza (**BBDD_ST3**).


### 1. Auditor√≠a de Dimensiones
Realiza un balance del volumen de datos tras aplicar los filtros de nulos, duplicados y outliers.

* **N√∫mero de filas:**
    * *Antes (ST2):* `______`
    * *Despu√©s (ST3):* `______`
* **N√∫mero de columnas:**
    * *Antes (ST2):* `______`
    * *Despu√©s (ST3):* `______`

---

### 2. Definici√≥n del Modelo del proceso de certificaci√≥n
Identifica las variables que ser√°n el motor de tu modelo en la pr√≥xima sesi√≥n.

* **Variables INPUTS (Entradas):** Escribe el nombre de las columnas que usar√°s como posibles INPUTS (Entradas) en el proceso de certificaci√≥n.
    * *Respuesta:*
* **Variables OUTPUTS (Salidas):** Escribe el nombre de las columnas que usar√°s como posibles OUTPUTS (Salidas) del proceso de certificaci√≥n.
    * *Respuesta:*

---

### 3. Impacto de la limpieza por Variable

A continuaci√≥n, detalla los cambios espec√≠ficos en todas las variables no eliminadas.

#### **A. Variables Categ√≥ricas (Unificaci√≥n y Ruido)**
| Variable | N¬∫ Categor√≠as Inicial (ST2) | N¬∫ Categor√≠as Final (ST3) | Comentario (ej: ¬øQu√© agrupaste?) |
| :--- | :---: | :---: | :--- |
| `US_EDIFICI` | | | |
| `NOM_PROVINCIA` | | | |
| `ZONA CLIMATICA` | | | |

#### **B. Variables Continuas (Eliminaci√≥n de Outliers)**
| Variable | Valor M√≠n / M√°x (ST2) | Valor M√≠n / M√°x (ST3) | ¬øPor qu√© elegiste esos l√≠mites? |
| :--- | :---: | :---: | :--- |
| `METRES_CADASTRE` | | | |
| `compacitat` | | | |
| `Emissions de CO2` | | | |
| `Energia prim√†ria...`| | | |