# ETL: Limpieza de Datos de Viviendas en Barcelona (PySpark)

## Importamos las librerías necesarias


In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
import re

# Crear SparkSession
spark = SparkSession.builder \
    .appName("ETL_Housing_Barcelona") \
    .getOrCreate()

print("✅ SparkSession creada correctamente")
print(f"Versión de Spark: {spark.version}")


## EXTRACT: Cargar los datos


In [None]:
# Cargar el CSV
df_raw = spark.read.csv(
    "../data/housing-barcelona.csv",
    header=True,
    inferSchema=False  # Leer todo como string primero
)

print("✅ El dataframe se ha creado correctamente")
print(f"Filas: {df_raw.count()}")
print(f"Columnas: {len(df_raw.columns)}")
print(f"\nColumnas: {df_raw.columns}")
print(f"\nPrimeras filas:")
df_raw.show(5, truncate=False)


## TRANSFORM: Limpieza de Datos

### Paso 1: Crear copia para trabajar


In [None]:
# Crear copia del dataframe (en PySpark, los DataFrames son inmutables, así que trabajamos directamente)
df_clean = df_raw
print(f"✅ Dataframe listo para trabajar. Filas: {df_clean.count()}")


### Paso 2: Eliminar espacios (strip) en columnas de texto


In [None]:
# Aplicar trim() a todas las columnas (elimina espacios al inicio y final)
for col in df_clean.columns:
    df_clean = df_clean.withColumn(col, trim(col(col)))

print("✅ Espacios eliminados de todas las columnas")


### Paso 3: Reemplazar valores vacíos por NULL


In [None]:
# Reemplazar valores que representan "vacío" por NULL (None en PySpark)
valores_vacios = ['', ' ', 'nan', 'None', 'N/A', 'n/a', 'NULL', 'null', '?', 'unknown']

for col in df_clean.columns:
    df_clean = df_clean.withColumn(
        col,
        when(col(col).isin(valores_vacios) | col(col).isNull(), None)
        .otherwise(col(col))
    )

print("✅ Valores vacíos convertidos a NULL")
print(f"\nValores NULL por columna:")
null_counts = {}
for col in df_clean.columns:
    null_count = df_clean.filter(col(col).isNull()).count()
    if null_count > 0:
        null_counts[col] = null_count

for col, count in sorted(null_counts.items(), key=lambda x: x[1], reverse=True):
    print(f"  {col}: {count}")


### Paso 4: Convertir tipos de datos adecuados

Primero definimos UDFs (User Defined Functions) para las funciones personalizadas


In [None]:
# Definir UDFs para extraer números y convertir texto

# UDF para extraer números de strings
def extract_number_udf(value):
    """Extrae el primer número de un string"""
    if value is None:
        return None
    value_str = str(value)
    numbers = re.findall(r'\d+\.?\d*', value_str)
    if numbers:
        return float(numbers[0])
    return None

# UDF para convertir texto a número
def text_to_number_udf(value):
    """Convierte texto a número"""
    if value is None:
        return None
    value_str = str(value).lower().strip()
    
    text_map = {
        'one': 1, 'two': 2, 'three': 3, 'four': 4, 'five': 5,
        'six': 6, 'seven': 7, 'eight': 8, 'nine': 9, 'ten': 10
    }
    
    if value_str in text_map:
        return text_map[value_str]
    
    if '+' in value_str:
        nums = re.findall(r'\d+', value_str)
        if nums:
            return int(nums[0])
    
    numbers = re.findall(r'\d+\.?\d*', value_str)
    if numbers:
        return float(numbers[0])
    return None

# UDF para extraer precio
def extract_price_udf(value):
    """Extrae precio numérico"""
    if value is None:
        return None
    value_str = str(value).replace('€', '').replace('.', '').replace(',', '.').strip()
    numbers = re.findall(r'\d+\.?\d*', value_str)
    if numbers:
        return float(numbers[0])
    return None

# UDF para extraer precio por m²
def extract_price_m2_udf(value):
    """Extrae precio por m²"""
    if value is None:
        return None
    value_str = str(value).replace('€/m2', '').replace('€/m²', '').replace('.', '').replace(',', '.').strip()
    numbers = re.findall(r'\d+\.?\d*', value_str)
    if numbers:
        return float(numbers[0])
    return None

# Registrar UDFs
extract_number = udf(extract_number_udf, DoubleType())
text_to_number = udf(text_to_number_udf, DoubleType())
extract_price = udf(extract_price_udf, DoubleType())
extract_price_m2 = udf(extract_price_m2_udf, DoubleType())

print("✅ UDFs definidas y registradas")


In [None]:
# Limpiar columnas numéricas usando las UDFs

# Limpiar surface_m2
if 'surface_m2' in df_clean.columns:
    df_clean = df_clean.withColumn('surface_m2', extract_number('surface_m2'))

# Limpiar rooms
if 'rooms' in df_clean.columns:
    df_clean = df_clean.withColumn('rooms', text_to_number('rooms'))

# Limpiar bathrooms
if 'bathrooms' in df_clean.columns:
    df_clean = df_clean.withColumn('bathrooms', text_to_number('bathrooms'))

# Limpiar price_eur
if 'price_eur' in df_clean.columns:
    df_clean = df_clean.withColumn('price_eur', extract_price('price_eur'))

# Limpiar price_per_m2
if 'price_per_m2' in df_clean.columns:
    df_clean = df_clean.withColumn('price_per_m2', extract_price_m2('price_per_m2'))

# Convertir coordenadas a numérico
if 'latitude' in df_clean.columns:
    df_clean = df_clean.withColumn('latitude', col('latitude').cast('double'))
if 'longitude' in df_clean.columns:
    df_clean = df_clean.withColumn('longitude', col('longitude').cast('double'))

print("✅ Columnas numéricas limpiadas y convertidas")
print(f"\nTipos de datos numéricos:")
df_clean.select('surface_m2', 'rooms', 'bathrooms', 'price_eur', 'price_per_m2', 'latitude', 'longitude').printSchema()


In [None]:
# Convertir columnas que deben ser enteros
if 'rooms' in df_clean.columns:
    df_clean = df_clean.withColumn('rooms', col('rooms').cast('int'))
if 'bathrooms' in df_clean.columns:
    df_clean = df_clean.withColumn('bathrooms', col('bathrooms').cast('int'))

print("✅ Columnas convertidas a enteros")


In [None]:
# Asegurar que las columnas de texto sean string
text_cols = ['listing_id', 'operation', 'district', 'neighborhood', 'address', 
             'floor', 'condition', 'energy_certificate', 'agency']

for col_name in text_cols:
    if col_name in df_clean.columns:
        df_clean = df_clean.withColumn(
            col_name,
            when(col(col_name).isNull() | (col(col_name) == 'nan'), None)
            .otherwise(col(col_name).cast('string'))
        )

print("✅ Columnas de texto convertidas a string")


In [None]:
# Convertir columnas booleanas
boolean_cols = ['elevator', 'balcony', 'furnished', 'has_parking']

for col_name in boolean_cols:
    if col_name in df_clean.columns:
        df_clean = df_clean.withColumn(
            col_name,
            when(lower(trim(col(col_name))).isin(['y', 'yes', 'sí', 'si', 's', '1', 'true']), True)
            .when(lower(trim(col(col_name))).isin(['n', 'no', '0', 'false']), False)
            .otherwise(None)
        )

print("✅ Columnas booleanas convertidas")


### Paso 5: Rellenar valores faltantes


In [None]:
# Rellenar valores faltantes
# Para columnas de texto: rellenar con "{nombre_columna} empty"
# Para columnas numéricas: rellenar con la media

print("=== RELLENANDO VALORES FALTANTES ===\n")

# Obtener esquema para identificar tipos
schema = df_clean.schema

# Crear diccionario para fillna
fill_dict = {}

# Rellenar columnas de texto (StringType)
for field in schema.fields:
    if isinstance(field.dataType, StringType):
        fill_dict[field.name] = f"{field.name} empty"
        print(f"✅ {field.name}: valores rellenados con '{fill_dict[field.name]}'")

# Rellenar columnas numéricas con la media
numeric_cols = ['surface_m2', 'rooms', 'bathrooms', 'price_eur', 'price_per_m2', 'latitude', 'longitude']

for col_name in numeric_cols:
    if col_name in df_clean.columns:
        # Calcular media
        mean_value = df_clean.agg(avg(col(col_name)).alias('mean')).collect()[0]['mean']
        
        if mean_value is not None:
            # Si es int, redondear
            if col_name in ['rooms', 'bathrooms']:
                mean_value = int(round(mean_value))
                fill_dict[col_name] = mean_value
                print(f"✅ {col_name}: valores rellenados con media = {mean_value} (entero)")
            else:
                fill_dict[col_name] = mean_value
                print(f"✅ {col_name}: valores rellenados con media = {mean_value:.2f}")

# Aplicar fillna
df_clean = df_clean.fillna(fill_dict)

# Verificar valores NULL restantes
null_count = 0
for col_name in df_clean.columns:
    col_null_count = df_clean.filter(col(col_name).isNull()).count()
    if col_null_count > 0:
        null_count += col_null_count

print(f"\n✅ Todos los valores faltantes han sido rellenados")
print(f"Valores NULL restantes: {null_count}")


### Verificación: Comparación antes/después


In [None]:
# Mostrar ejemplos de limpieza
print("=== EJEMPLOS DE LIMPIEZA ===\n")
print("ANTES (RAW):")
df_raw.select('surface_m2', 'rooms', 'bathrooms', 'price_eur', 'price_per_m2', 'elevator', 'district').show(10, truncate=False)
print("\nDESPUÉS (CLEAN):")
df_clean.select('surface_m2', 'rooms', 'bathrooms', 'price_eur', 'price_per_m2', 'elevator', 'district').show(10, truncate=False)


### Resumen de la transformación


In [None]:
print("=== RESUMEN DE LA TRANSFORMACIÓN ===\n")
print(f"Filas: {df_clean.count()}")
print(f"Columnas: {len(df_clean.columns)}")
print(f"\nEsquema del dataset limpio:")
df_clean.printSchema()
print(f"\nPrimeras filas del dataset limpio:")
df_clean.show(5, truncate=False)


## LOAD: Guardar datos limpios


In [None]:
# Guardar el dataframe limpio
output_path = "../data/housing-barcelona-clean-pyspark.csv"

df_clean.coalesce(1).write.mode("overwrite").option("header", "true").csv(output_path)

print(f"✅ Datos limpios guardados en: {output_path}")
print(f"\nArchivo guardado exitosamente con {df_clean.count()} filas y {len(df_clean.columns)} columnas")
