In [None]:
# TODO: Mejoras para este ejercicio:
# - Asegurar que los datos sean consistentes: si hay valores erróneos o nulos, establecer un random_state para garantizar reproducibilidad
# - Implementar pipelines para estructurar mejor el flujo de preprocesamiento y modelado, evitando la aplicación manual de cada paso
# - Optimizar el modelo ajustando hiperparámetros con técnicas como GridSearchCV o RandomizedSearchCV
# - Utilizar Regex para validaciones: códigos postales, teléfonos, emails, etc.
# - Crear variables derivadas como precio por metro cuadrado (precio_m2 = precio / superficie)
# - Geolocalización: obtener coordenadas con OpenStreetMap a partir de direcciones o códigos postales y utilizarlas para análisis espaciales
# - Visualizar las viviendas en un mapa interactivo con Folium o Plotly Express para identificar patrones geográficos en los precios
# - Clusterización de zonas con K-Means o DBSCAN para detectar patrones de precios por ubicación y segmentar mejor los inmuebles
# - Evitar data leakage: Dividir los datos en train/test antes de hacer encoding, eliminar outliers o escalar,
#   asegurando que las transformaciones se ajusten sólo con el conjunto de entrenamiento y luego se apliquen en test
# - Subir el proyecto final a Kaggle

## **Funciones Helper**
Aquí se encuentran las funciones auxiliares utilizadas en este notebook. Estas funciones permiten realizar tareas específicas de manera más ordenada y modular.

In [None]:
def clean_floor_column(df):
    """
    Limpia la columna 'floor' asegurando consistencia en los valores.
    - Convierte valores ordinales como '1st', '2nd', '3rd' en números.
    - Sustituye el valor 'ground' por 0.
    - Convierte en NaN otros valores como 'floor'.
    - Maneja valores extremadamente altos o negativos.
    - Convierte a tipo Int16 para optimizar memoria.
    """

    # Mostrar valores únicos antes del saneamiento
    print("\nValores únicos en 'floor' antes del saneamiento:")
    print(df["floor"].unique())

    # Diccionario de conversión de valores ordinales (1st, 2nd, etc.)
    ordinal_mapping = {f"{i}th": i for i in range(1, 101)}
    ordinal_mapping.update({"ground": 0, "1st": 1, "2nd": 2, "3rd": 3})

    # Convertir valores de la columna
    cleaned_floors = []
    for value in df["floor"]:
        if pd.isna(value):
            cleaned_floors.append(pd.NA)  # Mantener valores nulos
            continue

        value = str(value).lower().strip()

        # Intentar convertir directamente si es un número
        try:
            num_value = int(value.replace(",", ""))  # Manejo de valores con comas como "1,200"
            if 0 <= num_value <= 100:  # Limitar a un rango razonable de pisos
                cleaned_floors.append(num_value)
            else:
                cleaned_floors.append(pd.NA)  # Si el número es absurdo, lo dejamos como NA
        except ValueError:
            cleaned_floors.append(ordinal_mapping.get(value, pd.NA))  # Mapear valores ordinales o NA si no se reconoce

    # Asignar la columna limpia al DataFrame
    df["floor"] = cleaned_floors

    # Convertir a Int16 para optimizar memoria, manteniendo NaN con pd.NA
    df["floor"] = df["floor"].astype("Int16") # TODO Hacer esto en la conversión

    # Mostrar valores únicos después del saneamiento
    print("\nValores únicos en 'floor' después del saneamiento:")
    print(df["floor"].unique())

    return df

## 1 - Carga de datos y revisión de la estructura del dataset

En este apartado se realiza una **primera exploración del dataset** para comprender su estructura, tipo de variables y posibles relaciones entre ellas. Este paso es fundamental para la correcta preparación de los datos antes del modelado.

### **1.1 - Importación de librerías y configuración**
Se importan las librerías esenciales para el análisis de datos, la visualización y el modelado, incluyendo **Pandas, NumPy, Matplotlib, Seaborn, SciPy y Scikit-Learn**. Además, se configuran algunos parámetros globales de visualización para mejorar la legibilidad de los gráficos.

### **1.2 - Carga del dataset**
Se carga el conjunto de datos en un **DataFrame de Pandas** desde un archivo CSV. Se incluye una referencia a la fuente del dataset.

### **1.3 - Examinar la estructura del dataset**
En esta fase se inspecciona la estructura general del dataset para entender su contenido y formato:

- **Visualización de las primeras y últimas filas** para detectar posibles errores en la carga de los datos.
- **Información general del dataset** (`df.info()`), que muestra el número de registros, tipos de datos y valores nulos.
- **Número total de filas y columnas** (`df.shape`).
- **Identificación de columnas numéricas y categóricas**, que ayudará en el preprocesamiento.
- **Recuento de valores únicos en variables categóricas**, útil para evaluar su diversidad.
- **Visualización de los valores únicos en algunas columnas categóricas clave**, como `type`, `floor`, `orientation`, `district` y `subdistrict`, con el objetivo de analizar su distribución y detectar posibles inconsistencias.
- **Revisión del número de valores nulos por columna** (`df.isnull().sum()`), lo que permitirá identificar qué variables requieren imputación o eliminación en la etapa de preprocesamiento.
- **Resumen estadístico de las variables numéricas**, para analizar su distribución, detectar valores atípicos y entender la escala de los datos.

### **1.4 - Comprobación de relaciones potenciales**
Para evaluar la viabilidad del modelado, se analizan las correlaciones entre variables numéricas:

- Se genera una **matriz de correlación** (`df.corr()`) para medir la relación entre variables.
- Se identifican **las variables con mayor impacto en `price`** basándose en la correlación:
  - `floor_built` (0.70)
  - `floor_area` (0.72)
  - `bedrooms` (0.51)
  - `bathrooms` (0.69)
- Se confirma la pertinencia de `balcony` como una **variable categórica de clasificación**, revisando la distribución de sus valores.

### 1.1 - Importación de librerías y otras configuraciones

In [None]:
# Cargar las librerías necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler, LabelEncoder, OneHotEncoder
import tensorflow as tf
import folium
from geopy.distance import geodesic

# Configuraciones
%matplotlib inline
sns.set_theme(style="whitegrid", palette="viridis", font_scale=1.1)

### 1.2 - Carga del dataset

In [None]:
# Cargar el dataset local con Pandas
df = pd.read_csv("scripts/madrid_rent_with_coordinates.csv")

# Ref. https://www.kaggle.com/datasets/mapecode/madrid-province-rent-data

### 1.3 - Examinar la estructura del dataset

In [None]:
# Mostrar las primeras filas para una vista inicial del dataset
print("Primeras filas del dataset:")
display(df.head())

In [None]:
# Mostrar las últimas filas para identificar posibles problemas en la carga de datos
print("Últimas filas del dataset:")
display(df.tail())

In [None]:
# Obtener información general sobre el dataset, incluyendo tipos de datos y valores nulos
print("Información general del dataset:")
display(df.info())

In [None]:
# Mostrar el número de filas y columnas en el dataset
print("Número de filas y columnas en el dataset:")
print(df.shape)

In [None]:
# Identificar las columnas numéricas y categóricas
numerical_columns = df.select_dtypes(include=['number']).columns.tolist()
categorical_columns = df.select_dtypes(include=['object', 'category']).columns.tolist()

In [None]:
# Mostrar las columnas numéricas identificadas
print("Columnas numéricas:")
print(numerical_columns)

In [None]:
# Mostrar las columnas categóricas identificadas
print("Columnas categóricas:")
print(categorical_columns)

In [None]:
# Contar valores únicos en variables categóricas
print("Valores únicos en variables categóricas:")
df[categorical_columns].nunique()

In [None]:
# Mostrar valores únicos de algunas columnas categóricas para revisar su diversidad
relevant_categorical_columns = ['type', 'floor', 'orientation', 'district', 'subdistrict']

print("Valores únicos en algunas variables categóricas relevantes:")
for col in relevant_categorical_columns:
    print(f"\n{col}: {df[col].nunique()} valores únicos")
    print(df[col].unique()[:10])

In [None]:
# Mostrar el número de valores nulos por columna
print(df.isnull().sum())

In [None]:
# Describir estadísticamente las variables numéricas para analizar su distribución y posibles valores atípicos
print("Resumen estadístico de las variables numéricas:")
display(df.describe())

### 1.4 - Comprobar relaciones potenciales

In [None]:
# Se genera la matriz de correlación para analizar la relación entre las variables numéricas
print("Matriz de correlación entre variables numéricas:")
correlation_matrix = df[numerical_columns].corr()
display(correlation_matrix)

In [None]:
# Identificar relaciones relevantes para modelado

# Basándonos en la matriz de correlación, seleccionamos las variables con mayor impacto en 'price'
# Según el análisis previo, las variables con correlación más fuerte con 'price' son:
# - floor_built (0.70)
# - floor_area (0.72)
# - bedrooms (0.51)
# - bathrooms (0.69)
# Otras variables tienen correlaciones insignificantes (<0.01) y no se consideran para modelado

key_relationships = ['price', 'floor_built', 'floor_area', 'bedrooms', 'bathrooms']
print("Relaciones clave para la predicción de price:")
display(df[key_relationships].corr())

In [None]:
# Se selecciona balcony como variable de clasificación
# Se analiza la frecuencia de los valores presentes en balcony para entender su distribución
print("Frecuencia de valores en la variable balcony:")
df['balcony'].value_counts()

## 2 - Limpieza y validación de los datos

### 2.1 - Eliminación de columnas irrelevantes

In [None]:
# Se eliminan columnas que no aportan información útil para el análisis de precios y balcones
columns_to_drop = [
    'web_id',               # Identificador único para cada anuncio, no aporta valor analítico
    'url',                  # Enlace a la página del anuncio, irrelevante para el modelado
    'title',                # Contiene información redundante, ya que 'type' y 'location' están en otras columnas
    'professional_name',    # Nombre de la agencia inmobiliaria o propietario, sin impacto en la predicción
    'last_update',          # Indica la fecha de última actualización del anuncio, pero sin un formato uniforme y sin valor predictivo
    'location'              # Contiene el nombre de la calle y en algunos casos el número, pero ya se tiene 'district' y 'subdistrict'
]

# Eliminamos las columnas del dataframe
df.drop(columns=columns_to_drop, inplace=True)

# Mostramos el nuevo número de columnas para verificar la eliminación
print("Columnas eliminadas:", columns_to_drop)
print("Número de columnas tras la eliminación:", df.shape[1])

### 2.2 - Manejo de duplicados

In [None]:
# Contar filas duplicadas considerando todas las columnas
duplicates_total = df.duplicated().sum()
print(f"Número de filas completamente duplicadas: {duplicates_total}")

In [None]:
# Seleccionar columnas clave para identificar duplicados parciales excluyendo IDs o metadatos
#
# Para detectar duplicados, se consideran las columnas que describen las características estructurales de la vivienda,
# evitando aquellas que son únicas para cada anuncio o irrelevantes para el análisis.
#
# Columnas **NO INCLUIDAS** en la detección de duplicados y razones:
# - `web_id` y `url`: Son identificadores únicos de cada anuncio, por lo que no sirven para detectar duplicados.
# - `title`: Contiene información redundante sobre el tipo de vivienda y ubicación, pero en formato texto libre, lo que
#   lo hace inconsistente para la comparación.
# - `professional_name`: El nombre de la agencia o propietario no influye en si un anuncio es duplicado o no.
# - `last_update`: Fecha de actualización del anuncio con valores inconsistentes (por ejemplo, "2 months" vs. "5 November"),
#   lo que impide su uso para identificar duplicados.
# - `location`: Contiene el nombre de la calle y en algunos casos el número, pero ya disponemos de `district` y `subdistrict`
#   que son más estructurados. Además, las direcciones pueden estar escritas de forma diferente en anuncios duplicados.
#
# Se opta por considerar características clave de la vivienda como `price`, `bedrooms`, `floor_area`, `year_built`, etc.,
# ya que un mismo inmueble puede aparecer varias veces con ligeras variaciones en el título, la inmobiliaria o la fecha de publicación.

duplicate_columns = ['type', 'price', 'deposit', 'floor_built', 'floor_area',
                     'year_built', 'bedrooms', 'bathrooms', 'second_hand',
                     'lift', 'garage_included', 'furnished', 'equipped_kitchen',
                     'fitted_wardrobes', 'air_conditioning', 'terrace', 'balcony',
                     'storeroom', 'swimming_pool', 'garden_area', 'district', 'subdistrict',
                     'postalcode', 'lat', 'lng']

# Contar filas que tienen duplicación en estas columnas
duplicates_partial = df.duplicated(subset=duplicate_columns).sum()
print(f"Número de filas duplicadas considerando solo columnas clave: {duplicates_partial}")

In [None]:
# Eliminar filas completamente duplicadas
df.drop_duplicates(inplace=True)
print(f"Dataset después de eliminar duplicados completos: {df.shape}")

In [None]:
# Eliminar duplicados en base a columnas clave, manteniendo la primera aparición
df.drop_duplicates(subset=duplicate_columns, keep='first', inplace=True)
print(f"Dataset después de eliminar duplicados parciales: {df.shape}")

### 2.3 - Eliminación de columnas con alto porcentaje de nulos

In [None]:
# Calcular el porcentaje de valores nulos en cada columna
null_percentage = df.isnull().mean() * 100

# Mostrar el porcentaje de nulos ordenado de mayor a menor
print("Porcentaje de valores nulos por columna:")
print(null_percentage.sort_values(ascending=False))

In [None]:
#  floor_area (57%) → Muy relevante para el precio. Mantener y evaluar imputación aunque tenga un alto porcentaje de nulos
#  deposit (41%) → No es muy relevante para el precio. Pese a ello, mantener y evaluar imputación aunque tenga un alto porcentaje de nulos

# Definir las columnas a eliminar
columns_to_drop = [
    'year_built',      # Muchos nulos (68%). Aunque debería ser relevante para price (construcciones modernas podrían ser más caras) es difícil de imputar correctamente
    'orientation',     # Muchos nulos (52%), difícil de imputar correctamente
    'postalcode'       # Porcentaje de nulos moderadamente alto (25%). Redundante con district y subdistrict, no aporta información adicional
]

# Eliminar las columnas del DataFrame
df.drop(columns=columns_to_drop, inplace=True)

# Mostrar las columnas eliminadas y el nuevo número de columnas
print("Columnas eliminadas por alto porcentaje de valores nulos:", columns_to_drop)
print("Número de columnas después de la eliminación:", df.shape[1])


### 2.4 - Saneamiento de valores en columnas categóricas

In [None]:
# Homogeneización de la columna 'type' para asegurar consistencia en los valores
print("Valores únicos en 'type' antes del saneamiento:", df['type'].unique(), "\n")

# Elimino espacios en blanco y capitalizo los valores
df['type'] = df['type'].str.strip().str.title()

print("Valores únicos en 'type' después del saneamiento:", df['type'].unique())

In [None]:
# Limpieza a la columna 'floor' para estandarizar valores, corregir inconsistencias y pasar los datos a numérico mediante la función 'clear_floor_column'
df = clean_floor_column(df)

In [None]:
# Homogeneización básica de 'district' y 'subdistrict'

# Estas columnas solo se utilizarán en el análisis exploratorio de datos (EDA),
# por lo que aplicamos una limpieza mínima para garantizar consistencia:
# - Convertimos los valores a minúsculas para evitar diferencias por mayúsculas/minúsculas.
# - Eliminamos espacios en blanco adicionales para garantizar uniformidad.
# - Reemplazamos valores 'nan' en formato string por valores NaN reales.
# - No realizamos agrupaciones de nombres similares, ya que no afectarán al modelo.

# Asegurar que sean de tipo 'object' antes de limpiar (evita problemas si son 'category')
df['district'] = df['district'].astype(str).str.strip().str.lower()
df['subdistrict'] = df['subdistrict'].astype(str).str.strip().str.lower()

# Reemplazar valores 'nan' string por NaN reales de manera robusta
df['district'] = df['district'].replace('nan', pd.NA).fillna(pd.NA)
df['subdistrict'] = df['subdistrict'].replace('nan', pd.NA).fillna(pd.NA)

# Mostramos los valores únicos después del saneamiento
print("Valores únicos en 'district' después del saneamiento:")
display(df['district'].unique())
print("\n")

print("Valores únicos en 'subdistrict' después del saneamiento:")
display(df['subdistrict'].unique())

### 2.5 - Saneamiento de valores en columnas numéricas

In [None]:
# Convierto a NaN los valores negativos donde no pueden existir
not_neg_columns = ['price', 'deposit', 'floor_area', 'floor_built', 'floor', 'bedrooms', 'bathrooms']
for col in not_neg_columns:
    df.loc[df[col] < 0, col] = pd.NA

In [None]:
# Convierto a NaN los valores 0 en columnas donde no tiene sentido
not_columns_zero = ['price', 'floor_area', 'floor_built']
for col in not_columns_zero:
    df.loc[df[col] == 0, col] = pd.NA

In [None]:
# Mostrar valores negativos restantes
for col in not_neg_columns:
    neg_count = (df[col] < 0).sum()
    print(f" {neg_count} valores negativos restantes en '{col}'.")

In [None]:
# Mostrar cuántos valores nulos quedaron en cada columna numérica saneada
print("\nValores nulos después del saneamiento:")
print(df[not_neg_columns].isna().sum())

### 2.6 - Conversión y optimización de tipos de datos

In [None]:
# Se ajustan los tipos de datos para reducir el consumo de memoria:
# - Columnas enteras: Se asigna el tipo más eficiente según el rango de valores observados.
# - Columnas flotantes: Se mantienen en float64 solo las coordenadas, ya que requieren precisión.
# - Columnas booleanas: Se convierten a bool para representar valores binarios.
# - Columnas categóricas: Se transforman a 'category' para optimizar análisis y almacenamiento.

# Columnas enteras
df['price'] = df['price'].astype('Int32')
df['floor_built'] = df['floor_built'].astype('Int16')
df['floor'] = df['floor'].astype('Int8')
df['bedrooms'] = df['bedrooms'].astype('Int8')
df['bathrooms'] = df['bathrooms'].astype('Int8')
df['deposit'] = df['deposit'].astype('Int8')
df['floor_area'] = df['floor_area'].astype('Int16')

# Columnas flotantes
df['lat'] = df['lat'].astype('float64') # Mantengo la precisión para las coordenadas
df['lng'] = df['lng'].astype('float64')

# Columnas booleanas
bool_columns = ['second_hand', 'lift', 'garage_included', 'furnished', 'equipped_kitchen',
                'fitted_wardrobes', 'air_conditioning', 'terrace', 'balcony',
                'storeroom', 'swimming_pool', 'garden_area', 'private_owner']
for col in bool_columns:
    df[col] = df[col].astype('bool')

# Columnas categóricas
categorical_columns = ['type', 'district', 'subdistrict']
for col in categorical_columns:
    df[col] = df[col].astype('category')

# Reviso cambios
print("Tipos de datos después de la conversión:")
print(df.dtypes)

### 2.7 - Imputación de valores nulos

#### 2.7.1

In [None]:
# Filtrar columnas con valores nulos mayores a 0
null_values = df.isnull().sum()
null_values = null_values[null_values > 0]

# Mostrar resultados
print("Número de valores nulos por columna:")
print(null_values)

In [None]:
# Filtrar columnas con porcentaje de nulos mayor a 0
null_percentage = df.isnull().mean() * 100
null_percentage = null_percentage[null_percentage > 0]

# Mostrar resultados
print("Porcentaje de valores nulos por columna:")
print(null_percentage)

#### 2.7.2 - Deposit

In [None]:
print("Moda:", df['deposit'].mode()[0])
print("Mediana:", df['deposit'].median())
print("Media:", df['deposit'].mean())
print("Varianza:", df['deposit'].var())
print("Desviación estándar:", df['deposit'].std())
print("Rango:", df['deposit'].max() - df['deposit'].min())

In [None]:
# Frecuencia absoluta
print(df['deposit'].value_counts())
# Frecuencia en porcentaje
print(df['deposit'].value_counts(normalize=True) * 100)

In [None]:
# Ver correlaciones
print(df.select_dtypes(include=['number']).corr()['deposit'].sort_values(ascending=False))

In [None]:
print("Percentil 25:", df['deposit'].quantile(0.25))
print("Percentil 50 (Mediana):", df['deposit'].quantile(0.50))
print("Percentil 75:", df['deposit'].quantile(0.75))
print("IQR:", df['deposit'].quantile(0.75) - df['deposit'].quantile(0.25))

In [None]:
# TODO Para district y subdistrict tal vez podría sacarlo de otras colunmnas, que ya he eliminado... 😂