In [None]:
# TODO: Mejoras para este ejercicio:
# - Asegurar que los datos sean consistentes: si hay valores err√≥neos o nulos, establecer un random_state para garantizar reproducibilidad
# - Implementar pipelines para estructurar mejor el flujo de preprocesamiento y modelado, evitando la aplicaci√≥n manual de cada paso
# - Optimizar el modelo ajustando hiperpar√°metros con t√©cnicas como GridSearchCV o RandomizedSearchCV
# - Utilizar Regex para validaciones: c√≥digos postales, tel√©fonos, emails, etc.
# - Crear variables derivadas como precio por metro cuadrado (precio_m2 = precio / superficie)
# - Geolocalizaci√≥n: obtener coordenadas con OpenStreetMap a partir de direcciones o c√≥digos postales y utilizarlas para an√°lisis espaciales
# - Visualizar las viviendas en un mapa interactivo con Folium o Plotly Express para identificar patrones geogr√°ficos en los precios
# - Clusterizaci√≥n de zonas con K-Means o DBSCAN para detectar patrones de precios por ubicaci√≥n y segmentar mejor los inmuebles
# - Evitar data leakage: Dividir los datos en train/test antes de hacer encoding, eliminar outliers o escalar,
#   asegurando que las transformaciones se ajusten s√≥lo con el conjunto de entrenamiento y luego se apliquen en test
# - Subir el proyecto final a Kaggle

## **Funciones Helper**
Aqu√≠ se encuentran las funciones auxiliares utilizadas en este notebook. Estas funciones permiten realizar tareas espec√≠ficas de manera m√°s ordenada y modular.

In [None]:
def clean_floor_column(df):
    """
    Limpia la columna 'floor' asegurando consistencia en los valores.
    - Convierte valores ordinales como '1st', '2nd', '3rd' en n√∫meros.
    - Sustituye el valor 'ground' por 0.
    - Convierte en NaN otros valores como 'floor'.
    - Maneja valores extremadamente altos o negativos.
    - Convierte a tipo Int16 para optimizar memoria.
    """

    # Mostrar valores √∫nicos antes del saneamiento
    print("\nValores √∫nicos en 'floor' antes del saneamiento:")
    print(df["floor"].unique())

    # Diccionario de conversi√≥n de valores ordinales (1st, 2nd, etc.)
    ordinal_mapping = {f"{i}th": i for i in range(1, 101)}
    ordinal_mapping.update({"ground": 0, "1st": 1, "2nd": 2, "3rd": 3})

    # Convertir valores de la columna
    cleaned_floors = []
    for value in df["floor"]:
        if pd.isna(value):
            cleaned_floors.append(pd.NA)  # Mantener valores nulos
            continue

        value = str(value).lower().strip()

        # Intentar convertir directamente si es un n√∫mero
        try:
            num_value = int(value.replace(",", ""))  # Manejo de valores con comas como "1,200"
            if 0 <= num_value <= 100:  # Limitar a un rango razonable de pisos
                cleaned_floors.append(num_value)
            else:
                cleaned_floors.append(pd.NA)  # Si el n√∫mero es absurdo, lo dejamos como NA
        except ValueError:
            cleaned_floors.append(ordinal_mapping.get(value, pd.NA))  # Mapear valores ordinales o NA si no se reconoce

    # Asignar la columna limpia al DataFrame
    df["floor"] = cleaned_floors

    # Convertir a Int16 para optimizar memoria, manteniendo NaN con pd.NA
    df["floor"] = df["floor"].astype("Int16") # TODO Hacer esto en la conversi√≥n

    # Mostrar valores √∫nicos despu√©s del saneamiento
    print("\nValores √∫nicos en 'floor' despu√©s del saneamiento:")
    print(df["floor"].unique())

    return df

## 1 - Carga de datos y revisi√≥n de la estructura del dataset

En este apartado se realiza una **primera exploraci√≥n del dataset** para comprender su estructura, tipo de variables y posibles relaciones entre ellas. Este paso es fundamental para la correcta preparaci√≥n de los datos antes del modelado.

### **1.1 - Importaci√≥n de librer√≠as y configuraci√≥n**
Se importan las librer√≠as esenciales para el an√°lisis de datos, la visualizaci√≥n y el modelado, incluyendo **Pandas, NumPy, Matplotlib, Seaborn, SciPy y Scikit-Learn**. Adem√°s, se configuran algunos par√°metros globales de visualizaci√≥n para mejorar la legibilidad de los gr√°ficos.

In [None]:
# Cargar las librer√≠as necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler, LabelEncoder, OneHotEncoder
import tensorflow as tf
import folium
from geopy.distance import geodesic
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error
import numpy as np

# Configuraciones
%matplotlib inline
sns.set_theme(style="whitegrid", palette="viridis", font_scale=1.1)

### **1.2 - Carga del dataset**
Se carga el conjunto de datos en un **DataFrame de Pandas** desde un archivo CSV. Se incluye una referencia a la fuente del dataset.

In [None]:
# Cargar el dataset local con Pandas
df = pd.read_csv("scripts/madrid_rent_with_coordinates.csv")

# Ref. https://www.kaggle.com/datasets/mapecode/madrid-province-rent-data

### **1.3 - Inspecci√≥n de la estructura del dataset**
En esta fase se inspecciona la estructura general del dataset para entender su contenido y formato:

- **Visualizaci√≥n de las primeras y √∫ltimas filas** para detectar posibles errores en la carga de los datos.
- **Informaci√≥n general del dataset** (`df.info()`), que muestra el n√∫mero de registros, tipos de datos y valores nulos.
- **N√∫mero total de filas y columnas** (`df.shape`).
- **Identificaci√≥n de columnas num√©ricas y categ√≥ricas**, que ayudar√° en el preprocesamiento.
- **Recuento de valores √∫nicos en variables categ√≥ricas**, √∫til para evaluar su diversidad.
- **Visualizaci√≥n de los valores √∫nicos en algunas columnas categ√≥ricas clave**, como `type`, `floor`, `orientation`, `district` y `subdistrict`, con el objetivo de analizar su distribuci√≥n y detectar posibles inconsistencias.
- **Revisi√≥n del n√∫mero de valores nulos por columna** (`df.isnull().sum()`), lo que permitir√° identificar qu√© variables requieren imputaci√≥n o eliminaci√≥n en la etapa de preprocesamiento.
- **Resumen estad√≠stico de las variables num√©ricas**, para analizar su distribuci√≥n, detectar valores at√≠picos y entender la escala de los datos.

In [None]:
# Mostrar las primeras filas para una vista inicial del dataset
print("Primeras filas del dataset:")
display(df.head())

In [None]:
# Mostrar las √∫ltimas filas para identificar posibles problemas en la carga de datos
print("√öltimas filas del dataset:")
display(df.tail())

In [None]:
# Obtener informaci√≥n general sobre el dataset, incluyendo tipos de datos y valores nulos
print("Informaci√≥n general del dataset:")
display(df.info())

In [None]:
# Mostrar el n√∫mero de filas y columnas en el dataset
print("N√∫mero de filas y columnas en el dataset:")
print(df.shape)

In [None]:
# Identificar las columnas num√©ricas y categ√≥ricas
numerical_columns = df.select_dtypes(include=['number']).columns.tolist()
categorical_columns = df.select_dtypes(include=['object', 'category']).columns.tolist()

In [None]:
# Mostrar las columnas num√©ricas identificadas
print("Columnas num√©ricas:")
print(numerical_columns)

In [None]:
# Mostrar las columnas categ√≥ricas identificadas
print("Columnas categ√≥ricas:")
print(categorical_columns)

In [None]:
# Contar valores √∫nicos en variables categ√≥ricas
print("Valores √∫nicos en variables categ√≥ricas:")
df[categorical_columns].nunique()

In [None]:
# Mostrar valores √∫nicos de algunas columnas categ√≥ricas para revisar su diversidad
relevant_categorical_columns = ['type', 'floor', 'orientation', 'district', 'subdistrict']

print("Valores √∫nicos en algunas variables categ√≥ricas relevantes:")
for col in relevant_categorical_columns:
    print(f"\n{col}: {df[col].nunique()} valores √∫nicos")
    print(df[col].unique()[:10])

In [None]:
# Mostrar el n√∫mero de valores nulos por columna
print(df.isnull().sum())

In [None]:
# Describir estad√≠sticamente las variables num√©ricas para analizar su distribuci√≥n y posibles valores at√≠picos
print("Resumen estad√≠stico de las variables num√©ricas:")
display(df.describe())

### **1.4 - Comprobaci√≥n de relaciones potenciales**
Para evaluar la viabilidad del modelado, se analizan las correlaciones entre variables num√©ricas:

- Se genera una **matriz de correlaci√≥n** (`df.corr()`) para medir la relaci√≥n entre variables.
- Se identifican **las variables con mayor impacto en `price`** bas√°ndose en la correlaci√≥n:
  - `floor_built` (0.70)
  - `floor_area` (0.72)
  - `bedrooms` (0.51)
  - `bathrooms` (0.69)
- Se confirma la pertinencia de `balcony` como una **variable categ√≥rica de clasificaci√≥n**, revisando la distribuci√≥n de sus valores.

In [None]:
# Se genera la matriz de correlaci√≥n para analizar la relaci√≥n entre las variables num√©ricas
print("Matriz de correlaci√≥n entre variables num√©ricas:")
correlation_matrix = df[numerical_columns].corr()
display(correlation_matrix)

In [None]:
# Identificar relaciones relevantes para modelado

# Bas√°ndonos en la matriz de correlaci√≥n, seleccionamos las variables con mayor impacto en 'price'
# Seg√∫n el an√°lisis previo, las variables con correlaci√≥n m√°s fuerte con 'price' son:
# - floor_built (0.70)
# - floor_area (0.72)
# - bedrooms (0.51)
# - bathrooms (0.69)
# Otras variables tienen correlaciones insignificantes (<0.01) y no se consideran para modelado

key_relationships = ['price', 'floor_built', 'floor_area', 'bedrooms', 'bathrooms']
print("Relaciones clave para la predicci√≥n de price:")
display(df[key_relationships].corr())

In [None]:
# Se selecciona balcony como variable de clasificaci√≥n
# Se analiza la frecuencia de los valores presentes en balcony para entender su distribuci√≥n
print("Frecuencia de valores en la variable balcony:")
df['balcony'].value_counts()

## **2 - Limpieza y validaci√≥n de los datos**

Este apartado se centra en la **depuraci√≥n del dataset** para garantizar que los datos sean consistentes, relevantes y adecuados para el modelado. Se eliminan columnas innecesarias, se manejan valores duplicados y se corrigen inconsistencias en los valores.

### **2.1 - Eliminaci√≥n de columnas irrelevantes**
Se eliminan columnas que no aportan informaci√≥n √∫til para el an√°lisis de precios y balcones. Estas incluyen identificadores √∫nicos (`web_id`), enlaces (`url`), informaci√≥n redundante (`title`), y metadatos sin valor predictivo (`professional_name`, `last_update`, `location`).

In [None]:
# Se eliminan columnas que no aportan informaci√≥n √∫til para el an√°lisis de precios y balcones
columns_to_drop = [
    'web_id',               # Identificador √∫nico para cada anuncio, no aporta valor anal√≠tico
    'url',                  # Enlace a la p√°gina del anuncio, irrelevante para el modelado
    'title',                # Contiene informaci√≥n redundante, ya que 'type' y 'location' est√°n en otras columnas
    'professional_name',    # Nombre de la agencia inmobiliaria o propietario, sin impacto en la predicci√≥n
    'last_update',          # Indica la fecha de √∫ltima actualizaci√≥n del anuncio, pero sin un formato uniforme y sin valor predictivo
    'location'              # Contiene el nombre de la calle y en algunos casos el n√∫mero, pero ya se tiene 'district' y 'subdistrict'
]

# Eliminamos las columnas del dataframe
df.drop(columns=columns_to_drop, inplace=True)

# Mostramos el nuevo n√∫mero de columnas para verificar la eliminaci√≥n
print("Columnas eliminadas:", columns_to_drop)
print("N√∫mero de columnas tras la eliminaci√≥n:", df.shape[1])

### **2.2 - Manejo de duplicados**
Se identifican y eliminan registros duplicados para evitar sesgos en el an√°lisis. Se revisan duplicados completos y duplicados parciales en base a caracter√≠sticas clave como `price`, `floor_area` y `bedrooms`.

In [None]:
# Contar filas duplicadas considerando todas las columnas
duplicates_total = df.duplicated().sum()
print(f"N√∫mero de filas completamente duplicadas: {duplicates_total}")

In [None]:
# Seleccionar columnas clave para identificar duplicados parciales excluyendo IDs o metadatos
#
# Para detectar duplicados, se consideran las columnas que describen las caracter√≠sticas estructurales de la vivienda,
# evitando aquellas que son √∫nicas para cada anuncio o irrelevantes para el an√°lisis.
#
# Columnas **NO INCLUIDAS** en la detecci√≥n de duplicados y razones:
# - `web_id` y `url`: Son identificadores √∫nicos de cada anuncio, por lo que no sirven para detectar duplicados.
# - `title`: Contiene informaci√≥n redundante sobre el tipo de vivienda y ubicaci√≥n, pero en formato texto libre, lo que
#   lo hace inconsistente para la comparaci√≥n.
# - `professional_name`: El nombre de la agencia o propietario no influye en si un anuncio es duplicado o no.
# - `last_update`: Fecha de actualizaci√≥n del anuncio con valores inconsistentes (por ejemplo, "2 months" vs. "5 November"),
#   lo que impide su uso para identificar duplicados.
# - `location`: Contiene el nombre de la calle y en algunos casos el n√∫mero, pero ya disponemos de `district` y `subdistrict`
#   que son m√°s estructurados. Adem√°s, las direcciones pueden estar escritas de forma diferente en anuncios duplicados.
#
# Se opta por considerar caracter√≠sticas clave de la vivienda como `price`, `bedrooms`, `floor_area`, `year_built`, etc.,
# ya que un mismo inmueble puede aparecer varias veces con ligeras variaciones en el t√≠tulo, la inmobiliaria o la fecha de publicaci√≥n.

duplicate_columns = ['type', 'price', 'deposit', 'floor_built', 'floor_area',
                     'year_built', 'bedrooms', 'bathrooms', 'second_hand',
                     'lift', 'garage_included', 'furnished', 'equipped_kitchen',
                     'fitted_wardrobes', 'air_conditioning', 'terrace', 'balcony',
                     'storeroom', 'swimming_pool', 'garden_area', 'district', 'subdistrict',
                     'postalcode', 'lat', 'lng']

# Contar filas que tienen duplicaci√≥n en estas columnas
duplicates_partial = df.duplicated(subset=duplicate_columns).sum()
print(f"N√∫mero de filas duplicadas considerando solo columnas clave: {duplicates_partial}")

In [None]:
# Eliminar filas completamente duplicadas
df.drop_duplicates(inplace=True)
print(f"Dataset despu√©s de eliminar duplicados completos: {df.shape}")

In [None]:
# Eliminar duplicados en base a columnas clave, manteniendo la primera aparici√≥n
df.drop_duplicates(subset=duplicate_columns, keep='first', inplace=True)
print(f"Dataset despu√©s de eliminar duplicados parciales: {df.shape}")

### **2.3 - Eliminaci√≥n de columnas con alto porcentaje de valores nulos**
Se eliminan variables con un gran n√∫mero de valores nulos que no pueden imputarse de forma fiable, como `year_built`, `orientation` y `postalcode`. Se justifica la retenci√≥n de otras variables con nulos si son clave para el an√°lisis.

In [None]:
# Calcular el porcentaje de valores nulos en cada columna
null_percentage = df.isnull().mean() * 100

# Mostrar el porcentaje de nulos ordenado de mayor a menor
print("Porcentaje de valores nulos por columna:")
print(null_percentage.sort_values(ascending=False))

In [None]:
#  floor_area (57%) ‚Üí Muy relevante para el precio. Mantener y evaluar imputaci√≥n aunque tenga un alto porcentaje de nulos
#  deposit (41%) ‚Üí No es muy relevante para el precio. Pese a ello, mantener y evaluar imputaci√≥n aunque tenga un alto porcentaje de nulos

# Definir las columnas a eliminar
columns_to_drop = [
    'year_built',      # Muchos nulos (68%). Aunque deber√≠a ser relevante para price (construcciones modernas podr√≠an ser m√°s caras) es dif√≠cil de imputar correctamente
    'orientation',     # Muchos nulos (52%), dif√≠cil de imputar correctamente
    'postalcode'       # Porcentaje de nulos moderadamente alto (25%). Redundante con district y subdistrict, no aporta informaci√≥n adicional
]

# Eliminar las columnas del DataFrame
df.drop(columns=columns_to_drop, inplace=True)

# Mostrar las columnas eliminadas y el nuevo n√∫mero de columnas
print("Columnas eliminadas por alto porcentaje de valores nulos:", columns_to_drop)
print("N√∫mero de columnas despu√©s de la eliminaci√≥n:", df.shape[1])

### **2.4 - Saneamiento de valores en columnas categ√≥ricas**
Se homogeneizan valores en columnas categ√≥ricas como `type`, `district` y `subdistrict`, eliminando inconsistencias en may√∫sculas/min√∫sculas, espacios en blanco y valores incorrectos.

In [None]:
# Homogeneizaci√≥n de la columna 'type' para asegurar consistencia en los valores
print("Valores √∫nicos en 'type' antes del saneamiento:", df['type'].unique(), "\n")

# Elimino espacios en blanco y capitalizo los valores
df['type'] = df['type'].str.strip().str.title()

print("Valores √∫nicos en 'type' despu√©s del saneamiento:", df['type'].unique())

In [None]:
# Limpieza a la columna 'floor' para estandarizar valores, corregir inconsistencias y pasar los datos a num√©rico mediante la funci√≥n 'clear_floor_column'
df = clean_floor_column(df)

In [None]:
# Homogeneizaci√≥n b√°sica de 'district' y 'subdistrict'

# Estas columnas solo se utilizar√°n en el an√°lisis exploratorio de datos (EDA),
# por lo que aplicamos una limpieza m√≠nima para garantizar consistencia:
# - Convertimos los valores a min√∫sculas para evitar diferencias por may√∫sculas/min√∫sculas.
# - Eliminamos espacios en blanco adicionales para garantizar uniformidad.
# - Reemplazamos valores 'nan' en formato string por valores NaN reales.
# - No realizamos agrupaciones de nombres similares, ya que no afectar√°n al modelo.

# Asegurar que sean de tipo 'object' antes de limpiar (evita problemas si son 'category')
df['district'] = df['district'].astype(str).str.strip().str.lower()
df['subdistrict'] = df['subdistrict'].astype(str).str.strip().str.lower()

# Reemplazar valores 'nan' string por NaN reales de manera robusta
df['district'] = df['district'].replace('nan', pd.NA).fillna(pd.NA)
df['subdistrict'] = df['subdistrict'].replace('nan', pd.NA).fillna(pd.NA)

# Mostramos los valores √∫nicos despu√©s del saneamiento
print("Valores √∫nicos en 'district' despu√©s del saneamiento:")
display(df['district'].unique())
print("\n")

print("Valores √∫nicos en 'subdistrict' despu√©s del saneamiento:")
display(df['subdistrict'].unique())

### **2.5 - Saneamiento de valores en columnas num√©ricas**
Se sustituyen por `NaN` los valores negativos en columnas donde no pueden existir (e.g., `price`, `floor_area`, `bathrooms`). Adem√°s, se eliminan valores 0 en columnas donde no tienen sentido (`price`, `floor_area`, `floor_built`).

In [None]:
# Convierto a NaN los valores negativos donde no pueden existir
not_neg_columns = ['price', 'deposit', 'floor_area', 'floor_built', 'floor', 'bedrooms', 'bathrooms']
for col in not_neg_columns:
    df.loc[df[col] < 0, col] = pd.NA

In [None]:
# Convierto a NaN los valores 0 en columnas donde no tiene sentido
not_zero_columns = ['price', 'floor_area', 'floor_built']
for col in not_zero_columns:
    df.loc[df[col] == 0, col] = pd.NA

In [None]:
# Mostrar valores negativos restantes
for col in not_neg_columns:
    neg_count = (df[col] < 0).sum()
    print(f" {neg_count} valores negativos restantes en '{col}'.")

In [None]:
# Mostrar valores 0 restantes en las columnas afectadas
print("\nValores 0 restantes en columnas afectadas:")
for col in not_zero_columns:
    zero_count = (df[col] == 0).sum()
    print(f" - {col}: {zero_count} valores con valor 0")

In [None]:
# Mostrar cu√°ntos valores nulos quedaron en cada columna num√©rica saneada
print("\nValores nulos despu√©s del saneamiento:")
print(df[not_neg_columns].isna().sum())

### **2.6 - Conversi√≥n y optimizaci√≥n de tipos de datos**
Se ajustan los tipos de datos para reducir el consumo de memoria:
- **Enteros:** Se usan los tipos m√°s eficientes (`Int8`, `Int16`, `Int32`).
- **Flotantes:** Se mantiene `float64` solo en coordenadas (`lat`, `lng`).
- **Booleanos:** Se convierten variables binarias a `bool`.
- **Categ√≥ricas:** `type`, `district` y `subdistrict` se transforman a `category`.

In [None]:
# Se ajustan los tipos de datos para reducir el consumo de memoria:
# - Columnas enteras: Se asigna el tipo m√°s eficiente seg√∫n el rango de valores observados.
# - Columnas flotantes: Se mantienen en float64 solo las coordenadas, ya que requieren precisi√≥n.
# - Columnas booleanas: Se convierten a bool para representar valores binarios.
# - Columnas categ√≥ricas: Se transforman a 'category' para optimizar an√°lisis y almacenamiento.

# Columnas enteras
df['price'] = df['price'].astype('Int32')
df['floor_built'] = df['floor_built'].astype('Int16')
df['floor'] = df['floor'].astype('Int8')
df['bedrooms'] = df['bedrooms'].astype('Int8')
df['bathrooms'] = df['bathrooms'].astype('Int8')
df['deposit'] = df['deposit'].astype('Int8')

# Columnas flotantes
df['floor_area'] = df['floor_area'].astype('float32')
df['lat'] = df['lat'].astype('float64') # Mantengo la precisi√≥n alta para las coordenadas
df['lng'] = df['lng'].astype('float64')

# Columnas booleanas
bool_columns = ['second_hand', 'lift', 'garage_included', 'furnished', 'equipped_kitchen',
                'fitted_wardrobes', 'air_conditioning', 'terrace', 'balcony',
                'storeroom', 'swimming_pool', 'garden_area', 'private_owner']
for col in bool_columns:
    df[col] = df[col].astype('bool')

# Columnas categ√≥ricas
categorical_columns = ['type', 'district', 'subdistrict']
for col in categorical_columns:
    df[col] = df[col].astype('category')

# Reviso cambios
print("Tipos de datos despu√©s de la conversi√≥n:")
print(df.dtypes)

## 3 - An√°lisis Exploratorio de Datos (EDA)


## 4 - Preparaci√≥n de los datos para el modelado

### 4.1 - Codificaci√≥n de variables categ√≥ricas

### 4.2 - Escalado y normalizaci√≥n de variables num√©ricas

### 4.3 - Imputaci√≥n de valores nulos

#### 4.3.1 - An√°lisis de valores nulos por columna

In [None]:
# Filtrar columnas con valores nulos mayores a 0
null_values = df.isnull().sum()
null_values = null_values[null_values > 0]

# Mostrar resultados
print("N√∫mero de valores nulos por columna:")
print(null_values)

In [None]:
# Filtrar columnas con porcentaje de nulos mayor a 0
null_percentage = df.isnull().mean() * 100
null_percentage = null_percentage[null_percentage > 0]

# Mostrar resultados
print("Porcentaje de valores nulos por columna:")
print(null_percentage)

#### 4.3.2 - deposit

In [None]:
#### 2.7.2 - deposit
# C√°lculo de estad√≠sticas descriptivas de 'deposit'
# Se analiza tendencia central y dispersi√≥n para decidir la mejor estrategia de imputaci√≥n.
print("Moda:", df['deposit'].mode()[0])
print("Mediana:", df['deposit'].median())
print("Media:", df['deposit'].mean())
print("Varianza:", df['deposit'].var())
print("Desviaci√≥n est√°ndar:", df['deposit'].std())
print("Rango:", df['deposit'].max() - df['deposit'].min())

In [None]:
# Frecuencia absoluta
print(df['deposit'].value_counts())

# Frecuencia en porcentaje
print(df['deposit'].value_counts(normalize=True) * 100)

In [None]:
# Ver correlaciones
print(df.select_dtypes(include=['number']).corr()['deposit'].sort_values(ascending=False))

In [None]:
# An√°lisis de la dispersi√≥n de 'deposit' mediante percentiles e IQR
# Esto ayuda a entender su distribuci√≥n y detectar posibles valores at√≠picos.
print("Percentil 25:", df['deposit'].quantile(0.25))
print("Percentil 50 (Mediana):", df['deposit'].quantile(0.50))
print("Percentil 75:", df['deposit'].quantile(0.75))
print("IQR:", df['deposit'].quantile(0.75) - df['deposit'].quantile(0.25))

In [None]:
# Imputaci√≥n de valores nulos en 'deposit'
#
# La mayor√≠a de los valores en 'deposit' son 1 (59% de los casos), seguido de 2 (35%).
# Dado que la media (1.47) est√° sesgada por unos pocos valores m√°s altos y la mediana tambi√©n es 1,
# se decide imputar los valores nulos con la moda (1), ya que refleja mejor la tendencia real de los datos.
df['deposit'] = df['deposit'].fillna(1)

#### 4.3.3 - floor_build

In [None]:
# Dado que los valores nulos representan solo el 0.1% de la columna, se imputan con la mediana para mantener la distribuci√≥n sin sesgos y evitar la influencia de valores at√≠picos.
median_floor_built = df['floor_built'].median()
df['floor_built'] = df['floor_built'].fillna(median_floor_built)

#### 4.3.4 - floor_area

In [None]:
# correlaci√≥n con price (0.72), bedrooms (0.51), bathrooms (0.69) y floor_built (0.70)

# Crear figura con 2 filas y 3 columnas
fig, axes = plt.subplots(2, 3, figsize=(18, 10))  # Se ajust√≥ el tama√±o para mejor proporci√≥n

# Gr√°fico de distribuci√≥n de floor_area
sns.histplot(df['floor_area'].dropna(), bins=30, kde=True, ax=axes[0, 0])
axes[0, 0].set_title("Distribuci√≥n de Floor Area")

# Scatterplots con l√≠nea de tendencia
sns.regplot(x=df['price'], y=df['floor_area'], ax=axes[0, 1], scatter_kws={'alpha':0.5}, line_kws={"color": "red"})
axes[0, 1].set_title("Floor Area vs Price")

sns.regplot(x=df['bedrooms'], y=df['floor_area'], ax=axes[0, 2], scatter_kws={'alpha':0.5}, line_kws={"color": "red"})
axes[0, 2].set_title("Floor Area vs Bedrooms")

sns.regplot(x=df['bathrooms'], y=df['floor_area'], ax=axes[1, 0], scatter_kws={'alpha':0.5}, line_kws={"color": "red"})
axes[1, 0].set_title("Floor Area vs Bathrooms")

sns.regplot(x=df['floor_built'], y=df['floor_area'], ax=axes[1, 1], scatter_kws={'alpha':0.5}, line_kws={"color": "red"})
axes[1, 1].set_title("Floor Area vs Floor Built")

# Matriz de correlaci√≥n
corr_matrix = df[['floor_area', 'price', 'bedrooms', 'bathrooms', 'floor_built']].corr()
sns.heatmap(corr_matrix, annot=True, cmap="coolwarm", fmt=".2f", linewidths=0.5, ax=axes[1, 2])
axes[1, 2].set_title("Matriz de Correlaci√≥n")

# Ajustar espaciado entre gr√°ficos
plt.tight_layout()
plt.show()

In [None]:
# Se elige la Regresi√≥n Lineal M√∫ltiple para imputar floor_area porque presenta una fuerte correlaci√≥n con price (0.73),
# bedrooms (0.74), bathrooms (0.79) y floor_built (0.92).
# Las gr√°ficas muestran una relaci√≥n lineal clara entre floor_area y estas variables, lo que indica que pueden predecirlo de manera precisa.
# Adem√°s, la distribuci√≥n de floor_area est√° sesgada a la derecha, por lo que m√©todos como la mediana podr√≠an subestimar los valores m√°s altos.

# 1Ô∏è‚É£ Selecci√≥n de las Variables Predictoras y Variable Dependiente
predictors = ['price', 'bedrooms', 'bathrooms', 'floor_built']
target = 'floor_area'

# 2Ô∏è‚É£ Divisi√≥n del Dataset
df_train = df.dropna(subset=[target])  # Filas sin nulos en floor_area (para entrenar)
df_missing = df[df[target].isna()]  # Filas con nulos en floor_area (para predecir)

# 3Ô∏è‚É£ Preparaci√≥n de los Datos para el Modelo
X_train = df_train[predictors]
y_train = df_train[target]

# 4Ô∏è‚É£ Entrenamiento del Modelo
model = LinearRegression()
model.fit(X_train, y_train)

# 5Ô∏è‚É£ Evaluaci√≥n del Modelo
y_pred_train = model.predict(X_train)
r2 = r2_score(y_train, y_pred_train)
mae = mean_absolute_error(y_train, y_pred_train)
rmse = np.sqrt(mean_squared_error(y_train, y_pred_train))
mape = np.mean(np.abs((y_train - y_pred_train) / y_train)) * 100  # Error absoluto porcentual medio

print(f"R¬≤: {r2:.3f}")
print(f"MAE: {mae:.2f}")
print(f"RMSE: {rmse:.2f}")
print(f"MAPE: {mape:.2f}%")  # Muestra el error en porcentaje

# 6Ô∏è‚É£ Predicci√≥n e Imputaci√≥n de Valores Nulos
if not df_missing.empty:
    X_missing = df_missing[predictors]
    df.loc[df[target].isna(), target] = model.predict(X_missing).astype('float32')

In [None]:
# üìä Evaluaci√≥n del Modelo de Imputaci√≥n para `floor_area`
# - R¬≤ = 0.872 ‚Üí El modelo explica el 87.2% de la variabilidad en `floor_area`, lo que indica un buen ajuste.
# - MAE = 9.47 ‚Üí En promedio, el error absoluto en la imputaci√≥n es de 9.47 m¬≤, un error moderado en la escala de la variable.
# - RMSE = 26.14 ‚Üí El error cuadr√°tico medio sugiere que existen algunos valores m√°s alejados de la realidad (posiblemente por outliers).
# - MAPE = 10.21% ‚Üí En promedio, los valores imputados tienen un error del 10.21% respecto a los valores reales,
#   lo que indica una imputaci√≥n razonablemente precisa, aunque con margen de mejora en valores extremos.
#
# üîπ Conclusi√≥n: La regresi√≥n lineal m√∫ltiple ofrece una buena precisi√≥n en la imputaci√≥n de `floor_area`, con un R¬≤ alto y errores aceptables.
#   Sin embargo, los valores m√°s altos de `floor_area` podr√≠an estar generando desviaciones en la predicci√≥n.
#   Se recomienda revisar outliers y considerar t√©cnicas m√°s avanzadas (como regresi√≥n robusta o √°rboles de decisi√≥n) para mejorar la estimaci√≥n.

# TODO ¬øDeber√≠a tratar outliers aqu√≠?

#### 4.3.5 - floor


## 5 - Modelado

## 6 - Evaluaci√≥n y conclusiones