# 01. Preprocesado de Datos — Proyecto EDA Idealista

Este notebook contiene el proceso completo de carga, exploración inicial y limpieza del dataset con información de viviendas ofertadas en Madrid (Idealista).

### Objetivo del Preprocesado

El propósito principal de este notebook es asegurar que el dataset esté limpio, estructurado y libre de inconsistencias para poder realizar un análisis exploratorio (EDA) fiable. Para ello, se realizan las siguientes acciones:

- Carga del dataset original
- Revisión de estructura, tipos de datos y estadísticos iniciales
- Detección de valores faltantes y registros duplicados
- Limpieza y estandarización de columnas
- Eliminación de valores imposibles
- Creación de nuevas variables relevantes (precio por m²)
- Exportación del dataset limpio

In [None]:
import pandas as pd

## 1. Carga del Dataset Original y descripción inicial

Importamos el dataset en formato CSV para comenzar la inspección y comprensión de la información disponible.

El dataset fue obtenido de Kaggle y contiene información real de ofertas inmobiliarias en Madrid. Incluye variables como:

- Provincia
- Zona
- Precio de venta
- Metros cuadrados
- Número de habitaciones y baños
- Localización interior/exterior
- Etiquetas descriptivas

In [6]:
# Cargar dataset original
df = pd.read_csv("../data/datos_raw.csv")


# Mostramos las primeras filas para conocer el formato de las columnas
df.head()

Unnamed: 0,provincia,zona,titulo,PrecioActual,PrecioAnterior,metros,habitaciones,ascensor,localizacion,planta,baños,tags,descripcion,Enlace
0,madrid,ciudad-lineal,"Piso en calle de San Marcelo, 22, Ventas, Madrid",355000,0,69,2.0,S,EXTERIOR,5ª,1,"VIVIENDA,LUMINOSO,VISTAS,REFORMADA,PORTERO,EXT...",Particular Vende vivienda totalmente reformada...,https://www.idealista.com/inmueble/106956987/
1,madrid,carabanchel,"Piso en calle Cabo Nicolás Mur, San Isidro, Ma...",149000,159000,91,3.0,N,EXTERIOR,1ª,0,"PISO,EXCLUSIVA,INMOBILIARIA,OPORTUNIDAD",Inmobiliarias Encuentro vende en exclusiva la ...,https://www.idealista.com/inmueble/106906044/
2,madrid,centro,"Piso en calle de Rodas, Lavapiés-Embajadores, ...",195000,0,36,1.0,S,,2ª,0,"EXCLUSIVA,ESTUDIO",ESTUDIO EN PLENO CENTRO DE MADRIDSarago Servic...,https://www.idealista.com/inmueble/107306175/
3,madrid,usera,"Piso en calle de Ferroviarios, Almendrales, Ma...",195000,0,58,1.0,S,INTERIOR,BAJO,0,"VIVIENDA,HOGAR,FUNCIONAL","Esta acogedora vivienda, ubicada en una planta...",https://www.idealista.com/inmueble/106325171/
4,madrid,tetuan,"Dúplex en Bellas Vistas, Madrid",715000,750000,140,3.0,S,EXTERIOR,2ª,0,"TERRAZA,EXCLUSIVA,MODERNO","Maravilloso ATICO de reciente construcción, co...",https://www.idealista.com/inmueble/106627265/


## 2. Exploración Inicial de los Datos

Analizamos las primeras características del dataset para conocer:
- Número total de registros y columnas
- Tipos de datos por variable
- Estadísticos descriptivos básicos

Este análisis nos ayuda a identificar posibles errores, valores atípicos o columnas que necesiten ser transformadas.

In [None]:
# Forma del dataset: (filas, columnas), tipo de los datos y descripción
df.shape
df.info()
df.describe(include="all")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11826 entries, 0 to 11825
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   provincia       11826 non-null  object 
 1   zona            11826 non-null  object 
 2   titulo          11826 non-null  object 
 3   PrecioActual    11826 non-null  int64  
 4   PrecioAnterior  11826 non-null  int64  
 5   metros          11826 non-null  int64  
 6   habitaciones    11460 non-null  float64
 7   ascensor        11033 non-null  object 
 8   localizacion    10730 non-null  object 
 9   planta          10601 non-null  object 
 10  baños           11826 non-null  int64  
 11  tags            11664 non-null  object 
 12  descripcion     11761 non-null  object 
 13  Enlace          11826 non-null  object 
dtypes: float64(1), int64(4), object(9)
memory usage: 1.3+ MB


Unnamed: 0,provincia,zona,titulo,PrecioActual,PrecioAnterior,metros,habitaciones,ascensor,localizacion,planta,baños,tags,descripcion,Enlace
count,11826,11826,11826,11826.0,11826.0,11826.0,11460.0,11033,10730,10601,11826.0,11664,11761,11826
unique,1,21,5499,,,,,2,2,27,,8370,10924,11826
top,madrid,barrio-de-salamanca,"Piso en Goya, Madrid",,,,,S,EXTERIOR,1ª,,"PISO,OPORTUNIDAD",OBRA NUEVA DE VIVIENDAS TURÍSTICAS DE LUJO E I...,https://www.idealista.com/inmueble/106956987/
freq,11826,2018,203,,,,,8419,9087,2108,,158,16,1
mean,,,,1030501.0,73597.04,153.790039,2.847731,,,,0.394047,,,
std,,,,1237718.0,363975.3,766.21775,1.432402,,,,0.882134,,,
min,,,,12000.0,0.0,11.0,1.0,,,,0.0,,,
25%,,,,289000.0,0.0,68.0,2.0,,,,0.0,,,
50%,,,,620000.0,0.0,103.0,3.0,,,,0.0,,,
75%,,,,1329000.0,0.0,160.0,3.0,,,,0.0,,,


## 3. Análisis de Calidad: Valores Nulos y Duplicados

Antes de realizar cualquier limpieza, comprobamos si existen:
- Comprobación de valores nulos por columna
- Búsqueda y eliminación de duplicados
- Columnas con datos faltantes

Este paso es fundamental para asegurar la integridad del dataset.

In [16]:
# Número de valores nulos por columna

df.isnull().sum()

provincia            0
zona                 0
titulo               0
PrecioActual         0
PrecioAnterior       0
metros               0
habitaciones       366
ascensor             0
localizacion      1096
planta               0
baños                0
tags               162
descripcion         65
Enlace               0
precio_m2            0
dtype: int64

In [17]:
# Número de registros duplicados
df.duplicated().sum()

np.int64(0)

## 4. Limpieza del Dataset

A continuación, realizamos varias acciones para garantizar la consistencia de los datos:


| Transformación aplicada | Justificación |
|:------------------------:|:---------------:|
| Eliminación de duplicados | Evitar que una vivienda cuente más de una vez |
| Eliminación de viviendas con precio o superficie igual a 0 | Son datos inválidos para el análisis |
| Rellenar nulos en `baños`, `ascensor` y `planta` | Permite mantener el máximo de registros |
| Creación de la variable `precio_m2` | Métrica clave para estudiar el mercado inmobiliario |

  

In [22]:
# Eliminamos registros duplicados si los hubiera
df.drop_duplicates(inplace=True)

In [23]:
# Eliminamos viviendas con metros o precio igual a 0
df = df[(df["metros"] > 0) & (df["PrecioActual"] > 0)]

In [24]:
# Tratamiento de valores nulos
df["planta"] = df["planta"].fillna("desconocida")
df["ascensor"] = df["ascensor"].fillna("N")
df["baños"] = df["baños"].fillna(df["baños"].median())

### Creación de Precio por Metro Cuadrado

El precio por metro cuadrado es la variable que nos permite comparar viviendas independientemente de su tamaño.  
Por tanto, resulta clave en el análisis inmobiliario.

In [25]:
# Creamos la métrica precio/m2
df["precio_m2"] = df["PrecioActual"] / df["metros"]
df["precio_m2"] = df["precio_m2"].round(2)  # redondeamos para facilitar lectura

## 5. Validación Tras la Limpieza

Se realizan comprobaciones finales del dataset para asegurar que:
- Ya no hay valores imposibles
- Los valores nulos se han tratado correctamente
- Los tipos de datos son correctos

El dataset queda listo para el análisis exploratorio.

In [12]:
# Últimas comprobaciones del dataset limpio
df.info()
df.describe()
df.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11826 entries, 0 to 11825
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   provincia       11826 non-null  object 
 1   zona            11826 non-null  object 
 2   titulo          11826 non-null  object 
 3   PrecioActual    11826 non-null  int64  
 4   PrecioAnterior  11826 non-null  int64  
 5   metros          11826 non-null  int64  
 6   habitaciones    11460 non-null  float64
 7   ascensor        11826 non-null  object 
 8   localizacion    10730 non-null  object 
 9   planta          11826 non-null  object 
 10  baños           11826 non-null  int64  
 11  tags            11664 non-null  object 
 12  descripcion     11761 non-null  object 
 13  Enlace          11826 non-null  object 
 14  precio_m2       11826 non-null  float64
dtypes: float64(2), int64(4), object(9)
memory usage: 1.4+ MB


provincia            0
zona                 0
titulo               0
PrecioActual         0
PrecioAnterior       0
metros               0
habitaciones       366
ascensor             0
localizacion      1096
planta               0
baños                0
tags               162
descripcion         65
Enlace               0
precio_m2            0
dtype: int64

## 6. Exportación del Dataset Limpio

Guardamos el dataset en la carpeta `src/data/` con el nombre `Datos_clean.csv`, para ser utilizado en el Notebook 02 del EDA.

In [14]:
#Exportación del Dataset Limpio

df.to_csv("../data/Datos_clean.csv", index=False)

## Conclusión del Preprocesado

El dataset ha sido limpiado y transformado satisfactoriamente.  
A partir de este punto, comenzará el análisis exploratorio para estudiar cómo influyen diferentes factores (zona, ascensor, metros, etc.) en el precio de las viviendas.

El próximo notebook será:

**02_EDA.ipynb — Análisis Exploratorio de Datos**