Cargamos las librerías, el conjunto de datos y algunas variables que emplearemos durante el proceso:

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

df = pd.read_csv('./processed_data/houses_integrated.csv')

# Ampliamos el límite de columnas visibles para poder visualizarlas todas
pd.set_option('display.max_columns', 500)

# Definimos un listado de colores para visualizaciones
clr = {'pr':'#5F66A1', 'yw':'#f3ca75', 'mg':'#c874b9', 'gn': '#599d70', 'br': '#636261'}

# Omitimos los warnings
import warnings
warnings.filterwarnings('ignore')

# Verificar los datos

En esta fase verificaremos la calidad de los datos por medio de una serie de procesos.

## Descartar las casas de alquiler

En el conjunto de datos que disponemos, se mezclan anuncios con casa en venta y alquiler. Este análisis se centra en la venta de casas, por lo tanto, los anuncios ligados al alquilern han de descartarse.

No obstante, no hay ningún campo que permita esta división de forma directa. Por ello, se opta por emplear el precio para esta tarea, ya que, en principio, la venta y el alquiler de casas han de tener precios muy distintos.

Analizemos por lo tanto los precios por medio de un histograma que nos muestre los precios entre 2.500€ y 30.000€ para ver a partir de qué precio intuímos que podemos considerar que una casa está en venta y no en alquiler:

In [None]:
f, axes = plt.subplots(1, 1, figsize=(10, 5), sharex=True)
sns.despine(left=True)

(df['price']
 .pipe(sns.distplot, hist=False, color=clr['pr'], kde_kws={"shade": True, 'clip': (2500, 30000)}))

plt.setp(axes, yticks=[])
plt.tight_layout()

Vemos que hay algunas casas con precios entre 10.000€ y 20.000€ con los que hay cierta ambiguedad, ya que si bien es un precio de venta muy muy bajo, como precio de alquiler mensual es excesivo.

No obstante, en vista de que no son muchos, se opta por descartar todas las casas por debajo de los 30.000€.

In [None]:
h_num = df.query('price<30000').shape[0]
df = df.query('price>30000')
print(f'Se han descartado {h_num} casas del dataset')