In [20]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from scipy import stats
import seaborn as sns

## Importar datos

In [21]:
url = "https://raw.githubusercontent.com/sanchezgamezjc/RealEstate_Data/main/scrap_DretaEixample_PisosAlquiler_2021-06-04.csv"

full_data = pd.read_csv(url, na_values='N.A.')

In [22]:
db = full_data
db

Unnamed: 0,barrio,precio,hab,baño,aseo,superficie,fecha_constr,planta,lavadero,trastero,terraza,calefaccion,parking,acc,ascensor,lat,lon,url,text
0,,,,,,,,,,,,,,,,,,https://www.habitaclia.com/alquiler-dreta_de_l...,
1,Dreta de l´Eixample,1.200 €,,1 Baño,,Superficie 55 m,Año construcción 1983,Planta número 5,,,Terraza 12 m,Sin calefacción,Sin plaza parking,Sin aire acondicionado,Sin ascensor,"VGPSLat\"":41.3958872","VGPSLon\"":2.1703441",https://www.habitaclia.com/alquiler-piso-tempo...,"Piso alto y luminoso, totalmente amueblado y ..."
2,Dreta de l´Eixample,6.000 €,7 habitaciones,4 Baños,,Superficie 400 m,Año construcción 1900,,Lavadero,Trastero,,Calefacción,,Aire acondicionado,,"VGPSLat\"":41.3925500","VGPSLon\"":2.1687700",https://www.habitaclia.com/alquiler-casa-en_un...,Casa para oficina o sede corporativa el mejor...
3,Dreta de l´Eixample,1.550 €,4 habitaciones,3 Baños,,Superficie 135 m,,Planta número 1,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3899600","VGPSLon\"":2.1716800",https://www.habitaclia.com/alquiler-piso-magni...,Magnífico piso en alquiler completamente refo...
4,Dreta de l´Eixample,2.200 €,6 habitaciones,2 Baños,,Superficie 185 m,Año construcción 1900,Planta número 4,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3972957","VGPSLon\"":2.1664800",https://www.habitaclia.com/alquiler-piso-estud...,"´DESCRIPCIÓN: Piso de alquiler, en la Dreta d..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1097,Dreta de l´Eixample,1.300 €,,1 Baño,,Superficie 85 m,,Planta número 5,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3923940","VGPSLon\"":2.1613807",https://www.habitaclia.com/alquiler-piso-fanta...,Referencia: T336-0
1098,Dreta de l´Eixample,950 €,,1 Baño,,Superficie 56 m,Año construcción 1968,Planta número 7,,,,,,,Ascensor,"VGPSLat\"":41.3899635","VGPSLon\"":2.1694597",https://www.habitaclia.com/alquiler-piso-ideal...,´Barcelona Capital / Eixample Derecho. Gran v...
1099,Dreta de l´Eixample,1.300 €,3 habitaciones,1 Baño,,Superficie 80 m,,,,,,,,Aire acondicionado,Ascensor,"VGPSLat\"":41.3928279","VGPSLon\"":2.1772731",https://www.habitaclia.com/alquiler-piso-dreta...,DISPONIBLE PARA ENTRAR INMEDIATAMENTE En La ...
1100,Dreta de l´Eixample,1.000 €,4 habitaciones,1 Baño,,Superficie 105 m,Año construcción 1920,Planta número 2,,,Balcón / Terraza 6 m,Sin calefacción,Sin plaza parking,Sin aire acondicionado,Ascensor,"VGPSLat\"":41.3981537","VGPSLon\"":2.1619901",https://www.habitaclia.com/alquiler-piso-dreta...,Fantástico piso en pleno ensanche de Barcelon...


## Primeras estadisticas

In [23]:
db.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1102 entries, 0 to 1101
Data columns (total 19 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   barrio        1095 non-null   object
 1   precio        1100 non-null   object
 2   hab           862 non-null    object
 3   baño          1089 non-null   object
 4   aseo          100 non-null    object
 5   superficie    1099 non-null   object
 6   fecha_constr  514 non-null    object
 7   planta        578 non-null    object
 8   lavadero      302 non-null    object
 9   trastero      85 non-null     object
 10  terraza       167 non-null    object
 11  calefaccion   1002 non-null   object
 12  parking       653 non-null    object
 13  acc           991 non-null    object
 14  ascensor      985 non-null    object
 15  lat           1074 non-null   object
 16  lon           1074 non-null   object
 17  url           1102 non-null   object
 18  text          1099 non-null   object
dtypes: obj

## Limpieza de datos (Fase 0)

Realizando un primer análisis de los datos descargados del portal inmobiliario podemos sacar diversas conclusiones rápidas que nos ayudara a realizar las primeras operaciones:

a) Al trabajar únicamente con los datos de un barrio, esta columna no nos es de gran utilidad sin embargo podemos observar que del total de 1102 filas que contiene la BBDD únicamente contienen barrio 1095. Estas filas cuyo "barrio" es Nulo deberán ser las primeras en eliminarse.

b) Para realizar el análisis de mercado necesitaremos que ciertas columnas tengan valores. Aquellas columnas designadas como necesarias son: "precio", "superficie" y "hab", y en ellas se deberá prescindir de todas aquellas entradas que no tengan valor, sean valor Nulo

c) En la descarga de las distintos viviendas se observa que muchas de ellas no son anuncios de viviendas, algunos anuncios se publicitan promociones completas u otro tipo de anuncios que no podemos tipificar para el estudio general. Todos aquellos elementos que en la columna "precio" contengan distintos valores que no sean precios deberán eliminarse.

a) Eliminar entradas donde columna barrio es Nulo (NaN)

In [24]:
db = db[db['barrio'].notna()]

db.head()

Unnamed: 0,barrio,precio,hab,baño,aseo,superficie,fecha_constr,planta,lavadero,trastero,terraza,calefaccion,parking,acc,ascensor,lat,lon,url,text
1,Dreta de l´Eixample,1.200 €,,1 Baño,,Superficie 55 m,Año construcción 1983,Planta número 5,,,Terraza 12 m,Sin calefacción,Sin plaza parking,Sin aire acondicionado,Sin ascensor,"VGPSLat\"":41.3958872","VGPSLon\"":2.1703441",https://www.habitaclia.com/alquiler-piso-tempo...,"Piso alto y luminoso, totalmente amueblado y ..."
2,Dreta de l´Eixample,6.000 €,7 habitaciones,4 Baños,,Superficie 400 m,Año construcción 1900,,Lavadero,Trastero,,Calefacción,,Aire acondicionado,,"VGPSLat\"":41.3925500","VGPSLon\"":2.1687700",https://www.habitaclia.com/alquiler-casa-en_un...,Casa para oficina o sede corporativa el mejor...
3,Dreta de l´Eixample,1.550 €,4 habitaciones,3 Baños,,Superficie 135 m,,Planta número 1,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3899600","VGPSLon\"":2.1716800",https://www.habitaclia.com/alquiler-piso-magni...,Magnífico piso en alquiler completamente refo...
4,Dreta de l´Eixample,2.200 €,6 habitaciones,2 Baños,,Superficie 185 m,Año construcción 1900,Planta número 4,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3972957","VGPSLon\"":2.1664800",https://www.habitaclia.com/alquiler-piso-estud...,"´DESCRIPCIÓN: Piso de alquiler, en la Dreta d..."
5,Dreta de l´Eixample,1.800 €,3 habitaciones,2 Baños,,Superficie 110 m,,Planta número 2,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3914117","VGPSLon\"":2.1652930",https://www.habitaclia.com/alquiler-piso-paseo...,Precioso piso en el corazón de Barcelona. En ...


b) Eliminaremos todas aquellas entradas que no tengan valores en las columnas designadas como necesarias (superficie, precio y habitación)

In [25]:
db = db[db['superficie'].notna() & db['precio'].notna() & db['hab'].notna()]

db.head()

Unnamed: 0,barrio,precio,hab,baño,aseo,superficie,fecha_constr,planta,lavadero,trastero,terraza,calefaccion,parking,acc,ascensor,lat,lon,url,text
2,Dreta de l´Eixample,6.000 €,7 habitaciones,4 Baños,,Superficie 400 m,Año construcción 1900,,Lavadero,Trastero,,Calefacción,,Aire acondicionado,,"VGPSLat\"":41.3925500","VGPSLon\"":2.1687700",https://www.habitaclia.com/alquiler-casa-en_un...,Casa para oficina o sede corporativa el mejor...
3,Dreta de l´Eixample,1.550 €,4 habitaciones,3 Baños,,Superficie 135 m,,Planta número 1,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3899600","VGPSLon\"":2.1716800",https://www.habitaclia.com/alquiler-piso-magni...,Magnífico piso en alquiler completamente refo...
4,Dreta de l´Eixample,2.200 €,6 habitaciones,2 Baños,,Superficie 185 m,Año construcción 1900,Planta número 4,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3972957","VGPSLon\"":2.1664800",https://www.habitaclia.com/alquiler-piso-estud...,"´DESCRIPCIÓN: Piso de alquiler, en la Dreta d..."
5,Dreta de l´Eixample,1.800 €,3 habitaciones,2 Baños,,Superficie 110 m,,Planta número 2,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3914117","VGPSLon\"":2.1652930",https://www.habitaclia.com/alquiler-piso-paseo...,Precioso piso en el corazón de Barcelona. En ...
6,Dreta de l´Eixample,1.500 €,3 habitaciones,2 Baños,,Superficie 136 m,Año construcción 1945,,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3891220","VGPSLon\"":2.1676280",https://www.habitaclia.com/alquiler-piso-fabul...,Fabuloso piso en alquiler al lado de Rambla C...


c) Eliminar aquellos datos que no son estrictamente viviendas.

In [26]:
drop_price = db[(db['precio'] == 'desde') 
                | (db['precio'] == 'Oportunidad') 
                | (db['precio'] == 'Consultarprecio')
                | (db['precio'] == 'Consultar precio')]

db = db.drop(drop_price.index)

db.head()

Unnamed: 0,barrio,precio,hab,baño,aseo,superficie,fecha_constr,planta,lavadero,trastero,terraza,calefaccion,parking,acc,ascensor,lat,lon,url,text
2,Dreta de l´Eixample,6.000 €,7 habitaciones,4 Baños,,Superficie 400 m,Año construcción 1900,,Lavadero,Trastero,,Calefacción,,Aire acondicionado,,"VGPSLat\"":41.3925500","VGPSLon\"":2.1687700",https://www.habitaclia.com/alquiler-casa-en_un...,Casa para oficina o sede corporativa el mejor...
3,Dreta de l´Eixample,1.550 €,4 habitaciones,3 Baños,,Superficie 135 m,,Planta número 1,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3899600","VGPSLon\"":2.1716800",https://www.habitaclia.com/alquiler-piso-magni...,Magnífico piso en alquiler completamente refo...
4,Dreta de l´Eixample,2.200 €,6 habitaciones,2 Baños,,Superficie 185 m,Año construcción 1900,Planta número 4,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3972957","VGPSLon\"":2.1664800",https://www.habitaclia.com/alquiler-piso-estud...,"´DESCRIPCIÓN: Piso de alquiler, en la Dreta d..."
5,Dreta de l´Eixample,1.800 €,3 habitaciones,2 Baños,,Superficie 110 m,,Planta número 2,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3914117","VGPSLon\"":2.1652930",https://www.habitaclia.com/alquiler-piso-paseo...,Precioso piso en el corazón de Barcelona. En ...
6,Dreta de l´Eixample,1.500 €,3 habitaciones,2 Baños,,Superficie 136 m,Año construcción 1945,,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3891220","VGPSLon\"":2.1676280",https://www.habitaclia.com/alquiler-piso-fabul...,Fabuloso piso en alquiler al lado de Rambla C...


## Limpieza datos (Fase1)

In [28]:
db.dtypes

barrio          object
precio          object
hab             object
baño            object
aseo            object
superficie      object
fecha_constr    object
planta          object
lavadero        object
trastero        object
terraza         object
calefaccion     object
parking         object
acc             object
ascensor        object
lat             object
lon             object
url             object
text            object
dtype: object

Realizaremos un strip de todos aquellos valores numericos para poder trabajarlos como int

In [32]:
db['superficie'] = db['superficie'].str.strip('Superficie m')
db['superficie'] = db['superficie'].str.strip()

db['planta'] = db['planta'].str.strip('Planta número')

db['fecha_constr'] = db['fecha_constr'].str.strip('Año construcción')

db['precio'] = db['precio'].str.strip('€')
db['precio'] = db['precio'].replace('.','')

db['hab'] = db['hab'].str.strip('habitaciones')

db['baño'] = db['baño'].str.strip('Baños')

db['aseo'] = db['aseo'].str.strip('Aseo')

db['terraza'] = db['terraza'].str.strip('Terraza m / Balcón')
db['terraza'] = db['terraza'].str.strip()

db.head()

Unnamed: 0,barrio,precio,hab,baño,aseo,superficie,fecha_constr,planta,lavadero,trastero,terraza,calefaccion,parking,acc,ascensor,lat,lon,url,text
2,Dreta de l´Eixample,6000,7,4,,400,1900.0,,Lavadero,Trastero,,Calefacción,,Aire acondicionado,,"VGPSLat\"":41.3925500","VGPSLon\"":2.1687700",https://www.habitaclia.com/alquiler-casa-en_un...,Casa para oficina o sede corporativa el mejor...
3,Dreta de l´Eixample,1550,4,3,,135,,1.0,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3899600","VGPSLon\"":2.1716800",https://www.habitaclia.com/alquiler-piso-magni...,Magnífico piso en alquiler completamente refo...
4,Dreta de l´Eixample,2200,6,2,,185,1900.0,4.0,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3972957","VGPSLon\"":2.1664800",https://www.habitaclia.com/alquiler-piso-estud...,"´DESCRIPCIÓN: Piso de alquiler, en la Dreta d..."
5,Dreta de l´Eixample,1800,3,2,,110,,2.0,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3914117","VGPSLon\"":2.1652930",https://www.habitaclia.com/alquiler-piso-paseo...,Precioso piso en el corazón de Barcelona. En ...
6,Dreta de l´Eixample,1500,3,2,,136,1945.0,,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,"VGPSLat\"":41.3891220","VGPSLon\"":2.1676280",https://www.habitaclia.com/alquiler-piso-fabul...,Fabuloso piso en alquiler al lado de Rambla C...


A continuación transformaremos las columnas seleccionadas a valores numericos para poder trabajar

In [9]:
db[['superficie', 'planta', 'fecha_constr', 'precio', 'hab', 'baño', 'aseo', 'terraza']] = db[['superficie', 'planta', 'fecha_constr', 'precio', 'hab', 'baño', 'aseo', 'terraza']].apply(pd.to_numeric)

In [10]:
db.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 15691 entries, 2 to 16060
Data columns (total 15 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   barrio        15691 non-null  object 
 1   precio        15691 non-null  int64  
 2   hab           14042 non-null  float64
 3   baño          15443 non-null  float64
 4   aseo          1445 non-null   float64
 5   superficie    15673 non-null  float64
 6   fecha_constr  10593 non-null  float64
 7   planta        8630 non-null   float64
 8   lavadero      5446 non-null   object 
 9   trastero      2577 non-null   object 
 10  terraza       4204 non-null   float64
 11  calefaccion   13027 non-null  object 
 12  parking       10669 non-null  object 
 13  acc           12849 non-null  object 
 14  ascensor      13937 non-null  object 
dtypes: float64(7), int64(1), object(7)
memory usage: 1.9+ MB


5. Es necesario codificar los barrios para que sea mas simple relacionarlos

In [13]:
codi_barris = pd.read_excel("Codi_Barris.xlsx")

In [14]:
db = pd.merge(db, codi_barris, on="barrio")

## Eliminar outliers

Puede ocurrir que el anuncio creado desde la pagina web tenga datos erroneos. Estos datos erroneos son muy incidentes en resultado si no estan dentro de una distribución normal, no puede ser que una vivienda tenga 300.000 m² o que el precio sea de 320 millones. Estos valores son los llamados "outliers" y como criterio se eliminaran todos aquellos valores que esten por encima de 3 zscores.

In [15]:
filt1 = np.abs(stats.zscore(db['precio'])) < 3
filt2 = np.abs(stats.zscore(db['superficie'])) < 3

filt = (filt1 & filt2)

Dataset = db[filt]

## Generar dataset

In [16]:
Dataset.to_csv('Dataset_Habitaclia.csv', index=False)

## Cantidad de muestras

In [17]:
Dataset

Unnamed: 0,barrio,precio,hab,baño,aseo,superficie,fecha_constr,planta,lavadero,trastero,terraza,calefaccion,parking,acc,ascensor,codi_barri
0,Esquerra Alta de l´Eixample,499000,2.0,1.0,,99.0,1900.0,,,,8.0,Sin calefacción,Sin plaza parking,Sin aire acondicionado,Ascensor,8
1,Esquerra Alta de l´Eixample,290000,2.0,1.0,,50.0,,1.0,,Trastero,,Sin calefacción,Sin plaza parking,Aire acondicionado,Ascensor,8
2,Esquerra Alta de l´Eixample,825000,3.0,2.0,,141.0,1936.0,,,,14.0,Calefacción,,,Ascensor,8
3,Esquerra Alta de l´Eixample,560000,4.0,2.0,,115.0,,,,,,Calefacción,Sin plaza parking,Aire acondicionado,Ascensor,8
4,Esquerra Alta de l´Eixample,255000,3.0,1.0,,58.0,1920.0,6.0,,,,Sin calefacción,Sin plaza parking,Sin aire acondicionado,Ascensor,8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15668,Sant Genís dels Agudells,295000,2.0,2.0,,90.0,2019.0,,,,,Calefacción,,Aire acondicionado,Ascensor,39
15669,Sant Genís dels Agudells,380000,3.0,2.0,,116.0,2019.0,,,,,Calefacción,,Aire acondicionado,Ascensor,39
15670,Sant Genís dels Agudells,365000,3.0,2.0,,116.0,2019.0,,,,,Calefacción,,Aire acondicionado,Ascensor,39
15671,Sant Genís dels Agudells,62000,3.0,1.0,,64.0,1962.0,,,,,,,,,39


Generamos el recuento de valores y añadimos la codificación del barrio

In [18]:
count_muestras = Dataset['barrio'].value_counts().to_frame().reset_index()
count_muestras.columns = ['barrio', 'cant']

Cant_muestras = pd.merge(count_muestras, codi_barris, on="barrio")


In [19]:
Cant_muestras.to_csv('cant_muestras.csv', index=False)