In [1]:
import pandas as pd
import numpy as np
import re
from geopy.geocoders import Nominatim

In [2]:
sales_houses = pd.read_csv("../inputs/houses_Madrid.csv")

In [3]:
sales_houses.head()

Unnamed: 0.1,Unnamed: 0,id,title,subtitle,sq_mt_built,sq_mt_useful,n_rooms,n_bathrooms,n_floors,sq_mt_allotment,...,energy_certificate,has_parking,has_private_parking,has_public_parking,is_parking_included_in_price,parking_price,is_orientation_north,is_orientation_west,is_orientation_south,is_orientation_east
0,0,21742,"Piso en venta en calle de Godella, 64","San Cristóbal, Madrid",64.0,60.0,2,1.0,,,...,D,False,,,,,False,True,False,False
1,1,21741,Piso en venta en calle de la del Manojo de Rosas,"Los Ángeles, Madrid",70.0,,3,1.0,,,...,en trámite,False,,,,,,,,
2,2,21740,"Piso en venta en calle del Talco, 68","San Andrés, Madrid",94.0,54.0,2,2.0,,,...,no indicado,False,,,,,,,,
3,3,21739,Piso en venta en calle Pedro Jiménez,"San Andrés, Madrid",64.0,,2,1.0,,,...,en trámite,False,,,,,False,False,True,False
4,4,21738,Piso en venta en carretera de Villaverde a Val...,"Los Rosales, Madrid",108.0,90.0,2,2.0,,,...,en trámite,True,,,True,0.0,True,True,True,True


In [4]:
# Vamos a comprobar las columnas por las que está compuesto nuestro DataFrame.

sales_houses.columns

Index(['Unnamed: 0', 'id', 'title', 'subtitle', 'sq_mt_built', 'sq_mt_useful',
       'n_rooms', 'n_bathrooms', 'n_floors', 'sq_mt_allotment', 'latitude',
       'longitude', 'raw_address', 'is_exact_address_hidden', 'street_name',
       'street_number', 'portal', 'floor', 'is_floor_under', 'door',
       'neighborhood_id', 'operation', 'rent_price', 'rent_price_by_area',
       'is_rent_price_known', 'buy_price', 'buy_price_by_area',
       'is_buy_price_known', 'house_type_id', 'is_renewal_needed',
       'is_new_development', 'built_year', 'has_central_heating',
       'has_individual_heating', 'are_pets_allowed', 'has_ac',
       'has_fitted_wardrobes', 'has_lift', 'is_exterior', 'has_garden',
       'has_pool', 'has_terrace', 'has_balcony', 'has_storage_room',
       'is_furnished', 'is_kitchen_equipped', 'is_accessible',
       'has_green_zones', 'energy_certificate', 'has_parking',
       'has_private_parking', 'has_public_parking',
       'is_parking_included_in_price', 'parki

In [5]:
# Seleccionamos aquellas columnas que más nos interesan para nuestro predicción de precios.

sales_houses = sales_houses[["neighborhood_id", "house_type_id", "is_renewal_needed", "is_new_development",
                             "sq_mt_built","n_rooms", "n_bathrooms", "floor", "is_exterior", "has_lift",
                             "has_parking", "has_storage_room", "has_terrace", "has_balcony", 
                             "has_pool", "buy_price", "buy_price_by_area"]]
sales_houses.head()

Unnamed: 0,neighborhood_id,house_type_id,is_renewal_needed,is_new_development,sq_mt_built,n_rooms,n_bathrooms,floor,is_exterior,has_lift,has_parking,has_storage_room,has_terrace,has_balcony,has_pool,buy_price,buy_price_by_area
0,Neighborhood 135: San Cristóbal (1308.89 €/m2)...,HouseType 1: Pisos,False,False,64.0,2,1.0,3,True,False,False,,,,,85000,1328
1,Neighborhood 132: Los Ángeles (1796.68 €/m2) -...,HouseType 1: Pisos,True,False,70.0,3,1.0,4,True,True,False,,True,,,129900,1856
2,Neighborhood 134: San Andrés (1617.18 €/m2) - ...,HouseType 1: Pisos,False,False,94.0,2,2.0,1,True,True,False,True,,,,144247,1535
3,Neighborhood 134: San Andrés (1617.18 €/m2) - ...,HouseType 1: Pisos,False,False,64.0,2,1.0,Bajo,True,True,False,True,,,,109900,1717
4,Neighborhood 133: Los Rosales (1827.79 €/m2) -...,HouseType 1: Pisos,False,False,108.0,2,2.0,4,True,True,True,True,,,True,260000,2407


In [6]:
# Nuestro tasador se va a basar en viviendas plurifamiliares por lo que eliminaremos todas aquellas tipologías
# que no se correspondan con este tipo de viviendas.
# Vamos a comprobar por tanto que tipologías de viviendas tenemos en nuestro DataFrame.

sales_houses.house_type_id.value_counts()

HouseType 1: Pisos            17705
HouseType 2: Casa o chalet     1938
HouseType 5: Áticos            1032
HouseType 4: Dúplex             676
Name: house_type_id, dtype: int64

In [7]:
# Eliminamos las viviendas de tipología tipo 2:

sales_houses = sales_houses.drop(sales_houses[sales_houses["house_type_id"]=="HouseType 2: Casa o chalet"].index).reset_index()

In [8]:
# Vamos a comprobar ahora que tipo de datos tenemos 

sales_houses.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19804 entries, 0 to 19803
Data columns (total 18 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   index               19804 non-null  int64  
 1   neighborhood_id     19804 non-null  object 
 2   house_type_id       19413 non-null  object 
 3   is_renewal_needed   19804 non-null  bool   
 4   is_new_development  18883 non-null  object 
 5   sq_mt_built         19803 non-null  float64
 6   n_rooms             19804 non-null  int64  
 7   n_bathrooms         19790 non-null  float64
 8   floor               19135 non-null  object 
 9   is_exterior         18699 non-null  object 
 10  has_lift            19356 non-null  object 
 11  has_parking         19804 non-null  bool   
 12  has_storage_room    6580 non-null   object 
 13  has_terrace         8222 non-null   object 
 14  has_balcony         2942 non-null   object 
 15  has_pool            3921 non-null   object 
 16  buy_

In [9]:
# Vamos a empezar por rellenar los valores NaN de aquellas columnas que tienen menos datos.
# Para ello, vamos a empezar comprobando los valores de dichas columnas

columnas = ["has_storage_room", "has_terrace", "has_balcony", "has_pool"]
for col in columnas:
    print(sales_houses[col].value_counts())

True    6580
Name: has_storage_room, dtype: int64
True    8222
Name: has_terrace, dtype: int64
True    2942
Name: has_balcony, dtype: int64
True    3921
Name: has_pool, dtype: int64


In [10]:
# Como podemos comprobar, los valores NaN en todos los casos anteriores pueden ser sustituidos por False.
# Vamos a proceder por tanto a cambiar esos datos por valores False

In [11]:
def fillNaN(columna):
    sales_houses[columna] = sales_houses[columna].fillna(value="False")
    return sales_houses[columna]

fillNaN ("has_storage_room")
fillNaN ("has_terrace")
fillNaN ("has_balcony")
fillNaN ("has_pool")

0        False
1        False
2        False
3        False
4         True
         ...  
19799     True
19800    False
19801     True
19802     True
19803     True
Name: has_pool, Length: 19804, dtype: object

In [12]:
# Comprobamos la columna m2 para ver cual es el valor nulo. 

sq_mt_built_isnull = sales_houses.sq_mt_built.isnull()
sales_houses.loc[sq_mt_built_isnull]

Unnamed: 0,index,neighborhood_id,house_type_id,is_renewal_needed,is_new_development,sq_mt_built,n_rooms,n_bathrooms,floor,is_exterior,has_lift,has_parking,has_storage_room,has_terrace,has_balcony,has_pool,buy_price,buy_price_by_area
12794,14415,Neighborhood 31: Bernabéu-Hispanoamérica (5170...,HouseType 5: Áticos,True,False,,13,10.0,1,True,True,True,False,True,False,True,8000000,6867


In [13]:
# Vamos a recuperar este dato.
# Para ello, rellenamos el valor nulo con la división de buy_price por buy_price_by_area.

sales_houses["sq_mt_built"] = sales_houses["sq_mt_built"].fillna(value=round(sales_houses["buy_price"]/sales_houses["buy_price_by_area"],1))
sales_houses.loc[sales_houses.index==12794]

Unnamed: 0,index,neighborhood_id,house_type_id,is_renewal_needed,is_new_development,sq_mt_built,n_rooms,n_bathrooms,floor,is_exterior,has_lift,has_parking,has_storage_room,has_terrace,has_balcony,has_pool,buy_price,buy_price_by_area
12794,14415,Neighborhood 31: Bernabéu-Hispanoamérica (5170...,HouseType 5: Áticos,True,False,1165.0,13,10.0,1,True,True,True,False,True,False,True,8000000,6867


In [14]:
# Vamos a comprobar ahora si podemos realizar lo mismo con las columnas "is_exterior", "has_lift".

nulos = ["is_exterior", "has_lift"]
for nan in nulos:
    print(sales_houses[nan].value_counts())

True     16922
False     1777
Name: is_exterior, dtype: int64
True     14895
False     4461
Name: has_lift, dtype: int64


### En este caso comprobamos que las columnas ya cuentan con valores True y False, por lo que no tenemos forma de averiguar dichos datos.
### Tampoco tenemos forma de rellenar los valores nulos de las columnas "house_type_id", "is_new_development", "n_bathrooms", "floor".
### Eliminamos por tanto, todos los valores nulos de estas columnas.

In [15]:
sales_houses_clean = sales_houses.dropna().reset_index()

In [16]:
# Vamos a comprobar el nº definitivo de datos que tenemos en nuestro dataset.

sales_houses_clean.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17398 entries, 0 to 17397
Data columns (total 19 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   level_0             17398 non-null  int64  
 1   index               17398 non-null  int64  
 2   neighborhood_id     17398 non-null  object 
 3   house_type_id       17398 non-null  object 
 4   is_renewal_needed   17398 non-null  bool   
 5   is_new_development  17398 non-null  object 
 6   sq_mt_built         17398 non-null  float64
 7   n_rooms             17398 non-null  int64  
 8   n_bathrooms         17398 non-null  float64
 9   floor               17398 non-null  object 
 10  is_exterior         17398 non-null  object 
 11  has_lift            17398 non-null  object 
 12  has_parking         17398 non-null  bool   
 13  has_storage_room    17398 non-null  object 
 14  has_terrace         17398 non-null  object 
 15  has_balcony         17398 non-null  object 
 16  has_

### Vamos a obtener ahora la geolocalización de los diferentes vecindarios.

In [17]:
sales_houses_clean.neighborhood_id = sales_houses_clean.neighborhood_id.str.findall(r"(\: \w.* \()(?:.+)(\: \w.*)").map(lambda x: x[-1])

In [18]:
lista = []
def neigh():
    for row in range(0,17398):
        lista.append(sales_houses_clean.neighborhood_id[row][0].lstrip(": ").rstrip(" (") + ", " + sales_houses_clean.neighborhood_id[row][1].lstrip(": ")+"(Madrid)")
    return lista

In [19]:
sales_houses_clean["neighborhood_id"] = sales_houses_clean.apply(lambda row: neigh())

In [20]:
sales_houses_clean.head()

Unnamed: 0,level_0,index,neighborhood_id,house_type_id,is_renewal_needed,is_new_development,sq_mt_built,n_rooms,n_bathrooms,floor,is_exterior,has_lift,has_parking,has_storage_room,has_terrace,has_balcony,has_pool,buy_price,buy_price_by_area
0,0,0,"San Cristóbal, Villaverde(Madrid)",HouseType 1: Pisos,False,False,64.0,2,1.0,3,True,False,False,False,False,False,False,85000,1328
1,1,1,"Los Ángeles, Villaverde(Madrid)",HouseType 1: Pisos,True,False,70.0,3,1.0,4,True,True,False,False,True,False,False,129900,1856
2,2,2,"San Andrés, Villaverde(Madrid)",HouseType 1: Pisos,False,False,94.0,2,2.0,1,True,True,False,True,False,False,False,144247,1535
3,3,3,"San Andrés, Villaverde(Madrid)",HouseType 1: Pisos,False,False,64.0,2,1.0,Bajo,True,True,False,True,False,False,False,109900,1717
4,4,4,"Los Rosales, Villaverde(Madrid)",HouseType 1: Pisos,False,False,108.0,2,2.0,4,True,True,True,True,False,False,True,260000,2407


In [21]:
geolocator = Nominatim(user_agent="http")

sales_houses_clean["latitude"] = sales_houses_clean["neighborhood_id"].apply(geolocator.geocode).apply(lambda x: (x.latitude))
sales_houses_clean["longitude"] = sales_houses_clean["neighborhood_id"].apply(geolocator.geocode).apply(lambda x: (x.longitude))

GeocoderUnavailable: HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Max retries exceeded with url: /search?q=Valdebernardo+-+Valderribas%2C+Vic%C3%A1lvaro%28Madrid%29&format=json&limit=1 (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x10ea19340>, 'Connection to nominatim.openstreetmap.org timed out. (connect timeout=1)'))

In [None]:
sales_houses_clean.to_csv("../outputs/clean_houses")

In [None]:
#Apply guardar!!!!

sales_houses['house_type_id'] = sales_houses.apply(lambda row: "HouseType 1: Pisos" if pd.notnull(row["floor"]) else row['house_type_id']  , axis=1)
sales_houses['house_type_id'].value_counts()