In [1]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns 
import re 

%matplotlib inline

In [2]:
data_location = 'Data/properatti.csv'
data = pd.read_csv(data_location)

In [3]:
data_final = data[['property_type','place_name','place_with_parent_names','state_name','price','currency','price_aprox_usd',
                         'surface_total_in_m2','surface_covered_in_m2','price_per_m2','rooms','description','title']].copy()

In [4]:
#Buscamos aquellas propiedades sin Rooms.
mask_no_rooms = data_final["rooms"].isnull()
data_final.loc[mask_no_rooms,["rooms","description","title"]]

Unnamed: 0,rooms,description,title
0,,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB
1,,Venta de departamento en décimo piso al frente...,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...
2,,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO
3,,PH 3 ambientes con patio. Hay 3 deptos en lote...,PH 3 amb. cfte. reciclado
4,,DEPARTAMENTO CON FANTÁSTICA ILUMINACIÓN NATURA...,DEPTO 2 AMB AL CONTRAFRENTE ZONA CENTRO/PLAZA ...
...,...,...,...
121215,,TORRE FORUM ALCORTA - MÁXIMA CATEGORÍA.Impecab...,Torre Forum Alcorta- Impecable 3 ambientes
121216,,Excelente e impecable casa en Venta en Las Lom...,Ruca Inmuebles | Venta | Lomas de San Isidro |...
121217,,VENTA DEPARTAMENTO AMBIENTE DIVISIBLE A ESTREN...,VENTA DEPARTAMENTO AMBIENTE DIVISIBLE A ESTREN...
121218,,"2 Amb al contrafrente, luminoso. El departame...",2 amb. C/ dep. de servicio al contrafrente| Re...


In [5]:
#casteo columna description y title como string
data_final["description"] = data_final["description"].astype(str)
data_final["title"] = data_final["title"].astype(str)

In [6]:
#la cantidad de ambientes en description y title puede estar tanto en numeros como en numeros escritos en letras.
#Es por eso que buscamos ambos patrones en description y title

In [7]:
#Creo una funcion para la busqueda de patrones y me agregue los regex encontrados en una nueva columna al data frame
def buscador_patrones(patron, columna_de_trabajo, nombre_nueva_columna):
    patron_regex = re.compile(patron, re.IGNORECASE)
    matcheos = data_final[columna_de_trabajo].apply(lambda x:x if x is np.NaN else patron_regex.search(x).group("numero") if patron_regex.search(x)!=None else np.NaN)
    data_final.insert(13, nombre_nueva_columna, matcheos)

In [8]:
#Creamos patrones para buscar la cantidad explicita de ambientes en description y title.
description_ambientes_numero = "(?P<numero>\d\d?) ?(ambientes|ambiente|amb)"
description_ambientes_letras = "(?P<numero>mono|un|dos|tres|cuatro|cinco|seis|siete|ocho|nueve|diez) ?(ambientes|ambiente|amb)"
title_ambientes_numero = "(?P<numero>\d\d?) ?(ambientes|ambiente|amb)"
title_ambientes_letras = "(?P<numero>mono|un|dos|tres|cuatro|cinco|seis|siete|ocho|nueve|diez) ?(ambientes|ambiente|amb)"

#Ejecuto la funcion tanto en la columna "decription" como la columna "title"
buscador_patrones(description_ambientes_numero, "description", "numero_ambientes_description")
buscador_patrones(description_ambientes_letras, "description", "numero_ambientes_desc_letras")
buscador_patrones(title_ambientes_numero, "title", "numero_ambientes_title")
buscador_patrones(title_ambientes_letras, "title", "numero_ambientes_title_letras")

In [9]:
data_final.loc[mask_no_rooms,["rooms","description","title","numero_ambientes_description","numero_ambientes_desc_letras","numero_ambientes_title","numero_ambientes_title_letras"]].head(10)

Unnamed: 0,rooms,description,title,numero_ambientes_description,numero_ambientes_desc_letras,numero_ambientes_title,numero_ambientes_title_letras
0,,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB,2.0,,2.0,
1,,Venta de departamento en décimo piso al frente...,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...,,,,
2,,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO,2.0,,2.0,
3,,PH 3 ambientes con patio. Hay 3 deptos en lote...,PH 3 amb. cfte. reciclado,3.0,,3.0,
4,,DEPARTAMENTO CON FANTÁSTICA ILUMINACIÓN NATURA...,DEPTO 2 AMB AL CONTRAFRENTE ZONA CENTRO/PLAZA ...,,,2.0,
5,,"Casa en el perímetro del barrio 338, ubicada e...","Casa Barrio 338. Sobre calle 3 de caballería, ...",,,,
6,,MUY BUEN PH AL FRENTE CON ENTRADA INDEPENDIENT...,"MUY BUEN PH AL FRENTE DOS DORMITORIOS , PATIO,...",,,,
7,,EXCELENTE MONOAMBIENTE A ESTRENAR AMPLIO SUPER...,JOSE HERNANDEZ 1400 MONOAMBIENTE ESTRENAR CAT...,,MONO,,MONO
8,,EXCELENTE DOS AMBIENTES ESTRENAR AMPLIO SUPER...,"JOSE HERNANDEZ 1400 DOS AMBIENTES ESTRENAR ,...",,DOS,,DOS
9,,MEDNOZA AL 7600A UNA CUADRA DE CALLE MENDOZAWH...,WHITE 7637 - 2 DORMITORIOS CON PATIO,,,,


In [10]:
#combierto amb_desc_letras y amb_title_letras en minuscula para estandarizar las columnas
data_final["numero_ambientes_desc_letras"] = data_final["numero_ambientes_desc_letras"].str.lower()
data_final["numero_ambientes_title_letras"] = data_final["numero_ambientes_title_letras"].str.lower()

In [11]:
#Reemplazamos aquellos numeros en letras con numeros, lo hacemos con un diccionario
dictionary = {"mono":1, "un":1,"dos":2,"tres":3,"cuatro":4,"cinco":5,"seis":6,"siete":7,"ocho":8,"nueve":9,"diez":10}
data_final["numero_ambientes_desc_letras"] = data_final["numero_ambientes_desc_letras"].replace(dictionary)
data_final["numero_ambientes_title_letras"] = data_final["numero_ambientes_title_letras"].replace(dictionary)

In [12]:
data_final.loc[mask_no_rooms,["numero_ambientes_description","numero_ambientes_desc_letras","numero_ambientes_title","numero_ambientes_title_letras"]].head(10)

Unnamed: 0,numero_ambientes_description,numero_ambientes_desc_letras,numero_ambientes_title,numero_ambientes_title_letras
0,2.0,,2.0,
1,,,,
2,2.0,,2.0,
3,3.0,,3.0,
4,,,2.0,
5,,,,
6,,,,
7,,1.0,,1.0
8,,2.0,,2.0
9,,,,


In [13]:
#Reemplazamos los nulos en rooms con las columnas contruidas
data_final["rooms"].fillna(data_final["numero_ambientes_description"], inplace=True)
data_final["rooms"].fillna(data_final["numero_ambientes_desc_letras"], inplace=True)
data_final["rooms"].fillna(data_final["numero_ambientes_title"], inplace=True)
data_final["rooms"].fillna(data_final["numero_ambientes_title_letras"], inplace=True)

In [14]:
#Vemos como se redujo considerablemente la cantidad de nulos en rooms
data_final["rooms"].isnull().sum()

45394

In [15]:
#Para aquellas propiedades sin la cantidad explicita de ambientes detalle en las columnas description y title vamos a tratar de armarlos con la informacion restante de las mismas.

In [16]:
#Comenzamos con dormitorios

#Patrones
dormitorios_numeros = "(?P<numero>\d\d?) ?(dorm|cuarto)"
dormitorios_letras = "(?P<numero>mono|un|dos|tres|cuatro|cinco|seis|siete|ocho|nueve|diez) ?(dorm|cuarto)"

#ejecuto la funcion buscador_patrones
buscador_patrones(dormitorios_numeros, "description", "dormitorios_numeros")
buscador_patrones(dormitorios_letras, "description", "dormitorios_letras")

In [17]:
data_final.loc[:,["dormitorios_numeros","dormitorios_letras"]]

Unnamed: 0,dormitorios_numeros,dormitorios_letras
0,,
1,,
2,,
3,,
4,1,
...,...,...
121215,2,
121216,3,
121217,,
121218,,


In [18]:
#Reemplazo las letras por integers
data_final["dormitorios_letras"] = data_final["dormitorios_letras"].str.lower()
diccionario_letras = {"un":1,"dos":2,"tres":3,"cuatro":4,"cinco":5,"seis":6,"siete":7,"ocho":8,"nueve":9,"diez":10}
data_final["dormitorios_letras"] = data_final["dormitorios_letras"].replace(diccionario_letras)

In [19]:
mascara_nulos = data_final["rooms"].isnull()
data_final.loc[mascara_nulos,["rooms","dormitorios_numeros","dormitorios_letras"]]

Unnamed: 0,rooms,dormitorios_numeros,dormitorios_letras
1,,,
5,,,2.0
6,,,2.0
9,,2,
10,,3,
...,...,...,...
121212,,1,
121213,,3,
121214,,,
121216,,3,


In [20]:
#Reemplazo los nulos de "dormitorios_numeros" con la info de "dormitorios_letras" para tener todos los dormitorios en una columna
data_final["dormitorios_numeros"].fillna(data_final["dormitorios_letras"], inplace=True)
data_final["dormitorios_numeros"].fillna(0, inplace = True)

In [21]:
# Eliminamos los signos de puntuación de la columna description
regex = '[\\!\\"\\#\\$\\%\\&\\\'\\(\\)\\*\\+\\,\\-\\.\\/\\:\\;\\<\\=\\>\\?\\@\\[\\\\\\]\\^_\\`\\{\\|\\}\\~]'
pattern = re.compile(regex)
data_final["description_clean"] = data_final["description"].apply(lambda x: pattern.sub("", x))
data_final.loc[:,["description_clean","rooms"]]

Unnamed: 0,description_clean,rooms
0,2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO ...,2
1,Venta de departamento en décimo piso al frente...,
2,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2
3,PH 3 ambientes con patio Hay 3 deptos en lote ...,3
4,DEPARTAMENTO CON FANTÁSTICA ILUMINACIÓN NATURA...,2
...,...,...
121215,TORRE FORUM ALCORTA MÁXIMA CATEGORÍAImpecable...,3
121216,Excelente e impecable casa en Venta en Las Lom...,
121217,VENTA DEPARTAMENTO AMBIENTE DIVISIBLE A ESTREN...,1
121218,2 Amb al contrafrente luminoso El departament...,2


In [22]:
#Vamos a buscar los siguientes ambientes para poder completar rooms:
#Cocina Comedor
#Living Comedor
#Cocina separada
#Living separado
#Comedor separado

In [23]:
data_final["description_clean"].sample(20)

91949     Departamento tipo casa en primer piso por esca...
70568     EDIFICIO QUINTUS VENTA EN POZO DEPTO DE 1 AMBI...
33425     Corredor Responsable Lucrecia Saulle  CSI 5520...
13102     CODIGO 121970 ubicado en AvVII nº 465   Public...
108843    CARACTERÍSTICAS Doble ingreso living comedor m...
18155      VENTA cRenta Bajas Expensas   NO APTO CREDITO...
95600     Local de 276 M2 con 2 Baños y 2 Oficinas  No t...
92343     Departamento de 2 Dormitorios en venta en la c...
74202     Propiedad en Saint Thomas Sur con ascensor Vis...
66265     CARACTERISTICAS GENERALES Pisos en sectores co...
11769     Depto 3 amb en pb con patiogran emprendimiento...
121044    Torre de 16º pisos ubicado en pleno centro com...
38846     APTO PROFESIONAL Amplio mono ambiente a estren...
42585     Caracteristicas  3 Dormitorios  1 Baño Living ...
87565                                      BBU4235 AP257840
9191      Corredor Responsable Juan Carlos Treco  CMCPDJ...
30110     Corredor Responsable Marcelo D

In [24]:
#Busco si contienen las siguientes palabras para sumarlas como ambientes
data_final["cocina_comedor"] = data_final.loc[mascara_nulos,"description_clean"].str.contains(r'cocina comedor?') #cocina comedor
data_final["living_comedor"] = data_final.loc[mascara_nulos,"description_clean"].str.contains(r'living comedor?') #living comedor
data_final["cocina_unica"] = data_final.loc[mascara_nulos, "description_clean"].str.contains(r'cocina?') #cocina unica
data_final["living_unico"] = data_final.loc[mascara_nulos,"description_clean"].str.contains(r'living?') #living unico
data_final["comedor_unico"] = data_final.loc[mascara_nulos,"description_clean"].str.contains(r'comedor?') #comedor unico

In [25]:
data_final.loc[mascara_nulos,["cocina_comedor","living_comedor", "cocina_unica", "living_unico", "comedor_unico"]]

Unnamed: 0,cocina_comedor,living_comedor,cocina_unica,living_unico,comedor_unico
1,False,False,False,False,True
5,True,False,True,True,True
6,False,False,False,False,False
9,False,False,False,False,False
10,False,True,True,True,True
...,...,...,...,...,...
121212,False,False,True,True,True
121213,True,False,True,True,True
121214,False,False,False,False,False
121216,False,True,True,True,True


In [26]:
#Aquellas propiedas en las que es True les agregamos 1, en aquellas que es False les ponemos 0.
data_final["cocina_comedor"] =  data_final["cocina_comedor"].apply(lambda x: 0 if x == False else 1)
data_final["living_comedor"] =  data_final["living_comedor"].apply(lambda x: 0 if x == False else 1)
data_final["cocina_unica"] =  data_final["cocina_unica"].apply(lambda x: 0 if x == False else 1)
data_final["living_unico"] =  data_final["living_unico"].apply(lambda x: 0 if x == False else 1)
data_final["comedor_unico"] =  data_final["comedor_unico"].apply(lambda x: 0 if x == False else 1)

In [27]:
data_final.loc[mascara_nulos,["cocina_comedor","living_comedor", "cocina_unica", "living_unico", "comedor_unico"]]

Unnamed: 0,cocina_comedor,living_comedor,cocina_unica,living_unico,comedor_unico
1,0,0,0,0,1
5,1,0,1,1,1
6,0,0,0,0,0
9,0,0,0,0,0
10,0,1,1,1,1
...,...,...,...,...,...
121212,0,0,1,1,1
121213,1,0,1,1,1
121214,0,0,0,0,0
121216,0,1,1,1,1


In [28]:
data_final["dormitorios_numeros"] = data_final["dormitorios_numeros"].astype(float)
data_final["cocina_comedor"] = data_final["cocina_comedor"].astype(float)
data_final["living_comedor"] = data_final["living_comedor"].astype(float)
data_final["cocina_unica"] = data_final["cocina_unica"].astype(float)
data_final["living_unico"] = data_final["living_unico"].astype(float)
data_final["comedor_unico"] = data_final["comedor_unico"].astype(float)

In [29]:
#Sumamos la cantidad de ambientes y lo almacenamos en la columna ambientes
columnas_lista = ["dormitorios_numeros","cocina_comedor", "living_comedor","cocina_unica", "living_unico", "comedor_unico"]
columnas_lista
data_final["ambientes"] = data_final[columnas_lista].sum(axis=1)
data_final.loc[mascara_nulos,["rooms","dormitorios_numeros","cocina_comedor","living_comedor","cocina_unica","living_unico","comedor_unico","ambientes"]].sample(15)

Unnamed: 0,rooms,dormitorios_numeros,cocina_comedor,living_comedor,cocina_unica,living_unico,comedor_unico,ambientes
16137,,0.0,0.0,0.0,1.0,0.0,0.0,1.0
944,,1.0,0.0,0.0,0.0,0.0,0.0,1.0
34301,,1.0,0.0,0.0,1.0,0.0,1.0,3.0
79233,,4.0,0.0,1.0,0.0,1.0,1.0,7.0
86848,,0.0,0.0,0.0,0.0,0.0,0.0,0.0
89826,,0.0,0.0,0.0,0.0,0.0,0.0,0.0
93208,,0.0,0.0,1.0,1.0,1.0,1.0,4.0
120221,,2.0,0.0,0.0,1.0,0.0,1.0,4.0
75472,,0.0,0.0,0.0,0.0,0.0,0.0,0.0
103586,,0.0,0.0,0.0,1.0,0.0,0.0,1.0


In [30]:
#Para no repetir la cantidad de ambientes aplicaciones ciertas condiciones logicas:

#Para aquellas propiedades que tenemos la cantidad de dormitorios y no tienen cocina o cocina_comedor les agregamos 1 ambiente que seria la cocina. Ya que estimamos
# que todas las propiedades cuenta con cocina.

data_final["ambientes"] = data_final.apply(lambda x: x.ambientes + 1 if (x.dormitorios_numeros > 0) and (x.cocina_comedor == 0) and (x.cocina_unica == 0) else x.ambientes, axis=1)
#Aquellas propiedades que los regex nos trajeron cocina_comedor y cocina_unica les restamos 1 ambiente
data_final["ambientes"] = data_final.apply(lambda x: x.ambientes - 1 if (x.dormitorios_numeros > 0) and (x.cocina_comedor == 1) and (x.cocina_unica == 1) else x.ambientes, axis=1)
#Aquellas propiedads que los regex nos trajeron living_comedor y living_unico les restamos 1 ambiente
data_final["ambientes"] = data_final.apply(lambda x: x.ambientes - 1 if (x.dormitorios_numeros > 0) and (x.living_comedor == 1) and (x.living_unico == 1) else x.ambientes, axis=1)
#Para no duplicar el ambiente comedor 
data_final["ambientes"] = data_final.apply(lambda x: x.ambientes - 1 if (x.cocina_comedor == 1) and (x.comedor_unico == 1) else x.ambientes, axis=1)
data_final["ambientes"] = data_final.apply(lambda x: x.ambientes - 1 if (x.living_comedor ==1) and (x.comedor_unico == 1) else x.ambientes, axis=1)

In [31]:
data_final.loc[mascara_nulos,["rooms","dormitorios_numeros","cocina_comedor","living_comedor","cocina_unica","living_unico","comedor_unico","ambientes"]].head(10)

Unnamed: 0,rooms,dormitorios_numeros,cocina_comedor,living_comedor,cocina_unica,living_unico,comedor_unico,ambientes
1,,0.0,0.0,0.0,0.0,0.0,1.0,1.0
5,,2.0,1.0,0.0,1.0,1.0,1.0,4.0
6,,2.0,0.0,0.0,0.0,0.0,0.0,3.0
9,,2.0,0.0,0.0,0.0,0.0,0.0,3.0
10,,3.0,0.0,1.0,1.0,1.0,1.0,5.0
15,,3.0,0.0,1.0,1.0,1.0,1.0,5.0
18,,3.0,0.0,0.0,0.0,0.0,1.0,5.0
20,,4.0,0.0,0.0,1.0,0.0,0.0,5.0
22,,3.0,0.0,0.0,1.0,1.0,0.0,5.0
26,,2.0,0.0,1.0,1.0,1.0,1.0,4.0


In [33]:
data_final["ambientes"] = data_final["ambientes"].replace(0, np.nan)
data_final.loc[mascara_nulos,["rooms","dormitorios_numeros","cocina_comedor","living_comedor","cocina_unica","living_unico","comedor_unico","ambientes"]].head(20)

Unnamed: 0,rooms,dormitorios_numeros,cocina_comedor,living_comedor,cocina_unica,living_unico,comedor_unico,ambientes
1,,0.0,0.0,0.0,0.0,0.0,1.0,1.0
5,,2.0,1.0,0.0,1.0,1.0,1.0,4.0
6,,2.0,0.0,0.0,0.0,0.0,0.0,3.0
9,,2.0,0.0,0.0,0.0,0.0,0.0,3.0
10,,3.0,0.0,1.0,1.0,1.0,1.0,5.0
15,,3.0,0.0,1.0,1.0,1.0,1.0,5.0
18,,3.0,0.0,0.0,0.0,0.0,1.0,5.0
20,,4.0,0.0,0.0,1.0,0.0,0.0,5.0
22,,3.0,0.0,0.0,1.0,1.0,0.0,5.0
26,,2.0,0.0,1.0,1.0,1.0,1.0,4.0


In [34]:
#reemplazamos los nulos en rooms con la cantidad de ambientes que construimos
data_final["rooms"].fillna(data_final["ambientes"], inplace=True)
data_final["rooms"].isnull().sum()

12164

In [35]:
#eliminamos aquellas columnas que no necesitamos mas
data_final.drop(columns=["numero_ambientes_title", "numero_ambientes_desc_letras", "numero_ambientes_description", "description_clean","cocina_comedor","living_comedor","cocina_unica","living_unico","comedor_unico","dormitorios_letras","dormitorios_numeros","dormitorios_numeros","ambientes","numero_ambientes_title_letras"], inplace=True)

In [36]:
data_final.head()

Unnamed: 0,property_type,place_name,place_with_parent_names,state_name,price,currency,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_per_m2,rooms,description,title
0,PH,Mataderos,|Argentina|Capital Federal|Mataderos|,Capital Federal,62000.0,USD,62000.0,55.0,40.0,1550.0,2,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB
1,apartment,La Plata,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,Bs.As. G.B.A. Zona Sur,150000.0,USD,150000.0,,,,1,Venta de departamento en décimo piso al frente...,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...
2,apartment,Mataderos,|Argentina|Capital Federal|Mataderos|,Capital Federal,72000.0,USD,72000.0,55.0,55.0,1309.090909,2,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO
3,PH,Liniers,|Argentina|Capital Federal|Liniers|,Capital Federal,95000.0,USD,95000.0,,,,3,PH 3 ambientes con patio. Hay 3 deptos en lote...,PH 3 amb. cfte. reciclado
4,apartment,Centro,|Argentina|Buenos Aires Costa Atlántica|Mar de...,Buenos Aires Costa Atlántica,64000.0,USD,64000.0,35.0,35.0,1828.571429,2,DEPARTAMENTO CON FANTÁSTICA ILUMINACIÓN NATURA...,DEPTO 2 AMB AL CONTRAFRENTE ZONA CENTRO/PLAZA ...


In [37]:
#Vemos que la cantidad de nulos en rooms bajo considerablemente.
data_final["rooms"].isnull().sum()

12164