# TP2: Propiedades en venta

## Grupo #06: Adelsflügel Valentina, Emanuel Tomás, Javes Sofía, Frenkel Gastón, Zacarías Víctor

# Procesamiento del lenguaje natural (PLN)

Se conoce como lenguaje natural a aquel destinado a a la comunicación entre personas, tal como lo es el Inglés, o el Castellano. 

Cuando se habla de procesamiento del lenguaje natural o PLN, se hace referencia a un conjunto de técnicas o algoritmos que permiten procesar subconjuntos de dicho lenguaje (no se analiza todo el lenguaje en si, sino frases, palabras u oraciones) con el objetivo de analizarlos en busca de información que resulte relevante a algún tipo de problema. 

Como se menciono, PLN tiene como objetivo procesar subconjuntos del lenguaje natural con el objetivo de buscar información relevante en ellos. Por información relevante se hace referencia a si un determinado texto pertenece a una clase (por ejemplo, si una crítica es negativa o positiva).

En los que respecta al trabajo, se dispone de un conjunto de datos con descripciones en Castellano de propiedades inmobiliarias. Al usar PLN sobre dicho conjunto, se buscará analizar las descripciones en busca de características relevantes sobre las propiedades que permitan clasificarlas según que característica posean. Posteriormente se generaran nuevas columnas sobre el dataset original con dichas características.

Se importan las bibliotecas a utilizar:

In [1]:
#!pip install gensim
import os
import pandas as pd
import numpy as np
import nltk as nltk
nltk.download('sentiwordnet')
nltk.download('wordnet')
from nltk.corpus import sentiwordnet as swn
from nltk import word_tokenize
from nltk.collocations import *
from nltk.stem.wordnet import WordNetLemmatizer
import re

[nltk_data] Downloading package sentiwordnet to /root/nltk_data...
[nltk_data]   Package sentiwordnet is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Se importan los datasets a utilizar:

In [2]:
ds_properati_train = pd.read_csv("dataset_properati_train_id.csv")
ds_properati_test = pd.read_csv("dataset_properati_test_id.csv")
ds_properati_test.drop(columns="Unnamed: 0", inplace=True)
ds_properati_train.drop(columns="Unnamed: 0", inplace=True)

descripcion_propiedades_ds = pd.read_csv("/work/dataset_properati_descrip.csv")

Al ser la primera vez que se trabaja con el dataset 'descripcion_propiedades_ds' se realiza un análisis del mismo, de forma de depurarlo y dejarlo con la información mas importante para los objetivos del trabajo.

## Análisis exploratorio descripcion_propiedades_ds

In [3]:
descripcion_propiedades_ds.head()

Unnamed: 0,id,property_description
0,BZCeiGkJr1WBUi6pKJQwJQ==,Corredor Responsable: MARIA ALEJANDRA GENOVEVA...
1,zuHOGgUE0UB71W7m/YCLoA==,¡HERMOSO PH TIPO CASA DE 2 AMBIENTES!<br>APTO ...
2,TUL813tXchVBlHUsfaA6DA==,Excelente PH en Núñez 4 amb!!!! Oportunidad !!...
3,gn55JPmcjftBV/at1a7fPg==,"UNICO PH DE 4 DORMITORIOS EN IMPECABLE ESTADO,..."
4,qg4m3QHcuo1+wMmyp7kx3Q==,Ph 2 Amb. Villa Crespo exclusivo uso profesion...


In [4]:
descripcion_propiedades_ds.shape

(460154, 2)

In [5]:
descripcion_propiedades_ds.dtypes

id                      object
property_description    object
dtype: object

Se tiene un dataset de 460154x2 (Filas x columnas). Ambas columnas son de tipo object (string a fines prácticos).

-Análisis de valores faltantes:

In [6]:
descripcion_propiedades_ds.isna().sum()

id                       0
property_description    23
dtype: int64

Se observan 23 datos nulos, o valores faltantes,  en la columna property_description.  A continuación se realiza un análisis sobre cual es el porcentaje de datos nulos para tomar una decisión sobre que hacer con ellos.

In [7]:
descripciones_nulas = descripcion_propiedades_ds['property_description'].isna().sum()
descripciones_totales = descripcion_propiedades_ds['property_description'].size

porcentaje_de_datos_nulos = (descripciones_nulas*100)/descripciones_totales

print("El porcentaje de datos nulos es:",porcentaje_de_datos_nulos,'%')

El porcentaje de datos nulos es: 0.004998326647165948 %


Como se puede observar el  porcentaje de datos nulos es muy bajo, por lo tanto los mismos no aportan ningún tipo de información relevante a los objetivos del trabajo, resultando innecesario hacer algún análisis adicional sobre ellos. 

Teniendo en cuenta lo observado anteriormente los datos nulos son eliminados del dataset.

In [8]:
descripcion_propiedades_ds.dropna(inplace=True)
descripcion_propiedades_ds.reset_index(inplace=True, drop=True)

In [9]:
descripcion_propiedades_ds.isna().sum()

id                      0
property_description    0
dtype: int64

A continuación haremos un matcheo entre las descripciones y las propiedades utilizando el id para quedarnos sólo con las que cumplen las condiciones de las propiedades que nos interesan (venta, CABA, dólares, etc).

Separamos las descripciones en test y train

In [10]:
descripciones_train = descripcion_propiedades_ds[descripcion_propiedades_ds['id'].isin(ds_properati_train["id"])]
descripciones_test = descripcion_propiedades_ds[descripcion_propiedades_ds['id'].isin(ds_properati_test["id"])]

In [11]:
#juntamos todas las descripciones
frames = [descripciones_test, descripciones_train]
ds_descripciones = pd.concat(frames)
ds_descripciones.reset_index(drop=True, inplace=True)
ds_descripciones

Unnamed: 0,id,property_description
0,uH5H+RfQM87Qtrb13+T4hA==,"Venta PH 4 ambientes Paternal<br><br>Cálido, ..."
1,3pM/roNdUDuYB1d+EgIPyg==,Hermoso Monoambiente amplio: 48m2 (46 cubierto...
2,TFL4KKRhKUuOS9QiO4VM+g==,EXCELENTE MONOAMBIENTE <br>- MUY LUMINOSO - GR...
3,vPqbNhqDdABxvRf4mpaxow==,Monoambiente en venta super luminoso en 1 er p...
4,jMccznz3OHj2IMAxxEPCBg==,Luminoso departamento interno de dos ambientes...
...,...,...
49580,Mb3HZJicguJBZKfIbTtyug==,Corredor Responsable: Jorge Salafia - CUCICBA ...
49581,eFo0Jti9Eh4xZ31e+mIp5A==,Departamento en VENTA 2 Amb. c/Patio<br><br>Se...
49582,b3ZWAXpydmLTSikv5Co8vQ==,A menos de 200 mts de Av. Jonte<br><br>PH 3 AM...
49583,TOFXFoob32z5R9t1IH5/eQ==,Hermosa Casa en Villa del Parque de mas de 500...


In [12]:
#exportamos a un txt
np.savetxt(r'descripcionestp1.txt', ds_descripciones.property_description, fmt='%s')
#lo abrimos
descripciones_txt = open("descripcionestp1.txt", "r")

In [13]:
descripciones_train

Unnamed: 0,id,property_description
0,BZCeiGkJr1WBUi6pKJQwJQ==,Corredor Responsable: MARIA ALEJANDRA GENOVEVA...
2,TUL813tXchVBlHUsfaA6DA==,Excelente PH en Núñez 4 amb!!!! Oportunidad !!...
3,gn55JPmcjftBV/at1a7fPg==,"UNICO PH DE 4 DORMITORIOS EN IMPECABLE ESTADO,..."
10,+9uGr8tPEUkKnpjOef+gUw==,SE VENDE EXCELENTE PH de 2 CÓMODOS AMBIENTES M...
12,tto06YVR54II+aQABaJ6ug==,PH de 2 ambientes en Mataderos. Desarrollado e...
...,...,...
460049,Mb3HZJicguJBZKfIbTtyug==,Corredor Responsable: Jorge Salafia - CUCICBA ...
460051,eFo0Jti9Eh4xZ31e+mIp5A==,Departamento en VENTA 2 Amb. c/Patio<br><br>Se...
460052,b3ZWAXpydmLTSikv5Co8vQ==,A menos de 200 mts de Av. Jonte<br><br>PH 3 AM...
460055,TOFXFoob32z5R9t1IH5/eQ==,Hermosa Casa en Villa del Parque de mas de 500...


In [14]:
descripciones_test

Unnamed: 0,id,property_description
11,uH5H+RfQM87Qtrb13+T4hA==,"Venta PH 4 ambientes Paternal<br><br>Cálido, ..."
339,3pM/roNdUDuYB1d+EgIPyg==,Hermoso Monoambiente amplio: 48m2 (46 cubierto...
341,TFL4KKRhKUuOS9QiO4VM+g==,EXCELENTE MONOAMBIENTE <br>- MUY LUMINOSO - GR...
348,vPqbNhqDdABxvRf4mpaxow==,Monoambiente en venta super luminoso en 1 er p...
380,jMccznz3OHj2IMAxxEPCBg==,Luminoso departamento interno de dos ambientes...
...,...,...
459873,lmQCwvl2evBh5qnlqpVRKg==,VENTA PH 3 AMBIENTES CON BALCÓN CORRIDO EN VIL...
460047,JhkKNOeIIUm5iD0v7ilDDw==,Corredor Responsable: Ariel Champanier / Andre...
460050,PspUXP71+JWo7BtLaGP/oQ==,Se trata de un PH de 4 ambientes con patio y g...
460056,qJL7q4skB3DuPwnj0Pg0Gw==,VENTA DE PH DE DOS AMBIENTES EN PARQUE AVELLAN...


In [15]:
ds_properati_test.shape

(9866, 14)

In [16]:
ds_properati_train.shape

(39719, 14)

Vemos que todas las propiedades encontraron match con su descripcion.

In [17]:
def match_descripcion(ds_properati, rslt):    
    for index, row in rslt.iterrows():
        id_ = row["id"]
        descripcion = row.property_description
        registro = ds_properati.loc[ds_properati["id"] == id_]
        ds_properati.at[registro.index,'descripcion'] = descripcion

In [18]:
match_descripcion(ds_properati_test, descripciones_test)
match_descripcion(ds_properati_train, descripciones_train)

In [19]:
ds_properati_train.head()

Unnamed: 0,id,created_on,latitud,longitud,provincia,barrio,operation,property_type,property_rooms,property_bedrooms,property_surface_total,property_surface_covered,property_price,property_currency,descripcion
0,Tl/0P3OQvAJx+s3S6k1YTQ==,2021-03-10,-34.611523,-58.410394,Capital Federal,BALVANERA,Venta,Departamento,1.0,1.0,49.0,45.0,79000.0,USD,EN CONSTRUCCION a entregar en Septiembre 202...
1,OwVESiGxXI0GQgEX5TuguA==,2021-04-16,-34.621782,-58.424452,Capital Federal,ALMAGRO,Venta,Departamento,1.0,1.0,44.0,40.0,99000.0,USD,Corredor Responsable: Emilia Silvia Pepe - CUC...
2,LikTulyE2kKBjdKCrPTvOg==,2021-08-28,-34.592425,-58.515042,Capital Federal,VILLA DEVOTO,Venta,PH,3.0,2.0,76.0,66.0,160000.0,USD,Corredor Responsable: Mario Gabriel Gerez - CM...
3,yRW3du6JKpSpTVstJJC6Yg==,2021-11-29,-34.607836,-58.446965,Capital Federal,CABALLITO,Venta,Departamento,2.0,1.0,56.0,50.0,153000.0,USD,Departamento en duplex de 56 m2. Cochera fija....
4,nd95bu4KbYrpHdurPqv3/A==,2021-12-17,-34.561456,-58.467606,Capital Federal,BELGRANO,Venta,Departamento,2.0,1.0,55.0,45.0,159000.0,USD,Estratégicamente ubicado en la uni...


In [20]:
ds_properati_test.head()

Unnamed: 0,id,created_on,latitud,longitud,provincia,barrio,operation,property_type,property_rooms,property_bedrooms,property_surface_total,property_surface_covered,property_price,property_currency,descripcion
0,Dabq6WG4OfnpGJafX4AH4w==,2021-11-09,-34.552834,-58.491372,Capital Federal,SAAVEDRA,Venta,PH,5.0,3.0,158.0,115.0,220000.0,USD,"Se vende en el tradicional barrio de ""SAAVEDRA..."
1,+b4ao+uuJ47NJGpJMuLP2w==,2021-03-23,-34.580101,-58.412473,Capital Federal,PALERMO,Venta,PH,2.0,1.0,35.0,32.0,90000.0,USD,Excelente PH en la mejor zona de Palermo.<br><...
2,sjZQWQmA3Jgw7HtWWU0bpw==,2021-10-05,-34.59851,-58.411857,Capital Federal,ABASTO,Venta,Departamento,2.0,1.0,43.0,41.0,85000.0,USD,Corredor Responsable: JUAN FRANCISCO CARATTINO...
3,/uazrulgE/zCLdo6x1Xvhw==,2021-05-15,-34.567515,-58.458584,Capital Federal,BELGRANO,Venta,Departamento,2.0,1.0,111.325111,44.0,144000.0,USD,VENTA DEPARTAMENTO<br><br>Impecable departamen...
4,wirKqwH+3UYdAFVO5NVp4A==,2021-09-02,-34.588866,-58.416343,Capital Federal,PALERMO,Venta,Departamento,2.0,1.0,39.0,36.0,105000.0,USD,"Departamento de 2 ambientes al frente, apto p..."


## Búsqueda de aspectos de propiedades: El método de Bing Liu y Minqing Hu

Este método realiza la detección de aspectos basándose en frecuencia y reglas.  Por frecuencia entendemos a aquellas palabras/frases (que no sean stopwords) que se repiten reiteradamente, y por reglas, por ejemplo, "ocurre después de una palabra que indica sentimientos".

Como en las descripciones hay una gran repetición de artículos importamos la herramienta para el análisis de lenguaje natural y descargamos la biblioteca con stopwords, que serán las palabras que queremos que se ignoren al procesar las descripciones. 

En primer lugar analizaremos las descripciones de cada propiedad seleccionando las palabras con mayor frecuencia.

In [21]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
stopwordsSp = set(stopwords.words('spanish'))

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [22]:
stopwordsSp.add("br")

Verificamos que efectivamente se haya agregado 'br' al conjunto.

In [23]:
stopwordsSp

{'a',
 'al',
 'algo',
 'algunas',
 'algunos',
 'ante',
 'antes',
 'br',
 'como',
 'con',
 'contra',
 'cual',
 'cuando',
 'de',
 'del',
 'desde',
 'donde',
 'durante',
 'e',
 'el',
 'ella',
 'ellas',
 'ellos',
 'en',
 'entre',
 'era',
 'erais',
 'eran',
 'eras',
 'eres',
 'es',
 'esa',
 'esas',
 'ese',
 'eso',
 'esos',
 'esta',
 'estaba',
 'estabais',
 'estaban',
 'estabas',
 'estad',
 'estada',
 'estadas',
 'estado',
 'estados',
 'estamos',
 'estando',
 'estar',
 'estaremos',
 'estará',
 'estarán',
 'estarás',
 'estaré',
 'estaréis',
 'estaría',
 'estaríais',
 'estaríamos',
 'estarían',
 'estarías',
 'estas',
 'este',
 'estemos',
 'esto',
 'estos',
 'estoy',
 'estuve',
 'estuviera',
 'estuvierais',
 'estuvieran',
 'estuvieras',
 'estuvieron',
 'estuviese',
 'estuvieseis',
 'estuviesen',
 'estuvieses',
 'estuvimos',
 'estuviste',
 'estuvisteis',
 'estuviéramos',
 'estuviésemos',
 'estuvo',
 'está',
 'estábamos',
 'estáis',
 'están',
 'estás',
 'esté',
 'estéis',
 'estén',
 'estés',
 'fu

Construimos entonces un vocabulario, es decir un conjunto de palabras en donde cada palabra aparece una sola vez.

Importamos y construimos el CountVectorizer para las descripciones, seteamos 30 palabras máximo ya que sino el programa demora demasiado y como stopwords ponemos el conjunto ya seteado anteriormente.

Mostramos las palabras más frecuentes con su frecuencia por descripción.

In [24]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(max_features=30, stop_words=stopwordsSp)
X = vectorizer.fit_transform(descripciones_txt)
palabras_mas_frecuentes = pd.DataFrame(X.toarray(), columns = vectorizer.get_feature_names_out())
palabras_mas_frecuentes

Unnamed: 0,30,ambientes,amplio,av,balcón,baño,casa,cocina,comedor,completo,...,living,m2,medidas,piso,pisos,placard,propiedad,responsable,terraza,valor
0,0,2,1,0,0,1,0,1,1,0,...,2,2,1,0,1,0,2,0,2,0
1,0,0,2,1,1,1,0,1,1,1,...,1,0,1,1,1,0,1,0,0,0
2,0,0,1,1,0,2,0,2,0,1,...,0,0,0,2,0,0,0,0,0,0
3,0,0,0,1,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,1
4,0,1,0,1,0,1,0,1,1,1,...,1,0,1,0,0,1,1,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
75433,1,0,0,0,1,1,1,1,0,1,...,0,0,0,0,0,1,1,1,0,1
75434,0,0,0,2,0,1,0,1,0,1,...,1,0,1,0,0,0,2,0,0,1
75435,0,1,0,1,1,3,0,3,3,1,...,2,0,2,1,0,0,1,0,2,1
75436,0,0,0,0,0,3,2,1,1,1,...,1,0,0,1,1,0,0,0,2,0


Ordenamos de mayor a menor frecuencia

In [25]:
columnas = palabras_mas_frecuentes.columns
frec = {}
for col in columnas:
    frec[col] = palabras_mas_frecuentes[col].sum()

sorted_words = sorted(frec, reverse=True)
sorted_words

['valor',
 'terraza',
 'responsable',
 'propiedad',
 'placard',
 'pisos',
 'piso',
 'medidas',
 'm2',
 'living',
 'inmueble',
 'frente',
 'expensas',
 'excelente',
 'edificio',
 'dormitorio',
 'departamento',
 'cuenta',
 'cuadras',
 'corredor',
 'completo',
 'comedor',
 'cocina',
 'casa',
 'baño',
 'balcón',
 'av',
 'amplio',
 'ambientes',
 '30']

Podemos ver que entre las palabras más frecuentes que no hayamos tenido en cuenta todavía y que sean interesantes, se encuentran: pisos, expensas, balcón, frente, avenida (av). Estos son los aspectos que vamos a agregar como nuevas columnas al dataset. Para eso debemos analizar las descripciones para ver qué valores toman esos aspectos.

Como paso siguiente vamos a separar las descripciones en oraciones y quedarnos con aquellas que contengan los aspectos de interés.

In [26]:
#guardamos todas las descripciones en un vector
texto = []
with open('descripcionestp1.txt') as descripciones_txt:
    for line in descripciones_txt:
        texto.append(line)  # The comma to suppress the extra new line char
texto

['Venta PH 4 ambientes Paternal<br><br>Cálido,  divino y amplio PH 4 ambientes en Paternal, en cuadra agradable y silenciosa!<br><br>PH ampliado.  El mismo cuenta con una superficie cubierta aproximada de 89 m2  y una terraza de 38 m2. <br>Pisos de pinotea y flotantes en excelente estado!<br><br>Se encuentra ubicado al fondo de lote de PH de dos unidades.<br>Se ingresa a la propiedad por pasillo en Planta Baja. Nos encontramos con un patio interno, hermoso living, living comedor, cocina independiente  y un baño.<br>Luego por escaleras se presentan dos dormitorios y terraza acondicionada  para su uso.<br>Sin Expensas!<br><br>La propiedad se encuentra lista para mudarse!<br>Aguardamos tu consulta para poder visitarla!! <br><br>Transportes Cercanos<br>Colectivos: 24, 57, 63, 105, 109, 113, 133, 135, 146<br><br>AVISO LEGAL: Las descripciones arquitectónicas y funcionales, valores de expensas, impuestos y servicios, fotos y medidas de este inmueble son aproximados. Los datos fueron proporci

In [27]:
def split_string(string, delimiter):
    new_string = ""
    for i in range(len(string)):
        if string[i] == delimiter:
            new_string += string[i]
            new_string += "\n"
        else:            
            new_string += string[i] 
    return new_string   

In [28]:
#separamos las oraciones
delimiter = "."
descripciones = []
for i in texto:
    descripciones.append(split_string(i, delimiter))
descripciones

['Venta PH 4 ambientes Paternal<br><br>Cálido,  divino y amplio PH 4 ambientes en Paternal, en cuadra agradable y silenciosa!<br><br>PH ampliado.\n  El mismo cuenta con una superficie cubierta aproximada de 89 m2  y una terraza de 38 m2.\n <br>Pisos de pinotea y flotantes en excelente estado!<br><br>Se encuentra ubicado al fondo de lote de PH de dos unidades.\n<br>Se ingresa a la propiedad por pasillo en Planta Baja.\n Nos encontramos con un patio interno, hermoso living, living comedor, cocina independiente  y un baño.\n<br>Luego por escaleras se presentan dos dormitorios y terraza acondicionada  para su uso.\n<br>Sin Expensas!<br><br>La propiedad se encuentra lista para mudarse!<br>Aguardamos tu consulta para poder visitarla!! <br><br>Transportes Cercanos<br>Colectivos: 24, 57, 63, 105, 109, 113, 133, 135, 146<br><br>AVISO LEGAL: Las descripciones arquitectónicas y funcionales, valores de expensas, impuestos y servicios, fotos y medidas de este inmueble son aproximados.\n Los datos f

Ahora sí, exportamos a modo de documentación un txt con todas las oraciones que contienen las descripciones a ser utilizadas.

In [29]:
with open(r'oraciones_de_descripciones.txt', 'w') as fp:
    for item in descripciones:
        # write each item on a new line
        fp.write("%s" % item)

In [30]:
#en una lista guardamos cada oración
oraciones = []
with open(r'oraciones_de_descripciones.txt', 'r') as fp:
    for line in fp:
        oraciones.append(line)
oraciones

['Venta PH 4 ambientes Paternal<br><br>Cálido,  divino y amplio PH 4 ambientes en Paternal, en cuadra agradable y silenciosa!<br><br>PH ampliado.\n',
 '  El mismo cuenta con una superficie cubierta aproximada de 89 m2  y una terraza de 38 m2.\n',
 ' <br>Pisos de pinotea y flotantes en excelente estado!<br><br>Se encuentra ubicado al fondo de lote de PH de dos unidades.\n',
 '<br>Se ingresa a la propiedad por pasillo en Planta Baja.\n',
 ' Nos encontramos con un patio interno, hermoso living, living comedor, cocina independiente  y un baño.\n',
 '<br>Luego por escaleras se presentan dos dormitorios y terraza acondicionada  para su uso.\n',
 '<br>Sin Expensas!<br><br>La propiedad se encuentra lista para mudarse!<br>Aguardamos tu consulta para poder visitarla!! <br><br>Transportes Cercanos<br>Colectivos: 24, 57, 63, 105, 109, 113, 133, 135, 146<br><br>AVISO LEGAL: Las descripciones arquitectónicas y funcionales, valores de expensas, impuestos y servicios, fotos y medidas de este inmueble 

Vamos a quedarnos con las oraciones que tengan alguno de los aspectos antes seleccionados.


In [31]:
descripciones_aspectos_red = []
for i in oraciones:
    if('av'in i or 'frente'in i or 'balcón'in i or 'pisos'in i or 'expensas'in i):
        descripciones_aspectos_red.append(i)
print(len(descripciones_aspectos_red))
descripciones_aspectos_red

116488


['<br>Sin Expensas!<br><br>La propiedad se encuentra lista para mudarse!<br>Aguardamos tu consulta para poder visitarla!! <br><br>Transportes Cercanos<br>Colectivos: 24, 57, 63, 105, 109, 113, 133, 135, 146<br><br>AVISO LEGAL: Las descripciones arquitectónicas y funcionales, valores de expensas, impuestos y servicios, fotos y medidas de este inmueble son aproximados.\n',
 ' Los datos fueron proporcionados por el propietario y pueden no estar actualizados a la hora de la visualización de este aviso por lo cual pueden arrojar inexactitudes y discordancias con las que surgen de los las facturas, títulos y planos legales del inmueble.\n',
 '<br>Lavaderito independiente compartimentado.\n',
 '<br>Edificio de 5 pisos, con 8 unidades por piso y 2 ascensores.\n',
 ' Precio modificable sin previo aviso.\n',
 ' Último valor informado expensas Marzo $ 1600.\n',
 ' Living comedor y amplia cocina con lavadero incorporado.\n',
 '<br><br>Comercializa Pessah Propiedades CUCICBA 5678/CMCPSI 6686<br><br

Buscamos los aspectos de las palabras mas frecuentes, quedándonos así con las palabras anterior y posterior inmediatas a la aparición de la palabra con expresiones regulares (regex).

In [32]:
import re

Como regex solo funciona con string debemos convertir la lista de aspectos

In [33]:
def lista_a_string(string):

    str1 = ""
 
    for element in string:
        str1 += element
 
    return str1

Verificamos que efectivamente se haya convertido

In [34]:
string_de_aspectos = lista_a_string(descripciones_aspectos_red)
type(string_de_aspectos)

str

Usamos una búsqueda con regex que nos seleccione la palabra anterior y la posterior a la palabra de nuestro interés.

In [35]:
def busqueda_de_aspectos(string, palabra, pattern):

    aspecto_palabra = ""   

    aspecto_palabra = re.findall(pattern, string_de_aspectos, re.IGNORECASE)

    return aspecto_palabra

Buscamos los aspectos posibles de las palabras mas frecuentes ya mencionadas que podrian ser candidatas a nuevas columnas

In [36]:
pattern_balcón = r"(\w+)\s(balcón)\s(\w+)"
balcon = busqueda_de_aspectos(descripciones_aspectos_red, 'balcón', pattern_balcón)
balcon

[('Con', 'balcón', 'al'),
 ('con', 'balcón', 'francés'),
 ('a', 'balcón', 'al'),
 ('con', 'balcón', 'francés'),
 ('un', 'balcón', 'de'),
 ('o', 'balcón', 'terraza'),
 ('gran', 'balcón', 'corrido'),
 ('con', 'balcón', 'corrido'),
 ('y', 'balcón', 'Corredor'),
 ('con', 'balcón', 'francés'),
 ('con', 'balcón', 'francés'),
 ('con', 'balcón', 'corrido'),
 ('con', 'balcón', 'corrido'),
 ('a', 'balcón', 'con'),
 ('con', 'balcón', 'al'),
 ('tienen', 'balcón', 'propio'),
 ('mas', 'balcón', 'de'),
 ('mas', 'balcón', 'de'),
 ('amplio', 'balcón', 'super'),
 ('amplio', 'balcón', 'corrido'),
 ('pequeño', 'balcón', 'con'),
 ('con', 'balcón', 'al'),
 ('y', 'balcón', 'al'),
 ('Cómodo', 'Balcón', 'al'),
 ('espacio', 'balcón', 'pequeño'),
 ('al', 'balcón', 'con'),
 ('a', 'balcón', 'al'),
 ('al', 'balcón', 'con'),
 ('un', 'balcón', 'aterrazado'),
 ('con', 'balcón', 'al'),
 ('al', 'balcón', 'a'),
 ('a', 'balcón', 'corrido'),
 ('a', 'balcón', 'aterrazado'),
 ('a', 'balcón', 'aterrazado'),
 ('al', 'balcón', 

En casos como el siguiente, notamos que si utilizamos exclusivamente la palabra anterior y posterior inmediatas la informacion quedaba incompleta por lo que decidimos agregar una segunda palabra para que esto no sucediera:

In [37]:
pattern_avenida = r"(\w+)\s(av)\s(\w+)\s(\w+)"
avenida = busqueda_de_aspectos(string_de_aspectos, 'av', pattern_avenida)
avenida

[('la', 'Av', 'Luis', 'María'),
 ('sobre', 'av', 'Córdoba', 'en'),
 ('de', 'Av', 'Santa', 'Fe'),
 ('sobre', 'Av', 'Corrientes', 'al'),
 ('de', 'Av', 'Dorrego', 'y'),
 ('LA', 'AV', 'AVELLANEDAESTACION', 'DE'),
 ('de', 'Av', 'Santa', 'Fé'),
 ('de', 'Av', 'Juan', 'B'),
 ('la', 'Av', 'Juan', 'B'),
 ('la', 'Av', 'Gaona', 'y'),
 ('en', 'Av', 'Balbín', 'al'),
 ('de', 'Av', 'Crisólogo', 'Larralde'),
 ('a', 'Av', 'Rivadavia', 'y'),
 ('en', 'Av', 'Córdoba', 'yJorge'),
 ('de', 'Av', 'Alvarez', 'Thomas'),
 ('la', 'Av', 'Rivadavia', 'y'),
 ('de', 'Av', 'Rivadavia', 'y'),
 ('la', 'Av', 'Scalabrini', 'Ortiz'),
 ('de', 'Av', 'Diaz', 'Velez'),
 ('de', 'Av', 'Dorrego', 'y'),
 ('de', 'Av', 'Santa', 'Fe'),
 ('la', 'Av', '9', 'de'),
 ('calle', 'Av', 'Diaz', 'Velez'),
 ('sobre', 'Av', 'Cabildo', 'esq'),
 ('de', 'Av', 'Gral', 'Paz'),
 ('a', 'Av', 'Belgrano', 'y'),
 ('de', 'Av', 'Constituyentes', 'y'),
 ('la', 'Av', 'Saenz', 'con'),
 ('la', 'Av', 'Almancio', 'Alcorta'),
 ('la', 'av', 'Perito', 'MorenoEn'),
 (

Podemos ver que todas las descripciones que contienen el aspecto de "avenida" es porque se encuentran sobre una o estan a unas cuadras "de" ellas. Identificamos nombres de avenidas que salieron cortadas luego de aplicarles la regex como Juan B Justo y 9 de Julio.

In [38]:
pattern_frente = r"(\w+)\s(frente)\s(\w+)\s(\w+)"
frente = busqueda_de_aspectos(string_de_aspectos, 'frente', pattern_frente)
frente

[('Al', 'Frente', 'con', 'Balcón'),
 ('al', 'frente', 'de', '50'),
 ('al', 'frente', 'sobre', 'la'),
 ('con', 'frente', 'de', 'placardsPisos'),
 ('al', 'frente', 'con', 'balcón'),
 ('Al', 'frente', 'con', 'balcon'),
 ('al', 'frente', 'con', 'balcon'),
 ('con', 'frente', 'vidriado', 'y'),
 ('Al', 'frente', 'con', 'entrada'),
 ('al', 'frente', 'a', 'la'),
 ('al', 'frente', 'con', 'cerramiento'),
 ('al', 'frente', 'con', 'baño'),
 ('de', 'frente', 'por', '16'),
 ('el', 'frente', 'de', 'un'),
 ('contra', 'frente', 'posee', 'un'),
 ('al', 'frente', 'con', 'doble'),
 ('al', 'frente', 'con', 'balcn'),
 ('El', 'frente', 'se', 'conecta'),
 ('al', 'frente', 'en', 'planta'),
 ('al', 'frente', 'y', 'con'),
 ('al', 'frente', 'a', 'la'),
 ('al', 'frente', 'con', 'luz'),
 ('al', 'frente', 'con', 'acceso'),
 ('contra', 'frente', 'con', 'parrilla'),
 ('con', 'frente', 'a', 'Av'),
 ('con', 'frente', 'a', 'la'),
 ('con', 'frente', 'de', 'placardAl'),
 ('al', 'frente', 'y', 'al'),
 ('conservaran', 'frente

In [39]:
pattern_pisos = r"(\w+)\s(pisos)\s(\w+)\s(\w+)"
pisos = busqueda_de_aspectos(string_de_aspectos, 'pisos', pattern_pisos)
pisos

[('9', 'pisos', 'y', '4'),
 ('con', 'pisos', 'de', 'parquet'),
 ('y', 'pisos', 'de', 'parquet'),
 ('19', 'pisos', 'con', 'triple'),
 ('19', 'pisos', 'con', 'triple'),
 ('2', 'pisos', 'y', 'cuenta'),
 ('con', 'pisos', 'de', 'madera'),
 ('13', 'pisos', 'de', 'diseño'),
 ('en', 'pisos', '12', 'y'),
 ('en', 'pisos', '12', 'y'),
 ('Los', 'pisos', 'son', 'originales'),
 ('tienen', 'pisos', 'de', 'porcelanato'),
 ('los', 'pisos', 'son', 'de'),
 ('con', 'pisos', 'de', 'madera'),
 ('los', 'pisos', 'y', 'revestidas'),
 ('en', 'pisos', 'como', 'en'),
 ('los', 'pisos', 'y', 'revestidas'),
 ('con', 'pisos', 'de', 'madera'),
 ('con', 'pisos', 'de', 'parquet'),
 ('impecables', 'pisos', 'de', 'parquet'),
 ('con', 'pisos', 'de', 'madera'),
 ('7', 'pisos', 'y', '4'),
 ('9', 'pisos', 'cada', 'una'),
 ('con', 'pisos', 'de', 'parquet'),
 ('con', 'pisos', 'de', 'cerámica'),
 ('con', 'pisos', 'de', 'parquet'),
 ('con', 'pisos', 'de', 'cerámica'),
 ('de', 'pisos', 'vinílicos', 'resistentes'),
 ('posee', 'piso

In [40]:
pattern_expensas = r"(\w+)\s(expensas)\s(\w+)"
expensas = busqueda_de_aspectos(string_de_aspectos, 'expensas', pattern_expensas)
expensas

[('informado', 'expensas', 'Marzo'),
 ('y', 'expensas', 'aquí'),
 ('de', 'expensas', 'mensuales'),
 ('y', 'expensas', 'aquí'),
 ('Bajas', 'expensas', 'sin'),
 ('las', 'expensas', 'aquí'),
 ('y', 'expensas', 'están'),
 ('las', 'expensas', 'mensuales'),
 ('y', 'expensas', 'consignadas'),
 ('Bajas', 'expensas', 'y'),
 ('de', 'expensas', 'y'),
 ('Bajas', 'expensas', '4000'),
 ('de', 'expensas', 'mensualesAntigüedad'),
 ('las', 'expensas', 'que'),
 ('y', 'expensas', 'consignadas'),
 ('de', 'expensas', 'mensuales'),
 ('de', 'expensas', 'mensuales'),
 ('de', 'expensas', 'mensuales'),
 ('de', 'expensas', 'mensuales'),
 ('y', 'expensas', 'aquí'),
 ('las', 'expensas', 'mensuales'),
 ('bajas', 'expensas', 'y'),
 ('y', 'expensas', 'consignadas'),
 ('y', 'expensas', 'aquí'),
 ('y', 'expensas', 'aquí'),
 ('bajas', 'expensas', 'Cuenta'),
 ('las', 'expensas', 'puede'),
 ('de', 'expensas', 'y'),
 ('en', 'expensas', 'más'),
 ('y', 'expensas', 'indicados'),
 ('de', 'expensas', 'responden'),
 ('de', 'expe

Podemos determinar los valores que tomarán los aspectos en las nuevas columnas del dataset mirando la frecuencia y la importancia de cada uno de ellos:

Ahora vamos a imputar los valores en las nuevas columnas usando cada descripción:

## XGBoost

Entrenaremos un modelo XGBoost para regresión con el nuevo dataset ampliado

En primer lugar será con los hiperparámetros encontrados en el TP1

Luego buscaremos los hiperparámetros optimizados con el nuevo dataset ampliado

XGBoost es una forma más regularizada de Gradient Boosting . XGBoost utiliza la regularización avanzada (L1 y L2), que mejora las capacidades de generalización del modelo.

Ofrece un alto rendimiento en comparación con Gradient Boosting. Su entrenamiento es muy rápido y se puede paralelizar entre clústeres.

Fue diseñado para Big Data, es decir para conjuntos de datos grandes y complejos.

XG Boost puede usarse para problemas de regresión o de clasificación. Pero en este caso lo usaremos para un problema de regresión.

1. Hacer una predicción inicial. Esta predicción puede ser cualquier valor.
2. Construir un árbol para los residuos. Este árbol es diferente a los usados por Gradient Boost. Primero se crea un nodo hoja y se ponen allí **todos** los residuos.
3. Calcular el ***Similarity Score***, para los residuos: $Similarity Score=\frac{(\sum{residuos)^2}}{\#residuos + \lambda}$
4. Tenemos que ver cuál será el siguiente nodo. Para ello vamos a calcular la **ganancia total** (Gain), según escojamos una opción u otra para partir el árbol (qué umbral tomemos). Nos quedamos con el umbral que de la mayor información ganada.
5. Repetimos el anterior hasta alcanzar la profundidad del árbol estipulada.
6. Poda:
    - Elegimos un número al azar → este número se llama gamma ( **𝜸** )
    - Calculamos la diferencia entre el **Gain** del nodo más bajo y **gamma**
    - Si la diferencia es < 0 → removemos el nodo
    - Sino, el nodo se queda y se terminó la poda
7. Volvemos a calcular el árbol (repite paso 3), solo que esta vez usamos lambda 𝛌 igual a 1 al calcular el Similarity Score y el Gain.
8. Podamos (paso quinto nuevamente).
9. Con estos nuevos residuos, construimos un nuevo árbol.
Repetimos todo, desde el paso 2.
Con el nuevo árbol, calculamos la salida de cada elemento y luego los residuos.
Construimos otro árbol.
Seguimos hasta que los residuos son prácticamente cero o bien alcanzamos el número máximo de árboles predefinido.

 Hiper-parámetros

learning_rate: tasa de aprendizaje

max_depth: máxima profundidad de cada árbol

subsample: porcentaje de muestras usadas para cada árbol (valor muy bajo, posible underfitting)

colsample_bytree: porcentaje de features usadas para cada árbol (valores muy alto, posible overfitting)

n_estimators: cantidad de árboles a construir.

objective: función de error a utilizar (algunas: reg:linear para regresión, reg:logistic, binary:logistic para clasificación)

Parámetros de regularización:

gamma: umbral para hacer split basado en la reducción de error de hacer el nuevo split.

alpha: regularización para los pesos de las hojas. Un valor más alto genera una mayor regularización.

lambda: similar alpha pero para la sintonia fina.

Los parametros se agregan al modelo para evitar el overfitting

Armamos el conjunto de train y test

In [None]:
x_train = ds_properati.drop(['property_price'], axis='columns', inplace=False)
y_train = ds_properati.property_price.copy()

x_test = ds_properati_test.drop(['property_price'], axis='columns', inplace=False)
y_test = ds_properati_test.property_price.copy()

NameError: name 'ds_properati' is not defined

Creamos el modelo

In [None]:
!pip install xgboost==1.6.2

In [None]:
ds_properati = pd.read_csv('dataset_properati_train.csv')
ds_properati_test = pd.read_csv('dataset_properati_test.csv')

x_train = ds_properati.drop(['property_price'], axis='columns', inplace=False)
y_train = ds_properati.property_price.copy()

x_test = ds_properati_test.drop(['property_price'], axis='columns', inplace=False)
y_test = ds_properati_test.property_price.copy()

X = x_train[['property_surface_total','property_surface_covered']]
X_test = x_test[['property_surface_total','property_surface_covered']]
Y = y_train.copy()
Y_test = y_test.copy()

In [None]:
X.columns

Creamos el modelo y lo entrenamos con los hiperparámetros encontrados en el tp1

In [None]:
from sklearn.preprocessing import LabelEncoder
import xgboost as xgb

xgb_model = xgb.XGBRegressor(subsample=0.6, objective='reg:tweedie',n_estimators=50, 
                                min_child_weight=5, max_depth=2, gamma=0.3,
                                eval_metric=<function sklearn.metrics._regression.mean_absolute_error(y_true, y_pred, 
                                    *, sample_weight=None, multioutput='uniform_average')>, 
                                eta= 0.3, colsample_bytree=0.6, booster='gbtree')

xgb_model.fit(X, Y)

Evaluamos sobre el conjunto de entrenamiento

In [None]:
y_pred_train=xgb_model.predict(X)

Evaluamos sobre el conjunto de test para observar su prediccion

In [None]:
y_pred_test=xgb_model.predict(X_test)

Calculamos el error para cada predicción:

In [None]:
score_train = xgb_model.score(X, Y)  
print("Score de training: ", score_train)
score_test = xgb_model.score(X_test,Y_test)
print("Score de test: ", score_test)

ypred_train = xgb_model.predict(X)
mse_train = mean_squared_error(Y, ypred_train)
print("MSE train: %.2f" % mse_train)
print("RMSE train: %.2f" % (mse_train**(1/2.0)))
ypred_test = xgb_model.predict(X_test)
mse_test = mean_squared_error(Y_test, ypred_test)
print("MSE test: %.2f" % mse_test)
print("RMSE test: %.2f" % (mse_test**(1/2.0)))

Búsqueda de hiperparámetros

Ahora optimizamos los hiperparametros a través de KFold cross validation con 5 folds con la metrica Mean Absolute Error

In [None]:
from sklearn.metrics import mean_absolute_error
params = {
    'n_estimators':[50, 20],
    'min_child_weight':[4,5], 
    'gamma':[i/10.0 for i in range(3,4)],  
    'subsample':[i/10.0 for i in range(6,8)],
    'colsample_bytree':[i/10.0 for i in range(6,8)], 
    'max_depth': [2,4,7],
    'objective': ['reg:squarederror', 'reg:tweedie'],
    'booster': ['gbtree', 'gblinear'],
    'eval_metric': [mean_absolute_error],
    'eta': [i/10.0 for i in range(3,4)],
}

reg = xgb.XGBRegressor(nthread=-1, random_state=2)

# run randomized search

random_search = RandomizedSearchCV(reg, param_distributions=params,
                                    cv=5, scoring='neg_mean_squared_error', random_state=2)

random_search.fit(X, y_train)

Obtenemos el mejor estimador (mejores parámetros)

In [None]:
display(random_search.best_params_)
xgbmodel_cv = random_search.best_estimator_

Ahora hacemos predicciones con los conjuntos y evaluamos la performance

In [None]:
y_train_pred_cv = xgbmodel_cv.predict(X)
y_test_pred_cv = xgbmodel_cv.predict(X_test)

In [None]:
# Exportamos el modelo
#xgbmodel_cv.save_model('models/xgb.json') creo q no hace falta exportarlo

Observamos las metricas con el conjunto de train y test

In [None]:
score_train = xgbmodel_cv.score(X, Y)  

print("Score de training: ", score_train)
score_test = xgbmodel_cv.score(X_test,Y_test)
print("Score de test: ", score_test)
mse_train = mean_squared_error(Y, y_train_pred_cv)
mse_test = mean_squared_error(Y_test, y_test_pred_cv)
print("MSE train: %.2f" % mse_train)

print("MSE test: %.2f" % mse_test)
print("RMSE test: %.2f" % (mse_test**(1/2.0)))
print("RMSE train: %.2f" % (mse_train**(1/2.0)))

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=8953c3ab-dbb1-46a7-ac7e-fe8a0929b2fc' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>