### Cargue de librerías

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
pd.options.display.float_format = '{:.6f}'.format

### Lectura del dataset de Properatti

In [175]:
data = pd.read_csv('properatti.csv')

In [176]:
# Tras una revisión visual de las primeras filas del dataset decidimos sacar tres columnas del dataset las cuales no tendremos en cuenta
# para futuros análisis

data.drop(columns={'Unnamed: 0','properati_url','image_thumbnail'}, inplace=True)

In [177]:
# Eliminación de registros duplicados en caso de que existan

data.drop_duplicates(inplace=True)

# Revisamos el tamaño del dataset después de eliminar los registros duplicados

data.shape

(116140, 23)

In [178]:
# Extracción de superficie total descripcion
patron="(tot[a-zA-Z\s:]*)(?P<sup>\d+)(\s?(m2|m.*))"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data["r_sup_tot"]=resultado[resultado.notnull()].apply(lambda x: x.group("sup"))

In [179]:
# Paso del valor anterior a numero
data.loc[:,'r_sup_tot']=data.r_sup_tot.replace('.','')
data.loc[:,'r_sup_tot']=data.r_sup_tot.astype(float)
data['r_sup_tot'].notnull().sum()

3557

In [180]:
# Por si el paso anterior no funciona, extraigo la siguiente superficie total de la descripcion
patron="(?P<sup2>\d+)(\s?(m2|mt)\s?)(tot[a-zA-Z\s:]*)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"r_sup_tot2"]=resultado[resultado.notnull()].apply(lambda x: x.group("sup2"))

In [181]:
# Paso el valor anterior a numero
data.loc[:,'r_sup_tot2']=data.r_sup_tot2.replace('.','')
data.loc[:,'r_sup_tot2']=data.r_sup_tot2.astype(float)
data['r_sup_tot2'].notnull().sum()

1912

In [182]:
# Extracción de superficie cubierta descripcion
patron="(cub[a-zA-Z\s:]*)(?P<cub>\d+)(\s?(m2|m.*))"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data["r_sup_cub"]=resultado[resultado.notnull()].apply(lambda x: x.group("cub"))

In [183]:
# Paso el valor anterior a numero
data.loc[:,'r_sup_cub']=data.r_sup_cub.replace('.','')
data.loc[:,'r_sup_cub']=data.r_sup_cub.astype(float)
data['r_sup_cub'].notnull().sum()

5535

In [184]:
# Por si el paso anterior no funciona, extraigo la siguiente superficie cubierta de la descripcion
patron="(?P<cub2>\d+)(\s?(m2|mt)\s?)(cub[a-zA-Z\s:]*)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"r_sup_cub2"]=resultado[resultado.notnull()].apply(lambda x: x.group("cub2"))

In [185]:
# Paso el valor anterior a numero
data.loc[:,'r_sup_cub2']=data.r_sup_cub2.replace('.','')
data.loc[:,'r_sup_cub2']=data.r_sup_cub2.astype(float)
data['r_sup_cub2'].notnull().sum()

4305

In [186]:
# Variable Antiguedad (años)
patron="(?P<año>\d+)\sa(ñ|Ã±)o.*"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"antiguedad"]=resultado[resultado.notnull()].apply(lambda x: x.group("año"))

In [187]:
# Paso el valor anterior a numero
data.loc[:,'antiguedad']=data.antiguedad.replace('.','')
data.loc[:,'antiguedad']=data.antiguedad.astype(float)
data['antiguedad'].notnull().sum()

5287

In [188]:
# Variable dummie APTO CREDITO
patron="([apto]*)(?P<credito>cr(é|e)d\w*)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"apto_cred"]=resultado[resultado.notnull()].apply(lambda x: 1 if x.group("credito") else 0)
data['apto_cred'].notnull().sum()

11991

In [189]:
#variable dummie BAJAS EXPENSAS
patron="baja(s?)\s(?P<expensas>expen\w*)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"bajas_exp"]=resultado[resultado.notnull()].apply(lambda x: 1 if x.group("expensas") else 0)
data['bajas_exp'].notnull().sum()

2376

In [190]:
# Extracción de VALOR EXPENSAS
patron="(exp[a-z\s:]*)(\$?)(?P<expensas2>\d+(\.\d+))"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"expensas"]=resultado[resultado.notnull()].apply(lambda x: x.group("expensas2"))
data['expensas'].notnull().sum()

1288

In [191]:
# Variable dummie POR ESCALERA
patron="(?P<escalera>por\sescalera)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"por_escalera"]=resultado[resultado.notnull()].apply(lambda x: 1 if x.group("escalera") else 0)
data['por_escalera'].notnull().sum()

3386

In [192]:
# Variable dummie CON COCHERA
patron="(?P<cochera>con\scochera)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"con_cochera"]=resultado[resultado.notnull()].apply(lambda x: 1 if x.group("cochera") else 0)
data['con_cochera'].notnull().sum()

5505

In [193]:
# Variable dummie BAULERA
patron="(?P<baulera>[^sin]\sbaulera)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"con_baulera"]=resultado[resultado.notnull()].apply(lambda x: 1 if x.group("baulera") else 0)
data['con_baulera'].notnull().sum()

8456

In [194]:
# Variable dummie PATIO
patron="(?P<patio>[^sin]\spatio)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"con_patio"]=resultado[resultado.notnull()].apply(lambda x: 1 if x.group("patio") else 0)
data['con_patio'].notnull().sum()

16931

In [195]:
# Variable dummie BALCON
patron="(?P<balcon>[^sin]\sbalc(o|ó)n)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"con_balcon"]=resultado[resultado.notnull()].apply(lambda x: 1 if x.group("balcon") else 0)
data['con_balcon'].notnull().sum()

26261

In [196]:
# Variable dummie TERRAZA
patron="(?P<terraza>[^sin]\sterra(z|s)a)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"con_terraza"]=resultado[resultado.notnull()].apply(lambda x: 1 if x.group("terraza") else 0)
data['con_terraza'].notnull().sum()

15991

In [197]:
# Variable dummie PILETA
patron="(?P<pileta>[^sin]\s(pileta|piscina))"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"con_pileta"]=resultado[resultado.notnull()].apply(lambda x: 1 if x.group("pileta") else 0)
data['con_pileta'].notnull().sum()

23678

In [198]:
# Variable dummie SOLARIUM
patron="(?P<solarium>[^sin]\ssolarium)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"con_solarium"]=resultado[resultado.notnull()].apply(lambda x: 1 if x.group("solarium") else 0)
data['con_solarium'].notnull().sum()

7018

In [199]:
# Variable dummie GIMNASIO
patron="(?P<gim>[^sin]\sg(i|y)m\w*)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"con_gimnasio"]=resultado[resultado.notnull()].apply(lambda x: 1 if x.group("gim") else 0)
data['con_gimnasio'].notnull().sum()

7569

In [200]:
# Variable dummie AMENITIES
patron="(?P<amenities>[^sin]\sa(mm|m)eni(t|tt)(y|i)\w*)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"con_amenities"]=resultado[resultado.notnull()].apply(lambda x: 1 if x.group("amenities") else 0)
data['con_amenities'].notnull().sum()

4897

In [201]:
# Variable dummie JARDIN
patron="(?P<jardin>[^sin]\sjard\w*)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"con_jardin"]=resultado[resultado.notnull()].apply(lambda x:1 if x.group("jardin") else 0)
data['con_jardin'].notnull().sum()

14889

In [202]:
# Variable dummie LOSA RADIANTE
patron="(?P<losa_rad>lo(s|z)a\srad\w*)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"con_losa"]=resultado[resultado.notnull()].apply(lambda x: 1 if x.group("losa_rad") else 0)
data['con_losa'].notnull().sum()

4738

In [203]:
# Variable dummie LAUNDRY o LAVADERO
patron="(?P<laundry>[^sin]\s(laund|lavad)\w*)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"con_lavadero"]=resultado[resultado.notnull()].apply(lambda x: 1 if x.group("laundry") else 0)
data['con_lavadero'].notnull().sum()

34538

In [204]:
# Variable dummie SEGURIDAD
patron="(?P<seguridad>segurid\w*)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"con_seguridad"]=resultado[resultado.notnull()].apply(lambda x:1 if x.group("seguridad") else 0)
data['con_seguridad'].notnull().sum()

10750

In [205]:
# Variable dummie SUM
patron="(?P<sum>sum)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"con_sum"]=resultado[resultado.notnull()].apply(lambda x: 1 if  x.group("sum") else 0)
data['con_sum'].notnull().sum()

14246

In [206]:
# Variable dummie DE POZO
patron="(?P<pozo>de pozo)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"de_pozo"]=resultado[resultado.notnull()].apply(lambda x:1 if x.group("pozo") else 0)
data['de_pozo'].notnull().sum()

1300

In [207]:
# Extracción de PISO, tanto numerico como texto
patron="(?P<piso>\d{1,2}(\°|er|do|to|mo|vo|no|ro|ra|da|ta|ma|va|na|)\s?(piso|planta)|planta baja|primer piso|segundo piso|tercer piso|cuarto piso|quinto piso|sexto piso|s[ée]ptimo piso|octavo piso|noveno piso|d(é|e)cimo piso|[úu]ltim[oa] (piso|planta))"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"piso"]=resultado[resultado.notnull()].apply(lambda x: x.group("piso"))
data['piso'].notnull().sum()

35427

In [208]:
# Piso en número
patron="(?P<piso2>\d+)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.piso.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"piso_num"]=resultado[resultado.notnull()].apply(lambda x: x.group("piso2"))
data['piso_num'].notnull().sum()

14072

In [209]:
# Piso en texto de la primera vez que extraje piso en texto
patron="(?P<piso3>[A-zÀ-ú\s]+)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.piso.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"piso_texto"]=resultado[resultado.notnull()].apply(lambda x: x.group("piso3"))
data['piso_texto'].notnull().sum()

35427

In [210]:
# Reemplazar valor de piso en texto por numero
data.loc[:,'piso_texto']=data.piso.map({'PLANTA BAJA':0,'décimo piso':10,'séptimo piso':7,'último piso':99,
        'd': None, 'ER PISO':None, 'primer piso':1, 'planta baja':0,'ÚLTIMO PISO':99,'Último piso':99,
       'Planta Baja':0, ' piso': None, ' planta':0, 'segundo piso':2, 'cuarto piso':4,'Séptimo piso':7,
       's':None, 'Segundo piso':2, 'LTIMO PISO':99, 'Planta baja':0, 'do piso':None,'última planta':99,
       ' Planta':0, ' PLANTA':0, 'SEGUNDO PISO':2, 'er piso':None, 'Primer piso':1,'Última planta':99,
       ' PISO':None, 'Tercer piso':3, 'to piso':None, 'sexto piso':6, ' Piso':None, 'PLANTA':0,
       'ltimo piso':99, 'Piso':None, 'PRIMER PISO':1, 'RA PLANTA':1, 'decimo piso':10,'SÉPTIMO PISO':7,
       'ultimo piso':99, 'tercer piso':3, 'Primer Piso':1, 'Planta':0, 'er Piso':None,'DÉCIMO PISO':10,
       'Ultimo piso':99, 'planta':None, 'TERCER PISO':3, 'Quinto piso':5, 'MO PISO':None,'ÚLTIMO piso':99,
       'DO PISO':None, 'quinto piso':5, 'Noveno piso':9, 'SEXTO PISO':6, 'vo piso':None,
       'Octavo Piso':8, 'Segundo Piso':2, 'piso':None, 'ra planta':None,
       'ultima planta':99, 'CUARTO PISO':4, 'er planta':None, 'Cuarto piso':4,
       'planta Baja':0, 'da planta':None, 'TO PISO':None, 'do Piso':None, 'ULTIMA PLANTA':99,
       'ULTIMO PISO':99, 'NO PISO':None, 'do PISO':None, 'to PISO':None, 'Sexto piso':6,
       'mo piso':None, 'SEPTIMO PISO':7, 'Ultima planta':99, 'no piso':None, 'da PLANTA':None,
       'Octavo piso':8, 'TO piso':None, 'PISO':None, 'er Planta':None, 'QUINTO PISO':5,
       'noveno piso':9, 'er PISO':None, 'D':None, 'Tercer Piso':3, 'ER PLANTA':None,
       'Ultimo Piso':99, 'Cuarto Piso':4, 'S':None, 'ultimo Piso':99, 'primer Piso':1,
       'OCTAVO PISO':8, 'da Planta':None, 'to Piso':None, 'Planta BAJA':0,
       'PLanta Baja':0, 'DO piso':None, 'ltimo Piso':99, 'octavo piso':8,
       'Sexto Piso':6, 'DA PLANTA':None, 'Quinto Piso':5, 'ltima planta':99,
       'septimo piso':7, 'ra Planta':None, 'vo Piso':None, 'er PLANTA':None,
       'Septimo piso':7, 'no PISO':None, 'mo Piso':None, 'TO Piso':None, 'PLAnta Baja':0,
       'PLANTA BAjA':0, 'tercer Piso':3, 'mo PISO':None, 'VO PISO':None, 'NOVENO PISO':9,
       'Primer PISO':1, '\xa0Piso':None, 'ER piso':None, 'PRIMER Piso':1, 'no Piso':None,
       'To piso':None, 'To Piso':None, 'TERCER piso':3, 'mo PIso':None, 'pLanta Baja':0,
       'Do Piso':None, 'Septimo Piso':7, 'do Planta':None, 'vo PISO':None, 'nOVENO PISO':9,
       'DECIMO PISO':10, 'planta BAJA':0, 'LTIMO piso':99, '\xa0Planta':None,
       'PLanta baja':0, 'Decimo piso':10})

In [211]:
# Dormitorio|Habitacion|Cuarto|Pieza|Ambiente, en texto
patron="(?P<habitacion>(\d{1,2}|un(o|a)|dos|tres|cuatro|cinco|seis|siete|ocho|nueve|diez)?\s?(dorm|habitac|cuarto|pieza|monoam|amb)\w*)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"ambientes_desc"]=resultado[resultado.notnull()].apply(lambda x: x.group("habitacion"))
data['ambientes_desc'].notnull().sum()

103548

In [212]:
data['ambientes_desc'].value_counts()

2 dormitorios        6005
3 ambientes          5541
2 ambientes          5258
 dormitorio          5241
3 dormitorios        5204
                     ... 
13 Ambientes            1
3 ambientesChalet       1
dormitorioPatio         1
25 habitaciones         1
3 dormitorio2           1
Name: ambientes_desc, Length: 2116, dtype: int64

In [213]:
# Dormitorio|Habitacion|Cuarto|Pieza|Ambiente, en número
patron="(?P<habitacion2>\d+)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.ambientes_desc.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"ambientes_desc2"]=resultado[resultado.notnull()].apply(lambda x: x.group("habitacion2"))

In [214]:
data.loc[:,'ambientes_desc2']=data.ambientes_desc2.replace('.','')
data.loc[:,'ambientes_desc2']=data.ambientes_desc2.astype(float)
data['ambientes_desc2'].notnull().sum()

61985

In [215]:
# Dormitorio|Habitacion|Cuarto|Pieza|Ambiente EN TEXTO de la primera vez que extraje habitacion en texto
patron="(?P<habitacion3>[A-zÀ-ú\s]+)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.ambientes_desc.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"ambientes_desc3"]=resultado[resultado.notnull()].apply(lambda x: x.group("habitacion3"))
data.loc[:,"ambientes_desc3"]=data.ambientes_desc3.str.lower()
data.loc[:,"ambientes_desc3"]=data.ambientes_desc3.str.strip()
data['ambientes_desc3'].notnull().sum()

103548

In [216]:
# Extracción de ambientes del título
patron="(?P<ambientes>(\d{1,2}|un(o|a)|dos|tres|cuatro|cinco|seis|siete|ocho|nueve|diez)?\s?(dorm|habitac|cuarto|pieza|monoam|amb)\w*)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.title.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"ambientes_tit"]=resultado[resultado.notnull()].apply(lambda x: x.group("ambientes"))
data['ambientes_tit'].notnull().sum()

36862

In [217]:
# Ambiente extraído del título en número
patron="(?P<ambientes2>\d+)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.ambientes_tit.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"ambientes_tit2"]=resultado[resultado.notnull()].apply(lambda x: x.group("ambientes2"))

In [218]:
data.loc[:,'ambientes_tit2']=data.ambientes_tit2.replace('.','')
data.loc[:,'ambientes_tit2']=data.ambientes_tit2.astype(float)
data['ambientes_tit2'].notnull().sum()

28633

In [219]:
# AMBIENTE-TITLE  EN TEXTO extraigo ambientes de la primera extracción 
patron="(?P<ambientes3>[A-zÀ-ú\s]+)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.ambientes_tit.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"ambientes_tit3"]=resultado[resultado.notnull()].apply(lambda x: x.group("ambientes3"))
data.loc[:,"ambientes_tit3"]=data.ambientes_tit3.str.lower()
data.loc[:,"ambientes_tit3"]=data.ambientes_tit3.str.strip()
data['ambientes_tit3'].notnull().sum()

36862

In [220]:
# Reemplazo de texto de ambientes extraidos de la desc del paso anterior a numeros
data.loc[:,'ambientes_desc3']=data['ambientes_desc3'].replace(regex={r'monoam.*': '1', 'dos\s.*': '2','tres\s.*':'3','cuatro\s.*': '4',
                                                                'cinco\s.*': '5','seis\s.*': '6','siete\s.*': '7','ocho\s.*': '8',
                                                                 'una\s.*': '2'})

In [221]:
# Extracción de numeros de ambientes_tit3
data.loc[:,'ambientes_tit3']=data['ambientes_tit3'].str.extract(r'(\d+)')

In [222]:
# Cantidad de BAÑO
patron="(?P<baño>(\d{1,2}|un(o|a)|dos|tres|cuatro|cinco|seis|siete|ocho|nueve|diez)?\s?(baño)\w*)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"baños"]=resultado[resultado.notnull()].apply(lambda x: x.group("baño"))
data['baños'].notnull().sum()

76471

In [223]:
data.loc[:,"baños"]=data.baños.apply(lambda x: x.lower() if isinstance(x, str) else x)

In [224]:
data.loc[:,"baños"]=data.baños.apply(lambda x: x.strip() if isinstance(x, str) else x)

In [225]:
data.baños.replace(regex={r'^un.*':"1",r'^dos.*':"2",r'^tres.*':"3",r'^cuatro.*':"4",r'^cinco.*':"5",
                 r'^seis.*':"6",r'^siete.*':"7",r'^ocho.*':"8",
                 r'^nueve.*':"9"},inplace=True)

In [226]:
# BAÑO EN NUMERO
patron="(?P<baño2>\d+)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.baños.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"baños"]=resultado[resultado.notnull()].apply(lambda x: x.group("baño2"))

In [227]:
# Paso el valor anterior a numero
data.loc[:,'baños']=data.baños.replace('.','')
data.loc[:,'baños']=data.baños.astype(float)

In [228]:
# Acortar cantidad de baños a 10
data.loc[:,"baños"]=data["baños"].apply(lambda x: x if x<=10 else np.NaN)

In [229]:
# Cantidad de Toilette
patron="(?P<toilette>(\d{1,2}|un(o|a)|dos|tres|cuatro|cinco|seis|siete|ocho|nueve|diez)?\s?(toil)\w*)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"toilette"]=resultado[resultado.notnull()].apply(lambda x: x.group("toilette"))

In [230]:
data.loc[:,"toilette"]=data.toilette.apply(lambda x: x.lower() if isinstance(x, str) else x)

In [231]:
data.loc[:,"toilette"]=data.toilette.apply(lambda x: x.strip() if isinstance(x, str) else x)

In [232]:
data.toilette.replace(regex={r'^un.*':"1",r'^dos.*':"2",r'^tres.*':"3",r'^cuatro.*':"4",r'^cinco.*':"5",
                 r'^seis.*':"6",r'^siete.*':"7",r'^ocho.*':"8",
                 r'^nueve.*':"9"},inplace=True)

In [233]:
# Toilette en número
patron="(?P<toilette2>\d+)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.toilette.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"toilette"]=resultado[resultado.notnull()].apply(lambda x: x.group("toilette2"))

In [234]:
# Paso el valor anterior a numero
data.loc[:,'toilette']=data.toilette.replace('.','')
data.loc[:,'toilette']=data.toilette.astype(float)


In [235]:
# Acotar cantidad de toilette a 10
data.loc[:,"toilette"]=data["toilette"].apply(lambda x: x if x<=10 else np.NaN)

In [236]:
# Extracción de precio INMUEBLE del TITULO
patron="(U\$S |USD |\$ |U\$D )(?P<precios>\d+(\.\d+)(\.\d+)?)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.title.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"precio_tit"]=resultado[resultado.notnull()].apply(lambda x: x.group("precios"))

In [237]:
# Pasar el valor anterior a numero

data.loc[:,'precio_tit']=data.precio_tit.str.replace('.','')
data.loc[:,'precio_tit']=data.precio_tit.astype(float)


In [238]:
# Extracción de UNIDAD del precio INMUEBLE TITULO
patron="(?P<unidad>U\$S |USD |\$ |U\$D )(?P<precios>\d+(\.\d+)(\.\d+)?)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.title.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"unidad_tit"]=resultado[resultado.notnull()].apply(lambda x: x.group("unidad"))

In [239]:
# Uniformizar la unidad del precio del titulo
data.loc[:,'unidad_tit']=data.unidad_tit.map({'U$S ':'USD','u$s ':'USD','$ ':'ARS','U$D ':'USD','u$D ':'u$D ','U$s ':'USD','usd ':'USD'})

In [240]:
# Extracción de precio INMUEBLE de la DESC
patron="(U\$S |USD |\$ |U\$D )(?P<precios2>\d+(\.\d+)(\.\d+)?)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"precio_desc"]=resultado[resultado.notnull()].apply(lambda x: x.group("precios2"))

In [241]:
# Pasar el valor anterior a numero

data.loc[:,'precio_desc']=data.precio_desc.str.replace('.','')
data.loc[:,'precio_desc']=data.precio_desc.astype(float)

In [242]:
# Extracción de UNIDAD del precio del INMUEBLE de la DESC
patron="(?P<unidad2>U\$S |USD |\$ |U\$D )(?P<precios2>\d+(\.\d+)(\.\d+)?)"
sup_tot=re.compile(patron,flags = re.IGNORECASE)
resultado=data.description.apply(lambda x: x if x is np.NaN else sup_tot.search(x))
data.loc[:,"unidad_desc"]=resultado[resultado.notnull()].apply(lambda x: x.group("unidad2"))

In [243]:
# Uniformizar la unidad del precio de la descripcion
data.loc[:,'unidad_desc']=data.unidad_desc.map({'U$D ':'USD', 'USD ':'USD', 'U$S ':'USD', '$ ':'ARS', 'u$s ':'USD', 'U$s ':'USD', 'usd ':'USD',
                                     'u$d ':'USD','u$S ':'USD', 'Usd ':'USD', 'u$D ':'USD', 'U$d ':'USD', 'uSD ':'USD'})

In [244]:
# Reemplazar precio nulo con precio que extraje del titulo si condiciones
data.loc[:,'price'] = np.where((data['price'].isnull()) & (data['precio_tit']>1000),data['precio_tit'],data['price'])

In [245]:
# Reemplazar unidad nula con unidad que extraje del titulo si condiciones
data.loc[:,'currency'] = np.where((data['currency'].isnull()) & (data['precio_tit']>1000),data['unidad_tit'],data['currency'])

In [246]:
# Reemplazar precio nulo con precio que extraje de la descripcion si condiciones
data.loc[:,'price'] = np.where((data['price'].isnull()) & (data['precio_desc']>1000),data['precio_desc'],data['price'])

In [247]:
# Reemplazar unidad nula con unidad que extraje de la descripcion si condiciones
data.loc[:,'currency'] = np.where((data['currency'].isnull()) & (data['precio_desc']>10000),data['unidad_desc'],data['currency'])

In [248]:
# Reemplazar superficie total nula con superficie total que extraje del titulo si condiciones
data.loc[:,'surface_total_in_m2'] = np.where((data['surface_total_in_m2'].isnull())&
                                             (data['r_sup_tot'].notnull()),data['r_sup_tot'],data['surface_total_in_m2'])

In [249]:
# Reemplazar superficie total nula con superficie total 2 que extraje del titulo si condiciones
data.loc[:,'surface_total_in_m2'] = np.where((data['surface_total_in_m2'].isnull())&
                                             (data['r_sup_tot'].isnull())&
                                             (data['r_sup_tot2'].notnull()),data['r_sup_tot2'],data['surface_total_in_m2'])

In [250]:
# Pasar la superficie total a numero

data.loc[:,'surface_total_in_m2']=data.surface_total_in_m2.apply(lambda x: x.replace('.','') if isinstance(x, str) else x)
data.loc[:,'surface_total_in_m2']=data.surface_total_in_m2.astype(float)


In [251]:
# Reemplazar superficie cubierta nula con superficie cubierta que extraje del titulo si condiciones
data.loc[:,'surface_covered_in_m2'] = np.where((data['surface_covered_in_m2'].isnull())&
                                               (data['r_sup_cub'].notnull()),data['r_sup_cub'],data['surface_covered_in_m2'])

In [252]:
# Reemplazar superficie cubierta nula con superficie cubierta 2 que extraje del titulo si condiciones
data.loc[:,'surface_covered_in_m2'] = np.where((data['surface_covered_in_m2'].isnull())&
                                               (data['r_sup_cub'].isnull())&
                                               (data['r_sup_cub2'].notnull()),data['r_sup_cub2'],data['surface_total_in_m2'])

In [253]:
# Pasar la superficie cubierta a numero

data.loc[:,'surface_covered_in_m2']=data.surface_covered_in_m2.apply(lambda x: x.replace('.','') if isinstance(x, str) else x)
data.loc[:,'surface_covered_in_m2']=data.surface_covered_in_m2.astype(float)

In [254]:
# Reemplazar piso nulo con piso numero extraido
data.loc[:,'floor'] = np.where((data['floor'].isnull()) & (data['piso_num'].notnull()),data['piso_num'],data['floor'])

In [255]:
# Reemplazar piso nulo con piso texto (que antes lo pasamos a numero) extraido
data.loc[:,'floor'] = np.where((data['floor'].isnull())&
                               (data['piso_num'].isnull())&
                               (data['piso_texto'].notnull()),data['piso_texto'],data['floor'])

In [256]:
# Pasar floor a numero

data.loc[:,'floor']=data.floor.apply(lambda x: x.replace('.','') if isinstance(x, str) else x)
data.loc[:,'floor']=data.floor.astype(float)

In [257]:
# Reemplazar expensas nulo con expensas numero extraido
data.loc[:,'expenses'] = np.where((data['expenses'].isnull()) & (data['expensas'].notnull()),data['expensas'],data['expenses'])

In [258]:
# Pasar el expenses a numero

data.loc[:,'expenses']=data.expenses.apply(lambda x: x.replace('.','') if isinstance(x, str) else x)
data.loc[:,'expenses']=data.expenses.astype(float)

In [259]:
# Reemplazar numero de habitaciones nulo por extraido del titulo
data.loc[:,'rooms'] = np.where((data['rooms'].isnull()) & (data['ambientes_tit2'].notnull()),data['ambientes_tit2'],data['rooms'])

In [260]:
# Reemplazar numero de habitaciones nulo por extraido de la desc
data.loc[:,'rooms'] = np.where((data['rooms'].isnull())&
                               (data['ambientes_tit2'].isnull())&
                               (data['ambientes_desc2'].notnull()),data['ambientes_tit2'],data['rooms'])

In [261]:
# Reemplazar numero de habitaciones nulo por extraido del titulo 2
data.loc[:,'rooms'] = np.where((data['rooms'].isnull())&
                               (data['ambientes_tit2'].isnull())&
                               (data['ambientes_desc2'].isnull())&
                               (data['ambientes_tit3'].notnull()),data['ambientes_tit3'],data['rooms'])

In [262]:
# Reemplazar numero de habitaciones nulo por extraido de la desc 2
data.loc[:,'rooms'] = np.where((data['rooms'].isnull())&
                               (data['ambientes_tit2'].isnull())&
                               (data['ambientes_desc2'].isnull())&
                               (data['ambientes_tit3'].isnull())&
                               (data['ambientes_desc3'].notnull()),data['ambientes_desc3'],data['rooms'])

In [263]:
# Reemplazar valores nulos de rooms por q
data.loc[:,'rooms']=np.where((data['rooms'].isnull()),data["rooms"].fillna("99"),data['rooms'])

In [264]:
data.rooms.replace(regex={r'\w*': '99'},inplace=True)

In [265]:
data.rooms.replace({"9999":"q","9999 9999":"q"},inplace=True)

In [266]:
data.rooms.replace(regex={"q": '99'},inplace=True)

In [267]:
data.loc[:,'rooms']=np.where(data['rooms']==0,"99",data['rooms'])

In [268]:
data.rooms.unique()

array([2.0, 3.0, '99', 1.0, 4.0, 6.0, 5.0, 10.0, 7.0, 9.0, 8.0, 17.0,
       22.0, 15.0, 12.0, 11.0, 14.0, 16.0, 20.0, 13.0, 25.0, 19.0, 36.0,
       30.0, 18.0, 32.0, 31.0, 21.0, 60.0, 35.0, 27.0, 24.0, 29.0, 23.0,
       28.0], dtype=object)

In [269]:
# Pasar la variable rooms a numero

data.loc[:,'rooms']=data.rooms.apply(lambda x: x.replace('.','') if isinstance(x, str) else x)
data.loc[:,'rooms']=data.rooms.astype(float)

In [270]:
# Reemplazar price_aprox_usd nulo por precios en usd no nulos
data.loc[:,'price_aprox_usd'] = np.where((data['price_aprox_usd'].isnull()) &
                                         (data['price'].notnull()) & (data['currency']=='USD'),data['price'],data['price_aprox_usd'])

In [271]:
# Reemplazar price_aprox_local_currency nulo por precios en pesos no nulos
data.loc[:,'price_aprox_local_currency'] = np.where((data['price_aprox_local_currency'].isnull()) &
                                                    (data['price'].notnull()) & (data['currency']=='ARS'),data['price'],data['price_aprox_local_currency'])

In [272]:
# Eliminar columnas que se usaron para extraer datos
data.drop(columns={'ambientes_desc','ambientes_desc2','ambientes_desc3',
                   'ambientes_tit','ambientes_tit2','ambientes_tit3','precio_tit',
                'unidad_tit','precio_desc','unidad_desc','piso_num','piso_texto','piso',
                  'r_sup_tot','r_sup_tot','r_sup_cub','r_sup_cub2','r_sup_tot2'},inplace=True)

In [276]:
#Analisis para reemplazar 'price_usd_per_m2' por aquellos valores en los que 'price_usd_per_m2' es nulo 
#y  encontramos precios y/o superficies faltantes
#m3=df.loc[df['price_usd_per_m2'].notnull()&
#                                df['property_type'].notnull()&
#                                df["place_name"].notnull(),
#                               ['property_type','place_name','price_aprox_usd','surface_covered_in_m2',"surface_total_in_m2",'price_usd_per_m2']]

In [277]:
#m3["m3_cub"]=np.where(m3.surface_covered_in_m3.notnull(),m3.price_aprox_usd/m3.surface_covered_in_m3,0)
#m3["m3_tot"]=np.where(m3.surface_total_in_m3.notnull(),m3.price_aprox_usd/m3.surface_total_in_m3,0)
#m3["check_cub"]=m3.m3_cub.round(1)==m3.price_usd_per_m3.round(1)
#m3["check_tot"]=m3.m3_tot.round(1)==m3.price_usd_per_m3.round(1)

#print(m3[(m3.surface_covered_in_m3!=m3.surface_total_in_m3)].count())
#print()
#print("check_tot True:",m3[(m3.surface_covered_in_m3!=m3.surface_total_in_m3)]["check_tot"].sum())
#print("check_cub True:",m3[(m3.surface_covered_in_m3!=m3.surface_total_in_m3)]["check_cub"].sum())

In [279]:
data.isnull().sum()

operation                          0
property_type                      0
place_name                        23
place_with_parent_names            0
country_name                       0
state_name                         0
geonames_id                    18180
lat-lon                        48289
lat                            48289
lon                            48289
price                          14845
currency                       14943
price_aprox_local_currency     17260
price_aprox_usd                14942
surface_total_in_m2            36929
surface_covered_in_m2          36720
price_usd_per_m2               45900
price_per_m2                   30443
floor                          75392
rooms                              0
expenses                      101044
description                        2
title                              0
antiguedad                    110853
apto_cred                     104149
bajas_exp                     113764
expensas                      114852
p

In [280]:
data['rooms'].value_counts()

99.000000    57914
3.000000     16089
2.000000     15767
4.000000      9777
1.000000      8607
5.000000      4391
6.000000      1596
7.000000       839
8.000000       426
10.000000      227
9.000000       189
11.000000       76
12.000000       67
13.000000       33
14.000000       28
15.000000       26
17.000000       16
16.000000       12
20.000000       12
22.000000        8
18.000000        7
21.000000        6
19.000000        4
25.000000        4
30.000000        4
32.000000        3
27.000000        2
31.000000        2
23.000000        2
36.000000        1
29.000000        1
24.000000        1
35.000000        1
60.000000        1
28.000000        1
Name: rooms, dtype: int64

A pesar del trabajo realizado con expresiones regulares, la cantidad de valores que logramos recuperar es bastante baja, incluso, vemos que la variable 'rooms' aparentemente no tiene valores nulos, sin embargo, tiene 57914 valores nulos, los cuales por convención fueron asignados para identificar un valor nulo. Por ahora trabajaremos el dataset con la imputación y limpieza de las variables iniciales.