In [1]:
%run "Properati_base_setup.py"

Running command `conda list`... ok
pandas=1.0.3 already installed
matplotlib=2.2.2 already installed
bokeh=2.0.0 already installed
seaborn=0.10.0 already installed
ipywidgets=7.5.1 already installed
pytest=5.3.4 already installed
chardet=3.0.4 already installed
plotly=4.6.0 already installed
chart-studio=1.1.0 already installed
nodejs=13.13.0 already installed
psutil=5.7.0 already installed
plotly-orca=1.3.1 already installed


In [2]:
import re 
import numpy as np 
import pandas as pd

In [3]:
data = pd.read_csv("properati.csv", sep=",")

In [4]:
print("cantidad de filas: " + str(data.shape[0]))
print("cantidad de columnas: " + str(data.shape[1]))

cantidad de filas: 121220
cantidad de columnas: 26


### Generamos una lista de palabras claves obtenidas de la columna 'properati_url' ordenadas por cantidad de repeticiones

In [5]:
pattern = r'http:\/\/www\.properati.com.ar\/\w{6}([\w*-]*)'
pattern_regex = re.compile(pattern)
result_match = data['properati_url'].apply(lambda x: pattern_regex.match(x.lower().replace('-','_')))
result =  result_match.apply(lambda x: x.group(1).split('_'))

list_words = []

def generate_words_series(arr):
    for x in arr:
        list_words.append(str(x))
    return

result.apply(generate_words_series)

serie = pd.Series(list_words)
key_words = serie.value_counts()

In [6]:
display(key_words.head(40))

venta            121119
departamento      71019
garage            56620
lavadero          44034
balcon            42288
propiedades       41507
casa              40537
parrilla          33381
piscina           32148
luminoso          31865
suite             27102
placard           26145
terraza           25101
toilette          22841
subte             21984
linea             21824
patio             21169
vestidor          18011
jardin            17173
quincho           12850
aire              12767
acondicionado     12763
inmobiliaria      12184
sum               11665
dependencias      11316
max               11260
re                11258
cordoba           11195
amenities         10607
baulera           10512
estrenar          10383
vista             10309
de                 9768
san                9556
gimnasio           9363
lujoso             9251
plata              9215
del                9180
rosario            8607
villa              8473
dtype: int64

### a partir de estas palabras claves identificamos las que nos pueden servir para:

### - generar variables dummy:
* garage
* lavadero
* balcon  
* casa
* parrilla
* piscina
* terraza
* patio
* jardin
* quincho
* aire acondicionado
* amenities
* estrenar
* gimnasio

opcionales..
* baulera
* suite
* subte - linea
* vestidor

### - completar datos faltantes
* venta
* departamento



## Ahora hacemos lo mismo con la columna 'descripcion'

In [7]:
import unicodedata

pattern_desc = r'(\w\w\w\w\w*)'
pattern_desc_regex = re.compile(pattern_desc, flags=re.IGNORECASE )
result_match = data['description'].apply(lambda x: re.finditer(pattern_desc_regex, str(x).lower()))

list_words_desc = []

def generate_words_series_desc(matches):
    for matchNum, match in enumerate(matches, start=1):
        for groupNum in range(0, len(match.groups())):
            groupNum = groupNum + 1
            
            cadena = unicodedata.normalize('NFKD', match.group(groupNum)).encode('ASCII', 'ignore') 
            
            list_words_desc.append(cadena)
    return

result =  result_match.apply(generate_words_series_desc)

serie_desc = pd.Series(list_words_desc)
key_words_desc = serie_desc.value_counts()

In [8]:
display(key_words_desc.head(40))

b'cocina'          110088
b'bano'             98520
b'comedor'          96205
b'para'             85190
b'living'           70516
b'dormitorios'      67240
b'ambientes'        56062
b'dormitorio'       53025
b'piso'             50769
b'completo'         49287
b'departamento'     48517
b'balcon'           47086
b'pisos'            45367
b'planta'           44549
b'frente'           43095
b'casa'             39426
b'lavadero'         39128
b'excelente'        37242
b'amplio'           36923
b'edificio'         36296
b'venta'            35989
b'parrilla'         33136
b'cochera'          31810
b'cuenta'           31541
b'placard'          31247
b'suite'            31146
b'sobre'            28899
b'terraza'          28332
b'patio'            25833
b'vista'            24966
b'mesada'           24908
b'gran'             24171
b'propiedad'        23457
b'baja'             23351
b'ubicado'          22884
b'barrio'           22826
b'esta'             22535
b'zona'             22516
b'servicio' 

### Palabras para generar variables dummy
* balcon
* frente
* parrilla
* cochera
* terraza


Opcionales:
suite

### Palabras para completar datos faltantes
* dormitorio/s
* ambientes
* piso - planta
* departamento - casa - edificio
* venta
* ubicado - barrio

In [9]:
#print(df_m2_totales.shape)
#print(df_m2_cubiertos.shape)

### Creamos una funcion que nos permita:

* Observar el contexto de una palabra clave seleccionada dentro de la descripcion
* Obtener un set de indices de filas que en su descripcion contienen esa palabra
* Determinar cuantas filas queremos recorrer

In [10]:
import unicodedata

def generate_context_df(word, column, rows=5000, has_context=True):
    global data_index
    if has_context is True:
        pattern_context = r'(?P<context>(\w*\W?\s\W?){0,4}' + word + '(\w*\W?\s\W?){0,4})'
    else:    
        pattern_context = word

    pattern_context_regex = re.compile(pattern_context, flags=re.IGNORECASE )
    result_match = data[column].apply(lambda x: re.finditer(pattern_context_regex, str(x).lower()))

    list_words_desc_context = []
    list_words_desc_index = []
    data_index = 0
    df_context = pd.DataFrame()
        
    def generate_context_df(matches):
        global data_index
        for matchNum, match in enumerate(matches, start=1):  
            if has_context is True:
                context = match.group('context')     
                list_words_desc_context.append(context)
            list_words_desc_index.append(data_index)
        data_index += 1
        return
    
    if rows == 0:
        result = result_match.apply(generate_context_df)
    else:
        result = result_match[0:rows].apply(generate_context_df)
        
    if has_context is True:
        df_context['context'] = list_words_desc_context
        
    df_context['index'] = list_words_desc_index
    print('cantidad de matches: ', df_context.shape[0], ' en ', rows if rows != 0 else 'TODOS los' , ' registros buscados')
    return df_context

### Comprobamos su funcionamiento solicitando 5000 registros de la potencial variable dummy 'garage|cochera'

In [11]:
generate_context_df("garage|cochera", "description", 5000, True).head(10)

cantidad de matches:  2726  en  5000  registros buscados


Unnamed: 0,context,index
0,cochera semicubierta.,1
1,cochera,10
2,"cochera y jardín propio,",15
3,cochera fija subterranea y,17
4,cochera. en cumplimiento de,23
5,cochera. entrega marzo,24
6,cochera,24
7,cochera. entrega marzo,25
8,cochera,25
9,cochera. entrega marzo,28


### Creamos una funcion que nos permite generar variables dummies a partir de palabras clave

In [94]:
data_clean = data.copy(deep=True)

In [13]:
def create_dummy(data, data_dummy, column_name):
    data_dummy.drop_duplicates(inplace=True)
    data_dummy_list = data_dummy['index'].tolist()
    data[column_name + '_dummy'] = data['Unnamed: 0'].apply(lambda x: True if x in data_dummy_list else False)
    print('Col generada: ' + column_name + '_dummy')

### Creamos una lista de palabras claves que recorremos utilizando la funcion mencionada anteriormente

como resultado vamos a haber agregado a nuestro DataFrame una columna por cada variable dummy

In [None]:
list_columnas_dummy = ['garage|cochera', 'lavadero', 'balcon', 'parrilla', 'piscina', 'terraza', 'patio', 'jardin', 'quincho', 'aire acondicionado', 'amenities', 'estrenar', 'gimnasio', 'frente', 'subte', 'baulera' ]
for columna in list_columnas_dummy:
    data_dummy = generate_context_df(columna, "description", 0, False)
    create_dummy(data_clean, data_dummy, columna)

In [14]:
data_clean.head(10)

Unnamed: 0.1,Unnamed: 0,operation,property_type,place_name,place_with_parent_names,country_name,state_name,geonames_id,lat-lon,lat,...,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail
0,0,sell,PH,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6618237,-58.5088387",-34.661824,...,40.0,1127.272727,1550.0,,,,http://www.properati.com.ar/15bo8_venta_ph_mat...,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB,https://thumbs4.properati.com/8/BluUYiHJLhgIIK...
1,1,sell,apartment,La Plata,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,Argentina,Bs.As. G.B.A. Zona Sur,3432039.0,"-34.9038831,-57.9643295",-34.903883,...,,,,,,,http://www.properati.com.ar/15bob_venta_depart...,Venta de departamento en décimo piso al frente...,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...,https://thumbs4.properati.com/7/ikpVBu2ztHA7jv...
2,2,sell,apartment,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6522615,-58.5229825",-34.652262,...,55.0,1309.090909,1309.090909,,,,http://www.properati.com.ar/15bod_venta_depart...,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO,https://thumbs4.properati.com/5/SXKr34F_IwG3W_...
3,3,sell,PH,Liniers,|Argentina|Capital Federal|Liniers|,Argentina,Capital Federal,3431333.0,"-34.6477969,-58.5164244",-34.647797,...,,,,,,,http://www.properati.com.ar/15boh_venta_ph_lin...,PH 3 ambientes con patio. Hay 3 deptos en lote...,PH 3 amb. cfte. reciclado,https://thumbs4.properati.com/3/DgIfX-85Mog5SP...
4,4,sell,apartment,Centro,|Argentina|Buenos Aires Costa Atlántica|Mar de...,Argentina,Buenos Aires Costa Atlántica,3435548.0,"-38.0026256,-57.5494468",-38.002626,...,35.0,1828.571429,1828.571429,,,,http://www.properati.com.ar/15bok_venta_depart...,DEPARTAMENTO CON FANTÁSTICA ILUMINACIÓN NATURA...,DEPTO 2 AMB AL CONTRAFRENTE ZONA CENTRO/PLAZA ...,https://thumbs4.properati.com/5/xrRqlNcSI_vs-f...
5,5,sell,house,Gualeguaychú,|Argentina|Entre Ríos|Gualeguaychú|,Argentina,Entre Ríos,3433657.0,"-33.0140714,-58.519828",-33.014071,...,,,,,,,http://www.properati.com.ar/15bop_venta_depart...,"Casa en el perímetro del barrio 338, ubicada e...","Casa Barrio 338. Sobre calle 3 de caballería, ...",https://thumbs4.properati.com/6/q-w68gvaUEQVXI...
6,6,sell,PH,Munro,|Argentina|Bs.As. G.B.A. Zona Norte|Vicente Ló...,Argentina,Bs.As. G.B.A. Zona Norte,3430511.0,"-34.5329567,-58.5217825",-34.532957,...,78.0,1226.415094,1666.666667,,,,http://www.properati.com.ar/15bor_venta_ph_mun...,MUY BUEN PH AL FRENTE CON ENTRADA INDEPENDIENT...,"MUY BUEN PH AL FRENTE DOS DORMITORIOS , PATIO,...",https://thumbs4.properati.com/5/6GOXsHCyDu1aGx...
7,7,sell,apartment,Belgrano,|Argentina|Capital Federal|Belgrano|,Argentina,Capital Federal,3436077.0,"-34.5598729,-58.443362",-34.559873,...,40.0,3066.666667,3450.0,,,,http://www.properati.com.ar/15bot_venta_depart...,EXCELENTE MONOAMBIENTE A ESTRENAR AMPLIO SUPER...,JOSE HERNANDEZ 1400 MONOAMBIENTE ESTRENAR CAT...,https://thumbs4.properati.com/1/IHxARynlr8sPEW...
8,8,sell,apartment,Belgrano,|Argentina|Capital Federal|Belgrano|,Argentina,Capital Federal,3436077.0,"-34.5598729,-58.443362",-34.559873,...,60.0,3000.0,3250.0,,,,http://www.properati.com.ar/15bou_venta_depart...,EXCELENTE DOS AMBIENTES ESTRENAR AMPLIO SUPER...,"JOSE HERNANDEZ 1400 DOS AMBIENTES ESTRENAR ,...",https://thumbs4.properati.com/2/J3zOjgaFHrkvnv...
9,9,sell,house,Rosario,|Argentina|Santa Fe|Rosario|,Argentina,Santa Fe,3838574.0,"-32.942031,-60.7259192",-32.942031,...,,,,,,,http://www.properati.com.ar/15box_venta_casa_r...,MEDNOZA AL 7600A UNA CUADRA DE CALLE MENDOZAWH...,WHITE 7637 - 2 DORMITORIOS CON PATIO,https://thumbs4.properati.com/8/RCf1YEWdF4rv98...


### Ahora vamos a trabajar sobre la columna 'descripcion' para:

* capturar los valores en m2 de las descripciones donde existan faltantes
* obervar el contexto de los valores capturados
* preservar el indice para una posterior imputación de datos
* crear una lista de palabras claves a buscar ordenadas por cantidad de repeticiones

In [15]:
import unicodedata

#tomamos solo las filas con faltantes en los campos de m2
#normalizamos las cadenas de texto para remover caracteres especiales
mask_m2_any_null = data.surface_total_in_m2.isnull() | data.surface_covered_in_m2.isnull()
data_m2_null = data.loc[mask_m2_any_null, 'description'].apply(lambda x: unicodedata.normalize('NFKD', str(x)).encode('utf-8', 'ignore').lower())

#generamos un patron que captura el valor de los m2 y el contexto en el que fue encontrado
pattern_m2 = r'(?P<before>(\w*\W?\s\W?){0,4})\s?(?P<value>\d{1,5})\s*(m2|metros)\s?(?P<after>(\W?\w*\W?\s?){0,4})'

pattern_m2_regex = re.compile(pattern_m2, flags=re.IGNORECASE )
result_match = data_m2_null.apply(lambda x: re.finditer(pattern_m2_regex, str(x)))

df_result_match = result_match.to_frame().copy()
df_result_match['indice'] = result_match.to_frame().index
df_result_match

list_words_desc_after = []
list_words_desc_before = []
list_words_desc_values = []
list_words_desc_index = []

df_m2 = pd.DataFrame(columns=('before', 'm2', 'after', 'index'))

#recorremos los resultados
for index, row in df_result_match.iterrows():
    matches = row['description']
    indice = row['indice']
    for match in matches:  
        before = match.group('before')
        after =  match.group('after')
        value = match.group('value').strip()    

        list_words_desc_before.append(before)
        list_words_desc_values.append(value)
        list_words_desc_index.append(indice)
        list_words_desc_after.append(after)

df_m2['m2'] = list_words_desc_values
df_m2['before'] = list_words_desc_before
df_m2['index'] = list_words_desc_index
df_m2['after'] = list_words_desc_after
display(df_m2.head(20))
print('cantidad de matches: ', df_m2.size)

Unnamed: 0,before,m2,after,index
0,y servicios. lote de,1514,.,10
1,,23,contado u$d250.000haus,15
2,x83o de,50,"cuadrados,con terraza y",65
3,balcon. super luminoso tiene,38,aprox. cuenta con ban\,66
4,monoambientes de,22,+ 5.30m21 dormitorio,101
5,al frente de,36,+ 5.30m21 dormitorio,101
6,,50,+ 2.30m22 dormitorios,101
7,,50,+ 2.70m2entrega enero,101
8,monoambientes de,22,+ 5.30m21 dormitorio,102
9,al frente de,36,+ 5.30m21 dormitorio,102


cantidad de matches:  75476


### Generamos una lista de palabras claves tomadas del contexto del DataFrame anterior
### Estas palabras nos permitirán, luego, imputar datos faltantes en m2

In [19]:
keys_m2 = list_words_desc_before + list_words_desc_after
list_keys_words_m2 = []
for key in keys_m2:
    list_key_words = key.replace('.', '').replace(',', '').replace(':', '').split(' ')
    for word in list_key_words:
        if (word != '') & (len(word) > 2):
            list_keys_words_m2.append(word)
        
list_keys_words_m2

serie_keys_words_m2 = pd.Series(list_keys_words_m2)
serie_keys_words_m2_counts = serie_keys_words_m2.value_counts()
serie_keys_words_m2_counts.head(30)

con             3685
superficie      2197
cubiertos       1587
lote            1458
total           1192
cubierta        1191
sobre           1180
terreno         1156
una              956
sup              802
frente           760
casa             719
planta           712
x81n             704
aprox            688
ambientes        669
totales          600
dos              585
por              583
del              575
cuadrados        565
departamento     541
los              534
terraza          493
cocina           471
piso             470
dormitorios      452
cuenta           452
living           451
comedor          410
dtype: int64

### Elegimos de la lista las palabras mas relevantes
### Creamos a partir de ellas dos series con los cuales imputaremos valores en las columnas 'surface_total_in_m2' y 'surface_covered_in_m2'

In [21]:
#Unimos las columnas de contexto
df_m2['context'] = df_m2['before'] + " " + df_m2['after']

#buscamos los m2 totales
WORD = "total" #buscamos los m2 totales

key_word_mask_totales = df_m2['context'].apply(lambda x: True if WORD in x else False)
print('cantidad de veces que', WORD.upper(), 'fué encontrada: ', key_word_mask_totales.sum())

#df_m2_totales = df_m2.loc[key_word_mask,["m2","index"]]
df_m2_totales = df_m2.loc[key_word_mask_totales,["m2","index"]]

#buscamos los m2 cubiertos
list_words = ["sup cub", "cubiert"] 

def find_list_words_m2(list, row):
    existe = False
    for word in list:
        if word in row:
            existe = True
    return existe

key_word_mask_cubiertos = df_m2['context'].apply(lambda x : find_list_words_m2(list_words, x))
print('cantidad de veces que *sup cub* y *cubiert* fueron encontradas: ', key_word_mask_cubiertos.sum())

df_m2_cubiertos = df_m2.loc[key_word_mask_cubiertos,["m2","index", "context"]]

cantidad de veces que TOTAL fué encontrada:  1969
cantidad de veces que *sup cub* y *cubiert* fueron encontradas:  3641


In [22]:
m2_totales_a_imputar = df_m2_totales.groupby('index').max()
m2_totales_a_imputar

Unnamed: 0_level_0,m2
index,Unnamed: 1_level_1
175,88
491,122
538,2290
539,2290
869,84
...,...
120585,110
120633,56
120634,655
120722,116


### Reemplazamos los valores obtenidos para 'm2 totales'

In [90]:
print("\n ..data_clean.loc[m2_totales_a_imputar.index, 'surface_total_in_m2']:")
display(data_clean.loc[m2_totales_a_imputar.index, 'surface_total_in_m2']) 
# ALGUNOS YA TIENE VALORES, NO LOS VAMOS A SOBREESCRIBIR.
mask_m2_total_imputar_null = data_clean.loc[m2_totales_a_imputar.index, 'surface_total_in_m2'].isnull()
mask_m2_total_imputar_null_final= mask_m2_total_imputar_null[mask_m2_total_imputar_null]   
# SOLO VAMOS A IMPUTAR DONDE NO TENGO NINGÚN VALOR
print("\n.. data_clean.loc[mask_m2_total_imputar_null_final.index, 'surface_total_in_m2']:")
data_clean.loc[mask_m2_total_imputar_null_final.index, 'surface_total_in_m2']


 ..data_clean.loc[m2_totales_a_imputar.index, 'surface_total_in_m2']:


index
175         NaN
491         NaN
538         NaN
539         NaN
869         NaN
          ...  
120585      NaN
120633      NaN
120634      NaN
120722    116.0
120929    287.0
Name: surface_total_in_m2, Length: 1827, dtype: float64


.. data_clean.loc[mask_m2_total_imputar_null_final.index, 'surface_total_in_m2']:


index
175      NaN
491      NaN
538      NaN
539      NaN
869      NaN
          ..
120184   NaN
120527   NaN
120585   NaN
120633   NaN
120634   NaN
Name: surface_total_in_m2, Length: 1549, dtype: float64

In [93]:
print('\n ..data_clean:')
display(data_clean.loc[mask_m2_total_imputar_null_final.index, 'surface_total_in_m2'])
data_clean.loc[mask_m2_total_imputar_null_final.index, 'surface_total_in_m2'] = \
                                                m2_totales_a_imputar.loc[mask_m2_total_imputar_null_final.index, 'm2']

print('\n Luego de imputarlos..data_clean:')
display(data_clean.loc[mask_m2_total_imputar_null_final.index, 'surface_total_in_m2'])

print('\n m2_totales_a_imputar:')
m2_totales_a_imputar.loc[mask_m2_total_imputar_null_final.index, 'm2']


 ..data_clean:


index
175         88
491        122
538       2290
539       2290
869         84
          ... 
120184      95
120527      89
120585     110
120633      56
120634     655
Name: surface_total_in_m2, Length: 1549, dtype: object


 Luego de imputarlos..data_clean:


index
175         88
491        122
538       2290
539       2290
869         84
          ... 
120184      95
120527      89
120585     110
120633      56
120634     655
Name: surface_total_in_m2, Length: 1549, dtype: object

index
175         88
491        122
538       2290
539       2290
869         84
          ... 
120184      95
120527      89
120585     110
120633      56
120634     655
Name: m2, Length: 1549, dtype: object

### pequeña verificación de la asignación

In [81]:
print('\n ..data_clean:')
display(data_clean.loc[537:540, 'surface_total_in_m2'])
print('\n ..m2_totales_a_imputar:')
display(m2_totales_a_imputar.loc[537:540, 'm2'])


 ..data_clean:


537     NaN
538    2290
539    2290
540     NaN
Name: surface_total_in_m2, dtype: object


 ..m2_totales_a_imputar:


index
538    2290
539    2290
Name: m2, dtype: object