In [252]:
import numpy as np
import pandas as pd
import seaborn as sns
import re

In [253]:
data = pd.read_csv('../TP1/properatti.csv')
data_cruda = pd.read_csv('../TP1/properatti.csv')

# Trabajo práctico número 1

## Para quedarnos solo con las columnas importantes

Nos quedamos solo con las columnas que aportan valor para estimar el precio del metro cuadrado

In [106]:
def eliminar_columnas(dataframe):
    dataframe = dataframe.drop(columns=['Unnamed: 0','operation','place_name','place_with_parent_names','country_name','geonames_id','lat-lon','lat','lon','floor','expenses','properati_url','image_thumbnail'])
    return dataframe

In [107]:
data = eliminar_columnas(data)
data.columns

Index(['property_type', 'state_name', 'price', 'currency',
       'price_aprox_local_currency', 'price_aprox_usd', 'surface_total_in_m2',
       'surface_covered_in_m2', 'price_usd_per_m2', 'price_per_m2', 'rooms',
       'description', 'title'],
      dtype='object')

## Para quedarnos sólo con ARS y USD, eliminando los otros

Eliminamos las filas que tengan precios publicados en monedas que no sean pesos ni dolares

In [108]:
def eliminar_otras_currency(dataframe):
    mask_uyu = dataframe.currency == "UYU"
    mask_pen = dataframe.currency == "PEN"
    dataframe = dataframe.drop(data.currency[mask_uyu].index)
    dataframe = dataframe.drop(data.currency[mask_pen].index)
    return dataframe

In [109]:
data = eliminar_otras_currency(data)
data.currency.value_counts()

USD    87587
ARS    13219
Name: currency, dtype: int64

In [110]:
data.property_type.value_counts()

apartment    71063
house        40267
PH            5751
store         4136
Name: property_type, dtype: int64

## Para quedarnos solo apartment y house

Eliminamos las filas que no contengan apartment y house, debido a que los demás hay pocos registros en proporcion a los que hay en apartment y house

In [127]:
def eliminar_ph_y_store(dataframe):
    dataframe = dataframe.drop(dataframe.loc[dataframe.property_type == 'PH'].index)
    dataframe = dataframe.drop(dataframe.loc[dataframe.property_type == 'store'].index)
    return dataframe

In [130]:
data = eliminar_ph_y_store(data)
data.property_type.value_counts()

apartment    71063
house        40267
Name: property_type, dtype: int64

## Para quedarnos solo con >1000 publicaciones por ciudad

Nos quedamos con los registros que pertenezcan a ciudades donde haya al menos mas de 1000 publicaciones ya que el resto no es un numero que estimamos suficiente para realizar una estimación adecuada

In [269]:
def solo_mayores_a_mil(dataframe):
    cantidad_de_publicaciones = 1000
    lista = list((dataframe['state_name'].value_counts()>1000)[dataframe['state_name'].value_counts()>cantidad_de_publicaciones].index)
    dataframe = dataframe[dataframe['state_name'].isin(lista)]
    return dataframe

In [272]:
data = solo_mayores_a_mil(data)
data.state_name.value_counts()

Capital Federal                 32316
Bs.As. G.B.A. Zona Norte        25560
Bs.As. G.B.A. Zona Sur          13952
Córdoba                         12069
Santa Fe                        10172
Buenos Aires Costa Atlántica    10006
Bs.As. G.B.A. Zona Oeste         9322
Buenos Aires Interior            2291
Name: state_name, dtype: int64

## (1) Separar la columna 'place_with_parent_names'
Esto es para tener la ubicación precisa de cada vivienda en una sola columna. Se toma únicamente el tercer segmento del string separados por `|` de la columna `place_with_parent_names`. En los que esta información no exista, se completará con la columna `place_name`

In [3]:
def separar_columna_place_with_parent_names(dataframe):
    '''Esta función toma la tercera parte de la columna 'place_with_parent_names' y si no tiene esa parte, completa con la columna 'place_name'''
    separado = dataframe['place_with_parent_names'].str.split(pat='|', n=-1, expand=True)
    indice = ['index','pais','region','ciudad','barrio','detalle1','detalle2']
    separado.columns = indice
    mask = separado.ciudad == ''
    separado.ciudad[mask] = np.NaN
    dataframe['ciudad_separada'] = separado['ciudad']
    dataframe.ciudad_separada[dataframe.ciudad_separada.isnull()] = dataframe.place_name[dataframe.ciudad_separada.isnull()]
    return dataframe

In [231]:
data = data_grouped.filter(lambda grp: grp["state_name"].isin(lista))

TypeError: filter function returned a Series, but expected a scalar bool

## (2) Limpieza e imputación de precios

Jerarquía de imputación

a) Dato directo del precio /m2 en dólares

b) Tomar precio de /m2 en pesos (analizado y descartado)

c) Inferir precio con precio total / superficie

d) Imputar por media según zona y tipo de propiedad


### (a) Dato directo del precio /m2 en dólares

In [232]:
data['state_name'].nlargest(n=10)

TypeError: Cannot use method 'nlargest' with dtype object

La columna `price_usd_per_m2` contiene directamente el valor del metro cuadrado de cada propiedad medida en dólares. Se toma de forma directa.

In [261]:
data.state_name.value_counts()

Capital Federal                 32316
Bs.As. G.B.A. Zona Norte        25560
Bs.As. G.B.A. Zona Sur          13952
Córdoba                         12069
Santa Fe                        10172
Buenos Aires Costa Atlántica    10006
Bs.As. G.B.A. Zona Oeste         9322
Buenos Aires Interior            2291
Name: state_name, dtype: int64

In [4]:
def transformar_columna_precio_m2(dataframe):
    '''Esta función transforma la columna 'price_usd_per_m2' en la columna 'precio_unificado' '''
    dataframe['precio_unificado'] = dataframe.loc[data.price_usd_per_m2.notnull()]['price_usd_per_m2']
    return dataframe

La siguiente función es sólo a modo de referencia y no está incluida en el final como parte del proceso, y cuenta el porcentaje de filas completas de la columna `price_usd_per_m2`

In [5]:
def contar_transformar_columna_precio_m2(dataframe):
    '''Esta función contabiliza la cantidad de filas no nulas en la columna 'price_usd_per_m2' '''
    print1 = (dataframe['price_usd_per_m2'].notnull().sum() / dataframe.shape[0] *100).round(2)
    return print1

In [6]:
print("Cant. de datos en 'price_usd_per_m2':   %", contar_transformar_columna_precio_m2(data))

Cant. de datos en 'price_usd_per_m2':   % 56.61


### (b) Tomar precio de /m2 en pesos (descartado, leer el por qué)

Primero, es necesario saber la conversión del tipo de cambio de dólar respecto al peso. Para esto mismo, se calculará el promedio del precio en USD y del precio en $ de todas las filas no nulas que contengan ambos valores.

En esta primera función, se estima la media del tipo de cambio entre el precio en pesos y el precio en dólares, las columnas `price_aprox_local_currency` / `price_aprox_usd`

In [7]:
def estimar_tipo_de_cambio(dataframe):
    '''Esta función estima el tipo de cambio promedio entre 'price_aprox_local_currency' y 'price_aprox_usd'  '''
    mask_tipo_de_cambio = (data['price_aprox_local_currency'].notnull() & data['price_aprox_usd'].notnull())
    calculo_tipo_de_cambio = data.loc[mask_tipo_de_cambio, 'price_aprox_local_currency'] / data.loc[mask_tipo_de_cambio, 'price_aprox_usd']
    tipo_de_cambio = calculo_tipo_de_cambio.mean()
    valor = (tipo_de_cambio).round(2)
    return valor

In [8]:
print("Tipo de cambio promedio entre entre 'price_aprox_local_currency' y 'price_aprox_usd': ", estimar_tipo_de_cambio(data), "$/USD ")

Tipo de cambio promedio entre entre 'price_aprox_local_currency' y 'price_aprox_usd':  17.64 $/USD 


Para comparar este dato, se toma el valor del dólar de ese entonces, primer semestre de 2017.  Por esto mismo, para hacer la conversión del tipo de cambio dólar / peso se hace un promedio entre la primera cotización del semestre y la última, a saber:

02-01-2017: 16.3 $ / USD 

30-06-2017: 16.87 $ / USD

Tomando el promedio de 16.59 $ / USD, está cercano al valor de  17.64 obtenido antes, por lo tanto es un dato aceptable

Por lo tanto, podría hacer esta misma comprobación con las columnas que miden el precio por metro cuadrado para ver si la columna `price_per_m2` que está medida en pesos es confiable. De la misma manera que antes se calcula

In [9]:
def estimar_tipo_de_cambio_segun_m2(dataframe):
    '''Esta función estima el tipo de cambio promedio entre 'price_per_m2' y 'price_usd_per_m2' '''
    mask_cambio = (dataframe['price_per_m2'].notnull() & dataframe['price_usd_per_m2'].notnull())
    prueba = dataframe.loc[mask_cambio, 'price_per_m2'] / dataframe.loc[mask_cambio, 'price_usd_per_m2']
    print1 = (prueba.mean()).round(2)
    return print1

In [10]:
print("Tipo de cambio promedio entre entre 'price_per_m2' y 'price_usd_per_m2': ", estimar_tipo_de_cambio_segun_m2(data), "$/USD")

Tipo de cambio promedio entre entre 'price_per_m2' y 'price_usd_per_m2':  5.87 $/USD


Como se puede ver, este valor está muy lejano al tipo de cambio real, por lo que no pueden tomarse los datos de la columna `price_per_m2` como ciertos, por lo que se descarta usar esta fuente de datos.

### (c) Inferir precio con precio total / superficie

Otra manera de obtener el precio del m2 es dividiendo el precio publicado por la superficie de la propiedad.

Primero es necesario unificar las columnas `surface_total_in_m2` y `surface_covered_in_m2` con los siguientes criterios:

   - Si surface_total tiene DATO y surface_covered tiene NAN -> tomo dato
    
   - Si surface_total tiene NAN y surface_covered tiene DATO -> tomo dato
    
   - Si surface_total tiene DATO y surface_covered tiene DATO -> tomo el mayor
    
       - Si surface_total < surface_covered -> tomo surface_covered (caso sin sentido, por eso tomo el mayor)
        
   - Si surface_total > surface_covered -> tomo surface_total (caso coherente)
    
   - Si surface_total == surface_covered -> tomo surface_total (caso coherente)

In [11]:
def limpiar_superficies(dataframe):
    '''Esta función unifica las columnas 'surface_total_in_m2' y 'surface_covered_in_m2' en la columna 'superficie_unica' 
    con el siguiente criterio:
    - si surface_total DATO y surface_covered NAN -> tomo dato
    - si surface_total NAN y surface_covered DATO -> tomo dato
    - si surface_total DATO y surface_covered DATO -> tomo el mayor
        - Si surface_total < surface_covered -> tomo surface_covered (caso sin sentido, por eso tomo el mayor)
    - Si surface_total > surface_covered -> tomo surface_total (caso coherente)
    - Si surface_total == surface_covered -> tomo surface_total (caso coherente)'''
    #surface_total DATO y surface_covered NAN -> tomo dato
    mask_surfaces_sin_cubierta = (dataframe['surface_total_in_m2'].notnull() & dataframe['surface_covered_in_m2'].isnull())
    dataframe.loc[mask_surfaces_sin_cubierta,'superficie_unificada'] = dataframe.loc[mask_surfaces_sin_cubierta, 'surface_total_in_m2']

    #surface_total NAN y surface_covered DATO -> tomo dato
    mask_surfaces_sin_total = (dataframe['surface_total_in_m2'].isnull() & dataframe['surface_covered_in_m2'].notnull())
    dataframe.loc[mask_surfaces_sin_total,'superficie_unificada'] = dataframe.loc[mask_surfaces_sin_total, 'surface_covered_in_m2']

    #surface_total DATO y surface_covered DATO -> tomo el mayor
    #Si surface_total < surface_covered -> tomo surface_covered (caso sin sentido, por eso tomo el mayor)
    mask_surfaces_covered_mayor = (dataframe['surface_covered_in_m2'] > dataframe['surface_total_in_m2'])
    dataframe.loc[mask_surfaces_covered_mayor,'superficie_unificada'] = dataframe.loc[mask_surfaces_covered_mayor, 'surface_covered_in_m2']

    #Si surface_total > surface_covered -> tomo surface_total (caso coherente)
    mask_surfaces_total_mayor = (dataframe['surface_covered_in_m2'] < dataframe['surface_total_in_m2'])
    dataframe.loc[mask_surfaces_total_mayor,'superficie_unificada'] = dataframe.loc[mask_surfaces_total_mayor, 'surface_total_in_m2']

    #Si surface_total == surface_covered -> tomo surface_total (caso coherente)
    mask_surfaces_iguales = (dataframe['surface_covered_in_m2'] == dataframe['surface_total_in_m2'])
    dataframe.loc[mask_surfaces_iguales,'superficie_unificada'] = dataframe.loc[mask_surfaces_iguales, 'surface_total_in_m2']
    
    #Si superficie_unificada == 0 -> pongo NaN
    mask_surfaces_cero = dataframe['superficie_unificada'] == 0
    dataframe.loc[mask_surfaces_cero,'superficie_unificada'] = np.NaN
    return dataframe

La siguiente función es sólo a modo de referencia y no está incluida en el final como parte del proceso, y contabiliza el proceso de limpieza de ambas columnas de superficies

In [12]:
def contar_limpiar_superficies(dataframe):
    '''Esta función contabiliza los registros de la función limpiar_superficies '''
    #surface_total DATO y surface_covered NAN -> tomo dato
    mask_surfaces_sin_cubierta = (dataframe['surface_total_in_m2'].notnull() & dataframe['surface_covered_in_m2'].isnull())
    print1 = print("Cantidad de filas sin superficie cubierta y con superficie total: ", mask_surfaces_sin_cubierta.sum())
    dataframe.loc[mask_surfaces_sin_cubierta,'superficie_unificada'] = dataframe.loc[mask_surfaces_sin_cubierta, 'surface_total_in_m2']

    #surface_total NAN y surface_covered DATO -> tomo dato
    mask_surfaces_sin_total = (dataframe['surface_total_in_m2'].isnull() & dataframe['surface_covered_in_m2'].notnull())
    print2 = print("Cantidad de filas con superficie cubierta y sin superficie total: ", mask_surfaces_sin_total.sum())
    dataframe.loc[mask_surfaces_sin_total,'superficie_unificada'] = dataframe.loc[mask_surfaces_sin_total, 'surface_covered_in_m2']

    #surface_total DATO y surface_covered DATO -> tomo el mayor
    #Si surface_total < surface_covered -> tomo surface_covered (caso sin sentido, por eso tomo el mayor)
    mask_surfaces_covered_mayor = (dataframe['surface_covered_in_m2'] > dataframe['surface_total_in_m2'])
    print3 = print("Cantidad de filas con superficie cubierta mayor a superficie total: ", mask_surfaces_covered_mayor.sum())
    dataframe.loc[mask_surfaces_covered_mayor,'superficie_unificada'] = dataframe.loc[mask_surfaces_covered_mayor, 'surface_covered_in_m2']

    #Si surface_total > surface_covered -> tomo surface_total (caso coherente)
    mask_surfaces_total_mayor = (dataframe['surface_covered_in_m2'] < dataframe['surface_total_in_m2'])
    print4 = print("Cantidad de filas con superficie total mayor a superficie covered: ", mask_surfaces_total_mayor.sum())
    dataframe.loc[mask_surfaces_total_mayor,'superficie_unificada'] = dataframe.loc[mask_surfaces_total_mayor, 'surface_total_in_m2']

    #Si surface_total == surface_covered -> tomo surface_total (caso coherente)
    mask_surfaces_iguales = (dataframe['surface_covered_in_m2'] == dataframe['surface_total_in_m2'])
    print5 = print("Cantidad de filas con superficies iguales: ", mask_surfaces_iguales.sum())
    dataframe.loc[mask_surfaces_iguales,'superficie_unificada'] = dataframe.loc[mask_surfaces_iguales, 'surface_total_in_m2']
    return print1, print2, print3, print4, print5

In [13]:
data_cruda_contador_limpieza = separar_columna_place_with_parent_names(data_cruda)
data_cruda_contador_limpieza = transformar_columna_precio_m2(data_cruda_contador_limpieza)
contar_limpiar_superficies(data_cruda_contador_limpieza);

Cantidad de filas sin superficie cubierta y con superficie total:  7538
Cantidad de filas con superficie cubierta y sin superficie total:  26959
Cantidad de filas con superficie cubierta mayor a superficie total:  1106
Cantidad de filas con superficie total mayor a superficie covered:  49075
Cantidad de filas con superficies iguales:  24173


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataframe.ciudad_separada[dataframe.ciudad_separada.isnull()] = dataframe.place_name[dataframe.ciudad_separada.isnull()]


Luego, tomo aquellas filas que tengan precio y superficie (limpia), la divido y completo el precio por metro cuadrado

In [14]:
def completar_precio_dividiendo_superficie(dataframe):
    '''Esta función rellena 'precio_unificado' dividiendo el precio por la superficie en los registros no nulos de ambos y nulo en el precio_unificado 
    Esta función va luego de limpiar_superficies'''
    mask1 = dataframe['price'].notnull()
    mask2 = dataframe['superficie_unificada'].notnull()
    mask3 = dataframe['precio_unificado'].isnull()
    mask_criterios = (mask1 & mask2 & mask3)
    #print("La cantidad de registros con precio y superficie y sin precio unificado son: ",mask_criterios.sum())
    dataframe.loc[mask_criterios, 'precio_unificado'] = (dataframe['price'] / dataframe['superficie_unificada'])
    return dataframe

La siguiente función es sólo a modo de referencia y no está incluida en el final como parte del proceso, y contabiliza el proceso de precios completados obtenidos por la división entre precio / superficie.

In [15]:
def contar_completar_precio_dividiendo_superficie(dataframe):
    '''Esta función cuenta la cantidad de filas con criterio AND
    - 'price' no nulos
    - 'superficie_unificada' no nulos
    - 'precio_unificado' nulos. Esto es porque los voy a obtener por division de los dos anteriores
    NOTA: esta función va luego de limpiar_superficies()'''
    mask1 = dataframe['price'].notnull()
    mask2 = dataframe['superficie_unificada'].notnull()
    mask3 = dataframe['precio_unificado'].isnull()
    mask_criterios = (mask1 & mask2 & mask3)
    print1 = print("La cantidad de registros con precio y con superficie y sin precio unificado (NaN) son: ", mask_criterios.sum())
    return print1

In [16]:
data_cruda_precio_superficie = separar_columna_place_with_parent_names(data_cruda)
data_cruda_precio_superficie = transformar_columna_precio_m2(data_cruda_precio_superficie)
data_cruda_precio_superficie = limpiar_superficies(data_cruda_precio_superficie)
contar_completar_precio_dividiendo_superficie(data_cruda_precio_superficie)

La cantidad de registros con precio y con superficie y sin precio unificado (NaN) son:  24308


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataframe.ciudad_separada[dataframe.ciudad_separada.isnull()] = dataframe.place_name[dataframe.ciudad_separada.isnull()]


### (d) Imputar por media según zona y tipo de propiedad

Como última instancia, para obtener la mayor cantidad de campos `precio_unificado` completos, se imputan de la siguiente manera:
- Primero se agrupa por tipo de propiedad y ciudad.
- Se calcula el promedio por cada agrupación
- Se imputa a los que tengan NaN en `precio_unificado` y tengan datos en ciudad y tipo de propiedad

In [17]:
def imputar_por_ciudad_y_tipo(dataframe):
    '''Esta función imputa los NaN de 'precio_unificado' tomando como criterio la media de 'ciudad_separada' & 'property_type' 
    Es decir, no imputa por media general de todas las filas, sino por ejemplo la media de los precios de apartment de Córdoba o 
    la media de house de Villa Luro'''
    not_null_mask = np.logical_and(dataframe.ciudad_separada.notnull(), dataframe.property_type.notnull())
    procesar = dataframe.loc[not_null_mask, :]
    promedio_a_imputar = procesar.groupby(['ciudad_separada','property_type'])
    data_filled = promedio_a_imputar['precio_unificado'].transform(lambda grp: grp.fillna(grp.mean()))
    mask_a_imputar = dataframe.precio_unificado.isnull()
    dataframe.loc[mask_a_imputar,'precio_unificado'] = data_filled[mask_a_imputar]
    #dataframe.precio_unificado.isnull().sum()
    return dataframe

La siguiente función es sólo a modo de referencia y no está incluida en el final como parte del proceso, y contabiliza el proceso de imputación con el criterio anterior.

In [18]:
def contar_imputar_por_ciudad_y_tipo(dataframe):
    '''Esta función cuenta los NaN de 'precio_unificado' antes y después de aplicar la función imputar_por_ciudad_y_tipo()'''   
    nan_iniciales = dataframe.precio_unificado.isnull().sum()
    print1 = print("La cantidad de NaN iniciales en el dataframe sin imputar son: ", nan_iniciales)
    not_null_mask = np.logical_and(dataframe.ciudad_separada.notnull(), dataframe.property_type.notnull())
    procesar = dataframe.loc[not_null_mask, :]
    promedio_a_imputar = procesar.groupby(['ciudad_separada','property_type'])
    data_filled = promedio_a_imputar['precio_unificado'].transform(lambda grp: grp.fillna(grp.mean()))
    mask_a_imputar = dataframe.precio_unificado.isnull()
    dataframe.loc[mask_a_imputar,'precio_unificado'] = data_filled[mask_a_imputar]
    print2 = print("La cantidad de datos completados son: ", (nan_iniciales - dataframe.precio_unificado.isnull().sum()))
    print3 = print("La cantidad de NaN en 'precio_unificado' quedaron en: ", dataframe.precio_unificado.isnull().sum())
    return print1, print2, print3

Contabilizadores de esta operación

In [19]:
data_cruda_imputacion = separar_columna_place_with_parent_names(data_cruda)
data_cruda_imputacion = transformar_columna_precio_m2(data_cruda_imputacion)
data_cruda_imputacion = limpiar_superficies(data_cruda_imputacion)
data_cruda_imputacion = completar_precio_dividiendo_superficie(data_cruda_imputacion)
contar_imputar_por_ciudad_y_tipo(data_cruda_imputacion);

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataframe.ciudad_separada[dataframe.ciudad_separada.isnull()] = dataframe.place_name[dataframe.ciudad_separada.isnull()]


La cantidad de NaN iniciales en el dataframe sin imputar son:  28295
La cantidad de datos completados son:  27771
La cantidad de NaN en 'precio_unificado' quedaron en:  524


## Ejecución de todas las funciones y dataframe final

In [20]:
data = pd.read_csv('../TP1/properatti.csv')
salida_1 = separar_columna_place_with_parent_names(data)
salida_2 = transformar_columna_precio_m2(salida_1)
salida_3 = limpiar_superficies(salida_2)
salida_4 = completar_precio_dividiendo_superficie(salida_3)
salida_5 = imputar_por_ciudad_y_tipo(salida_4)
salida_5.sample(50)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataframe.ciudad_separada[dataframe.ciudad_separada.isnull()] = dataframe.place_name[dataframe.ciudad_separada.isnull()]


Unnamed: 0.1,Unnamed: 0,operation,property_type,place_name,place_with_parent_names,country_name,state_name,geonames_id,lat-lon,lat,...,floor,rooms,expenses,properati_url,description,title,image_thumbnail,ciudad_separada,precio_unificado,superficie_unificada
26456,26456,sell,apartment,Almagro,|Argentina|Capital Federal|Almagro|,Argentina,Capital Federal,3436397.0,,,...,,3.0,,http://www.properati.com.ar/17r4d_venta_depart...,3 ambientes al frente sobre la calle Obrero Nu...,Almagro 3 ambientes c/balcon,https://thumbs4.properati.com/8/HmCMabG4zMtKDA...,Almagro,2410.714286,56.0
63200,63200,sell,house,Rosario,|Argentina|Santa Fe|Rosario|,Argentina,Santa Fe,3838574.0,"-32.933987,-60.698261",-32.933987,...,,3.0,,http://www.properati.com.ar/1a8dq_venta_casa_r...,Corredor Responsable: Rosana Gerosa - CI Mat. ...,"Casa 2 dorm, con cochera y patio. Apto crédito.",https://thumbs4.properati.com/5/XE82ezZR2Oi3Fu...,Rosario,1640.625,64.0
34926,34926,sell,apartment,Buenos Aires Interior,|Argentina|Buenos Aires Interior|,Argentina,Buenos Aires Interior,3435907.0,"-38.416097,-63.616672",-38.416097,...,,,,http://www.properati.com.ar/18d29_venta_depart...,CODIGO: 1780-BI 0493 ubicado en: [B.I .0493] G...,[B.I .0493] HERMOSO DEPARTAMENTO DE 3 AMB. EN ...,https://thumbs4.properati.com/5/Bqbz024u6F2fxn...,Buenos Aires Interior,1557.976514,59.0
59181,59181,sell,apartment,Caballito,|Argentina|Capital Federal|Caballito|,Argentina,Capital Federal,3435874.0,"-34.6131617,-58.4301307",-34.613162,...,,4.0,,http://www.properati.com.ar/19x12_venta_depart...,"4 amb muy luminoso ,con baulera y cochera fi...",Departamento de 4 ambientes en Venta en Caballito,https://thumbs4.properati.com/2/7-RiJZ_lLT2mdO...,Caballito,2275.0,80.0
14572,14572,sell,apartment,Palermo,|Argentina|Capital Federal|Palermo|,Argentina,Capital Federal,3430234.0,"-34.5976773,-58.4132143",-34.597677,...,,,1800.0,http://www.properati.com.ar/16slo_venta_depart...,CODIGO: 3016-WP0217 ubicado en: Sanchez De Bus...,Amplio dos ambientes a estrenar en pleno Palermo,https://thumbs4.properati.com/3/cNIrfEqeMzd5gx...,Palermo,3129.62963,54.0
42203,42203,sell,apartment,Pilar,|Argentina|Bs.As. G.B.A. Zona Norte|Pilar|,Argentina,Bs.As. G.B.A. Zona Norte,3429979.0,"-34.4112671,-58.8488172",-34.411267,...,,3.0,,http://www.properati.com.ar/18vzh_venta_depart...,Superficie total: 96.5 mtrs. Superficie cubier...,AMPLIO DPTO DE TRES AMBIENTES CON COCHERA EN C...,https://thumbs4.properati.com/3/Z_dA5jowjB86m-...,Pilar,2319.587629,97.0
41629,41629,sell,house,Posadas,|Argentina|Misiones|Posadas|,Argentina,Misiones,3429886.0,"-27.4143938,-55.9185081",-27.414394,...,,,,http://www.properati.com.ar/18unf_venta_casa_p...,"CASA NUEVA , SOBRE AVENIDA ASFALTADA, CONSTRU...",CASA ZONA BARRIO INDEPENDENCIA,https://thumbs4.properati.com/7/tPaoQSzC9-CPHs...,Posadas,115.672575,800.0
104289,104289,sell,PH,Lomas de Zamora,|Argentina|Bs.As. G.B.A. Zona Sur|Lomas de Zam...,Argentina,Bs.As. G.B.A. Zona Sur,3431270.0,,,...,,,,http://www.properati.com.ar/1bt53_venta_ph_lom...,P.H. en planta alta. Consta de hall de entrada...,PH - Lomas De Zamora,https://thumbs4.properati.com/2/9hJQyocxiSoY_D...,Lomas de Zamora,1375.724533,
55981,55981,sell,apartment,Belgrano,|Argentina|Capital Federal|Belgrano|,Argentina,Capital Federal,3436077.0,"-34.5669681,-58.4723408",-34.566968,...,6.0,2.0,,http://www.properati.com.ar/19pye_venta_depart...,"Venta de Departamento 2 AMBIENTES en Belgrano,...",DEPARTAMENTO EN VENTA,https://thumbs4.properati.com/2/hDcdYeO6FGZLWc...,Belgrano,2864.40678,59.0
108633,108633,sell,PH,La Plata,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|La ...,Argentina,Bs.As. G.B.A. Zona Sur,3432039.0,,,...,,,,http://www.properati.com.ar/1c0pc_venta_ph_la-...,"PH con Agua Corriente, La Plata, La Plata, por...",PH - La Plata,https://thumbs4.properati.com/5/Cr5_ot1O5fqHgw...,La Plata,1008.064516,124.0


# Indicadores de limpieza

In [21]:
print("Cant. de nulos en surface_total_in_m2 iniciales:   %", (data.surface_total_in_m2.isnull().sum() / data.shape[0]*100).round(2))
print("Cant. de nulos en surface_covered_in_m2 iniciales:   %", (data.surface_covered_in_m2.isnull().sum() / data.shape[0]*100).round(2))
print("Cant. de nulos en superficie_unificada finales:   %", (salida_5.superficie_unificada.isnull().sum() / salida_5.shape[0]*100).round(2))

Cant. de nulos en surface_total_in_m2 iniciales:   % 32.44
Cant. de nulos en surface_covered_in_m2 iniciales:   % 16.42
Cant. de nulos en superficie_unificada finales:   % 10.52


In [22]:
print("Cant. de nulos en price_usd_per_m2 iniciales:   %", (data.price_usd_per_m2.isnull().sum() / data.shape[0]*100).round(2))
print("Cant. de nulos en precio_unificado finales:   %", (salida_5.precio_unificado.isnull().sum() / salida_5.shape[0]*100).round(2))

Cant. de nulos en price_usd_per_m2 iniciales:   % 43.39
Cant. de nulos en precio_unificado finales:   % 0.43
