# Trabajo Práctico - Properati

**Autor:** Lucas Díaz (luqui.diaz@gmail.com)
**Fecha:** 17 de Enero del 2021

[Link de la presentación ](https://docs.google.com/presentation/d/1DnxAIvRaBK4RqyH3nI65vuqDf0j8lzN6aLTgkQC3MRk/edit#slide=id.gb7c804a5c6_1_70)


## Primer Paso

Importo los módulos que voy a utilizar en el trabajo.

In [1]:
import pandas as pd
import numpy as np

## Segundo Paso

Leo el archivo que contiene el dataset que vamos a analizar. 

In [2]:
location = './data/properati.csv'
data = pd.read_csv(location, sep = ",")

Reviso si el archivo se levantó bien, y analizo las primeras filas con un head()

In [3]:
data.head(3)

Unnamed: 0.1,Unnamed: 0,operation,property_type,place_name,place_with_parent_names,country_name,state_name,geonames_id,lat-lon,lat,...,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail
0,0,sell,PH,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6618237,-58.5088387",-34.661824,...,40.0,1127.272727,1550.0,,,,http://www.properati.com.ar/15bo8_venta_ph_mat...,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB,https://thumbs4.properati.com/8/BluUYiHJLhgIIK...
1,1,sell,apartment,La Plata,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,Argentina,Bs.As. G.B.A. Zona Sur,3432039.0,"-34.9038831,-57.9643295",-34.903883,...,,,,,,,http://www.properati.com.ar/15bob_venta_depart...,Venta de departamento en décimo piso al frente...,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...,https://thumbs4.properati.com/7/ikpVBu2ztHA7jv...
2,2,sell,apartment,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6522615,-58.5229825",-34.652262,...,55.0,1309.090909,1309.090909,,,,http://www.properati.com.ar/15bod_venta_depart...,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO,https://thumbs4.properati.com/5/SXKr34F_IwG3W_...


Aparentemente, el archivo se levantó sin ningún problema. 

## Tercer Paso

Hago un primer análisis descriptivo para entender qué tipo de dataset estamos manejando

In [17]:
print('El dataset tiene: ', data.size, ' datos')
print('El dataset cuenta con', data.shape[0], "registros y ", data.shape[1], "columnas")

El dataset tiene:  3151720  datos
El dataset cuenta con 121220 registros y  26 columnas


In [48]:
print('En cuanto a los tipos de datos que tenemos \n\n', data.dtypes)

En cuanto a los tipos de datos que tenemos 

 Unnamed: 0                      int64
operation                      object
property_type                  object
place_name                     object
place_with_parent_names        object
country_name                   object
state_name                     object
geonames_id                   float64
lat-lon                        object
lat                           float64
lon                           float64
price                         float64
currency                       object
price_aprox_local_currency    float64
price_aprox_usd               float64
surface_total_in_m2           float64
surface_covered_in_m2         float64
price_usd_per_m2              float64
price_per_m2                  float64
floor                         float64
rooms                         float64
expenses                      float64
properati_url                  object
description                    object
title                          object
imag

Ahora revisemos qué cantidad de datos están vacios y qué complejidades esto podría traernos. 

In [55]:
print('Cantidad de nulos por columna del dataset: \n\n', data.isnull().sum())




Cantidad de nulos por columna del dataset: 

 Unnamed: 0                         0
operation                          0
property_type                      0
place_name                        23
place_with_parent_names            0
country_name                       0
state_name                         0
geonames_id                    18717
lat-lon                        51550
lat                            51550
lon                            51550
price                          20410
currency                       20411
price_aprox_local_currency     20410
price_aprox_usd                20410
surface_total_in_m2            39328
surface_covered_in_m2          19907
price_usd_per_m2               52603
price_per_m2                   33562
floor                         113321
rooms                          73830
expenses                      106958
properati_url                      0
description                        2
title                              0
image_thumbnail              

In [72]:
analisis_nulos = data.isnull().sum()
analisis_nulos = pd.DataFrame(analisis_nulos)

analisis_share_nulos = round(analisis_nulos / data.shape[0],2)



analisis_nulos['share_nulos'] = analisis_share_nulos
analisis_nulos = analisis_nulos.rename(columns = {0:"cantidad_nulos"})
analisis_nulos

Unnamed: 0,cantidad_nulos,share_nulos
Unnamed: 0,0,0.0
operation,0,0.0
property_type,0,0.0
place_name,23,0.0
place_with_parent_names,0,0.0
country_name,0,0.0
state_name,0,0.0
geonames_id,18717,0.15
lat-lon,51550,0.43
lat,51550,0.43


Acá podemos observar que los campos de Operación, tipo de propiedad, country, state_name y título no tienen ningún campo vacio por lo que se podría pensar que son campos obligatorios en este dataset. 

Lo que me llama mucho la atención es que haya 23 registros de place_name que no tengan datos pero si tengamos el place con el parent name. 

**Campos Faltantes**

Por otro lado, acá vemos que hay datos que por lo general las inmobiliarias no están cargando y por ende no se ve reflejado en el portal. En particular, campos que tienen alto share de nulos son:


- Piso: 93% de nulos.
- Espensas: 88% de nulos.


### Nos metemos un poco más en detalle para entender todas las variables y qué tipo de datos tiene cada una.

Para comenzar, vamos a entender más en detalle: 

- Qué tipos de propiedades estamos analizando?
- Si este dataset es de uno o más paises? 
- Los avisos que estamos necesitando por qué tipo de operaciones son?
- En qué moneda están nominadas las propiedades?
- Cómo es la relación place y place with parent names.



#### Property Type


In [117]:
# Me armo una serie solo con la columan de property type para analizarla por separado. 
propety_type_series = data.property_type

#Analizo qué tipo de valores toma esta variable.
types_of_properties = propety_type_series.unique()
types_of_properties

def print_list_properties(list):
    for i in list:
        print('- ',i)

print('Los valores que puede tomar la variable type_of_property parecería ser:')
print_list_properties(types_of_properties)

Los valores que puede tomar la variable type_of_property parecería ser:
-  PH
-  apartment
-  house
-  store


De esta forma ya sabemos que la variable puede tomar solo 4 valores: PH, Apartment, House y Store.


In [186]:
# Analicemos ahora como está distribuido el dataset según cada propiedad. 

analisis_tipo_propiedades_cantidad = propety_type_series.value_counts()
analisis_tipo_propiedades_share = round(propety_type_series.value_counts() /propety_type_series.value_counts().sum(),2)


analisis_tipo_propiedades = pd.DataFrame(analisis_tipo_propiedades_cantidad)
analisis_tipo_propiedades['share'] = analisis_tipo_propiedades_share 
analisis_tipo_propiedades = analisis_tipo_propiedades.rename(columns = {"property_type": "cantidad"})
analisis_tipo_propiedades

Unnamed: 0,cantidad,share
apartment,71065,0.59
house,40268,0.33
PH,5751,0.05
store,4136,0.03


De acá podemos observar que principalmente hay departamentos (59%) y casas (33%) en el dataset que estamos analizando. Esto nos ayuda a entender que nuestra habilidad para predecir el precio de una propiedad de este estilo va a ser más robusta que para un PH o Local. 

### Países




In [131]:
#Me armo una serie con la columna country para poder analizar en mayor detalle si este dataset cuenta con propiedades de más de un país o solo de uno. 
#Sabíamos que esta es una variables que no cuenta con ningún dato nulo. 
countries = data.country_name
unique_countries = countries.unique()

print('Este dataset tiene datos de propiedades en los siguientes países: ', unique_countries)


Este dataset tiene datos de propiedades en los siguientes países:  ['Argentina']


De esta forma ya confirmamos que todos los datos que tenemos en el dataset son de Argentina. 


### Tipo de operación


In [140]:
operation_type = data.operation
print('cantidad de tipos de operaciones:' , operation_type.unique().size)
print('Por lo que son todas operaciones de: ', operation_type.unique())

cantidad de tipos de operaciones: 1
Por lo que son todas operaciones de:  ['sell']


### Monedas en las que están nominados los avisos

In [145]:
# Me armo una serie para poder analizar en mayor detalle cantidad y tipos de monedas con las que vamos a estar trabajando. 
currency_type = data.currency
print('Los avisos que estamos analizando en el dataset están nominados en: ', currency_type.unique().size, 'monedas diferentes. Estas son', currency_type.unique())

Los avisos que estamos analizando en el dataset están nominados en:  5 monedas diferentes. Estas son ['USD' nan 'ARS' 'PEN' 'UYU']


De esta forma vemos que tenemos varios tipos de monedas. Si bien lo más común en Argentina es que las operaciones de compraventa estén nominadas en dólares, en este dataset tenemos algunos casos que están en ARS, PEN, UYU y algunos que no tienen moneda de refernecia. Vamos a analizar qué cantidad hay en cada uno de estos casos para entender si vale la pena tenerlos en cuenta porque son representativos o si simplemente las podemos desestimar. 



In [170]:
q_avisos_por_moneda = currency_type.value_counts()
share_avisos_por_moneda = currency_type.value_counts() / currency_type.count()
analisis_monedas = pd.DataFrame(q_avisos_por_moneda)
analisis_monedas['share'] = round(share_avisos_por_moneda,2)
analisis_monedas = analisis_monedas.rename(columns = {"currency": "cantidad"})

analisis_monedas

Unnamed: 0,cantidad,share
USD,87587,0.87
ARS,13219,0.13
PEN,2,0.0
UYU,1,0.0


- Con este análisis podemos revisar que los registros que están nominados en PEN o UYU son realmente insignificantes, por lo que no tiene sentido que los metamos en el análisis.
- En un segundo lugar, están las propiedades nominadas en ARS. Si bien la cantidad parecería ser más representativa (13%) considerando que las fluctuaciones del Tipo de Cambio en Argentina (País que estamos analizando), para usar en el futuro no serían datos que nos agreguen mucha estabilidad al modelo. 


> Habiendo analizado esto, lo que voy a hacer es armarme un dataset nuevo, donde solo se tengan en cuenta las propiedades que están nominadas en dólares que son las que voy a terminar utilizando para mi algoritmo de tasación. 


**Creo Nuevo Dataset**


In [175]:
# Me armo una máscara donde solo tome las propiedades nominadas en dólares
#Vuelvo a usar mi variable donde tenía una serie con los tipos de monedas

mask_avisos_nominados_dolares = currency_type == "USD"

#Confirmo que la cantidad de avisos que está tomando mi máscar coinciden con los del análisis anterior 
print('La cantidad de avisos que está tomando la máscara está ok:', mask_avisos_nominados_dolares.sum() == analisis_monedas['cantidad']['USD'])


La cantidad de avisos que está tomando la máscara está ok: True


In [184]:
data_usd = data.loc[mask_avisos_nominados_dolares,:]

print('Este nuevo dataset que creamos solo con los avisos nominados en dólares tiene', data_usd.shape[0], 'registros.')

Este nuevo dataset que creamos solo con los avisos nominados en dólares tiene 87587 registros.



### Relación place y place with parent names

In [4]:
#Del nuevo DataFrame, donde solo están los avisos nominados en dólares me traigo las dos columnas para analizar por separado. 

places = data_usd[['place_name','place_with_parent_names']]
places


NameError: name 'data_usd' is not defined

En un análisis anterior lo que me había llamado la atención era que un par de columnas tenían vacio el place name, pero no el place_with_parent_names.. Me interesa entender un poco más en detalle cuáles son estos casos y por qué se pudo haber dado. 


In [199]:
places.isnull().sum()

place_name                 23
place_with_parent_names     0
dtype: int64

In [208]:
# Para analizar en detalle voy a armar una máscara con los que tienen nulo el campo place_name.
mask_null_place_name = places.place_name.isnull()

#Ahora voy a armar un dataframe donde estén solo los casos que tienen nulo el campo place_name.

places_nulls = places.loc[mask_null_place_name,:]
places_nulls

Unnamed: 0,place_name,place_with_parent_names
6489,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
10201,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
11451,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
14839,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
18622,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
21922,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
23664,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
24722,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
38856,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||
45970,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||


Analizando los campos que tiene esta situación vemos que son todos de Tigre, pero parecería que le falta un campo porque hay dos || juntas. 

Veamos si hay otros campos en Tigre para entender cómo se comportan. 




In [215]:
mask_tigre = places.place_with_parent_names.str.contains('Tigre')

print("En el dataset vemos que hay varios avisos que están en Tigre:", places.place_with_parent_names.str.contains('Tigre').sum())

En el dataset vemos que hay varios avisos que están en Tigre: 7780


Armamos un nuevo dataframe donde estén los de tigre como para poder analizar en particular si podemos salvar estos casos atribuyéndoles un valor en place_name

In [263]:
places_tigre = places.loc[mask_tigre,:]
places_tigre_expanded = places_tigre.place_with_parent_names.str.split(pat = "|", expand = True)
print('Una vez expandido el campo, me queda un data set con la siguiente forma: ', places_tigre_expanded.shape)

#Analizando el dataset veo que hay un par de columnas que realmente no me aportan valor, sino que hacen ruido. Las 0 y la 6. 

places_tigre_expanded_without_columns = places_tigre_expanded.drop([0,6], axis=1)
print('\n\nAl haber removido las coilumnas que no estaba necesitando, el dataframe quedó así:')
places_tigre_expanded_without_columns

Una vez expandido el campo, me queda un data set con la siguiente forma:  (7780, 7)


Al haber removido las coilumnas que no estaba necesitando, el dataframe quedó así:


Unnamed: 0,1,2,3,4,5
17,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Nordelta,Barrio El Golf
18,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,,
26,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Barrio San Gabriel,
33,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Nordelta,Barrio El Golf
104,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Nordelta,
...,...,...,...,...,...
120962,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Nordelta,
121066,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Nordelta,
121089,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,,
121104,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,,


Para mejorar el manejo de este nuevo dataframe voy a cambiarle los labels a las columnas. 


In [269]:
#Armo un diccionario con los nuevos nombres que quiero

dict_nuevas_columnas = {
    1:"pais",
    2:"provincia",
    3:"partido",
    4:"barrio",
    5:"sub_barrio"
}

places_tigre_expanded_without_columns = places_tigre_expanded_without_columns.rename(columns = dict_nuevas_columnas)

places_tigre_expanded_without_columns

Unnamed: 0,pais,provincia,partido,barrio,sub_barrio
17,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Nordelta,Barrio El Golf
18,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,,
26,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Barrio San Gabriel,
33,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Nordelta,Barrio El Golf
104,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Nordelta,
...,...,...,...,...,...
120962,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Nordelta,
121066,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Nordelta,
121089,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,,
121104,Argentina,Bs.As. G.B.A. Zona Norte,Tigre,,


In [281]:
#Con un group by voy a buscar revisar cómo están distribuidos los siguientes registros para ver si puedo encontrar una forma de rellenar esos nulls. 

places_tigre_expanded_without_columns.groupby(["pais", "provincia","partido","barrio"]).count().sort_values(['sub_barrio'], ascending=False)


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,sub_barrio
pais,provincia,partido,barrio,Unnamed: 4_level_1
Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Nordelta,3194
Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Tigre,820
Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Benavidez,593
Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Rincón de Milberg,154
Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Santa Barbara Barrio Cerrado,93
Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Delta,86
Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Barrio San Gabriel,86
Argentina,Bs.As. G.B.A. Zona Norte,Tigre,Don Torcuato,84
Argentina,Bs.As. G.B.A. Zona Norte,Tigre,General Pacheco,77
Argentina,Bs.As. G.B.A. Zona Norte,Tigre,La Comarca,46


A priori podemos ver que hay varias opciones para asignar un barrio. A primera vista parecería ser que lo más seguro es poner como si fuera Tigre el short Name. 

Voy a pasar a completar todos los valores de place_name que están como nulos a ponerlos como Tigre. 


In [303]:
# Hago una máscara para fijarme los que tienen el campo place_name vacio. 

#mask_place_name_null = data_usd.place_name.isnull()
complete_place_name = data_usd.place_name.fillna('Tigre')
data_usd['place_name_completed'] = complete_place_name
data_usd.head(5)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """


Unnamed: 0.1,Unnamed: 0,operation,property_type,place_name,place_with_parent_names,country_name,state_name,geonames_id,lat-lon,lat,...,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail,place_name_correct,place_name_completed
0,0,sell,PH,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6618237,-58.5088387",-34.661824,...,1550.0,,,,http://www.properati.com.ar/15bo8_venta_ph_mat...,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB,https://thumbs4.properati.com/8/BluUYiHJLhgIIK...,Mataderos,Mataderos
1,1,sell,apartment,La Plata,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,Argentina,Bs.As. G.B.A. Zona Sur,3432039.0,"-34.9038831,-57.9643295",-34.903883,...,,,,,http://www.properati.com.ar/15bob_venta_depart...,Venta de departamento en décimo piso al frente...,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...,https://thumbs4.properati.com/7/ikpVBu2ztHA7jv...,La Plata,La Plata
2,2,sell,apartment,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6522615,-58.5229825",-34.652262,...,1309.090909,,,,http://www.properati.com.ar/15bod_venta_depart...,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO,https://thumbs4.properati.com/5/SXKr34F_IwG3W_...,Mataderos,Mataderos
3,3,sell,PH,Liniers,|Argentina|Capital Federal|Liniers|,Argentina,Capital Federal,3431333.0,"-34.6477969,-58.5164244",-34.647797,...,,,,,http://www.properati.com.ar/15boh_venta_ph_lin...,PH 3 ambientes con patio. Hay 3 deptos en lote...,PH 3 amb. cfte. reciclado,https://thumbs4.properati.com/3/DgIfX-85Mog5SP...,Liniers,Liniers
4,4,sell,apartment,Centro,|Argentina|Buenos Aires Costa Atlántica|Mar de...,Argentina,Buenos Aires Costa Atlántica,3435548.0,"-38.0026256,-57.5494468",-38.002626,...,1828.571429,,,,http://www.properati.com.ar/15bok_venta_depart...,DEPARTAMENTO CON FANTÁSTICA ILUMINACIÓN NATURA...,DEPTO 2 AMB AL CONTRAFRENTE ZONA CENTRO/PLAZA ...,https://thumbs4.properati.com/5/xrRqlNcSI_vs-f...,Centro,Centro


### Conclusiones de análisis hecho

De esta forma analizamos las 5 preguntas que nos hicimos al principio. 

- Qué tipos de propiedades estamos analizando?

Son 4 tipos de propiedades, pero en su mayoría van a ser departamentos y casas. 

- Si este dataset es de uno o más paises? 

Este es un dataset de propiedades en Argentina de forma exclusiva. 

- Los avisos que estamos necesitando por qué tipo de operaciones son?

Son solo avisos de venta. 


- En qué moneda están nominadas las propiedades?

El dataset original contaba con avisos en varias monedas, pero para trabajar nuestro algoritmo tasador, lo que vamos a hacer es tener en cuenta solo los avisos que están nominados en dólares. Para eso creamos un nuevo dataset -> data_usd.

- Cómo es la relación place y place with parent names.

Encontramos que había 23 casos donde el places_name estaba nulo y buscamos salvarlo analizando el campo place_with_parent_names que nos podía dar mucha más información. Así fue que terminamos completando los datos con el valor 'Tigre'.


## Construcción de dataset con el que vamos a trabajar

Como hablamos en el punto anterior, nos vamos a quedar con el dataset data_usd que son todos los avisos de properati que están nominados en USD. 

Para terminar de construir un dataset más rico con el que podamos trabajar mejor vamos a agregar una serie de columnas

### Armo un dataset separado con todos los locations


Para esto voy a reutilizar parte del código que desarrollamos para entender mejor qué pasaba con los nulls en el campo places_name

In [316]:
data_places = data_usd.place_with_parent_names.str.split(pat = "|", expand = True).drop([0,6], axis=1)

dict_nuevas_columnas = {
    1:"pais",
    2:"provincia",
    3:"partido",
    4:"barrio",
    5:"sub_barrio"
}

data_places = data_places.rename(columns = dict_nuevas_columnas)

data_places

Unnamed: 0,pais,provincia,partido,barrio,sub_barrio
0,Argentina,Capital Federal,Mataderos,,
1,Argentina,Bs.As. G.B.A. Zona Sur,La Plata,,
2,Argentina,Capital Federal,Mataderos,,
3,Argentina,Capital Federal,Liniers,,
4,Argentina,Buenos Aires Costa Atlántica,Mar del Plata,Centro,
...,...,...,...,...,...
121215,Argentina,Capital Federal,Belgrano,,
121216,Argentina,Bs.As. G.B.A. Zona Norte,San Isidro,Beccar,
121217,Argentina,Capital Federal,Villa Urquiza,,
121218,Argentina,Buenos Aires Costa Atlántica,Mar del Plata,Plaza Colón,


Por otro lado, voy a empezar a trabajar con un dataset que tenga de manera exclusiva información del aviso (eliminando la info del barrio, localidad, etc). Solo voy a dejar el place_name (renombrado barrio) para que me sirva como key con mi otra tabla. 

Aprovecho y borro las siguientes columnas porque son redundantes:

- **operation:** Sabemos del análisis anterior que son todos anuncions de venta.
- **country_name:** sabemos que son todos anuncions de argentina.
- **state_name:** lo llevamos a la otra tabla.
- **lat-lon:** este dato está desagregado como lat y lon en otras dos columnas
- **currency:** en este sub data set solo nos quedamos con avisos en dolares.


In [342]:

data_avisos = data_usd.drop(['place_with_parent_names','operation','country_name','state_name', 'lat-lon','currency','place_name_correct','place_name_completed'],axis=1)


Con el entendimiento que para la hora de valuar una propiedad lo que más nos va a importar son:
- precio
- m2 cubiertos
- m2 semicubiertos / descubiertos de la propiedad

De esta forma, se puede calcular el precio por m2, variable que usaremos para predecir cuánto vale la propiedad que estamos tasando. 

La fórmula que vamos a emplear es: 

USD_por_m2 = Precio / ( m2 cubiertos + m2 descubiertos/semicubiertos * 50%)

**Para comenzar con este análisis, veamos cómo está el dataset en relación con ests variables**

In [343]:
#Me armo un dataframe con las variable que quiero observar y evaluar. 
variables_en_observacion = data_avisos[['price','price_usd_per_m2','surface_covered_in_m2','surface_total_in_m2']]
variables_en_observacion.isnull().sum()

price                        0
price_usd_per_m2         27454
surface_covered_in_m2    10355
surface_total_in_m2      27267
dtype: int64

Analizando los resultados de nulos que tenemos en las variables críticas para nuestro algoritmo valuador vemos: 


- Todas las propiedades tienen un precio. 
- No todas tienen el dato de precio por m2 en dólares. Esto no es relevante porque lo podemos calcular nosotros mismos. 
- 10355 propiedades no tienen superficie cubierta
- 27267 no tienen la superficie total. 

El hecho que haya más propiedades sin superficie total que sin superficie, por momentos me hace pensar que podemos asumir la superficie total = superficie cubierta en estos casos. 


Analizamos cuáles son los casos que no tienen superficie cubierta:


In [357]:
#Creo una máscara
mask_sin_sup_cubierta = data_avisos.surface_covered_in_m2.isnull()
avisos_sin_sup_cubierta = data_avisos.loc[mask_sin_sup_cubierta,:]
avisos_sin_sup_cubierta_per_property_type = avisos_sin_sup_cubierta.property_type

#Analizo como está disstribuido los datos faltantes. 
avisos_sin_sup_cubierta_per_property_type.value_counts()

apartment    5352
house        3763
PH            640
store         600
Name: property_type, dtype: int64

Los registros que no tienen m2 cubiertos de la propiedad, representan el 13% de los avisos. Si bien se podría hacer una inferencia y reemplazar por la cantidad de m2 promedio teniendo en cuenta cuartil del precio, barrio y tipología en esta ocasión voy a optar por simplemente no tener en cuenta estos registros.


In [377]:
#Elimino los registros que no tienen m2. 

data_avisos_con_m2_cubiertas = data_avisos.drop(data_avisos[data_avisos['surface_covered_in_m2'].isnull()].index)
data_avisos_con_m2_cubiertas.head()

Unnamed: 0.1,Unnamed: 0,property_type,place_name,geonames_id,lat,lon,price,price_aprox_local_currency,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail
0,0,PH,Mataderos,3430787.0,-34.661824,-58.508839,62000.0,1093959.0,62000.0,55.0,40.0,1127.272727,1550.0,,,,http://www.properati.com.ar/15bo8_venta_ph_mat...,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB,https://thumbs4.properati.com/8/BluUYiHJLhgIIK...
2,2,apartment,Mataderos,3430787.0,-34.652262,-58.522982,72000.0,1270404.0,72000.0,55.0,55.0,1309.090909,1309.090909,,,,http://www.properati.com.ar/15bod_venta_depart...,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO,https://thumbs4.properati.com/5/SXKr34F_IwG3W_...
4,4,apartment,Centro,3435548.0,-38.002626,-57.549447,64000.0,1129248.0,64000.0,35.0,35.0,1828.571429,1828.571429,,,,http://www.properati.com.ar/15bok_venta_depart...,DEPARTAMENTO CON FANTÁSTICA ILUMINACIÓN NATURA...,DEPTO 2 AMB AL CONTRAFRENTE ZONA CENTRO/PLAZA ...,https://thumbs4.properati.com/5/xrRqlNcSI_vs-f...
6,6,PH,Munro,3430511.0,-34.532957,-58.521782,130000.0,2293785.0,130000.0,106.0,78.0,1226.415094,1666.666667,,,,http://www.properati.com.ar/15bor_venta_ph_mun...,MUY BUEN PH AL FRENTE CON ENTRADA INDEPENDIENT...,"MUY BUEN PH AL FRENTE DOS DORMITORIOS , PATIO,...",https://thumbs4.properati.com/5/6GOXsHCyDu1aGx...
7,7,apartment,Belgrano,3436077.0,-34.559873,-58.443362,138000.0,2434941.0,138000.0,45.0,40.0,3066.666667,3450.0,,,,http://www.properati.com.ar/15bot_venta_depart...,EXCELENTE MONOAMBIENTE A ESTRENAR AMPLIO SUPER...,JOSE HERNANDEZ 1400 MONOAMBIENTE ESTRENAR CAT...,https://thumbs4.properati.com/1/IHxARynlr8sPEW...


Ahora me concentro en aquellos que no tienen m2 totales para entender si puedo tomar como que los m2 cubiertos son iguales a los m2 totales. 

### Esto no me salió, pero lo dejo acá por las dudas para retomar después.

Lo que voy a hacer mientras es droppear aquellos que tampoco tengan null en m2 totales.

In [423]:
#Creo una máscara

mask_m2_totales_nulos = data_avisos_con_m2_cubiertas.surface_total_in_m2.isnull()


#Me creo un dataframe para analizarlos

data_avisos_sin_m2_total = data_avisos_con_m2_cubiertas.loc[mask_m2_totales_nulos,:]
print(data_avisos_sin_m2_total.property_type.value_counts())
print(data_avisos_sin_m2_total.property_type.value_counts().sum())

apartment    10650
house         8573
PH            1482
store          732
Name: property_type, dtype: int64
21437


Acá podríamos ahcer algunas diferenciaciones por tipo de propiedad a la hora de realizar una estimación. Los departamentos y los locales tienen mayor probabilidad a no contar con m2 descubiertos, que una casa o un ph. Pero en este caso, para simplificar vamos a tomar que todos estos casos sup total = sup cubierta. 

In [419]:
sup_total_corregida = data_avisos_con_m2_cubiertas.apply(lambda x: x['surface_covered_in_m2'] if x['surface_total_in_m2'] is None else x['surface_total_in_m2'], axis =1 )

In [420]:
print(sup_total_corregida.size)
print(data_avisos_con_m2_cubiertas.shape)

data_avisos_con_m2_cubiertas['sup_total_corregida'] = sup_total_corregida

77232
(77232, 21)


In [421]:
data_avisos_con_m2_cubiertas.isnull().sum()

Unnamed: 0                        0
property_type                     0
place_name                        0
geonames_id                   14467
lat                           30931
lon                           30931
price                             0
price_aprox_local_currency        0
price_aprox_usd                   0
surface_total_in_m2           21437
surface_covered_in_m2             0
price_usd_per_m2              21437
price_per_m2                      2
floor                         71338
rooms                         44206
expenses                      65652
properati_url                     0
description                       1
title                             0
image_thumbnail                1169
sup_total_corregida           21437
dtype: int64

In [426]:
#Creo una máscara
mask_sin_sup_total = data_avisos.surface_total_in_m2.isnull()
avisos_sin_sup_cubierta = data_avisos.loc[mask_sin_sup_total,:]
avisos_sin_sup_cubierta_per_property_type = avisos_sin_sup_cubierta.property_type

#Analizo como está disstribuido los datos faltantes. 
print(avisos_sin_sup_cubierta_per_property_type.value_counts())
print(avisos_sin_sup_cubierta_per_property_type.value_counts().sum())



apartment    10650
house         8573
PH            1482
store          732
Name: property_type, dtype: int64
21437


In [427]:
data_avisos_con_m2_cubiertas_y_total = data_avisos_con_m2_cubiertas.drop(data_avisos[data_avisos['surface_total_in_m2'].isnull()].index)
data_avisos_con_m2_cubiertas_y_total.head()

Unnamed: 0.1,Unnamed: 0,property_type,place_name,geonames_id,lat,lon,price,price_aprox_local_currency,price_aprox_usd,surface_total_in_m2,...,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail,sup_total_corregida
0,0,PH,Mataderos,3430787.0,-34.661824,-58.508839,62000.0,1093959.0,62000.0,55.0,...,1127.272727,1550.0,,,,http://www.properati.com.ar/15bo8_venta_ph_mat...,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB,https://thumbs4.properati.com/8/BluUYiHJLhgIIK...,55.0
2,2,apartment,Mataderos,3430787.0,-34.652262,-58.522982,72000.0,1270404.0,72000.0,55.0,...,1309.090909,1309.090909,,,,http://www.properati.com.ar/15bod_venta_depart...,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO,https://thumbs4.properati.com/5/SXKr34F_IwG3W_...,55.0
4,4,apartment,Centro,3435548.0,-38.002626,-57.549447,64000.0,1129248.0,64000.0,35.0,...,1828.571429,1828.571429,,,,http://www.properati.com.ar/15bok_venta_depart...,DEPARTAMENTO CON FANTÁSTICA ILUMINACIÓN NATURA...,DEPTO 2 AMB AL CONTRAFRENTE ZONA CENTRO/PLAZA ...,https://thumbs4.properati.com/5/xrRqlNcSI_vs-f...,35.0
6,6,PH,Munro,3430511.0,-34.532957,-58.521782,130000.0,2293785.0,130000.0,106.0,...,1226.415094,1666.666667,,,,http://www.properati.com.ar/15bor_venta_ph_mun...,MUY BUEN PH AL FRENTE CON ENTRADA INDEPENDIENT...,"MUY BUEN PH AL FRENTE DOS DORMITORIOS , PATIO,...",https://thumbs4.properati.com/5/6GOXsHCyDu1aGx...,106.0
7,7,apartment,Belgrano,3436077.0,-34.559873,-58.443362,138000.0,2434941.0,138000.0,45.0,...,3066.666667,3450.0,,,,http://www.properati.com.ar/15bot_venta_depart...,EXCELENTE MONOAMBIENTE A ESTRENAR AMPLIO SUPER...,JOSE HERNANDEZ 1400 MONOAMBIENTE ESTRENAR CAT...,https://thumbs4.properati.com/1/IHxARynlr8sPEW...,45.0


In [429]:
data_avisos_con_m2_cubiertas_y_total.shape

(55795, 21)

Ahora ya tengo el dataset con el que voy a trabajar, le cambio de nombre para facilitar el uso: 


In [430]:
data_clean = data_avisos_con_m2_cubiertas_y_total

## Empiezo a agrupar para generar un predictor en base a esas variables



Agrego dos campos que van a ser fundamentales para poder generar las columnas de precio por metro cuadrado.

In [435]:
data_clean['surface_descubierta_in_m2'] = data_clean['surface_total_in_m2'] - data_clean['surface_covered_in_m2']
data_clean['precio_m2'] = round(data_clean['price'] / (data_clean['surface_covered_in_m2'] + 0.5 * data_clean['surface_descubierta_in_m2']),2)

Unnamed: 0.1,Unnamed: 0,property_type,place_name,geonames_id,lat,lon,price,price_aprox_local_currency,price_aprox_usd,surface_total_in_m2,...,floor,rooms,expenses,properati_url,description,title,image_thumbnail,sup_total_corregida,surface_descubierta_in_m2,precio_m2
0,0,PH,Mataderos,3430787.0,-34.661824,-58.508839,62000.0,1093959.00,62000.0,55.0,...,,,,http://www.properati.com.ar/15bo8_venta_ph_mat...,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB,https://thumbs4.properati.com/8/BluUYiHJLhgIIK...,55.0,15.0,1305.26
2,2,apartment,Mataderos,3430787.0,-34.652262,-58.522982,72000.0,1270404.00,72000.0,55.0,...,,,,http://www.properati.com.ar/15bod_venta_depart...,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO,https://thumbs4.properati.com/5/SXKr34F_IwG3W_...,55.0,0.0,1309.09
4,4,apartment,Centro,3435548.0,-38.002626,-57.549447,64000.0,1129248.00,64000.0,35.0,...,,,,http://www.properati.com.ar/15bok_venta_depart...,DEPARTAMENTO CON FANTÁSTICA ILUMINACIÓN NATURA...,DEPTO 2 AMB AL CONTRAFRENTE ZONA CENTRO/PLAZA ...,https://thumbs4.properati.com/5/xrRqlNcSI_vs-f...,35.0,0.0,1828.57
6,6,PH,Munro,3430511.0,-34.532957,-58.521782,130000.0,2293785.00,130000.0,106.0,...,,,,http://www.properati.com.ar/15bor_venta_ph_mun...,MUY BUEN PH AL FRENTE CON ENTRADA INDEPENDIENT...,"MUY BUEN PH AL FRENTE DOS DORMITORIOS , PATIO,...",https://thumbs4.properati.com/5/6GOXsHCyDu1aGx...,106.0,28.0,1413.04
7,7,apartment,Belgrano,3436077.0,-34.559873,-58.443362,138000.0,2434941.00,138000.0,45.0,...,,,,http://www.properati.com.ar/15bot_venta_depart...,EXCELENTE MONOAMBIENTE A ESTRENAR AMPLIO SUPER...,JOSE HERNANDEZ 1400 MONOAMBIENTE ESTRENAR CAT...,https://thumbs4.properati.com/1/IHxARynlr8sPEW...,45.0,5.0,3247.06
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
121215,121215,apartment,Belgrano,3436077.0,,,870000.0,15350715.00,870000.0,113.0,...,,,10000.0,http://www.properati.com.ar/1cja2_venta_depart...,TORRE FORUM ALCORTA - MÁXIMA CATEGORÍA.Impecab...,Torre Forum Alcorta- Impecable 3 ambientes,https://thumbs4.properati.com/1/bjms0KnaAnlNoQ...,113.0,20.0,8446.60
121216,121216,house,Beccar,3436080.0,,,498000.0,8786961.00,498000.0,360.0,...,,,,http://www.properati.com.ar/1cja6_venta_casa_b...,Excelente e impecable casa en Venta en Las Lom...,Ruca Inmuebles | Venta | Lomas de San Isidro |...,https://thumbs4.properati.com/2/PCc3WuQDjpNZc4...,360.0,0.0,1383.33
121217,121217,apartment,Villa Urquiza,3433775.0,-34.570639,-58.475596,131500.0,2320251.75,131500.0,46.0,...,,,,http://www.properati.com.ar/1cja7_venta_depart...,VENTA DEPARTAMENTO AMBIENTE DIVISIBLE A ESTREN...,VENTA DEPARTAMENTO AMBIENTE DIVISIBLE A ESTREN...,https://thumbs4.properati.com/9/YAe_-2gRVykADP...,46.0,7.0,3094.12
121218,121218,apartment,Plaza Colón,,,,95900.0,1692107.55,95900.0,48.0,...,,,,http://www.properati.com.ar/1cja8_venta_depart...,"2 Amb al contrafrente, luminoso. El departame...",2 amb. C/ dep. de servicio al contrafrente| Re...,https://thumbs4.properati.com/8/Q12PTvU6BQJ0ib...,48.0,0.0,1997.92


In [472]:
data_clean_grouped = data_clean.groupby(['place_name', 'property_type'])

predictor = data_clean_grouped.precio_m2.mean()


La variable predictor es la que voy a usar para poder valuar la propiedad

## Armo la función que va a hacer de predictor

In [485]:
def predictor_propiedades(m2_cubiertos,m2_totales,barrio,tipo_propiedad):
    valor_m2 = data_clean_grouped.precio_m2.mean()[barrio][tipo_propiedad]
    m2_descubiertos = m2_totales-m2_cubiertos
    valor_propiedad = (m2_cubiertos + m2_descubiertos * 0.5) * valor_m2
    print('El valor promedio del metro cuadrado para un', tipo_propiedad, 'en el barrio de', barrio, 'es de USD', round(valor_m2,2))
    print('Como su propiedad tiene:', m2_cubiertos, 'm2 cubiertos y', m2_descubiertos, 'm2 descubiertos, su propiedad tiene un valor de USD', round(valor_propiedad,2))


In [486]:
predictor_propiedades(30,45,'Abasto','apartment')

El valor promedio del metro cuadrado para un apartment en el barrio de Abasto es de USD 2314.76
Como su propiedad tiene: 30 m2 cubiertos y 15 m2 descubiertos, su propiedad tiene un valor de USD 86803.4
