# Desafio Properati - Limpieza de datos - Grupo 3

En este proyecto el desafío es limpiar la base de datos de inmuebles provista por Properati.

El objetivo de la limpieza es dejar listo el dataset para luego poder utilizarlo para hacer regresiones y calcular el valor de nuevas observaciones.

## ¿Cómo lo vamos a hacer?
Decidimos estructurar nuestras tareas en cuatro bloques de trabajo:
* 1: Análisis exploratorio. 
* 2: Normalizar, corregir y rellenar la informacion que lo permita, sin afectar prediciones futuras.
* 3: Quitar todo lo que no nos sirve.
* 4: Calcular las variables dummies y mostrar los resultados.

## 1. Análisis exploratorio

A partir del analisis exploratorio de los datos, ponemos a prueba algunas de las hipótesis que tendremos en cuenta para estandarizar la información. 
En los casos en los que nuestras hipótesis se corroboran, definimos las estrategias que tomaremos para corregir el dataset en el siguiente bloque de trabajo. 

In [7]:
import pandas as pd
import geopandas as gpd
import folium
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib as mpl
import re
from IPython.core.display import HTML
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

%matplotlib inline

# usado para pruebas hechas sobre  las urls de imagenes y link a las publicaciones
import requests 
import hashlib 

ImportError: dlopen(/Users/Leandro/anaconda3/lib/python3.7/site-packages/fiona/ogrext.cpython-37m-darwin.so, 2): Library not loaded: @rpath/libkea.1.4.7.dylib
  Referenced from: /Users/Leandro/anaconda3/lib/libgdal.20.dylib
  Reason: image not found

In [None]:
# importo archivo
df = pd.read_csv("properatti.csv")
df.shape

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
#Obtenemos los porcentajes de datos faltantes de cada columna
for cols in df.columns:
    nulos = df[cols].isnull().sum()
    porcentaje = nulos/len(df)
    print(f'{porcentaje*100:.0f}%', cols)

Con respecto a los datos faltantes, rápidamente podemos descartar variables que son innecesarias, tales como:
`properati_url`, `Unnamed:0`, `lat` y `lon`. Estas últmas  2, no son necesarias ya que contamos con `lat-lon` que tiene mayor precisión.

Por otra parte, existen demasiados datos faltantes de las variables `floor` y `expenses`, por lo que sería conveniente descartarlas por completo. 

En cuanto a una las variables críticas del modelo, vemos que `rooms` tiene un 61% de datos faltantes, lo que requiere dedicación para extraer datos de los títulos y descripciones. También es alarmante que no existan datos de **baños**, **dormitorios**, **amenities** o de **cocheras**, por lo que sería conveniente al menos intentar extraer datos relacionados.

Finalmente, las variables relacionadas a las coordenadas geográficas tienen datos sobre el 57% de la muestra y lamentablemente no es factible intentar extraerla ya que no es información que se pueda conseguir en las descripciones. Afortunadamente contamos con información de los barrios y localidades en la variable `place_with_parent_names`, lo que nos permite generar dummies y calcular matrices de ponderación espacial por contigüidad.

### Trabajos exploratorios con la superficie de las propiedades:

##### Trabajo  sobre m2 en superficie total y superficie cubierta con valores invertidos:

In [None]:
# Buscamos los casos en los que la superficie total es menor que la superficie cubierta.
print("Muestra de M2 con superficie total menor que superficie cubierta")
display(df.loc[(df.surface_total_in_m2 < df.surface_covered_in_m2),["surface_total_in_m2","surface_covered_in_m2"]].sample(5))


#Suponemos que los valores de las columnas de superficie total y superficie cubierta pueden estar invertidos por error. 
#Estimamos la división de uno sobre otro para calcular la media de esta diferencia que nos permita corroborar nuestra hipótesis.
df['cubierta_sobre_total'] = df['surface_total_in_m2']/ df['surface_covered_in_m2'] 
df['total_sobre_cubierta'] = df['surface_covered_in_m2']/ df['surface_total_in_m2']
df['valores_invertidos'] = df['surface_covered_in_m2'] < df['surface_total_in_m2']

#Dropeamos los valores iguales para que no afecten el promedio.
#Observamos que son valores similares y que por lo tanto nos permiten asumir que los valores de ambas columnas fueron invertidos.
print("Resumen de la media de la relacion de variables sobre M2 (valores invertidos y no invertidos)")
display(
    df.drop(df.loc[df['surface_total_in_m2'] == df['surface_covered_in_m2']].index)\
    [["valores_invertidos","total_sobre_cubierta","cubierta_sobre_total"]].groupby(['valores_invertidos']).mean()
)

# Por esto decidimo invertir los valores de las columnas de superficie total y superficie cubierta en aquellos casos que la primera es inferior a la segunda

##### Trabajo sobre m2 en superficie total y superficie cubierta según tipo de propiedad:

In [None]:
#Contamos los casos que tienen una superficie total inferior a superficie cubierta según tipo de propiedad.
print ('Casos con superifice total inferior a superficie cubierta por tipo de propiedad')
display (df.loc[(df.surface_total_in_m2 < df.surface_covered_in_m2)]['property_type'].value_counts())

print ('--------------')

#Contamos casos segun tipo de propiedad para obtener relacion porcentual. Concluimos que no es una variable significativa para etsa relación.
print ('Casos totales por tipo de propiedad')
display (df['property_type'].value_counts())


##### Trabajo  para completar m2 a partir del valor de la propiedad y del valor por metro:

In [None]:
# Solo puedo averiguar mi incognita si tengo metros y valor por metro
# ejemplo: x = df['price_aprox_usd']/df['price_usd_per_m2']

#Buscamos las diferentes combinaciones
print("USD, Con Precio y PPM USD pero sin M2: {}".format(
    df.loc[(~df["price_aprox_usd"].isnull()) & (~df["price_usd_per_m2"].isnull()) & (df["surface_total_in_m2"].isnull()),"operation"].count()
))
print("ARS, Con Precio y PPM ARS pero sin M2: {}".format(
    df.loc[(~df["price_aprox_local_currency"].isnull()) & (~df["price_per_m2"].isnull()) & (df["surface_total_in_m2"].isnull()),"operation"].count()
))
print("Con Precio default y PPM default pero sin M2: {}".format(
    df.loc[(~df["price"].isnull()) & (~df["price_per_m2"].isnull()) & (df["surface_total_in_m2"].isnull()),"operation"].count()
))
print("Con Precio default y PPM USD pero sin M2: {}".format(
    df.loc[(~df["price"].isnull()) & (~df["price_usd_per_m2"].isnull()) & (df["surface_total_in_m2"].isnull()),"operation"].count()
))

# Hipotesis refutada, no sirve para obtener nuevos datos

##### Trabajo para completar m2 a partir de valores útiles en título y descripción:

In [None]:
#Creamos una regex  y la corremos en titulo y en descripcion para ver que encuentra
pattern= r'([\.\d]{2,99}) (?!m²|m2|mt|metro)'
m2ExtractedFromTitle=df.loc[df["surface_total_in_m2"].isnull(),'title'].str.extract(pattern, re.IGNORECASE)
m2FromDescription=df.loc[df["surface_total_in_m2"].isnull(),'description'].str.extract(pattern, re.IGNORECASE)

# Imprimir resumen resultados
print("Valores en columna titulo: {}".format(m2ExtractedFromTitle.dropna().describe().loc["count",0]))
print("Valores en columna descripcion: {}".format(m2FromDescription.dropna().describe().loc["count",0]))


# Imprimir lo encontrado en titulo.
df["m2Extracted"] = m2ExtractedFromTitle
for index,x in df.iloc[m2ExtractedFromTitle.dropna().index].loc[:,["title","m2Extracted"]].iterrows():
    print("\r Found: {}  \t Title: {}  ".format(x["m2Extracted"],x["title"]))

    
# Dropeamos columna temporal
df.drop("m2Extracted",axis=1,inplace=True)

#Tras revisar los resultados, hay muchas informacion falsa y no es confiable

##### Trabajo  para completar cantidad de ambientes con valores útiles en título y descripción:

In [None]:
#Creamos una regex  y la corremos en título y en descripcíon para ver que encuentra
pat_ambientes = r'\b(\d{1,2})\s*amb'

#Extraemos los datos las nuevas columnas amb_tit y amb_desc del título y la descripcion
df['amb_tit'] = df.title.str.extract(pat_ambientes, re.IGNORECASE, expand=True).astype(np.float)
df['amb_desc'] = df.description.str.extract(pat_ambientes, re.IGNORECASE, expand=True).astype(np.float)

#Verificamos los valores extraídos
print ("Cantidad de ambientes extraídos de títulos:")
display (df.loc[~(df.amb_tit.isnull())].filter(['amb_tit']).sort_values('amb_tit').amb_tit.unique())
print ("Cantidad de ambientes extraídos de descripciones:")
display (df.loc[~(df.amb_desc.isnull())].filter(['amb_desc']).sort_values('amb_desc').amb_desc.unique())

Tras revisar los resultados,  concluimos que en las descripciones hay mucha información falsa y no confiable. 
Optamos solo por extraer los valores del título. 

##### Trabajo para completar cantidad de dormitorios con valores útiles en título y descripción:

In [None]:
#Creamos una regex  y la corremos en título y en descripción para ver que encuentra
pat_dormitorios = r'\b(\d{1,2})\s*dor'

#Extraemos los datos a las nuevas columnas dor_tit y dor_desc del título y la descripcion
df['dor_tit'] = df.title.str.extract(pat_dormitorios, re.IGNORECASE, expand=True).astype(np.float)
df['dor_desc'] = df.description.str.extract(pat_dormitorios, re.IGNORECASE, expand=True).astype(np.float)

#Verificamos los valores extraídos
print ("Cantidad de dormitorios extraídos de títulos:")
display (df.loc[~(df.dor_tit.isnull())].filter(['dor_tit']).sort_values('dor_tit').dor_tit.unique())
print ("Cantidad de dormitorios extraídos de descripciones:")
display (df.loc[~(df.dor_desc.isnull())].filter(['dor_desc']).sort_values('dor_desc').dor_desc.unique()
)
#Tras revisar los resultados, optamos por no tomar ninguno de los datos extraidos dado que mucha información es falsa y no confiable

##### Trabajo para recuperar cantidad de baños con valores útiles en título y descripción: 

In [None]:
#Creamos una regex  y la corremos en título y en descripción para ver que encuentra
pat_banos = r'\b(\d{1,2})\s*bañ'

#Extraemos los datos a las nuevas columnas bath_tit y bath_desc del título y la descripcion
df['bath_tit'] = df.title.str.extract(pat_banos, re.IGNORECASE, expand=True).astype(np.float)
df['bath_desc'] = df.description.str.extract(pat_banos, re.IGNORECASE, expand=True).astype(np.float)

#Verificamos los valores extraídos
print ("Cantidad de baños extraídos de títulos:")
display (df.loc[~(df.bath_tit.isnull())].filter(['bath_tit']).sort_values('bath_tit').bath_tit.unique())
print ("Cantidad de baños extraídos de descripciones:")
display (df.loc[~(df.bath_desc.isnull())].filter(['bath_desc']).sort_values('bath_desc').bath_desc.unique())

#Tras revisar los resultados, optamos por no tomar ninguno de los datos extraidos dado que el volumen de datos que extraemos no es significativo

Como podemos ver, cuando extraemos datos de la descripción, tenemos mezclados la cantidad de ambientes y los metros de algún ambiente, por lo cual no los consideraremos.

##### Trabajo para completar los datos faltantes de 'rooms' a partir de los datos de ambientes obtenidos en títulos:

Tomamos un subset compuesto por las observaciones que tienen valores en la variable `rooms` y los que también tienen en el título, es decir `amb_tit` y hacemos un booleano entre dichas Series.

Lo que nos devuelve es una serie de booleanos, que tienen la propiedad de que los valores `True` son iguales a 1, mientras que los `False` son 0.


In [None]:
ambientes = df.filter(['amb_tit', 'dor_tit', 'rooms']).\
        loc[~(df.rooms.isnull()) & ~(df.amb_tit.isnull())].amb_tit.astype(np.float64) == \
    df.filter(['amb_tit', 'dor_tit', 'rooms']).loc[~(df.rooms.isnull()) & ~(df.amb_tit.isnull())].rooms

Hacemos la suma total de los valores, donde nos dará el total de `True`s, y lo dividimos en la longitud total de la serie.

In [None]:
ambientes.sum()/len(ambientes)

El resultado anterior indica que rooms y ambientes es lo mismo en un 94% de los casos, por lo que podemos rellenar los `NaN` de *'rooms'* con *'amb_tit'*

###### Llenamos los `NaN` con los valores obtenidos en `amb_tit`

In [None]:
#Revisamos cuantos podemos salvar
df.loc[(df.rooms.isnull()) & (~df.amb_tit.isnull())]

#Llenamos los NaN's verificando cuales no tienen valores en rooms
display(df.loc[~df.rooms.isnull()].shape)

#Hacemos el fillna
df.rooms.fillna(df.amb_tit, inplace=True)

'Observaciones con datos de ambientes:',df.loc[~df.rooms.isnull()].shape


##### Trabajo sobre la variable `lat-lon`

In [None]:
# separamos la variable en 2
lat_lon = df['lat-lon'].str.split(',', expand=True)
lat_lon = lat_lon.rename({0:'lat', 1:'lon'}, axis=1)

In [None]:
# tiramos las variables innecesarias y unimos al dataframe original
df = df.drop(['lat-lon', 'lat', 'lon'], axis=1).join(lat_lon)

In [None]:
# los convertimos en float.
df['lat'] = df.lat.astype(np.float)
df['lon'] = df.lon.astype(np.float)

### Trabajos exploratiorios con precios de las propiedades:

Me centrare en las columnas 'place_name', 'price', 'currency', 'price_aprox_local_currency', 'price_aprox_usd', 'surface_total_in_m2', 'surface_covered_in_m2', 'price_usd_per_m2', 'price_per_m2'

Tenemos 20 mil casos sin ningun dato de precio. Creo el DF dfprecio para trabajar todo lo relacionado a precio en el:


In [None]:
mycolums = df[['place_name', 'price', 'currency', 'price_aprox_local_currency',
               'price_aprox_usd', 'surface_total_in_m2', 'surface_covered_in_m2',
               'price_usd_per_m2', 'price_per_m2', 'title', 'description']];
dfprecio = mycolums.loc[((df['price'].isnull()) & (df['price_aprox_usd'].isnull())\
                         &(df['price_aprox_local_currency'].isnull()) \
                         &(df['price_usd_per_m2'].isnull()) & (df['price_per_m2'].isnull()))];

Extraigo precios de los titulos y descripciones. Creo 2 dataframes


In [None]:
patron_p = r'([$]|[Uu][Ss$][$SDsd]*)\s*(\d*)[\s* .,]*(\d*)[\s* .,](\d*)'
df_precio_desc = dfprecio['description'].str.extract(patron_p)
df_precio_title = dfprecio['title'].str.extract(patron_p)

### Trabajos exploratorios con la ubicación de las propiedades: 

###### Trabajo para recuperar ubicación faltante de las propiedades desde geonames
Descargamos de acá: https://download.geonames.org/export/dump/ la base de datos de geonames de argentina
Leemos la base de datos

In [None]:
geo_column_names = ["geonameid","name","asciiname","alternatenames","lat","lon",
                    "feature class","feature code","country code","cc2",
                    "admin1 code","admin2 code","admin3 code","admin4 code","population",
                    "elevation","dem","timezone","modification date"]

geo = pd.read_csv("AR.txt",sep='\t',index_col=0,names=geo_column_names,)

# Muestra de datos relevantes
print("Shape de la base de datos: {}".format(geo.shape))
print("Muestra de datos de la DB de geonames")
display(geo[["name","lat","lon"]].sample(5))

# Joineamos las tablas por el id de geoname
geodf=df.join(geo[["lat","lon"]],on="geonames_id",rsuffix="_geo")

# Imprimo resultados encontrados
print("")
print("Encontramos datos de latitud y longitud que no teniamos para {} observaciones".format(geodf.loc[(geodf["lat"].isnull()) & (~geodf["lat_geo"].isnull())].shape[0]))
print("No pudimos encontrar nuevos datos de latitud y longitud para {} observaciones".format(geodf.loc[(~geodf["lat"].isnull()) & (geodf["lat_geo"].isnull())].shape[0]))
print("Nuestro Dataset original podria quedar solo con {} observaciones sin latitud y longitud".format(geodf.loc[(geodf["lat"].isnull()) & (geodf["lat_geo"].isnull())].shape[0]))
print("")
print("Muestra de resultados con datos existentes y encontrados en Base de geonames")
geodf.loc[(~geodf["lat"].isnull()) & (~geodf["lat_geo"].isnull()),["place_with_parent_names","geonames_id","lat-lon","lat","lon","lat_geo","lon_geo"]].sample(10)

#CONCLUSIÓN 

##### Conclusión
Con esta metodología se pueden obtener datos de latitud y longitud pero con menor precisión. Por el momento no las incluiremos en el dataset final

### Trabajo exploratorio con url de imágenes:
##### Trabajo con duplicación de imágenes

In [None]:
# Analizamos los primeros 100 casos, leemos la imagen, y le hacemos un hash para comparar a ver si es exacta igual a otra.
r = pd.DataFrame([
    hashlib.md5(requests.get(url = df.loc[x,"image_thumbnail"], params = []).text.encode()).hexdigest() for x in range(100)
])
# Imprimo  cantidad de duplicados
print("Cantidad de imagenes duplicadas (con distinta url) de las primeras 100 observaciones {} ".format(r.duplicated().sum()))

#Concluimos que no es una variable significativa ya que cuenta con imágenes duplicadas

##  2. Normalizar, corregir y rellenar información

En este bloque pretendemos llevar a cabo lo concluido a partir del análisis exploratorio. El objetivo es estandarizar la información del dataset, corrigiendo y completando datos faltantes. 

### Trabajos realizados sobre superficie de las propiedades:

##### Corregimos m2 que encontramos invertidos entre superficie total y superficie cubierta:

In [None]:
#Creo columna temporal_dos para filtrar subconjunto de datos relevantes a invertir
df['temporal_dos'] = (df.surface_total_in_m2 < df.surface_covered_in_m2)
print("Cantidad de registros a invertir entre Superficies total y cubierta: {}".format(df['temporal_dos'].sum()))

#Creo columna temporal para guardar datos
df['temporal'] = df.surface_total_in_m2 

#Paso valores de superficie cubierta a superficie total
df.loc[df['temporal_dos'],'surface_total_in_m2'] = df.loc[df['temporal_dos'],'surface_covered_in_m2']

#Paso valores de superficie total a superficie cubierta
df.loc[df['temporal_dos'], 'surface_covered_in_m2'] = df.loc[df['temporal_dos'], 'temporal']

#Recreamos la columna temporal para ver si siguen existiendo valores invertidos
df['temporal_dos'] = (df.surface_total_in_m2 < df.surface_covered_in_m2)
print("Cantidad de registros que siguen invertidos: {}".format(df['temporal_dos'].sum()))

#Dropeamos las temporales
df.drop('temporal', axis=1, inplace=True)
df.drop('temporal_dos', axis=1, inplace=True);

##### Limpiamos nulls en variables de superficie:

In [None]:
# Los metros en cero en superficie totales los ponemos en null
print("Valores M2 cubierto en cero puestos en Nan: {}".format((df["surface_covered_in_m2"] == 0).sum()))
print("Valores M2 totales en cero puestos en Nan: {}".format((df["surface_total_in_m2"] == 0).sum()))
df.loc[(df["surface_total_in_m2"] == 0),["surface_total_in_m2"]] = np.nan
df.loc[(df["surface_covered_in_m2"] == 0),["surface_covered_in_m2"]] = np.nan
print("-------------")

#Revisamos valores antes del reemplazo
print("Antes del reemplazo")
print("Nulos en totales: {}".format(df['surface_total_in_m2'].isnull().sum()))
print("Nulos en cubiertos: {}".format(df['surface_covered_in_m2'].isnull().sum()))
print("Nulos en ambos al mismo tiempo: {}".format(df.loc[(df['surface_covered_in_m2'].isnull()) & (df['surface_total_in_m2'].isnull()) ,:].loc[:,"operation"].count()))
print("Nulos totales y no en cubiertos: {}".format(df.loc[(~df['surface_covered_in_m2'].isnull()) & (df['surface_total_in_m2'].isnull()) ,:].loc[:,"operation"].count()))
print("Nulos cubierto y no en totales: {}".format(df.loc[(df['surface_covered_in_m2'].isnull()) & (~df['surface_total_in_m2'].isnull()) ,:].loc[:,"operation"].count()))
print("Valores iguales: {}".format(df.loc[df['surface_total_in_m2'] == df['surface_covered_in_m2'],"surface_covered_in_m2"].count()))


# relleno los m2totales faltantes con los cubiertos
df.loc[(~df['surface_covered_in_m2'].isnull()) & ( df['surface_total_in_m2'].isnull()) ,"surface_total_in_m2"] = df["surface_covered_in_m2"]
# relleno los m2cubiertos faltantes con los totales
df.loc[( df['surface_covered_in_m2'].isnull()) & (~df['surface_total_in_m2'].isnull()) ,"surface_covered_in_m2"] = df["surface_total_in_m2"]
print("-------------")

#Revisamos valores despues del reemplazo
print("Despues del reemplazo")
print("Nulos en totales: {}".format(df['surface_total_in_m2'].isnull().sum()))
print("Nulos en cubiertos: {}".format(df['surface_covered_in_m2'].isnull().sum()))
print("Nulos en ambos al mismo tiempo: {}".format(df.loc[(df['surface_covered_in_m2'].isnull()) & (df['surface_total_in_m2'].isnull()) ,:].loc[:,"operation"].count()))
print("Nulos totales y no en cubiertos: {}".format(df.loc[(~df['surface_covered_in_m2'].isnull()) & (df['surface_total_in_m2'].isnull()) ,:].loc[:,"operation"].count()))
print("Nulos cubierto y no en totales: {}".format(df.loc[(df['surface_covered_in_m2'].isnull()) & (~df['surface_total_in_m2'].isnull()) ,:].loc[:,"operation"].count()))
print("Valores iguales: {}".format(df.loc[df['surface_total_in_m2'] == df['surface_covered_in_m2'],"surface_covered_in_m2"].count()))


### Trabajos realizados sobre el precio de las propiedades:

##### Sumarizamos los resultados de los grupos de captura y creamos un nuevo dataframe con esos datos:


In [None]:
df_precio_title['sumat'] = df_precio_title[1] + df_precio_title[2] + df_precio_title[3]
df_precio_desc['sumad'] = df_precio_desc[1] + df_precio_desc[2] + df_precio_desc[3]
df_precio_title = df_precio_title.iloc[:,[0,4]]
df_precio_desc = df_precio_desc.iloc[:,[0,4]]
df_precio_title['sumat'].fillna(0, inplace = True);

#### Eliminamos NaNs y strings vacios:

In [None]:
df_precio_title.replace("", 0);
df_precio_desc['sumad'] = df_precio_desc.sumad.str.strip();
df_precio_desc.replace("", 0, inplace=True)
df_precio_desc['sumad'].fillna(0 ,inplace=True)
dfpredesc2 = pd.merge(df_precio_desc, df_precio_title, how='outer', on=df_precio_desc.index)

#### Unificamos los datos obtenidos via regex:

In [None]:
dfpredesc2['sumad'] = pd.to_numeric(dfpredesc2['sumad'])
dfpredesc2['sumat'] = pd.to_numeric(dfpredesc2['sumat'])
dfpredesc2['final'] = dfpredesc2[['sumad','sumat']].max(axis=1)
dfpredesc2.loc[(dfpredesc2['0_x'].isnull())&(dfpredesc2['0_y'].notnull()),'0_x']=dfpredesc2['0_y'];
df_precio = dfpredesc2.loc[(dfpredesc2['final']!= 0) & (dfpredesc2['final']!= 1)].filter(['0_x','0_y', 'final'])
del df_precio['0_y']
df_precio.rename(columns = {'0_x':'moneda'}, inplace=True)
dfprecio['price'].fillna(df_precio['final'], inplace=True)
dfprecio['currency'].fillna(df_precio['moneda'], inplace=True)


#### Incorporamos los datos obtenidos al Data Frame original:

In [None]:
dfprecio.rename(columns={'price':'precio_regex','currency':'moneda'}, inplace = True)
df = df.join(dfprecio[['precio_regex', 'moneda']])


### Trabajos realizados sobre la ubicación de las propiedades: 

##### Desagregamos los datos contenidos en place_with_parent_names: 

In [None]:
#Spliteamos columna place_with_parent_names y nombramos a las nuevas columnas
place_split = df.place_with_parent_names.str\
                .split('|', expand=True).rename({1:'pais', 2:'provincia',
                                                 3:'localidad', 4:'barrio'}, axis=1).drop([0,5,6], axis=1)

# las que tienen datos vacios en barrios, las reemplazamos por NaN's
place_split.loc[(place_split.barrio == ''), 'barrio'] = np.nan

#Lo adjuntamos al df original
df = df.join(place_split)
df

#Eliminamos las columnas ahora innecesarias 
df.drop(["place_with_parent_names"], axis=1, inplace=True)

## 3. Quitar todo lo que no nos sirve

En esta etapa de trabajo eliminamos todos aquellos datos que no serán necesarios para la construicción de nuestro modelo de regresión.

##### Eliminamos duplicados: 

In [None]:
# Muestro forma inicial
display(df.shape)

# Buscar índices de registros duplicados (sin tener en cuenta las urls y la 1er columna de autonumerico)
duplicados=df.loc[df.drop("Unnamed: 0",axis=1).drop("properati_url",axis=1).drop("image_thumbnail",axis=1).duplicated(keep="last")]
print("Registros duplicados: {}".format(duplicados["operation"].count()))


# DROP duplicados
df.drop(duplicados.index, inplace=True)
display(df.shape)

##### Eliminamos columnas redundantes que no agregan al modelo de predicción:

In [None]:
# Eliminamos columnas sin uso
def drop_column(column,df):
    try:
        df.drop(column,axis=1,inplace=True)
        print("Dropeando columna {} ".format(column));
    except:
        print("Columna {} ya dropeada ".format(column)) ;
    
# Muestro forma inicial
display(df.shape)

# properati_url: no tiene ningun uso de valor predictivo
drop_column("properati_url",df)

# image_thumbnail: como se vió antes, hay imágenes duplicadas para departamentos distintos
drop_column("image_thumbnail",df)

# unnamed 0: replica el indice en cada linea
drop_column("Unnamed: 0",df)

# operation: siempre es venta, no suma nada al modelo
drop_column("operation",df)

# country_name: siempres es argentina, no suma a modelo
drop_column("country_name",df)


display(df.shape)

##### Rellenamos los valores de los precios que recuperamos de títulos (rehacer)

In [None]:
#df.loc[df.price.isnull(), 'currency'] = df.moneda

In [None]:
#df.loc[df.price.isnull(), 'price'] = df.precio_regex

##### Eliminamos observaciones contienen la frase "en pozo", "cuotas" o "financiacion" en la descrpción

In [None]:
#Observamos cuantas observaciones son
df['pozo'] = df.description.str.extract(r'(\ben\spozo)', re.IGNORECASE, expand=True)
display(df.loc[~(df.pozo.isnull())])

df['cuota'] = df.description.str.extract(r'(\bcuota)', re.IGNORECASE, expand=True)
df['financ'] = df.description.str.extract(r'(\financ)', re.IGNORECASE, expand=True)

#Eliminamos dichos datos 
df.drop(df.loc[~(df.pozo.isnull())].index, axis=0, inplace=True)
df.drop(df.loc[~(df.cuota.isnull())].index, axis=0, inplace=True)
df.drop(df.loc[~(df.financ.isnull())].index, axis=0, inplace=True)

A continuación dropeamos los precios que son irrelevantes, tales como 0, 1 y 11111

In [None]:
df.drop(df.loc[df.price==0].index, axis=0, inplace=True)
df.drop(df.loc[(df.price==1) | (df.price==11111) | (df.price==111111) |\
               (df.price==1111111) | (df.price==11111111)].index, axis=0, inplace=True)

## 4. Calcular las variables dummies y mostrar los resultados

##### Tenemos casi 9 mil casos. Genero dummy de Amenities:

In [None]:
d_ameni = pd.get_dummies(df['description'].str.contains(r'(Amenities|amenit[ies]*[i]*[y]*)')).iloc[:, 1:]
d_ameni.rename(columns={True : 'Amenities'}, inplace=True)


##### Tenemos 30 mil casos con Pileta. Generamos la dummy:

In [None]:
d_pile = pd.get_dummies(df['description'].str.contains(r'([pP]isci|[pP]isin|[pP]isci|[Pp]ileta)')).iloc[:, 1:]
d_pile.rename(columns={True : 'Pileta'}, inplace=True)


##### Hay 32 mil casos con parrilla, generamos la dummy:

In [None]:
d_parri = pd.get_dummies(df['description'].str.contains(r'([pP]arril)')).iloc[:, 1:]
d_parri.rename(columns={True : 'Parrilla'}, inplace=True)

##### Hay 30 mil casos con laundy, genero dummy

In [None]:
d_lava = pd.get_dummies(df['description'].str.contains(r'([Ll]aundr|andr|lavader)')).iloc[:, 1:]
d_lava.rename(columns={True : 'Lavadero'}, inplace=True)

##### Hay 5500 casos con SUM, genero las dummies

In [None]:
d_salon = pd.get_dummies(df['description'].str.contains(r'([Ss][Uu][Mm] )')).iloc[ :, 1:]
d_salon.rename(columns={True : 'SUM'}, inplace=True)

##### Hay 10 mil casos con Seguridad privada. Genero dummies:

In [None]:
d_seguri = pd.get_dummies(df['description'].str.contains(r'([Ss]eguri)')).iloc[ :, 1:]
d_seguri.rename(columns={True : 'Seguridad'}, inplace=True)

##### Hay 7mil casos de propiedades a estrenar, generamos dummies:

In [None]:
d_estre = pd.get_dummies(df['description'].str.contains(r'([Ee]stren)')).iloc[ :, 1:]
d_estre.rename(columns={True : 'Estrenar'}, inplace=True)

##### Hay 42mil casos con cochera, genero las dummies

In [None]:
d_coche = pd.get_dummies(df['description'].str.contains(r'([Cc]ochera|[Gg]arag)')).iloc[:, 1:]
d_coche.rename(columns={True : 'Cochera'}, inplace=True)

##### Hay casi 9 mil casos con gimnasio, genero dummies

In [None]:
d_gim = pd.get_dummies(df['description'].str.contains(r'([Gg][iy]m)')).iloc[:, 1:]
d_gim.rename(columns={True : 'Gimnasio'}, inplace=True)

##### Unifico las dummies en un nuevo dataframe consolidado y lo exporto para continuar con el en la parte 2 del TP

In [None]:
from functools import reduce
dfs_list = ['Amenities',d_ameni,'Cochera', d_coche,'Estrenar', d_estre,'Gimnasio', d_gim,'Lavadero', d_lava,'Parrilla', d_parri,'Pileta', d_pile,'SUM', d_salon,'Seguridad', d_seguri]
df2 = df
i = 0
j = 1
while i < len(dfs_list):
    df2[dfs_list[i]] = dfs_list[j]
    j = j + 2
    i = i + 2

In [None]:
df2.to_csv('df2.csv')

## 5. Gráficos
Debido a que las variables económicas referidas a precios e ingresos tienen una distribución asimétrica (existen muchos inmuebles de poco valor y pocos de alto valor), realizamos transformaciónes logarítmicas sobre dichas variables.

El efecto que tendrá es que tomará la forma de una normal típica, lo que nos permite aprovechar todas las propiedades de dicha distribución, al mismo tiempo que la transformación tiene ciertas propiedades particulares a la hora de construir el modelo descriptivo. Particularmente, los valores que tomen las variables descriptivas no serán unitarias, sino que representarán porcentajes de variación del precio.

In [None]:
df['log_price'] = df.price.apply(np.log)
df['log_price_aprox_usd'] = df.price_aprox_usd.apply(np.log)
df['log_price_usd_per_m2'] = df.price_usd_per_m2.apply(np.log)

In [None]:
sns.distplot(df.price.loc[(~df.price.isnull())])

Como se puede apreciar en el gráfico, existen valores extremos, lo que le da la larga cola. Además, al estar trabajando con precios en pesos, las magnitudes se ven exageradas, por lo que trabajeremos con los precios en dólares.


In [None]:
df.drop(df.loc[df.price_aprox_usd == df.price_aprox_usd.max()].index, axis=0, inplace=True)

El siguiente gráfico es esencialmente el mismo que el anterior, pero en dólares, lo que permite apreciar el kernel ya que las magnitudes son menores.

In [None]:
sns.distplot(df.price_aprox_usd.loc[(~df.price.isnull())])

Realizamos un boxplot para ver los outliers

In [None]:
sns.boxplot(df.price_aprox_usd)

Tenemos algunos inmuebles con valores por encima de 10 millones de dólares, por lo que procedemos a revisarlos

In [None]:
df.loc[df.price_aprox_usd > 10000000].filter(['price_aprox_usd', 'lat', 'rooms', 'amb_tit'])

Aprovechamos el hecho de que les falta información de variables descriptivas para descartarlos y que son pocas observaciones

In [None]:
df.drop(df.loc[df.price_aprox_usd > 10000000].index, axis=0, inplace=True)

Ahora buscamos outliers en la variable `price_usd_per_m2`

In [None]:
sns.boxplot(df.price_usd_per_m2)

Vemos que existen inmuebles con valores mayores a USD 50.000 por metro cuadrado

In [None]:
df.loc[df.price_usd_per_m2 > 50000].filter(['price_aprox_usd', 'localidad','lat', 'rooms', 'amb_tit','surface_total_in_m2'])

Procedemos a descartarlo

In [None]:
df.drop(df.loc[df.price_usd_per_m2 > 50000].index, axis=0, inplace=True)

In [None]:
sns.boxplot(df.price_usd_per_m2); 'Ejecutamos el mismo boxplot de recién para verificar los cambios'

Realizamos un gráfico para ver la distribución de precios en dólares según tipo de inmueble

In [None]:
sns.pairplot(df, vars=['price_aprox_usd'], hue='property_type', height=7, markers='property_type'); 'PH en Azul, \
apartment en Naranja, house en Verde y store en Rojo'

Ahora realizamos el mismo gráfico pero sobre `log_price_aprox_usd`, para apreciar la transformación

In [None]:
sns.pairplot(df, vars=['log_price_aprox_usd'], hue='property_type', height=7, markers='property_type' ); 'PH en Azul, \
apartment en Naranja, house en Verde y store en Rojo'

Y también sobre `price_usd_per_m2`y `log_price_usd_per_m2`

In [None]:
sns.pairplot(df, vars=['price_usd_per_m2'], hue='property_type', height=7, markers='property_type'); 'PH en Azul, \
apartment en Naranja, house en Verde y store en Rojo'
plt.savefig('p_per_m2_usd.png')

In [None]:
sns.pairplot(df, vars=['log_price_usd_per_m2'], hue='property_type', height=7, markers='property_type'); 'PH en Azul, \
apartment en Naranja, house en Verde y store en Rojo'
plt.savefig('log_p_per_m2_usd.png')

Nos concentramos en la Ciudad Autónoma de Buenos Aires para ver qué barrios tienen el valor por metro cuadrado más elevado según la mediana

In [None]:
caba = df.loc[(df.provincia== 'Capital Federal')].groupby('localidad')\
                .price_usd_per_m2.median().sort_values(ascending=False)

Graficamos los valores

In [None]:
sns.barplot(caba.index, caba.values).set_xticklabels(labels=caba.index, rotation=90);
plt.savefig('median_price.png')

Cargamos los datos de los polígonos de CABA en un nuevo data frame

In [None]:
barrios = pd.read_csv('barrios.csv', encoding='latin1')
barrios.sample(10)

In [None]:
# definimos una funcion para convertirlo en GeoDataFrame
def from_wkt(df, wkt_column):
    import shapely.wkt
    df["coordinates"]= df[wkt_column].apply(shapely.wkt.loads)
    gdf = gpd.GeoDataFrame(barrios, geometry='coordinates')
    return gdf

barrios = from_wkt(barrios, "WKT")

Debido a que tenemos diferencias en los nombres de nuestro df original y el de barrios, procedemos a unificar los nombres

In [None]:
caba.index = caba.index.str.upper()

In [None]:
caba.index = caba.index.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')

In [None]:
caba.rename({'NUNEZ':'NUÑEZ', 'VILLA GENERAL MITRE': 'VILLA GRAL. MITRE',\
                     'POMPEYA':'NUEVA POMPEYA', 'CONSTITUCIÓN':'CONSTITUCION' }, inplace=True)

In [None]:
precios_barrios = barrios.merge(caba, how='left', left_on='BARRIO', right_on=caba.index)

In [None]:
caba.index

In [None]:
precios_barrios.plot('price_usd_per_m2', figsize=(12,10), legend=True);
plt.title('Mediana de precios por metro cuadrado en dólares');
plt.savefig('mapa_precios.png')

In [None]:
fig, ax = plt.subplots(figsize=(12,10), subplot_kw=dict(aspect='equal'))

precios_barrios.plot(column='price_usd_per_m2', scheme='Quantiles', 
        k=5, cmap='GnBu', legend=True, ax=ax)

plt.title('Mediana de precios por metro cuadrado en dólares por barrio por quintiles');

In [None]:
fig, ax = plt.subplots(figsize=(12,10), subplot_kw=dict(aspect='equal'))

precios_barrios.plot(column='price_usd_per_m2', scheme='Quantiles', 
        k=10, cmap='GnBu', legend=True, ax=ax, )

plt.title('Mediana de precios por metro cuadrado en dólares por barrio por deciles');

In [None]:
df.loc[df.property_type ==df.property_type.unique()[0]] .rooms.hist(bins=20)
plt.title('Distribución de cantidad de ambientes en PH');

In [None]:
df.loc[df.property_type ==df.property_type.unique()[1]] .rooms.hist(bins=20)
plt.title('Distribución de cantidad de ambientes en apartment');

In [None]:
df.loc[df.property_type ==df.property_type.unique()[2]] .rooms.hist(bins=20)
plt.title('Distribución de cantidad de ambientes en casas');

In [None]:
df.loc[df.property_type ==df.property_type.unique()[3]] .rooms.hist(bins=20)
plt.title('Distribución de cantidad de ambientes en store');

Tiramos las columnas innecesarias

In [None]:
df.drop(columns=['floor', 'valores_invertidos', 'pozo', 'cuota', 'financ', 'pais', 'dor_desc',
                 'bath_tit', 'bath_desc', 'amb_desc', 'dor_tit'], inplace=True)

Graficamos la distribución de los metros cuadrados

In [None]:
sns.boxplot(df.surface_covered_in_m2);

In [None]:
df.loc[df.surface_covered_in_m2 > 30000].description.unique()

Como se puede apreciar en las descripciones, los valores de los m2 son erróneos. Procedemos a dropearlos y graficamos nuevamente

In [None]:
df.drop(df.loc[df.surface_covered_in_m2 > 30000].index, axis=0, inplace=True)

In [None]:
sns.boxplot(df.surface_covered_in_m2);

Los outliers corresponden a locales, lo cual es factible si se tratara de galpones/fábricas

In [None]:
df.drop(columns=['amb_tit', 'expenses', 'cubierta_sobre_total', 'total_sobre_cubierta', 'state_name'], inplace=True)

### Finalmente obtenemos los resultados de cuántas observaciones nos faltan, según la variable

In [None]:
#Obtenemos los porcentajes de datos faltantes de cada columna luego de la limpieza
for cols in df.columns:
    nulos = df[cols].isnull().sum()
    porcentaje = nulos/len(df)
    print(f'{porcentaje*100:.0f}%', cols)

In [None]:
df.shape