## Importacion de librerias

In [0]:
# Importamos librerias
import numpy as np
import pandas as pd
pd.options.display.float_format = '{:,}'.format
import re
from scipy.stats import mode
from pandas.io.json import json_normalize
import json

# Importacion de Librerias Graficas
from bokeh.plotting import (
    figure,
    gmap,
    figure
)
from bokeh.io import (
    show,
    output_file,
    output_notebook
)

from bokeh.layouts import gridplot
from bokeh.transform import jitter
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import preprocessing
from bokeh.models import (
    GeoJSONDataSource,
    HoverTool,
    LinearColorMapper,
    GMapOptions,
    ColumnDataSource
)

import folium
from folium.plugins import HeatMap
import geopandas as gpd
import os

from bokeh.palettes import Viridis6

%matplotlib inline

# &nbsp;

## Definición de funciones

In [0]:
# Funcion para graficar outliers
def box_plot( p_df, val_x, val_y, p_step ):
    sns.set(style='whitegrid', context = 'notebook')
    f, ax = plt.subplots(figsize=(20,15))

    vals = list( p_df[ p_df[ val_x ].notnull() ][ val_x ].unique() )

    figs = len(vals)
    i = 0
    
    maximo = p_df[ val_y ].max()
    
    for val in vals:
        plt.subplot(1, figs, i+1)
        sns.boxplot(y=val_y, data=p_df.loc[ p_df[ val_x ] == val ], fliersize=10, color='c')
        plt.ylabel('')
        plt.xlabel(val, rotation='vertical')
        plt.yticks(np.arange(1, maximo, step=p_step))
        if i > 0:
            frame1 = plt.gca()
            frame1.axes.yaxis.set_ticklabels([])
        plt.ylim(1, maximo)
        i += 1
    plt.show()

#############################################################
####                BOKEH JITTER  BARRIOS                 ###
#############################################################
def jitter_plot( p_df ):
    # Armo un Dataframe para cada Tipo de Propiedad
    df_ph = df[ ( p_df.property_type=='PH' ) ]
    df_ap = df[ ( p_df.property_type=='apartment' ) ]
    df_ho = df[ ( p_df.property_type=='house' ) ]
    df_st = df[ ( p_df.property_type=='store' ) ]

    # Selecciono los barrios con los que voy a trabajar                    
    #BARRIOS = ['Mataderos', 'Liniers', 'Palermo', 'Belgrano', 'Las Cañitas', 'Puerto Madero']
    PROVINCIAS = list( p_df[ df.provincia.notnull() ].provincia.sort_values().unique())

    # Armo un source para cada df de los tipos de propiedades
    source_ph = ColumnDataSource(df_ph)
    source_ap = ColumnDataSource(df_ap)
    source_ho = ColumnDataSource(df_ho)
    source_st = ColumnDataSource(df_st)

    # Seteos generales
    p = figure(plot_width=800, plot_height=1000, y_range=PROVINCIAS, title="Provincias", x_axis_label='Precio en Dolares')

    # Grafico cada dataframe por separado, con un color distinto cada uno
    p.circle(x='price_aprox_usd', y=jitter('provincia', width=1, range=p.y_range),  source=source_ph, alpha=0.3, color='darkblue', legend='PH')
    
    p.circle(x='price_aprox_usd', y=jitter('provincia', width=1, range=p.y_range),  source=source_ho, alpha=0.3, color='darkorange', legend='Casa')
    p.circle(x='price_aprox_usd', y=jitter('provincia', width=1, range=p.y_range),  source=source_st, alpha=0.3, color='deeppink', legend='Local')
    p.circle(x='price_aprox_usd', y=jitter('provincia', width=1, range=p.y_range),  source=source_ap, alpha=0.3, color='turquoise', legend='Departamento')


    p.x_range.range_padding = 0
    p.ygrid.grid_line_color = None
    p.legend.location = "top_right"

    output_file('jitter_provincias.html')
    show(p)

def grid_plot( p_df ):
    #############################################################
    ####     BOKEH GRIDPLOT  ARGENTINA CON 3 GRID             ###
    #############################################################

    data_bokeh = ColumnDataSource( p_df )
    data_bokeh_rooms = ColumnDataSource( p_df[ (p_df.rooms.notnull()) ] )

    options = {'plot_width': 450, 
               'plot_height': 450,
               'tools': 'pan, wheel_zoom, box_zoom, box_select, lasso_select, reset',
               }


    p1 = figure(title="Valor en USD vs. Superficie m2", **options)
    p1.circle("surface_total_in_m2", "price_aprox_usd", color="blue", source = data_bokeh) 

    p2 = figure(title="Valor en USD vs. Ambientes ", **options)
    p2.circle("rooms", "price_aprox_usd", color="green", source = data_bokeh_rooms)

    p3 = figure(title="Superficie m2 vs. Ambientes ", **options)
    p3.circle("rooms", "surface_total_in_m2", color="pink", source = data_bokeh_rooms)


    p = gridplot([[p1, p2, p3]], toolbar_location="right")
    output_file('gridplot_argentina.html')
    show(p)

# Funcion para calcular outliers
def outlier(p_prov, p_df, col_q, quantile, col_filter, value_filter ):
    return p_df[ ( p_df.provincia == p_prov) & ( p_df[ col_filter ] == value_filter ) ][ col_q ].quantile( q=quantile )
    
def outliers_index( p_prov, p_filter, val_h, val_l, col_filter, col_out, p_df ):
    high_out = outlier(p_prov, p_df, col_out, val_h, col_filter, p_filter)
    low_out = outlier(p_prov, p_df, col_out, val_l, col_filter, p_filter)

    return p_df[ ( p_df.provincia == p_prov ) & ( p_df[ col_filter ] == p_filter ) & ( ( p_df[ col_out ] <  low_out ) | ( p_df[ col_out ] >  high_out ) ) ].sort_values([col_out], ascending=False).index


def correlacion_plot( p_columnas, p_hue):
    #############################################################
    ####        GRAFICO DE CORRELACION ENTRE COLUMNAS         ###
    #############################################################

    g = sns.PairGrid(df, vars=p_columnas,
                    hue=p_hue, palette='RdBu_r')
    g.map(plt.scatter, alpha=0.5)
    g.add_legend();

def plot_heatmap_bs_as( p_prop_type ):
    congr_districts = gpd.read_file('barrios_badata.geojson')

    district23 = congr_districts # 36 = NY, 23 = District


    hmap = folium.Map(location=[-34.607756, -58.445316], zoom_start=12, )

    df_m = df[ (df.lat.notnull() ) & ( df.lon.notnull() ) & ( df.provincia=='Capital Federal') & (df.property_type == p_prop_type)][[ 'lat','lon']]
    df_m['value'] = 1

    lista1 = [ x for x in df_m.lat]
    lista2 = [ x for x in df_m.lon]
    lista3 = [ x for x in df_m.value]

    hm_wide = HeatMap( list(zip(lista1, lista2, lista3)),
                       min_opacity=0.2,
                       #max_val=max_amount,
                       radius=5, blur=8, 
                       max_zoom=12, 
                     )

    folium.GeoJson(district23).add_to(hmap)
    hmap.add_child(hm_wide)
    hmap.save(os.path.join('heatmap_'+p_prop_type+'.html'))

# Carga de Dataframe

In [0]:
# Cargamos Dataframe y seteos generales
df = pd.read_csv('properatti.csv', index_col=0)
pd.set_option("display.max_columns", 500)
pd.set_option("display.max_rows", 100)
#pd.set_option("display.max_colwidth", 200)

# Primeras impresiones

In [0]:
print('-- SHAPE')
display(df.shape)

print('\n \n')
print('-- INFO')
display(df.info())

print('\n \n')
print('-- DESCRIBE')
display(df.describe())

## Primeros Graficos con datos sin limpiar

In [0]:
# grafico de correlacion con dataset en crudo
cols = ['price_aprox_usd', 'surface_total_in_m2', 'surface_covered_in_m2' ,'price_usd_per_m2']
correlacion_plot(cols, 'property_type')

In [0]:
# Boxplot con dataset en crudo
box_plot(p_df=df, val_x='state_name', val_y='price_aprox_usd', p_step=1000000 )

In [0]:
# Gridplot con dataset en crudo
grid_plot( df )

# Exploracion con Regex

## Obtenermos los Precios posibles de la descripcion y titulo

### Con Titulo

In [0]:
df.price_aprox_usd.isnull().sum()

In [0]:
# Buscamos precios en los titulos
df[['description', 'title']] = df[['description', 'title']].apply(lambda x: x.astype(str))

pattern = r'u\$d\s?([0-9]*\.?[0-9]*)|u$s([0-9]*)\.?([0-9]*)'
regex = re.compile(pattern, flags = re.IGNORECASE)

df['precio_title'] = df['title'].apply(lambda x: regex.findall(x))
indices = df[ (\
         (df.apply(lambda x: len(x.precio_title) > 0, axis=1))
      ) & \
     ( df.price_aprox_usd.isnull())
    ].index

df.loc[ indices, 'price_aprox_usd'] = df.loc[ indices, 'price_aprox_usd'].fillna( \
    df[ (\
         (df.apply(lambda x: len(x.precio_title) > 0, axis=1))
      ) & \
     ( df.price_aprox_usd.isnull())
    ].apply(lambda x: float(x.precio_title[0][0].replace('.','')) if len(x.precio_title[0][0]) > 4 else np.nan, axis=1) )

### Con descripcion

In [0]:
# Buscamos precios en las descripciones
df[['description', 'title']] = df[['description', 'title']].apply(lambda x: x.astype(str))

pattern = r'u\$d\s?([0-9]*\.?[0-9]*)|u$s([0-9]*)\.?([0-9]*)'
regex = re.compile(pattern, flags = re.IGNORECASE)

df['precio_desc'] = df['description'].apply(lambda x: regex.findall(x))

indices = df[ (\
         (df.apply(lambda x: len(x.precio_desc) > 0, axis=1))
      ) & \
     ( df.price_aprox_usd.isnull())
    ].index
    

df.loc[ indices, 'price_aprox_usd'] = df.loc[ indices, 'price_aprox_usd'].fillna( \
    df[ (\
         (df.apply(lambda x: len(x.precio_desc) > 0, axis=1))
      ) & \
     ( df.price_aprox_usd.isnull())
    ].apply(lambda x: float(x.precio_desc[0][0].replace('.','')) if len(x.precio_desc[0][0]) > 4 else np.nan, axis=1) )

In [0]:
df.price_aprox_usd.isnull().sum()

In [0]:
df.drop(['precio_desc', 'precio_title'], inplace=True, axis=1)

## Obtenermos la superficie posible de la descripcion y titulo

### Con Titulo

In [0]:
df.surface_total_in_m2.isnull().sum()

In [0]:
# Buscamos superficies en los titulos
df[['description', 'title']] = df[['description', 'title']].apply(lambda x: x.astype(str))

pattern = r'([0-9]*\.?\,?[0-9]*)\s*metros\.*\s*2'
regex = re.compile(pattern, flags = re.IGNORECASE)

df['sup_title'] = df['title'].apply(lambda x: regex.findall(x))

indices = df[ (\
         (df.apply(lambda x: len(x.sup_title) == 1, axis=1))
      ) & \
     ( df.surface_total_in_m2.isnull())
    ].index


df.loc[ indices, 'surface_total_in_m2'] = df.loc[ indices, 'surface_total_in_m2'].fillna( \
    df[ (\
         (df.apply(lambda x: len(x.sup_title) == 1, axis=1))
      ) & \
     ( df.surface_total_in_m2.isnull())
        ].apply(lambda x: float(x.sup_title[0].replace('.','').replace(',','')) if len(x.sup_title[0]) > 1 else np.nan, axis=1) )

In [0]:
# Buscamos superficies en los titulos

pattern = r'([0-9]*\.?\,?[0-9]*)\s*mts\.*\s*2'
regex = re.compile(pattern, flags = re.IGNORECASE)

df['sup_title'] = df['title'].apply(lambda x: regex.findall(x))

indices = df[ (\
         (df.apply(lambda x: len(x.sup_title) == 1, axis=1))
      ) & \
     ( df.surface_total_in_m2.isnull())
    ].index


df.loc[ indices, 'surface_total_in_m2'] = df.loc[ indices, 'surface_total_in_m2'].fillna( \
    df[ (\
         (df.apply(lambda x: len(x.sup_title) == 1, axis=1))
      ) & \
     ( df.surface_total_in_m2.isnull())
        ].apply(lambda x: float(x.sup_title[0].replace('.','').replace(',','')) if len(x.sup_title[0]) > 1 else np.nan, axis=1) )

In [0]:
# Buscamos superficies en los titulos
pattern = r'([0-9]*\.?\,?[0-9]*)\s*m\.*\s*2'
regex = re.compile(pattern, flags = re.IGNORECASE)

df['sup_title'] = df['title'].apply(lambda x: regex.findall(x))

indices = df[ (\
         (df.apply(lambda x: len(x.sup_title) == 1, axis=1))
      ) & \
     ( df.surface_total_in_m2.isnull())
    ].index


df.loc[ indices, 'surface_total_in_m2'] = df.loc[ indices, 'surface_total_in_m2'].fillna( \
    df[ (\
         (df.apply(lambda x: len(x.sup_title) == 1, axis=1))
      ) & \
     ( df.surface_total_in_m2.isnull())
        ].apply(lambda x: float(x.sup_title[0].replace('.','').replace(',','')) if len(x.sup_title[0]) > 1 else np.nan, axis=1) )

### Con descripcion

In [0]:
# Buscamos superficies en las descripciones

df[['description', 'title']] = df[['description', 'title']].apply(lambda x: x.astype(str))

#pattern = r'([0-9]*\.?\,?[0-9]*)\s*mts\.*\s*2|([0-9]*\.?\,?[0-9]*)\s*metros\.*\s*2|([0-9]*\.?\,?[0-9]*)\s*m\.*\s*2'
pattern = r'([0-9]*\.?\,?[0-9]*)\s*mts\.*\s*2'
regex = re.compile(pattern, flags = re.IGNORECASE)

df['sup_desc'] = df['description'].apply(lambda x: regex.findall(x))

indices = df[ (\

         (df.apply(lambda x: len(x.sup_desc) > 0, axis=1))
      ) & \
     ( df.surface_total_in_m2.isnull())
    ].index


df.loc[ indices, 'surface_total_in_m2'] = df.loc[ indices, 'surface_total_in_m2'].fillna( \
    df[ (\
         (df.apply(lambda x: len(x.sup_desc) == 1, axis=1))
      ) & \
     ( df.surface_total_in_m2.isnull())
    ].apply(lambda x: float(x.sup_desc[0].replace(',','.')) if len(x.sup_desc[0]) > 1 else np.nan, axis=1) )
    


In [0]:
# Buscamos superficies en las descripciones

df[['description', 'title']] = df[['description', 'title']].apply(lambda x: x.astype(str))

#pattern = r'([0-9]*\.?\,?[0-9]*)\s*mts\.*\s*2|([0-9]*\.?\,?[0-9]*)\s*metros\.*\s*2|([0-9]*\.?\,?[0-9]*)\s*m\.*\s*2'
pattern = r'([0-9]*\.?\,?[0-9]*)\s*metros\.*\s*2'
regex = re.compile(pattern, flags = re.IGNORECASE)

df['sup_desc'] = df['description'].apply(lambda x: regex.findall(x))

indices = df[ (\

         (df.apply(lambda x: len(x.sup_desc) > 0, axis=1))
      ) & \
     ( df.surface_total_in_m2.isnull())
    ].index


df.loc[ indices, 'surface_total_in_m2'] = df.loc[ indices, 'surface_total_in_m2'].fillna( \
    df[ (\
         (df.apply(lambda x: len(x.sup_desc) == 1, axis=1))
      ) & \
     ( df.surface_total_in_m2.isnull())
    ].apply(lambda x: float(x.sup_desc[0].replace(',','.')) if len(x.sup_desc[0]) > 1 else np.nan, axis=1) )
    


In [0]:
# Buscamos superficies en las descripciones

df[['description', 'title']] = df[['description', 'title']].apply(lambda x: x.astype(str))

#pattern = r'([0-9]*\.?\,?[0-9]*)\s*mts\.*\s*2|([0-9]*\.?\,?[0-9]*)\s*metros\.*\s*2|([0-9]*\.?\,?[0-9]*)\s*m\.*\s*2'
pattern = r'([0-9]*\.?\,?[0-9]*)\s*m\.*\s*2'
regex = re.compile(pattern, flags = re.IGNORECASE)

df['sup_desc'] = df['description'].apply(lambda x: regex.findall(x))

indices = df[ (\

         (df.apply(lambda x: len(x.sup_desc) > 0, axis=1))
      ) & \
     ( df.surface_total_in_m2.isnull())
    ].index


df.loc[ indices, 'surface_total_in_m2'] = df.loc[ indices, 'surface_total_in_m2'].fillna( \
    df[ (\
         (df.apply(lambda x: len(x.sup_desc) == 1, axis=1))
      ) & \
     ( df.surface_total_in_m2.isnull())
    ].apply(lambda x: float(x.sup_desc[0].replace(',','.')) if len(x.sup_desc[0]) > 1 else np.nan, axis=1) )

In [0]:
df.surface_total_in_m2.isnull().sum()

In [0]:
df.drop(['sup_desc', 'sup_title'], inplace=True, axis=1)

## Obtenemos ambientes posibles de la descripcion y titulo

### Con Titulo

In [0]:
df.rooms.isnull().sum()

In [0]:
# Buscamos ambientes en los titulos
pattern = r'([0-9]+)\s?amb'
regex = re.compile(pattern, flags = re.IGNORECASE)
df['rooms_title'] = df['title'].apply(lambda x: regex.findall(x))

indices = df[  ( \
             (df.apply(lambda x: len(x.rooms_title) > 0, axis=1)) & \
             (df.apply(lambda x: len(x.rooms_title) <= 1, axis=1)) & \
             (df.rooms.isnull()) \
          ) \
        ].index



df.loc[ indices, 'rooms'] = df.loc[ indices, 'rooms'].fillna(\
    df[  ( \
         (df.apply(lambda x: len(x.rooms_title) > 0, axis=1)) & \
         (df.apply(lambda x: len(x.rooms_title) <= 1, axis=1)) & \
         (df.rooms.isnull()) \
      ) \
    ].apply(lambda x: int(x.rooms_title[0]), axis=1) )

### Con descripcion

In [0]:
# Buscamos precios en las descripciones
pattern = r'([0-9]+)\s?amb'
regex = re.compile(pattern, flags = re.IGNORECASE)
df['rooms_desc'] = df['description'].apply(lambda x: regex.findall(x))

indices = df[  ( \
             (df.apply(lambda x: len(x.rooms_desc) > 0, axis=1)) & \
             (df.apply(lambda x: len(x.rooms_desc) <= 1, axis=1)) & \
             (df.rooms.isnull()) \
          ) \
        ].index



df.loc[ indices, 'rooms'] = df.loc[ indices, 'rooms'].fillna(\
    df[  ( \
         (df.apply(lambda x: len(x.rooms_desc) > 0, axis=1)) & \
         (df.apply(lambda x: len(x.rooms_desc) <= 1, axis=1)) & \
         (df.rooms.isnull()) \
      ) \
    ].apply(lambda x: int(x.rooms_desc[0]), axis=1) )

In [0]:
df.rooms.isnull().sum()

In [0]:
df.drop(['rooms_desc', 'rooms_title'], inplace=True, axis=1)

### Discriminamos las propiedades finalizadas a las que estan en desarrollo

In [0]:
# Exploramos proyectos en construccion de inmuebles finalizados y terminados. Decidimos seguir trabajando con estos 
# ultimos, para poner tener estadisticos un poco mas reales

df[['description', 'title']] = df[['description', 'title']].apply(lambda x: x.astype(str).str.lower())

pattern = r'en\s*pozo|en\s*construc|en\s*desarr|loteo|proy\s*urban'

regex = re.compile(pattern, flags = re.IGNORECASE)

df['desa_desc'] = df['description'].apply(lambda x: regex.findall(x))

df['desa_title'] = df['title'].apply(lambda x: regex.findall(x))


df_finalizado = df[ ~((\
         (df.apply(lambda x: len(x.desa_desc) > 0, axis=1))
      ) | ( \
         (df.apply(lambda x: len(x.desa_title) > 0, axis=1))
      )) \
    ]


df_en_const = df[ ((\
         (df.apply(lambda x: len(x.desa_desc) > 0, axis=1))
      ) | ( \
         (df.apply(lambda x: len(x.desa_title) > 0, axis=1))
      )) \
    ]

df = df_finalizado

In [0]:
df.drop(['desa_desc', 'desa_title'], inplace=True, axis=1)

# Normalizamos columnas de pais, provincia, localidad, barrio

In [0]:
##############################################################################
#                                                                            #
# ESTA CELDA SE PUEDE EJECUTAR SOLO 1 VEZ.                                   #
# PARA VOLVER A EJECUTARSE, HAY QUE IR A KERNEL => RESTART & CLEAR OUTPUTS   #
#                                                                            #
##############################################################################


# Borramos las columnas, ya que se rearman con la columna 'place_with_parent_names'
df.drop(['place_name', 'country_name', 'state_name'], axis=1, inplace=True)


# Divido la columna place_with_parent_names por el separado "|"
columnas = df['place_with_parent_names'].str.split("|", n = 6, expand=True)


# Como el campo place_with_parent_names tiene el caracter "|", tanto al principio como al final,
# me genera 2 columnas vacias, la primera y la ultima. Con la siguiente linea las excluyo
columnas.iloc[:, 1:len(columnas.columns)-1]


# Reasigno el Dataframe con la nueva informacion
df = df.join( columnas.iloc[:, 1:len(columnas.columns)-1] )


# Renombro las nuevas columnas
df = df.rename(columns = {1:'pais', 2:'provincia', 3:'localidad', 4:'barrio', 5:'sub_barrio'})


# Reemplazo los valores vacios y None por np.nan
cols = ['pais', 'provincia', 'localidad', 'barrio', 'sub_barrio']

df[cols] = df[cols].fillna(value=np.nan)

df[cols] = df[cols].replace('',np.nan)

#df = df[ (df.region.notnull()) ]

# Borro la columna place_with_parent_names original, con la que arme las otras 5
df.drop(['place_with_parent_names'], axis=1, inplace=True)

# Eliminamos columnas de precios redundantes

In [0]:
##############################################################################
#                                                                            #
# ESTA CELDA SE PUEDE EJECUTAR SOLO 1 VEZ.                                   #
# PARA VOLVER A EJECUTARSE, HAY QUE IR A KERNEL => RESTART & CLEAR OUTPUTS   #
#                                                                            #
##############################################################################


# Eliminamos los registros con monedas extranjeras distintas al Dolar.
# Ademas no tienen informacion para poder trabajar
df = df[ ~(( df.currency == 'UYU' ) | ( df.currency == 'PEN' )) ]
df.reset_index()

# No existen registros en moneda local, que no tengan valor en la columna de precio en Dolares
display( df[ ( df.currency == 'ARS' ) & ( df.price_aprox_usd.isnull() ) ] )

# Armamos un DF temporal, para evaluar la informacion de los precios en la moneda local
df_temp = df[ ( df.currency == 'ARS' ) & ( df.price_aprox_usd.notnull() ) ]
df_temp.reset_index()
display( df_temp.sample(5) )

# Con esto evaluamos que se mantenga la relacion entre Moneda local y dolares
#display( ( df_temp.price_aprox_local_currency / df_temp.price_aprox_usd ).sample(10) )

display( ( df_temp.price_aprox_local_currency / df_temp.price_aprox_usd ).round(4).value_counts() )

# Tampoco hay registros con moneda USD que no tengan valor en la columna de precio en dolares.
display( df[ ( df.currency == 'USD' ) & ( df.price_aprox_usd.isnull() ) ] )

# En base a lo visto anteriormente, decidimos eliminar las columnas relacionadas a los precios en moneda local, 
# ya que tenemos el precio en dolares completo y la relacion entre ambas monedas, la cual se mantiene en todo el DF

df.drop(['price_aprox_local_currency', 'currency', 'price'], axis=1, inplace=True)
df.reset_index(drop=True)

# Eliminamos columnas redundantes e innecesarias para analisis

In [0]:
##############################################################################
#                                                                            #
# ESTA CELDA SE PUEDE EJECUTAR SOLO 1 VEZ.                                   #
# PARA VOLVER A EJECUTARSE, HAY QUE IR A KERNEL => RESTART & CLEAR OUTPUTS   #
#                                                                            #
##############################################################################

# Eliminamos las columnas redundantes o innecesarias para el analisis
#cols = ['floor', 'expenses', 'properati_url', 'image_thumbnail', 'operation', 'pais', 'sub_barrio']
cols = ['expenses', 'properati_url', 'image_thumbnail', 'operation', 'pais', 'sub_barrio']
df.drop(cols, axis=1, inplace=True)

# Trabajamos con duplicados

### Eliminamos Duplicados totales

In [0]:
##############################################################################
#                                                                            #
# ESTA CELDA SE PUEDE EJECUTAR SOLO 1 VEZ.                                   #
# PARA VOLVER A EJECUTARSE, HAY QUE IR A KERNEL => RESTART & CLEAR OUTPUTS   #
#                                                                            #
##############################################################################

# Despues de haber limpiado y estandarizado un poco el DF, en cuando a Columnas redundantes y valores faltantes 
# relacionados a la provincia, localidad y barrio, nos encontramos con 7931 registros, duplicados. 
# Dado que estan duplicados de manera exacta en todos los campos que deseamos evaluar, procedemos a conservar solo
# la última ocurrencia, ya que interpretamos que es la última carga.

df[ df.duplicated(keep='last') ]

df.drop_duplicates(keep='last', inplace=True)

df.drop(['floor'], axis=1, inplace=True)

### Duplicados Parciales

In [0]:
# Observamos que en la mayoria de los casos, los registros que repiten el mismo, titulo, descripcion,
# superficie y precio, se tratan de la misma propiedad, y tienen una variacion muy pequeña en cuanto a Latitud y longitud
# Decidimos dado esto, conservar el registro mas completo de todos.
df = df.sort_values(['title', 'description', 'surface_total_in_m2', 'surface_covered_in_m2', 'price_aprox_usd','lat', 'lon'], ascending=True)

df[ ( df.property_type == 'PH' ) & (df.duplicated(['title', 'description', 'surface_total_in_m2', 'surface_covered_in_m2', 'price_aprox_usd', 'rooms'], keep=False)) ]
df[ ( df.property_type == 'house' ) & (df.duplicated(['title', 'description', 'surface_total_in_m2', 'surface_covered_in_m2', 'price_aprox_usd', 'rooms'], keep=False)) ]
df[ ( df.property_type == 'store' ) & (df.duplicated(['title', 'description', 'surface_total_in_m2', 'surface_covered_in_m2', 'price_aprox_usd', 'rooms'], keep=False)) ]
df[ ( df.property_type == 'apartment' ) & (df.duplicated(['title', 'description', 'surface_total_in_m2', 'surface_covered_in_m2', 'price_aprox_usd', 'rooms'], keep=False)) ]

df.drop_duplicates(['title', 'description', 'surface_total_in_m2', 'surface_covered_in_m2', 'price_aprox_usd', 'rooms'], keep='last', inplace=True)

## Trabajamos con las columnas de superficie y precios por mts2

In [0]:
# Observamos que hay registros cuya superficie y su valor por mts2 en dolares son nulos, y que ademas
# su superficie cubierta x el valor del mts2 en Pesos, equivale al valor de la propiedad en dolares.
# Dado esto, optamos por completar los primeros valores con los segundos
indices = df[ \
  (df.price_aprox_usd.notnull()) & \
  (df.price_usd_per_m2.isnull()) & \
  (df.price_per_m2.notnull()) & \
  ( \
   ( df.price_per_m2 * df.surface_covered_in_m2 == df.price_aprox_usd )
  )
 ].index

df.loc[indices, 'price_usd_per_m2'] = df.loc[indices, 'price_usd_per_m2'].fillna(df.loc[indices, 'price_per_m2'])
df.loc[indices, 'surface_total_in_m2'] = df.loc[indices, 'surface_total_in_m2'].fillna(df.loc[indices, 'surface_covered_in_m2'])

In [0]:
# Para los que no tenemos forma de calcular los mts2 totales, optamos por igualarlos a los mts2 cubiertos, en caso de
# que los primeros sean nulos o que sean menores a los cubiertos

#Nulos
indices = df[(df.surface_total_in_m2.isnull()) & (df.surface_covered_in_m2.notnull())].index
df.loc[indices, 'surface_total_in_m2'] = df.loc[indices, 'surface_total_in_m2'].fillna(df.loc[indices, 'surface_covered_in_m2'])

#Menores
indices = df[(df.surface_covered_in_m2 > df.surface_total_in_m2)].index
df.loc[indices, 'surface_total_in_m2'] = df.loc[indices, 'surface_covered_in_m2']

## Eliminamos las filas cuyos registros de precio y superficie esten todos en null

In [0]:
df = df[ \
        ( df.price_aprox_usd.notnull() ) & \
        ( df.surface_total_in_m2.notnull() ) & \
        ( df.surface_covered_in_m2.notnull() ) & \
        ( df.price_usd_per_m2.notnull() ) & \
        ( df.price_per_m2.notnull() ) \
    ]

# Outliers

In [0]:
df.price_aprox_usd.replace(0, np.nan, inplace=True)
df.surface_total_in_m2.replace(0, np.nan, inplace=True)
df.surface_total_in_m2.replace(0, np.nan, inplace=True)

In [0]:
df.describe()

In [0]:
box_plot(p_df=df, val_x='provincia', val_y='price_aprox_usd', p_step=2000000 )

#### Evaluamos Outliers para PH

In [0]:
df.shape

In [0]:
val_h = 0.95
val_l = 0.01

In [0]:
PROVINCIAS = list(df[ (df.provincia.notnull()) ].provincia.sort_values().unique()) 

In [0]:
# Evaluamos Outliers por tipo de propiedad

list_pr = [ 'PH', 'apartment', 'house', 'store' ]


for prt in list_pr:
    for prov in PROVINCIAS:
        # evaluamos price_aprox_usd
        ind_out = outliers_index(prov, prt, val_h, val_l, 'property_type', 'price_aprox_usd', df )



        # Dados los datos, determinamos que los Outliers son demasiado altos o bajos incluso expresados en otra moneda.
        # Por esto decidimos borrarlos
        df = df.drop( ind_out )


        # evaluamos surface_total_in_m2
        ind_out = outliers_index(prov, prt, val_h, val_l, 'property_type', 'surface_total_in_m2', df )


        # Dados los datos, determinamos que son Outliers y no podemos recuperarlos a traves de otros campos
        # Por esto decidimos borrarlos
        df = df.drop( ind_out )

        # evaluamos rooms
        ind_out = outliers_index(prov, prt, val_h, val_l, 'property_type', 'rooms', df )

        # Dados los datos, determinamos que son Outliers y no podemos recuperarlos a traves de otros campos
        # Por esto decidimos borrarlos
        df = df.drop( ind_out )

#### Evaluamos outliers para Apartment

In [0]:
df = df[ ~( ( df.surface_total_in_m2 > 4000 ) & (df.price_aprox_usd < 2000000) )]

In [0]:
df = df[ ~( (df.provincia == 'Salta') & (df.price_aprox_usd > 2000000) ) ]

In [0]:
df.shape

In [0]:
# Grafico de correlacion luego de trabajar los Outliers
cols = ['price_aprox_usd', 'surface_total_in_m2', 'surface_covered_in_m2' ,'price_usd_per_m2']
correlacion_plot(cols, 'property_type')

In [0]:
# Boxplot luego de trabajar los Outliers
box_plot(p_df=df, val_x='provincia', val_y='price_aprox_usd', p_step=300000 )

In [0]:
# Grid plot luego de limpiar DF
grid_plot( df )

In [0]:
# Jitter plot luego de limpiar DF
jitter_plot( df )

In [0]:
#mostramos un dataframe
df_grupo_bs_as = df.groupby(['provincia', 'property_type']).aggregate({'price_aprox_usd': ['mean', 'median', 'std'], 
                                         'surface_total_in_m2': ['mean', 'median', 'std']}).round(2)

In [0]:
df_grupo_bs_as.head(24)

In [0]:
# terminamos de ver los valores nulos
df.isnull().sum()

In [0]:
# Mostramos la forma final del DataFrame
df.shape

# Nos centramos en Capital Federal

In [0]:
# Mapa de Calor de Departamentos
plot_heatmap_bs_as( 'apartment' )

In [0]:
# Mapa de Calor de Casas
plot_heatmap_bs_as( 'house' )

In [0]:
# Mapa de Calor de PH
plot_heatmap_bs_as( 'PH' )

In [0]:
# Mapa de Calor de Locales
plot_heatmap_bs_as( 'store' )

In [0]:
equivalencias = pd.read_csv('equivalencia_barrios.csv', delimiter=';')
# 21059
df_caba = df[ (df.provincia == 'Capital Federal') & (df.localidad.notnull())]

df_den = pd.merge(equivalencias,df_caba,left_on='denominacion',right_on='localidad')

df_group = \
    df_den[ ['nombre_barrio','property_type', 'price_usd_per_m2'] ] \
        .groupby(['nombre_barrio','property_type'])\
        .aggregate(['count','mean']) \
        .round(2)


df_group = df_group.reset_index()

map_options = GMapOptions(lat=-34.607756, lng=-58.445316, map_type="roadmap", zoom=12)
with open(r'barrios_badata.geojson', 'r') as f:
    geo_source = GeoJSONDataSource(geojson=f.read())

load_json = json.loads(geo_source.geojson)

i = 1
for f in load_json['features']:
    df_tooltip = df_group[ ( df_group.nombre_barrio == f['properties']['BARRIO'] ) ]
    
    if set(df_tooltip[ ( df_tooltip.property_type == 'PH' ) ]['price_usd_per_m2']['count']):
        f['properties']['ph'] = 'Cantidad: '+ \
            str(df_tooltip[ ( df_tooltip.property_type == 'PH' ) ]['price_usd_per_m2']['count'].astype(str))[0:5]  + \
            ' || Precio Promedio (u$s): ' + \
            str(df_tooltip[ ( df_tooltip.property_type == 'PH' ) ].price_usd_per_m2['mean'].astype(str))[0:11]
    else:
        f['properties']['ph'] = ' - '
    
    if set(df_tooltip[ ( df_tooltip.property_type == 'house' ) ]['price_usd_per_m2']['count']):
        f['properties']['house'] = 'Cantidad: ' + \
        str(df_tooltip[ ( df_tooltip.property_type == 'house' ) ].price_usd_per_m2['count'].astype(str))[0:5] + \
        ' || Precio Promedio (u$s): ' + str(df_tooltip[ ( df_tooltip.property_type == 'house' ) ].price_usd_per_m2['mean'].astype(str))[0:11]
    else:
        f['properties']['house'] = ' - '
    
    if set(df_tooltip[ ( df_tooltip.property_type == 'store' ) ]['price_usd_per_m2']['count']):
        f['properties']['store'] = 'Cantidad: ' + \
        str(df_tooltip[ ( df_tooltip.property_type == 'store' ) ].price_usd_per_m2['count'].astype(str))[0:5] + \
        ' || Precio Promedio (u$s): ' + str(df_tooltip[ ( df_tooltip.property_type == 'store' ) ].price_usd_per_m2['mean'].astype(str))[0:11]
    else:
        f['properties']['store'] = ' - '
    
        
    if set(df_tooltip[ ( df_tooltip.property_type == 'apartment' ) ]['price_usd_per_m2']['count']):
        f['properties']['apartment'] = 'Cantidad: ' + \
        str(df_tooltip[ ( df_tooltip.property_type == 'apartment' ) ].price_usd_per_m2['count'].astype(str))[0:5] + \
        ' || Precio Promedio (u$s): ' + str(df_tooltip[ ( df_tooltip.property_type == 'apartment' ) ].price_usd_per_m2['mean'].astype(str))[0:11]
    else:
        f['properties']['apartment'] = ' - '
        
    f['properties']['color'] = i
    i += 1
    
TOOLTIPS = """
    <div>
        <div style="margin-bottom:20px;">
            <span style="font-size: 17px; font-weight: bold;">@BARRIO</span>
        </div>
        <div>
            <span style="font-size: 14px; font-weight: bold;">PH: </span><span>@ph</span>
        </div>
        <div>
            <span style="font-size: 14px; font-weight: bold;">Departamentos: </span><span>@apartment</span>
        </div>
        <div>
            <span style="font-size: 14px; font-weight: bold;">Casas: </span><span>@house</span>
        </div>
        <div>
            <span style="font-size: 14px; font-weight: bold;">Tiendas: </span><span>@store</span>
        </div>
    </div>
"""

geo_source.geojson = json.dumps(load_json);


color_mapper = LinearColorMapper(palette=Viridis6)

TOOLS = "pan,wheel_zoom,box_zoom,reset,hover,save"

#p = figure(title="Ciudad Autónoma de Buenos Aires", \
#           tools=TOOLS, \
#           x_axis_location=None, \
#           y_axis_location=None, \
#           width=900, \
#           height=900)
p = gmap( \
        google_api_key = 'AIzaSyCwf0D2r0KYgHdAEM6SQ_QyHU3Az-zX_Yk', \
        map_options = map_options, \
        title="Ciudad Autónoma de Buenos Aires", \
        tools=TOOLS, \
        x_axis_location=None, \
        y_axis_location=None, \
        width=900, \
        height=900)
p.grid.grid_line_color = None

p.patches('xs', 'ys', fill_alpha=0.3, fill_color={'field': 'AREA', 'transform': color_mapper}, 
          line_color='white', line_width=0.5, source=geo_source, legend='BARRIO')


hover = p.select_one(HoverTool)
hover.point_policy = "follow_mouse"
hover.tooltips = TOOLTIPS

output_file("caba_maps.html", title="Resumen por barrio y tipo de propiedad")

show(p)
