In [None]:
#Proceso04
#limpieza especificas para departamentos
#visualizar mapa palermo y departamentos
#recupero de muestra para RL

In [None]:
import pandas as pd
import numpy as np
import geopandas
import fiona
import rtree
import folium
import joypy

from shapely.geometry import Point, Polygon

#pd.options.display.max_rows = 10

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
sns.set(style = "whitegrid")

import matplotlib.pyplot as plt

#funciones graficas

def plot_dist(lista):
    '''
    Input: serie
    Return: subplots con la distribucion original boxplot e hist&kde
    '''
    plt.figure(figsize=(12,8))
    
    plt.subplot(211)
    sns.boxplot(lista)
    plt.title(f'{lista.name}\n Max={np.max(lista):.0f} Median={np.median(lista):.0f} Min={np.min(lista):.0f}')

    plt.subplot(212)
    sns.distplot(lista)

    plt.tight_layout()
    plt.show()

In [None]:
#geopandas
def from_wkt(df, wkt_column):
    import shapely.wkt
    df["coordinates"]= df[wkt_column].apply(shapely.wkt.loads)
    gdf = geopandas.GeoDataFrame(barrios, geometry='coordinates')
    return gdf

def from_x_y(df, x, y):
    gdf = geopandas.GeoDataFrame(df.drop([x, y], axis=1),
                                crs={'init': 'epsg:4326'},
                                geometry=[Point(xy) for xy in zip(df[x], df[y])])
    return gdf

In [None]:
barrios = pd.read_csv("../data/barrios.csv", encoding='latin1')

barrios = from_wkt(barrios, "WKT")

In [None]:
barrios.head()

In [None]:
propiedades = pd.read_csv('../data/out_proceso03.csv', decimal=".")

#se aplican nuevos filtros para seleccionar el barrio en que vamos a trabajar -> palermo
analizar = propiedades[(propiedades['provincia'] == 'capital federal') & 
                       (propiedades['tipo_propiedad'] == 'departamento') &
                       (propiedades['ciudad_barrio'] == 'palermo') &
                       (propiedades['emprendimiento'] == False) &
                       (propiedades['lat'].notnull()) &
                       (propiedades['lon'].notnull()) &
                       (propiedades['valor_m2'] > 1300) & 
                       (propiedades['valor_m2'] < 5300) & 
                       (propiedades['sup_m2'] > 10) &
                       (propiedades['sup_m2'] < 600)
                      ].copy()

#se descartan posibles errores de carga sobre tipo de propiedad
analizar.loc[analizar['titulo'].str.contains("chalet|duplex|ph"), 'tipo_propiedad'] = "error"
analizar.loc[analizar['descripcion'].str.contains("chalet|duplex|ph"), 'tipo_propiedad'] = "error"

#nos quedamos solo con los departamentos
analizar = analizar[(analizar['tipo_propiedad'] == 'departamento')]

dfTemp = pd.DataFrame(analizar['descripcion'].copy())

#dfTemp['titulo'].replace('( )', '', regex=True, inplace=True)
dfTemp['descripcion'].replace('( )', '', regex=True, inplace=True)
dfTemp.columns=['descripciontrip']
analizar = analizar.join(dfTemp)

# Eliminar duplicados en descripcion y titulo
analizar.drop_duplicates(['descripciontrip'], inplace=True)
analizar.drop_duplicates(['titulo'], inplace=True)

analizar = from_x_y(analizar, 'lon', 'lat')

In [None]:
analizar.head()

In [None]:
palermo = barrios[barrios['BARRIO']=='PALERMO']

analizar = analizar[analizar.intersects(palermo.unary_union)]

analizar.shape

In [None]:
m = folium.Map([-34.606359, -58.443863], zoom_start=12, tiles="OpenStreetMap")
folium.GeoJson(palermo.to_json()).add_to(m)
folium.GeoJson(analizar.to_json()).add_to(m)
m

In [None]:
sns.heatmap(analizar[['precio','sup_m2','valor_m2','expensas','dormitorios','ambientes','seguridad','banos']].corr(), square=True, annot=True, cmap="YlGnBu")

In [None]:
analizar.groupby(['ciudad_barrio']).agg({'valor_m2':['count','mean','max','min','std']})

In [None]:
plot_dist(analizar.valor_m2)

In [None]:
#sup_m2 vs precio
muestra = analizar.sample(frac=0.50)

# Gráfico con línea de regresión
plt.figure(figsize = (20,10))
sns.regplot(x=muestra["sup_m2"], y=muestra["precio"])

In [None]:
#sup_m2 vs valor_m2
muestra = analizar.sample(frac=0.50)

# Gráfico con línea de regresión
plt.figure(figsize = (20,10))
sns.regplot(x=muestra["sup_m2"], y=muestra["valor_m2"])

In [None]:
#valor_m2 -> palermo vs palermo sin barrios vs palermo con barrio

#palermo
p_psb_pcb = analizar[['ciudad_barrio','valor_m2','expensas']].copy()
p_psb_pcb.columns=['barrio','valor_m2','expensas']

#palermo sin barrio
dfTemp = analizar[analizar['barrio'].isnull()][['barrio','valor_m2','expensas']].copy()
dfTemp['barrio'] = 'sin barrio'

p_psb_pcb = pd.concat([p_psb_pcb, dfTemp], sort=True, axis=0)

#palermo con palermo chico
dfTemp = analizar[analizar['barrio']=="palermo chico"][['barrio','valor_m2','expensas']].copy()

p_psb_pcb = pd.concat([p_psb_pcb, dfTemp], sort=True, axis=0)

#palermo con palermo chico
dfTemp = analizar[analizar['barrio']=="palermo soho"][['barrio','valor_m2','expensas']].copy()

p_psb_pcb = pd.concat([p_psb_pcb, dfTemp], sort=True, axis=0)

#palermo con palermo hollywood
dfTemp = analizar[analizar['barrio']=="palermo hollywood"][['barrio','valor_m2','expensas']].copy()

p_psb_pcb = pd.concat([p_psb_pcb, dfTemp], sort=True, axis=0)

fig, axes = joypy.joyplot(p_psb_pcb, by="barrio", column="valor_m2", x_range=[500,8000], figsize=(20,10))

In [None]:
#palermo con palermo viejo
dfTemp = analizar[analizar['barrio']=="palermo viejo"][['barrio','valor_m2','expensas']].copy()

p_psb_pcb = pd.concat([p_psb_pcb, dfTemp], sort=True, axis=0)


fig, axes = joypy.joyplot(p_psb_pcb, by="barrio", column="valor_m2",
                          hist="True", bins=50, overlap=0,
                          grid=True, legend=False, x_range=[600,6000], figsize=(20,10), ylabelsize=18, xlabelsize=18)

In [None]:
p_psb_pcb.groupby('barrio').count()

In [None]:
p_psb_pcb.groupby('barrio')['valor_m2'].agg(['mean','max','min']).plot.bar()

In [None]:
p_psb_pcb.groupby('barrio')['expensas'].agg(['mean','max','min']).plot.bar()

In [None]:
# Ploteamos el histograma de Precio
plt.figure(figsize=(10,6))

plt.hist(analizar['precio'], bins=35, color='lightblue')
plt.xlabel('Precio aprox USD')
plt.ylabel('Frecuencia')
plt.title('Histograma - Precio Medio: u$d ' + str("{0:.2f}".format(analizar['precio'].mean())))
plt.grid(True)
plt.show()

In [None]:
# Ploteamos el histograma de valor_m2
plt.figure(figsize=(10,6))

plt.hist(analizar['valor_m2'], bins=35, color='lightblue')
plt.xlabel('Precio aprox USD')
plt.ylabel('Frecuencia')
plt.title('Histograma - Valor M2 Medio: u$d ' + str("{0:.2f}".format(analizar['valor_m2'].mean())))
plt.grid(True)
plt.show()

In [None]:
# Ploteamos el histograma de expensas
plt.figure(figsize=(10,6))

#se reemplaza string np.nan por 0
analizar['expensas'].replace(to_replace=np.nan, value=0, inplace=True)

plt.hist(analizar['expensas'], bins=10, color='lightblue')
plt.xlabel('Expensas')
plt.ylabel('Frecuencia')
plt.title('Histograma - Media Expensas: $' + str("{0:.2f}".format(analizar['expensas'].mean())))
plt.grid(True)
plt.show()

In [None]:
# Ploteamos el histograma con Sup Cubierta

plt.figure(figsize=(10,6))

#se reemplaza string np.nan por 0
analizar['sup_m2_cubiertos'].replace(to_replace=np.nan, value=0, inplace=True)

plt.hist(analizar['sup_m2_cubiertos'], bins=35, color='lightblue')
plt.xlabel('Sup cubierta')
plt.ylabel('Frecuencia')
plt.title('Histograma - Sup Media: ' + str("{0:.2f}".format(analizar['sup_m2_cubiertos'].mean())) + 'm2')
plt.grid(True)
plt.show()