[View in Colaboratory](https://colab.research.google.com/github/manucorrado/digital_data/blob/master/Proyecto_Final.ipynb)

Introducción

La inmobiliaria Properati publica periódicamente información sobre ofertas de propiedades para venta y alquiler. Ud. deberá asesorar a la inmobiliaria a desarrollar un modelo de regresión que permita predecir el precio por metro cuadrado de una propiedad. El objetivo final es que el modelo que desarrollen sea utilizado como tasador automático a ser aplicados a las próximas propiedades que sean comercializadas por la empresa. Para ello la empresa le provee de un dataset correspondiente al mes de XX de 2017.

El dataset es de entre mediano y pequeño pero tiene dos complejidades a la que deberá prestarle atención:

● Peso de missing data en algunas variables relevantes ● Será importante tener en cuenta el problema de la influencia espacial en los precios por metro cuadrado. En efecto, es probable que existan diferencias importantes de en las diferentes geografías, barrios y zonas analizadas.

Objetivos: ● Efectuar una limpieza del dataset provisto. Particularmente, deberá diseñar estrategias para lidiar con los datos perdidos en ciertas variables. ● Realizar un análisis descriptivo de las principales variables. ● Crear nuevas columnas a partir de las características dadas que puedan tener valor predictivo.


# 1. LIBRERIAS

In [1]:
!pip install plotly



In [4]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from matplotlib import cm
import joypy
import plotly as py
import plotly.figure_factory as ff
py.offline.init_notebook_mode(connected=True)

ModuleNotFoundError: ignored

# 2. IMPORTAR EL CSV


In [3]:
df = pd.read_csv('properatti.csv', encoding='utf-8')
df.shape

FileNotFoundError: ignored

# 3. FILTROS


In [5]:
#Nos quedamos con los deptos de capital federal que no sean de pozo
deptos_capital = df [(df.property_type == "apartment")&(df.state_name == "Capital Federal")&(df.description.str.contains("pozo",case=False)==False)].reset_index()
deptos_capital.shape

NameError: ignored

# 4. TRATAMIENTO DE LA BASE

   ## 4.1 Creacion de variables Dummies


In [0]:

deptos_capital["pileta"]=deptos_capital.description.str.contains("pileta|piscina",case=False)
deptos_capital["gimnasio"]=deptos_capital.description.str.contains("gimnasio|gym|musculaci",case=False)
deptos_capital["terraza"]=deptos_capital.description.str.contains("terraza",case=False)
deptos_capital["sum"]=deptos_capital.description.str.contains("terraza",case=False)
deptos_capital["cochera"]=deptos_capital.description.str.contains("cochera|garage",case=False)


Unnamed: 0,gimnasio,description
13,True,Torre I Mondrian. 3 ambientes con terraza y d...
14,True,Torre II Dalí. Ambiente unico divisible.Vitrau...
219,True,Piso en Belgrano entre Villanueva y Luis ...
223,True,Máxima categoría en ubicación y terminacionesA...
225,True,"Emplazado en el corzaón de Nuñez, Pedraza Plaz..."
226,True,"Emplazado en el corzaón de Nuñez, Pedraza Plaz..."
229,True,"Monoambientes a la venta, en inmejorable zona ..."
244,True,- Departamento de 4 ambientes- Pasante- Cocher...
252,True,MADERO HARBOUR HOUSE. ESPECTACULAR DEPARTAMENT...
270,True,CODIGO: ubicado en: Ricardo Balbin DR. 4300 -...


## 4.2 Tratamiento variable description

In [0]:
#Convierto todo a minuscula
deptos_capital["description"] =deptos_capital["description"].str.lower() 

#Reemplazo los numeros escritos en letras por digitos
lista = ['un','dos','tres', 'cuatro', 'cinco', 'seis', 'siete', 'ocho', 'nueve']
for i in range(len(lista)):
    deptos_capital['description'] = deptos_capital['description'].str.replace(lista[i],str(i+1))

#Reemplazo los monoambientes
deptos_capital["description"] =deptos_capital["description"].str.replace('monoambiente','1 ambiente')
deptos_capital["description"]

0        2 ambientes 3er piso lateral living comedor am...
1        excelente 1 ambiente a estrenar amplio super l...
2        excelente 2 ambientes  estrenar amplio super l...
3         torre i mondrian. 3 ambientes con terraza y 2...
4        torre ii dalã­. ambiente 1ico divisible.vitrau...
5        excelente semipiso al contra frente en bulnes ...
6        excelente zona, multiples medios de transporte...
7        departamento muy luminoso con to2 sus ambiente...
8        hermoso departamento de 4 ambientes, refaccion...
9        espectacular loft de exclusivo diseã±o, 210 ms...
10       piso 13, orientaciã³n norte, disposiciã³n al f...
11       departamento de 3 ambientes al contrafrente. s...
12       14 exclusivos semi-pisos.excelentes detalles d...
13       excelentes detalles de terminaciã³n, y diseã±o...
14       excelentes detalles de terminaciã³n, y diseã±o...
15       al frente muy luminoso.living comedor, a balco...
16       espectacular departamento de 2 ambientes con c.

## 4.3 REGEX para extraer ambientes de la variable description 

In [0]:

deptos_capital["ambientes_regex"] = deptos_capital['description'].str.extract("[\s\.](\d) amb")

#Combino las columnas rooms y ambientes regex para tener una sola consolidada

deptos_capital['ambientes_final'] = deptos_capital.rooms.combine_first(deptos_capital.ambientes_regex)
    

deptos_capital[["description","ambientes_regex","rooms","ambientes_final"]].head()

Unnamed: 0,description,ambientes_regex,rooms,ambientes_final
0,2 ambientes 3er piso lateral living comedor am...,2,,2
1,excelente 1 ambiente a estrenar amplio super l...,1,,1
2,excelente 2 ambientes estrenar amplio super l...,2,,2
3,torre i mondrian. 3 ambientes con terraza y 2...,3,1.0,1
4,torre ii dalã­. ambiente 1ico divisible.vitrau...,,1.0,1
5,excelente semipiso al contra frente en bulnes ...,,3.0,3
6,"excelente zona, multiples medios de transporte...",,4.0,4
7,departamento muy luminoso con to2 sus ambiente...,,2.0,2
8,"hermoso departamento de 4 ambientes, refaccion...",4,4.0,4
9,"espectacular loft de exclusivo diseã±o, 210 ms...",5,3.0,3


## 4.4 Validacion de la zona geografica

In [3]:
import geopandas
import rtree
import fiona
import pandas as pd

ModuleNotFoundError: ignored

In [0]:
barrios = pd.read_csv('barrios.csv', encoding='latin1')

###4.4.1 Creacion de un GeoDataFrame con geometry de polygons con los barrios de CABA

In [0]:
import shapely.wkt #importamos la forma wkt para representar poligonos
barrios['coordenadas'] = barrios.WKT.apply(shapely.wkt.loads)# transformación de los String del df original a Polygon
barrios.drop("WKT",1,inplace=True)
#creacion del GeoDataFrame
geo_barrios = geopandas.GeoDataFrame(barrios,
                                     crs={'init':'epsg:4326'},
                                     geometry='coordenadas')
geo_barrios['pol_barrio'] = geo_barrios['coordenadas'] 

### 4.4.2 Usando las coordenadas del deptos_capital armamos un GeoDataFrame con geometry de una GeoSerie de points(coordenadas de los departamentos)

In [0]:
from shapely.geometry import Point

geo_deptos_capital = geopandas.GeoDataFrame(deptos_capital.drop(columns=['lat','lon']), 
                                            crs={'init':'epsg:4326'},
                                           geometry=[Point(ij) for ij in zip(deptos_capital['lon'],deptos_capital['lat'])])

#### Buscamos la cantidad de faltantes de datos geográficos

In [0]:
deptos_capital['lat-lon'].notnull().value_counts()

#### El 74% de los departamentos tiene dato geografico

In [0]:
deptos_con_dato = deptos_capital[deptos_capital['lat-lon'].notnull()]

###4.4.3 Analizando los datos faltantes

In [0]:
total = deptos_capital['place_name'].value_counts(dropna=False)

In [0]:
proporcion_faltantes = faltantes['place_name'].value_counts(dropna=False)/total
proporcion_con_dato = deptos_con_dato['place_name'].value_counts(dropna=False)/total

In [0]:
tabla = pd.DataFrame({'faltantes':faltantes['place_name'].value_counts(dropna=False),
                      'con_dato':deptos_con_dato['place_name'].value_counts(),
                      'total':total,
                      'prop_faltantes':proporcion_faltantes,
                      'prop_con_dato':proporcion_con_dato},index=deptos_con_dato['place_name'].value_counts().index)

####Los barrios donde más faltan datos geográficos son:

In [0]:
tabla.sort_values('prop_faltantes',ascending=False).head()

###4.4.4 Transformando los datos geograficos de properatti

In [0]:
deptos_geo_ubicados = geopandas.sjoin(geo_barrios,geo_deptos_capital, how='right'

In [0]:
deptos_geo_ubicados.rename({'BARRIO':'barrio_real','place_name':'barrio_publicacion'},axis=1,inplace=True)

In [0]:
deptos_geo_ubicados.drop(['state_name','index_left'],1,inplace=True)

In [0]:
deptos_geo_ubicados = deptos_geo_ubicados[['barrio_real','barrio_publicacion', 'COMUNA','lat-lon','geometry', 'pol_barrio',
        'price', 'currency',
       'price_aprox_local_currency', 'price_aprox_usd', 'surface_total_in_m2',
       'surface_covered_in_m2', 'price_usd_per_m2', 'price_per_m2', 'floor',
       'rooms', 'description', 'title',
        'PERIMETRO', 'AREA']]

In [0]:
deptos_geo_ubicados['barrio_publicacion'].unique()

In [0]:
deptos_geo_ubicados['barrio_publicacion'].fillna(value=np.nan,inplace=True)

#### Homogeneizando los nombres de los barrios

In [0]:
deptos_geo_ubicados.loc[:,'barrio_real'] = deptos_geo_ubicados['barrio_real'].str.lower()

In [0]:
def uni(x):
    if x.find('ñ') == -1:
        return unidecode.unidecode(x.lower())
    return x.lower()

In [0]:
deptos_geo_ubicados.loc[:,'barrio_publicacion'] = deptos_geo_ubicados[deptos_geo_ubicados['barrio_publicacion'].notnull()]['barrio_publicacion'].apply(uni)

In [0]:
deptos_geo_ubicados[['barrio_real','barrio_publicacion']].count()

#### Diferencias entre publicación y posición geográfica

In [0]:
deptos_bien_ubicados = deptos_geo_ubicados[(deptos_geo_ubicados['barrio_publicacion'] == deptos_geo_ubicados['barrio_real'])]
diferencias = deptos_geo_ubicados[(deptos_geo_ubicados['barrio_publicacion'] != deptos_geo_ubicados['barrio_real'])]
diferencias_sin_nan = deptos_geo_ubicados[(deptos_geo_ubicados['barrio_publicacion'] != deptos_geo_ubicados['barrio_real']) & (deptos_geo_ubicados['barrio_real'].notnull())]

#### Cantidad de departamentos bien publicados:

In [0]:
deptos_bien_ubicados.shape[0]

#### Cantidad de departamentos mal publicados:

In [0]:
diferencias_sin_nan.shape[0]

### El 33% de los departamentos estan mal publicados.

## 4.4.5 Barrios donde más departmentos mal ubicados hay

In [0]:
diferencias_sin_nan['barrio_publicacion'].value_counts().head()

### Gráficos:

In [0]:
grupo = diferencias.groupby('barrio_publicacion')['barrio_real'].value_counts()

In [0]:
def grafico_barras(grupo,barrio,p=True):
    graph = grupo[barrio].plot(kind='bar', figsize=(13,9))
    lista =[i.get_height() for i in graph.patches] 
    total = sum(lista)
    graph.set_xlabel('Barrio Real', fontsize= 12)
    graph.set_title('Deptos publicados en '+barrio.title(),fontsize=14)
    graph.set_xticklabels([i.upper() for i in grupo[barrio].index.values],fontdict={'fontsize':12})
    if p == True:
        for i in graph.patches:
            graph.annotate(str(round(i.get_height()/total*100,2))+'%',(i.get_x(), i.get_height()),fontsize=12)
        
    return graph

### Barrio Norte:

In [0]:
grafico_barras(grupo,'barrio norte');

### Belgrano:

In [0]:
grafico_barras(grupo,'belgrano');

### Capital Federal (No hay barrio en la publicación):

In [0]:
grafico_barras(grupo,'capital federal',False);

### Caballito:

In [0]:
grafico_barras(grupo,'caballito');

### Palermo:

In [4]:
grafico_barras(grupo,'palermo')

NameError: ignored

## 4.5 Imputacion del precio

In [0]:
deptos_capital["precio_final"] = deptos_capital.price_usd_per_m2.combine_first(deptos_capital.price_per_m2)
deptos_capital[["precio_final","price_per_m2","price_usd_per_m2"]].head()

Unnamed: 0,precio_final,price_per_m2,price_usd_per_m2
0,1309.090909,1309.090909,1309.090909
1,3066.666667,3450.000000,3066.666667
2,3000.000000,3250.000000,3000.000000
3,2234.000000,3723.333333,2234.000000
4,3521.428571,4770.967742,3521.428571
5,3365.384615,3645.833333,3365.384615
6,2292.372881,3705.479452,2292.372881
7,1744.186047,1744.186047,1744.186047
8,1812.500000,1883.116883,1812.500000
9,2181.818182,3692.307692,2181.818182


## 4.6 OUTLIERS

In [0]:
#Tomo como criterio eliminar dptos con precio por m2 mayor a 20000
q75_m2, q25_m2 = np.percentile(deptos_capital.precio_final.dropna(), [75 ,25])
iqr_m2 = q75_m2 - q25_m2

deptos_capital['Outliers'] = (deptos_capital.precio_final < q75_m2 + 1.5*iqr_m2) & (ddeptos_capital.precio_final > q25_m2 - 1.5*iqr_m2)

## 4.7 Tratamiento de missings

###Missing values: proporcion

In [0]:
place = len(capital_dptos[(capital_dptos['place_name'] == 'Capital Federal')])
place.head()

In [0]:
total = len(capital_dptos['price_usd_per_m2'])
total.head()

In [0]:
diff_place = total - place

In [0]:
diff_place = total - place
diff_place.head()


In [0]:
price = capital_dptos['price_usd_per_m2'].isnull().sum()
price.head()

In [0]:
diff_price = total - price
diff_price.head()

In [0]:
ll = capital_dptos['lat-lon'].isnull().sum()
ll.head()

In [0]:
diff_ll = total - ll
diff_ll.head()

In [0]:
faltantesplace = {'datos faltantes': place/total, 'datos no faltantes': diff_place/total}
faltantesprice = {'datos faltantes': price/total, 'datos no faltantes': diff_price/total}
faltantesll = {'datos faltantes': ll/total, 'datos no faltantes': diff_ll/total}
data_falt_place = pd.Series(faltantesplace)
data_falt_price = pd.Series(faltantesprice)
data_falt_ll = pd.Series(faltantesll)

In [0]:
place1 = pd.DataFrame(data_falt_place, columns=['place'])

In [0]:
price1 = pd.DataFrame(data_falt_price, columns=['price'])

In [0]:
ll1 = pd.DataFrame(data_falt_ll, columns=['Lat-Lon'])

In [0]:
todas = [place1, price1, ll1]

todas = pd.concat(todas, axis=1)
m_todas = todas.transpose()
m_todas

In [0]:
m_todas.plot(kind='bar', stacked=True, figsize=(15,10), title= 'Missing Values', colormap='cool', fontsize=25)

# 5. ANALISIS  DESCRIPTIVO

## 5.1 Tabla de frecuencias de tipo de vivienda en capital federal 

In [0]:
capital = df[df['state_name']=='Capital Federal']
capital.groupby('property_type')['place_name'].describe()

Unnamed: 0_level_0,count,unique,top,freq
property_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PH,1828,58,Mataderos,126
apartment,27037,62,Belgrano,2761
house,2087,58,Capital Federal,449
store,1364,57,Palermo,112


In [0]:
estad= deptos_capital.pivot_table(index='place_name', 
                    aggfunc={'precio_final':['mean','std','count']})
estad.columns = estad.columns.droplevel(0)

estad["place_name"] = estad.index
estad.sort_values(by = ['mean'],ascending = False,inplace = True)
estad

Unnamed: 0_level_0,count,mean,std,place_name
place_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Puerto Madero,535,6084.736791,1459.146687,Puerto Madero
Boedo,219,5375.251805,6038.806000,Boedo
Palermo Chico,171,4628.940260,2114.311258,Palermo Chico
Las CaÃ±itas,121,3515.608171,942.949809,Las CaÃ±itas
Palermo,2151,3352.383974,1182.799243,Palermo
Palermo Soho,253,3320.364840,1086.634031,Palermo Soho
NuÃ±ez,585,3316.719770,1470.044940,NuÃ±ez
Palermo Hollywood,390,3282.623060,917.443763,Palermo Hollywood
Recoleta,1267,3269.679013,989.707764,Recoleta
Palermo Viejo,28,3218.408950,1032.131832,Palermo Viejo


In [0]:
estad.columns

Index(['count', 'mean', 'std', 'place_name'], dtype='object')

# 6. GRAFICOS

# 6.1 Distribucion del precio por barrio

In [0]:
data = [py.graph_objs.Bar(x=estad["place_name"],y=estad["mean"])]
py.offline.iplot(data)

In [0]:
import plotly.plotly as py
import plotly.graph_objs as go
import numpy as np

y0 = deptos_capital.loc[deptos_capital.place_name == "Puerto Madero",["precio_final"]]
y1 = deptos_capital.loc[deptos_capital.place_name == "Boedo",["precio_final"]]

y0 = y0.values
y1 = y1.values

trace0 = go.Box(
    y=y0,
    name = 'Puerto Madero',
    marker = dict(
        color = 'rgb(214, 12, 140)',
    )
)
trace1 = go.Box(
    y=y1,
    name = 'Boedo',
    marker = dict(
        color = 'rgb(0, 128, 128)',
    )
)
data = [trace0, trace1]
py.iplot(data)

#6.2 Distribución del precio por Amenities

In [0]:
amenities = deptos_capital[['price', 'pileta', 'gimnasio', 'terraza', 'cochera']]

In [0]:
amenities[amenities['price'] > amenities['price'].mean()].pileta.value_counts()

In [0]:
p = amenities[(amenities['pileta']==True)]['price'].mean()

g = amenities[(amenities['gimnasio']==True)]['price'].mean()

c = amenities[(amenities['cochera']==True)]['price'].mean()

t = amenities[(amenities['terraza']==True)]['price'].mean()

pt = amenities[(amenities['pileta']==True)&(amenities['terraza']==True)]['price'].mean()

pc = amenities[(amenities['pileta']==True)&(amenities['cochera']==True)]['price'].mean()

pg = amenities[(amenities['pileta']==True)&(amenities['gimnasio']==True)]['price'].mean()

gt = amenities[(amenities['gimnasio']==True)&(amenities['terraza']==True)]['price'].mean()

gc = amenities[(amenities['gimnasio']==True)&(amenities['cochera']==True)]['price'].mean()

ct = amenities[(amenities['cochera']==True)&(amenities['terraza']==True)]['price'].mean()

ptc = amenities[(amenities['pileta']==True)&(amenities['terraza']==True)&(amenities['cochera']==True)]['price'].mean()

ptg = amenities[(amenities['pileta']==True)&(amenities['terraza']==True)&(amenities['gimnasio']==True)]['price'].mean()

pgc = amenities[(amenities['pileta']==True)&(amenities['gimnasio']==True)&(amenities['cochera']==True)]['price'].mean()

gtc = amenities[(amenities['gimnasio']==True)&(amenities['terraza']==True)&(amenities['cochera']==True)]['price'].mean()

todas = amenities[(amenities['pileta']==True)&(amenities['terraza']==True)&(amenities['cochera']==True)&(amenities['gimnasio']==True)]['price'].mean()

In [0]:
py.offline.init_notebook_mode(connected=True)
data = [go.Bar(
            x=['Promedio total ', 'P', 'T','G', 'C','PyT','PyC', 'PyG', 'GyC', 'GyT', 'CyT','PGyC', 'PGyT','PCyT', 'GCyT', 'Todas' ],
            y=[normal, p,t,g,c, pt,pc,pg,gc,gt,ct,pgc,ptg,ptc,gtc,todas]
    )]

py.offline.iplot(data)

#6.2 Distribución del precio por cantidad de ambientes

In [0]:
ambientes = deptos_capital[['ambientes_final', 'price']]

In [0]:
todo = ambientes.price.mean()
dos = ambientes[(ambientes.ambientes_final == 2)].price.dropna().mean()
tres = ambientes[(ambientes.ambientes_final == 3)].price.dropna().mean()
cuatro = ambientes[(ambientes.ambientes_final == 4)].price.dropna().mean()
cinco = ambientes[(ambientes.ambientes_final == 5)].price.dropna().mean()
seis_mas = ambientes[(pd.to_numeric(ambientes.ambientes_final) >= 6)].price.dropna().mean()

In [0]:
q75, q25 = np.percentile(deptos_capital.price.dropna(), [75 ,25])
iqr = q75 - q25

In [0]:
outliertop = ambientes[(ambientes.ambientes_final == 1)&(ambientes['price'] > q75 + 1.5*iqr)].index.values
outlierbot = ambientes[(ambientes.ambientes_final == 1)&(ambientes['price'] < q25 - 1.5*iqr)].index.values

In [0]:
mono = ambientes[(ambientes.ambientes_final == 1)].drop(list(outliertop), axis=0).drop(list(outlierbot), axis=0).price.mean()

In [0]:
py.offline.init_notebook_mode(connected=True)
data = [go.Bar(
            x=['Promedio gral','Mono', 'Dos', 'Tres', 'Cuatro', 'Cinco', 'Seis o más' ],
            y=[todo,mono,dos,tres,cuatro,cinco,seis_mas]    
    )]
layout = go.Layout(
    title='Relación: Precio promedio-Cantidad de ambientes',
)
fig = go.Figure(data=data, layout=layout)
py.offline.iplot(fig)

###6.3 Distribución del precio por m2 en los distintos barrios






In [0]:
import numpy as np
import pandas as pd

In [0]:
pd.DataFrame(df).head(2)

In [0]:
df.columns

In [0]:
df.shape

In [0]:
#filtro y solo me quedo con los apartment
df_filtered = df[(df['property_type'] != 'PH') & (df['property_type'] != 'house') & (df['property_type'] != 'shop') ]
df_filtered.head(1)

In [0]:
#me quedo solo con los apartment de capital
capital_dptos = df_filtered[(df_filtered['state_name'] == 'Capital Federal')]
type(capital_dptos)

In [0]:
capital_dptos.head(1)

In [0]:
capital_dptos.columns

In [0]:
#elminamos columnas que no vamos a usar
jm = capital_dptos.drop(columns=['operation', 'property_type', 'place_with_parent_names', 'country_name',
                                 'state_name', 'geonames_id',
       'lat-lon', 'lat', 'lon', 'price', 'currency',
       'price_aprox_local_currency', 'price_aprox_usd', 'surface_total_in_m2',
       'surface_covered_in_m2', 'price_per_m2', 'floor',
       'rooms', 'expenses', 'properati_url', 'description', 'title',
       'image_thumbnail'])
jm.head(2)

In [0]:
jm["price_usd_per_m2"].head(1)

In [0]:
jm['price_usd_per_m2'].notnull().sum()

In [0]:
jm['price_usd_per_m2'].isnull().sum()

In [0]:
#eliminar NaN values
gv = jm.dropna() 
type(gv)

In [0]:
belgrano = gv[(gv['place_name'] == "Belgrano")]
belgrano.head(2)

In [0]:
palermo = gv[(gv['place_name'] == "Palermo")]
palermo.head(2)

In [0]:
caballito = gv[(gv['place_name'] == "Caballito")]
caballito.head(2)

In [0]:
santelmo = gv[(gv['place_name'] == "San Telmo")]
santelmo.head(2)

In [0]:
patricios = gv[(gv['place_name'] == "Parque Patricios")]
patricios.head(2)

In [0]:
abasto = gv[(gv['place_name'] == "Abasto")]
abasto.shape

In [0]:
pompeya = gv[(gv['place_name'] == "Pompeya")]
pompeya.shape

In [0]:
madero = gv[(gv['place_name'] == "Puerto Madero")]
madero.shape

In [0]:
frames = [patricios, santelmo, palermo, belgrano, caballito, abasto, pompeya, madero]

result = pd.concat(frames)

In [0]:
result.shape

In [0]:
result['price_usd_per_m2'].describe()

In [0]:
result['price_usd_per_m2'] = result['price_usd_per_m2']
result['price_usd_per_m2'].head(10)

In [0]:
!pip install joypy

In [0]:

import pandas as pd


In [0]:
%matplotlib inline
fig, axes = joypy.joyplot(result, by="place_name", x_range=[500,5000])

In [0]:
%matplotlib inline
fig, axes = joypy.joyplot(result, by="place_name", column="price_usd_per_m2",
                          hist="True", bins=50, overlap=0,
                          grid=True, legend=False, x_range=[600,6000], figsize=(20,10), ylabelsize=18, xlabelsize=18)



###Funnel del data set

In [0]:

values = []
phases = ['Tot_Prop', '  Prop_CABA  ', '  Dptos_CABA  ', '  Dptos_CABA (no de pozo)  ']

values.append(df['operation'].size)
values.append(df.loc[df.state_name == "Capital Federal",['operation']].size)
values.append(df.loc[(df.state_name == "Capital Federal")&(df.property_type == "apartment"),['operation']].size)
values.append(df.loc[(df.state_name == "Capital Federal")&(df.property_type == "apartment")&(df.description.str.contains("pozo",case=False)==False),['operation']].size)


In [0]:


import plotly.plotly  as py
from plotly import graph_objs as go

from __future__ import division

import pandas as pd
df = pd.read_csv('properatti.csv', encoding='latin1')



py.sign_in('facundole', 'vNwUEsa8CUrb9oMHvz4P')

values = []
phases = ['Tot_Prop', '  Prop_CABA  ', '  Dptos_CABA  ', '  Dptos_CABA (no de pozo)  ']

values.append(df['operation'].size)
values.append(df.loc[df.state_name == "Capital Federal",['operation']].size)
values.append(df.loc[(df.state_name == "Capital Federal")&(df.property_type == "apartment"),['operation']].size)
values.append(df.loc[(df.state_name == "Capital Federal")&(df.property_type == "apartment")&(df.description.str.contains("pozo",case=False)==False),['operation']].size)



# chart stages data


# color of each funnel section
colors = ['rgb(32,155,160)', 'rgb(253,93,124)', 'rgb(28,119,139)', 'rgb(182,231,235)', 'rgb(35,154,160)']



n_phase = len(phases)
 
# the fixed width for the plot
plot_width = 400
 
# height of a section and difference between sections 
section_h = 100
section_d = 10
 
# multiply factor to calculate the width of other sections
unit_width = plot_width / max(values)
 
# width for all the sections (phases)
phase_w = [int(value * unit_width) for value in values]

height = section_h * n_phase + section_d * (n_phase-1)
 
shapes = []
 
label_y = []
 
for i in range(n_phase):
        if (i == n_phase-1):
                points = [phase_w[i]/2, height, phase_w[i]/2, height - section_h]
        else:
                points = [phase_w[i]/2, height, phase_w[i+1]/2, height - section_h]
 
        path = 'M {0} {1} L {2} {3} L -{2} {3} L -{0} {1} Z'.format(*points)
 
        shape = {
                'type': 'path',
                'path': path,
                'fillcolor': colors[i],
                'line': {
                    'width': 1,
                    'color': colors[i]
                }
        }
        shapes.append(shape)
        
        # Y-axis location for this section's details (phase name and value)
        label_y.append(height - (section_h / 2))
 
        height = height - (section_h + section_d)

    
    # For phase names
label_trace = go.Scatter(
    x=[-350]*n_phase,
    y=label_y,
    mode='text',
    text=phases,
    textfont=dict(
        color='rgb(200,200,200)',
        size=15
    )
)
 
# For phase values
value_trace = go.Scatter(
    x=[350]*n_phase,
    y=label_y,
    mode='text',
    text=values,
    textfont=dict(
        color='rgb(200,200,200)',
        size=15
    )
)


data = [label_trace, value_trace]
 
layout = go.Layout(
    title='Funnel Chart',
    shapes=shapes,
    height=560,
    width=800,
    showlegend=False,
    paper_bgcolor='rgba(44,58,71,1)',
    plot_bgcolor='rgba(44,58,71,1)',
    xaxis=dict(
        showticklabels=False,
        zeroline=False,
    ),
    yaxis=dict(
        showticklabels=False,
        zeroline=False
    )
)
 
fig = go.Figure(data=data, layout=layout)
py.iplot(fig)
    