In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
init_notebook_mode(connected=True)

In [2]:
df = pd.read_csv("data/train.csv")

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240000 entries, 0 to 239999
Data columns (total 23 columns):
id                            240000 non-null int64
titulo                        234613 non-null object
descripcion                   238381 non-null object
tipodepropiedad               239954 non-null object
direccion                     186928 non-null object
ciudad                        239628 non-null object
provincia                     239845 non-null object
antiguedad                    196445 non-null float64
habitaciones                  217529 non-null float64
garages                       202235 non-null float64
banos                         213779 non-null float64
metroscubiertos               222600 non-null float64
metrostotales                 188533 non-null float64
idzona                        211379 non-null float64
lat                           116512 non-null float64
lng                           116512 non-null float64
fecha                         240

In [4]:
df.columns

Index(['id', 'titulo', 'descripcion', 'tipodepropiedad', 'direccion', 'ciudad',
       'provincia', 'antiguedad', 'habitaciones', 'garages', 'banos',
       'metroscubiertos', 'metrostotales', 'idzona', 'lat', 'lng', 'fecha',
       'gimnasio', 'usosmultiples', 'piscina', 'escuelascercanas',
       'centroscomercialescercanos', 'precio'],
      dtype='object')

In [5]:
df.tipodepropiedad.value_counts()

Casa                             141717
Apartamento                       57341
Casa en condominio                19297
Terreno                            9945
Local Comercial                    3055
Oficina comercial                  1741
Bodega comercial                   1406
Edificio                           1396
Terreno comercial                  1326
Casa uso de suelo                   708
Quinta Vacacional                   395
Duplex                              343
Villa                               340
Inmuebles productivos urbanos       200
Rancho                              170
Local en centro comercial           165
Departamento Compartido             141
Otros                               134
Nave industrial                      76
Terreno industrial                   31
Huerta                               20
Lote                                  5
Garage                                1
Hospedaje                             1
Name: tipodepropiedad, dtype: int64

In [6]:
listaTipos = df.tipodepropiedad.value_counts().head(3).index.tolist()
listaTipos

['Casa', 'Apartamento', 'Casa en condominio']

In [7]:
listaHabitaciones = df.habitaciones.value_counts().head(3).index.astype(int).tolist()
listaHabitaciones

[3, 2, 4]

In [8]:
data = df[['tipodepropiedad','habitaciones']]
data = data[data['tipodepropiedad'].isin(listaTipos)]
data = data[data['habitaciones'].isin(listaHabitaciones)]
data['habitaciones'] = data['habitaciones'].astype(int)
data.head(10)

Unnamed: 0,tipodepropiedad,habitaciones
0,Apartamento,2
1,Casa en condominio,3
2,Casa,3
3,Casa,2
4,Apartamento,2
5,Apartamento,2
6,Casa,3
7,Casa,4
8,Apartamento,2
10,Casa,3


In [9]:
data2 = data.groupby(['tipodepropiedad','habitaciones']).agg(np.size)
frame = data2.to_frame()
frame = frame.rename(columns={0:'count'}).reset_index()
frame

Unnamed: 0,tipodepropiedad,habitaciones,count
0,Apartamento,2,60080
1,Apartamento,3,45132
2,Apartamento,4,1560
3,Casa,2,47578
4,Casa,3,169302
5,Casa,4,43428
6,Casa en condominio,2,6008
7,Casa en condominio,3,27216
8,Casa en condominio,4,4190


In [14]:
nodes = [['ID', 'Label', 'Color'],
        [0,'Casa','#4994CE'],
        [1,'Apartamento','#8A5988'],
        [2,'Casa en condominio','#449E9E'],
        [3,'dso','#7FC241'],
        [4,'tres','#49CACE'],
        [5,'4','#7a49ce'],]
# links with your data
links = [['Source','Target','Value','Link Color'],

        # Casa
        [0,3,47578,'rgba(127, 194, 65, 0.2)'],
        [0,4,169302,'rgba(127, 194, 65, 0.2)'],
        [0,5,43428,'rgba(127, 194, 65, 0.2)'],

        # Apartamento
        [1,3,60080,'rgba(211, 211, 211, 0.5)'],
        [1,4,45132,'rgba(211, 211, 211, 0.5)'],
        [1,5,1560,'rgba(211, 211, 211, 0.5)'],

        # Casa en condominio
        [2,3,6008,'rgba(253, 227, 212, 1)'],
        [2,4,27216,'rgba(253, 227, 212, 1)'],
        [2,5,4190,'rgba(253, 227, 212, 1)'],]


nodes_headers = nodes.pop(0)
links_headers = links.pop(0)
df_nodes = pd.DataFrame(nodes, columns = nodes_headers)
df_links = pd.DataFrame(links, columns = links_headers)

display(df_nodes)
display(df_links)

Unnamed: 0,ID,Label,Color
0,0,Casa333,#4994CE
1,1,Apartamento,#8A5988
2,2,Casa en condominio,#449E9E
3,3,Dos,#7FC241
4,4,Tres,#49CACE
5,5,Cuatro,#7a49ce


Unnamed: 0,Source,Target,Value,Link Color
0,0,3,47578,"rgba(127, 194, 65, 0.2)"
1,0,4,169302,"rgba(127, 194, 65, 0.2)"
2,0,5,43428,"rgba(127, 194, 65, 0.2)"
3,1,3,60080,"rgba(211, 211, 211, 0.5)"
4,1,4,45132,"rgba(211, 211, 211, 0.5)"
5,1,5,1560,"rgba(211, 211, 211, 0.5)"
6,2,3,6008,"rgba(253, 227, 212, 1)"
7,2,4,27216,"rgba(253, 227, 212, 1)"
8,2,5,4190,"rgba(253, 227, 212, 1)"


In [16]:
# Sankey plot setup
data_trace = dict(
    type='sankey',
    domain = dict(
      x =  [0,1],
      y =  [0,1]
    ),
    orientation = "h",
    valueformat = ".0f",
    node = dict(
      pad = 10,
    thickness = 30,
      line = dict(
        color = "black",
        width = 0
      ),
      label =  listaTipos + listaHabitaciones,
      color = df_nodes['Color']
    ),
    link = dict(
      source = df_links['Source'].dropna(axis=0, how='any'),
      target = df_links['Target'].dropna(axis=0, how='any'),
      value = df_links['Value'].dropna(axis=0, how='any'),
      color = df_links['Link Color'].dropna(axis=0, how='any'),
  )
)

layout = dict(
        title = "Ventas de propiedas por cantidad de habitacion",
    height = 772,
    font = dict(
      size = 20),)

fig = dict(data=[data_trace], layout=layout)
iplot(fig, validate=False)

Podemos sacar como conclusion que las ventas recaen sobre casa con 2 ambientes y en Apartamento con 2 y 3 ambientes, por lo tanto es muy recomendable hacerle mas publicidad a este tipo de ventas.