## Clase 2: Manipulación de datos

En la presente notebook vamos a trabajar con datos inmobiliarios del portal de anuncios Properati.
Vamos a hacer un primer trabajo de manipulación de datos, para poder introducirnos en Pandas y en las típicas tareas de un analista de datos y de un científico de datos.

### Primeros pasos: set up inicial y entendiendo la estructura de la información

In [4]:
# Primero, importamos la librería, nótese que pd es un álias que usaremos a lo largo del script
import pandas as pd

In [5]:
# Luego cargamos los datos
df = pd.read_csv("properati.csv")

In [8]:
# Veamos cuántas filas y columnas tiene
print("df.shape me da:", df.shape, " ... una tupla, que es como una lista pero de largo fijo e inmutable")

df.shape me da: (121220, 26)  ... una tupla, que es como una lista pero de largo fijo e inmutable


In [13]:
print("El dataset tiene", df.shape[0], "filas y", df.shape[1], "columnas")

El dataset tiene 121220 filas y 26 columnas


In [14]:
print("Las columnas son:", df.columns)

Las columnas son: Index(['Unnamed: 0', 'operation', 'property_type', 'place_name',
       'place_with_parent_names', 'country_name', 'state_name', 'geonames_id',
       'lat-lon', 'lat', 'lon', 'price', 'currency',
       'price_aprox_local_currency', 'price_aprox_usd', 'surface_total_in_m2',
       'surface_covered_in_m2', 'price_usd_per_m2', 'price_per_m2', 'floor',
       'rooms', 'expenses', 'properati_url', 'description', 'title',
       'image_thumbnail'],
      dtype='object')


In [17]:
# Veamos nuestro primer DataFrame
df.head()

Unnamed: 0.1,Unnamed: 0,operation,property_type,place_name,place_with_parent_names,country_name,state_name,geonames_id,lat-lon,lat,...,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail
0,0,sell,PH,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6618237,-58.5088387",-34.661824,...,40.0,1127.272727,1550.0,,,,http://www.properati.com.ar/15bo8_venta_ph_mat...,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB,https://thumbs4.properati.com/8/BluUYiHJLhgIIK...
1,1,sell,apartment,La Plata,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,Argentina,Bs.As. G.B.A. Zona Sur,3432039.0,"-34.9038831,-57.9643295",-34.903883,...,,,,,,,http://www.properati.com.ar/15bob_venta_depart...,Venta de departamento en décimo piso al frente...,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...,https://thumbs4.properati.com/7/ikpVBu2ztHA7jv...
2,2,sell,apartment,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6522615,-58.5229825",-34.652262,...,55.0,1309.090909,1309.090909,,,,http://www.properati.com.ar/15bod_venta_depart...,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO,https://thumbs4.properati.com/5/SXKr34F_IwG3W_...
3,3,sell,PH,Liniers,|Argentina|Capital Federal|Liniers|,Argentina,Capital Federal,3431333.0,"-34.6477969,-58.5164244",-34.647797,...,,,,,,,http://www.properati.com.ar/15boh_venta_ph_lin...,PH 3 ambientes con patio. Hay 3 deptos en lote...,PH 3 amb. cfte. reciclado,https://thumbs4.properati.com/3/DgIfX-85Mog5SP...
4,4,sell,apartment,Centro,|Argentina|Buenos Aires Costa Atlántica|Mar de...,Argentina,Buenos Aires Costa Atlántica,3435548.0,"-38.0026256,-57.5494468",-38.002626,...,35.0,1828.571429,1828.571429,,,,http://www.properati.com.ar/15bok_venta_depart...,DEPARTAMENTO CON FANTÁSTICA ILUMINACIÓN NATURA...,DEPTO 2 AMB AL CONTRAFRENTE ZONA CENTRO/PLAZA ...,https://thumbs4.properati.com/5/xrRqlNcSI_vs-f...


In [19]:
# Con el método pd.DataFrame.info() podemos saber qué tipo de datos hay en cada columna y cuántos nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 121220 entries, 0 to 121219
Data columns (total 26 columns):
Unnamed: 0                    121220 non-null int64
operation                     121220 non-null object
property_type                 121220 non-null object
place_name                    121197 non-null object
place_with_parent_names       121220 non-null object
country_name                  121220 non-null object
state_name                    121220 non-null object
geonames_id                   102503 non-null float64
lat-lon                       69670 non-null object
lat                           69670 non-null float64
lon                           69670 non-null float64
price                         100810 non-null float64
currency                      100809 non-null object
price_aprox_local_currency    100810 non-null float64
price_aprox_usd               100810 non-null float64
surface_total_in_m2           81892 non-null float64
surface_covered_in_m2         101313 no

Vemos que algunas columnas no tienen datos nulos pero otras sí. Las columnas que parecen más interesantes sí suelen tener valores nulos.

### Limpieza básica

En este ejercicio nuestro interés está en tener un set de datos limpio sobre el cual poder graficar y, posteriormente, generar un modelo predictivo. Por este motivo, comenzaremos realizando una limpieza básica de los datos. 

In [23]:
# La primera columna de todas es un índice autogenerado que no nos aporta información
df.drop("Unnamed: 0", axis=1)

Unnamed: 0,operation,property_type,place_name,place_with_parent_names,country_name,state_name,geonames_id,lat-lon,lat,lon,...,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail
0,sell,PH,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6618237,-58.5088387",-34.661824,-58.508839,...,40.0,1127.272727,1550.000000,,,,http://www.properati.com.ar/15bo8_venta_ph_mat...,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB,https://thumbs4.properati.com/8/BluUYiHJLhgIIK...
1,sell,apartment,La Plata,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,Argentina,Bs.As. G.B.A. Zona Sur,3432039.0,"-34.9038831,-57.9643295",-34.903883,-57.964330,...,,,,,,,http://www.properati.com.ar/15bob_venta_depart...,Venta de departamento en décimo piso al frente...,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...,https://thumbs4.properati.com/7/ikpVBu2ztHA7jv...
2,sell,apartment,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6522615,-58.5229825",-34.652262,-58.522982,...,55.0,1309.090909,1309.090909,,,,http://www.properati.com.ar/15bod_venta_depart...,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO,https://thumbs4.properati.com/5/SXKr34F_IwG3W_...
3,sell,PH,Liniers,|Argentina|Capital Federal|Liniers|,Argentina,Capital Federal,3431333.0,"-34.6477969,-58.5164244",-34.647797,-58.516424,...,,,,,,,http://www.properati.com.ar/15boh_venta_ph_lin...,PH 3 ambientes con patio. Hay 3 deptos en lote...,PH 3 amb. cfte. reciclado,https://thumbs4.properati.com/3/DgIfX-85Mog5SP...
4,sell,apartment,Centro,|Argentina|Buenos Aires Costa Atlántica|Mar de...,Argentina,Buenos Aires Costa Atlántica,3435548.0,"-38.0026256,-57.5494468",-38.002626,-57.549447,...,35.0,1828.571429,1828.571429,,,,http://www.properati.com.ar/15bok_venta_depart...,DEPARTAMENTO CON FANTÁSTICA ILUMINACIÓN NATURA...,DEPTO 2 AMB AL CONTRAFRENTE ZONA CENTRO/PLAZA ...,https://thumbs4.properati.com/5/xrRqlNcSI_vs-f...
5,sell,house,Gualeguaychú,|Argentina|Entre Ríos|Gualeguaychú|,Argentina,Entre Ríos,3433657.0,"-33.0140714,-58.519828",-33.014071,-58.519828,...,,,,,,,http://www.properati.com.ar/15bop_venta_depart...,"Casa en el perímetro del barrio 338, ubicada e...","Casa Barrio 338. Sobre calle 3 de caballería, ...",https://thumbs4.properati.com/6/q-w68gvaUEQVXI...
6,sell,PH,Munro,|Argentina|Bs.As. G.B.A. Zona Norte|Vicente Ló...,Argentina,Bs.As. G.B.A. Zona Norte,3430511.0,"-34.5329567,-58.5217825",-34.532957,-58.521782,...,78.0,1226.415094,1666.666667,,,,http://www.properati.com.ar/15bor_venta_ph_mun...,MUY BUEN PH AL FRENTE CON ENTRADA INDEPENDIENT...,"MUY BUEN PH AL FRENTE DOS DORMITORIOS , PATIO,...",https://thumbs4.properati.com/5/6GOXsHCyDu1aGx...
7,sell,apartment,Belgrano,|Argentina|Capital Federal|Belgrano|,Argentina,Capital Federal,3436077.0,"-34.5598729,-58.443362",-34.559873,-58.443362,...,40.0,3066.666667,3450.000000,,,,http://www.properati.com.ar/15bot_venta_depart...,EXCELENTE MONOAMBIENTE A ESTRENAR AMPLIO SUPER...,JOSE HERNANDEZ 1400 MONOAMBIENTE ESTRENAR CAT...,https://thumbs4.properati.com/1/IHxARynlr8sPEW...
8,sell,apartment,Belgrano,|Argentina|Capital Federal|Belgrano|,Argentina,Capital Federal,3436077.0,"-34.5598729,-58.443362",-34.559873,-58.443362,...,60.0,3000.000000,3250.000000,,,,http://www.properati.com.ar/15bou_venta_depart...,EXCELENTE DOS AMBIENTES ESTRENAR AMPLIO SUPER...,"JOSE HERNANDEZ 1400 DOS AMBIENTES ESTRENAR ,...",https://thumbs4.properati.com/2/J3zOjgaFHrkvnv...
9,sell,house,Rosario,|Argentina|Santa Fe|Rosario|,Argentina,Santa Fe,3838574.0,"-32.942031,-60.7259192",-32.942031,-60.725919,...,,,,,,,http://www.properati.com.ar/15box_venta_casa_r...,MEDNOZA AL 7600A UNA CUADRA DE CALLE MENDOZAWH...,WHITE 7637 - 2 DORMITORIOS CON PATIO,https://thumbs4.properati.com/8/RCf1YEWdF4rv98...


Al ejecutar el comando anterior, el mismo nos devolvió un nuevo DataFrame sin la columna que elegimos. Para que el comando surta efecto sobre el DataFrame df tenemos que hacer una asignación o usar el parámetro inplace=True

In [24]:
# Opción 1 - No ejecutar
# df = df.drop("Unnamed: 0", axis=1)

In [None]:
# Opción 2
df.drop("Unnamed: 0", axis=1, inplace = True)

axis=1 indica que se debe borrar una columna que se llama como el string que pasamos. Si fuera axis=0 buscaría ese nombre como índice de fila.

In [26]:
# Analicemos algunas columnas que nos llaman la atención
df["operation"] # Así selecciono una columna... ¿son todos los valores iguales?

0         sell
1         sell
2         sell
3         sell
4         sell
5         sell
6         sell
7         sell
8         sell
9         sell
10        sell
11        sell
12        sell
13        sell
14        sell
15        sell
16        sell
17        sell
18        sell
19        sell
20        sell
21        sell
22        sell
23        sell
24        sell
25        sell
26        sell
27        sell
28        sell
29        sell
          ... 
121190    sell
121191    sell
121192    sell
121193    sell
121194    sell
121195    sell
121196    sell
121197    sell
121198    sell
121199    sell
121200    sell
121201    sell
121202    sell
121203    sell
121204    sell
121205    sell
121206    sell
121207    sell
121208    sell
121209    sell
121210    sell
121211    sell
121212    sell
121213    sell
121214    sell
121215    sell
121216    sell
121217    sell
121218    sell
121219    sell
Name: operation, Length: 121220, dtype: object

In [30]:
# pd.Series.value_counts() nos permite contar la cantidad de cada valor
df["operation"].value_counts() 

sell    121220
Name: operation, dtype: int64

Vemos que son todas operaciones de venta, así que podemos borrar la columna

In [32]:
df = df.drop("operation", axis = 1)

Ahora bien, algo similar podemos hacer para country_name

In [35]:
df["country_name"].value_counts()

Argentina    121220
Name: country_name, dtype: int64

In [36]:
df = df.drop("country_name", axis=1)

Vemos que en la columna place_with_parent_names aparece información interesante, con una estructura similar a "|Argentina|Capital Federal|Mataderos|", ¿cómo podemos separar esas partes? 
¡Con split, como vimos la clase pasada! Pero hay que tener cuidado porque a veces hay más columnas y a veces menos... 

In [39]:
"|Argentina|Capital Federal|Mataderos|".split("|")

['', 'Argentina', 'Capital Federal', 'Mataderos', '']

Vemos que nos devuelve una lista

In [45]:
place_list = "|Argentina|Capital Federal|Mataderos|".split("|")

In [46]:
place_list.pop(0)

''

In [47]:
place_list.pop(-1)

''

Sería ideal tener una forma de generar una función que nos permita aplicar esta operación sobre cada celda de la fila... para eso Pandas nos provee del método apply()

In [78]:
def get_prov(place_string):
    place_list = place_string.split("|")
    place_list.pop(0)
    place_list.pop(-1)
    try:
        result = place_list[1]
    except IndexError as e: # ¿Qué significa este IndexError? ¿Por qué lo incluyo?
        result = None
    return result

In [73]:
def get_city(place_string):
    place_list = place_string.split("|")
    place_list.pop(0)
    place_list.pop(-1)
    try:
        result = place_list[2] 
    except IndexError as e:
        result = None
    return result

Existen maneras de usar sólo una función y pasar como parámetro el índice pero agregan complejidad innecesaria a la exposición.

In [83]:
df["provincia"]=df["place_with_parent_names"].apply(get_prov)
df["ciudad"]=df["place_with_parent_names"].apply(get_city)

In [80]:
df["provincia"].head()

0                 Capital Federal
1          Bs.As. G.B.A. Zona Sur
2                 Capital Federal
3                 Capital Federal
4    Buenos Aires Costa Atlántica
Name: provincia, dtype: object

In [81]:
df["provincia"].value_counts()

Capital Federal                 32316
Bs.As. G.B.A. Zona Norte        25560
Bs.As. G.B.A. Zona Sur          13952
Córdoba                         12069
Santa Fe                        10172
Buenos Aires Costa Atlántica    10006
Bs.As. G.B.A. Zona Oeste         9322
Buenos Aires Interior            2291
Río Negro                         808
Neuquén                           733
Mendoza                           681
Tucumán                           674
Corrientes                        583
Misiones                          464
Entre Ríos                        369
Salta                             278
Chubut                            259
San Luis                          252
La Pampa                          157
Formosa                            65
Chaco                              57
San Juan                           40
Tierra Del Fuego                   31
Catamarca                          27
Jujuy                              26
Santa Cruz                         20
Santiago Del

In [84]:
df["ciudad"].head()

0        Mataderos
1         La Plata
2        Mataderos
3          Liniers
4    Mar del Plata
Name: ciudad, dtype: object

In [85]:
df["ciudad"].value_counts()

Tigre                  8983
Rosario                8504
Mar del Plata          7710
Córdoba                6606
Palermo                4083
Vicente López          3663
Lomas de Zamora        3470
La Plata               3360
Pilar                  3252
San Isidro             3009
Belgrano               2992
Morón                  2645
La Matanza             2347
Caballito              2273
Escobar                1909
Lanús                  1816
Ituzaingó              1772
Villa Urquiza          1632
Almirante Brown        1603
General San Martín     1582
Recoleta               1547
Flores                 1354
Tres de Febrero        1352
Villa Crespo           1331
San Miguel             1267
San Telmo              1216
Almagro                1165
Barrio Norte           1140
San Fernando           1047
Pinamar                 932
                       ... 
Playa Unión               1
María Juana               1
Laguna Paiva              1
Villa Larca               1
Pérez               

Ya que la provincia con mayor cantidad de propiedades es Buenos Aires, vamos a quedarnos sólo con los datos de CABA. Para ello vamos a aplicar boolean indexing...

In [86]:
# El boolean indexing lleva este nombre porque vamos a generar un vector booleano que usaremos como índice
df["provincia"]=="Capital Federal"

0          True
1         False
2          True
3          True
4         False
5         False
6         False
7          True
8          True
9         False
10        False
11        False
12        False
13         True
14         True
15        False
16         True
17        False
18        False
19         True
20        False
21         True
22        False
23        False
24        False
25        False
26        False
27        False
28        False
29         True
          ...  
121190    False
121191    False
121192    False
121193    False
121194    False
121195    False
121196    False
121197    False
121198    False
121199    False
121200    False
121201    False
121202    False
121203    False
121204    False
121205    False
121206    False
121207    False
121208    False
121209     True
121210    False
121211    False
121212    False
121213    False
121214    False
121215     True
121216    False
121217     True
121218    False
121219     True
Name: provincia, Length:

In [88]:
df[df["provincia"]=="Capital Federal"].head()

Unnamed: 0,property_type,place_name,place_with_parent_names,state_name,geonames_id,lat-lon,lat,lon,price,currency,...,floor,rooms,expenses,properati_url,description,title,image_thumbnail,provincia,city,ciudad
0,PH,Mataderos,|Argentina|Capital Federal|Mataderos|,Capital Federal,3430787.0,"-34.6618237,-58.5088387",-34.661824,-58.508839,62000.0,USD,...,,,,http://www.properati.com.ar/15bo8_venta_ph_mat...,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB,https://thumbs4.properati.com/8/BluUYiHJLhgIIK...,Capital Federal,Mataderos,Mataderos
2,apartment,Mataderos,|Argentina|Capital Federal|Mataderos|,Capital Federal,3430787.0,"-34.6522615,-58.5229825",-34.652262,-58.522982,72000.0,USD,...,,,,http://www.properati.com.ar/15bod_venta_depart...,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO,https://thumbs4.properati.com/5/SXKr34F_IwG3W_...,Capital Federal,Mataderos,Mataderos
3,PH,Liniers,|Argentina|Capital Federal|Liniers|,Capital Federal,3431333.0,"-34.6477969,-58.5164244",-34.647797,-58.516424,95000.0,USD,...,,,,http://www.properati.com.ar/15boh_venta_ph_lin...,PH 3 ambientes con patio. Hay 3 deptos en lote...,PH 3 amb. cfte. reciclado,https://thumbs4.properati.com/3/DgIfX-85Mog5SP...,Capital Federal,Liniers,Liniers
7,apartment,Belgrano,|Argentina|Capital Federal|Belgrano|,Capital Federal,3436077.0,"-34.5598729,-58.443362",-34.559873,-58.443362,138000.0,USD,...,,,,http://www.properati.com.ar/15bot_venta_depart...,EXCELENTE MONOAMBIENTE A ESTRENAR AMPLIO SUPER...,JOSE HERNANDEZ 1400 MONOAMBIENTE ESTRENAR CAT...,https://thumbs4.properati.com/1/IHxARynlr8sPEW...,Capital Federal,Belgrano,Belgrano
8,apartment,Belgrano,|Argentina|Capital Federal|Belgrano|,Capital Federal,3436077.0,"-34.5598729,-58.443362",-34.559873,-58.443362,195000.0,USD,...,,,,http://www.properati.com.ar/15bou_venta_depart...,EXCELENTE DOS AMBIENTES ESTRENAR AMPLIO SUPER...,"JOSE HERNANDEZ 1400 DOS AMBIENTES ESTRENAR ,...",https://thumbs4.properati.com/2/J3zOjgaFHrkvnv...,Capital Federal,Belgrano,Belgrano


In [89]:
# Me quedo sólo con CABA
bsas = df[df["provincia"]=="Capital Federal"]

In [148]:
"""Por último, si analizamos los precios vemos que hay valores nulos (que los vamos a borrar) 
y en pesos, que los vamos a convertir"""
df[['currency', 'price_aprox_local_currency', 'price_aprox_usd']].head()

Unnamed: 0,currency,price_aprox_local_currency,price_aprox_usd
0,USD,1093959.0,62000.0
1,USD,2646675.0,150000.0
2,USD,1270404.0,72000.0
3,USD,1676227.5,95000.0
4,USD,1129248.0,64000.0


In [136]:
bsas["currency"].value_counts()

USD    27826
ARS     1190
PEN        2
Name: currency, dtype: int64

In [152]:
# Nos quedamos sólo con los valores no nulos
bsas = bsas[~bsas["price"].isnull()]

In [155]:
bsas.loc[bsas["currency"]=="ARS", "price"]   =  bsas["price_aprox_local_currency"]/17.6445 # tipo de cambio del día

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self.obj[item] = s


Con ésto ya podemos limpiar más columnas

In [156]:
bsas.columns

Index(['property_type', 'place_name', 'place_with_parent_names', 'state_name',
       'geonames_id', 'lat-lon', 'lat', 'lon', 'price', 'currency',
       'price_aprox_local_currency', 'price_aprox_usd', 'surface_total_in_m2',
       'surface_covered_in_m2', 'price_usd_per_m2', 'price_per_m2', 'floor',
       'rooms', 'expenses', 'properati_url', 'description', 'title',
       'image_thumbnail', 'provincia', 'city', 'ciudad'],
      dtype='object')

In [158]:
bsas = bsas.drop(["place_name","place_with_parent_names","state_name","geonames_id","lat-lon","currency","price_aprox_local_currency", "price_aprox_usd","provincia", "properati_url", "image_thumbnail"], axis = 1)

### Análisis exploratorio introductorio

Para cerrar con la clase, veamos una herramienta típica del EDA, la tabla de doble entrada y para qué nos puede ayudar...

In [159]:
# Veamos la cantidad de anuncios por barrio
bsas["ciudad"].value_counts()

Palermo                 3548
Belgrano                2534
Caballito               2056
Recoleta                1424
Villa Urquiza           1361
Flores                  1279
Villa Crespo            1186
San Telmo               1162
Barrio Norte            1021
Almagro                  986
Boedo                    858
Nuñez                    709
Balvanera                631
San Cristobal            580
Puerto Madero            567
Monserrat                510
Saavedra                 510
Villa del Parque         451
Floresta                 431
Villa Luro               412
Barracas                 408
Mataderos                404
Liniers                  396
Villa Devoto             380
Colegiales               346
Parque Patricios         299
Congreso                 286
Coghlan                  249
Retiro                   222
Chacarita                215
Centro / Microcentro     214
Boca                     211
Constitución             209
Villa Lugano             197
San Nicolás   

In [106]:
neighbours_counts = bsas["ciudad"].value_counts()

Quedémonos sólo con los barrios que tienen más de 1500 anuncios. Vamos a hacerlo en tres pasos.

1) Generamos un array booleano

In [107]:
index = neighbours_counts > 1500

2) Uamos el array booleano para hacer boolean indexing sobre la serie

In [108]:
subset = neighbours_counts[index]

3) De ese subset de barrios me quedo con el index, que es el nombre.

In [109]:
subset = subset.index

In [110]:
subset

Index(['Palermo', 'Belgrano', 'Caballito', 'Villa Urquiza', 'Recoleta'], dtype='object')

Entonces, ahora vamos a quedarnos con las observaciones de esos barrios

In [122]:
subset_df = bsas[bsas["ciudad"].isin(subset)]

Veamos esta información representada en una tabla de doble entrada

In [125]:
pd.crosstab(subset_df["property_type"],subset_df["ciudad"])

ciudad,Belgrano,Caballito,Palermo,Recoleta,Villa Urquiza
property_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
PH,43,78,132,10,92
apartment,2761,2079,3677,1437,1449
house,121,78,121,6,64
store,67,38,153,94,24
