# Pandas - Analizando información de AirBnB

In [1]:
import pandas as pd
airbnb = pd.read_csv('data/airbnb.csv', delimiter=',', dtype={'id':object, 'host_id':object})

1. ¿Hay más ofertas de “Private room” o de “Entire home” en el dataset? ¿Cuántos más en porcentaje?

En el siguiente código se calcula la cantidad de ofertas donde el *room_type* es *Private room* y *Entire home/apt* respectivamente.

In [2]:
private_room_count = airbnb[airbnb.room_type == "Private room"].shape[0]
private_room_count

22326

In [3]:
entire_home_count = airbnb[airbnb.room_type == "Entire home/apt"].shape[0]
entire_home_count

25409

Existen 22326 ofertas de *Private Room* y 25409 de *Entire home/apt*. Por lo tanto, hay más ofertas de *Entire home/apt*, específicamente un 6.3 % más que de *Private Room*.

In [4]:
(entire_home_count - private_room_count) / airbnb.shape[0] * 100

6.305348195111975

2. ¿Dónde está localizado el alojamiento más barato? Incluye en la respuesta localización, área y coordenadas.

En este ejercicio se muestran todos los alojamientos cuyo precio es igual al mínimo. Se observa que el precio mínimo es 0, lo cual puede ser resultado de una pérdida de información o bien, responder a una regla del negocio.

In [5]:
airbnb[airbnb.price == min(airbnb.price)][['price','location','area', 'latitude', 'longitude']]

Unnamed: 0,price,location,area,latitude,longitude
23161,0,Brooklyn,Bedford-Stuyvesant,40.69023,-73.95428
25433,0,Bronx,East Morrisania,40.83296,-73.88668
25634,0,Brooklyn,Bushwick,40.69467,-73.92433
25753,0,Brooklyn,Greenpoint,40.72462,-73.94072
25778,0,Brooklyn,Williamsburg,40.70838,-73.94645
25794,0,Brooklyn,Bedford-Stuyvesant,40.68173,-73.91342
25795,0,Brooklyn,Bedford-Stuyvesant,40.68279,-73.9117
25796,0,Brooklyn,Bedford-Stuyvesant,40.68258,-73.91284
26259,0,Manhattan,Murray Hill,40.75091,-73.97597
26841,0,Brooklyn,Bushwick,40.69211,-73.9067


3. ¿Cuál es el precio medio de las ofertas de cada área?


Para resolver este ejercicio se hace un *group_by* por la columna *area* y luego se aplica la función de agregación *mean* sobre los grupos.

In [6]:
grouped_by_area = airbnb.groupby(by='area')
grouped_by_area.price.mean()

area
Allerton            87.595238
Arden Heights       67.250000
Arrochar           115.000000
Arverne            171.779221
Astoria            117.187778
                      ...    
Windsor Terrace    138.993631
Woodhaven           67.170455
Woodlawn            60.090909
Woodrow            700.000000
Woodside            85.097872
Name: price, Length: 221, dtype: float64

4. ¿Qué correlación hay entre el precio y el número de reviews?

Para resolver este ejercicio se calcula la matriz de correlación entre toda las variables del dataframe y luego se obtiene mediante indexación el valor correspondiente al precio y el número de reviews.

In [7]:
airbnb.corr()

Unnamed: 0,latitude,longitude,price,minimum_nights,number_of_reviews,reviews_per_month,calculated_host_listings_count,availability_365
latitude,1.0,0.084788,0.033939,0.024869,-0.015389,-0.010142,0.019517,-0.010983
longitude,0.084788,1.0,-0.150019,-0.062747,0.059094,0.145948,-0.114713,0.082731
price,0.033939,-0.150019,1.0,0.042799,-0.047954,-0.030608,0.057472,0.081829
minimum_nights,0.024869,-0.062747,0.042799,1.0,-0.080116,-0.121702,0.12796,0.144303
number_of_reviews,-0.015389,0.059094,-0.047954,-0.080116,1.0,0.549868,-0.072376,0.172028
reviews_per_month,-0.010142,0.145948,-0.030608,-0.121702,0.549868,1.0,-0.009421,0.185791
calculated_host_listings_count,0.019517,-0.114713,0.057472,0.12796,-0.072376,-0.009421,1.0,0.225701
availability_365,-0.010983,0.082731,0.081829,0.144303,0.172028,0.185791,0.225701,1.0


In [8]:
airbnb.corr().loc['price', 'number_of_reviews']

-0.047954226582658625

5. ¿Cuál es el número total de ofertas por tipo y ubicación (location)?

En este ejercicio se aplica la función *group_by* sobre las columnas *room_type* y *location*. Posteriormentese hace el conteo sobre los grupos resultantes.

In [9]:
airbnb.groupby(by=['room_type', 'location']).size()

room_type        location     
Entire home/apt  Bronx              379
                 Brooklyn          9559
                 Manhattan        13199
                 Queens            2096
                 Staten Island      176
Private room     Bronx              652
                 Brooklyn         10132
                 Manhattan         7982
                 Queens            3372
                 Staten Island      188
Shared room      Bronx               60
                 Brooklyn           413
                 Manhattan          480
                 Queens             198
                 Staten Island        9
dtype: int64

6. ¿Cuáles son los 15 hosts con mayor número de ofertas disponibles? Incluye en el resultado únicamente el nombre del host y el número de ofertas disponibles.

Para dar solución a este ejercicio se aplica la función *group_by* sobre las variables *host_id* y *host_name*. La variable *host_name* se incluye para no perder la información referente al nombre. Posteriormente, se hace un conteo de las observaciones en cada grupo, se ordena de manera descendente y se toman las primeras 15 observaciones. 

In [10]:
tmp = airbnb.groupby(by=['host_id','host_name']).size().sort_values(ascending=False).head(15)
tmp.reset_index().rename(columns = {0: "count"})[['host_name', 'count']]

Unnamed: 0,host_name,count
0,Sonder (NYC),327
1,Blueground,232
2,Kara,121
3,Kazuya,103
4,Sonder,96
5,Jeremy & Laura,96
6,Corporate Housing,91
7,Ken,87
8,Pranjal,65
9,Vida,52


A continuación, se muestra otra posible vía de solución. En este caso se utiliza la función *value_counts* sobre la columna *host_id* y se ordena de manera descendente teniendo en cuenta la cantidad de observaciones coincidentes. Con el fin de recuperar la variable *host_name* se aplica la operación *merge* con los datos originales sobre la columna *host_id*.

In [11]:
sf = airbnb['host_id'].value_counts().sort_values(ascending = False).to_frame().reset_index().rename(columns={'index':'host_id', 'host_id':'count'}).head(15)
pd.merge(sf, airbnb[['host_id','host_name']].drop_duplicates(), on=['host_id'], how ='inner')[['host_name', 'count']]

Unnamed: 0,host_name,count
0,Sonder (NYC),327
1,Blueground,232
2,Kara,121
3,Kazuya,103
4,Jeremy & Laura,96
5,Sonder,96
6,Corporate Housing,91
7,Ken,87
8,Pranjal,65
9,Vida,52
