# Pandas - Explorando información de AirBnB

In [1]:
import numpy as np
import pandas as pd

1. Carga del set de datos en una variable llamada “airbnb”

Para la carga del fichero se utiliza la función *read_csv* de la biblioteca *pandas*. La función asigna por defecto un tipo numérico para las variables **id** y **host_id**, en este caso, se especifica que ambas sean de tipo *object* para facilitar el manejo posterior.

In [2]:
airbnb = pd.read_csv('data/airbnb.csv', delimiter=',', dtype={'id':object, 'host_id':object})
airbnb.head()

Unnamed: 0,id,name,host_id,host_name,location,area,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,2539,Clean & quiet apt home by the park,2787,John,Brooklyn,Kensington,40.64749,-73.97237,Private room,149,1,9,2018-10-19,0.21,6,365
1,2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.75362,-73.98377,Entire home/apt,225,1,45,2019-05-21,0.38,2,355
2,3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,Manhattan,Harlem,40.80902,-73.9419,Private room,150,3,0,,,1,365
3,3831,Cozy Entire Floor of Brownstone,4869,LisaRoxanne,Brooklyn,Clinton Hill,40.68514,-73.95976,Entire home/apt,89,1,270,2019-07-05,4.64,1,194
4,5022,Entire Apt: Spacious Studio/Loft by central park,7192,Laura,Manhattan,East Harlem,40.79851,-73.94399,Entire home/apt,80,10,9,2018-11-19,0.1,1,0


2. Número de observaciones incluidas en el set de datos.

Para resolver este ejercicio se ha utilizado la función *shape* que devuelve las dimensiones (número de filas, número de columnas) del dataframe en cuestión en forma de tupla. 

In [3]:
airbnb.shape[0]

48895

3. Listado de variables (y sus tipos) incluidas en el set de datos.

In [4]:
airbnb.dtypes

id                                 object
name                               object
host_id                            object
host_name                          object
location                           object
area                               object
latitude                          float64
longitude                         float64
room_type                          object
price                               int64
minimum_nights                      int64
number_of_reviews                   int64
last_review                        object
reviews_per_month                 float64
calculated_host_listings_count      int64
availability_365                    int64
dtype: object

4. Estadísticos básicos sólo de las variables numéricas del set de datos. 

La función *describe* nos brinda datos estadísticos de las variables numéricas en el dataframe. Por esta razón, anteriormente los tipos de las variables identificadoras (**id** y **host_id**) fueron cambiados porque estas medidas sobre estas variables no aportan información relevante. 

In [5]:
airbnb.describe()

Unnamed: 0,latitude,longitude,price,minimum_nights,number_of_reviews,reviews_per_month,calculated_host_listings_count,availability_365
count,48895.0,48895.0,48895.0,48895.0,48895.0,38843.0,48895.0,48895.0
mean,40.728949,-73.95217,152.720687,7.029962,23.274466,1.373221,7.143982,112.781327
std,0.05453,0.046157,240.15417,20.51055,44.550582,1.680442,32.952519,131.622289
min,40.49979,-74.24442,0.0,1.0,0.0,0.01,1.0,0.0
25%,40.6901,-73.98307,69.0,1.0,1.0,0.19,1.0,0.0
50%,40.72307,-73.95568,106.0,3.0,5.0,0.72,1.0,45.0
75%,40.763115,-73.936275,175.0,5.0,24.0,2.02,2.0,227.0
max,40.91306,-73.71299,10000.0,1250.0,629.0,58.5,327.0,365.0


5. Tablas de frecuencia sólo de las variables categóricas del set de dato.

Teniendo en cuenta la definición de variable categórica de [Wikipedia](https://es.wikipedia.org/wiki/Variable_categ%C3%B3rica)  que plantea que:

> En estadística, una variable categórica es una variable que puede tomar uno de un número limitado, y por lo general fijo, de posibles valores, asignando a cada unidad individual u otro tipo observación a un grupo en particular o categoría nominal sobre la base de alguna característica cualitativa.

Se decidió tomar como variables categóricas: *location*, *area* y *room_type* 

In [6]:
airbnb.location.value_counts()

Manhattan        21661
Brooklyn         20104
Queens            5666
Bronx             1091
Staten Island      373
Name: location, dtype: int64

In [7]:
airbnb.area.value_counts()

Williamsburg          3920
Bedford-Stuyvesant    3714
Harlem                2658
Bushwick              2465
Upper West Side       1971
                      ... 
Woodrow                  1
New Dorp                 1
Richmondtown             1
Willowbrook              1
Rossville                1
Name: area, Length: 221, dtype: int64

In [8]:
airbnb.room_type.value_counts()

Entire home/apt    25409
Private room       22326
Shared room         1160
Name: room_type, dtype: int64

6. Identificación de variables con missing values y proporción de los mismos.

Para dar solución a este inciso se suma la cantidad de valores *Nan* por columnas y luego se divide entre el número total de observaciones.

In [9]:
airbnb.isna().sum()

id                                    0
name                                 16
host_id                               0
host_name                            21
location                              0
area                                  0
latitude                              0
longitude                             0
room_type                             0
price                                 0
minimum_nights                        0
number_of_reviews                     0
last_review                       10052
reviews_per_month                 10052
calculated_host_listings_count        0
availability_365                      0
dtype: int64

In [10]:
airbnb.isna().sum() / airbnb.shape[0] * 100

id                                 0.000000
name                               0.032723
host_id                            0.000000
host_name                          0.042949
location                           0.000000
area                               0.000000
latitude                           0.000000
longitude                          0.000000
room_type                          0.000000
price                              0.000000
minimum_nights                     0.000000
number_of_reviews                  0.000000
last_review                       20.558339
reviews_per_month                 20.558339
calculated_host_listings_count     0.000000
availability_365                   0.000000
dtype: float64