Los objetivos son: encontrar posibles relaciones entre las variables que conforman el dataset, extraer algunas conclusiones que ayuden a analizar los factores que afectan al precio de los alquileres, y estudiar distintos estadísticos que nos permitan tener un mayor conocimiento de cómo se comporta el sector del alquiler turístico privado en el estado de Nueva York.

El dataset recoge los datos de Airbnb relativos al tramo 2008 - 2019. Fuente: Kaggle

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import folium

La primera parte del análisis va a consistir en tener una visión global respecto de cómo están distribuidos los datos con los que vamos a trabajar y, en caso de que proceda, corregir y limpiar aquellas variables que, por contener valores erróneos o nulos, así lo necesiten.

Importamos el archivo y los convertimos a un dataframe de Pandas y observamos el número de datos que contiene cada una de las columnas

In [2]:
df_NY = pd.read_csv('../data/raw/AB_NYC_2019.csv')


df_NY.count()

id                                48895
name                              48879
host_id                           48895
host_name                         48874
neighbourhood_group               48895
neighbourhood                     48895
latitude                          48895
longitude                         48895
room_type                         48895
price                             48895
minimum_nights                    48895
number_of_reviews                 48895
last_review                       38843
reviews_per_month                 38843
calculated_host_listings_count    48895
availability_365                  48895
dtype: int64

Obtenemos un pequeño resumen de los principales estadísticos del dataset que nos permita identificar posibles outliers o valores que, por estar demasiado alejados del global, pueden interferir de forma negativa en el modelo y que éste no refleje una imagen fiel de la realidad

In [3]:
df_NY.describe()

Unnamed: 0,id,host_id,latitude,longitude,price,minimum_nights,number_of_reviews,reviews_per_month,calculated_host_listings_count,availability_365
count,48895.0,48895.0,48895.0,48895.0,48895.0,48895.0,48895.0,38843.0,48895.0,48895.0
mean,19017140.0,67620010.0,40.728949,-73.95217,152.720687,7.029962,23.274466,1.373221,7.143982,112.781327
std,10983110.0,78610970.0,0.05453,0.046157,240.15417,20.51055,44.550582,1.680442,32.952519,131.622289
min,2539.0,2438.0,40.49979,-74.24442,0.0,1.0,0.0,0.01,1.0,0.0
25%,9471945.0,7822033.0,40.6901,-73.98307,69.0,1.0,1.0,0.19,1.0,0.0
50%,19677280.0,30793820.0,40.72307,-73.95568,106.0,3.0,5.0,0.72,1.0,45.0
75%,29152180.0,107434400.0,40.763115,-73.936275,175.0,5.0,24.0,2.02,2.0,227.0
max,36487240.0,274321300.0,40.91306,-73.71299,10000.0,1250.0,629.0,58.5,327.0,365.0


En el caso de la columna "minimum_nights", no parece muy lógico que el valor sea de 1250 noches. Esta idea se refuerza aún más con la información que aporta el cuartil 3, en el cual podemos ver que en un 75% de los casos el valor para esta variable es 5 o inferior.

Otro de los valores que pueden afectar de forma negativa es el que se refiere al precio máximo. Si tenemos en cuenta que la media se sitúa en 152 dólares, y que el 75% de los precios pisos tienen, como máximo, un precio de 175 dólares, lo más adecuado es prescindir del piso que tiene como precio máximo 10.000 dólares.

El número de registros que tienen un precio superior a 1000 dólares es de 239. Es decir, un 0,48% del total del Dataset. Se tratan, por tanto, de muy pocos registros con unos valores que difieren mucho del resto, y que debemos evitar si queremos conseguir un modelo que se adecúe a la realidad lo máximo posible

In [4]:
df_NY[df_NY["price"]>2000].count()

id                                86
name                              86
host_id                           86
host_name                         86
neighbourhood_group               86
neighbourhood                     86
latitude                          86
longitude                         86
room_type                         86
price                             86
minimum_nights                    86
number_of_reviews                 86
last_review                       35
reviews_per_month                 35
calculated_host_listings_count    86
availability_365                  86
dtype: int64

Lo mismo ocurre con el número de registros que tienen como valor una cifra superior a 75 noches como límite mínimo de estancia

In [5]:
df_NY[df_NY["minimum_nights"]>100].count()

id                                174
name                              173
host_id                           174
host_name                         174
neighbourhood_group               174
neighbourhood                     174
latitude                          174
longitude                         174
room_type                         174
price                             174
minimum_nights                    174
number_of_reviews                 174
last_review                        89
reviews_per_month                  89
calculated_host_listings_count    174
availability_365                  174
dtype: int64

Vamos a eliminar estos valores extremos que los definimos como outliers, valores fuera del rango

In [7]:
# eliminamos los valores cuyo valor de precio sea mayor que 2000
df_2_NY=df_NY[df_NY['price']>2000]
df_2_NY.describe()

Unnamed: 0,id,host_id,latitude,longitude,price,minimum_nights,number_of_reviews,reviews_per_month,calculated_host_listings_count,availability_365
count,86.0,86.0,86.0,86.0,86.0,86.0,86.0,35.0,86.0,86.0
mean,20141550.0,76685020.0,40.7357,-73.975903,4250.976744,23.953488,3.569767,0.731143,2.813953,196.197674
std,11452280.0,84384690.0,0.046727,0.03929,2216.885706,50.582933,9.158141,1.228401,3.592514,142.215977
min,363673.0,213266.0,40.58363,-74.0973,2010.0,1.0,0.0,0.02,1.0,0.0
25%,12384910.0,4849923.0,40.714363,-73.99827,2592.5,1.0,0.0,0.145,1.0,83.0
50%,22279910.0,39101410.0,40.733365,-73.982745,3361.0,2.0,0.0,0.32,1.0,180.0
75%,30406410.0,153180400.0,40.76723,-73.964165,5000.0,30.0,2.0,0.925,2.0,361.75
max,36189200.0,271248700.0,40.88671,-73.77069,10000.0,365.0,69.0,6.15,12.0,365.0
