
# ¿Qué características determinan el precio de un alquiler Airbnb?

## Objetvo

Este caso le ofrece un recorrido relativamente completo de un proceso de **análisis exploratorio de datos (AED)** en un conjunto de datos desconocido. Aprenderá cómo abordar sistemáticamente la investigación de un conjunto de datos desconocido, manteniendo al mismo tiempo una mente creativa y abierta para buscar ideas. Al final, esperamos que se sienta seguro a la hora de abordar conjuntos de datos fuera de un entorno estructurado y que aprecie el enorme valor que un proceso EDA adecuado aporta a cualquier problema de ciencia de datos.


## Introducción

**Contexto empresarial**. Airbnb es un enorme mercado en línea para que la gente corriente alquile lugares donde alojarse. Es un mercado grande y lucrativo, pero muchos vendedores son simplemente particulares que alquilan su propia residencia principal para visitas cortas. Incluso los vendedores más grandes suelen ser pequeñas empresas con un número reducido de plazas para alquilar. Como resultado, tienen una capacidad limitada para evaluar las tendencias a gran escala y fijar precios óptimos.

Airbnb ha puesto en marcha un nuevo servicio para ayudar a los anunciantes a fijar precios. Airbnb se lleva un porcentaje de comisión de los anuncios, por lo que está incentivada para ayudar a los anunciantes a fijar precios óptimos, es decir, el máximo posible para cerrar un trato. Usted es un consultor de Airbnb que ayuda con este nuevo servicio de fijación de precios.

**Problema empresarial**. Su tarea inicial es explorar los datos con el objetivo de responder a la pregunta: **¿Qué características son más relevantes para el precio de un anuncio de Airbnb?

**Contexto analítico**. Utilizaremos el conjunto de datos públicamente disponible y bien mantenido creado por el grupo de defensa Inside Airbnb. Nos centraremos en los anuncios de la ciudad de Nueva York del último año, aprovechando conjuntos de datos más amplios cuando haya detalles importantes que explorar.

El caso está estructurado de la siguiente manera: (1) haremos una exploración básica de los datos trazando distribuciones de cantidades clave; (2) introduciremos el concepto de correlación para encontrar las características clave; (3) introduciremos la idea de efectos de interacción para corregir los efectos de las características clave; (4) discutiremos cómo generar hipótesis de forma iterativa y elegir visualizaciones de datos para apoyar nuestras conclusiones; (5) estudiaremos un tipo muy específico de efecto de interacción, el efecto temporal, y cómo corregirlo; y finalmente (6) lo uniremos todo para identificar los factores clave que afectan al precio.


## Algunos datos básicos de exploración

Nuestro conjunto de datos tiene 30.179 filas y 81 columnas. A continuación se detallan algunas de las columnas más importantes:

1. ```neighbourhood```:  en qué barrio se encuentra el inmueble
2. ```longitude```, ```latitude```: longitud y latitud
3. ```property_type```: tipo de propiedad, como apartamento, condominio, etc.
4. ```bathrooms```: número de baños
5. ```bedrooms```: número de habitaciones
6. ```price```:  precio de venta
7. ```number_of_reviews```: número de opiniones de clientes que se han alojado allí
8. ```parking```: 1 significa que hay aparcamiento disponible, -1 significa que no lo hay

Para otras variables categóricas, como  ```outdoor_friendly```, ```gym```, etc., el 1,-1 debe interpretarse de forma similar a ``parking`` como se ha explicado anteriormente.

### Trazado de las distribuciones marginales de las cantidades clave de interés

Como ha visto en casos anteriores, es bueno hacerse primero una idea de cómo se distribuyen los valores de algunas cantidades clave de interés. Siempre empezamos a investigar obteniendo una visión general de varios parámetros de nuestros datos. Empecemos por hacerlo para algunas variables numéricas, como ``price``, ``bedrooms``, ``bathrooms`` y ``number_of_reviews``.

Éstas son algunas estadísticas resumidas de estas variables:

<table border="1" class="dataframe">  <thead>    <tr style="text-align: right;">      <th></th>      <th>price</th>      <th>bedrooms</th>      <th>bathrooms</th>      <th>number_of_reviews</th>    </tr>  </thead>  <tbody>    <tr>      <th>count</th>      <td>30179.000000</td>      <td>30179.000000</td>      <td>30179.000000</td>      <td>30179.000000</td>    </tr>    <tr>      <th>mean</th>      <td>132.949965</td>      <td>1.265516</td>      <td>1.151595</td>      <td>4.459889</td>    </tr>    <tr>      <th>std</th>      <td>93.151824</td>      <td>0.614659</td>      <td>0.422225</td>      <td>5.265633</td>    </tr>    <tr>      <th>min</th>      <td>0.000000</td>      <td>1.000000</td>      <td>0.500000</td>      <td>0.000000</td>    </tr>    <tr>      <th>25%</th>      <td>65.000000</td>      <td>1.000000</td>      <td>1.000000</td>      <td>0.000000</td>    </tr>    <tr>      <th>50%</th>      <td>100.000000</td>      <td>1.000000</td>      <td>1.000000</td>      <td>2.000000</td>    </tr>    <tr>      <th>75%</th>      <td>175.000000</td>      <td>1.000000</td>      <td>1.000000</td>      <td>7.000000</td>    </tr>    <tr>      <th>max</th>      <td>500.000000</td>      <td>11.000000</td>      <td>7.500000</td>      <td>20.000000</td>    </tr>  </tbody></table>

Y estos son los percentiles 90, 95 y 99 (también llamados cuantiles 0,9, 0,95 y 0,99, respectivamente):

<table border="1" class="dataframe">  <thead>    <tr style="text-align: right;">      <th></th>      <th>price</th>      <th>bedrooms</th>      <th>bathrooms</th>      <th>number_of_reviews</th>    </tr>  </thead>  <tbody>    <tr>      <th>0.90</th>      <td>250.0</td>      <td>2.0</td>      <td>2.0</td>      <td>13.0</td>    </tr>    <tr>      <th>0.95</th>      <td>325.0</td>      <td>3.0</td>      <td>2.0</td>      <td>16.0</td>    </tr>    <tr>      <th>0.99</th>      <td>450.0</td>      <td>4.0</td>      <td>2.5</td>      <td>20.0</td>    </tr>  </tbody></table>

Puede que te resulte difícil interpretar estas tablas, porque hay demasiados números. Los gráficos son una forma más intuitiva de ver los datos, así que vamos a representar las distribuciones.

### Ejercicio 1

#### 1.1

¿Cuáles son las formas básicas de estas distribuciones (por ejemplo, normal, sesgada, multimodal, etc.)? ¿Las distribuciones son bastante suaves o presentan un comportamiento "irregular" o "discontinuo"? En este último caso, ¿puede explicar a qué se debe?

![Histogram of Price](data/images/price_histogram.png)
![Histogram of Bedrooms](data/images/bedrooms_histogram.png)
![Histogram of Bathrooms](data/images/bathrooms_histogram.png)
![Histogram of Number of reviews](data/images/number_of_reviews_histogram.png)

**Respuesta.**Todos parecen algo sesgados a la derecha, aunque la variable ```bathroom``` está tan concentrada en una sola entrada que es difícil de distinguir.

La variable ```price``` es notablemente irregular. Hay una gran cantidad de precios entre los 25 y los 300 dólares, con picos muy evidentes en números redondos como 50, 100, 150, 200, 250 y 300. Esto probablemente refleja el hecho de que la gente introduce los precios en la base de datos. Esto probablemente refleje el hecho de que la gente introduce los precios a los que desea anunciarse y, por tanto, tiende a elegir números redondos (o números justo por debajo de los números redondos).

#### 1.2

¿Puede detectar algún valor atípico en estos histogramas? En caso afirmativo, ¿sugieren (i) un error en los datos; o (ii) datos que deberían omitirse de nuestro futuro análisis?

**Respuesta.** Muy pocos lugares tenían precios de más de $320, por lo que podríamos pensar en estos como "valores atípicos". Algunos de estos pueden representar un error, pero suponemos que la mayoría de ellos son correctos: los hoteles en Nueva York a menudo cuestan más de 400 dólares por noche, por lo que no es descabellado esperar algunos listados de Airbnb de este precio. La cuestión de si debemos omitir estos valores atípicos es un poco más difícil, pero nos inclinamos por omitirlos para <b>la mayoría</b> de los clientes. Incluso si estos precios son correctos, sospechamos que se rigen por factores idiosincrásicos que no son tan relevantes para los listados que la mayoría de nuestros clientes están interesados ​​en analizar. Por lo tanto, tenderán a darnos resultados engañosos (o "sesgados").

Es importante tener en cuenta que nunca omitimos datos por conveniencia o por razones arbitrarias. Solo omitimos datos cuando existe una razón lógica por la cual incluir dichos datos arruinaría nuestro análisis.

## Inspeccionar precio contra variables de interés

Ahora que hemos analizado las variables de interés de forma aislada, tiene sentido analizarlas en relación con el precio. Para ello, utilizaremos diagramas de caja. Aquí hay algunos diagramas de caja de `precio` en los que los datos están agrupados por una segunda columna:

!["Boxplots of Price vs. bedrooms](data/images/price_bedrooms_boxplot.png)
!["Boxplots of Price vs. bathrooms](data/images/price_bathrooms_boxplot.png)
!["Boxplots of Price vs. number of reviews](data/images/price_number_of_reviews_boxplot.png)
!["Boxplots of Price vs. review score cleanliness](data/images/price_review_score_cleanliness_boxplot.png)

### Ejercicio 3

Comente la relación entre el precio y la variable respectiva en cada uno de los gráficos anteriores.

**Respuesta.** Una posible respuesta es la siguiente:

1. Como era de esperar, el precio medio aumenta con el número de dormitorios. Esta relación también parece lineal.
2. De nuevo, como era de esperar, el precio medio parece aumentar con el número de cuartos de baño. Parece haber algunos valores atípicos que desafían esta tendencia.
3. El número de revisiones no parece afectar al precio medio. 
4. Parece haber un ligero aumento en el precio medio con el aumento de las puntuaciones de limpieza.

## Investigando correlaciones

Aunque trazar la relación entre el precio y algunas otras variables es un buen primer paso, en general hay demasiadas variables para trazar individualmente e inspeccionar manualmente. Necesitamos un método más sistemático. ¿Como procedemos? Veamos de nuevo el gráfico ```price``` vs. ```bedrooms``` :

!["Boxplots of Price vs. bedrooms](data/images/price_bedrooms_boxplot.png)

Vemos que a medida que aumenta el número de dormitorios, también suele aumentar el precio. La correlación es una forma de captar esta relación. Recordemos que la correlación de dos cantidades es una medida de cuánto tienden a aumentar juntas, medida en una escala que va de -1 a 1. Ésta es una representación gráfica de cómo interpretar un coeficiente de correlación:

![Correlation](data/images/correlation_explanation.png)

Dado que la correlación es sólo un número que resume toda una distribución conjunta, puede ser engañosa y no elimina la necesidad de trazar e inspeccionar visualmente las variables clave que sugiere que son importantes. No obstante, es muy útil para buscar rápidamente relaciones muy fuertes en los datos y reducir una lista mucho mayor de factores potenciales. En este caso, la correlación entre  `price` y  `bedrooms`:

$$
r_{price,bedrooms} = 0.454539
$$

La  **[Matriz de Correlación ](https://www.displayr.com/what-is-a-correlation-matrix/)** da todas las correlaciones por pares entre todas las variables. Pero dado que la matriz de correlación para todo el conjunto de datos sería demasiado grande para imprimirla aquí (tendría 65 filas y 65 columnas), y dado que solo nos interesan las relaciones entre el "precio" y las otras variables, solo imprimiremos la particular. columna que corresponde a `precio` (esta es una serie de 65 filas):

<table border="1" class="dataframe">  <thead>    <tr style="text-align: right;">      <th></th>      <th>price</th>    </tr>  </thead>  <tbody>    <tr>      <th>id</th>      <td>0.027533</td>    </tr>    <tr>      <th>host_id</th>      <td>0.028931</td>    </tr>    <tr>      <th>host_since</th>      <td>-0.009671</td>    </tr>    <tr>      <th>host_response_rate</th>      <td>0.034280</td>    </tr>    <tr>      <th>host_is_superhost</th>      <td>-0.016325</td>    </tr>    <tr>      <th>host_listings_count</th>      <td>0.194891</td>    </tr>    <tr>      <th>host_identity_verified</th>      <td>-0.022861</td>    </tr>    <tr>      <th>latitude</th>      <td>0.079542</td>    </tr>    <tr>      <th>longitude</th>      <td>-0.294196</td>    </tr>    <tr>      <th>accommodates</th>      <td>0.571541</td>    </tr>    <tr>      <th>bathrooms</th>      <td>0.163276</td>    </tr>    <tr>      <th>bedrooms</th>      <td>0.454539</td>    </tr>    <tr>      <th>beds</th>      <td>0.421355</td>    </tr>    <tr>      <th>price</th>      <td>1.000000</td>    </tr>    <tr>      <th>guests_included</th>      <td>0.321970</td>    </tr>    <tr>      <th>extra_people</th>      <td>0.075439</td>    </tr>    <tr>      <th>minimum_nights</th>      <td>0.048627</td>    </tr>    <tr>      <th>has_availability</th>      <td>NaN</td>    </tr>    <tr>      <th>availability_30</th>      <td>0.075208</td>    </tr>    <tr>      <th>availability_60</th>      <td>0.099858</td>    </tr>    <tr>      <th>availability_90</th>      <td>0.093483</td>    </tr>    <tr>      <th>availability_365</th>      <td>0.118864</td>    </tr>    <tr>      <th>number_of_reviews</th>      <td>-0.029229</td>    </tr>    <tr>      <th>number_of_reviews_ltm</th>      <td>-0.011481</td>    </tr>    <tr>      <th>review_scores_rating</th>      <td>0.064228</td>    </tr>    <tr>      <th>review_scores_accuracy</th>      <td>0.033125</td>    </tr>    <tr>      <th>review_scores_cleanliness</th>      <td>0.095329</td>    </tr>    <tr>      <th>review_scores_checkin</th>      <td>0.014043</td>    </tr>    <tr>      <th>review_scores_communication</th>      <td>0.017169</td>    </tr>    <tr>      <th>review_scores_location</th>      <td>0.140308</td>    </tr>    <tr>      <th>review_scores_value</th>      <td>-0.005942</td>    </tr>    <tr>      <th>instant_bookable</th>      <td>0.024415</td>    </tr>    <tr>      <th>calculated_host_listings_count</th>      <td>0.185098</td>    </tr>    <tr>      <th>calculated_host_listings_count_entire_homes</th>      <td>0.218890</td>    </tr>    <tr>      <th>calculated_host_listings_count_private_rooms</th>      <td>-0.127504</td>    </tr>    <tr>      <th>calculated_host_listings_count_shared_rooms</th>      <td>-0.101389</td>    </tr>    <tr>      <th>reviews_per_month</th>      <td>0.063172</td>    </tr>    <tr>      <th>check_in_24h</th>      <td>0.053180</td>    </tr>    <tr>      <th>air_conditioning</th>      <td>0.196582</td>    </tr>    <tr>      <th>high_end_electronics</th>      <td>0.027578</td>    </tr>    <tr>      <th>bbq</th>      <td>0.110258</td>    </tr>    <tr>      <th>balcony</th>      <td>0.079413</td>    </tr>    <tr>      <th>nature_and_views</th>      <td>0.000173</td>    </tr>    <tr>      <th>bed_linen</th>      <td>0.105295</td>    </tr>    <tr>      <th>breakfast</th>      <td>0.007514</td>    </tr>    <tr>      <th>tv</th>      <td>0.271563</td>    </tr>    <tr>      <th>coffee_machine</th>      <td>0.133457</td>    </tr>    <tr>      <th>cooking_basics</th>      <td>0.087954</td>    </tr>    <tr>      <th>white_goods</th>      <td>0.214283</td>    </tr>    <tr>      <th>elevator</th>      <td>0.229610</td>    </tr>    <tr>      <th>gym</th>      <td>0.209892</td>    </tr>    <tr>      <th>child_friendly</th>      <td>0.206189</td>    </tr>    <tr>      <th>parking</th>      <td>-0.019383</td>    </tr>    <tr>      <th>outdoor_space</th>      <td>0.046216</td>    </tr>    <tr>      <th>host_greeting</th>      <td>-0.051356</td>    </tr>    <tr>      <th>hot_tub_sauna_or_pool</th>      <td>0.064996</td>    </tr>    <tr>      <th>internet</th>      <td>0.024220</td>    </tr>    <tr>      <th>long_term_stays</th>      <td>0.096381</td>    </tr>    <tr>      <th>pets_allowed</th>      <td>0.070507</td>    </tr>    <tr>      <th>private_entrance</th>      <td>0.146453</td>    </tr>    <tr>      <th>secure</th>      <td>0.019678</td>    </tr>    <tr>      <th>self_check_in</th>      <td>0.108914</td>    </tr>    <tr>      <th>smoking_allowed</th>      <td>-0.054131</td>    </tr>    <tr>      <th>accessible</th>      <td>0.038301</td>    </tr>    <tr>      <th>event_suitable</th>      <td>0.012606</td>    </tr>  </tbody></table>

Ahora echemos un vistazo a las variables que están más positiva o negativamente correlacionadas con el precio.

Relacionado positivamente:

<table border="1" class="dataframe">  <thead>    <tr style="text-align: right;">      <th></th>      <th>price</th>    </tr>  </thead>  <tbody>    <tr>      <th>price</th>      <td>1.000000</td>    </tr>    <tr>      <th>accommodates</th>      <td>0.571541</td>    </tr>    <tr>      <th>bedrooms</th>      <td>0.454539</td>    </tr>    <tr>      <th>beds</th>      <td>0.421355</td>    </tr>    <tr>      <th>guests_included</th>      <td>0.321970</td>    </tr>    <tr>      <th>tv</th>      <td>0.271563</td>    </tr>    <tr>      <th>elevator</th>      <td>0.229610</td>    </tr>    <tr>      <th>calculated_host_listings_count_entire_homes</th>      <td>0.218890</td>    </tr>    <tr>      <th>white_goods</th>      <td>0.214283</td>    </tr>    <tr>      <th>gym</th>      <td>0.209892</td>    </tr>  </tbody></table>

Correlación negativa:

<table border="1" class="dataframe">  <thead>    <tr style="text-align: right;">      <th></th>      <th>price</th>    </tr>  </thead>  <tbody>    <tr>      <th>longitude</th>      <td>-0.294196</td>    </tr>    <tr>      <th>calculated_host_listings_count_private_rooms</th>      <td>-0.127504</td>    </tr>    <tr>      <th>calculated_host_listings_count_shared_rooms</th>      <td>-0.101389</td>    </tr>    <tr>      <th>smoking_allowed</th>      <td>-0.054131</td>    </tr>    <tr>      <th>host_greeting</th>      <td>-0.051356</td>    </tr>    <tr>      <th>number_of_reviews</th>      <td>-0.029229</td>    </tr>    <tr>      <th>host_identity_verified</th>      <td>-0.022861</td>    </tr>    <tr>      <th>parking</th>      <td>-0.019383</td>    </tr>    <tr>      <th>host_is_superhost</th>      <td>-0.016325</td>    </tr>    <tr>      <th>number_of_reviews_ltm</th>      <td>-0.011481</td>    </tr>  </tbody></table>

### Ejercicio 4

De las tablas anteriores, ¿qué factores están más correlacionados con el precio (positiva o negativamente)? ¿Qué correlaciones resultan sorprendentes y qué hipótesis baraja para explicarlas?

**Respuesta.** Por ejemplo, las mayores correlaciones se dan con medidas de tamaño (```accommodates```, ```bedrooms```, ```beds```, etc.). Las puntuaciones de las opiniones sólo están ligeramente relacionadas con el precio.

También observamos algunas correlaciones que parecen un poco sorprendentes. Por ejemplo:

1. El aparcamiento tiene una correlación negativa con el precio. Esta correlación con el aparcamiento es muy sospechosa: ¿por qué iba a ser malo aparcar? Podría ser "espuria", causada por el hecho de que el aparcamiento es más común en los barrios menos caros.
2. Ser un superhost está correlacionado negativamente.
3. El número total de anuncios tiene una correlación positiva. Esto parece contrario a la intuición, ya que cabría esperar que los anunciantes a gran escala pudieran alquilar más barato debido a las economías de escala.

Si nos fijamos en las puntuaciones relacionadas con la ubicación, observamos que la longitud (este-oeste) está negativamente relacionada con el precio, mientras que la latitud (norte-sur) no lo está. Esto, junto con la observación sobre el aparcamiento, nos motiva a trazarlas en un mapa (lo haremos a continuación).

## ¡Localización, localización, localización!

Ya hemos encontrado bastantes variables que están razonablemente correlacionadas con el precio. Podríamos continuar nuestra exploración examinando cada una de estas variables por separado, pero sabemos que en el sector inmobiliario los datos de ubicación son bastante especiales, por lo que primero exploraremos con más detalle cómo afecta la ubicación al precio.

### Uso de mapas de calor para comprender la distribución de precios según la ubicación

Aquí tenemos un mapa de calor del precio de los apartamentos en NYC. Esto nos dará una idea de dónde están las ubicaciones importantes:

In [None]:
%%html
<iframe src="data/hmap.html" width="1200" height="1000"></iframe>

OSError: Unable to communicate with the jupyter_dash notebook or JupyterLab 
extension required to infer Jupyter configuration.

### Ejercicio 5

#### 5.1

¿Qué zonas de Nueva York tienen alquileres caros? 

**Respuesta** Manhattan y Brooklyn son muy caros; Queens lo es relativamente menos. En general, las cosas más lejos de Manhattan y Brooklyn son más baratas.

#### 5.2

Si se observa este mapa, se puede ver (a grandes rasgos) la correlación entre el precio y la longitud/latitud. ¿Parece que la ubicación está estrechamente relacionada con el precio? ¿Parece probable que esta relación quede bien resumida por la correlación?

**Respuesta:** La ubicación parece estar estrechamente relacionada con el precio; sin embargo, la relación no parece ser lineal y, por tanto, no puede resumirse mediante la correlación.

## Efectos de interacción

Ahora que hemos explorado algunos de los factores que se espera que afecten al precio, centrémonos en comprender las correlaciones inesperadas, como la correlación negativa entre precio y aparcamiento. Como referencia, éste es el gráfico de densidad del precio del aparcamiento frente a los que no tienen aparcamiento:

![Density plot of price for parking vs. parking](data/images/density_parking_no_parking.png)

Hemos visto antes que la correlación entre precio y aparcamiento es de -0,019383. Dado que el aparcamiento es deseable, esperamos que el precio aumente con el aparcamiento. Cuando vemos un patrón como éste, debemos sospechar de la existencia de **efectos de interacción** que están complicando la relación aparcamiento vs. precio. Los efectos de interacción se producen cuando la relación entre dos variables es *condicional*, o depende del valor de una tercera variable oculta.

Recomendamos encarecidamente que se apoye en su experiencia en el campo cuando analice los datos y explore realmente las correlaciones/relaciones que parezcan divertidas, extrañas o contraintuitivas. Es posible que encontremos efectos de interacción, o que descubramos que ciertas suposiciones de nuestra experiencia en el campo no son correctas (por ejemplo, que aparcar no es deseable en ciertas partes del mundo).

### Finding the hidden variable

Entonces, ¿cuál podría ser esta tercera variable? Bueno, hemos visto que la ubicación tiene un gran impacto en los precios. ¿Quizás las zonas de precios altos no tienen muchas plazas de aparcamiento, mientras que las de precios bajos sí? No lo sabemos con seguridad, pero es una conjetura que merece la pena.

Más formalmente, nuestra hipótesis es que esta correlación negativa observada es el resultado de efectos de interacción derivados de la ubicación. Para investigar esta hipótesis, deberíamos desglosar las ubicaciones por barrios y ver si esta correlación negativa entre precio y aparcamiento se mantiene *dentro* de los barrios. Los barrios son discretos y hay muchos anuncios por barrio, por lo que podemos calcular la correlación para cada barrio individualmente. Matemáticamente, esto es exactamente lo mismo que *condicionar* el barrio y calcular la *correlación condicional*.

Controlemos esta tercera variable, "barrio", y calculemos las correlaciones entre "precio" y "aparcamiento" *para cada barrio por separado*. A continuación, podemos trazar cuántos barrios muestran una correlación entre -1 y -0,5, cuántos entre -0,5 y 0, cuántos entre 0 y 0,5 y cuántos entre 0,5 y 1:

![Histogram of correlations](data/images/correlations_histogram.png)

Vemos que la mayoría de los barrios muestran una correlación positiva entre el precio del anuncio y la disponibilidad de aparcamiento.

### Ejercicio 6

Explique la relación entre el histograma y nuestra conclusión de que el aparcamiento está negativamente correlacionado con el precio.

**Respuesta** Nuestra correlación original de alrededor de -0,02 fue la correlación entre el precio y el aparcamiento * para todos los anuncios en Nueva York * - es decir, la correlación condicional entre el precio y el aparcamiento * dado que usted está en Nueva York *. Las cifras que hemos representado, por el contrario, son las correlaciones entre precio y aparcamiento *para todos los anuncios de un barrio concreto*, es decir, la correlación condicional entre precio y aparcamiento *si se encuentra en ese barrio*. 

El histograma nos muestra que la mayoría de las correlaciones condicionales dentro de los barrios son positivas, aunque la correlación en toda la ciudad de Nueva York es negativa. A grandes rasgos, esto significa que ocurre lo siguiente

1. En la mayoría de los barrios, el aparcamiento se asocia positivamente con el precio.
2. Los distintos barrios tienen precios típicos muy diferentes (como vimos en el apartado anterior).
3.  El aparcamiento tiende a concentrarse en los barrios más baratos (esto se debe a que, considerando NYC en su conjunto, cuanto más caro es el barrio, menos aparcamiento hay disponible).

Los valores de correlación cercanos a 1 y -1 en nuestro histograma se deben presumiblemente en gran medida a los barrios con muy pocos listados, y esencialmente deben ser ignorados. Pero a partir del histograma, podemos ver que una clara mayoría de las correlaciones son al menos ligeramente positivas.

Se trata de gráficos de densidad que superponen la distribución del precio de las propiedades con y sin aparcamiento en los barrios de `St. George`,`Greenwood Heights`,`Rego Park`, and `Brooklyn Navy Yard` Se observa una correlación positiva entre el aparcamiento y la ausencia de aparcamiento:

![Faceted density plots](data/images/faceted_density.png)


Como hemos visto, la existencia de correlaciones inesperadas debería estimular la investigación de posibles efectos de interacción, que conducen a hipótesis potencialmente interesantes. Así pues, una buena forma de generar hipótesis iterativas es encontrar y pensar en posibles efectos de interacción.

### ¿Cómo varía el precio según el tipo de propiedad?

Hemos visto que encontrar correlaciones condicionales o interacciones es una buena forma de generar nuevas hipótesis, ya que de la investigación de estas **[variables de confusión] surgen muchas líneas de investigación interesantes.(https://www.statisticshowto.datasciencecentral.com/experimental-design/confounding-variable/)**. Otro ejemplo: veamos cómo varía el precio en función del tipo de vivienda. El siguiente gráfico muestra el precio de una vivienda de un dormitorio desglosado por tipo de propiedad:

![Boxplot of one-bedroom properties across property types](data/images/boxplot_one_bedroom_property_types.png)

Y lo mismo ocurre con las viviendas de dos dormitorios:

![Boxplot of two-bedroom properties across property types](data/images/boxplot_two_bedroom_property_types.png)

### Ejercicio 7

¿Qué puede concluir acerca de la variación del precio de cada uno de los dos tipos de propiedad?

**Respuesta.** Hay variaciones significativas en el precio según el tipo de propiedad; para propiedades de una habitación, una habitación en una casa o un loft es la más barata, mientras que las cabañas, los hoteles boutique y los barcos son muy caros. También es interesante observar las enormes variaciones en los precios de los hoteles. El gráfico de las propiedades de dos dormitorios también muestra una gran variación.

## Más generación de hipótesis

Hasta ahora, nos ha interesado sobre todo comprender qué factores influyen en el precio de una cotización existente. Sin embargo, una pregunta de seguimiento natural es: "¿Qué puedo hacer para aumentar el precio de mi anuncio sin gastar demasiado dinero?

Al repasar la lista de correlaciones, destacan inmediatamente dos: 

| Variable          | Correlation with price  | 
| :-------------  | :----------: | 
|  air_conditioning | 0.196582     | 
|  tv             | 0.271563         | 

El aire acondicionado es relativamente barato, y tiene una gran correlación de 0,189. Los televisores son muy baratos, y tienen una enorme correlación de 0,26. Esto sugiere que una de las mejores cosas que puedo hacer por un anuncio es salir corriendo a comprar un televisor si no tengo uno: ¡un televisor de 300 dólares podría aumentar el valor de un anuncio en 30 dólares por noche!

### Ejercicio 8

¿Crees que esto funcionaría? ¿Se te ocurre alguna explicación sencilla que argumente a favor de una cosa o de la otra?

**Respuesta** De hecho, la presencia de un televisor está correlacionada positivamente con muchas otras señales de precio positivas, desde el tamaño del anuncio (por ejemplo, el número de personas que puede alojar) hasta prácticamente todos los demás servicios. No obstante, es importante no sacar conclusiones precipitadas basándose simplemente en las correlaciones. Trataremos este tema con mucho más detenimiento en una clase posterior sobre inferencia causal.

## Exploración de los efectos temporales: verano en Río e invierno en Moscú

Hemos visto que los gráficos condicionales pueden ser una forma útil de "corregir" las comparaciones teniendo en cuenta los efectos de interacción.

El tiempo es un efecto de interacción muy común que aparece en muchos conjuntos de datos. Para los datos de Airbnb, esto es especialmente importante, ya que Airbnb suele ser más caro cerca de las vacaciones, por lo que las estimaciones de precios razonables deben tener esto en cuenta. En la práctica, esta es una de las correcciones más importantes que ofrecen las consultoras de precios de Airbnb, y las correcciones suelen aprovechar los datos agrupados de muchas ciudades algo similares. Esto es vital para lograr buenas correcciones, pero es fácil cometer errores al no tener en cuenta importantes diferencias entre ciudades.

Comenzamos trazando los precios medios en función de la fecha:

![Average price against date](data/images/average_price_date.png)

Y utilizando un intervalo más pequeño:

![Average price against date (smaller interval)](data/images/average_price_date_smaller.png)

Cuando se analizan **datos de series temporales** como éstos, es habitual verlos como una suma de varios efectos que contribuyen a lo largo del tiempo, más algo de ruido. Los dos tipos comunes de sumandos en tal representación son:

1. **Efectos estacionales**: Se trata de un sumando que es periódico, a menudo con periodos correspondientes a unidades de calendario (semanal, mensual, anual).
2. **Efectos de tendencia**: Se trata de un sumando suave que sube o baja a lo largo de toda una serie y que representa patrones a largo plazo, como la inflación de los precios.

### Ejercicio 9

#### 9.1

Visualmente, ¿puede ver algún componente estacional o de tendencia fuerte? ¿Qué significan?

**Respuesta.**

1. Hay un componente cíclico muy fuerte que se repite cada semana. Esto se corresponde con el hecho de que los viajes de fin de semana a NYC son muy diferentes de los viajes entre semana.
2. Existe una tendencia al aumento de los precios a lo largo del tiempo.
3. Componentes de calendario: se trata de un componente con "picos" agudos que está diseñado para corregir cualquier elemento idiosincrásico de nuestro calendario. Puede incluir: (i) una serie temporal mensual con una caída en febrero (ya que es el mes más corto); (ii) picos en meses que contienen cinco sábados (ya que puede haber más gasto los fines de semana); o (iii) una serie temporal diaria con una caída el Día del Trabajo (cuando las tiendas están cerradas).

#### 9.2

¿A qué se debe el enorme pico que se ve en este gráfico? ¿Es real? ¿Cómo describirías lo que está ocurriendo en términos sencillos?

**Respuesta:** Este pico se produce en Navidad, la época de mayor actividad. Lo esperamos todos los años y debemos incorporarlo a cualquier modelo razonable.

#### 9.3

¿Podemos adivinar cuál es la temporada de mayor actividad (excluidas las Navidades) a partir de este gráfico en bruto?

**Respuesta:** Esto sería difícil. Observe que este gráfico abarca aproximadamente un año, pero hay una clara discontinuidad si intenta "envolver" los datos (es decir, la diferencia entre el primer y el último día de este gráfico es significativa). Esto se debe a una tendencia subyacente de aumento de los precios cada año. Para averiguar cuál es la mejor temporada, habría que extraer esta tendencia, lo que es difícil de hacer a partir de los datos de un solo año para una sola ciudad.

Esto nos lleva a un tema importante: ¡introducir conjuntos de datos auxiliares! El sitio web Inside Airbnb incluye datos de calendario de muchas ciudades, que podemos utilizar para ajustar el componente de tendencia. Para conseguir cierta diversidad, deberíamos asegurarnos de obtener algunos datos de: 1) una ciudad cercana a NYC; 2) una ciudad de EE.UU. con un clima muy diferente al de NYC; y 3) algunas ciudades muy alejadas de NYC.

## Conclusiones

En este caso, hemos visto que los precios de Airbnb están influidos por muchos factores. Algunos de los principales son la ubicación, el número de dormitorios y el número de huéspedes. Algunos, como el número de dormitorios, mostraron una relación amplia y casi lineal con el precio. Pero otros, como la ubicación, muestran relaciones muy poco lineales. Aprenderemos a tratar este tipo de relaciones complejas en casos futuros.

También encontramos algunas correlaciones sorprendentes, como la correlación negativa entre precio y aparcamiento. Sin embargo, tras desglosar los datos por barrios e incorporar el efecto de interacción de la ubicación, esta correlación negativa desapareció por completo.

## Conclusiones

En este caso, has aprendido el siguiente proceso de exploración:

1. En primer lugar, observe las distribuciones de las variables disponibles para buscar patrones interesantes y/o valores atípicos.
2. A continuación, utilice una matriz de correlación para revelar rápidamente las variables candidatas más prometedoras para una investigación más profunda.
3. Utilizando los diversos gráficos y diagramas a su disposición, investigue las variables candidatas sucesivamente. Observe cuáles muestran correlaciones intrigantes e inesperadas.
4. Explore los posibles efectos de interacción de las variables que presenten correlaciones inesperadas. Las interacciones importantes que se sospechen deben examinarse directamente con más trazados.
5. Por último, dedique algún tiempo a trazar cuidadosamente las interacciones que sabe que son importantes por su conocimiento del dominio.

Este proceso puede ser un poco desalentador al principio, pero es ampliamente utilizado por analistas de datos y científicos veteranos y es extremadamente eficaz en la mayoría de las situaciones.

Asumimos que este recorrido es nuevo para muchos de ustedes, por lo que hay una gran cantidad de aprendizaje para digerir aquí. Le recomendamos encarecidamente que revise este caso de nuevo por sí mismo hasta que cada paso le parezca lógico. Es crucial que se sienta cómodo con este proceso EDA a medida que avanzamos hacia casos posteriores. Usando este proceso para generar hipótesis iterativamente e investigarlas, puedes descubrir una gran comprensión sobre lo que está pasando sin construir un solo modelo formal. El modelado formal será discutido en casos futuros.

## Attribution

"New York", Inside Airbnb, [Public Domain](http://creativecommons.org/publicdomain/zero/1.0/), http://insideairbnb.com/get-the-data.html

"Dash styleguide", Chris P., [MIT License](https://blog.codepen.io/documentation/terms-of-service/), https://codepen.io/chriddyp/pen/bWLwgP