# AirBnB Madrid

Uno de nuestros clientes opera en el mercado de inmuebles. Está especialmente
interesado en Madrid, donde posee una cantidad importante de viviendas
publicadas en la plataforma AirBnB y nos pide que le asesoremos respondiendo a
la siguiente pregunta:

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué puedo hacer para optimizar el precio de mis viviendas?
</div>

El objetivo del proyecto será elaborar un Data Storytelling que de respuesta a
nuestro cliente siguiendo los siguientes pasos:

1. Elaborar un contexto del problema
2. Definir el problema que queremos resolver
3. Definir y desarrollar el roadmap del análisis
4. Recopilar los principales insights para montar el data storytelling final:
    - contexto
    - problema
    - insights

In [1]:
import pandas as pd
import plotly.express as px

# 0. Data

Para realizar este proyecto contamos con el siguiente set de datos:

| Fichero                          | Descripción                                                                 |
|----------------------------------|-----------------------------------------------------------------------------|
| airbnb_madrid_host.parquet       | Información del propietario de cada vivienda.                               |
| airbnb_madrid_location.parquet   | Información de la localización de cada vivienda.                            |
| airbnb_madrid_property.parquet   | Información de la vivienda.                                                 |
| airbnb_madrid_conditions.parquet | Información de las condiciones de cada vivienda para poder alquilarla.      |
| airbnb_madrid_reviews.parquet    | Información de las reseñas de cada vivienda.                                |

Y en cada set de datos se cuenta con las siguientes variables:

airbnb_madrid_host.parquet

| Columna                          | Descripción                                                                 |
|----------------------------------|-----------------------------------------------------------------------------|
| id                               | Identificador único de la publicación en Airbnb.                            |
| host_response_time               | Tiempo que tarda el anfitrión en responder a las consultas.                 |
| host_response_rate               | Tasa de respuesta del anfitrión.                                            |
| host_is_superhost                | Indica si el anfitrión es un "superhost" o no.                              |
| host_has_profile_pic             | Indica si el anfitrión tiene una foto de perfil en su cuenta.               |
| host_identity_verified           | Indica si la identidad del anfitrión ha sido verificada por Airbnb.         |
| host_seniority                   | Antigüedad del anfitrión como miembro de Airbnb.                            |
| host_verifications_email         | Indica si el anfitrión ha verificado su correo electrónico.                 |
| host_verifications_phone         | Indica si el anfitrión ha verificado su número de teléfono.                 |
| host_verifications_reviews       | Indica si el anfitrión ha verificado a través de reseñas de otros huéspedes.|
| host_verifications_facebook      | Indica si el anfitrión ha verificado su cuenta de Facebook.                 |
| calculated_host_listings_count   | Número de propiedades que el anfitrión tiene en Airbnb.                     |
| host_verifications_government_id | Indica si el anfitrión ha verificado su identificación gubernamental.       |

airbnb_madrid_location.parquet

| Columna                          | Descripción                                                                 |
|----------------------------------|-----------------------------------------------------------------------------|
| id                               | Identificador único de la publicación en Airbnb.                            |
| neighbourhood                    | Barrio donde se encuentra la propiedad.                                     |
| neighbourhood_group              | Grupo de barrios al que pertenece el barrio.                                |
| latitude                         | Latitud de la ubicación de la propiedad.                                    |
| longitude                        | Longitud de la ubicación de la propiedad.                                   |
| dist_km_sol                      | Distancia en kilómetros desde la propiedad hasta la plaza de de Sol.        |
| dist_km_airport                  | Distancia en kilómetros desde la propiedad hasta el aeropuerto.             |

airbnb_madrid_property.parquet

| Columna                          | Descripción                                                                 |
|----------------------------------|-----------------------------------------------------------------------------|
| id                               | Identificador único de la publicación en Airbnb.                            |
| property_type                    | Tipo de propiedad (casa, apartamento, etc.).                                |
| room_type                        | Tipo de habitación (compartida, privada, etc.).                             |
| accommodates                     | Número máximo de huéspedes que pueden alojarse en la propiedad.             |
| bathrooms                        | Número de baños en la propiedad.                                            |
| bedrooms                         | Número de dormitorios en la propiedad.                                      |
| beds                             | Número de camas en la propiedad.                                            |
| bed_type                         | Tipo de cama (individual, doble, etc.).                                     |
| amenities_wifi_internet          | Indica si la propiedad ofrece wifi o internet como amenidad.                |
| amenities_tv                     | Indica si la propiedad ofrece televisión como amenidad.                     |
| amenities_air_conditioning       | Indica si la propiedad ofrece aire acondicionado como amenidad.             |
| amenities_heating                | Indica si la propiedad ofrece calefacción como amenidad.                    |
| amenities_kitchen                | Indica si la propiedad ofrece cocina como amenidad.                         |

airbnb_madrid_conditions.parquet

| Columna                          | Descripción                                                                 |
|----------------------------------|-----------------------------------------------------------------------------|
| id                               | Identificador único de la publicación en Airbnb.                            |
| price                            | Precio de alquiler por noche de la propiedad.                               |
| minimum_nights                   | Mínimo de noches requeridas para reservar la propiedad.                     |
| maximum_nights                   | Máximo de noches permitidas para reservar la propiedad.                     |
| cancellation_policy              | Política de cancelación de reservas de la propiedad.                        |
| require_guest_profile_picture    | Indica si se requiere foto de perfil de los huéspedes.                      |
| require_guest_phone_verification | Indica si se requiere verificación telefónica de los huéspedes.             |

airbnb_madrid_reviews.parquet

| Columna                          | Descripción                                                                 |
|----------------------------------|-----------------------------------------------------------------------------|
| id                               | Identificador único de la publicación en Airbnb.                            |
| number_of_reviews                | Número total de reseñas recibidas para la propiedad.                        |
| number_of_reviews_ltm            | Número de reseñas recibidas en el último año.                               |
| review_scores_rating             | Puntuación general de reseñas de la propiedad.                              |
| review_scores_accuracy           | Puntuación de precisión en las reseñas de la propiedad.                     |
| review_scores_cleanliness        | Puntuación de limpieza en las reseñas de la propiedad.                      |
| review_scores_checkin            | Puntuación de check-in en las reseñas de la propiedad.                      |
| review_scores_communication      | Puntuación de comunicación en las reseñas de la propiedad.                  |
| review_scores_location           | Puntuación de ubicación en las reseñas de la propiedad.                     |
| review_scores_value              | Puntuación de valor en las reseñas de la propiedad.                         |
| reviews_per_month                | Número promedio de reseñas por mes para la propiedad.                       |
| days_since_last_review           | Días transcurridos desde la última reseña recibida para la propiedad.       |
| days_since_first_review          | Días transcurridos desde la primera reseña recibida para la propiedad.      |
| number_of_reviews_en             | Número de reseñas en inglés recibidas para la propiedad.                    |
| number_of_reviews_es             | Número de reseñas en español recibidas para la propiedad.                   |
| number_of_reviews_otros          | Número de reseñas en otros idiomas recibidas para la propiedad.             |

# 1. Elaborar un contexto del problema

Antes de poder definir concretamente el problema que vamos a resolver es
importante ganar algo de contexto. Dedica un poco de tiempo a echar un ojo a los
datos con los que contamos y a sacar unas primeras estadísticas y
visualizaciones. 

El dataset contiene muchas variables, piensa en qué está interesado el cliente y
céntrate en la información esencial para darle un contexto de los datos adecuado.

*En los últimos años, el mercado inmobiliario en plataformas como AirBnB ha experimentado un crecimiento significativo, posicionándose como una alternativa clave al alojamiento tradicional. En este contexto, Madrid se destaca como uno de los principales destinos turísticos de Europa, atrayendo a millones de viajeros cada año. Haciendo un analisis de los últimos 12 meses, vemos que hay una tasa de ocupación de un 83%. Sin embargo, este atractivo también convierte a Madrid en un mercado altamente competitivo, con una gran oferta de propiedades.

Nuestro cliente, propietario de una cartera importante de viviendas publicadas en AirBnB en Madrid, enfrenta el desafío de optimizar los precios de sus alojamientos para maximizar ingresos y mantener su competitividad. En un mercado donde factores como la ubicación, los servicios ofrecidos y las reseñas impactan directamente en la percepción del valor, ajustar los precios de forma estratégica se vuelve crucial.

Establecer un precio demasiado alto podría resultar en una baja ocupación, mientras que un precio demasiado bajo podría traducirse en pérdida de ingresos potenciales. Por ello, este análisis tiene como objetivo identificar los factores más relevantes que influyen en los precios de las propiedades en AirBnB en Madrid y proponer estrategias basadas en datos para maximizar el retorno de inversión del cliente.*

# 2. Definir el problema que queremos resolver

Una vez mas un cliente nos pide dar respuesta a un problema mal definido. Antes
de lanzarte a picar código es necesario que definas correctamente el problema
que quieres responder. Convierte la pregunta inicial a una en la que el problema
cumpla con los **4 principios esenciales** que hemos visto. Hazte las siguientes
preguntas para entender si vas por buen camino:
- **concreto**: ¿hay alguna ambigüedad en la definición del problema? ¿queda
suficientemente claro para que no haya errores de interpretación ni mal
entendidos?
- **alcance**: ¿está claro cuándo se va a acabar el análisis?
- **valor**: ¿la solución al problema tiene valor para el cliente?
- **accionable**: ¿el cliente tiene capacidad de accionar la solución al
problema?

Cuando vayais ideando vuestra definición del problema podeis escribirme por
privado en Slack para daros el OK y pasar a la siguiente fase.

¿Cuales son los factores más relevantes que determinan el precio óptimo por noche en una vivienda de AirBNB en la ciudad de Madrid?

- Concreto: En cuanto a precio, nos fijaremos en el precio de mercado de AirBNB por noche. No se tendra en cuenta otros gastos como el de limpieza o el de plataforma en el valor final.
- Alcance: Valoraremos las variables que creemos que pueden influir mas en el precio y después lo haremos sobre la review, para así ver que impacto tiene sobre ello.
- Valor: Una vez sepamos que factores son los mas relevantes para determinar el precio por noche de la vivienda en AirBNB, ya podremos sacar conclusiones y el cliente podrá llevar a cabo los actos necesarios por tal de sacarle el máximo partido a sus propiedade.
- Accionable: Después de encontrar las variables que mas afectan al precio por noche de la propiedad, deberemos sacar unas conclusiones donde el propietario pueda tomar acciones sobre las variables que mas afectan.


# 3. Definir y desarrollar el Roadmap del analisis

El dataset tiene muchas variables y tienes un tiempo muy limitado, no tienes que
analizar todo ni dar respuesta a todas las hipótesis que se te ocurran al
inicio, lo importante es que el enfoque para realizar el data storytelling sea
correcto, el resto es echarle mas horas.

Con el tiempo que tienes piensa una lista de hipótesis y las preguntas que
quieres responder con los datos. Estructura el roadmap y prioriza las
hipótesis que creas más prometedoras. Cuando tengas el roadmap claro analiza
los datos con estadísticas y visualizaciones.

- Hipótesis 1: el precio depende de la información del propietario
    - questión 1.1: Superhost
    - questión 1.2: Tiempo de respuesta


- Hipótesis 2: el precio depende de la localización de la vivienda
    - questión 2.1: Grupo de barrios
    - questión 2.2: Barrio
    - questión 2.3: distancia sol
    - questión 2.4: distancia aeropuerto

- Hipótesis 3: el precio depende de las características de la vivienda
    - questión 3.1: Num de huéspedes
    - questión 3.2: Num de baños
    - questión 3.3: Num de dormitorios
    - questión 3.4: Num de camas
    - questión 3.5: Tipo de cama
    - questión 3.6: Wifi
    - questión 3.7: Televisión
    - questión 3.8: Aire acondicionado
    - questión 3.9: Calefacción
    - questión 3.10: Cocina

- Hipótesis 4: el precio depende de las condiciones de la vivienda
    - questión 4.1: mín de noches requeridas
    - questión 4.2: max noches permitidas
    - questión 4.3: cancelación de reservas

- Hipótesis 5: el precio depende de la review
    - questión 5.1: Puntuación general de reseñas

# En primer lugar haremos una vista general de las tablas para ver si necesitan una limpieza, al mismo tiempo esto nos permitir observar si la variable tiene el tipo de dato que le corresponde


In [2]:
df_inf_propietario = pd.read_parquet("/Users/saikubc/Desktop/Master/Estadística descriptiva/Entregables/Entregable Airbnb/airbnb_madrid_host.parquet")
df_inf_loc= pd.read_parquet("/Users/saikubc/Desktop/Master/Estadística descriptiva/Entregables/Entregable Airbnb/airbnb_madrid_location.parquet")
df_inf_viv=pd.read_parquet("/Users/saikubc/Desktop/Master/Estadística descriptiva/Entregables/Entregable Airbnb/airbnb_madrid_property.parquet")
df_cond= pd.read_parquet("/Users/saikubc/Desktop/Master/Estadística descriptiva/Entregables/Entregable Airbnb/airbnb_madrid_conditions.parquet")
df_rev=pd.read_parquet("/Users/saikubc/Desktop/Master/Estadística descriptiva/Entregables/Entregable Airbnb/airbnb_madrid_reviews.parquet")


In [3]:
df_inf_propietario.shape

(10959, 13)

In [4]:
df_inf_propietario.head(10)

Unnamed: 0,id,host_response_time,host_response_rate,host_is_superhost,host_has_profile_pic,host_identity_verified,host_verifications_email,host_verifications_phone,host_verifications_reviews,host_verifications_facebook,host_verifications_government_id,calculated_host_listings_count,host_seniority
0,2,within_an_hour,100.0,0,1,0,1,1,1,0,1,6,3614
1,3,within_a_few_hours,100.0,0,1,1,1,1,1,1,1,1,3572
2,4,within_an_hour,100.0,1,1,0,1,1,1,1,0,1,3572
3,6,within_an_hour,100.0,1,1,0,1,1,1,0,0,3,3518
4,8,within_a_day,100.0,0,1,1,1,1,1,0,1,1,3460
5,9,within_an_hour,100.0,1,1,0,1,1,1,0,0,3,3518
6,13,within_an_hour,100.0,0,1,0,1,1,1,0,1,2,3278
7,14,within_a_few_hours,100.0,0,1,1,1,1,1,0,1,5,3278
8,15,within_a_few_hours,100.0,0,1,1,1,1,1,0,1,5,3278
9,16,within_a_few_hours,100.0,0,1,1,1,1,1,0,1,5,3278


In [5]:
df_inf_propietario.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10959 entries, 0 to 11089
Data columns (total 13 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   id                                10959 non-null  int64  
 1   host_response_time                9397 non-null   object 
 2   host_response_rate                9397 non-null   float64
 3   host_is_superhost                 10959 non-null  int64  
 4   host_has_profile_pic              10959 non-null  int64  
 5   host_identity_verified            10959 non-null  int64  
 6   host_verifications_email          10959 non-null  int64  
 7   host_verifications_phone          10959 non-null  int64  
 8   host_verifications_reviews        10959 non-null  int64  
 9   host_verifications_facebook       10959 non-null  int64  
 10  host_verifications_government_id  10959 non-null  int64  
 11  calculated_host_listings_count    10959 non-null  int64  
 12  host_seni

In [6]:
#añadiremos la columna precio al df_inf_propietario
df_inf_propietario.sort_values('id', ascending=True)
df_inf_propietario['precio']=df_cond['price']
df_inf_propietario

Unnamed: 0,id,host_response_time,host_response_rate,host_is_superhost,host_has_profile_pic,host_identity_verified,host_verifications_email,host_verifications_phone,host_verifications_reviews,host_verifications_facebook,host_verifications_government_id,calculated_host_listings_count,host_seniority,precio
0,2,within_an_hour,100.0,0,1,0,1,1,1,0,1,6,3614,50.0
1,3,within_a_few_hours,100.0,0,1,1,1,1,1,1,1,1,3572,80.0
2,4,within_an_hour,100.0,1,1,0,1,1,1,1,0,1,3572,115.0
3,6,within_an_hour,100.0,1,1,0,1,1,1,0,0,3,3518,65.0
4,8,within_a_day,100.0,0,1,1,1,1,1,0,1,1,3460,55.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11084,21348,within_a_few_hours,78.0,0,1,0,1,1,0,0,1,11,24,49.0
11085,21349,within_an_hour,100.0,0,1,0,1,1,0,0,1,2,1919,65.0
11086,21350,,,0,1,0,1,1,0,1,1,1,1547,65.0
11087,21352,within_an_hour,100.0,0,1,0,1,1,0,0,1,2,1919,65.0


In [7]:
df_inf_loc.shape

(10959, 7)

In [8]:
df_inf_loc.head(10)

Unnamed: 0,id,neighbourhood,neighbourhood_group,latitude,longitude,dist_km_sol,dist_km_airport
0,2,Legazpi,Arganzuela,40.38695,-3.69304,4.552379,15.799212
1,3,Malasaña,Centro,40.42202,-3.70395,1.848181,14.020964
2,4,Justicia,Centro,40.41995,-3.69764,2.31748,13.364384
3,6,Sol,Centro,40.41552,-3.70346,0.104131,14.106658
4,8,Justicia,Centro,40.41978,-3.6973,2.336413,13.383317
5,9,Centro,Centro,40.42096,-3.70428,1.67399,13.846773
6,13,Malasaña,Centro,40.42365,-3.70889,1.768577,14.459907
7,14,Centro,Centro,40.42321,-3.70143,2.143245,14.098927
8,15,Palacio,Centro,40.42138,-3.71101,1.581581,14.412162
9,16,Centro,Centro,40.42111,-3.7101,1.646111,14.476692


In [9]:
# añadimos la columna precio al df
df_inf_loc['precio']=df_cond['price']

In [10]:
df_inf_loc.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10959 entries, 0 to 11089
Data columns (total 8 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id                   10959 non-null  int64  
 1   neighbourhood        10959 non-null  object 
 2   neighbourhood_group  10959 non-null  object 
 3   latitude             10959 non-null  float64
 4   longitude            10959 non-null  float64
 5   dist_km_sol          10959 non-null  float64
 6   dist_km_airport      10959 non-null  float64
 7   precio               10959 non-null  float64
dtypes: float64(5), int64(1), object(2)
memory usage: 770.6+ KB


In [11]:
df_inf_viv.sample(12)

Unnamed: 0,id,property_type,room_type,accommodates,bathrooms,bedrooms,beds,bed_type,amenities_wifi_internet,amenities_tv,amenities_air_conditioning,amenities_heating,amenities_kitchen
9303,17705,apartment,entire_home_apt,4,1.0,1.0,2.0,real_bed,1,1,1,1,1
10515,20145,apartment,entire_home_apt,3,2.0,2.0,2.0,real_bed,1,1,1,1,1
472,816,apartment,entire_home_apt,2,1.0,0.0,1.0,real_bed,1,1,1,1,1
8251,15023,apartment,entire_home_apt,6,2.0,2.0,3.0,real_bed,1,1,1,1,1
6793,12308,apartment,entire_home_apt,6,2.0,2.0,3.0,real_bed,1,1,1,1,1
10472,20084,apartment,entire_home_apt,4,1.0,1.0,2.0,real_bed,1,1,1,1,1
10232,19666,apartment,entire_home_apt,4,1.5,1.0,2.0,real_bed,1,1,1,1,1
8144,14808,apartment,entire_home_apt,2,1.0,1.0,1.0,real_bed,1,1,1,1,1
7670,13893,apartment,entire_home_apt,6,2.0,2.0,3.0,real_bed,1,1,1,1,1
3313,5870,apartment,entire_home_apt,4,1.0,2.0,2.0,real_bed,1,1,1,1,1


In [12]:
#añadimos la columna precio al df

df_inf_viv['precio']=df_cond['price']

In [65]:
df_inf_viv['bed_type'].value_counts()

bed_type
real_bed         10858
pull_out_sofa       91
futon                4
couch                4
airbed               2
Name: count, dtype: int64

In [13]:
df_inf_viv.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10959 entries, 0 to 11089
Data columns (total 14 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   id                          10959 non-null  int64  
 1   property_type               10959 non-null  object 
 2   room_type                   10959 non-null  object 
 3   accommodates                10959 non-null  int64  
 4   bathrooms                   10959 non-null  float64
 5   bedrooms                    10959 non-null  float64
 6   beds                        10959 non-null  float64
 7   bed_type                    10959 non-null  object 
 8   amenities_wifi_internet     10959 non-null  int64  
 9   amenities_tv                10959 non-null  int64  
 10  amenities_air_conditioning  10959 non-null  int64  
 11  amenities_heating           10959 non-null  int64  
 12  amenities_kitchen           10959 non-null  int64  
 13  precio                      10959 no

In [14]:
#Aqui confirmamos que en la variable tipo de propiedad unicamente contiene un valor, asi que no merece la pena estudiarla
df_inf_viv['property_type'].unique()

array(['apartment'], dtype=object)

In [15]:
df_inf_viv['room_type'].unique()

array(['entire_home_apt'], dtype=object)

In [16]:
df_cond.info()


<class 'pandas.core.frame.DataFrame'>
Index: 10959 entries, 0 to 11089
Data columns (total 7 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   id                                10959 non-null  int64  
 1   price                             10959 non-null  float64
 2   minimum_nights                    10959 non-null  int64  
 3   maximum_nights                    10959 non-null  int64  
 4   cancellation_policy               10959 non-null  object 
 5   require_guest_profile_picture     10959 non-null  int64  
 6   require_guest_phone_verification  10959 non-null  int64  
dtypes: float64(1), int64(5), object(1)
memory usage: 684.9+ KB


In [17]:
df_cond.head(10)

Unnamed: 0,id,price,minimum_nights,maximum_nights,cancellation_policy,require_guest_profile_picture,require_guest_phone_verification
0,2,50.0,15,730,moderate,0,0
1,3,80.0,5,730,moderate,0,0
2,4,115.0,3,10,moderate,0,0
3,6,65.0,5,180,moderate,0,0
4,8,55.0,3,365,strict_14_with_grace_period,0,0
5,9,90.0,3,180,moderate,0,0
6,13,65.0,5,365,moderate,0,0
7,14,62.0,28,360,strict_14_with_grace_period,1,0
8,15,75.0,28,360,strict_14_with_grace_period,1,0
9,16,75.0,28,360,strict_14_with_grace_period,1,0


In [42]:
df_rev['precio']=df_cond['price']

In [19]:
df_rev.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10959 entries, 0 to 11089
Data columns (total 17 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   id                           10959 non-null  int64  
 1   number_of_reviews            10959 non-null  int64  
 2   number_of_reviews_ltm        10959 non-null  int64  
 3   review_scores_rating         9343 non-null   float64
 4   review_scores_accuracy       9343 non-null   float64
 5   review_scores_cleanliness    9344 non-null   float64
 6   review_scores_checkin        9345 non-null   float64
 7   review_scores_communication  9345 non-null   float64
 8   review_scores_location       9344 non-null   float64
 9   review_scores_value          9343 non-null   float64
 10  reviews_per_month            9437 non-null   float64
 11  days_since_last_review       10959 non-null  int64  
 12  days_since_first_review      10959 non-null  int64  
 13  number_of_reviews_en 

In [20]:
df_rev

Unnamed: 0,id,number_of_reviews,number_of_reviews_ltm,review_scores_rating,review_scores_accuracy,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,review_scores_value,reviews_per_month,days_since_last_review,days_since_first_review,number_of_reviews_en,number_of_reviews_es,number_of_reviews_otros,precio
0,2,0,0,,,,,,,,,-1,-1,,,,50.0
1,3,9,7,98.0,9.0,10.0,10.0,10.0,10.0,10.0,0.14,7,1868,6.0,2.0,1.0,80.0
2,4,67,15,98.0,10.0,10.0,10.0,10.0,10.0,10.0,0.64,33,3144,37.0,23.0,7.0,115.0
3,6,170,17,93.0,10.0,10.0,10.0,10.0,10.0,10.0,1.47,46,3475,133.0,23.0,14.0,65.0
4,8,162,12,93.0,9.0,9.0,9.0,10.0,10.0,9.0,1.41,161,3441,99.0,44.0,19.0,55.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11084,21348,0,0,,,,,,,,,-1,-1,,,,49.0
11085,21349,1,1,,,,,,,,1.00,3,3,1.0,0.0,0.0,65.0
11086,21350,0,0,,,,,,,,,-1,-1,,,,65.0
11087,21352,0,0,,,,,,,,,-1,-1,,,,65.0


In [60]:
filas_nulas= df_rev[df_rev.isnull().any(axis=1)]

# Limpiamos las filas nulas
df_rev_sinulos= df_rev.dropna()
df_rev_sinulos


Unnamed: 0,id,number_of_reviews,number_of_reviews_ltm,review_scores_rating,review_scores_accuracy,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,review_scores_value,reviews_per_month,days_since_last_review,days_since_first_review,number_of_reviews_en,number_of_reviews_es,number_of_reviews_otros,precio
1,3,9,7,98.0,9.0,10.0,10.0,10.0,10.0,10.0,0.14,7,1868,6.0,2.0,1.0,80.0
2,4,67,15,98.0,10.0,10.0,10.0,10.0,10.0,10.0,0.64,33,3144,37.0,23.0,7.0,115.0
3,6,170,17,93.0,10.0,10.0,10.0,10.0,10.0,10.0,1.47,46,3475,133.0,23.0,14.0,65.0
4,8,162,12,93.0,9.0,9.0,9.0,10.0,10.0,9.0,1.41,161,3441,99.0,44.0,19.0,55.0
5,9,47,18,94.0,9.0,10.0,10.0,10.0,10.0,9.0,0.42,33,3357,24.0,21.0,2.0,90.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11017,21172,1,1,80.0,8.0,8.0,10.0,10.0,10.0,8.0,1.00,3,3,0.0,0.0,1.0,45.0
11022,21182,1,1,100.0,10.0,10.0,10.0,10.0,10.0,10.0,1.00,3,3,0.0,0.0,1.0,52.0
11024,21185,1,1,100.0,10.0,10.0,10.0,10.0,10.0,10.0,1.00,2,2,0.0,0.0,1.0,45.0
11029,21208,2,2,100.0,10.0,10.0,10.0,10.0,10.0,10.0,2.00,5,7,0.0,2.0,0.0,170.0


In [22]:
porcentaje_nulos = (df_rev.isnull().sum() / len(df_rev)) * 100
porcentaje_nulos

id                              0.000000
number_of_reviews               0.000000
number_of_reviews_ltm           0.000000
review_scores_rating           14.745871
review_scores_accuracy         14.745871
review_scores_cleanliness      14.736746
review_scores_checkin          14.727621
review_scores_communication    14.727621
review_scores_location         14.736746
review_scores_value            14.745871
reviews_per_month              13.888128
days_since_last_review          0.000000
days_since_first_review         0.000000
number_of_reviews_en           13.888128
number_of_reviews_es           13.888128
number_of_reviews_otros        13.888128
precio                          0.000000
dtype: float64

# Hipotesis 1: Información propietario

### questión 1.1: Superhost

In [23]:
df__=df_inf_propietario.groupby('host_is_superhost')['precio'].mean()
df__

host_is_superhost
0    143.297018
1    120.228595
Name: precio, dtype: float64

In [24]:

px.box(df_inf_propietario,
       x='host_is_superhost',
       y= 'precio',
       color= 'host_is_superhost',
       )

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: No vemos que haya diferencias sigificativas en el precio si el propietario es superhost o no.

### questión 1.2: Tiempo de respuesta

In [25]:
px.box(df_inf_propietario,
       x='host_response_time',
       y='precio',
       color='host_response_time',
       )


<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: Lo que podemos llegar a decir de este grafico, es que encontramos una leve diferencia en cuanto a percentiles y mediana de los que tardan un dia en responder. (Aunque habria que estudiar si es un impacto directo al precio o no)

# Hipotesis 2: Localización vivienda

### questión 2.1: Grupo de barrio

In [26]:
# Como encontramos bastantes outlayers utilizaremos la mediana 
grupobarrios= df_inf_loc.groupby('neighbourhood_group')['precio'].median().sort_values(ascending=True).reset_index()
grupobarrios


Unnamed: 0,neighbourhood_group,precio
0,Puente de Vallecas,50.0
1,Moratalaz,59.0
2,Carabanchel,60.0
3,Latina,65.0
4,Ciudad Lineal,65.0
5,Arganzuela,70.0
6,Vicálvaro,70.0
7,Fuencarral - El Pardo,70.0
8,Villaverde,72.0
9,Villa de Vallecas,75.0


In [27]:
px.scatter_map(df_inf_loc,
       lat='latitude',
       lon='longitude',
       color='precio',
       size='precio',
       hover_name='neighbourhood_group',
       hover_data={'precio':True})

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: Vemos que segun el grupo de barrios el precio es mayor o menor, encontramos una mayor concentración de viviendas económicas en la mayoría de las áreas, pero los puntos donde se encuentran precios mas elevados se concentran en zonas específicas como en el Centro, Salamanca, Usera, la Latina, Retiro y Canillejas.

### questión 2.2: Barrio

In [28]:
px.scatter_map(df_inf_loc,
       lat='latitude',
       lon='longitude',
       color='precio',
       size='precio',
       hover_name='neighbourhood',
       hover_data={'precio':True})

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: Vemos lo mismo que en el anterior grafico, en este caso lo tenemos aun mas detallado (según barrio). Vemos que en especial en la Latina se concentran los de mayor precio en Aluche, en Canillejas en San blas, en el centro destacamos la zona de Embajadores y Palacio.

### questión 2.3: Distancia Sol

In [29]:
px.scatter(df_inf_loc,
           x='dist_km_sol',
           y='precio')

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: En primer lugar podemos ver que hay mucha mas oferta de apartamentos cada vez que estamos mas cerca de sol. Cierto es que encontramos apartamentos que tienden a tener un valor mas elevado cuanto mas cerca de sol estamos pero tambien vemos una gran cantidad que estan cerca y no tienen diferencias en el precio respecto a los que se encuentran mas alejados, deberiamos ver las características de estos apartamentos para poder profundizar mas en este analisis. Pero en cuanto a media de los precios, cada vez que se esta mas cerca, mas caros son.

### questión 2.4: Distancia Aeropuerto

In [30]:
px.scatter(df_inf_loc,
           x='dist_km_airport',
           y='precio')

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: Vemos que entre el rango de [10-15]km los precios son mas elevados, podria ser porque a esa distancia se encuentra un grupo de apartamentos que estan en una cierta zona mas cotizada. 

# Hipotesis 3: Características de la vivienda

### questión 3.1: Num huespedes

In [31]:
df_huesp= df_inf_viv.groupby('accommodates')['precio'].median().reset_index()
px.bar(df_huesp,
           x='accommodates',
           y='precio',
           color='precio')

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: Aqui podemos observar que el numero de huespedes va relacionado con el precio, cuantos más huespedes tiende a ser mas elevado el precio de la vivienda. 

### questión 3.2: Num baños

In [32]:
px.box(df_inf_viv,
       x='bathrooms',
       y='precio',
       color='bathrooms')

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: Como se puede observar, los baños tambien va relacionado directamente con el precio. Parece ser que una vez pasan los 4 baños, el precio disminuye. Los apartamentos que cojen mayor valor son los que tienen entre [3'5-4] baños, los cuales tienen un precio medio de 244 y 284 euros por noche respectivamente.

### questión 3.3: Num dormitorios

In [33]:
df_hab= df_inf_viv.groupby('bedrooms')['precio'].median().reset_index()
px.bar(df_hab,
           x='bedrooms',
           y='precio')

In [34]:
px.box(df_inf_viv,
           x='bedrooms',
           y='precio',
           color='bedrooms')

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: El numero de habitaciones tambien afecta directamente en el precio, cuantas mas habitaciones mayor es el precio por noche del apartamento. Un apartamento con tres dormitorios tiene un precio medio de 120 euros por noche, un 50% de estos apartamentos cojen un valor entre [90-180] euros por noche.

### questión 3.4: Num camas

In [35]:
df_camas= df_inf_viv.groupby('beds')['precio'].median().reset_index()
px.bar(df_camas,
           x='beds',
           y='precio',
           color='precio')

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: Aqui el numero de camas tambien tiene una relación con el precio, una vez pasamos de las 7 camas podemos ver que oscila el precio del apartamento, tambien deberiamos ver que tipo de cama son ya que seguramente tambien influya en el precio.

### questión 3.5: Tipo cama

In [36]:
px.box(df_inf_viv,
           x='bed_type',
           y='precio',
           color='bed_type')

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: Tener una cama real le da mas valor a la propiedad un 50% de los de los apartamento tienen un precio entre [60-116] unicamente por tener camas reales.

### questión 3.6: Wifi

In [37]:
px.box(df_inf_viv,
           x='amenities_wifi_internet',
           y='precio',
           color='amenities_wifi_internet')

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: Tener wifi esta relacionado en cierta medida con el precio de la vivienda.

### questión 3.7: TV

In [38]:
px.box(df_inf_viv,
           x='amenities_tv',
           y='precio',
           color='amenities_tv')

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: El precio no parece estar relacionado en tener TV

### questión 3.8: Aire acondicionado

In [39]:
px.box(df_inf_viv,
       x='amenities_air_conditioning',
       y='precio',
       color='amenities_air_conditioning')

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: Tener aire acondicionado influye directamente con el coste del apartamento, vemos todos los apartamentos (dejando de lado los outlayers) cojen un valor entre [10-210] euros por noche con una media de 82 euros.

### questión 3.9: Calefacción

In [40]:
px.box(df_inf_viv,
       x='amenities_heating',
       y='precio',
       color='amenities_heating')

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: No existe mucha diferencia, la unica diferencia que encontramos es que los apartamentos con calefacción tienen un precio mas definido, pero la mediana es la misma.

### questión 3.10: Cocina

In [189]:
px.box(df_inf_viv,
       x='amenities_kitchen',
       y='precio',
       color='amenities_kitchen')

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: Lo que podemos llegar a decir viendo el grafico es que aunque la mediana sea similar, la inclusión de una cocina tiende a estabilizar los precios, mientras que los apartamentos sin cocina tienen precios más extremos o variables, posiblemente asociados a otras características diferenciadoras.

# Hipotesis 4: Condiciones de la vivienda

### questión 4.1: Min noches requeridas

In [64]:
px.scatter(df_cond,
           x='minimum_nights',
           y='price').update_layout(xaxis=dict(range=[0, 500]))

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: La relación que hay es que como menor sea el minimo de noche mas elevado es el precio

### questión 4.2: Max noches permitidas

In [47]:
px.scatter(df_cond,
           x='maximum_nights',
           y='price').update_layout(xaxis=dict(range=[0, 1500]))


In [70]:
filtro=df_cond[df_cond['maximum_nights']==1125]
filtro

Unnamed: 0,id,price,minimum_nights,maximum_nights,cancellation_policy,require_guest_profile_picture,require_guest_phone_verification
12,19,80.0,8,1125,moderate,0,0
16,23,60.0,3,1125,moderate,0,1
28,45,80.0,2,1125,strict_14_with_grace_period,0,0
34,63,140.0,7,1125,flexible,0,0
37,72,145.0,3,1125,strict_14_with_grace_period,0,0
...,...,...,...,...,...,...,...
11081,21343,138.0,1,1125,flexible,0,0
11083,21345,60.0,2,1125,moderate,0,0
11084,21348,49.0,5,1125,strict_14_with_grace_period,0,0
11086,21350,65.0,2,1125,moderate,0,0


<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: La relación que esxiste es que, como menor sea el maximo de noches, mas elevado ponen los precios.

### questión 4.3: Cancelación de reservas

In [49]:
px.box(df_cond,
       x='cancellation_policy',
       y='price')

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: No veo una relación directa, unicamente decir que la super estricta de 30 tiene un precio mas disperso en su 50% de propiedades.

In [63]:
df_cond['cancellation_policy'].value_counts()

cancellation_policy
strict_14_with_grace_period    4316
moderate                       3882
flexible                       2593
super_strict_30                 112
super_strict_60                  56
Name: count, dtype: int64

# Hipotesis 5: Reseñas

### questión 5.1: Puntuación general de reseñas

In [61]:
px.scatter(df_rev_sinulos,
           x='review_scores_rating',
           y='precio')

<div style="text-align:center; color:red; font-size:larger; font-weight:bold; border: 2px solid red; padding: 10px;">
    ¿Qué insights podemos extraer del gráfico anterior?
</div>

Insights: Encontramos una relación directa, cuanto a mayor rating, mayor valor tiene la propiedad en el mercado (obviando outliers).

In [73]:
px.scatter(df_rev,
           x='review_scores_cleanliness',
           y='precio')

In [74]:
px.scatter(df_rev,
           x='review_scores_communication',
           y='precio')

# 4. Recopilar los principales insights para montar el storytelling final

Con todo lo trabajado en las anteriores secciones monta un data storytelling con
las siguientes secciones:

- **Contexto**: contexto al problema
- **Problema**: problema definido
- **Insights**: principales insights extraidos en tus análisis

Puedes montar el data storytelling en Google Slides o en un Jupyter Notebook.