---
layout: post
title: Data storytelling, visualizando datos sobre reservas de hoteles.
date: 2025-05-11 10:49:19
author: Carlos Andrés Moreno
summary: En este artículo vamos a realizar un storytelling de un conjunto de datos de reservas de hoteles
categories: Data
thumbnail: plot
tags:
  - Data
  - Python
  - Ploty
---

# Introducción

Como parte de la Maestría en Cienicas de Datos que estoy estudiando en la [Universidad Oberta de Catalunya](https://uoc.edu), me fue asignada una actividad que consiste en crear un *Data Storytelling* de un conjunto de datos sobre reservaciones de hoteles en Lisboa, Portugal. Creo que es una excelente oportunidad de mostrar un poco lo que he aprendido este semestre en la asignatura de Visualización de Datos, es por eso que he decidido crear el *storytelling* en un nuevo artículo del blog.


# Sobre los datos

El conjunto de datos que vamos a usar a lo largo del *storytelling* ha sido descrito completamente en el artículo titulado [Hotel booking demand datasets ](https://www.sciencedirect.com/science/article/pii/S2352340918315191). Como se ha mencionado anteriormente, los datos tratan sobre reservaciones de hoteles en Lisboa, Portugal. Particularmente dos hoteles, uno ubicado en la zona urbana de la ciudad y otro hotel tipo resort.

Cada fila del conjunto de datos es una reservación hecha por un cliente para alguno de los dos hoteles. Además, tenemos información sobre el número de niños, bebés y adultos dentro de la reserva; més, semana y día en el cual se hizo la reserva; país de residencia de cliente, si la reserva se canceló o no, el tipo de comida que se incluyó para los clientes, entre otra información de interés.

# Herrmientas usadas para la visualización

Todas las visualizaciones que vas a ver han sido creadas usando la librería [Ploty](https://plotly.com/python/). El blog está hosteado en Github pages y utiliza Jekyll para generar todo el sitio (si quieres saber un poco más a cerca de cómo está hecho el sitio, puedes hacer click [acá](https://carmoreno.com.co/tutoriales/2015/08/13/Como-hice-el-blog/)).

Me gustaría tambien mencionar a [Jérome Eertmans](https://github.com/jeertmans), el artículo de su blog titulado ["Embedding Ploty in a Jekyll Post"](https://eertmans.be/posts/plotly-example/) fue de gran ayuda para poder integrar Ploty y Jekyll sin morir en el intento (a veces una buena googleada es mejor que escribirle a Gemini o ChatGPT).

# Ahora sí, manos a la obra.

Lisboa es uno de los destinos turísticos más visitados todos los años en Europa, tiene un clima excelente, buena comida, hermosos paisajes y playas mediterraneas. En 2021, esta ciudad ocupó [el tercer lugar](https://elordenmundial.com/mapas-y-graficos/ciudades-mas-visitadas-europa/) entre las 15 ciudades más visitadas de Europa, solo por detrás de París y Barcelona. Que sea tan popular no significa que todo sea color de rosa; muchas veces implica sitios de interés repletos de gente, pocos lugares para parquear tu vehículo y pagar precios más altos por temporada. ¿No sería mejor ir a Lisboa en una temporada un poco mas relajada?, podriamos usar los datos de hoteles para saber cuando hay mayor cantidad de turistas, entre más reservaciones sin cancelación existan, significa mayor cantidad de personas yendo a estos hoteles. Miremos qué nos dicen los datos.

In [204]:
import polars as pl
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
reservas = pl.read_csv("/Users/carlosm/Documents/MDS/4th Semester/Viusalizacion/PEC3/hotel_bookings.csv", null_values=["NA"])
reservas

hotel,is_canceled,lead_time,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,adults,children,babies,meal,country,market_segment,distribution_channel,is_repeated_guest,previous_cancellations,previous_bookings_not_canceled,reserved_room_type,assigned_room_type,booking_changes,deposit_type,agent,company,days_in_waiting_list,customer_type,adr,required_car_parking_spaces,total_of_special_requests,reservation_status,reservation_status_date
str,i64,i64,i64,str,i64,i64,i64,i64,i64,i64,i64,str,str,str,str,i64,i64,i64,str,str,i64,str,str,str,i64,str,f64,i64,i64,str,str
"""Resort Hotel""",0,342,2015,"""July""",27,1,0,0,2,0,0,"""BB""","""PRT""","""Direct""","""Direct""",0,0,0,"""C""","""C""",3,"""No Deposit""","""NULL""","""NULL""",0,"""Transient""",0.0,0,0,"""Check-Out""","""2015-07-01"""
"""Resort Hotel""",0,737,2015,"""July""",27,1,0,0,2,0,0,"""BB""","""PRT""","""Direct""","""Direct""",0,0,0,"""C""","""C""",4,"""No Deposit""","""NULL""","""NULL""",0,"""Transient""",0.0,0,0,"""Check-Out""","""2015-07-01"""
"""Resort Hotel""",0,7,2015,"""July""",27,1,0,1,1,0,0,"""BB""","""GBR""","""Direct""","""Direct""",0,0,0,"""A""","""C""",0,"""No Deposit""","""NULL""","""NULL""",0,"""Transient""",75.0,0,0,"""Check-Out""","""2015-07-02"""
"""Resort Hotel""",0,13,2015,"""July""",27,1,0,1,1,0,0,"""BB""","""GBR""","""Corporate""","""Corporate""",0,0,0,"""A""","""A""",0,"""No Deposit""","""304""","""NULL""",0,"""Transient""",75.0,0,0,"""Check-Out""","""2015-07-02"""
"""Resort Hotel""",0,14,2015,"""July""",27,1,0,2,2,0,0,"""BB""","""GBR""","""Online TA""","""TA/TO""",0,0,0,"""A""","""A""",0,"""No Deposit""","""240""","""NULL""",0,"""Transient""",98.0,0,1,"""Check-Out""","""2015-07-03"""
…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…
"""City Hotel""",0,23,2017,"""August""",35,30,2,5,2,0,0,"""BB""","""BEL""","""Offline TA/TO""","""TA/TO""",0,0,0,"""A""","""A""",0,"""No Deposit""","""394""","""NULL""",0,"""Transient""",96.14,0,0,"""Check-Out""","""2017-09-06"""
"""City Hotel""",0,102,2017,"""August""",35,31,2,5,3,0,0,"""BB""","""FRA""","""Online TA""","""TA/TO""",0,0,0,"""E""","""E""",0,"""No Deposit""","""9""","""NULL""",0,"""Transient""",225.43,0,2,"""Check-Out""","""2017-09-07"""
"""City Hotel""",0,34,2017,"""August""",35,31,2,5,2,0,0,"""BB""","""DEU""","""Online TA""","""TA/TO""",0,0,0,"""D""","""D""",0,"""No Deposit""","""9""","""NULL""",0,"""Transient""",157.71,0,4,"""Check-Out""","""2017-09-07"""
"""City Hotel""",0,109,2017,"""August""",35,31,2,5,2,0,0,"""BB""","""GBR""","""Online TA""","""TA/TO""",0,0,0,"""A""","""A""",0,"""No Deposit""","""89""","""NULL""",0,"""Transient""",104.4,0,0,"""Check-Out""","""2017-09-07"""


In [205]:
reservas_por_mes = (
    reservas
        .filter(pl.col("is_canceled") == 0)
        .select(
            pl.concat_str(
                pl.col("arrival_date_year"),
                pl.col("arrival_date_month"),
                pl.lit(1),
                separator="-"
            ).str.strptime(pl.Date, "%Y-%B-%d").alias("arrival_date"),
            "hotel", "adr", "arrival_date_month", "country", "adults", "children")
        .with_columns(
            pl.col("arrival_date").dt.month().alias("month"),
        )
)
reservas_por_mes

arrival_date,hotel,adr,arrival_date_month,country,adults,children,month
date,str,f64,str,str,i64,i64,i8
2015-07-01,"""Resort Hotel""",0.0,"""July""","""PRT""",2,0,7
2015-07-01,"""Resort Hotel""",0.0,"""July""","""PRT""",2,0,7
2015-07-01,"""Resort Hotel""",75.0,"""July""","""GBR""",1,0,7
2015-07-01,"""Resort Hotel""",75.0,"""July""","""GBR""",1,0,7
2015-07-01,"""Resort Hotel""",98.0,"""July""","""GBR""",2,0,7
…,…,…,…,…,…,…,…
2017-08-01,"""City Hotel""",96.14,"""August""","""BEL""",2,0,8
2017-08-01,"""City Hotel""",225.43,"""August""","""FRA""",3,0,8
2017-08-01,"""City Hotel""",157.71,"""August""","""DEU""",2,0,8
2017-08-01,"""City Hotel""",104.4,"""August""","""GBR""",2,0,8


In [206]:
numero_reservas_por_mes = (
    reservas_por_mes
    .group_by("arrival_date_month", "month", "hotel")
        .agg(pl.col("adr").count())
        .rename({"adr": "count"})
        .sort(by="month")
)

numero_reservas_por_mes


arrival_date_month,month,hotel,count
str,i8,str,u32
"""January""",1,"""Resort Hotel""",1868
"""January""",1,"""City Hotel""",2254
"""February""",2,"""City Hotel""",3064
"""February""",2,"""Resort Hotel""",2308
"""March""",3,"""Resort Hotel""",2573
…,…,…,…
"""October""",10,"""City Hotel""",4337
"""November""",11,"""City Hotel""",2696
"""November""",11,"""Resort Hotel""",1976
"""December""",12,"""Resort Hotel""",2017


In [207]:
fig = px.bar(numero_reservas_por_mes, x="arrival_date_month", y="count", color="hotel", title="Cantidad de reservas sin cancelación por mes (2015 - 2017)", opacity=0.6, labels={"hotel": "Hotel", "arrival_date_month": "Mes de llegada", "count": "Cantidad de reservas"})
fig.show()

Al parecer, los meses donde más reservaciones hay son Julio y Agosto, tanto para el Hotel Urbano como para el Hotel Resort. No es nada nuevo, puesto que son normalmente los meses de verano donde más personas salen a vacacionar. Sin embargo, algo que sorprende son los números de reservas para el mes de Junio, ya que son pocas en comparación con el increible clima que hace en este mes. Los primeros días de Septiembre, si bien no acostumbra a ser extremadamente soleado, no esta nada mal para tomarse unas vacaciones. Por lo general, los primeros cuatro meses del año y los últimos tres, no tienen el mejor clima, por eso no es de sorprendernos que sus números no sean tan altos. Por otro lado, sería interesante ver las nacionalidades de los turistas que vistan estos hoteles, miremos:

In [208]:
nacionalidades_reservas = (
    reservas_por_mes.select("country", "hotel", "adr")
        .group_by(["country", "hotel"])
        .agg(pl.col("adr").count())
        .rename({"adr": "count"})
        .sort(by="count", descending=True)
)
nacionalidades_reservas

country,hotel,count
str,str,u32
"""PRT""","""City Hotel""",10879
"""PRT""","""Resort Hotel""",10192
"""FRA""","""City Hotel""",7081
"""GBR""","""Resort Hotel""",5923
"""DEU""","""City Hotel""",5012
…,…,…
"""MUS""","""Resort Hotel""",1
"""GUY""","""City Hotel""",1
"""BIH""","""Resort Hotel""",1
"""JAM""","""City Hotel""",1


In [209]:
fig = px.bar(nacionalidades_reservas, x="country", y="count", color="hotel", title="Cantidad de reservaciones por país de origen (2015 - 2017)", opacity=0.6, labels={"hotel": "Hotel", "country": "País", "count": "Cantidad de reservas"})
fig.show()

Vemos que tenemos muchos paises (178 para ser exactos) desde donde proceden las personas que han hecho las reservas. Tiene sentido que Portugal sea el país desde donde más se hacen reservas a Lisboa, seguido de los paises cercanos como España, Francia, Italia y Reino Unido, este último al igual que Irlanda parecen preferir el hotel de tipo resort en lugar del hotel urbano. Por el contrario, los tres primeros paises mencionados anteriormente prefieren visitar el Hotel Urbano, al igual que Alemania. Sería interesante conocer de que paises serían los turistas que nos pudieramos encontrar en Lisboa, en caso de que viajaramos en Junio o Septiembre (que como ya vimos, son los mejores meses para viajar), en caso de que nos hospedemos en alguno de los dos hoteles. Quizá podamos hacer amigos mientras viajamos, miremos qué nos dicen los datos:

In [210]:
nacionalidad_reservas_mes = (
    reservas_por_mes
    .filter(pl.col("arrival_date_month").is_in(["June", "September"]))
    .group_by("arrival_date_month", "country", "hotel")
    .agg(pl.col("adr").count(), pl.col("adults").sum(), pl.col("children").sum())
    .rename({"adr": "count"})
    .filter(pl.col("count") > 50)
    .sort(by=["arrival_date_month", "count"], descending=True)
)
nacionalidad_reservas_mes = nacionalidad_reservas_mes.with_columns(
    total_people=(pl.col("adults") + pl.col("children"))
)
nacionalidad_reservas_mes
#reservas_por_mes

arrival_date_month,country,hotel,count,adults,children,total_people
str,str,str,u32,i64,i64,i64
"""September""","""PRT""","""City Hotel""",1196,2005,57,2062
"""September""","""GBR""","""Resort Hotel""",568,1089,26,1115
"""September""","""FRA""","""City Hotel""",519,943,11,954
"""September""","""DEU""","""City Hotel""",447,826,17,843
"""September""","""PRT""","""Resort Hotel""",430,797,40,837
…,…,…,…,…,…,…
"""June""","""SRB""","""City Hotel""",68,74,0,74
"""June""","""SWE""","""City Hotel""",68,128,15,143
"""June""","""DEU""","""Resort Hotel""",56,107,2,109
"""June""","""FRA""","""Resort Hotel""",54,105,10,115


In [211]:
fig = px.treemap(
    nacionalidad_reservas_mes,
    path=[px.Constant("Months"), 'arrival_date_month', "hotel", 'country'],
    values='total_people',
    color='total_people',
    color_continuous_scale='RdBu_r',
    color_continuous_midpoint=np.average(
        (nacionalidad_reservas_mes.select('total_people').get_column("total_people")).to_list(),
        weights=(nacionalidad_reservas_mes.select('count').get_column("count")).to_list()
    ),
    title="Cantidad de personas por país y tipo de hotel en los meses de Junio y Septiembre, incluyendo adultos y niños (no bebés).",
    labels={"total_people": "Total Personas"},
)
fig.update_layout(margin=dict(t=50, l=25, r=25, b=25))
fig.update_traces(
    marker=dict(cornerradius=5),
    hovertemplate='<b>%{label} </b> <br> Total personas: %{value:,}'
)
fig.show()

El anterior gráfico de árbol nos muestra la cantidad de personas por nacionalidad que podemos encontrarnos, sea que vayamos en Junio o en Septiembre y sea que nos quedemos en el hotel tipo resort o en el hotel urbano. Puedes pasar el cursor por encima de cada cuadro para obtener el total de personas de cada nacionalidad, también dar clic, por ejemplo en el hotel urbano del mes de Junio, para navegar directamente a esta información.

Vemos que si nos hospedamos en el hotel de tipo resort, tenemos muchas más chances de encontrarnos británicos que portugeses. Puesto que Reino Unido no tiene playas meditarreneas, tiene sentido que vayan en busca de este tipo de planes. Por el contrario, en el hotel urbano nos encontraremos en mayor medida con Portugueses, Alemanes y Frances en Junio. Similar sucederá si vamo en Septiembre, aunque tambien podriamos encontrarnos con algún Español.

En general, habrá un poco más de turistas en Junio que en Septiembre, pero, segun los datos, será el hotel urbano quién tendrá mas cantidad de personas, por lo tanto, sería un excelente plan ir al resort cerca del mar en Junio: Menos personas, hermosas playas, y mas gente que hable inglés.

In [212]:
# Example from: https://plotly.com/python/time-series/

df = pd.read_csv(
    "https://raw.githubusercontent.com/plotly/"
    "datasets/master/finance-charts-apple.csv"
)

fig = go.Figure(go.Scatter(x=df["Date"], y=df["mavg"]))

fig.update_xaxes(
    rangeslider_visible=True,
    tickformatstops=[
        dict(dtickrange=[None, 1000], value="%H:%M:%S.%L ms"),
        dict(dtickrange=[1000, 60000], value="%H:%M:%S s"),
        dict(dtickrange=[60000, 3600000], value="%H:%M m"),
        dict(dtickrange=[3600000, 86400000], value="%H:%M h"),
        dict(dtickrange=[86400000, 604800000], value="%e. %b d"),
        dict(dtickrange=[604800000, "M1"], value="%e. %b w"),
        dict(dtickrange=["M1", "M12"], value="%b '%y M"),
        dict(dtickrange=["M12", None], value="%Y Y"),
    ],
)

fig.show()

### 3D Surface

In [213]:
# Example from: https://plotly.com/python/3d-surface-plots/

# Read data from a csv
z_data = pd.read_csv(
    "https://raw.githubusercontent.com/plotly/"
    "datasets/master/api_docs/mt_bruno_elevation.csv"
)

fig = go.Figure(data=[go.Surface(z=z_data.values)])
fig.update_traces(
    contours_z=dict(
        show=True, usecolormap=True, highlightcolor="limegreen", project_z=True
    )
)
fig.update_layout(
    title="Mt Bruno Elevation",
    autosize=False,
    scene_camera_eye=dict(x=1.87, y=0.88, z=-0.64),
    width=500,
    height=500,
    margin=dict(l=65, r=50, b=65, t=90),
)

fig.show()

### Treemap

In [214]:
# Example from: https://plotly.com/python/plotly-express/

df = px.data.gapminder().query("year == 2007")
fig = px.treemap(
    df,
    path=[px.Constant("world"), "continent", "country"],
    values="pop",
    color="lifeExp",
    hover_data=["iso_alpha"],
)
fig.show()