# PEC 3 – Visualización de datos
## StoryTelling

**Autor:** Julio Úbeda Quesada  
**Fecha:** 20/12/2025

## Abstract

Este informe presenta un análisis exhaustivo del dataset de reservas hoteleras de dos hoteles en Portugal (City Hotel y Resort Hotel), abarcando el período 2015–2017 con 119.390 observaciones.

El estudio aplica técnicas de analítica visual para explorar patrones de cancelación, comportamiento de reservas, estacionalidad y características de los huéspedes. Se identifican factores clave que influyen en las cancelaciones, diferencias significativas entre tipos de hotel y tendencias temporales en la demanda.

El análisis integra visualizaciones interactivas que permiten descubrir insights relevantes para la gestión hotelera, como la relación entre lead time y cancelaciones, el impacto del tipo de depósito y las preferencias según origen geográfico.


In [3]:
# %load_ext autoreload
# %autoreload 2

import os
import sys

# En notebooks, usa la ruta del notebook actual
root_dir = os.path.abspath('..')  # Sube un nivel desde /notebooks/
sys.path.append(root_dir)

import pandas as pd
import numpy as np

import plotly.express as px
import plotly.graph_objects as go

import seaborn as sns
import matplotlib.pyplot as plt

from datetime import datetime

from utils import tidy_functions as tf

In [4]:
# Rutas relativas
data_path = "../1. Datos/hotel_bookings.csv"

df = pd.read_csv(data_path)

# Análisis Descriptivo: Hotel Bookings Dataset

## 1. Visión General

Dataset de **119,390 reservas hoteleras** en dos establecimientos portugueses (City Hotel en Lisboa y Resort Hotel en Algarve) durante el período 2015-2017, con **32 variables** que abarcan aspectos temporales, operativos, comerciales y de comportamiento del cliente.


In [None]:
tf.describe_df(df)

## 2. Distribución de Hoteles y Cancelaciones

### Composición del Portfolio
- **City Hotel**: 79,330 reservas (66.5%) - Dominancia clara del hotel urbano
- **Resort Hotel**: 40,060 reservas (33.5%)

### Tasa de Cancelación
- **37% de cancelaciones** (44,224 reservas canceladas vs. 75,166 completadas)
- Indicador crítico para la gestión de revenue management y overbooking
- Alto impacto en previsión de ocupación y planificación operativa

## 3. Patrones Temporales

### Distribución Anual
- **2016**: Año pico con 56,707 reservas (47.5%)
- **2017**: 40,687 reservas (34.1%)
- **2015**: 21,996 reservas (18.4%) - Año de entrada al dataset
- Diferencias debidas principalmente a la covertura anual de los datos. Solo 2026 esta completo, mientras que en 2015 comienzan a haber datos desde julio. Asi mismo en 2017 solo se tienen datos hasta agosto.

### Estacionalidad Marcada
- **Meses de mayor demanda**: Agosto (13,877), Julio (12,661), Mayo (11,791)
- Patrón típico de turismo veraniego en Portugal
- Semanas del año distribuidas uniformemente (media: semana 27)

### Lead Time (Anticipación de Reserva)
- **Media**: 104 días de anticipación
- **Mediana**: 69 días (la mitad de reservas se hacen con menos de 2.3 meses)
- **Dispersión alta** (std: 106.86) - Coexisten reservas de último momento y planificadas
- **Rango**: 0 a 737 días (hasta 2 años de anticipación)

## 4. Características de Estancia

### Duración de Estancias
- **Noches entre semana**: Media de 2.5 noches (mediana: 2)
- **Noches de fin de semana**: Media de 0.93 noches (mediana: 1)
- Patrón predominante de **estancias cortas** (2-3 noches totales)
- Máximos extremos: 19 noches fin de semana, 50 noches entre semana

### Composición de Huéspedes
- **Adultos**: Media de 1.86 (pauta: 2 adultos por reserva - 89,680 casos)
- **Niños**: Presentes en solo 10% de reservas (media: 0.10)
- **Bebés**: Prácticamente inexistentes (1% de reservas, 118,473 sin bebés)
- Perfil dominante: **parejas sin hijos**


## 5. Análisis de Precios (ADR)

### Tarifa Diaria Promedio
- **Media**: €101.83 por noche
- **Mediana**: €94.58 (distribución ligeramente asimétrica)
- **Desviación alta** (€50.54) - Gran variabilidad de precios
- **Rango**: -€6.38 a €5,400 (presencia de valores atípicos/errores)
  - ADR negativo sugiere posibles reembolsos o errores de datos
  - ADR extremos pueden ser suites premium o errores

## 6. Régimen de Alojamiento

- **Bed & Breakfast (BB)**: 92,310 reservas (77.3%) - Opción dominante
- **Media Pensión (HB)**: 14,463 reservas (12.1%)
- **Solo Alojamiento (SC)**: 10,650 reservas (8.9%)
- Mínima demanda de pensión completa (FB)

## 7. Perfil Geográfico y de Cliente

### Mercados de Origen
- **Portugal (PRT)**: 48,590 reservas (40.7%) - Mercado doméstico fuerte
- **Reino Unido (GBR)**: 12,129 reservas (10.2%)
- **Francia (FRA)**: 10,415 reservas (8.7%)
- **488 valores faltantes** (0.41%) en variable país

### Tipología de Cliente
- **Transient (individual)**: 89,613 reservas (75.1%) - Segmento mayoritario
- **Transient-Party**: 25,124 reservas (21.0%) - Grupos pequeños coordinados
- **Contract/Group**: Representación minoritaria
- **Solo 3% de huéspedes repetidos** (115,580 nuevos vs. 3,810 recurrentes) - Indicador de baja fidelización

### Historial de Cliente
- **Cancelaciones previas**: Media 0.09 (la mayoría sin historial - 112,906 casos)
- **Reservas previas exitosas**: Media 0.14 (distribución muy concentrada en cero)

## 8. Canales de Distribución

### Canal Dominante
- **TA/TO (Agencias/Tour Operadores)**: 97,870 reservas (82.0%)
- **Directo**: 14,645 reservas (12.3%)
- **Corporativo**: 6,677 reservas (5.6%)

### Segmento de Mercado
- **Online TA**: 56,477 reservas (47.3%) - Digitalización evidente
- **Offline TA/TO**: 24,219 reservas (20.3%)
- Dependencia crítica de intermediarios online

### Intermediación
- **Agentes**: 13.69% sin agente (10,305 reservas directas)
- **Empresas**: 94.31% sin empresa pagadora (reservas individuales)
- Alta concentración en agentes específicos (agente 9: líder con 31,961 reservas)

## 9. Gestión Operativa

### Asignación de Habitaciones
- **Tipo más reservado**: A (85,994 reservas)
- **Tipo más asignado**: A (74,053) seguido de D (25,322)
- Diferencias entre reservado/asignado indican prácticas de **upgrade o gestión de inventario**

### Flexibilidad de Reserva
- **Cambios en reserva**: Media 0.22 cambios (87% sin modificaciones - 101,314 casos)
- **Lista de espera**: Media 2.32 días (distribución extremadamente sesgada, mediana 0)
- Máximo: 391 días en espera

### Servicios Adicionales
- **Plazas parking**: Solo 6% requieren (111,974 sin necesidad)
- **Peticiones especiales**: Media 0.57 (58.9% sin peticiones - 70,318 casos)
- Servicios complementarios poco demandados

## 10. Políticas de Depósito

- **No Deposit**: 104,641 reservas (87.7%) - Política mayoritaria de pago a la llegada
- **Non Refund**: 14,587 reservas (12.2%) - Prepago total no reembolsable
- **Refundable**: 162 reservas (0.1%) - Uso residual

In [5]:
# Mostrar información del campo deposit_type
print(f"Valores únicos:", df['deposit_type'].unique())

Valores únicos: ['No Deposit' 'Refundable' 'Non Refund']


In [6]:
df['deposit_type'].value_counts()

deposit_type
No Deposit    104641
Non Refund     14587
Refundable       162
Name: count, dtype: int64

In [None]:
df['deposit_type']

In [8]:
# Análisis de cancelaciones por tipo de depósito

deposit_cancel = df.groupby('deposit_type').agg({
    'is_canceled': ['sum', 'count']
}).reset_index()

deposit_cancel.columns = ['deposit_type', 'canceled', 'total']
deposit_cancel['cancel_rate'] = (deposit_cancel['canceled'] / deposit_cancel['total'] * 100).round(1)
deposit_cancel['completed_rate'] = (100 - deposit_cancel['cancel_rate']).round(1)

In [10]:
deposit_cancel

Unnamed: 0,deposit_type,canceled,total,cancel_rate,completed_rate
0,No Deposit,29694,104641,28.4,71.6
1,Non Refund,14494,14587,99.4,0.6
2,Refundable,36,162,22.2,77.8


In [9]:
# Gráfico de barras apiladas
fig_deposit = go.Figure()

fig_deposit.add_trace(go.Bar(
    name='Completadas',
    x=deposit_cancel['deposit_type'],
    y=deposit_cancel['completed_rate'],
    marker_color='#28a745',
    text=deposit_cancel['completed_rate'],
    texttemplate='%{text:.1f}%',
    textposition='inside',
    textfont_size=22
))

fig_deposit.add_trace(go.Bar(
    name='Canceladas',
    x=deposit_cancel['deposit_type'],
    y=deposit_cancel['cancel_rate'],
    marker_color='#dc3545',
    text=deposit_cancel['cancel_rate'],
    texttemplate='%{text:.1f}%',
    textposition='inside',
    textfont_size=22
))

fig_deposit.update_layout(
    title='Completadas vs Canceladas por Tipo de Depósito',
    xaxis_title='Tipo de Depósito',
    yaxis_title='Porcentaje (%)',
    barmode='stack',
    height=600,
    font=dict(size=20),
    legend=dict(font=dict(size=22))
)

fig_deposit.show()


In [None]:


# Gráfico de barras apiladas
fig_deposit = go.Figure()

fig_deposit.add_trace(go.Bar(
    name='Completadas',
    x=deposit_cancel['deposit_type'],
    y=deposit_cancel['completed_rate'],
    marker_color='#28a745',
    text=deposit_cancel['completed_rate'],
    texttemplate='%{text:.1f}%',
    textposition='inside',
    textfont_size=22
))

fig_deposit.add_trace(go.Bar(
    name='Canceladas',
    x=deposit_cancel['deposit_type'],
    y=deposit_cancel['cancel_rate'],
    marker_color='#dc3545',
    text=deposit_cancel['cancel_rate'],
    texttemplate='%{text:.1f}%',
    textposition='inside',
    textfont_size=22
))

fig_deposit.update_layout(
    title='Completadas vs Canceladas por Tipo de Depósito',
    xaxis_title='Tipo de Depósito',
    yaxis_title='Porcentaje (%)',
    barmode='stack',
    height=600,
    font=dict(size=20),
    legend=dict(font=dict(size=22))
)

st.plotly_chart(fig_deposit, use_container_width=True)

# Detalles adicionales
st.subheader("Detalles por Tipo de Depósito")
for idx, row in deposit_cancel.iterrows():
    st.write(f"**{row['deposit_type']}**: {row['total']} reservas totales, {row['canceled']} canceladas ({row['cancel_rate']}%)")

## 11. Calidad de Datos

### Completitud
- **Alta calidad general**: Solo 2 variables con valores nulos
  - `country`: 0.41% nulos (488 casos)
  - `children`: 0.03% nulos (30 casos)
  - `agent`: 13.69% nulos (valores NULL legítimos = sin agente)
  - `company`: 94.31% nulos (valores NULL legítimos = sin empresa)

### Consideraciones
- ADR con valores negativos y extremos requiere limpieza
- Coherencia temporal verificable mediante `reservation_status_date`
- Alta granularidad temporal permite análisis de series temporales


## 12. Insights Clave para Modelado

1. **Variable objetivo bien balanceada**: 37% cancelaciones permite modelado predictivo robusto
2. **Lead time como predictor crítico**: Alta variabilidad correlacionada con comportamiento
3. **Dependencia de OTAs**: 82% del negocio via intermediarios - riesgo de concentración
4. **Baja fidelización**: 97% clientes nuevos - necesidad de estrategias de retención
5. **Estacionalidad marcada**: Modelos deben incorporar componente temporal
6. **Segmento pareja sin hijos**: 90% sin niños - personalización de servicios
7. **Política flexible de depósitos**: 88% sin depósito - puede correlacionar con cancelaciones
8. **Homogeneidad de estancias**: Patrón 2-3 noches facilita forecast operativo