## Grupo 2: An√°lisis de reservas y cancelaciones hoteleras: patrones y predicciones
üéØ Objetivo del proyecto
Analizar los datos de reservas de hoteles para comprender el perfil de los clientes, identificar patrones de comportamiento (estacionalidad, duraci√≥n de la estancia, precios) y estudiar los factores que influyen en las cancelaciones, utilizando herramientas de an√°lisis de datos en Python.

### 1. Introducci√≥n y descripci√≥n del dataset

- Breve explicaci√≥n del contexto del an√°lisis

- Descripci√≥n de las variables disponibles

- Objetivo del estudio

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv('hotel_bookings.csv')

### 2. Perfil general de las reservas (Patri)

Objetivo: Entender c√≥mo son las reservas y los clientes en general.

Tareas:

* Limpieza y descripci√≥n del dataset: tipos de datos, valores nulos, duplicados.
* An√°lisis de variables descriptivas:

  * *Tipo de hotel* (city vs. resort).
  * *N√∫mero de hu√©spedes* (adultos, ni√±os, beb√©s).
  * *Pa√≠ses de origen*: top 10 pa√≠ses.
  * *Canales de reserva* (agencias online, offline, directas).
* Visualizaciones:

  * Gr√°fico de barras comparando city hotel vs resort hotel.
  * Gr√°fico circular de canales de reserva.
  * Mapa mundial con procedencia de clientes.

### Preguntas a responder:

* ¬øCu√°l es el perfil t√≠pico de cliente?
* ¬øQu√© pa√≠ses aportan m√°s reservas?
* ¬øPor qu√© canales se reserva m√°s?

In [None]:
print("--- Primeras 5 filas ---")
print(df.head())

print("\n--- Informaci√≥n general y tipos de datos ---")
df.info()

print("\n--- Resumen estad√≠stico de las columnas num√©ricas ---")
print(df.describe())

print("\n--- Cu√°ntos datos nulos hay ---")
print(df.isnull().sum())

duplicados = df.duplicated()
print("N√∫mero de filas duplicadas:", duplicados.sum())

--- Primeras 5 filas ---
          hotel  is_canceled  lead_time  arrival_date_year arrival_date_month  \
0  Resort Hotel            0        342               2015               July   
1  Resort Hotel            0        737               2015               July   
2  Resort Hotel            0          7               2015               July   
3  Resort Hotel            0         13               2015               July   
4  Resort Hotel            0         14               2015               July   

   arrival_date_week_number  arrival_date_day_of_month  \
0                        27                          1   
1                        27                          1   
2                        27                          1   
3                        27                          1   
4                        27                          1   

   stays_in_weekend_nights  stays_in_week_nights  adults  ...  deposit_type  \
0                        0                     0       2  ..

### 3. Patrones de comportamiento y cancelaciones (Rodri)

Objetivo: Analizar c√≥mo var√≠an las reservas en funci√≥n del tiempo, los precios y la estancia.

Tareas:

* Estudiar variables clave:

  * *Mes y a√±o de llegada* ‚Üí estacionalidad.
  * *Duraci√≥n de la estad√≠a* (noches de semana y fin de semana).
  * *Precio promedio por noche (adr)* ‚Üí variaci√≥n seg√∫n temporada.
  * *Cancelaciones*: proporci√≥n general y por segmento.
* Visualizaciones:

  * L√≠nea temporal con reservas por mes.
  * Boxplot de precios seg√∫n temporada alta/baja.
  * Gr√°fico de barras: cancelaciones por canal de reserva.

### Preguntas a responder:

* ¬øEn qu√© meses hay m√°s reservas y cancelaciones?
* ¬øEl precio influye en la probabilidad de cancelaci√≥n?
* ¬øLos hoteles de ciudad o de resort tienen m√°s cancelaciones?


### 4. Predicci√≥n y recomendaciones (Albert)

Objetivo: Explorar qu√© factores est√°n m√°s relacionados con las cancelaciones y proponer conclusiones pr√°cticas.

Tareas:

* Crear variables comparativas:

  * Reservas canceladas vs no canceladas.
  * Relaci√≥n entre lead_time (antelaci√≥n de reserva) y cancelaci√≥n.
  * Clientes repetidores vs nuevos.
* Visualizaciones:

  * Heatmap de correlaciones entre variables num√©ricas y cancelaci√≥n.
  * Gr√°fico de barras de cancelaci√≥n seg√∫n pa√≠s.
  * Boxplot de lead_time para canceladas vs no canceladas.
* (Opcional avanzado) Entrenar un modelo simple de clasificaci√≥n para predecir cancelaciones (ej: logistic regression, random forest).

### Preguntas a responder:

* ¬øQu√© variables son m√°s importantes para explicar una cancelaci√≥n?
* ¬øSe pueden detectar patrones que ayuden a los hoteles a reducir cancelaciones?
* ¬øQu√© recomendaciones se pueden dar a un hotel basadas en el an√°lisis?