# Datos de Reservas de Hoteles

Usemos los datos de reservas de hotel de [Antonio, Almeida y Nunes (2019)](https://www.sciencedirect.com/science/article/pii/S2352340918315191?via%3Dihub) para predecir qué estancias incluyeron niños y/o bebés, basándonos en otras características de las estancias como en qué hotel se alojan los huéspedes, cuánto pagan, etc.

<img src="https://s3-us-west-2.amazonaws.com/fligoo.data-science/TechInterviews/HotelBookings/header.png"/>

Uno de los hoteles (H1) es un hotel resort y el otro es un hotel de ciudad (H2). Ambos conjuntos de datos comparten la misma estructura, con 23 variables que describen 19.248 observaciones de H1 y 30.752 observaciones de H2. Cada observación representa una reserva de hotel. Ambos conjuntos comprenden reservas con fecha prevista de llegada entre el 1 de julio de 2015 y el 31 de agosto de 2017, incluyendo reservas que efectivamente llegaron y reservas que fueron canceladas. Dado que se trata de datos reales de hoteles, se eliminaron todos los elementos de datos que pudieran identificar al hotel o al cliente.

---

## Objetivos del Take-Home

### Parte 1
Durante la **Parte I**, debes realizar un Análisis Exploratorio de Datos (EDA) destacando hallazgos clave:

- **Control de calidad de datos:** Debes verificar la calidad del dataset provisto para evaluar qué tan apropiado es para tareas posteriores de Data Science. Propón un conjunto de acciones correctivas sobre los datos, si corresponde.
- **Reportar insights y conclusiones:** Describe los resultados obtenidos durante el análisis exploratorio y brinda conclusiones desde una perspectiva de negocio, apoyadas por gráficos / tablas / métricas.

**Se espera:**
- Hacer al menos 10 gráficos con cualquier biblioteca de visualización (plotly, matplotlib, seaborn, etc.).
- Escribir, de manera clara, las conclusiones de **cada** gráfico en este notebook.

---

### Parte 2
En la **Parte II** debes definir y entrenar un modelo para predecir qué estancias reales del hotel incluyeron niños/bebés y cuáles no:

- **Extracción de características (features):** Indica posibles candidatas de features que describan adecuadamente los hoteles, ya sea a partir de las columnas dadas o de sus transformaciones.

**Se espera:**
- Crear **un** pipeline de scikit-learn dentro de un archivo llamado `pipelines.py`.
- Crear al menos **tres** transformadores de scikit-learn dentro de un archivo llamado `transformers.py` y usarlos dentro del pipeline del paso anterior.  
  Estos transformadores deben agregar nuevas features o limpiar el dataframe original de este take-home.  
  - Ejemplo de feature: Calcular la feature `"total_nights"`, que es la suma de `stays_in_week_nights` + `stays_in_weekend_nights`.
  - Ejemplo de limpieza: Transformar valores string `'0'` a tipo int `0`.
- Importar el pipeline y ejecutar las transformaciones dentro de este notebook.

- **Modelado de Machine Learning:** Ajusta modelos con los datos provistos. Presta atención a todo el proceso para no omitir pasos cruciales. Puedes usar la columna `children` como variable objetivo (target).

**Se espera:**
- Usar el dataset con las nuevas features generadas para entrenar **al menos** **tres** modelos de machine learning diferentes y generar métricas sobre su desempeño.

---

### Parte 3
Finalmente, en la **Parte III** debes presentar los hallazgos clave, conclusiones y resultados a stakeholders no técnicos.

**Se espera:**
- Crear un resumen de todos los hallazgos de la Parte 1.
- Crear una explicación de las features agregadas en la Parte 2.
- Crear un resumen de las métricas de los modelos.
- Estas explicaciones deben ser de alto nivel y comprensibles para una persona no técnica.
- Puedes agregar todos los resúmenes y explicaciones al final de este notebook; puede ser en formato markdown u otro recurso externo como una presentación en PPT, un documento PDF, etc. ¡Lo que mejor funcione!

---

## Requisitos

- Python 3.x y Pandas 1.x.
- Prestar atención a los detalles y a la narrativa es mucho más importante que un desarrollo extenso.
- Una vez que completes la evaluación, envía un archivo ZIP de la carpeta con todos los recursos usados en este trabajo (por ejemplo, Jupyter notebook, scripts de Python, archivos de texto, imágenes, etc.) o comparte el enlace al repositorio.
- Virtualenv, requirements o un entorno de Conda para aislamiento.
- Tener una reunión final con el equipo para discutir el trabajo realizado en este notebook y responder las preguntas que puedan surgir.
- Por último, y lo más importante: ¡diviértete!

---

## Aspectos deseables (Nice to have)

- Versionado de código con Git (¡eres libre de publicarlo en tu propia cuenta de GitHub/Bitbucket!).
- Demostrar dominio de Python: mostrando buenas prácticas en estructura y documentación, uso de varios paradigmas de programación (p. ej., imperativo, POO, funcional), etc.
- Explicabilidad del modelo con SHAP: explicar la importancia de las características mediante valores de Shapley.
