## Análisis univariado de las variables categóricas, numéricas y temporales

Realizar un análisis univariado para comprender la distribución de cada variable del dataset.
Este paso permite identificar desbalances, valores predominantes y preparar el terreno para el análisis multivariante.

In [None]:
# Importaciones de paquetes
import pandas as pd
pd.set_option('display.max_columns', None)
import numpy as np
# Importaciones de unidades de soporte
import sys
sys.path.append("..")
from src import sp_eda as sp

In [None]:
df = pd.read_csv("../data/halcon_viajes_limpios.csv") # Leer el archivo

### Análisis de las columnas categóricas

In [None]:
# Seleccionar columnas categóricas
col_cat = ['género', 'ubicación', 'tipo_viajero',
        'tipo_paquete','metodo_pago', 'destino', 'tipo_alojamiento', 'clase_vuelo',
       'actividades_reservadas', 'promocion_aplicada', 'fuente_reserva', 'estado_reserva', 
       'estacionalidad', 'cancelacion_reserva', 'comentarios', 'rango_edad']
# Llamar a la función que analiza las columnas categóricas
sp.subplot_col_cat(df, col_cat)

Conclusiones del análisis de las variables categóricas

1. **género**: La mayoría de los registros corresponden al género 'otro' seguido de 'masculino' y 'femenino' con una distribución igualada.

2. **ubicación**: Distribución uniforme, quedándose méxico una unaminoría significativa.

3. **tipo_viajero**: El tipo de viajero turista representa el doble del de negocios, lo que refleja las tendencias generales del sector de viajes y podría influir en las decisiones de marketing y las promociones de la empresa.

4. **tipo_paquete**: Los paquetes más frecuentes son 'solo_vuelo' y 'vuelo_hotel_tour'.

5. **metodo_pago**: Distribución uniforme en los tres métodos.

6. **destino**: Tokio y Nueva York son los destinos más populares seguido de Paris y Londres, lo cual podría ayudar a la empresa a optimizar sus ofertas y promociones hacia estos destinos.

7. **tipo_alojamiento**: Los tipos más comunes son airbnb y hotel.

8. **clase_vuelo**: La mayoría de las reservas se encuentran en la clase económica, lo que es esperado debido al costo generalmente más bajo. Las clases superiores representan una porción pequeña, lo que puede reflejar una segmentación de clientes más premium.

9. **actividades_reservadas**: Muchas reservas no incluyen actividades adicionales, lo que indica que los viajeros prefieren opciones de viaje más simples o no están interesados en actividades adicionales. En cuanto a los tipos de actividad, no destaca ninguna.

10. **promocion_aplicada**: Se distribuye a partes iguales. Es relevante para entender la efectividad de las campañas promocionales.

11. **fuente_reserva**: Agentes de viajes y la app del móvil son los más utilizados. El sitio web se lleva la minoría.

12. **estado_reserva**: Hay una cantidad muy significativa de reservas canceladas. Casi el triple que confirmadas. El numero de reservas pendientes también es relevante.

13. **estacionalidad**: Se reparten a partes iguales, quedando brevemente por encima la temporada alta.

14. **cancelacion_reserva**: El número de cancelaciones es preocupante, se iguala al número de no cancelaciones. Analizar las razones de las cancelaciones Será crucial para mejorar la retención y entender las dinámicas del comportamiento del cliente.

15. **rango_edad**: El grupo de 19 a 30 años representa la mayoría. El resto refleja una distribución uniforme, quedando por debajo los mayores de 60 años.

16. **comentarios**: Destaca 'problemas con la reserva', además de un número importante de 'no me gustó el servicio'.


### Análisis de las columnas numéricas

In [None]:
# Seleccionar columnas numéricas
col_num = ['edad', 'antelacion_reserva', 'duracion_viaje', 'numero_personas', 'costo_total', 'numero_noches_estancia', 'calificacion_usuario', 'gasto_por_persona', 'gasto_por_duracion']
# Llamar a la función que analiza las variables numéricas
sp.subplot_col_num(df, col_num)

Conclusiones del análisis de las variables numéricas

1. **edad**: No se observan outliers significativos, y la mayoría de los usuarios están dentro de un rango razonable de edad para viajes.

2. **antelacion_reserva**: Distribución unirforme

3. **duracion_viaje**: Distribución unirforme.

4. **numero_personas**: Distribución unirforme.

5. **costo_total**: Distribución unirforme.

6. **numero_noches_estancia**: Distribución unirforme.

7. **calificacion_usuario**: La distribución es bastante equilibrada, pero con una ligera tendencia hacia calificaciones más altas, lo que sugiere que los usuarios generalmente están satisfechos con los servicios proporcionados.

8. **gasto_por_persona**: La distribución está centrada en valores moderados, aunque también hay algunos registros con un gasto notablemente más alto, que podrían corresponder a viajes de lujo o grupos grandes.
9. **gasto_por_duracion**
 La distribución es más homogénea en comparación con gasto_por_persona, con un rango de valores más estrecho, lo que indica una relación directa entre el costo y la duración del viaje.

### Análisis columnas temporales

In [None]:
# Obtener el nombre del día a partir de 'fecha_reserva' y 'fecha_viaje'
df['dia_reserva'] = df['fecha_reserva'].dt.day_name()
df['dia_viaje'] = df['fecha_viaje'].dt.day_name()
# Seleccionar variables temporales
col_fecha = ['fecha_reserva', 'fecha_viaje']
# Llamar a la función que analiza las variables temporales
sp.analisis_temporal(df, col_fecha)

Análisis temporal de la fecha de viaje y fecha de reserva

1. **Fecha de Reserva:**
   - **Por año**: 2025
   - **Por mes**: Tendencia decreciente a lo largo del año. La mayoría de las reservas se encuentran en los 4 primeros meses.
   - **Por día**: La gran mayoría reserva los fines de semana. Destacar el miércoles que se lleva el peor día.

2. **Fecha de Viaje:**
   - **Por año**: 2025
   - **Por mes**: A la inversa que la fecha de reserva, tendencia creciente a lo largo del año. Los meses más populares coinciden con las temporadas altas de turismo.
   - **Por día**: Tendencia de viaje los sábados, domingos y jueves, destacando este último. La minoría queda reflejada en el lunes, miércoles y viernes.

Estos patrones podrían ayudar a la empresa a ajustar sus campañas de marketing, promociones y optimización de recursos para aprovechar estos picos.