# Análisis exploratorio de los datos

In [None]:
# Importaciones de paquetes
import pandas as pd
pd.set_option('display.max_columns', None)
import numpy as np
# Importaciones de unidades de soporte
import sys
sys.path.append("..")
from src import sp_eda as sp

In [None]:
df = pd.read_csv("../data/halcon_viajes_limpios.csv") # Leer el archivo

## Análisis bivariado con la métrica principal
Dado el objetivo del análisis, tomamos como métrica principal la columna 'cancelaciones' y la relacionamos con cada variable del dataset. Este análisis nos permite identificar patrones y comportamientos que afectan las cancelaciones, lo que es clave para reducirlas y aumentar la retención de clientes, objetivo principal de este proyecto.

### 'Cancelaciones' en función de las variables categóricas

In [None]:
# Lista de columnas categóricas
col_cat = ['género', 'ubicación', 'tipo_viajero',
        'tipo_paquete','metodo_pago', 'destino', 'tipo_alojamiento', 'clase_vuelo',
       'actividades_reservadas', 'promocion_aplicada', 'fuente_reserva', 'estado_reserva', 
       'estacionalidad', 'comentarios', 'rango_edad']
# Llamar a la función para relacionar 'cancelaciones' con cada columna categórica
sp.analisis_cancelaciones_cat(df, 'cancelacion_reserva', col_cat)

Conclusiones análisis de cancelaciones en función de las variables categóricas

1. **género**: El análisis muestra que las cancelaciones están distribuidas de manera equilibrada, con una tendencia ligera a que el femenino produzca más cancelaciones. Esto sugiere que, independientemente del género, las cancelaciones no están fuertemente sesgadas.

2. **ubicación**: Australia tiene una tasa de cancelación más alta. El resto de las ubicaciones muestran una distribución más homogénea. Podría estar relacionado con factores locales, como promociones o estacionalidades.

3. **tipo_viajero**: Los turistas tienen una tasa de cancelación más alta que los viajeros de negocios. Esto podría reflejar un comportamiento más impulsivo o dependiente de factores externos como la disponibilidad de ofertas o condiciones de viaje cambiantes.

4. **tipo_paquete**: El tipo de paquete 'solo_vuelo' tiene casi el doble de cancelaciones que lo que cogen el vuelo con hotel, con actividad o con ambos. Por lo que los que eligen este tipo de paquetes tienden menos a cancelar.

5. **metodo_pago**: Las cancelaciones parecen distribuidas equitativamente entre los métodos de pago disponibles, lo que sugiere que el método de pago no tiene un impacto directo sobre la tasa de cancelación.

6. **destino**: Las cancelaciones son más frecuentes en los destinos de Londres y Roma, lo que podría estar relacionado con factores específicos de estos, como cambios en políticas de cancelación, condiciones de viaje o incluso promociones.

7. **tipo_alojamiento**: Los usuarios que reservan alojamiento en hoteles tienen una mayor tasa de cancelación, posiblemente debido a la mayor flexibilidad en las políticas de cancelación en comparación con otros tipos de alojamiento. Cuando no disponen de alojamiento, son mucho más propensos a cancelar.

8. **clase_vuelo**: Las cancelaciones son más altas en la clase económica, que es la más comúnmente elegida. Esto puede ser indicativo de que los usuarios que eligen vuelos económicos están más propensos a cambiar o cancelar sus planes.

9. **actividades_reservadas**: El tipo de actividad no es determinante en la cancelación. Aunque si no cogen actividad. y por lo tanto tampoco hotel, tienden menos a cancelar.

10. **promocion_aplicada**: La distribución de las cancelaciones es bastante equitativa, lo que indica que las promociones no parecen tener un impacto significativo en la decisión de cancelar una reserva.

11. **fuente_reserva**: Las cancelaciones son ligeramente más frecuentes cuando la reserva se hace a través de agentes de viajes y la app móvil, mientras que el sitio web tiene una tasa de cancelación más baja.  

12. **estado_reserva**: De las reservas que están pendientes, cancela casi la mitad.

13. **estacionalidad**: Las cancelaciones están distribuidas de manera equilibrada entre temporada alta y baja. 

15. **comentarios**: Se observan muchas cancelaciones asociadas con "problemas con la reserva" y "no me gustó el servicio", lo que indica que las cancelaciones están fuertemente relacionadas con la insatisfacción del cliente con el servicio o problemas logísticos durante el proceso de reserva.

### 'Cancelaciones' en función de las variables numéricas

In [None]:
# Lista de columnas numéricas numéricas
col_num = ['edad', 'antelacion_reserva', 'duracion_viaje', 'numero_personas', 'costo_total', 'numero_noches_estancia', 'calificacion_usuario', 'gasto_por_persona', 'gasto_por_duracion']
# Llamar a la función para relacionar 'cancelaciones' con cada columna numérica
sp.analisis_cancelaciones_num(df, 'cancelacion_reserva', col_num)

Conclusiones de la Relación entre 'cancelaciones' y las variables numéricas

- **edad**: La distribución de la edad entre las cancelaciones y las no cancelaciones parece ser bastante homogénea. Sin embargo, las personas más jóvenes tienden a tener un comportamiento más propenso a cancelar.
  
- **antelacion_reserva**: Los usuarios que reservan mucha antelación, son más propensos a cancelar.
  
- **duracion_viaje**: Cuanto menos dure el viaje, más cancelaciones se producen.
  
- **numero_personas**: No es un factor determinante para las cancelaciones.
  
- **costo_total**: Las reservas de mayor costo parecen tener una menor tasa de cancelación.
  
- **numero_noches_estancia**: No se observa una diferencia significativa en la cantidad de noches de estancia entre las reservas canceladas y no canceladas, lo que sugiere que la duración de la estancia no es un factor determinante.
  
- **calificacion_usuario**: La calificación de los usuarios muestra que las reservas con calificaciones más bajas están asociadas con una mayor tasa de cancelación, lo que podría reflejar insatisfacción con el servicio.
  
- **gasto_por_persona**: No se observa una gran diferencia en el gasto por persona entre las cancelaciones y las no cancelaciones.

- **gasto_por_duracion**: El gasto por duración muestra que no hay una diferencia significativa entre las cancelaciones y no cancelaciones en relación al costo diario de los viajes.


### 'Cancelaciones' en función de las variables temporales

In [None]:
# Llamar a la función para analizar cancelaciones en función de 'fecha_reserva' y 'fecha_viaje'
sp.analizar_cancelacion_temporal(df, 'cancelacion_reserva', ['mes_reserva', 'mes_viaje', 'dia_reserva', 'dia_viaje'])

No se observa información relevante de las cancelaciones en función del tiempo

## Análisis exploratorio detallado

Realizaremos un análisis multivariado para profundizar en las interacciones entre las variables clave. Este enfoque nos permitirá identificar patrones y relaciones complejas que no son tan evidentes en el análisis hecho anteriormente. Al explorar estas interacciones, podremos obtener una comprensión más detallada de los factores que afectan las cancelaciones y cómo las diferentes variables influyen entre sí.

### Matriz de correlación entre las variables numéricas

In [None]:
# Lista de columnas numéricas
col_num = ['edad', 'antelacion_reserva', 'duracion_viaje', 'numero_personas', 'costo_total', 'numero_noches_estancia', 'calificacion_usuario', 'gasto_por_persona', 'gasto_por_duracion']
# Llamar a la función de la matriz de correlación
sp.matriz_correlacion(df, col_num)

No se ha extraído ninguna información significativa para el análisis de la matriz de correlación

### ¿Los usuarios de ciertos grupos de edad tienen más probabilidades de cancelar ciertos tipos de paquetes?

In [None]:
# Llamar a la función que relaciona la edad con el tipo de paquete y con las cancelaciones
sp.edad_tipo_paquete(df)

Para los jóvenes, se podrían ofrecer promociones o incentivos para fomentar el compromiso con las reservas, especialmente para los paquetes más completos.
Para los adultos mayores, mantener el enfoque en paquetes completos (vuelo + hotel + tour) podría ser más efectivo para asegurar menos cancelaciones.

###  ¿Las promociones son más efectivas en ciertos tipos de paquetes?

In [None]:
# Llamar a la función que analiza la eficiencia de las promociones por tipo de paquete y su relación con las cancelaciones
sp.promociones_tipo_paquete(df)

Las promociones son más efectivas en los paquetes 'vuelo_hotel' y 'vuelo_hotel_tour', donde las cancelaciones son significativamente menores cuando se aplica una promoción.

Las promociones no parecen ser tan efectivas en los paquetes solo_vuelo, ya que los usuarios siguen cancelando con frecuencia incluso cuando reciben un descuento o promoción. Esto podría indicar que las personas que eligen solo vuelos están menos comprometidas con la reserva y más dispuestas a cancelarla, independientemente de las promociones.

(Este análisis puede ayudar a la empresa a decidir en qué tipos de paquetes aplicar promociones de manera más eficaz, especialmente al centrarse en los paquetes más completos para reducir las cancelaciones.)

### ¿Las promociones aplicadas en reservas de bajo costo no están ayudando a reducir las cancelaciones tanto como en las de alto costo?

In [None]:
# Llamar a la función que analizaa la eficiencia de las promociones según el costo_total y su relación con las cancelaciones
sp.promociones_costo(df)

Las promociones son más eficaces en reservas de alto costo, ya que los usuarios tienden a cancelar menos cuando reciben un descuento sobre una reserva más cara. Esto podría indicar que los descuentos en productos de mayor valor son percibidos como más atractivos y generan mayor compromiso. 
Las promociones en reservas de bajo costo no son lo suficientemente atractivas para evitar cancelaciones. Esto podría ser porque los usuarios ya están más dispuestos a cancelar cuando hacen reservas de bajo costo, independientemente de la promoción recibida.
Este análisis indica que las promociones deberían ser más estratégicamente aplicadas a reservas de alto costo para maximizar su efectividad. Las promociones en reservas de bajo costo pueden necesitar un enfoque diferente o ser acompañadas de otros incentivos.

  ### ¿Las promociones tienen un impacto diferente en los grupos de edad?

In [None]:
# Llamar a la función que analiza el impacto de las promociones en la tasa de cancelación según el grupo de edad
sp.promociones_edad(df)

Jóvenes: Las promociones no parecen tener un gran impacto en la reducción de cancelaciones en este grupo. Esto podría ser porque los jóvenes tienden a ser más impredecibles o más influenciados por factores externos, como cambios de planes o impulsos. Además, podría ser necesario ofrecer incentivos adicionales (por ejemplo, mayores descuentos o promociones personalizadas) para aumentar su compromiso.
Adultos mayores: Las promociones son más efectivas en este grupo, ya que parecen reducir significativamente las cancelaciones. Este grupo puede estar más comprometido con sus reservas y, por lo tanto, más receptivo a los descuentos. Las promociones podrían funcionar bien para asegurar la retención en este grupo etario.

Recomendación:
Para los jóvenes, en lugar de las promociones actuales, se podría considerar promociones más atractivas o incluso programas de fidelización que los hagan sentir más comprometidos con sus reservas.

Para los adultos mayores, las promociones actuales parecen estar funcionando bien. Es posible que este grupo valore más las promociones en reservas de mayor costo o paquetes más completos.

### ¿Existe relación entre la fuente de reserva y la calificación del usuario?

In [None]:
# Llamar a la función que analiza la relación entre la fuente de reserva y la calificación del usuario
sp.reserva_calificacion(df)

Parece que el sitio web no es un factor determinante para la calificación del usuario

### ¿Cuáles son los comentarios más frecuentes en cada fuente de reserva?

In [None]:
# Llamar a la función que analiza la relación entre los comentarios y la fuente de reserva
sp.comentarios_reserva(df)

Problemas recurrentes en agentes de viaje y app móvil: La frecuencia de comentarios como 'problemas_con_la_reserva' y 'no_me_gustó_el_servicio' en estos canales indica que hay áreas de mejora en la experiencia del usuario, especialmente relacionadas con los agentes de viaje y la app móvil.
Mejorar la experiencia de usuario en la app móvil y con agentes de viaje, ya que estos canales tienen una mayor concentración de comentarios negativos.