In [1]:
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import plotly.express as px
import plotly.graph_objects as go


In [2]:
df_competencia = pd.read_pickle("../data/limpieza_inicial/hoteles_competencia_completo.pkl")
df_propios = pd.read_pickle("../data/limpieza_inicial/hoteles_propios.pkl")
df_final = pd.read_pickle("../data/final/hoteles_final.pkl")

In [3]:
df_final.sample(5)

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,...,gasto_cliente,gasto_medio_cliente_simulado,categoria_cliente,precio_medio_hotel,categoria_hotel,Categoria_Habitacion,Tipo_Reserva_Hotel,Tipo_Reserva_Habitacion,Probabilidad_Cancelacion,Esfuerzo_cliente_%
12162,c47db0a6-5df6-4ed3-9bd3-54a5ac5b1fcd,12837,Ruth,Pedraza,ruth.pedraza@example.com,True,2025-02-26,2025-03-01,2025-03-02,26,...,110.0,99.01,Medium,110.0,Low Cost,Basica,Downgrade,Hab. Peor,Baja,11.1
1568,e484df61-7596-4146-8e8e-8ac63205dc01,11752,Poncio,Maldonado,poncio.maldonado@example.com,False,2025-02-07,2025-03-01,2025-03-02,7,...,52.88,27.94,Basic,271.71,Luxury,Basica,Upgrade,Hab. Igual,Muy Alta,89.26
11542,2b347e7e-d58e-408b-9dd7-6c2cb9034a7a,2257,Calisto,Bartolomé,calisto.bartolomé@example.com,True,2025-02-26,2025-03-01,2025-03-02,28,...,119.0,169.4,Pro,119.0,Low Cost,Basica,Downgrade,Hab. Peor,Muy Baja,-29.75
1047,9bb22a21-bf5e-4db2-8275-208adfa390c9,12879,Rómulo,Cervera,rómulo.cervera@example.com,False,2025-02-11,2025-03-01,2025-03-02,5,...,85.2,123.82,Medium,278.24,Luxury,Basica,Upgrade,Hab. Peor,Muy Baja,-31.19
7648,645b9f0e-a506-4628-b521-1d7f9f1f9e13,123,Adalberto,Vilalta,adalberto.vilalta@example.com,False,2025-02-02,2025-03-01,2025-03-02,17,...,431.0,583.76,VIP,272.73,Luxury,Suite,Igual,Hab. Igual,Baja,-26.17


# 1. Análisis Descriptivo

### 1.1 DISTRIBUCIÓN DE CATEGORÍAS

**Distribución de clientes por categoría**

In [4]:
categorias_clientes = df_final.groupby("categoria_cliente")["id_cliente"].nunique().reset_index()
categorias_clientes

  categorias_clientes = df_final.groupby("categoria_cliente")["id_cliente"].nunique().reset_index()


Unnamed: 0,categoria_cliente,id_cliente
0,Basic,1641
1,Medium,4288
2,Pro,5055
3,VIP,3989


In [5]:
categorias_clientes = df_final.groupby("categoria_cliente")["id_cliente"].nunique().reset_index()

fig = px.bar(
    categorias_clientes,
    x="categoria_cliente",
    y="id_cliente",
    color="categoria_cliente",
    title="Número de clientes por Categoría",
    labels={"categoria_cliente": "Categoría de Cliente", "id_cliente": "Número de Clientes"},
    text_auto=True
)
fig.show()


  categorias_clientes = df_final.groupby("categoria_cliente")["id_cliente"].nunique().reset_index()


### Distribución de hoteles por categoría

In [6]:
categorias_hoteles = df_final.groupby("categoria_hotel")["id_hotel"].nunique().reset_index()



fig = px.histogram(
    categorias_hoteles,
    x="categoria_hotel",
    y = "id_hotel",
    color="categoria_hotel",
    title="Distribución de Categoría de Hotel",
    labels={"categoria_hotel": "Categoría de Hotel", "id_hotel": "Número de Hoteles"},
    text_auto=True
)
fig.update_layout(xaxis_title="", yaxis_title="Nº Hoteles")
fig.show()






### Distribución de la columna Categoria_Habitacion

In [7]:
fig = px.histogram(
    df_final,
    x="Categoria_Habitacion",
    color="Categoria_Habitacion",
    title="Distribución de la Categoría de Habitación",
    labels={"Categoria_Habitacion": "Categoría de Habitación"},
    text_auto=True
)
fig.update_layout(xaxis_title="", yaxis_title="Número de Reservas")
fig.show()


### Distribución de la columna Tipo_Reserva_Hotel

In [8]:
total_reservas = df_final.shape[0]

fig = px.histogram(
    df_final,
    x="Tipo_Reserva_Hotel",
    color="Tipo_Reserva_Hotel",
    title=f"Tipo de Reservas en base a Categoría de Cliente ({total_reservas} reservas)",
    labels={"Tipo_Reserva_Hotel": "Tipo de Reserva"},
    text_auto=True
)
fig.update_layout(xaxis_title="", yaxis_title="Número de Reservas")
fig.show()

### Resumen de precio_noche, precio_medio_hotel, y Esfuerzo_cliente_%

In [9]:
fig = px.histogram(
    df_final,
    x="precio_noche",
    nbins=50,  
    title="Reservas por precio_noche",
    labels={"precio_noche": "Precio por Noche (€)"}
)
fig.update_layout(yaxis_title="Número de Reservas")
fig.show()


In [10]:
precio_medio_hoteles = df_final.groupby("precio_medio_hotel")["id_hotel"].nunique().reset_index()

fig = px.histogram(
    precio_medio_hoteles,
    x="precio_medio_hotel",
    y = "id_hotel",
    nbins=50,
    title="Hoteles por Precio Medio",
    labels={"precio_medio_hotel": "Precio Medio del Hotel (€)"}
)
fig.update_layout(yaxis_title="Número de Reservas")
fig.show()


In [11]:
df_hoteles = (
    df_final[["id_hotel", "precio_medio_hotel"]]
    .drop_duplicates(subset="id_hotel")  # elimina filas duplicadas de un mismo hotel
    .reset_index(drop=True)
)



In [12]:

precio_min = df_hoteles["precio_medio_hotel"].min()
precio_max = df_hoteles["precio_medio_hotel"].max()


bins_hoteles = [0, 90, 120, 180, 240, 280, np.inf] #np.inf es la forma de indicar infinito con numpy
labels = ["0-90", "90-120", "120-180", "180-240", "240-280", ">280"]


df_hoteles["rango_precio"] = pd.cut(
    df_hoteles["precio_medio_hotel"],
    bins = bins_hoteles,
    labels=labels,
    include_lowest=True  # para que el valor mínimo se incluya
)

In [13]:
rango_hoteles = df_hoteles["rango_precio"].value_counts().reset_index()
rango_hoteles = rango_hoteles.sort_values(by="rango_precio",  ascending=True)
rango_hoteles

Unnamed: 0,rango_precio,count
4,0-90,0
1,90-120,6
3,120-180,3
5,180-240,0
0,240-280,16
2,>280,4


In [14]:

fig = px.bar(
    rango_hoteles,
    x="rango_precio",
    y="count",
    color="rango_precio",
    title="Distribución de Hoteles por Rango de Precio Medio",
    labels={"rango_precio": "Rango de Precio Medio (€)", "num_hoteles": "Número de Hoteles"},
    text_auto=True
)
fig.update_layout(xaxis_title="", yaxis_title="Número de Hoteles")
fig.show()


Relación entre Tipo de Reserva (Upgrade, Igual, Downgrade) y Categoría de Habitación

In [15]:

ct_tiporeserva_habitacion = pd.crosstab(
    df_final["Categoria_Habitacion"],
    df_final["Tipo_Reserva_Hotel"]
)


In [16]:
df_melt2 = ct_tiporeserva_habitacion.reset_index().melt(
    id_vars="Categoria_Habitacion",
    var_name="Tipo_Reserva",
    value_name="num_reservas"
)

fig = px.bar(
    df_melt2,
    x="Categoria_Habitacion",
    y="num_reservas",
    color="Tipo_Reserva",
    title="Tipo de Reserva vs. Categoría de Habitación",
    labels={"Categoria_Habitacion": "Categoría de Habitación", "num_reservas": "Número de Reservas"}
)
fig.update_layout(barmode="group")
fig.show()


**¿¿¿¿ ???? REVISAR UPGRADE BÁSICA? <-- TODO**

Se puede ver que la mayoría de las reservas de habitaciones básicas son de perfiles de clientes que tienen mayor categoría

Comparación de Categoría de Cliente vs. Categoría de Hotel

In [17]:

ct_cliente_hotel = pd.crosstab(
    df_final["categoria_hotel"],
    df_final["categoria_cliente"]
    
)

df_melt_hotel = ct_cliente_hotel.reset_index().melt(
    id_vars="categoria_hotel",
    var_name="categoria_cliente",
    value_name="num_reservas"
) # .melt() convierte columnas en filas --> cada fila representa la combinación de una categoría de cliente y un tipo de reserva (junto con el recuento de reservas para esa combinación.)


fig = px.bar(
    df_melt_hotel,
    x="categoria_hotel",
    y="num_reservas",
    color="categoria_cliente",
    title="Categoria Hotel vs. Categoría de Cliente",
    labels={"categoria_cliente": "Categoría de Cliente", "num_reservas": "Número de Reservas"},
    text_auto=True
)
fig.update_layout(barmode="group")
fig.show()

# The 'barmode' property is an enumeration that may be specified as:
#       - One of the following enumeration values:
#             ['stack', 'group', 'overlay', 'relative']





Vemos que hay clientes Basic y Medium que han reservado en Hoteles de categorñia Luxury. Por lo que podemos preguntarnos:   
1. Los clientes Basic que han reservado en Hoteles Luxury ¿qué tipo de habitaciones han reservado?

In [18]:
# DataFrame filtrado
df_lowcost_luxury = df_final[
    (df_final["categoria_cliente"] == "Basic") & (df_final["categoria_hotel"] == "Luxury")
]



In [19]:
# Contar cuántas reservas hay por tipo de habitación
df_lowcost_luxury_hab = (
    df_lowcost_luxury["Categoria_Habitacion"].value_counts().reset_index()
)

df_lowcost_luxury_hab

Unnamed: 0,Categoria_Habitacion,count
0,Basica,820
1,Estandar,0
2,Superior,0
3,Suite,0


In [20]:
fig = px.bar(
    df_lowcost_luxury_hab,
    x="Categoria_Habitacion",
    y="count",
    title="Tipo de Habitación de Clientes Low Cost en Hoteles Luxury: ",
    labels={"Categoria_Habitacion": "Tipo de Habitación", "num_reservas": "Nº de Reservas"},
    color="Categoria_Habitacion"  
)
fig.update_layout(xaxis_title="", yaxis_title="Número de Reservas")
fig.show()


Todos los clientes Low Cost que han reservado en Hoteles Luxury han reservado habitaciones Básicas

2. Los clientes  Medio que han reservado en Hoteles Luxury ¿qué tipo de habitaciones han reservado?

In [21]:
# DataFrame filtrado
df_medio_luxury = df_final[
    (df_final["categoria_cliente"] == "Medium") & (df_final["categoria_hotel"] == "Luxury")
]



In [22]:
# Contar cuántas reservas hay por tipo de habitación
df_medio_luxury_hab = (
    df_medio_luxury["Categoria_Habitacion"].value_counts().reset_index()
)

df_medio_luxury_hab

Unnamed: 0,Categoria_Habitacion,count
0,Basica,1182
1,Estandar,475
2,Superior,20
3,Suite,0


In [23]:
fig = px.bar(
    df_medio_luxury_hab,
    x="Categoria_Habitacion",
    y="count",
    title="Tipo de Habitación de Clientes Low Cost en Hoteles Luxury: ",
    labels={"Categoria_Habitacion": "Tipo de Habitación", "num_reservas": "Nº de Reservas"},
    color="Categoria_Habitacion"  
)
fig.update_layout(xaxis_title="", yaxis_title="Número de Reservas")
fig.show()


La mayoría de los clientes Medium que han reservado en Hoteles Luxury han reservado habitaciones Básicas

3. Los clientes Medium que han reservado en Hoteles Low Cost ¿qué tipo de habitaciones han reservado?

In [24]:
# DataFrame filtrado
df_medio_lowcost = df_final[
    (df_final["categoria_cliente"] == "Medium") & (df_final["categoria_hotel"] == "Low Cost")
]



In [25]:
# Contar cuántas reservas hay por tipo de habitación
df_medio_lowcost_hab = (
    df_medio_lowcost["Categoria_Habitacion"].value_counts().reset_index()
)

df_medio_lowcost_hab

Unnamed: 0,Categoria_Habitacion,count
0,Basica,1905
1,Estandar,0
2,Superior,0
3,Suite,0


In [26]:
fig = px.bar(
    df_medio_lowcost_hab,
    x="Categoria_Habitacion",
    y="count",
    title="Tipo de Habitación de Clientes Medio en Hoteles Low Cost: ",
    labels={"Categoria_Habitacion": "Tipo de Habitación", "num_reservas": "Nº de Reservas"},
    color="Categoria_Habitacion"  
)
fig.update_layout(xaxis_title="", yaxis_title="Número de Reservas")
fig.show()


Todos los clientes Medium que han reservado en Hoteles Low Cost han reservado habitaciones Básicas

Comparación de Categoría de Cliente vs. Categoría de Habitación

In [27]:
ct_cliente_habitacion = pd.crosstab(
    df_final["Categoria_Habitacion"],
    df_final["categoria_cliente"]
    
)


df_melt_hab = ct_cliente_habitacion.reset_index().melt(
    id_vars="Categoria_Habitacion",
    var_name="categoria_cliente",
    value_name="num_reservas"
)


fig = px.bar(
    df_melt_hab,
    x="Categoria_Habitacion",
    y="num_reservas",
    color="categoria_cliente",
    title="Categoria Habitacion vs. Categoría de Cliente",
    labels={"categoria_cliente": "Categoría de Cliente", "num_reservas": "Número de Reservas"},
    text_auto=True
)
fig.update_layout(barmode="group")
fig.show()



Relación entre Tipo de Reserva (Upgrade, Igual, Downgrade) y Categoría de Cliente

In [28]:
ct_tiporeserva_cliente = pd.crosstab(
    df_final["Tipo_Reserva_Hotel"],
    df_final["categoria_cliente"]
    
)

df_melt_tipo_reserva = ct_tiporeserva_cliente.reset_index().melt(
    id_vars="Tipo_Reserva_Hotel",
    var_name="categoria_cliente",
    value_name="num_reservas"
) 

fig = px.bar(
    df_melt_tipo_reserva,
    x="Tipo_Reserva_Hotel",
    y="num_reservas",
    color="categoria_cliente",
    title="Tipo de Reserva vs. Categoría de Cliente",
    labels={"categoria_cliente": "Categoría de Cliente", "num_reservas": "Número de Reservas"},
    text_auto=True
)
fig.update_layout(barmode="group")
fig.show()


In [29]:
df_final["Probabilidad_Cancelacion"].value_counts()

Probabilidad_Cancelacion
Baja        6743
Muy Baja    4505
Muy Alta    1803
Moderada     980
Alta         969
Name: count, dtype: int64

In [30]:

ct_cancelacion_cliente = pd.crosstab(
    df_final["Probabilidad_Cancelacion"],
    df_final["categoria_cliente"],
)


df_melt_cancel = ct_cancelacion_cliente.reset_index().melt(
    id_vars="Probabilidad_Cancelacion",
    var_name="categoria_cliente",
    value_name="num_reservas"
)


fig = px.bar(
    df_melt_cancel,
    x="Probabilidad_Cancelacion",
    y="num_reservas",
    color="categoria_cliente",
    title="Probabilidad Cancelacion vs. Categoría de Cliente",
    labels={"categoria_cliente": "Categoría de Cliente", "num_reservas": "Número de Reservas"},
    text_auto=True
)
fig.update_layout(barmode="group")
fig.show()


Flujo: Categoría Cliente --> Tipo Reserva --> Categoría Habitación

In [31]:
fig = px.parallel_categories(
    df_final,
    dimensions=["categoria_cliente", "Tipo_Reserva_Hotel", "Categoria_Habitacion"],
    color_continuous_scale=px.colors.sequential.Inferno,
    title="Flujo: Categoría Cliente -> Tipo Reserva -> Categoría Habitación"
)
fig.show()


Rango de precio medio del hotel vs. Categoría de Cliente

In [32]:
bins = [0, 90, 120, 180, 240, np.inf]
labels = ["0-90", "90-120", "120-180", "180-240", ">240"]
df_final["rango_precio_medio"] = pd.cut(
    df_final["precio_medio_hotel"],
    bins=bins,
    labels=labels,
    include_lowest=True
)

ct_rango_hoteles = pd.crosstab(
    df_final["rango_precio_medio"],
    df_final["categoria_cliente"]
)


df_melt_rangos = ct_rango_hoteles.reset_index().melt(
    id_vars="rango_precio_medio",
    var_name="categoria_cliente",
    value_name="num_reservas"
)


fig = px.bar(
    df_melt_rangos,
    x="rango_precio_medio",
    y="num_reservas",
    color="categoria_cliente",
    title="Precio Medio Hotel vs. Categoría de Cliente",
    labels={"categoria_cliente": "Categoría de Cliente", "num_reservas": "Número de Reservas"},
    text_auto=True
)
fig.update_layout(barmode="group")
fig.show()


In [33]:
fig = px.parallel_categories(
    df_final,
    dimensions=["categoria_cliente", "categoria_hotel", "Categoria_Habitacion"],
    color_continuous_scale=px.colors.sequential.Inferno,
    title="Flujo de Cliente→Hotel→Habitación"
)
fig.show()

# 2. Métricas Clave a Calcular

### 2.1 Segmentación de Cliente-Hotel

Tasa de Upgrade / Downgrade:

In [34]:
# % Upgrade = (N° de reservas con Upgrade) / (Total reservas) × 100.


# Contar reservas totales y por tipo
total_reservas = df_final.shape[0]

tipo_reserva = (
    df_final["Tipo_Reserva_Hotel"]
    .value_counts()
    .reset_index()
)

tipo_reserva

Unnamed: 0,Tipo_Reserva_Hotel,count
0,Upgrade,6156
1,Igual,5508
2,Downgrade,3336


In [35]:
# Calcular porcentaje
tipo_reserva["porcentaje"] = round((tipo_reserva["count"] / total_reservas) * 100,0)


fig = px.bar(
    tipo_reserva,
    x="Tipo_Reserva_Hotel",
    y="porcentaje",
    color="Tipo_Reserva_Hotel",
    title=f"Tipo de Reserva (Total = {total_reservas} reservas)",
    labels={"num_reservas": "Número de Reservas"},
    text_auto=True
)
fig.update_layout(xaxis_title="", yaxis_title="Número de Reservas")
fig.show()




Desajuste global

In [36]:
# % Desajuste = % Upgrade + % Downgrade
# Cuántas reservas no están en la categoría “Igual” entre cliente y hotel.

# Calcular la Tasa de Upgrade, Downgrade, Desajuste
upgrade = tipo_reserva.loc[tipo_reserva["Tipo_Reserva_Hotel"] == "Upgrade", "porcentaje"].sum()
downgrade = tipo_reserva.loc[tipo_reserva["Tipo_Reserva_Hotel"] == "Downgrade", "porcentaje"].sum()
desajuste = upgrade + downgrade
print(f"% Upgrade: {upgrade:.2f}% ")
print(f"% Downgrade: {downgrade:.2f}% ")
print(f"% Desajuste TOTAL: {desajuste:.2f}%")

% Upgrade: 41.00% 
% Downgrade: 22.00% 
% Desajuste TOTAL: 63.00%


In [37]:
df_final.sample(3)

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,...,gasto_medio_cliente_simulado,categoria_cliente,precio_medio_hotel,categoria_hotel,Categoria_Habitacion,Tipo_Reserva_Hotel,Tipo_Reserva_Habitacion,Probabilidad_Cancelacion,Esfuerzo_cliente_%,rango_precio_medio
2615,afe7b094-6c37-4486-ac45-f56ad064c82d,14488,Wilfredo,Carbonell,wilfredo.carbonell@example.com,False,2025-02-01,2025-03-01,2025-03-02,8,...,546.59,VIP,273.76,Luxury,Suite,Igual,Hab. Igual,Baja,-12.56,>240
8757,a64c3270-0681-48f1-a186-eae93e237ade,13153,Saturnina,Acosta,saturnina.acosta@example.com,False,2025-02-02,2025-03-01,2025-03-02,13,...,285.77,Pro,272.24,Luxury,Estandar,Upgrade,Hab. Peor,Muy Baja,-21.33,>240
6734,7ef86fd6-4f95-4726-b344-682253268326,13343,Sigfrido,Alcázar,sigfrido.alcázar@example.com,False,2025-02-05,2025-03-01,2025-03-02,3,...,169.37,Pro,270.0,Luxury,Estandar,Upgrade,Hab. Peor,Baja,14.51,>240


In [49]:
df_esfuerzo_nan = df_final[
    (df_final["Esfuerzo_cliente_%"] == np.nan) ]

print(len(df_esfuerzo_nan))


df_esfuerzo_vacio = df_final[
    (df_final["Esfuerzo_cliente_%"] == " ") ]

print(len(df_esfuerzo_vacio))


0
0


In [38]:

df_esfuerzo = (
    df_final.groupby(["Tipo_Reserva_Hotel", "Probabilidad_Cancelacion"])["Esfuerzo_cliente_%"].mean()
)

df_esfuerzo.reset_index()






Unnamed: 0,Tipo_Reserva_Hotel,Probabilidad_Cancelacion,Esfuerzo_cliente_%
0,Upgrade,Muy Alta,73.567266
1,Upgrade,Alta,39.919441
2,Upgrade,Moderada,22.320159
3,Upgrade,Baja,7.695307
4,Upgrade,Muy Baja,-17.428925
5,Igual,Muy Alta,
6,Igual,Alta,
7,Igual,Moderada,
8,Igual,Baja,6.615267
9,Igual,Muy Baja,


In [54]:
df_esfuerzo = df_final.groupby(
    ["Tipo_Reserva_Hotel", "Probabilidad_Cancelacion"], observed=True)["Esfuerzo_cliente_%"].mean()
# observed=True no crea grupos para combinaciones que no existen --> Ya no me sacará NaN en Esfuerzo_cliente_%

df_esfuerzo.reset_index()

Unnamed: 0,Tipo_Reserva_Hotel,Probabilidad_Cancelacion,Esfuerzo_cliente_%
0,Upgrade,Muy Alta,73.567266
1,Upgrade,Alta,39.919441
2,Upgrade,Moderada,22.320159
3,Upgrade,Baja,7.695307
4,Upgrade,Muy Baja,-17.428925
5,Igual,Baja,6.615267
6,Downgrade,Alta,36.716585
7,Downgrade,Moderada,21.37169
8,Downgrade,Baja,7.355191
9,Downgrade,Muy Baja,-19.810489


In [55]:
df_final["Tipo_Reserva_Habitacion"].value_counts()

Tipo_Reserva_Habitacion
Hab. Peor     9401
Hab. Igual    5113
Hab. Mejor     486
Name: count, dtype: int64

In [56]:
# Solo para ver la mediana global del esfuerzo
df_final["Esfuerzo_cliente_%"].median()



np.float64(0.025)

Esfuerzo económico promedio por cada tipo de reserva

In [60]:
# Entender si los Upgrades implican siempre un gran porcentaje de esfuerzo o no


df_esfuerzo = (
    df_final
    .groupby(["Tipo_Reserva_Hotel", "Probabilidad_Cancelacion"], as_index=False)
    ["Esfuerzo_cliente_%"]
    .mean()
)

fig = px.bar(
    df_esfuerzo,
    x="Tipo_Reserva_Hotel",
    y="Esfuerzo_cliente_%",
    color="Tipo_Reserva_Hotel",
    facet_col="Probabilidad_Cancelacion",
    barmode="group",
    title="Esfuerzo Cliente por Tipo de Reserva y Prob. Cancelación",
    labels={"esfuerzo_medio": "Esfuerzo Medio (%)", "Tipo_Reserva_Hotel": "Tipo de Reserva"}
)
fig.update_layout(yaxis_title="Esfuerzo (%)")
fig.show()







In [63]:
# Entender si los Upgrades implican siempre un gran porcentaje de esfuerzo o no


df_esfuerzo = (
    df_final
    .groupby(["Tipo_Reserva_Hotel", "Probabilidad_Cancelacion"], as_index=False)
    ["Esfuerzo_cliente_%"]
    .mean()
)

fig = px.bar(
    df_esfuerzo,
    x="Probabilidad_Cancelacion",
    y="Esfuerzo_cliente_%",
    color="Esfuerzo_cliente_%",
    facet_col="Tipo_Reserva_Hotel",
    barmode="group",
    title="Esfuerzo Cliente por Tipo de Reserva y Prob. Cancelación",
    labels={"esfuerzo_medio": "Esfuerzo Medio (%)", "Tipo_Reserva_Hotel": "Tipo de Reserva"}
)
fig.update_layout(yaxis_title="Esfuerzo (%)")
fig.show()







Tasa de Cancelación estimada:

In [77]:
prob_cancel_count = (
    df_final["Probabilidad_Cancelacion"]
    .value_counts()
    .reset_index()
)
prob_cancel_count

Unnamed: 0,Probabilidad_Cancelacion,count
0,Baja,6743
1,Muy Baja,4505
2,Muy Alta,1803
3,Moderada,980
4,Alta,969


In [83]:

fig = px.bar(
    prob_cancel_count,
    x="Probabilidad_Cancelacion",
    y="count",
    color="Probabilidad_Cancelacion",
    title="Distribución de Probabilidad de Cancelación",
    labels={"num_reservas": "Número de Reservas"}
)
fig.update_layout(xaxis_title="", yaxis_title="Número de Reservas")
fig.show()

In [90]:
alta_muy_alta = prob_cancel_count.loc[prob_cancel_count["Probabilidad_Cancelacion"].isin(["Alta", "Muy Alta"]), "count"].sum()
moderada = prob_cancel_count.loc[prob_cancel_count["Probabilidad_Cancelacion"].isin(["Moderada"]), "count"].sum()
baja_muybaja = prob_cancel_count.loc[prob_cancel_count["Probabilidad_Cancelacion"].isin(["Muy Baja", "Baja"]), "count"].sum()

print(f"Reservas Alta/Muy Alta: {round((alta_muy_alta/15000)*100,0)}")
print(f"Reservas Moderada: {round((moderada/15000)*100,0)}")
print(f"Reservas Baja/Muy Baja: {round((baja_muybaja/15000)*100,0)}")



Reservas Alta/Muy Alta: 18.0
Reservas Moderada: 7.0
Reservas Baja/Muy Baja: 75.0
