In [2]:
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt



In [3]:
# Configuración de estilo de gráficos
plt.style.use('ggplot')
sns.set_theme(style="whitegrid")

# Cargar el archivo parquet
file_path = 'reservas_hoteles.parquet'
df = pd.read_parquet(file_path)




In [4]:
# Modificar el tipo de dato de las fechas

df['fecha_reserva'] = pd.to_datetime(df['fecha_reserva'], errors='coerce')
df['inicio_estancia'] = pd.to_datetime(df['inicio_estancia'], errors='coerce')
df['final_estancia'] = pd.to_datetime(df['final_estancia'], errors='coerce')

# Comprobar cambios
print(df.dtypes)

id_reserva                 object
id_cliente                 object
nombre                     object
apellido                   object
mail                       object
competencia                  bool
fecha_reserva      datetime64[ns]
inicio_estancia    datetime64[ns]
final_estancia     datetime64[ns]
id_hotel                    int64
precio_noche              float64
nombre_hotel               object
estrellas                 float64
ciudad                     object
dtype: object


In [9]:
# Filtrar el dataframe donde competencia es False
competencia_false_df = df[df['competencia'] == False]



In [11]:
print(competencia_false_df.columns)

Index(['id_reserva', 'id_cliente', 'nombre', 'apellido', 'mail', 'competencia',
       'fecha_reserva', 'inicio_estancia', 'final_estancia', 'id_hotel',
       'precio_noche', 'nombre_hotel', 'estrellas', 'ciudad'],
      dtype='object')


In [12]:
# Crear un diccionario basado en id_hotel y nombre_hotel no nulos
hotel_name_mapping = competencia_false_df[competencia_false_df['nombre_hotel'].notnull()].set_index('id_hotel')['nombre_hotel'].to_dict()
hotel_name_mapping


{14: 'Palacio del Sol',
 38: 'Gran Hotel Madrid',
 35: 'Hotel Las Estrellas',
 36: 'Hotel Las Estrellas',
 43: 'Hotel Mirador Real',
 6: 'Hotel Jardines del Rey',
 3: 'Hotel Encanto Real',
 29: 'Hotel Jardines del Rey',
 47: 'Hotel Costa Azul',
 27: 'Hotel Luz de Madrid',
 13: 'Hotel Encanto Real',
 28: 'Hotel Puerta del Cielo',
 40: 'Hotel Vista Alegre',
 2: 'Hotel Camino del Sol',
 48: 'Palacio del Sol',
 15: 'Hotel Palacio Imperial',
 33: 'Hotel Vista Alegre',
 49: 'Hotel Jardines del Rey',
 19: 'Hotel Maravilla Real'}

In [14]:

# Actualizar los valores nulos en nombre_hotel usando el mapeo
df['nombre_hotel'] = df['nombre_hotel'].fillna(df['id_hotel'].map(hotel_name_mapping))

# Verificar el resultado
competencia_no_df = df[df['competencia'] == False]
competencia_no_df['nombre_hotel'].unique()
competencia_no_df

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,precio_noche,nombre_hotel,estrellas,ciudad
2,40c4cb55-d1f5-407b-832f-4756b8ff77b4,6ec4d7d2-e382-47cc-94f6-c647577d4035,Maite,Calatayud,maite.calatayud@example.com,False,2025-02-09,2025-03-01,2025-03-02,14,119.96,Hotel Monte Verde,1.0,Madrid
3,f2ce8df5-7844-43e1-8c0f-97ce7a208f21,aed17fe8-eb18-4f69-bf08-df1afdc339c3,Tecla,Bonet,tecla.bonet@example.com,False,2025-02-08,2025-03-01,2025-03-02,38,211.53,Hotel Brisas del Mar,5.0,Madrid
4,57d4515a-447d-4067-afcb-9bdcf4e4e915,710a2fbb-264f-426a-aa66-f8fffd146a2d,Amílcar,Andrés,amílcar.andrés@example.com,False,2025-02-02,2025-03-01,2025-03-02,35,378.37,Hotel Camino del Sol,1.0,Madrid
5,ccbd9fe9-5a60-4f6f-bed3-73a7158ecba7,df42ae3d-0b9b-4c06-b22e-939323833ef8,Joan,Vazquez,joan.vazquez@example.com,False,2025-02-08,2025-03-01,2025-03-02,36,85.45,Hotel Puerta del Cielo,5.0,Madrid
6,99c3dc4f-663c-45f7-849a-ac9313f3746a,a16a9d83-6888-4947-a7ab-ed41203e347c,Chelo,Flor,chelo.flor@example.com,False,2025-02-09,2025-03-01,2025-03-02,43,309.80,Hotel Encanto Real,1.0,Madrid
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15093,49c9a352-a260-46fb-9edc-a2c2d05fdfb9,cc50c0c1-a589-44b7-8a41-2c731d033f89,Victoriano,Miralles,victoriano.miralles@example.com,False,2025-02-02,2025-03-01,2025-03-02,36,367.65,Hotel Las Estrellas,3.0,Madrid
15094,f07370e3-feeb-4893-a9ff-4ec4fb518a55,2bf0215f-7f7b-4cfb-9a37-d2022c492410,Anacleto,Toledo,anacleto.toledo@example.com,False,2025-02-07,2025-03-01,2025-03-02,38,144.35,Gran Hotel Madrid,4.0,Madrid
15095,1d4b9293-1733-45ce-8a8e-79d3ac4694eb,4ba34638-c43e-455f-886d-b3e3dd223a07,Máxima,Mayoral,máxima.mayoral@example.com,False,2025-02-08,2025-03-01,2025-03-02,29,463.32,Hotel Jardines del Rey,2.0,Madrid
15096,d6823ca7-e236-48b1-bf68-6b88d9b6534a,a017cb9c-160b-4b90-b4a9-4bdb2dce546a,Rafa,Alcaraz,rafa.alcaraz@example.com,False,2025-02-10,2025-03-01,2025-03-02,15,247.63,Hotel Palacio Imperial,1.0,Madrid


In [15]:
# Verificar el resultado
id_df = df[df['id_hotel'] == 135]
#competencia_df['nombre_hotel'].unique()
id_df['nombre_hotel'].unique()   

array([''], dtype=object)

### No tenemos los nombres de los hoteles

In [None]:
dfids = df.groupby(['mail'])['mail'].count()
dfids_filtered = dfids[dfids > 1]
print(dfids_filtered)

<class 'pandas.core.series.Series'>
Index: 14905 entries, aarón.alemán@example.com to úrsula.ureña@example.com
Series name: mail
Non-Null Count  Dtype
--------------  -----
14905 non-null  int64
dtypes: int64(1)
memory usage: 232.9+ KB


In [92]:
dfids_filtered = dfids[dfids > 1]
print(dfids_filtered)


mail
abigaíl.ayala@example.com        2
adalberto.atienza@example.com    2
adelaida.moliner@example.com     2
adoración.niño@example.com       2
adoración.pol@example.com        2
                                ..
ámbar.benito@example.com         2
ángel.bermejo@example.com        2
ángeles.nuñez@example.com        2
áurea.morales@example.com        2
édgar.jordá@example.com          2
Name: mail, Length: 191, dtype: int64


In [42]:
hotel_name = df['nombre_hotel'].nunique()  # Hay 20 distintos
print(hotel_name)

ids_number = df['id_hotel'].nunique()  # Hay 29 hoteles ids distintos
print(ids_number)

ids_reserva = df['id_reserva'].nunique()  # Hay 15000 reservas ids distintos
print(ids_reserva)

ids_cliente = df['id_cliente'].nunique()  # Hay 14847 clientes ids distintos
print(ids_cliente)

emails = df['mail'].nunique()  # Hay 14905 clientes ids distintos
print(emails)



20
29
15000
14847
14905


##### Los valores para los hoteles de la competencia estan vaciones. Neceistamos scrapearlos de la web de hoteles de madrid. 
##### Tenemos 10 hoteles de la competencia. Hay que sacar los 10 primero hoteles que aparezcan y obtener el precio por noche por persona y el numero de estrelas y el nombre del hotel. 
##### El webscrapping no sale directamente, el previo de los hoteles no sale bien. 
##### Podemos usar los filtros para encontrar los hotels mas facilmente. 
##### Nombre del hotel, estrellas, precio y fecha de reserva. 

In [72]:
# Create a dictionary to map hotels to new hotel IDs
nombre_hotel_to_id = {nombre_hotel: f'hotel_{i+1:02d}' for i, nombre_hotel in enumerate(df['nombre_hotel'].unique())}

print(nombre_hotel_to_id)

# Map the emails to the new client IDs
df['id_hotel2'] = df['nombre_hotel'].map(nombre_hotel_to_id)

# Display the first few rows to verify the changes
print(df[['nombre_hotel', 'id_hotel2']].head())

{'': 'hotel_01', 'Hotel Monte Verde': 'hotel_02', 'Hotel Brisas del Mar': 'hotel_03', 'Hotel Camino del Sol': 'hotel_04', 'Hotel Puerta del Cielo': 'hotel_05', 'Hotel Encanto Real': 'hotel_06', 'Palacio del Sol': 'hotel_07', 'Hotel Jardines del Rey': 'hotel_08', 'Hotel Las Estrellas': 'hotel_09', 'Gran Hotel Madrid': 'hotel_10', 'Hotel Torre Dorada': 'hotel_11', 'Hotel Palacio Imperial': 'hotel_12', 'Hotel Luz de Madrid': 'hotel_13', 'Hotel Los Almendros': 'hotel_14', 'Hotel Sol y Luna': 'hotel_15', 'Hotel Mirador Real': 'hotel_16', 'Hotel Rincón Sereno': 'hotel_17', 'Hotel Vista Alegre': 'hotel_18', 'Hotel Costa Azul': 'hotel_19', 'Hotel Maravilla Real': 'hotel_20'}
           nombre_hotel id_hotel2
0                        hotel_01
1                        hotel_01
2     Hotel Monte Verde  hotel_02
3  Hotel Brisas del Mar  hotel_03
4  Hotel Camino del Sol  hotel_04


In [None]:
# Create a dictionary to map emails to new client IDs
cliente_to_id = {email: f'cliente_{i+1:02d}' for i, email in enumerate(df['mail'].unique())}

# Map the emails to the new client IDs
df['id_cliente2'] = df['mail'].map(email_to_id)

# Display the first few rows to verify the changes
print(df[['mail', 'id_cliente2']].head())


                           mail id_cliente2
0  feliciana.cantón@example.com  cliente_01
1   leonardo.hierro@example.com  cliente_02
2   maite.calatayud@example.com  cliente_03
3       tecla.bonet@example.com  cliente_04
4    amílcar.andrés@example.com  cliente_05


In [None]:
## guardame los clientes, nombre, apellido e email
df_clientes = df.drop_duplicates(['id_cliente2','nombre','apellido', 'mail'])[['id_cliente2','nombre','apellido', 'mail']]
df_clientes.head()

## comprbar dups
dfids = df_clientes.groupby(['mail'])['mail'].count()
dfids_filtered = dfids[dfids > 1]
print(dfids_filtered)

Series([], Name: mail, dtype: int64)


In [76]:
df_clientes.to_csv('clientes.csv', index=False)

In [80]:
## guardame los hoteles, nombre, y estrellas y precio
df_hoteles = df.drop_duplicates(['id_hotel2','nombre_hotel','estrellas', 'precio_noche'])[['id_hotel2','nombre_hotel','estrellas', 'precio_noche']]
df_hoteles.head()

Unnamed: 0,id_hotel2,nombre_hotel,estrellas,precio_noche
0,hotel_01,,,
2,hotel_02,Hotel Monte Verde,1.0,119.96
3,hotel_03,Hotel Brisas del Mar,5.0,211.53
4,hotel_04,Hotel Camino del Sol,1.0,378.37
5,hotel_05,Hotel Puerta del Cielo,5.0,85.45


In [81]:
df_hoteles.to_csv('hoteles.csv', index=False)

In [83]:
grouped = df_hoteles.groupby(['nombre_hotel', 'id_hotel2'])

average_stars = grouped.mean().round(1)

# Reset the index to have a numeric index
average_stars.reset_index(inplace=True)

average_stars.head()

average_stars.to_csv('hoteles_average_stars.csv', index=True)

In [95]:
## preparar el df de reservas
df_reservas = df.drop_duplicates(['id_reserva', 'id_cliente2', 'id_hotel2', 'inicio_estancia', 'final_estancia', 'precio_noche', 'competencia'])[['id_reserva', 'id_cliente2', 'id_hotel2', 'inicio_estancia', 'final_estancia', 'precio_noche', 'competencia']]
df_reservas.head()

df_reservas.to_csv('reservas.csv', index=False)

dfids = df_reservas.groupby(['id_reserva'])['id_reserva'].count()
dfids_filtered = dfids[dfids > 1]
print(dfids_filtered)



Series([], Name: id_reserva, dtype: int64)
