In [1]:
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
# Configuración de estilo de gráficos
plt.style.use('ggplot')
sns.set_theme(style="whitegrid")

# Cargar el archivo parquet
file_path = 'reservas_hoteles.parquet'
df = pd.read_parquet(file_path)

In [3]:
# 1. Filtrar por competencia == False
df_false = df[df['competencia'] == False].copy()


In [4]:
# 2. Crear id_hotel2 basado en nombre_hotel único
nombre_hotel_to_id = {nombre_hotel: f'hotel_{i+1:02d}' for i, nombre_hotel in enumerate(df['nombre_hotel'].unique())}

print(nombre_hotel_to_id)

# Map the emails to the new client IDs
df_false['id_hotel2'] = df_false['nombre_hotel'].map(nombre_hotel_to_id)

# Display the first few rows to verify the changes
print(df_false[['nombre_hotel', 'id_hotel2']].head())


{'': 'hotel_01', 'Hotel Monte Verde': 'hotel_02', 'Hotel Brisas del Mar': 'hotel_03', 'Hotel Camino del Sol': 'hotel_04', 'Hotel Puerta del Cielo': 'hotel_05', 'Hotel Encanto Real': 'hotel_06', 'Palacio del Sol': 'hotel_07', 'Hotel Jardines del Rey': 'hotel_08', 'Hotel Las Estrellas': 'hotel_09', 'Gran Hotel Madrid': 'hotel_10', 'Hotel Torre Dorada': 'hotel_11', 'Hotel Palacio Imperial': 'hotel_12', 'Hotel Luz de Madrid': 'hotel_13', 'Hotel Los Almendros': 'hotel_14', 'Hotel Sol y Luna': 'hotel_15', 'Hotel Mirador Real': 'hotel_16', 'Hotel Rincón Sereno': 'hotel_17', 'Hotel Vista Alegre': 'hotel_18', 'Hotel Costa Azul': 'hotel_19', 'Hotel Maravilla Real': 'hotel_20'}
             nombre_hotel id_hotel2
2       Hotel Monte Verde  hotel_02
3    Hotel Brisas del Mar  hotel_03
4    Hotel Camino del Sol  hotel_04
5  Hotel Puerta del Cielo  hotel_05
6      Hotel Encanto Real  hotel_06


In [5]:
# 3. Actualizar el df original dejando como null los id_hotel2 donde competencia == True
df = df.merge(df_false[['nombre_hotel', 'id_hotel2']], on='nombre_hotel', how='left')
df['id_hotel2'] = np.where(df['competencia'] == True, np.nan, df['id_hotel2'])



In [6]:
df.head(10)

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,precio_noche,nombre_hotel,estrellas,ciudad,id_hotel2
0,5256cc90-139b-43d2-8ec5-412495d751cf,346f2a77-33f4-4b2d-82f3-e8501e21b28d,Feliciana,Cantón,feliciana.cantón@example.com,True,,2025-03-01,2025-03-02,113,,,,,
1,84fd6209-bd8d-4a92-bfe6-c68ee2c49271,346f2a77-33f4-4b2d-82f3-e8501e21b28d,Leonardo,Hierro,leonardo.hierro@example.com,True,,2025-03-01,2025-03-02,194,,,,,
2,40c4cb55-d1f5-407b-832f-4756b8ff77b4,6ec4d7d2-e382-47cc-94f6-c647577d4035,Maite,Calatayud,maite.calatayud@example.com,False,2025-02-09,2025-03-01,2025-03-02,14,119.96,Hotel Monte Verde,1.0,Madrid,hotel_02
3,40c4cb55-d1f5-407b-832f-4756b8ff77b4,6ec4d7d2-e382-47cc-94f6-c647577d4035,Maite,Calatayud,maite.calatayud@example.com,False,2025-02-09,2025-03-01,2025-03-02,14,119.96,Hotel Monte Verde,1.0,Madrid,hotel_02
4,40c4cb55-d1f5-407b-832f-4756b8ff77b4,6ec4d7d2-e382-47cc-94f6-c647577d4035,Maite,Calatayud,maite.calatayud@example.com,False,2025-02-09,2025-03-01,2025-03-02,14,119.96,Hotel Monte Verde,1.0,Madrid,hotel_02
5,40c4cb55-d1f5-407b-832f-4756b8ff77b4,6ec4d7d2-e382-47cc-94f6-c647577d4035,Maite,Calatayud,maite.calatayud@example.com,False,2025-02-09,2025-03-01,2025-03-02,14,119.96,Hotel Monte Verde,1.0,Madrid,hotel_02
6,40c4cb55-d1f5-407b-832f-4756b8ff77b4,6ec4d7d2-e382-47cc-94f6-c647577d4035,Maite,Calatayud,maite.calatayud@example.com,False,2025-02-09,2025-03-01,2025-03-02,14,119.96,Hotel Monte Verde,1.0,Madrid,hotel_02
7,40c4cb55-d1f5-407b-832f-4756b8ff77b4,6ec4d7d2-e382-47cc-94f6-c647577d4035,Maite,Calatayud,maite.calatayud@example.com,False,2025-02-09,2025-03-01,2025-03-02,14,119.96,Hotel Monte Verde,1.0,Madrid,hotel_02
8,40c4cb55-d1f5-407b-832f-4756b8ff77b4,6ec4d7d2-e382-47cc-94f6-c647577d4035,Maite,Calatayud,maite.calatayud@example.com,False,2025-02-09,2025-03-01,2025-03-02,14,119.96,Hotel Monte Verde,1.0,Madrid,hotel_02
9,40c4cb55-d1f5-407b-832f-4756b8ff77b4,6ec4d7d2-e382-47cc-94f6-c647577d4035,Maite,Calatayud,maite.calatayud@example.com,False,2025-02-09,2025-03-01,2025-03-02,14,119.96,Hotel Monte Verde,1.0,Madrid,hotel_02


In [7]:
# 4. Crear id_cliente2 en base a mail único
cliente_to_id = {email: f'cliente_{i+1:02d}' for i, email in enumerate(df['mail'].unique())}

# Map the emails to the new client IDs
df['id_cliente2'] = df['mail'].map(cliente_to_id)

# Display the first few rows to verify the changes
print(df[['mail', 'id_cliente2']].head())



                           mail id_cliente2
0  feliciana.cantón@example.com  cliente_01
1   leonardo.hierro@example.com  cliente_02
2   maite.calatayud@example.com  cliente_03
3   maite.calatayud@example.com  cliente_03
4   maite.calatayud@example.com  cliente_03


In [8]:
# 5. Crear el DataFrame clientes_db con las columnas id_cliente, nombre, apellido y mail
clientes_db = df[['id_cliente2', 'nombre', 'apellido', 'mail']].copy()
clientes_db.rename(columns={'id_cliente2': 'id_cliente'}, inplace=True)
clientes_db.drop_duplicates(inplace=True)
clientes_db.reset_index(drop=True, inplace=True)
clientes_db.to_csv(r'datos_a_db\clientes_db.csv', index=False)

In [9]:
df['id_hotel2'].unique()

array([nan, 'hotel_02', 'hotel_03', 'hotel_04', 'hotel_05', 'hotel_06',
       'hotel_07', 'hotel_08', 'hotel_09', 'hotel_10', 'hotel_11',
       'hotel_12', 'hotel_13', 'hotel_14', 'hotel_15', 'hotel_16',
       'hotel_17', 'hotel_18', 'hotel_19', 'hotel_20'], dtype=object)

In [10]:
### Competencia TRUE

# Step 1: Filter the DataFrame where competencia is True
df_filtered = df[df['competencia'] == True]

print(df_filtered.head())



                                id_reserva  \
0     5256cc90-139b-43d2-8ec5-412495d751cf   
1     84fd6209-bd8d-4a92-bfe6-c68ee2c49271   
2665  4d65096e-5f12-4ce7-9fd6-dd20e3cf5194   
3182  458029ad-cc9b-4d85-8290-fec170bcc02d   
3693  ac0fe86e-90a0-4fe6-a02e-6ea00e9a8621   

                                id_cliente        nombre apellido  \
0     346f2a77-33f4-4b2d-82f3-e8501e21b28d     Feliciana   Cantón   
1     346f2a77-33f4-4b2d-82f3-e8501e21b28d      Leonardo   Hierro   
2665  443a7307-2183-4051-b0bb-26f12fc1f478        Judith    Rivas   
3182  e1a34338-a0aa-4b0e-96de-55f884eeb074        Adolfo   Cuervo   
3693  2949fb90-39ab-4613-b4c1-e238bb56faf3  María Carmen  Navarro   

                                  mail  competencia fecha_reserva  \
0         feliciana.cantón@example.com         True                 
1          leonardo.hierro@example.com         True                 
2665          judith.rivas@example.com         True                 
3182         adolfo.cuervo@examp

In [11]:
# Step 2: Select up to 10 unique hotel IDs
unique_hotels = df_filtered['id_hotel'].drop_duplicates()

print(unique_hotels)



0        113
1        194
2665     131
3182     114
3693     103
3694     181
4741     128
12100    186
17856    135
29253    117
Name: id_hotel, dtype: int64


In [12]:
# Step 3: Create a dictionary mapping from original IDs to hotel_21 - hotel_30
id_mapping = {hotel_id: f'hotel_{21 + idx}' for idx, hotel_id in enumerate(unique_hotels)}

print(id_mapping)



{113: 'hotel_21', 194: 'hotel_22', 131: 'hotel_23', 114: 'hotel_24', 103: 'hotel_25', 181: 'hotel_26', 128: 'hotel_27', 186: 'hotel_28', 135: 'hotel_29', 117: 'hotel_30'}


In [13]:
df['id_hotel2'].unique()

array([nan, 'hotel_02', 'hotel_03', 'hotel_04', 'hotel_05', 'hotel_06',
       'hotel_07', 'hotel_08', 'hotel_09', 'hotel_10', 'hotel_11',
       'hotel_12', 'hotel_13', 'hotel_14', 'hotel_15', 'hotel_16',
       'hotel_17', 'hotel_18', 'hotel_19', 'hotel_20'], dtype=object)

In [14]:
# Step 4: Update the original DataFrame with the new id_hoteles2 ONLY WHEN id_hotel2 is NaN
df['id_hotel2'] = df.apply(lambda row: id_mapping.get(row['id_hotel'], row['id_hotel2']) if pd.isna(row['id_hotel2']) else row['id_hotel2'],axis=1)

In [15]:
df['id_hotel2'].unique()

array(['hotel_21', 'hotel_22', 'hotel_02', 'hotel_03', 'hotel_04',
       'hotel_05', 'hotel_06', 'hotel_23', 'hotel_07', 'hotel_24',
       'hotel_08', 'hotel_25', 'hotel_26', 'hotel_09', 'hotel_10',
       'hotel_27', 'hotel_11', 'hotel_12', 'hotel_13', 'hotel_14',
       'hotel_15', 'hotel_16', 'hotel_28', 'hotel_17', 'hotel_18',
       'hotel_19', 'hotel_29', 'hotel_20', 'hotel_30'], dtype=object)

In [16]:
# Cargar el DataFrame desde el archivo CSV
df_competencia = pd.read_csv(r'datos_a_db\hoteles_competencia.csv')

# Crear el campo id_hotel2 desde hotel_21 hasta hotel_30 según nombre_hotel
df_competencia['id_hotel2'] = [
    f'hotel_{21 + idx}' for idx in range(len(df_competencia))
]

# Filtrar df_competencia para que solo incluya el rango de hotel_21 a hotel_30
df_competencia = df_competencia[df_competencia['id_hotel2'].isin(
    [f'hotel_{i}' for i in range(21, 31)]
)]

# Cargar el DataFrame original llamado df (asumo que ya está cargado en tu entorno)
# Ahora hacemos la unión usando id_hotel2
df = df.merge(df_competencia[['id_hotel2', 'nombre_hotel', 'estrellas', 'precio_noche', 'fecha_reserva']],
              on='id_hotel2', how='left', suffixes=('', '_comp'))

# Actualizar solo las columnas especificadas en el rango de hotel_21 a hotel_30
mask = df['id_hotel2'].isin([f'hotel_{i}' for i in range(21, 31)])
df.loc[mask, ['nombre_hotel', 'estrellas', 'precio_noche', 'fecha_reserva']] = df.loc[
    mask, ['nombre_hotel_comp', 'estrellas_comp', 'precio_noche_comp', 'fecha_reserva_comp']
].values

# Eliminar las columnas temporales
df.drop(columns=['nombre_hotel_comp', 'estrellas_comp', 'precio_noche_comp', 'fecha_reserva_comp'], inplace=True)



In [17]:
#

In [18]:
df['estrellas']

0          4.7
1          4.5
2          1.0
3          1.0
4          1.0
          ... 
5199305    4.0
5199306    4.0
5199307    4.0
5199308    4.0
5199309    4.0
Name: estrellas, Length: 5199310, dtype: float64

In [19]:
# Agrupar por id_hotel2 y calcular el promedio de estrellas
hoteles_agrupados = df.groupby('id_hotel2').agg({
    'nombre_hotel': 'first',
    'fecha_reserva': 'first',
    'estrellas': 'mean'
}).reset_index()

# Renombrar la columna id_hotel2 a id_hotel
hoteles_agrupados.rename(columns={'id_hotel2': 'id_hotel'}, inplace=True)

# Exportar a un archivo CSV
hoteles_agrupados.to_csv(r'datos_a_db\hoteles_agrupados_db.csv', index=False)

In [4]:
# Load the CSV file into a DataFrame
df_hoteles = pd.read_csv(r'datos_a_db\hoteles.csv')

# Create the 'competencia' column
df_hoteles['competencia'] = df_hoteles['id_hotel'].apply(lambda x: False if x in [f'hotel_{i:02d}' for i in range(1, 21)] else True)

# Rename the column 'estrellas' to 'valoracion'
df_hoteles.rename(columns={'estrellas': 'valoracion'}, inplace=True)

# Add a new column 'id_ciudad' with all values set to 1
df_hoteles['id_ciudad'] = 1

# Export the DataFrame back to the CSV file
df_hoteles.to_csv(r'datos_a_db\hoteles.csv', index=False)

In [None]:
## preparar el df de reservas
df_reservas = df.drop_duplicates(['id_reserva', 'id_cliente2', 'id_hotel2', 'inicio_estancia', 'final_estancia', 'precio_noche', 'competencia'])[['id_reserva', 'id_cliente2', 'id_hotel2', 'inicio_estancia', 'final_estancia', 'precio_noche', 'competencia']]
df_reservas.head()



df_reservas.to_csv(r'datos_a_db\reservas_db.csv', index=False)


In [2]:
# Load the dataframe from the CSV file
df_reservas = pd.read_csv(r'datos_a_db\reservas_db.csv')

# Rename columns
df_reservas.rename(columns={'id_cliente2': 'id_cliente', 'id_hotel2': 'id_hotel'}, inplace=True)

# Remove the 'competencia' column
df_reservas.drop(columns=['competencia'], inplace=True)

# Add a new column 'fecha_reserva' with the same date for all rows
df_reservas['fecha_reserva'] = '23/02/2025'

# Fill missing values in 'inicio_estancia' and 'final_estancia' with the most popular value
df_reservas['inicio_estancia'].fillna(df_reservas['inicio_estancia'].mode()[0], inplace=True)
df_reservas['final_estancia'].fillna(df_reservas['final_estancia'].mode()[0], inplace=True)

# Fill missing values in 'precio_noche' with the average value of the column
df_reservas['precio_noche'].fillna(df_reservas['precio_noche'].mean(), inplace=True)

# Display the first few rows to verify the changes
print(df_reservas.head())

                             id_reserva  id_cliente  id_hotel inicio_estancia  \
0  5256cc90-139b-43d2-8ec5-412495d751cf  cliente_01  hotel_21      2025-03-01   
1  84fd6209-bd8d-4a92-bfe6-c68ee2c49271  cliente_02  hotel_22      2025-03-01   
2  40c4cb55-d1f5-407b-832f-4756b8ff77b4  cliente_03  hotel_02      2025-03-01   
3  f2ce8df5-7844-43e1-8c0f-97ce7a208f21  cliente_04  hotel_03      2025-03-01   
4  57d4515a-447d-4067-afcb-9bdcf4e4e915  cliente_05  hotel_04      2025-03-01   

  final_estancia  precio_noche fecha_reserva  
0     2025-03-02        170.00    23/02/2025  
1     2025-03-02        172.00    23/02/2025  
2     2025-03-02        119.96    23/02/2025  
3     2025-03-02        211.53    23/02/2025  
4     2025-03-02        378.37    23/02/2025  


In [3]:
df_reservas.to_csv(r'datos_a_db\reservas_db.csv', index=False)
