# Análisis inicial y trata de datos

En este documento realizaremos la parte de transformación de los datos de una ETL. Partimos del documento de tipo parquet proporcionado, el cual analizaremos para poder realizar las modificaciones necesarias para antes de cargar los datos a la base.

In [4]:
# Importamos las librerías necesarias
import pandas as pd # type: ignore
import numpy as np # type: ignore
import seaborn as sns # type: ignore
import matplotlib.pyplot as plt # type: ignore

In [2]:
# Importamos el archivo con el que vamos a trabajar, que en este caso es un parquet. Para que funcione el read_parquet es necesario pasarle
# el parámetro ' engine = auto/pyarrow', ambos funcionan. En caso de que se use pyarrow será necesario realizar su instalaciñon previamnente en el entorno.
df_raw = pd.read_parquet("../data/reservas_hoteles.parquet", engine='auto')
df_raw.head()

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,precio_noche,nombre_hotel,estrellas,ciudad
0,5256cc90-139b-43d2-8ec5-412495d751cf,346f2a77-33f4-4b2d-82f3-e8501e21b28d,Feliciana,Cantón,feliciana.cantón@example.com,True,,2025-03-01,2025-03-02,113,,,,
1,84fd6209-bd8d-4a92-bfe6-c68ee2c49271,346f2a77-33f4-4b2d-82f3-e8501e21b28d,Leonardo,Hierro,leonardo.hierro@example.com,True,,2025-03-01,2025-03-02,194,,,,
2,40c4cb55-d1f5-407b-832f-4756b8ff77b4,6ec4d7d2-e382-47cc-94f6-c647577d4035,Maite,Calatayud,maite.calatayud@example.com,False,2025-02-09,2025-03-01,2025-03-02,14,119.96,Hotel Monte Verde,1.0,Madrid
3,f2ce8df5-7844-43e1-8c0f-97ce7a208f21,aed17fe8-eb18-4f69-bf08-df1afdc339c3,Tecla,Bonet,tecla.bonet@example.com,False,2025-02-08,2025-03-01,2025-03-02,38,211.53,Hotel Brisas del Mar,5.0,Madrid
4,57d4515a-447d-4067-afcb-9bdcf4e4e915,710a2fbb-264f-426a-aa66-f8fffd146a2d,Amílcar,Andrés,amílcar.andrés@example.com,False,2025-02-02,2025-03-01,2025-03-02,35,378.37,Hotel Camino del Sol,1.0,Madrid


In [3]:
# Creamos una copia de los datos originales
data = df_raw.copy()
data.head()

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,precio_noche,nombre_hotel,estrellas,ciudad
0,5256cc90-139b-43d2-8ec5-412495d751cf,346f2a77-33f4-4b2d-82f3-e8501e21b28d,Feliciana,Cantón,feliciana.cantón@example.com,True,,2025-03-01,2025-03-02,113,,,,
1,84fd6209-bd8d-4a92-bfe6-c68ee2c49271,346f2a77-33f4-4b2d-82f3-e8501e21b28d,Leonardo,Hierro,leonardo.hierro@example.com,True,,2025-03-01,2025-03-02,194,,,,
2,40c4cb55-d1f5-407b-832f-4756b8ff77b4,6ec4d7d2-e382-47cc-94f6-c647577d4035,Maite,Calatayud,maite.calatayud@example.com,False,2025-02-09,2025-03-01,2025-03-02,14,119.96,Hotel Monte Verde,1.0,Madrid
3,f2ce8df5-7844-43e1-8c0f-97ce7a208f21,aed17fe8-eb18-4f69-bf08-df1afdc339c3,Tecla,Bonet,tecla.bonet@example.com,False,2025-02-08,2025-03-01,2025-03-02,38,211.53,Hotel Brisas del Mar,5.0,Madrid
4,57d4515a-447d-4067-afcb-9bdcf4e4e915,710a2fbb-264f-426a-aa66-f8fffd146a2d,Amílcar,Andrés,amílcar.andrés@example.com,False,2025-02-02,2025-03-01,2025-03-02,35,378.37,Hotel Camino del Sol,1.0,Madrid


In [4]:
# función info
def info_df(dataframe):
    """
    Función que devuelve información general sobre el DatFrame que le pasemos.


    Args:
        df (DataFrame): DataFrame con información que queramos revisar

    Returns:
        DataFrame: DataFrame con información general sobre las columnas del DataFrame que se le ha pasado a la función: tipo de datos, número de
        registros, número de valores nulos, porcentaje de los valores nulos sobre el total
    """
    info_df = pd.DataFrame()
    info_df["Tipo_dato"] = dataframe.dtypes
    info_df["numero_registros"] = [dataframe[elemento].value_counts().sum() for elemento in dataframe]
    info_df["Numero_nulos"] = round(dataframe.isnull().sum())
    info_df["%_nulos"] = round((dataframe.isnull().sum()/dataframe.shape[0])*100, 2)

    return info_df

In [5]:
# Información general del dataframe
info_df(data)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
id_reserva,object,15098,0,0.0
id_cliente,object,15098,0,0.0
nombre,object,15098,0,0.0
apellido,object,15098,0,0.0
mail,object,15098,0,0.0
competencia,bool,15098,0,0.0
fecha_reserva,object,15098,0,0.0
inicio_estancia,object,15023,75,0.5
final_estancia,object,15023,75,0.5
id_hotel,int64,15098,0,0.0


In [6]:
# Vamos a ver las columnas que tenemos en el dataframe
data.columns

Index(['id_reserva', 'id_cliente', 'nombre', 'apellido', 'mail', 'competencia',
       'fecha_reserva', 'inicio_estancia', 'final_estancia', 'id_hotel',
       'precio_noche', 'nombre_hotel', 'estrellas', 'ciudad'],
      dtype='object')

Tras realizar una overview de los datos recibidos observamos las siguientes casuísticas:
- Tenemos 14 columnas.
- Hay 3 columnas con información sobre fechas, las cuales son de tipo object. Será necesario modificar el tipo de dato de las mismas para poder trabajar más adelante.
- La columna competencia es un booleano, el cual habrá que ver con que se corresponde true y false. 
- Hay existencia de nulos en cuatro columnas:
    
    **a)** inicio_estancia: tenemos un 0,5% de nulos.
    
    **b)** fin_estancia: tenemos un 0,5% de nulos. Comprobaremos si son los mismos que la columna de inicio estancia, revisar casuística y tratar.
    
    **c)** precio_noche: hay un 34,6% de nulos, un valor significativo. Será necesario tratarlos.
    
    **d)** estrellas: hay un 34,26% de nulos, un valor significativo. Será necesario tratarlos. Asimismo el tipo de dato de esta columna es float. Podemos plantear modificarlo a tipo object, a un str. 

A continuación realizamos las modificaciones necesarias de las columnas para poder trabajar con ellas. 

## Búsqueda de duplicados completamente iguales 

In [7]:
# Vamos a revisar la existencia de duplicados completamente iguales en el df. Revisaremos si se pueden eliminar
data.duplicated().sum()


np.int64(98)

In [8]:
# Tenemos 98 elementos duplicados en total en el dataframe
data = data.drop_duplicates()

In [9]:
# Comprobamos que se han eliminado correctamente
if data.duplicated().sum() == 0:
    print("todo en orden")

todo en orden


## Modificación columnas de fecha

In [10]:
# Creamos una función que nos modifica el tipo de dato de las columnas que le pasemos a tipo fecha
def data_fechas(dataframe, columnas):
    for col in columnas:
        dataframe[col] = pd.to_datetime(dataframe[col])
    return dataframe

In [11]:
# modificamos las columnas que queremos a tipo fecha
data = data_fechas(data, ["fecha_reserva", "inicio_estancia", "final_estancia"])

In [12]:
# comprobamos que la modificación se ha realizado de forma correcta
info_df(data)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
id_reserva,object,15000,0,0.0
id_cliente,object,15000,0,0.0
nombre,object,15000,0,0.0
apellido,object,15000,0,0.0
mail,object,15000,0,0.0
competencia,bool,15000,0,0.0
fecha_reserva,datetime64[ns],9828,5172,34.48
inicio_estancia,datetime64[ns],14925,75,0.5
final_estancia,datetime64[ns],14925,75,0.5
id_hotel,int64,15000,0,0.0


# Columna de inicio y fin de estancia
En estas columnas hemos observado que todas las estancias son del fin de semana del 01/03/2025 y el 02/03/2025, por lo que rellenaremos los valores nulos de las mismas con esas fechas.


In [13]:
# Vamos a comprobar los valores únicos que tenemos en la columna de inicio de estancia.
data["inicio_estancia"].unique()

<DatetimeArray>
['2025-03-01 00:00:00', 'NaT']
Length: 2, dtype: datetime64[ns]

In [14]:
# Vamos a comprobar los valores únicos que tenemos en la columna de final de estancia.
data["final_estancia"].unique()

<DatetimeArray>
['2025-03-02 00:00:00', 'NaT']
Length: 2, dtype: datetime64[ns]

In [15]:
# Realizamos la modificación de los valores nulos de las columnas reemplazándolas por los valores de las fechas del fin de semana correspondientes
data["inicio_estancia"] = data["inicio_estancia"].fillna("2025-03-01")
data["final_estancia"] = data["final_estancia"].fillna("2025-03-02")

In [16]:
# Comprobamos que la modificación se ha realizado correctamente
data["inicio_estancia"].unique()

<DatetimeArray>
['2025-03-01 00:00:00']
Length: 1, dtype: datetime64[ns]

In [17]:
# Comprobamos que la modificación se ha realizado correctamente
data["final_estancia"].unique()

<DatetimeArray>
['2025-03-02 00:00:00']
Length: 1, dtype: datetime64[ns]

In [18]:
# Vamos a comprobar que los nulos han desaparecido de las columnas
info_df(data)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
id_reserva,object,15000,0,0.0
id_cliente,object,15000,0,0.0
nombre,object,15000,0,0.0
apellido,object,15000,0,0.0
mail,object,15000,0,0.0
competencia,bool,15000,0,0.0
fecha_reserva,datetime64[ns],9828,5172,34.48
inicio_estancia,datetime64[ns],15000,0,0.0
final_estancia,datetime64[ns],15000,0,0.0
id_hotel,int64,15000,0,0.0


## Columna valores booleanos

Observamos que tenemos una columna que hace referencia a la competencia del grupo, que contiene valores booleanos (True/False). Entendemos que los valores que se corresponden con True, hacen referencia a hoteles que son de la competencia, y los que se corresponden con False, hacen referencia a hoteles del grupo.

`Hoteles de la competencia (col True)`

Estas columnas entendemos que se consideran como competencia del grupo, por lo que nos falta información de las mismas.

Tenemos valores nulos en este caso en las columnas de inicio y fin de estancia (23 en cada una), los cuales se corresponden en ambas columnas con los mismos clientes/reservas. Asimismo hay valores nulos en la columna de precio de noche (5172), que entendemos que se corresponde con los valores nulos de los hoteles de los cuales no tenemos estrellas (nulos en columna estrellas). Existen valores nulos en la columna de fecha de reserva, de la cual no tenemos ninguna información al respecto. Por otro lado no tenemos los nombres de estos hoteles, sino que están puestos en el dataframe como espacios en blanco.

Para tratar estos datos realizaremos un scrapeo de los nombres de los hoteles correspondientes, sus estrellas y el precio por noche de cada uno. Una vez hayamos obtenido la información necesaria, les asignaremos un id de hotel para poder trabajar en el dataframe. Para rellenar los valores nulos de la columna de fecha de reserva de estos hoteles haremos uso de la fecha en la que realicemos el scrapeo.

Tenemos valores duplicados en la columna de id de cliente. Estos se corresponden con diferentes clientes. Podemos tener en cuenta que un cliente se puede meter en su cuenta, y reservar por otra persona, poniendo su id de cliente, pero el nombre y correo de la persona de la reserva, explicando así el duplicado de id de cliente. Será necesario tratar esta casuística, asignando un id de cliente único en función de los correos.

Observamos que todas las estancias se han realizado entre el 01/03/2025 y el 02/03/2025. Podemos considerar rellenar los valores que no tenemos de las mismas con esas fechas.

In [19]:
# Filtramos por los valores que son True
hoteles_competencia = data[data["competencia"] == True]
hoteles_competencia.head()

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,precio_noche,nombre_hotel,estrellas,ciudad
0,5256cc90-139b-43d2-8ec5-412495d751cf,346f2a77-33f4-4b2d-82f3-e8501e21b28d,Feliciana,Cantón,feliciana.cantón@example.com,True,NaT,2025-03-01,2025-03-02,113,,,,
1,84fd6209-bd8d-4a92-bfe6-c68ee2c49271,346f2a77-33f4-4b2d-82f3-e8501e21b28d,Leonardo,Hierro,leonardo.hierro@example.com,True,NaT,2025-03-01,2025-03-02,194,,,,
7,4d65096e-5f12-4ce7-9fd6-dd20e3cf5194,443a7307-2183-4051-b0bb-26f12fc1f478,Judith,Rivas,judith.rivas@example.com,True,NaT,2025-03-01,2025-03-02,131,,,,
9,458029ad-cc9b-4d85-8290-fec170bcc02d,e1a34338-a0aa-4b0e-96de-55f884eeb074,Adolfo,Cuervo,adolfo.cuervo@example.com,True,NaT,2025-03-01,2025-03-02,114,,,,
11,ac0fe86e-90a0-4fe6-a02e-6ea00e9a8621,2949fb90-39ab-4613-b4c1-e238bb56faf3,María Carmen,Navarro,maría carmen.navarro@example.com,True,NaT,2025-03-01,2025-03-02,103,,,,


In [20]:
# Comprobamos la información de este dataframe
info_df(hoteles_competencia)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
id_reserva,object,5172,0,0.0
id_cliente,object,5172,0,0.0
nombre,object,5172,0,0.0
apellido,object,5172,0,0.0
mail,object,5172,0,0.0
competencia,bool,5172,0,0.0
fecha_reserva,datetime64[ns],0,5172,100.0
inicio_estancia,datetime64[ns],5172,0,0.0
final_estancia,datetime64[ns],5172,0,0.0
id_hotel,int64,5172,0,0.0


In [21]:
# Vamos a comprobar la información de la fecha de reserva, para ver si todos los valores son nulos
hoteles_competencia["fecha_reserva"].unique()

<DatetimeArray>
['NaT']
Length: 1, dtype: datetime64[ns]

In [22]:
# Vamos a comprobar que valores tenemos en la columna de inicio de estancia
hoteles_competencia["inicio_estancia"].unique()

<DatetimeArray>
['2025-03-01 00:00:00']
Length: 1, dtype: datetime64[ns]

In [23]:
# Vamos a comprobar que valores tenemos en la columna de final de estancia
hoteles_competencia["final_estancia"].unique()

<DatetimeArray>
['2025-03-02 00:00:00']
Length: 1, dtype: datetime64[ns]

In [24]:
# Comprobamos los nombres de los hoteles de la competencia
hoteles_competencia["nombre_hotel"].unique()

array([''], dtype=object)

In [25]:
# Comprobamos los id de hotel de la competencia
hoteles_competencia["id_hotel"].unique()

array([113, 194, 131, 114, 103, 181, 128, 186, 135, 117])

In [26]:
# Vamos a revisar que no haya valores duplicados iguales en el dataframe
hoteles_competencia.duplicated().sum()

np.int64(0)

Vamos a revisar los valores duplicados por id de reserva, id de cliente y mail.

In [27]:
# Revisamos duplicados por id de reserva, los cuales no deberían existir
hoteles_competencia["id_reserva"].duplicated().sum()

np.int64(0)

In [28]:
# Revisamos duplicados por id de cliente, los cuales pueden existir, pero hay que revisar su casuística en caso de que existan
hoteles_competencia["id_cliente"].duplicated().sum()

np.int64(11)

In [29]:
# Revisamos duplicados de id de cliente
hoteles_competencia[hoteles_competencia["id_cliente"].duplicated()].head(2)

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,precio_noche,nombre_hotel,estrellas,ciudad
1,84fd6209-bd8d-4a92-bfe6-c68ee2c49271,346f2a77-33f4-4b2d-82f3-e8501e21b28d,Leonardo,Hierro,leonardo.hierro@example.com,True,NaT,2025-03-01,2025-03-02,194,,,,
1333,35888670-8393-4a86-b10f-42d8cc0cc558,bfbb9754-fcab-4580-bb2a-9ab295149227,Teodora,Seco,teodora.seco@example.com,True,NaT,2025-03-01,2025-03-02,128,,,,


In [30]:
# Vamos a comprobar algún caso concreto
hoteles_competencia[hoteles_competencia["id_cliente"] == "bfbb9754-fcab-4580-bb2a-9ab295149227"]
# Observamos que son clientes diferentes con el mismo id.

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,precio_noche,nombre_hotel,estrellas,ciudad
889,a5d8e23d-782b-4bd9-875e-a0b7f1c9a57c,bfbb9754-fcab-4580-bb2a-9ab295149227,Esperanza,Marquez,esperanza.marquez@example.com,True,NaT,2025-03-01,2025-03-02,113,,,,
1333,35888670-8393-4a86-b10f-42d8cc0cc558,bfbb9754-fcab-4580-bb2a-9ab295149227,Teodora,Seco,teodora.seco@example.com,True,NaT,2025-03-01,2025-03-02,128,,,,


In [31]:
# Revisanos los duplicados por mail
hoteles_competencia["mail"].duplicated().sum()

np.int64(12)

In [32]:
# Revisamos duplicados de mail
hoteles_competencia[hoteles_competencia["mail"].duplicated()].head(2)

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,precio_noche,nombre_hotel,estrellas,ciudad
5818,fd938a82-5eb8-4b7f-9cc4-dae5926cd5d8,dde043ea-8b87-4984-819d-2b238d044183,Guadalupe,Dueñas,guadalupe.dueñas@example.com,True,NaT,2025-03-01,2025-03-02,117,,,,
6361,803667c4-11a8-4b67-a37a-30fc7046d96c,ababd266-e747-42f8-a528-4107b99aaa38,Juan Antonio,Benavides,juan antonio.benavides@example.com,True,NaT,2025-03-01,2025-03-02,181,,,,


In [33]:
# Vamos a comprobar algún caso concreto
hoteles_competencia[hoteles_competencia["mail"] == "guadalupe.dueñas@example.com"]
# Observamos que es el mismo cliente con ids diferentes.

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,precio_noche,nombre_hotel,estrellas,ciudad
5040,fb89dec9-e602-4899-a1a9-8c31c414a8d0,2f0184ca-528d-4629-b79a-4be3d8ca092d,Guadalupe,Dueñas,guadalupe.dueñas@example.com,True,NaT,2025-03-01,2025-03-02,186,,,,
5818,fd938a82-5eb8-4b7f-9cc4-dae5926cd5d8,dde043ea-8b87-4984-819d-2b238d044183,Guadalupe,Dueñas,guadalupe.dueñas@example.com,True,NaT,2025-03-01,2025-03-02,117,,,,


`Hoteles del grupo (col False)`

Estas columnas entendemos que no se consideran como competencia del grupo, por lo que tenemos casi toda la información de las mismas. Observamos que los id de hotel están asignados de manera incorrecta, ya que hay diferentes hoteles con el mismo id, cuando el id debería ser un identificador único de cada hotel. Será necesario modificarlos y asignar un id unico a cada hotel.

Tenemos valores nulos en este caso en las columnas de inicio, fin de estancia y precio de noche (52 en cada una), los cuales se corresponden en todas las columnas con los mismos clientes. El precio lo rellenaremos calculando la media/mediana de los hoteles correspondientes. Observamos que todas las estancias se han realizado entre el 01/03/2025 y el 02/03/2025, por lo que podemos considerar rellenar los valores que no tenemos de las mismas con esas fechas. 

Tenemos duplicados en las columnas de id de cliente (178), los cuales se corresponden con mismos clientes, que tienen diferentes ids de reserva.  Podemos tener en cuenta que un cliente se puede meter en su cuenta, y reservar por otra persona, poniendo su id de cliente, pero el nombre y correo de la persona de la reserva, explicando así el duplicado de id de cliente. Será necesario tratar esta casuística, asignando un id de cliente único en función de los correos.

In [34]:
# Filtramos por las columnas que contienen False.
hoteles_grupo = data[data["competencia"] == False]
hoteles_grupo.head()

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,precio_noche,nombre_hotel,estrellas,ciudad
2,40c4cb55-d1f5-407b-832f-4756b8ff77b4,6ec4d7d2-e382-47cc-94f6-c647577d4035,Maite,Calatayud,maite.calatayud@example.com,False,2025-02-09,2025-03-01,2025-03-02,14,119.96,Hotel Monte Verde,1.0,Madrid
3,f2ce8df5-7844-43e1-8c0f-97ce7a208f21,aed17fe8-eb18-4f69-bf08-df1afdc339c3,Tecla,Bonet,tecla.bonet@example.com,False,2025-02-08,2025-03-01,2025-03-02,38,211.53,Hotel Brisas del Mar,5.0,Madrid
4,57d4515a-447d-4067-afcb-9bdcf4e4e915,710a2fbb-264f-426a-aa66-f8fffd146a2d,Amílcar,Andrés,amílcar.andrés@example.com,False,2025-02-02,2025-03-01,2025-03-02,35,378.37,Hotel Camino del Sol,1.0,Madrid
5,ccbd9fe9-5a60-4f6f-bed3-73a7158ecba7,df42ae3d-0b9b-4c06-b22e-939323833ef8,Joan,Vazquez,joan.vazquez@example.com,False,2025-02-08,2025-03-01,2025-03-02,36,85.45,Hotel Puerta del Cielo,5.0,Madrid
6,99c3dc4f-663c-45f7-849a-ac9313f3746a,a16a9d83-6888-4947-a7ab-ed41203e347c,Chelo,Flor,chelo.flor@example.com,False,2025-02-09,2025-03-01,2025-03-02,43,309.8,Hotel Encanto Real,1.0,Madrid


In [35]:
# Comprobamos la información de este dataframe
info_df(hoteles_grupo)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
id_reserva,object,9828,0,0.0
id_cliente,object,9828,0,0.0
nombre,object,9828,0,0.0
apellido,object,9828,0,0.0
mail,object,9828,0,0.0
competencia,bool,9828,0,0.0
fecha_reserva,datetime64[ns],9828,0,0.0
inicio_estancia,datetime64[ns],9828,0,0.0
final_estancia,datetime64[ns],9828,0,0.0
id_hotel,int64,9828,0,0.0


In [36]:
# Vamos a comprobar que valores tenemos en la columna de inicio de estancia
hoteles_grupo["inicio_estancia"].unique()

<DatetimeArray>
['2025-03-01 00:00:00']
Length: 1, dtype: datetime64[ns]

In [37]:
# Vamos a comprobar que valores tenemos en la columna de final de estancia
hoteles_grupo["final_estancia"].unique()

<DatetimeArray>
['2025-03-02 00:00:00']
Length: 1, dtype: datetime64[ns]

In [38]:
# Vamos a revisar los nombres de los hoteles y su id_correspondiente
hoteles_grupo[["id_hotel","nombre_hotel"]].sort_values("id_hotel")

Unnamed: 0,id_hotel,nombre_hotel
69,2,Hotel Vista Alegre
14944,2,Hotel Puerta del Cielo
36,2,Hotel Luz de Madrid
12769,2,Hotel Camino del Sol
6398,2,Hotel Encanto Real
...,...,...
1828,49,Hotel Sol y Luna
1825,49,Hotel Vista Alegre
1817,49,Hotel Los Almendros
13372,49,Hotel Jardines del Rey


In [39]:
hoteles_grupo["precio_noche"].isnull().sum()

np.int64(52)

Vamos a comprobar los valores duplicados por id de cliente e id de reserva.

In [40]:
# Revisamos duplicados por id de reserva, los cuales no deberían existir
hoteles_grupo["id_reserva"].duplicated().sum()

np.int64(0)

In [41]:
# Revisamos duplicados por id de cliente, los cuales pueden existir, pero hay que revisar su casuística en caso de que existan
hoteles_grupo["id_cliente"].duplicated().sum()

np.int64(80)

In [42]:
# Revisanos los duplicados por mail
hoteles_grupo["mail"].duplicated().sum()

np.int64(43)

In [43]:
# Vamos a revisar los duplicados por mail
hoteles_grupo[hoteles_grupo["mail"].duplicated()].head(2)

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,precio_noche,nombre_hotel,estrellas,ciudad
3007,904807cd-f9de-4261-b2ef-905c818e5c28,1d97512a-8d30-43a2-9ee4-043b4107a1b1,Ceferino,Sosa,ceferino.sosa@example.com,False,2025-02-10,2025-03-01,2025-03-02,48,412.52,Hotel Jardines del Rey,1.0,Madrid
3089,5223c253-9e19-4fe7-bace-56e2d8f97141,7c72ec8f-aff0-4e75-a8a0-75dcbdf66c13,Sergio,Carrión,sergio.carrión@example.com,False,2025-02-12,2025-03-01,2025-03-02,47,287.07,Hotel Mirador Real,3.0,Madrid


In [44]:
# Vamos a comprobar algún caso en concreto
hoteles_grupo[hoteles_grupo["mail"] == "ceferino.sosa@example.com"]

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,precio_noche,nombre_hotel,estrellas,ciudad
204,f2945ede-3cbe-4da5-9783-bce3017dae6b,e103ca1d-9202-4d0a-8a72-8c12f9b1b0f0,Ceferino,Sosa,ceferino.sosa@example.com,False,2025-02-01,2025-03-01,2025-03-02,38,476.41,Hotel Jardines del Rey,2.0,Madrid
3007,904807cd-f9de-4261-b2ef-905c818e5c28,1d97512a-8d30-43a2-9ee4-043b4107a1b1,Ceferino,Sosa,ceferino.sosa@example.com,False,2025-02-10,2025-03-01,2025-03-02,48,412.52,Hotel Jardines del Rey,1.0,Madrid


## Precios y estrellas de los hoteles del grupo

Si nos fijamos tenemos que los hoteles del grupo tienen diferentes precios y diferentes valoraciones (estrellas). Vamos a calcular el precio y la valoración media de cada hotel para finalmente asignárselo. Antes de ello vamos a realizar un análisis estadístico de los precios y las valoraciones para ver que valores son significativos. 

In [45]:
hoteles_grupo.columns

Index(['id_reserva', 'id_cliente', 'nombre', 'apellido', 'mail', 'competencia',
       'fecha_reserva', 'inicio_estancia', 'final_estancia', 'id_hotel',
       'precio_noche', 'nombre_hotel', 'estrellas', 'ciudad'],
      dtype='object')

In [46]:
hoteles_precio = hoteles_grupo[["nombre_hotel", "precio_noche"]]
df_estadisticos = hoteles_precio.groupby("nombre_hotel")["precio_noche"].describe() # es como pasarle una lista de funciones de agregacion con el agg
df_estadisticos["diferencia_media_mediana"] = df_estadisticos["mean"] - df_estadisticos["50%"]
df_estadisticos = df_estadisticos.reset_index()
df_estadisticos

Unnamed: 0,nombre_hotel,count,mean,std,min,25%,50%,75%,max,diferencia_media_mediana
0,Gran Hotel Madrid,515.0,264.967165,127.484497,50.27,155.855,260.08,371.355,498.59,4.887165
1,Hotel Brisas del Mar,532.0,275.225921,128.611561,50.43,158.2,283.895,379.66,499.73,-8.669079
2,Hotel Camino del Sol,514.0,269.998444,129.969971,51.09,158.74,271.295,385.0225,499.27,-1.296556
3,Hotel Costa Azul,513.0,284.282963,130.441142,50.21,171.05,281.76,398.53,499.74,2.522963
4,Hotel Encanto Real,508.0,278.243996,131.498543,51.83,163.65,274.61,394.865,497.65,3.633996
5,Hotel Jardines del Rey,501.0,272.402335,133.457176,51.99,161.29,265.12,389.95,499.63,7.282335
6,Hotel Las Estrellas,510.0,271.706353,128.303521,50.19,166.0875,264.745,380.4075,499.82,6.961353
7,Hotel Los Almendros,531.0,273.762976,128.410778,50.29,160.145,277.29,380.92,499.29,-3.527024
8,Hotel Luz de Madrid,535.0,269.935607,129.630207,50.96,156.74,267.19,384.3,499.67,2.745607
9,Hotel Maravilla Real,472.0,284.402119,130.653204,52.05,167.2,299.76,393.1225,499.7,-15.357881


Tras realizar los estadísticos podemos observar que no hay diferencias significativas entre la media y la mediana de cada hotel, por lo que, en principio, podríamos considerar que la media es un estadístico significativo de los datos, y podríamos usar esta medida de tendencia central para obtener un único precio por hotel.

Si observamos la desviación típica, vemos que los valores son por norma general elevados, considerando el caso en el que estamos. Observamos variaciones superiores a los 120 €, que en precios de habitaciones de hoteles se puede considerar como una diferencia elevada. 

Vamos a comprobar a continuación la existencia de outliers para ver si estos valores influyen en los estadísticos.

In [47]:
hoteles_grupo.columns

Index(['id_reserva', 'id_cliente', 'nombre', 'apellido', 'mail', 'competencia',
       'fecha_reserva', 'inicio_estancia', 'final_estancia', 'id_hotel',
       'precio_noche', 'nombre_hotel', 'estrellas', 'ciudad'],
      dtype='object')

In [48]:
lista_graficos = hoteles_grupo.columns[10:12]
lista_graficos

Index(['precio_noche', 'nombre_hotel'], dtype='object')

In [49]:
nombre_hoteles = hoteles_grupo["nombre_hotel"].unique()
nombre_hoteles

array(['Hotel Monte Verde', 'Hotel Brisas del Mar',
       'Hotel Camino del Sol', 'Hotel Puerta del Cielo',
       'Hotel Encanto Real', 'Palacio del Sol', 'Hotel Jardines del Rey',
       'Hotel Las Estrellas', 'Gran Hotel Madrid', 'Hotel Torre Dorada',
       'Hotel Palacio Imperial', 'Hotel Luz de Madrid',
       'Hotel Los Almendros', 'Hotel Sol y Luna', 'Hotel Mirador Real',
       'Hotel Rincón Sereno', 'Hotel Vista Alegre', 'Hotel Costa Azul',
       'Hotel Maravilla Real'], dtype=object)

In [50]:
def graficos_estadisticos(dataframe, lista_columnas, lista_hoteles):
    """
    Genera gráficos estadísticos (histograma y boxplot) para analizar la distribución de precios 
    de diferentes hoteles en un conjunto de datos.
    
    Args:
        dataframe (pd.DataFrame): DataFrame que contiene los datos de los hoteles.
        lista_columnas (list): Lista con los nombres de las columnas a utilizar. 
            - lista_columnas[0]: Nombre de la columna de precios.
            - lista_columnas[1]: Nombre de la columna de hoteles.
        lista_hoteles (list): Lista con los nombres de los hoteles que se desean analizar.
        
    Returns:
        None: La función muestra los gráficos pero no devuelve ningún valor.

    """
    for hotel in lista_hoteles:
        df = dataframe[dataframe[lista_columnas[1]] == hotel]

        fig, axes = plt.subplots(nrows = 1, ncols = 2, figsize = (20, 5))
        
        sns.histplot(df[lista_columnas[0]],
                    bins = 50,
                    kde = True,
                    ax = axes[0])

        sns.boxplot(data = df,
                    x = lista_columnas[1],
                    y = lista_columnas[0],
                    ax = axes[1])

        axes[0].set_title(f"Histograma de precios del {hotel}", fontsize = 10)
        axes[0].set_xlabel("Precios", fontsize = 10)
        axes[0].set_ylabel("Frecuencia", fontsize = 10)
        axes[0].spines['right'].set_visible(False)
        axes[0].spines['top'].set_visible(False)

        axes[1].set_title(f"Boxplot de precios del {hotel}", fontsize = 10)
        axes[1].set_ylabel("Precios", fontsize = 10)
        axes[1].spines['right'].set_visible(False)
        axes[1].spines['top'].set_visible(False)

        plt.show()

In [51]:
# graficos_estadisticos(hoteles_grupo, lista_graficos, nombre_hoteles)

Podemos observar en los gráficos que representan las distribuciones de precios por hotel mediante un histograma y un diagrama de caja, que no hay existencia de outliers. Usaremos la media para calcular el precio único de cada hotel.

In [52]:
precios_medios = df_estadisticos[["nombre_hotel", "mean"]]
precios_medios

Unnamed: 0,nombre_hotel,mean
0,Gran Hotel Madrid,264.967165
1,Hotel Brisas del Mar,275.225921
2,Hotel Camino del Sol,269.998444
3,Hotel Costa Azul,284.282963
4,Hotel Encanto Real,278.243996
5,Hotel Jardines del Rey,272.402335
6,Hotel Las Estrellas,271.706353
7,Hotel Los Almendros,273.762976
8,Hotel Luz de Madrid,269.935607
9,Hotel Maravilla Real,284.402119


### Estrellas

In [53]:
hoteles_estrellas = hoteles_grupo[["nombre_hotel", "estrellas"]]
df_estadisticos_estrellas = hoteles_estrellas.groupby("nombre_hotel")["estrellas"].describe() # es como pasarle una lista de funciones de agregacion con el agg
df_estadisticos_estrellas["diferencia_media_mediana"] = df_estadisticos_estrellas["mean"] - df_estadisticos["50%"]
df_estadisticos_estrellas = df_estadisticos_estrellas.reset_index()
df_estadisticos_estrellas

Unnamed: 0,nombre_hotel,count,mean,std,min,25%,50%,75%,max,diferencia_media_mediana
0,Gran Hotel Madrid,518.0,3.067568,1.407795,1.0,2.0,3.0,4.0,5.0,
1,Hotel Brisas del Mar,534.0,3.088015,1.457891,1.0,2.0,3.0,4.0,5.0,
2,Hotel Camino del Sol,518.0,3.067568,1.370196,1.0,2.0,3.0,4.0,5.0,
3,Hotel Costa Azul,515.0,3.118447,1.362201,1.0,2.0,3.0,4.0,5.0,
4,Hotel Encanto Real,511.0,3.031311,1.413866,1.0,2.0,3.0,4.0,5.0,
5,Hotel Jardines del Rey,502.0,2.936255,1.4,1.0,2.0,3.0,4.0,5.0,
6,Hotel Las Estrellas,514.0,2.906615,1.434412,1.0,2.0,3.0,4.0,5.0,
7,Hotel Los Almendros,533.0,3.011257,1.406171,1.0,2.0,3.0,4.0,5.0,
8,Hotel Luz de Madrid,536.0,3.052239,1.405289,1.0,2.0,3.0,4.0,5.0,
9,Hotel Maravilla Real,473.0,2.978858,1.437828,1.0,2.0,3.0,4.0,5.0,


In [54]:
estrellas_medias = df_estadisticos_estrellas[["nombre_hotel", "mean"]]
estrellas_medias["mean"] = pd.Series([round(val, 2) for val in estrellas_medias["mean"]])
estrellas_medias

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  estrellas_medias["mean"] = pd.Series([round(val, 2) for val in estrellas_medias["mean"]])


Unnamed: 0,nombre_hotel,mean
0,Gran Hotel Madrid,3.07
1,Hotel Brisas del Mar,3.09
2,Hotel Camino del Sol,3.07
3,Hotel Costa Azul,3.12
4,Hotel Encanto Real,3.03
5,Hotel Jardines del Rey,2.94
6,Hotel Las Estrellas,2.91
7,Hotel Los Almendros,3.01
8,Hotel Luz de Madrid,3.05
9,Hotel Maravilla Real,2.98


In [55]:
hoteles_grupo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9828 entries, 2 to 14999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   id_reserva       9828 non-null   object        
 1   id_cliente       9828 non-null   object        
 2   nombre           9828 non-null   object        
 3   apellido         9828 non-null   object        
 4   mail             9828 non-null   object        
 5   competencia      9828 non-null   bool          
 6   fecha_reserva    9828 non-null   datetime64[ns]
 7   inicio_estancia  9828 non-null   datetime64[ns]
 8   final_estancia   9828 non-null   datetime64[ns]
 9   id_hotel         9828 non-null   int64         
 10  precio_noche     9776 non-null   float64       
 11  nombre_hotel     9828 non-null   object        
 12  estrellas        9828 non-null   float64       
 13  ciudad           9828 non-null   object        
dtypes: bool(1), datetime64[ns](3), float64(2), i

In [56]:
hoteles_grupo_con_precio = hoteles_grupo.merge(precios_medios, on = "nombre_hotel")
hoteles_grupo_final = hoteles_grupo_con_precio.merge(estrellas_medias, on = "nombre_hotel")


In [57]:
hoteles_grupo_final

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,precio_noche,nombre_hotel,estrellas,ciudad,mean_x,mean_y
0,40c4cb55-d1f5-407b-832f-4756b8ff77b4,6ec4d7d2-e382-47cc-94f6-c647577d4035,Maite,Calatayud,maite.calatayud@example.com,False,2025-02-09,2025-03-01,2025-03-02,14,119.96,Hotel Monte Verde,1.0,Madrid,276.612381,3.10
1,f2ce8df5-7844-43e1-8c0f-97ce7a208f21,aed17fe8-eb18-4f69-bf08-df1afdc339c3,Tecla,Bonet,tecla.bonet@example.com,False,2025-02-08,2025-03-01,2025-03-02,38,211.53,Hotel Brisas del Mar,5.0,Madrid,275.225921,3.09
2,57d4515a-447d-4067-afcb-9bdcf4e4e915,710a2fbb-264f-426a-aa66-f8fffd146a2d,Amílcar,Andrés,amílcar.andrés@example.com,False,2025-02-02,2025-03-01,2025-03-02,35,378.37,Hotel Camino del Sol,1.0,Madrid,269.998444,3.07
3,ccbd9fe9-5a60-4f6f-bed3-73a7158ecba7,df42ae3d-0b9b-4c06-b22e-939323833ef8,Joan,Vazquez,joan.vazquez@example.com,False,2025-02-08,2025-03-01,2025-03-02,36,85.45,Hotel Puerta del Cielo,5.0,Madrid,280.151243,3.03
4,99c3dc4f-663c-45f7-849a-ac9313f3746a,a16a9d83-6888-4947-a7ab-ed41203e347c,Chelo,Flor,chelo.flor@example.com,False,2025-02-09,2025-03-01,2025-03-02,43,309.80,Hotel Encanto Real,1.0,Madrid,278.243996,3.03
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9823,277edc09-64da-4a99-b6e2-395491a5f1a7,87df00cd-331f-4dda-a12c-6cd4fed91504,Adoración,Cuadrado,adoración.cuadrado@example.com,False,2025-02-06,2025-03-01,2025-03-02,13,305.79,Hotel Jardines del Rey,1.0,Madrid,272.402335,2.94
9824,0b1676e5-12a9-48cd-944d-b3d09e1ddf08,02a9ffb9-9de2-4a80-8b14-e20e217af1a6,Edgardo,Sanchez,edgardo.sanchez@example.com,False,2025-02-06,2025-03-01,2025-03-02,15,381.16,Hotel Rincón Sereno,1.0,Madrid,277.318824,3.00
9825,58acd6f3-7160-4973-b951-b14188937444,de729428-ec23-4665-a5c9-79e3ec282470,Lorena,Román,lorena.román@example.com,False,2025-02-06,2025-03-01,2025-03-02,35,111.78,Hotel Jardines del Rey,1.0,Madrid,272.402335,2.94
9826,af0f6afa-e7d2-410a-8cdd-5eb62b1e4788,e89751f4-3621-4636-81d3-90e2baa709cb,Nadia,Verdugo,nadia.verdugo@example.com,False,2025-02-11,2025-03-01,2025-03-02,47,442.96,Hotel Brisas del Mar,5.0,Madrid,275.225921,3.09


In [58]:
hoteles_grupo_final = hoteles_grupo_final.drop(columns = ["precio_noche", "estrellas"])
hoteles_grupo_final = hoteles_grupo_final.rename(columns = {'mean_x': 'precio_noche', 'mean_y': 'estrellas'})
hoteles_grupo_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9828 entries, 0 to 9827
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   id_reserva       9828 non-null   object        
 1   id_cliente       9828 non-null   object        
 2   nombre           9828 non-null   object        
 3   apellido         9828 non-null   object        
 4   mail             9828 non-null   object        
 5   competencia      9828 non-null   bool          
 6   fecha_reserva    9828 non-null   datetime64[ns]
 7   inicio_estancia  9828 non-null   datetime64[ns]
 8   final_estancia   9828 non-null   datetime64[ns]
 9   id_hotel         9828 non-null   int64         
 10  nombre_hotel     9828 non-null   object        
 11  ciudad           9828 non-null   object        
 12  precio_noche     9828 non-null   float64       
 13  estrellas        9828 non-null   float64       
dtypes: bool(1), datetime64[ns](3), float64(2

In [59]:
hoteles_grupo_final

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,nombre_hotel,ciudad,precio_noche,estrellas
0,40c4cb55-d1f5-407b-832f-4756b8ff77b4,6ec4d7d2-e382-47cc-94f6-c647577d4035,Maite,Calatayud,maite.calatayud@example.com,False,2025-02-09,2025-03-01,2025-03-02,14,Hotel Monte Verde,Madrid,276.612381,3.10
1,f2ce8df5-7844-43e1-8c0f-97ce7a208f21,aed17fe8-eb18-4f69-bf08-df1afdc339c3,Tecla,Bonet,tecla.bonet@example.com,False,2025-02-08,2025-03-01,2025-03-02,38,Hotel Brisas del Mar,Madrid,275.225921,3.09
2,57d4515a-447d-4067-afcb-9bdcf4e4e915,710a2fbb-264f-426a-aa66-f8fffd146a2d,Amílcar,Andrés,amílcar.andrés@example.com,False,2025-02-02,2025-03-01,2025-03-02,35,Hotel Camino del Sol,Madrid,269.998444,3.07
3,ccbd9fe9-5a60-4f6f-bed3-73a7158ecba7,df42ae3d-0b9b-4c06-b22e-939323833ef8,Joan,Vazquez,joan.vazquez@example.com,False,2025-02-08,2025-03-01,2025-03-02,36,Hotel Puerta del Cielo,Madrid,280.151243,3.03
4,99c3dc4f-663c-45f7-849a-ac9313f3746a,a16a9d83-6888-4947-a7ab-ed41203e347c,Chelo,Flor,chelo.flor@example.com,False,2025-02-09,2025-03-01,2025-03-02,43,Hotel Encanto Real,Madrid,278.243996,3.03
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9823,277edc09-64da-4a99-b6e2-395491a5f1a7,87df00cd-331f-4dda-a12c-6cd4fed91504,Adoración,Cuadrado,adoración.cuadrado@example.com,False,2025-02-06,2025-03-01,2025-03-02,13,Hotel Jardines del Rey,Madrid,272.402335,2.94
9824,0b1676e5-12a9-48cd-944d-b3d09e1ddf08,02a9ffb9-9de2-4a80-8b14-e20e217af1a6,Edgardo,Sanchez,edgardo.sanchez@example.com,False,2025-02-06,2025-03-01,2025-03-02,15,Hotel Rincón Sereno,Madrid,277.318824,3.00
9825,58acd6f3-7160-4973-b951-b14188937444,de729428-ec23-4665-a5c9-79e3ec282470,Lorena,Román,lorena.román@example.com,False,2025-02-06,2025-03-01,2025-03-02,35,Hotel Jardines del Rey,Madrid,272.402335,2.94
9826,af0f6afa-e7d2-410a-8cdd-5eb62b1e4788,e89751f4-3621-4636-81d3-90e2baa709cb,Nadia,Verdugo,nadia.verdugo@example.com,False,2025-02-11,2025-03-01,2025-03-02,47,Hotel Brisas del Mar,Madrid,275.225921,3.09


## Union datos competencia

Una vez hemos scrapeado la información de los hoteles de la competencia, les vamos a asignar un indice a cada valor y añadiremos la información correspondiente.

In [60]:
hoteles_competencia_scrapeado = pd.read_csv("../data/hoteles_competencia.csv")
hoteles_competencia_scrapeado["id_hotel"] = hoteles_competencia["id_hotel"].unique()
hoteles_competencia_scrapeado

Unnamed: 0,nombre_hotel,estrellas,precio,fecha_reserva,id_hotel
0,ibis Styles Madrid Prado,4.7,161.0,2025-02-21,113
1,ibis budget Madrid Calle 30,4.4,110.0,2025-02-21,194
2,ibis Madrid Centro las Ventas,4.5,172.0,2025-02-21,131
3,ibis budget Madrid Centro las Ventas,4.3,119.0,2025-02-21,114
4,ibis budget Madrid Vallecas,4.3,102.0,2025-02-21,103
5,ibis Madrid Aeropuerto Barajas,4.4,116.0,2025-02-21,181
6,ibis Madrid Alcorcon Tresaguas,4.4,90.0,2025-02-21,128
7,ibis budget Madrid Aeropuerto,4.0,88.0,2025-02-21,186
8,ibis Madrid Alcobendas,4.4,85.0,2025-02-21,135
9,ibis budget Madrid Alcorcon Móstoles,4.5,77.0,2025-02-21,117


from src.soporte_limpieza import "nombre_funcion", crear un .env el cual contiene las variabels de entorno 

In [61]:
info_df(hoteles_competencia)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
id_reserva,object,5172,0,0.0
id_cliente,object,5172,0,0.0
nombre,object,5172,0,0.0
apellido,object,5172,0,0.0
mail,object,5172,0,0.0
competencia,bool,5172,0,0.0
fecha_reserva,datetime64[ns],0,5172,100.0
inicio_estancia,datetime64[ns],5172,0,0.0
final_estancia,datetime64[ns],5172,0,0.0
id_hotel,int64,5172,0,0.0


In [62]:
hoteles_competencia.columns

Index(['id_reserva', 'id_cliente', 'nombre', 'apellido', 'mail', 'competencia',
       'fecha_reserva', 'inicio_estancia', 'final_estancia', 'id_hotel',
       'precio_noche', 'nombre_hotel', 'estrellas', 'ciudad'],
      dtype='object')

In [63]:
hoteles_competencia_final = hoteles_competencia.merge(hoteles_competencia_scrapeado, on = "id_hotel")
hoteles_competencia_final = hoteles_competencia_final.drop(columns = ["fecha_reserva_x", "precio_noche", "nombre_hotel_x", "estrellas_x"])
hoteles_competencia_final["ciudad"] = "Madrid"
hoteles_competencia_final = hoteles_competencia_final.rename(columns = {'fecha_reserva_y': 'fecha_reserva', 'nombre_hotel_y': 'nombre_hotel', 'estrellas_y': 'estrellas', 'precio': 'precio_noche'})
hoteles_competencia_final = hoteles_competencia_final.reindex(['id_reserva', 'id_cliente', 'nombre', 'apellido', 'mail', 'competencia',
       'fecha_reserva', 'inicio_estancia', 'final_estancia', 'id_hotel',
       'nombre_hotel', 'estrellas', 'ciudad', 'precio_noche'], axis = 1)
info_df(hoteles_competencia_final)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
id_reserva,object,5172,0,0.0
id_cliente,object,5172,0,0.0
nombre,object,5172,0,0.0
apellido,object,5172,0,0.0
mail,object,5172,0,0.0
competencia,bool,5172,0,0.0
fecha_reserva,object,5172,0,0.0
inicio_estancia,datetime64[ns],5172,0,0.0
final_estancia,datetime64[ns],5172,0,0.0
id_hotel,int64,5172,0,0.0


In [64]:
hoteles_competencia_final.head(2)

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,nombre_hotel,estrellas,ciudad,precio_noche
0,5256cc90-139b-43d2-8ec5-412495d751cf,346f2a77-33f4-4b2d-82f3-e8501e21b28d,Feliciana,Cantón,feliciana.cantón@example.com,True,2025-02-21,2025-03-01,2025-03-02,113,ibis Styles Madrid Prado,4.7,Madrid,161.0
1,84fd6209-bd8d-4a92-bfe6-c68ee2c49271,346f2a77-33f4-4b2d-82f3-e8501e21b28d,Leonardo,Hierro,leonardo.hierro@example.com,True,2025-02-21,2025-03-01,2025-03-02,194,ibis budget Madrid Calle 30,4.4,Madrid,110.0


## Unión full dataframe


In [65]:
hoteles_grupo_final.columns

Index(['id_reserva', 'id_cliente', 'nombre', 'apellido', 'mail', 'competencia',
       'fecha_reserva', 'inicio_estancia', 'final_estancia', 'id_hotel',
       'nombre_hotel', 'ciudad', 'precio_noche', 'estrellas'],
      dtype='object')

In [66]:
info_df(hoteles_grupo_final)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
id_reserva,object,9828,0,0.0
id_cliente,object,9828,0,0.0
nombre,object,9828,0,0.0
apellido,object,9828,0,0.0
mail,object,9828,0,0.0
competencia,bool,9828,0,0.0
fecha_reserva,datetime64[ns],9828,0,0.0
inicio_estancia,datetime64[ns],9828,0,0.0
final_estancia,datetime64[ns],9828,0,0.0
id_hotel,int64,9828,0,0.0


In [67]:
hoteles_competencia_final.columns

Index(['id_reserva', 'id_cliente', 'nombre', 'apellido', 'mail', 'competencia',
       'fecha_reserva', 'inicio_estancia', 'final_estancia', 'id_hotel',
       'nombre_hotel', 'estrellas', 'ciudad', 'precio_noche'],
      dtype='object')

In [68]:
info_df(hoteles_competencia_final)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
id_reserva,object,5172,0,0.0
id_cliente,object,5172,0,0.0
nombre,object,5172,0,0.0
apellido,object,5172,0,0.0
mail,object,5172,0,0.0
competencia,bool,5172,0,0.0
fecha_reserva,object,5172,0,0.0
inicio_estancia,datetime64[ns],5172,0,0.0
final_estancia,datetime64[ns],5172,0,0.0
id_hotel,int64,5172,0,0.0


In [69]:
data_final = pd.concat([hoteles_grupo_final, hoteles_competencia_final], axis = 0)
data_final["fecha_reserva"] = pd.to_datetime(data_final["fecha_reserva"])

In [70]:
info_df(data_final)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
id_reserva,object,15000,0,0.0
id_cliente,object,15000,0,0.0
nombre,object,15000,0,0.0
apellido,object,15000,0,0.0
mail,object,15000,0,0.0
competencia,bool,15000,0,0.0
fecha_reserva,datetime64[ns],15000,0,0.0
inicio_estancia,datetime64[ns],15000,0,0.0
final_estancia,datetime64[ns],15000,0,0.0
id_hotel,int64,15000,0,0.0


In [71]:
data_final.duplicated().sum()

np.int64(0)

# Modificación de los id de cliente
Como hemos observado, tenemos valores duplicados en los id de cliente, haciendo referencia a los siguientes errores: 
- Clientes con diferente nombre y mismo id
- Clientes con igual nombre pero diferente id

A continuación modificaremos los id de cliente en función del correo, que es el identificador único de cada cliente en este caso, tras el id. 

In [72]:
# Vamos a revisar los valores únicos en la columna de id de cliente
data_final["id_cliente"].unique()

array(['6ec4d7d2-e382-47cc-94f6-c647577d4035',
       'aed17fe8-eb18-4f69-bf08-df1afdc339c3',
       '710a2fbb-264f-426a-aa66-f8fffd146a2d', ...,
       'fc8320ad-ce4d-4d23-bacd-347b2a2ac24c',
       '8469b819-d96a-4904-9cdd-710764f6301f',
       'c4117358-fd89-44cd-b388-4ec6d3538c72'],
      shape=(14847,), dtype=object)

In [73]:
# Creamos una función que nos permite realizar el cambio del id de cliente, creando uno nuevo que será seriado, y de tipo string
def cambio_id(dataframe, lista_columnas, nombre_columna_nueva):
    
    lista = dataframe[lista_columnas[0]].unique()
    diccionario = {}
    conteo = 1
    for elemento in lista:
        
        diccionario[elemento] = conteo
        conteo += 1

    dataframe[nombre_columna_nueva] = dataframe[lista_columnas[0]].map(diccionario).astype(str)
    return dataframe

In [74]:
# Aplicamos la función y comprobamos que se ha realizado el cambio correctamente
columnas = ["mail", "id_cliente"]
cambio_id(data_final, columnas, "id_cliente_nuevo")

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,nombre_hotel,ciudad,precio_noche,estrellas,id_cliente_nuevo
0,40c4cb55-d1f5-407b-832f-4756b8ff77b4,6ec4d7d2-e382-47cc-94f6-c647577d4035,Maite,Calatayud,maite.calatayud@example.com,False,2025-02-09,2025-03-01,2025-03-02,14,Hotel Monte Verde,Madrid,276.612381,3.10,1
1,f2ce8df5-7844-43e1-8c0f-97ce7a208f21,aed17fe8-eb18-4f69-bf08-df1afdc339c3,Tecla,Bonet,tecla.bonet@example.com,False,2025-02-08,2025-03-01,2025-03-02,38,Hotel Brisas del Mar,Madrid,275.225921,3.09,2
2,57d4515a-447d-4067-afcb-9bdcf4e4e915,710a2fbb-264f-426a-aa66-f8fffd146a2d,Amílcar,Andrés,amílcar.andrés@example.com,False,2025-02-02,2025-03-01,2025-03-02,35,Hotel Camino del Sol,Madrid,269.998444,3.07,3
3,ccbd9fe9-5a60-4f6f-bed3-73a7158ecba7,df42ae3d-0b9b-4c06-b22e-939323833ef8,Joan,Vazquez,joan.vazquez@example.com,False,2025-02-08,2025-03-01,2025-03-02,36,Hotel Puerta del Cielo,Madrid,280.151243,3.03,4
4,99c3dc4f-663c-45f7-849a-ac9313f3746a,a16a9d83-6888-4947-a7ab-ed41203e347c,Chelo,Flor,chelo.flor@example.com,False,2025-02-09,2025-03-01,2025-03-02,43,Hotel Encanto Real,Madrid,278.243996,3.03,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5167,e856adee-838c-4031-920c-05ec5f1e32e6,7d248367-3444-4bfd-97b3-c56892fa7d97,Jesusa,Espinosa,jesusa.espinosa@example.com,True,2025-02-21,2025-03-01,2025-03-02,135,ibis Madrid Alcobendas,Madrid,85.000000,4.40,14901
5168,77134049-6e4f-49b0-a6f8-93b7466b1c22,524c7818-3167-4dc6-bbe3-a75bbc32feaf,Cruz,Hurtado,cruz.hurtado@example.com,True,2025-02-21,2025-03-01,2025-03-02,128,ibis Madrid Alcorcon Tresaguas,Madrid,90.000000,4.40,14902
5169,19aef6f3-3e85-4719-9dff-b768d9bfe5a9,fc8320ad-ce4d-4d23-bacd-347b2a2ac24c,Jose Francisco,Cortes,jose francisco.cortes@example.com,True,2025-02-21,2025-03-01,2025-03-02,186,ibis budget Madrid Aeropuerto,Madrid,88.000000,4.00,14903
5170,aa092c3e-7fe6-4985-a5a8-cacd38554b1b,8469b819-d96a-4904-9cdd-710764f6301f,Toño,Narváez,toño.narváez@example.com,True,2025-02-21,2025-03-01,2025-03-02,114,ibis budget Madrid Centro las Ventas,Madrid,119.000000,4.30,14904


In [75]:
data_final["id_cliente"].unique()

array(['6ec4d7d2-e382-47cc-94f6-c647577d4035',
       'aed17fe8-eb18-4f69-bf08-df1afdc339c3',
       '710a2fbb-264f-426a-aa66-f8fffd146a2d', ...,
       'fc8320ad-ce4d-4d23-bacd-347b2a2ac24c',
       '8469b819-d96a-4904-9cdd-710764f6301f',
       'c4117358-fd89-44cd-b388-4ec6d3538c72'],
      shape=(14847,), dtype=object)

In [76]:
data_final["mail"].duplicated().sum()

np.int64(95)

In [77]:
data_final["id_cliente"].duplicated().sum()

np.int64(153)

In [78]:
data_final["id_reserva"].duplicated().sum()

np.int64(0)

# Modificación de los id de hotel
Como los id de hotel de los hoteles que pertenecen al grupo están repetidos, vamos a crear nuevos id asignados a cada hotel. 

In [79]:
lista_hoteles = data_final["nombre_hotel"].unique()
lista_hoteles

array(['Hotel Monte Verde', 'Hotel Brisas del Mar',
       'Hotel Camino del Sol', 'Hotel Puerta del Cielo',
       'Hotel Encanto Real', 'Palacio del Sol', 'Hotel Jardines del Rey',
       'Hotel Las Estrellas', 'Gran Hotel Madrid', 'Hotel Torre Dorada',
       'Hotel Palacio Imperial', 'Hotel Luz de Madrid',
       'Hotel Los Almendros', 'Hotel Sol y Luna', 'Hotel Mirador Real',
       'Hotel Rincón Sereno', 'Hotel Vista Alegre', 'Hotel Costa Azul',
       'Hotel Maravilla Real', 'ibis Styles Madrid Prado',
       'ibis budget Madrid Calle 30', 'ibis Madrid Centro las Ventas',
       'ibis budget Madrid Centro las Ventas',
       'ibis budget Madrid Vallecas', 'ibis Madrid Aeropuerto Barajas',
       'ibis Madrid Alcorcon Tresaguas', 'ibis budget Madrid Aeropuerto',
       'ibis Madrid Alcobendas', 'ibis budget Madrid Alcorcon Móstoles'],
      dtype=object)

In [80]:
columnas_modif = ["nombre_hotel", "id_hotel"]
cambio_id(data_final, columnas_modif, "id_hotel_nuevo")

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,nombre_hotel,ciudad,precio_noche,estrellas,id_cliente_nuevo,id_hotel_nuevo
0,40c4cb55-d1f5-407b-832f-4756b8ff77b4,6ec4d7d2-e382-47cc-94f6-c647577d4035,Maite,Calatayud,maite.calatayud@example.com,False,2025-02-09,2025-03-01,2025-03-02,14,Hotel Monte Verde,Madrid,276.612381,3.10,1,1
1,f2ce8df5-7844-43e1-8c0f-97ce7a208f21,aed17fe8-eb18-4f69-bf08-df1afdc339c3,Tecla,Bonet,tecla.bonet@example.com,False,2025-02-08,2025-03-01,2025-03-02,38,Hotel Brisas del Mar,Madrid,275.225921,3.09,2,2
2,57d4515a-447d-4067-afcb-9bdcf4e4e915,710a2fbb-264f-426a-aa66-f8fffd146a2d,Amílcar,Andrés,amílcar.andrés@example.com,False,2025-02-02,2025-03-01,2025-03-02,35,Hotel Camino del Sol,Madrid,269.998444,3.07,3,3
3,ccbd9fe9-5a60-4f6f-bed3-73a7158ecba7,df42ae3d-0b9b-4c06-b22e-939323833ef8,Joan,Vazquez,joan.vazquez@example.com,False,2025-02-08,2025-03-01,2025-03-02,36,Hotel Puerta del Cielo,Madrid,280.151243,3.03,4,4
4,99c3dc4f-663c-45f7-849a-ac9313f3746a,a16a9d83-6888-4947-a7ab-ed41203e347c,Chelo,Flor,chelo.flor@example.com,False,2025-02-09,2025-03-01,2025-03-02,43,Hotel Encanto Real,Madrid,278.243996,3.03,5,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5167,e856adee-838c-4031-920c-05ec5f1e32e6,7d248367-3444-4bfd-97b3-c56892fa7d97,Jesusa,Espinosa,jesusa.espinosa@example.com,True,2025-02-21,2025-03-01,2025-03-02,135,ibis Madrid Alcobendas,Madrid,85.000000,4.40,14901,28
5168,77134049-6e4f-49b0-a6f8-93b7466b1c22,524c7818-3167-4dc6-bbe3-a75bbc32feaf,Cruz,Hurtado,cruz.hurtado@example.com,True,2025-02-21,2025-03-01,2025-03-02,128,ibis Madrid Alcorcon Tresaguas,Madrid,90.000000,4.40,14902,26
5169,19aef6f3-3e85-4719-9dff-b768d9bfe5a9,fc8320ad-ce4d-4d23-bacd-347b2a2ac24c,Jose Francisco,Cortes,jose francisco.cortes@example.com,True,2025-02-21,2025-03-01,2025-03-02,186,ibis budget Madrid Aeropuerto,Madrid,88.000000,4.00,14903,27
5170,aa092c3e-7fe6-4985-a5a8-cacd38554b1b,8469b819-d96a-4904-9cdd-710764f6301f,Toño,Narváez,toño.narváez@example.com,True,2025-02-21,2025-03-01,2025-03-02,114,ibis budget Madrid Centro las Ventas,Madrid,119.000000,4.30,14904,23


In [81]:
data_final.columns

Index(['id_reserva', 'id_cliente', 'nombre', 'apellido', 'mail', 'competencia',
       'fecha_reserva', 'inicio_estancia', 'final_estancia', 'id_hotel',
       'nombre_hotel', 'ciudad', 'precio_noche', 'estrellas',
       'id_cliente_nuevo', 'id_hotel_nuevo'],
      dtype='object')

In [82]:
data_final["id_hotel"].unique()

array([ 14,  38,  35,  36,  43,   6,   3,  29,  47,  27,  13,  28,  40,
         2,  48,  15,  33,  49,  19, 113, 194, 131, 114, 103, 181, 128,
       186, 135, 117])

In [83]:
len(data_final["id_cliente"].unique())

14847

In [84]:
len(data_final["mail"].unique())

14905

In [85]:
data_final["id_hotel"] = data_final["id_hotel_nuevo"]
data_final["id_cliente"] = data_final["id_cliente_nuevo"]
data_final = data_final.drop(columns = ["id_hotel_nuevo", "id_cliente_nuevo"])



In [86]:
data_final["id_hotel"] = data_final["id_hotel"].astype(str)

In [87]:
data_final["estrellas"]

0       3.10
1       3.09
2       3.07
3       3.03
4       3.03
        ... 
5167    4.40
5168    4.40
5169    4.00
5170    4.30
5171    4.40
Name: estrellas, Length: 15000, dtype: float64

In [88]:
data_final.info()

<class 'pandas.core.frame.DataFrame'>
Index: 15000 entries, 0 to 5171
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   id_reserva       15000 non-null  object        
 1   id_cliente       15000 non-null  object        
 2   nombre           15000 non-null  object        
 3   apellido         15000 non-null  object        
 4   mail             15000 non-null  object        
 5   competencia      15000 non-null  bool          
 6   fecha_reserva    15000 non-null  datetime64[ns]
 7   inicio_estancia  15000 non-null  datetime64[ns]
 8   final_estancia   15000 non-null  datetime64[ns]
 9   id_hotel         15000 non-null  object        
 10  nombre_hotel     15000 non-null  object        
 11  ciudad           15000 non-null  object        
 12  precio_noche     15000 non-null  float64       
 13  estrellas        15000 non-null  float64       
dtypes: bool(1), datetime64[ns](3), float64(2), o

In [89]:
data_final["id_reserva"].duplicated().sum()

np.int64(0)

In [90]:
data_final["id_cliente"].duplicated().sum()

np.int64(95)

In [91]:
data_final.to_csv("../data/reservas_hoteles_limpio.csv", index = False)


In [92]:
cosos = pd.read_csv("../data/reservas_hoteles_limpio.csv", parse_dates=['fecha_reserva', 'inicio_estancia', 'final_estancia'])
cosos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   id_reserva       15000 non-null  object        
 1   id_cliente       15000 non-null  int64         
 2   nombre           15000 non-null  object        
 3   apellido         15000 non-null  object        
 4   mail             15000 non-null  object        
 5   competencia      15000 non-null  bool          
 6   fecha_reserva    15000 non-null  datetime64[ns]
 7   inicio_estancia  15000 non-null  datetime64[ns]
 8   final_estancia   15000 non-null  datetime64[ns]
 9   id_hotel         15000 non-null  int64         
 10  nombre_hotel     15000 non-null  object        
 11  ciudad           15000 non-null  object        
 12  precio_noche     15000 non-null  float64       
 13  estrellas        15000 non-null  float64       
dtypes: bool(1), datetime64[ns](3), float64

In [97]:
b = cosos[["nombre_hotel", "estrellas"]]
b.drop_duplicates()

Unnamed: 0,nombre_hotel,estrellas
0,Hotel Monte Verde,3.1
1,Hotel Brisas del Mar,3.09
2,Hotel Camino del Sol,3.07
3,Hotel Puerta del Cielo,3.03
4,Hotel Encanto Real,3.03
5,Palacio del Sol,2.99
6,Hotel Jardines del Rey,2.94
7,Hotel Las Estrellas,2.91
8,Gran Hotel Madrid,3.07
9,Hotel Torre Dorada,2.92


In [93]:
cosos

Unnamed: 0,id_reserva,id_cliente,nombre,apellido,mail,competencia,fecha_reserva,inicio_estancia,final_estancia,id_hotel,nombre_hotel,ciudad,precio_noche,estrellas
0,40c4cb55-d1f5-407b-832f-4756b8ff77b4,1,Maite,Calatayud,maite.calatayud@example.com,False,2025-02-09,2025-03-01,2025-03-02,1,Hotel Monte Verde,Madrid,276.612381,3.10
1,f2ce8df5-7844-43e1-8c0f-97ce7a208f21,2,Tecla,Bonet,tecla.bonet@example.com,False,2025-02-08,2025-03-01,2025-03-02,2,Hotel Brisas del Mar,Madrid,275.225921,3.09
2,57d4515a-447d-4067-afcb-9bdcf4e4e915,3,Amílcar,Andrés,amílcar.andrés@example.com,False,2025-02-02,2025-03-01,2025-03-02,3,Hotel Camino del Sol,Madrid,269.998444,3.07
3,ccbd9fe9-5a60-4f6f-bed3-73a7158ecba7,4,Joan,Vazquez,joan.vazquez@example.com,False,2025-02-08,2025-03-01,2025-03-02,4,Hotel Puerta del Cielo,Madrid,280.151243,3.03
4,99c3dc4f-663c-45f7-849a-ac9313f3746a,5,Chelo,Flor,chelo.flor@example.com,False,2025-02-09,2025-03-01,2025-03-02,5,Hotel Encanto Real,Madrid,278.243996,3.03
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14995,e856adee-838c-4031-920c-05ec5f1e32e6,14901,Jesusa,Espinosa,jesusa.espinosa@example.com,True,2025-02-21,2025-03-01,2025-03-02,28,ibis Madrid Alcobendas,Madrid,85.000000,4.40
14996,77134049-6e4f-49b0-a6f8-93b7466b1c22,14902,Cruz,Hurtado,cruz.hurtado@example.com,True,2025-02-21,2025-03-01,2025-03-02,26,ibis Madrid Alcorcon Tresaguas,Madrid,90.000000,4.40
14997,19aef6f3-3e85-4719-9dff-b768d9bfe5a9,14903,Jose Francisco,Cortes,jose francisco.cortes@example.com,True,2025-02-21,2025-03-01,2025-03-02,27,ibis budget Madrid Aeropuerto,Madrid,88.000000,4.00
14998,aa092c3e-7fe6-4985-a5a8-cacd38554b1b,14904,Toño,Narváez,toño.narváez@example.com,True,2025-02-21,2025-03-01,2025-03-02,23,ibis budget Madrid Centro las Ventas,Madrid,119.000000,4.30


In [94]:
# Creamos la función de limpieza
def limpieza_inicial(cosa):

    cosa = cosa.drop_duplicates() # eliminamos los duplicados iguales en el dataframe
    if cosa.duplicated().sum() == 0: # comprobamos que se han eliminado correctamente
        print("todo en orden")

    
    cosa = data_fechas(cosa, ["fecha_reserva", "inicio_estancia", "final_estancia"]) # modificamos las columnas que queremos a tipo fecha
    
    # Realizamos la modificación de los valores nulos de las columnas reemplazándolas por los valores de las fechas del fin de semana correspondientes
    cosa["inicio_estancia"] = cosa["inicio_estancia"].fillna("2025-03-01")
    cosa["final_estancia"] = cosa["final_estancia"].fillna("2025-03-02")

    # Creamos un dataframe para los hoteles del grupo y otro para los de la competencia
    grupo = cosa[cosa["competencia"] == False]
    competencia =  cosa[cosa["competencia"] == True]

    # Calculamos los precios medios de los hoteles del grupo y creamos un dataframe con toda la info del grupo de forma correcta
    precios_grupo = grupo[["nombre_hotel", "precio_noche"]]
    estadisticos = precios_grupo.groupby("nombre_hotel")["precio_noche"].describe() # es como pasarle una lista de funciones de agregacion con el agg
    estadisticos["diferencia_media_mediana"] = estadisticos["mean"] - estadisticos["50%"]
    estadisticos = estadisticos.reset_index()
    precios_medios_grupo = estadisticos[["nombre_hotel", "mean"]]

    grupo_final = grupo.merge(precios_medios_grupo, on = "nombre_hotel")
    grupo_final = grupo_final.drop(columns = ["precio_noche"])
    grupo_final = grupo_final.rename(columns = {'mean': 'precio_noche'})

    # Asignamos un id de competencia a los hoteles scrapeados
    competencia_scrapeado = pd.read_csv("../data/hoteles_competencia.csv")
    competencia_scrapeado["id_hotel"] = competencia["id_hotel"].unique()

    # Unimos los datos scrapeados con los de la competencia original
    competencia_final = competencia.merge(competencia_scrapeado, on = "id_hotel")
    competencia_final = competencia_final.drop(columns = ["fecha_reserva_x", "precio_noche", "nombre_hotel_x", "estrellas_x"])
    competencia_final["ciudad"] = "Madrid"
    competencia_final = competencia_final.rename(columns = {'fecha_reserva_y': 'fecha_reserva', 'nombre_hotel_y': 'nombre_hotel', 'estrellas_y': 'estrellas','precio': 'precio_noche'})
    competencia_final = competencia_final.reindex(['id_reserva', 'id_cliente', 'nombre', 'apellido', 'mail', 'competencia',
       'fecha_reserva', 'inicio_estancia', 'final_estancia', 'id_hotel',
       'nombre_hotel', 'estrellas', 'ciudad', 'precio_noche'], axis = 1)
    
    # Concatenamos ambos dataframes uno encima de otro
    cosa_final = pd.concat([grupo_final, competencia_final], axis = 0)
    cosa_final["fecha_reserva"] = pd.to_datetime(cosa_final["fecha_reserva"])
    cosa_final["id_hotel"] = cosa_final["id_hotel"].astype(str)
    cosa_final["id_cliente"] = str(data_final["id_cliente"])

    cosa_final.to_csv("../data/reservas_hoteles_limpio.csv", index = False)