In [7]:
# pip install psycopg2
# !pip install SQLAlchemy

In [8]:
import pandas as pd
import psycopg2 
from psycopg2 import sql
from sqlalchemy import create_engine, text
import sqlalchemy 


In [9]:
engine = create_engine("postgresql+psycopg2://postgres:admin@localhost:5432/Proyecto_ETL")
conn_alchemy = engine.connect()

In [10]:
def carga_bbdd(dataframe, tabla, id):
    
    resultado_query = "Todos los valores ya existían en la BBDD"

    try:
        df_valores_existentes = pd.read_sql(f"SELECT {id} FROM {tabla}", con=engine)
    except Exception as e:
        resultado_query = f"No se ha podido acceder a los registros de la BBDD:\n {e}"
        return resultado_query

    df_valores_nuevos = dataframe[dataframe[id].isin(df_valores_existentes[id]) == False]

    if not df_valores_nuevos.empty:
        df_valores_nuevos.to_sql(tabla, con=engine, if_exists="append", index=False)
        resultado_query = f"{df_valores_nuevos.shape[0]} valores nuevos insertados en la tabla {tabla}"
    
    return resultado_query

In [11]:
def reset_bbdd(engine):
    lista_queries = [
        "DELETE FROM eventos;",
        "DELETE FROM ciudad;",
        "DELETE FROM hoteles;",
        "DELETE FROM reservas;",
        "DELETE FROM clientes;",
        "ALTER SEQUENCE eventos_id_evento_seq RESTART WITH 1;",
        "ALTER SEQUENCE ciudad_id_ciudad_seq RESTART WITH 1;",
        "ALTER SEQUENCE hoteles_id_hotel_seq RESTART WITH 1;"
    ]

    try:
        for query in lista_queries:
            conn_alchemy.execute(text(query))

        conn_alchemy.commit()
        print("Base de datos reseteada correctamente.")

    except Exception as e:

        print(f"Error al resetear la base de datos:\n {e}")


In [12]:
# reset_bbdd(engine)

# CREAR DATAFRAMES DE LAS TABLAS

In [13]:
df_hoteles = pd.read_pickle("../data/final/hoteles_final.pkl")
df_eventos = pd.read_pickle("../data/api/eventos_madrid.pkl")

### 1. TABLA CIUDAD

In [14]:
lista_ciudad = ["Madrid"]
df_ciudad = pd.DataFrame(lista_ciudad, columns = ["nombre_ciudad"])

df_ciudad.to_sql("ciudad", con=engine, if_exists="append", index=False)

1

### 2. TABLA EVENTOS

In [15]:
df_tabla_eventos = df_eventos[["nombre_evento", "url_evento", "codigo_postal", "direccion", "horario", "fecha_inicio", "fecha_fin", "organizacion", "id_ciudad" ]]

resultado_carga_tabla_eventos = carga_bbdd(df_tabla_eventos, "eventos", "nombre_evento") 
print(resultado_carga_tabla_eventos)

211 valores nuevos insertados en la tabla eventos


### 3. TABLA HOTELES

In [16]:
df_tabla_hoteles = (df_hoteles[["nombre_hotel", "competencia", "valoracion", "id_ciudad"]].drop_duplicates(subset=["nombre_hotel"]))


resultado_carga_tabla_hoteles = carga_bbdd(df_tabla_hoteles, "hoteles", "nombre_hotel") # Verifico por nombre porque id_hotel es serial en la BBDD
print(resultado_carga_tabla_hoteles)

29 valores nuevos insertados en la tabla hoteles


### 4. TABLA CLIENTES

In [17]:
df_tabla_clientes = df_hoteles[["id_cliente", "nombre", "apellido", "mail"]].drop_duplicates(subset="id_cliente")
resultado_carga_tabla_clientes = carga_bbdd(df_tabla_clientes, "clientes", "id_cliente") 
print(resultado_carga_tabla_clientes)

14905 valores nuevos insertados en la tabla clientes


### 5. TABLA RESERVAS

In [None]:
df_tabla_reservas = df_hoteles[["id_reserva", "fecha_reserva", "inicio_estancia", "final_estancia", "precio_noche","id_cliente", "id_hotel"]]
df_tabla_reservas['nombre_hotel'] = df_tabla_reservas.groupby('id_hotel').ngroup() + 1
resultado_carga_tabla_reservas = carga_bbdd(df_tabla_reservas, "reservas", "id_reserva") 
print(resultado_carga_tabla_reservas)

15000 valores nuevos insertados en la tabla reservas


In [21]:
conn_alchemy.close()