In [1]:
# pip install psycopg2
# !pip install SQLAlchemy

In [2]:
import pandas as pd
import psycopg2 
from psycopg2 import sql
from sqlalchemy import create_engine, text
import sqlalchemy 
from sqlalchemy.orm import sessionmaker
from sqlalchemy import select
from sqlalchemy.sql import table, column


In [3]:
engine = create_engine("postgresql+psycopg2://postgres:admin@localhost:5432/Proyecto_ETL") # Conexión a la BBDD

Session = sessionmaker(bind=engine) # crea una sesión para interactuar con la BBDD y la vincula al motor de la misma (engine) para saber a qué BBDD conectarse.
session = Session() # Inicia una sesión para hacer CRUD

In [None]:
def insertar_registros(dataframe, tabla, id, columnas):

    try:

        tabla_alchemy = table(tabla, column(id)) # Crea un objeto table y le pasamos las columnas a las que queremos acceder después 
        query_alchemy_existentes = select(tabla_alchemy.c[id]) # Creamos la consulta SELECT accediendo a la columna id que hemos definido antes
        df_valores_existentes = pd.read_sql(query_alchemy_existentes, con=engine)   # Ejecutamos la consulta

        # query_existentes = text(f"SELECT :{id} FROM :{tabla}") 
        # df_valores_existentes = pd.read_sql(query_existentes, con=engine) 
            
    except Exception as e:
        print(f"No se ha podido acceder a los registros de la BBDD:\n {e}")

    df_valores_nuevos = dataframe[dataframe[id].isin(df_valores_existentes[id]) == False]
    # Los valores nuevos será el resultado de los valores del dataframe que le pasamos que no esten en df_valores_existentes

    if df_valores_nuevos.empty:
        print("Todos los valores ya existían en la BBDD")

    else:

        if len(columnas) == 1:
            cols = columnas[0]
            values = ":"+ columnas[0]
        else:
            cols = ", ".join(columnas)
            values = ", :".join(columnas)
            values = ":" + values
        
        try:
            data_to_insert = dataframe[columnas].drop_duplicates(subset=[id]).to_dict(orient="records") 
            # Usamos orient=record para crear una lista de diccionarios donde cada elemento de la lista es registro completo con los valores de las 4 columnas de la tabla (Hay tantos elementos como registros a insertar: 29)
            # En vez de agrupar todos los valores en cada categoría en un diccionario de diccionarios donde cada diccionario interno contiene los valores de cada columna por seprarado (Hay tantos diccionarios como columnas en la BBDD: 4)
            # Es decir, agrupamos por registros en vez de por columnas

            insert_query = text(f"""
                INSERT INTO {tabla} ({cols})
                VALUES ({values})
            """)

            session.execute(insert_query, data_to_insert)
            session.commit()

            resultado_query = f"{df_valores_nuevos.shape[0]} valores nuevos insertados en la tabla {tabla}"

        except Exception as e:
            
            session.rollback()
            resultado_query = f"Error al insertar hoteles: {e}"

    return resultado_query


In [8]:
def reset_bbdd():
    lista_queries = [
        "DELETE FROM eventos;",
        "DELETE FROM ciudad;",
        "DELETE FROM hoteles;",
        "DELETE FROM reservas;",
        "DELETE FROM clientes;",
        "ALTER SEQUENCE eventos_id_evento_seq RESTART WITH 1;",
        "ALTER SEQUENCE ciudad_id_ciudad_seq RESTART WITH 1;",
        "ALTER SEQUENCE hoteles_id_hotel_seq RESTART WITH 1;"
    ]

    try:
        for query in lista_queries:
            session.execute(text(query))

        session.commit()
        print("Base de datos reseteada correctamente.")

    except Exception as e:
        session.rollback()
        print(f"Error al resetear la base de datos:\n {e}")
    
    finally:
        session.close()


In [9]:
reset_bbdd()

Base de datos reseteada correctamente.


# CREAR DATAFRAMES DE LAS TABLAS

In [10]:
df_hoteles = pd.read_pickle("../data/final/hoteles_final.pkl")
df_eventos = pd.read_pickle("../data/api/eventos_madrid.pkl")

### 1. TABLA CIUDAD

In [None]:
df_ciudad = pd.DataFrame(["Madrid"], columns = ["nombre_ciudad"])

insertar_registros(df_ciudad, "ciudad", "nombre_ciudad", ["nombre_ciudad"])

'1 valores nuevos insertados en la tabla ciudad'

### 2. TABLA EVENTOS

In [13]:
cols_eventos = ["nombre_evento", "url_evento", "codigo_postal", "direccion", "horario", "fecha_inicio", "fecha_fin", "organizacion", "id_ciudad" ]
df_tabla_eventos = df_eventos[cols_eventos]

insertar_registros(df_tabla_eventos, "eventos", "nombre_evento",cols_eventos )

'211 valores nuevos insertados en la tabla eventos'

### 3. TABLA HOTELES

In [15]:
cols_hoteles = ["nombre_hotel", "competencia", "valoracion", "id_ciudad"]
df_tabla_hoteles = (df_hoteles[cols_hoteles].drop_duplicates(subset=["nombre_hotel"]))

insertar_registros(df_tabla_hoteles, "hoteles", "nombre_hotel", cols_hoteles)

'29 valores nuevos insertados en la tabla hoteles'

### 4. TABLA CLIENTES

In [17]:
cols_clientes = ["id_cliente", "nombre", "apellido", "mail"]
df_tabla_clientes = df_hoteles[cols_clientes].drop_duplicates(subset="id_cliente")

insertar_registros(df_tabla_clientes, "clientes", "id_cliente", cols_clientes)

'14905 valores nuevos insertados en la tabla clientes'

### 5. TABLA RESERVAS

In [19]:
cols_reservas = ["id_reserva", "fecha_reserva", "inicio_estancia", "final_estancia", "precio_noche","id_cliente", "id_hotel"]
df_tabla_reservas = df_hoteles[cols_reservas]

df_tabla_reservas['nombre_hotel'] = df_tabla_reservas.groupby('id_hotel').ngroup() + 1

insertar_registros(df_tabla_reservas, "reservas", "id_reserva", cols_reservas)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_tabla_reservas['nombre_hotel'] = df_tabla_reservas.groupby('id_hotel').ngroup() + 1


'15000 valores nuevos insertados en la tabla reservas'

In [22]:
session.close()