In [None]:
from pandas import DataFrame, read_parquet

# -----------------------------
# Cargar dataset
# -----------------------------
df: DataFrame = read_parquet("../data/curated/RWventas.parquet", engine="pyarrow")

# -----------------------------
# Cargar dataset
# -----------------------------
df: DataFrame = read_parquet("../data/curated/RWventas.parquet", engine="pyarrow")

# Dim tipos_ventas
tipos_ventas = (
    DataFrame(df["tipo_venta"].astype(str).unique(), columns=["tipos_ventas"])
    .reset_index()
    .rename(columns={"index": "id_tipo_venta"})
)

# Dim tipos_clientes
tipos_clientes = (
    DataFrame(df["tipo_cliente"].astype(str).unique(), columns=["tipos_clientes"])
    .reset_index()
    .rename(columns={"index": "id_tipo_cliente"})
)

# Dim tipos_productos
tipos_productos = (
    DataFrame(df["tipo_producto"].dropna().astype(str).unique(), columns=["tipos_productos"])
    .reset_index()
    .rename(columns={"index": "id_tipo_producto"})
)

# Dim products
productos = (
    df[['producto', 'tipo_producto']].drop_duplicates()
    .astype(str)
    .merge(tipos_productos, left_on='tipo_producto', right_on='tipos_productos', how='left')
    .drop(columns='tipos_productos')
    .reset_index(drop=True)
    .reset_index()
    .rename(columns={'index': 'id_producto'})
)
productos = productos[['id_producto', 'producto', 'id_tipo_producto']]

# -----------------------------
# Crear tabla de hechos: ventas con IDs
# -----------------------------
ventas = (
    df.merge(tipos_ventas, left_on='tipo_venta', right_on='tipos_ventas', how='left')
      .merge(tipos_clientes, left_on='tipo_cliente', right_on='tipos_clientes', how='left')
      .merge(productos, on='producto', how='left')
)

# Seleccionar solo las columnas necesarias para la base de datos
ventas = ventas[
    ['ciudad', 'fecha', 'id_producto', 'id_tipo_producto', 'cantidad',
     'precio_unitario', 'id_tipo_venta', 'id_tipo_cliente', 'descuento',
     'costo_envio', 'total']
]



In [None]:
from sqlalchemy import create_engine, text
from dotenv import load_dotenv
from io import StringIO
from os import getenv

load_dotenv()
POSTGRES_USER = getenv("POSTGRES_USER")
POSTGRES_PASSWORD = getenv("POSTGRES_PASSWORD")
POSTGRES_DB = getenv("POSTGRES_DB")
POSTGRES_PORT = getenv("POSTGRES_PORT")
engine = create_engine(
    f"postgresql+psycopg2://{POSTGRES_USER}:{POSTGRES_PASSWORD}@localhost:{POSTGRES_PORT}/{POSTGRES_DB}"
)

# Tipos de ventas
tipos_ventas.to_sql("dim_tipos_ventas", engine, if_exists="replace", index=False)

# Tipos de clientes
tipos_clientes.to_sql("dim_tipos_clientes", engine, if_exists="replace", index=False)

# Tipos de productos
tipos_productos.to_sql("dim_tipos_productos", engine, if_exists="replace", index=False)

# Productos
productos.to_sql("dim_productos", engine, if_exists="replace", index=False)

# Ventas
csv_buffer = StringIO()
ventas.to_csv(csv_buffer, index=False, header=False)
csv_buffer.seek(0)

# Usar COPY para insertar datos
with engine.raw_connection() as conn:
    cursor = conn.cursor()
    cursor.copy_from(csv_buffer, "fact_ventas", sep=",")
    conn.commit()


InvalidTextRepresentation: invalid input syntax for type integer: "Antofagasta	2025-11-28	0	0	2	1587.0	0	0	0.2	0.0	2539.0"
CONTEXT:  COPY fact_ventas, line 1, column id_venta: "Antofagasta	2025-11-28	0	0	2	1587.0	0	0	0.2	0.0	2539.0"
