In [1]:

!pip install python-dotenv psycopg2

Defaulting to user installation because normal site-packages is not writeable
Collecting python-dotenv
  Downloading python_dotenv-1.1.1-py3-none-any.whl.metadata (24 kB)
Collecting psycopg2
  Downloading psycopg2-2.9.10-cp313-cp313-win_amd64.whl.metadata (4.8 kB)
Downloading python_dotenv-1.1.1-py3-none-any.whl (20 kB)
Downloading psycopg2-2.9.10-cp313-cp313-win_amd64.whl (2.6 MB)
   ---------------------------------------- 0.0/2.6 MB ? eta -:--:--
   ---------------------------------------- 2.6/2.6 MB 25.7 MB/s eta 0:00:00
Installing collected packages: python-dotenv, psycopg2

   ---------------------------------------- 0/2 [python-dotenv]
   -------------------- ------------------- 1/2 [psycopg2]
   ---------------------------------------- 2/2 [psycopg2]

Successfully installed psycopg2-2.9.10 python-dotenv-1.1.1


In [None]:
import pandas as pd
from sqlalchemy import create_engine, text
from psycopg2.extras import execute_values
from psycopg2.extensions import AsIs

# 1. Cargar datos
df = pd.read_csv('online_retail_II.csv')
df.columns = [col.strip().lower().replace(" ", "_") for col in df.columns]
df.dropna(inplace=True)

df['invoice'] = df['invoice'].astype(str)
df['stockcode'] = df['stockcode'].astype(str)
df['description'] = df['description'].astype(str)
df['quantity'] = df['quantity'].astype(int)
df['invoicedate'] = pd.to_datetime(df['invoicedate'])
df['price'] = df['price'].astype(float)
df['customer_id'] = df['customer_id'].astype(int)
df['country'] = df['country'].astype(str)

# 2. Conexión a Supabase
engine = create_engine("postgresql://postgres.wrwpkkyeukjuisjlbihn:postgres@aws-0-us-east-2.pooler.supabase.com:6543/postgres")

# 3. Crear tablas con claves naturales
with engine.begin() as conn:
    conn.execute(text("""
        DROP TABLE IF EXISTS fact_ventas, dim_fecha, dim_cliente, dim_producto CASCADE;

        CREATE TABLE dim_fecha (
            fecha DATE PRIMARY KEY,
            año INT,
            mes INT,
            dia INT
        );

        CREATE TABLE dim_cliente (
            customer_id INT PRIMARY KEY,
            pais TEXT
        );

        CREATE TABLE dim_producto (
            stockcode TEXT PRIMARY KEY,
            descripcion TEXT
        );

        CREATE TABLE fact_ventas (
    id SERIAL PRIMARY KEY,
    invoice TEXT,
    fecha DATE REFERENCES dim_fecha(fecha),
    customer_id INT REFERENCES dim_cliente(customer_id),
    stockcode TEXT REFERENCES dim_producto(stockcode),
    cantidad INT,
    precio_unitario FLOAT
);

    """))

# 4. Función de inserción con ON CONFLICT DO NOTHING
def insert_on_conflict(table, conn, keys, data_iter):
    raw_conn = conn.connection
    with raw_conn.cursor() as cur:
        values = list(data_iter)
        columns = ', '.join(keys)
        insert_stmt = f"INSERT INTO {table.name} ({columns}) VALUES %s ON CONFLICT DO NOTHING"
        execute_values(cur, insert_stmt, values)
    raw_conn.commit()

# 5. Insertar por chunks
chunk_size = 10000
for i in range(0, len(df), chunk_size):
    chunk = df.iloc[i:i + chunk_size].copy()
    chunk['fecha'] = chunk['invoicedate'].dt.date

    # dim_fecha
    fecha_df = chunk[['fecha']].drop_duplicates()
    fecha_df['año'] = chunk['invoicedate'].dt.year
    fecha_df['mes'] = chunk['invoicedate'].dt.month
    fecha_df['dia'] = chunk['invoicedate'].dt.day
    fecha_df.to_sql('dim_fecha', engine, if_exists='append', index=False, method=insert_on_conflict)

    # dim_cliente
    clientes_df = chunk[['customer_id', 'country']].drop_duplicates()
    clientes_df.columns = ['customer_id', 'pais']
    clientes_df.to_sql('dim_cliente', engine, if_exists='append', index=False, method=insert_on_conflict)

    # dim_producto
    productos_df = chunk[['stockcode', 'description']].drop_duplicates()
    productos_df.columns = ['stockcode', 'descripcion']
    productos_df.to_sql('dim_producto', engine, if_exists='append', index=False, method=insert_on_conflict)

    # fact_ventas
    fact_df = chunk[['invoice', 'fecha', 'customer_id', 'stockcode', 'quantity', 'price']].copy()
    fact_df.columns = ['invoice', 'fecha', 'customer_id', 'stockcode', 'cantidad', 'precio_unitario']
    fact_df.to_sql('fact_ventas', engine, if_exists='append', index=False, method='multi')

    print(f"✅ Chunk {i // chunk_size + 1} insertado.")

print("🎉 Datos cargados con claves naturales como PK.")


✅ Chunk 1 insertado.
✅ Chunk 2 insertado.
✅ Chunk 3 insertado.
✅ Chunk 4 insertado.
✅ Chunk 5 insertado.
✅ Chunk 6 insertado.
✅ Chunk 7 insertado.
✅ Chunk 8 insertado.
✅ Chunk 9 insertado.
✅ Chunk 10 insertado.
✅ Chunk 11 insertado.
✅ Chunk 12 insertado.
✅ Chunk 13 insertado.
✅ Chunk 14 insertado.
✅ Chunk 15 insertado.
✅ Chunk 16 insertado.
✅ Chunk 17 insertado.
✅ Chunk 18 insertado.
✅ Chunk 19 insertado.
✅ Chunk 20 insertado.
✅ Chunk 21 insertado.
✅ Chunk 22 insertado.
✅ Chunk 23 insertado.
✅ Chunk 24 insertado.
✅ Chunk 25 insertado.
✅ Chunk 26 insertado.
✅ Chunk 27 insertado.
✅ Chunk 28 insertado.
✅ Chunk 29 insertado.
✅ Chunk 30 insertado.
✅ Chunk 31 insertado.
✅ Chunk 32 insertado.
✅ Chunk 33 insertado.
✅ Chunk 34 insertado.
✅ Chunk 35 insertado.
✅ Chunk 36 insertado.
✅ Chunk 37 insertado.
✅ Chunk 38 insertado.
✅ Chunk 39 insertado.
✅ Chunk 40 insertado.
✅ Chunk 41 insertado.
✅ Chunk 42 insertado.
✅ Chunk 43 insertado.
✅ Chunk 44 insertado.
✅ Chunk 45 insertado.
✅ Chunk 46 insertad