In [23]:
import pandas as pd
from sqlalchemy import create_engine
import psycopg2
import warnings
#env
import os
from dotenv import load_dotenv
warnings.filterwarnings('ignore')


## Extraccion

In [24]:
load_dotenv()  # Carga las variables del .env
db_url = os.getenv("DATABASE_URL")  # Obtiene la URL de la base de datos desde el .env
engine = create_engine(db_url)  # Crea el motor de conexión
connection = engine.connect()  # Abre la conexión

Tenemos que realizar 5 dimensiones
1. Categoria
2. Clientes
3. Producto
4. Proveedor
5. Tiempo

y una tabla de hechos

In [25]:
#Extraccion de las tablas de la base de datos
df_categoria = pd.read_sql_query("SELECT * FROM categories", engine)
df_clientes = pd.read_sql_query("SELECT * FROM customers", engine)
df_productos = pd.read_sql_query("SELECT * FROM products", engine)
df_proveedores = pd.read_sql_query("SELECT * FROM suppliers", engine)
df_ordenes = pd.read_sql_query("SELECT * FROM orders", engine)

Recordar que Mientras que los hechos responden a preguntas como ¿cuánto?

las dimensiones responden a preguntas como ¿quién?, ¿qué?, ¿dónde?, ¿cuándo?, ¿cómo?.

Tambien que NUNCA se tocan los datos crudos, debe de hacerse una copia la cual se debe de modificar

Dependiendo de la situacion evitar los datos nulos o duplicados

# Dimension Categorias

In [26]:
#tabla de categorias contiene los siguientes campos
# category_name, description , picture ,category_id (PK)
#Solo quiero extraer category_name, description y category_id
dim_categoria = df_categoria[['category_id', 'category_name', 'description']].copy()
dim_categoria

Unnamed: 0,category_id,category_name,description
0,1,Beverages,"Soft drinks, coffees, teas, beers, and ales"
1,2,Condiments,"Sweet and savory sauces, relishes, spreads, an..."
2,3,Confections,"Desserts, candies, and sweet breads"
3,4,Dairy Products,Cheeses
4,5,Grains/Cereals,"Breads, crackers, pasta, and cereal"
5,6,Meat/Poultry,Prepared meats
6,7,Produce,Dried fruit and bean curd
7,8,Seafood,Seaweed and fish


# Dimension Clientes

In [27]:
#tabla de clientes contiene los siguientes campos
#company_name, contact_name, contact_title, address, city, region, postal_code, country, phone, fax, customer_id (PK)
#solo quiero extraer customer_id, company_name,contact_name, city, region
dim_clientes = df_clientes[['customer_id', 'company_name', 'contact_name', 'city', 'region']].copy()
dim_clientes

Unnamed: 0,customer_id,company_name,contact_name,city,region
0,ALFKI,Alfreds Futterkiste,Maria Anders,Berlin,
1,ANATR,Ana Trujillo Emparedados y helados,Ana Trujillo,México D.F.,
2,ANTON,Antonio Moreno Taquería,Antonio Moreno,México D.F.,
3,AROUT,Around the Horn,Thomas Hardy,London,
4,BERGS,Berglunds snabbköp,Christina Berglund,Luleå,
...,...,...,...,...,...
86,WARTH,Wartian Herkku,Pirkko Koskitalo,Oulu,
87,WELLI,Wellington Importadora,Paula Parente,Resende,SP
88,WHITC,White Clover Markets,Karl Jablonski,Seattle,WA
89,WILMK,Wilman Kala,Matti Karttunen,Helsinki,


# Dimension Producto

In [28]:
#tabla de productos contiene los siguientes campos
#product_name,supplier_id,quantity_per_unit,unit_price,units_in_stock,units_on_order,reorder_level,discontinued,product_id (PK),category_id (FK)
#solo quiero extrare product_id, product_name, unit_price, units_in_stock,discontinued
dim_productos = df_productos[['product_id', 'product_name', 'unit_price', 'units_in_stock', 'discontinued']].copy()
dim_productos

Unnamed: 0,product_id,product_name,unit_price,units_in_stock,discontinued
0,1,Chai,18.00,39,1
1,2,Chang,19.00,17,1
2,3,Aniseed Syrup,10.00,13,0
3,4,Chef Anton's Cajun Seasoning,22.00,53,0
4,5,Chef Anton's Gumbo Mix,21.35,0,1
...,...,...,...,...,...
72,73,Röd Kaviar,15.00,101,0
73,74,Longlife Tofu,10.00,4,0
74,75,Rhönbräu Klosterbier,7.75,125,0
75,76,Lakkalikööri,18.00,57,0


# Dimension Proveedor

In [29]:
#tabla de Proveedores contiene los siguientes campos
#company_name, contact_name, contact_title, address, city, region, postal_code, country, phone, fax,homepage,supplier_id (PK)
#solo quiero extraer supplier_id, company_name, contact_name, city, region
dim_proveedores = df_proveedores[['supplier_id', 'company_name', 'contact_name', 'city', 'region']].copy()
dim_proveedores

Unnamed: 0,supplier_id,company_name,contact_name,city,region
0,1,Exotic Liquids,Charlotte Cooper,London,
1,2,New Orleans Cajun Delights,Shelley Burke,New Orleans,LA
2,3,Grandma Kelly's Homestead,Regina Murphy,Ann Arbor,MI
3,4,Tokyo Traders,Yoshi Nagase,Tokyo,
4,5,Cooperativa de Quesos 'Las Cabras',Antonio del Valle Saavedra,Oviedo,Asturias
5,6,Mayumi's,Mayumi Ohno,Osaka,
6,7,"Pavlova, Ltd.",Ian Devling,Melbourne,Victoria
7,8,"Specialty Biscuits, Ltd.",Peter Wilson,Manchester,
8,9,PB Knäckebröd AB,Lars Peterson,Göteborg,
9,10,Refrescos Americanas LTDA,Carlos Diaz,Sao Paulo,


# Dimension Tiempo

In [30]:
# la dimension tiempo no esta en si en la base de datos

In [31]:
# Creando la dimension tiempo
#eliminando las
df_order_date_clean = df_ordenes[['order_date']].copy()
df_order_date_clean = df_order_date_clean.drop_duplicates().reset_index(drop=True)





In [32]:
# Creando la dimension tiempo
dim_tiempo = df_order_date_clean.copy()

# Convertir la columna order_date a datetime
dim_tiempo['order_date'] = pd.to_datetime(dim_tiempo['order_date'], format='%Y-%m-%d')

# Extraer los componentes de fecha
dim_tiempo['mes'] = dim_tiempo['order_date'].dt.month
dim_tiempo['dia'] = dim_tiempo['order_date'].dt.day
dim_tiempo['año'] = dim_tiempo['order_date'].dt.year
dim_tiempo['nombre_mes'] = dim_tiempo['order_date'].dt.strftime('%B')
dim_tiempo['nombre_dia'] = dim_tiempo['order_date'].dt.strftime('%A')
dim_tiempo['trimestre'] = dim_tiempo['order_date'].dt.quarter

# Reordenar las columnas
dim_tiempo = dim_tiempo[[ 'order_date', 'año', 'mes', 'dia', 'nombre_mes', 'nombre_dia','trimestre']]

dim_tiempo

Unnamed: 0,order_date,año,mes,dia,nombre_mes,nombre_dia,trimestre
0,1996-07-04,1996,7,4,July,Thursday,3
1,1996-07-05,1996,7,5,July,Friday,3
2,1996-07-08,1996,7,8,July,Monday,3
3,1996-07-09,1996,7,9,July,Tuesday,3
4,1996-07-10,1996,7,10,July,Wednesday,3
...,...,...,...,...,...,...,...
475,1998-04-30,1998,4,30,April,Thursday,2
476,1998-05-01,1998,5,1,May,Friday,2
477,1998-05-04,1998,5,4,May,Monday,2
478,1998-05-05,1998,5,5,May,Tuesday,2


# Tabla de Hechos

In [35]:

df_order_details = pd.read_sql_query("SELECT * FROM order_details", engine)
#antes de hacer la tabla de hechos,
# debemos de obtener los campos de quantity, unit_price, discount,order_id, product_id de la tabla de order_details
#debemos de obtener los campos category_id, supplier_id de la tabla de productos
#debemos de obtener los campos customer_id, order_date, freight de la tabla de orders
#debemos de crear el dato ammount
df_order_details['amount'] = df_order_details['unit_price'] * df_order_details['quantity']
df_order_details


Unnamed: 0,order_id,product_id,unit_price,quantity,discount,amount
0,10248,11,14.00,12,0.00,168.0
1,10248,42,9.80,10,0.00,98.0
2,10248,72,34.80,5,0.00,174.0
3,10249,14,18.60,9,0.00,167.4
4,10249,51,42.40,40,0.00,1696.0
...,...,...,...,...,...,...
2150,11077,64,33.25,2,0.03,66.5
2151,11077,66,17.00,1,0.00,17.0
2152,11077,73,15.00,2,0.01,30.0
2153,11077,75,7.75,4,0.00,31.0


In [40]:
# Creando la tabla de hechos
#con solo 2 joins podemos hacer la tarea
#los campos que necesitamos son quantity,unit_price,discount,amount,order_id,category_id,product_id,customer_id,order_date,supplier_id,freight
# Creando la tabla de hechos
#para extraer los campos de quantity,unit_price,discount,amount
#usaremos merge para unir las tablas
#merge 1
#funcionamiento general de merge
#df_fact = df_order_details.merge(df_ordenes, on='order_id', how='left')
df_fact = df_order_details.merge(df_ordenes[['order_id', 'customer_id', 'order_date', 'freight']], on='order_id', how='left')
#merge 2
df_fact = df_fact.merge(df_productos[['product_id', 'category_id', 'supplier_id']],on='product_id',   how='left')
df_fact['order_date'] = pd.to_datetime(df_fact['order_date'])

#Reindexando el DataFrame
df_fact.reset_index(drop=True, inplace=True )
df_fact['id_fact_order']= df_fact.index + 1
#poner el id_fact_order y las llaves forane al inicio
df_fact = df_fact[['id_fact_order', 'order_id', 'product_id', 'customer_id', 'order_date', 'supplier_id', 'category_id', 'quantity', 'unit_price', 'discount', 'amount', 'freight']]
df_fact

Unnamed: 0,id_fact_order,order_id,product_id,customer_id,order_date,supplier_id,category_id,quantity,unit_price,discount,amount,freight
0,1,10248,11,VINET,1996-07-04,5,4,12,14.00,0.00,168.0,32.38
1,2,10248,42,VINET,1996-07-04,20,5,10,9.80,0.00,98.0,32.38
2,3,10248,72,VINET,1996-07-04,14,4,5,34.80,0.00,174.0,32.38
3,4,10249,14,TOMSP,1996-07-05,6,7,9,18.60,0.00,167.4,11.61
4,5,10249,51,TOMSP,1996-07-05,24,7,40,42.40,0.00,1696.0,11.61
...,...,...,...,...,...,...,...,...,...,...,...,...
2150,2151,11077,64,RATTC,1998-05-06,12,5,2,33.25,0.03,66.5,8.53
2151,2152,11077,66,RATTC,1998-05-06,2,2,1,17.00,0.00,17.0,8.53
2152,2153,11077,73,RATTC,1998-05-06,17,8,2,15.00,0.01,30.0,8.53
2153,2154,11077,75,RATTC,1998-05-06,12,1,4,7.75,0.00,31.0,8.53


# Carga de todo

In [41]:
#Vamos a guardar las dimensiones y la tabla de hechos en la base de datos
#primero la conexion
load_dotenv()  # Carga las variables del .env
PW = os.getenv("PW")
connection = psycopg2.connect(host='localhost',database='northwind_olap',user='postgres',password = PW,port='5432')
cursor= connection.cursor()

In [None]:
#crear los csv de las dimensiones con separador |
"""
dim_categoria.to_csv('dim_categoria.csv', sep='|', index=False)
dim_clientes.to_csv('dim_clientes.csv', sep='|', index=False)   
dim_productos.to_csv('dim_productos.csv', sep='|', index=False)
dim_proveedores.to_csv('dim_proveedores.csv', sep='|', index=False)
dim_tiempo.to_csv('dim_tiempo.csv', sep='|', index=False)
#crear el csv de la tabla de hechos
df_fact.to_csv('fact_ventas.csv', sep='|', index=False)
"""

In [43]:
#obtener el info de todas las dimensiones y la tabla de hechos para ver el tipo de datos
dim_categoria.info()
dim_clientes.info()
dim_productos.info()
dim_proveedores.info()
dim_tiempo.info()
df_fact.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   category_id    8 non-null      int64 
 1   category_name  8 non-null      object
 2   description    8 non-null      object
dtypes: int64(1), object(2)
memory usage: 324.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 91 entries, 0 to 90
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   customer_id   91 non-null     object
 1   company_name  91 non-null     object
 2   contact_name  91 non-null     object
 3   city          91 non-null     object
 4   region        31 non-null     object
dtypes: object(5)
memory usage: 3.7+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0

# Creación de Tablas en la Base de Datos

Ahora vamos a crear las tablas dimensionales y la tabla de hechos en la base de datos basándonos en la estructura de nuestros DataFrames.

In [None]:
# Código SQL para crear las tablas dimensionales y de hechos
sql_create_tables = """
-- 1. Dimensión Categorías
CREATE TABLE IF NOT EXISTS dim_categoria (
    category_id INTEGER PRIMARY KEY,
    category_name VARCHAR(255) NOT NULL,
    description TEXT
);

-- 2. Dimensión Clientes  
CREATE TABLE IF NOT EXISTS dim_clientes (
    customer_id VARCHAR(10) PRIMARY KEY,
    company_name VARCHAR(255) NOT NULL,
    contact_name VARCHAR(255),
    city VARCHAR(255),
    region VARCHAR(255)
);

-- 3. Dimensión Productos
CREATE TABLE IF NOT EXISTS dim_productos (
    product_id INTEGER PRIMARY KEY,
    product_name VARCHAR(255) NOT NULL,
    unit_price DECIMAL(10,2),
    units_in_stock INTEGER,
    discontinued INTEGER
);

-- 4. Dimensión Proveedores
CREATE TABLE IF NOT EXISTS dim_proveedores (
    supplier_id INTEGER PRIMARY KEY,
    company_name VARCHAR(255) NOT NULL,
    contact_name VARCHAR(255),
    city VARCHAR(255),
    region VARCHAR(255)
);

-- 5. Dimensión Tiempo
CREATE TABLE IF NOT EXISTS dim_tiempo (
    order_date DATE PRIMARY KEY,
    año INTEGER NOT NULL,
    mes INTEGER NOT NULL,
    dia INTEGER NOT NULL,
    trimestre INTEGER NOT NULL,
    nombre_mes VARCHAR(20),
    nombre_dia VARCHAR(20)
);

-- 6. Tabla de Hechos - Órdenes
CREATE TABLE IF NOT EXISTS fact_orders (
    id_fact_order SERIAL PRIMARY KEY,
    order_id INTEGER NOT NULL,
    product_id INTEGER NOT NULL,
    customer_id VARCHAR(10) NOT NULL,
    order_date DATE NOT NULL,
    supplier_id INTEGER NOT NULL,
    category_id INTEGER NOT NULL,
    quantity INTEGER NOT NULL,
    unit_price DECIMAL(10,2) NOT NULL,
    discount DECIMAL(5,4) NOT NULL,
    amount DECIMAL(12,2) NOT NULL,
    freight DECIMAL(10,2) NOT NULL,
    
    -- Claves foráneas hacia las dimensiones
    FOREIGN KEY (category_id) REFERENCES dim_categoria(category_id),
    FOREIGN KEY (customer_id) REFERENCES dim_clientes(customer_id),
    FOREIGN KEY (product_id) REFERENCES dim_productos(product_id),
    FOREIGN KEY (supplier_id) REFERENCES dim_proveedores(supplier_id),
    FOREIGN KEY (order_date) REFERENCES dim_tiempo(order_date)
);

-- Índices para mejorar el rendimiento de consultas
CREATE INDEX IF NOT EXISTS idx_fact_orders_order_date ON fact_orders(order_date);
CREATE INDEX IF NOT EXISTS idx_fact_orders_product_id ON fact_orders(product_id);
CREATE INDEX IF NOT EXISTS idx_fact_orders_customer_id ON fact_orders(customer_id);
CREATE INDEX IF NOT EXISTS idx_fact_orders_category_id ON fact_orders(category_id);
CREATE INDEX IF NOT EXISTS idx_fact_orders_supplier_id ON fact_orders(supplier_id);
"""

print("SQL para crear las tablas del Data Warehouse en northwind_olap:")
print(sql_create_tables)

SQL para crear las tablas del Data Warehouse:

-- Crear esquema para el data warehouse si no existe
CREATE SCHEMA IF NOT EXISTS dw_northwind;

-- 1. Dimensión Categorías
CREATE TABLE IF NOT EXISTS dw_northwind.dim_categoria (
    category_id INTEGER PRIMARY KEY,
    category_name VARCHAR(255) NOT NULL,
    description TEXT
);

-- 2. Dimensión Clientes  
CREATE TABLE IF NOT EXISTS dw_northwind.dim_clientes (
    customer_id VARCHAR(10) PRIMARY KEY,
    company_name VARCHAR(255) NOT NULL,
    contact_name VARCHAR(255),
    city VARCHAR(255),
    region VARCHAR(255)
);

-- 3. Dimensión Productos
CREATE TABLE IF NOT EXISTS dw_northwind.dim_productos (
    product_id INTEGER PRIMARY KEY,
    product_name VARCHAR(255) NOT NULL,
    unit_price DECIMAL(10,2),
    units_in_stock INTEGER,
    discontinued INTEGER
);

-- 4. Dimensión Proveedores
CREATE TABLE IF NOT EXISTS dw_northwind.dim_proveedores (
    supplier_id INTEGER PRIMARY KEY,
    company_name VARCHAR(255) NOT NULL,
    contact_name V

In [46]:
# Ejecutar las sentencias SQL para crear las tablas usando psycopg2
try:
    # Ejecutar cada comando SQL por separado usando el cursor
    sql_commands = sql_create_tables.split(';')
    
    for command in sql_commands:
        command = command.strip()
        if command and not command.startswith('--') and len(command) > 5:
            cursor.execute(command)
    
    # Confirmar los cambios
    connection.commit()
    print("✅ Tablas creadas exitosamente en el esquema dw_northwind")
    
except Exception as e:
    print(f"❌ Error al crear las tablas: {e}")
    connection.rollback()

❌ Error al crear las tablas: no existe el esquema «dw_northwind»



In [None]:
# Insertar datos usando psycopg2 y pandas to_sql con SQLAlchemy engine
try:
    # Crear un engine de SQLAlchemy para la base de datos OLAP
    load_dotenv()
    PW = os.getenv("PW")
    olap_db_url = f"postgresql://postgres:{PW}@localhost:5432/northwind_olap"
    olap_engine = create_engine(olap_db_url)
    
    # Insertar dimensiones primero (para mantener integridad referencial)
    
    # 1. Dimensión Categorías
    dim_categoria.to_sql('dim_categoria', con=olap_engine, 
                        if_exists='append', index=False, method='multi')
    print("✅ Datos insertados en dim_categoria")
    
    # 2. Dimensión Clientes
    dim_clientes.to_sql('dim_clientes', con=olap_engine, 
                       if_exists='append', index=False, method='multi')
    print("✅ Datos insertados en dim_clientes")
    
    # 3. Dimensión Productos
    dim_productos.to_sql('dim_productos', con=olap_engine, 
                        if_exists='append', index=False, method='multi')
    print("✅ Datos insertados en dim_productos")
    
    # 4. Dimensión Proveedores
    dim_proveedores.to_sql('dim_proveedores', con=olap_engine, 
                          if_exists='append', index=False, method='multi')
    print("✅ Datos insertados en dim_proveedores")
    
    # 5. Dimensión Tiempo
    dim_tiempo.to_sql('dim_tiempo', con=olap_engine, 
                     if_exists='append', index=False, method='multi')
    print("✅ Datos insertados en dim_tiempo")
    
    # 6. Tabla de Hechos (sin el campo id_fact_order ya que es SERIAL)
    df_fact_insert = df_fact.drop('id_fact_order', axis=1)
    df_fact_insert.to_sql('fact_orders', con=olap_engine, 
                         if_exists='append', index=False, method='multi')
    print("✅ Datos insertados en fact_orders")
    
    print("\n🎉 ¡Data Warehouse creado exitosamente en northwind_olap!")
    print(f"📊 Resumen de registros insertados:")
    print(f"   - Categorías: {len(dim_categoria)} registros")
    print(f"   - Clientes: {len(dim_clientes)} registros")
    print(f"   - Productos: {len(dim_productos)} registros")
    print(f"   - Proveedores: {len(dim_proveedores)} registros")
    print(f"   - Tiempo: {len(dim_tiempo)} registros")
    print(f"   - Hechos: {len(df_fact_insert)} registros")
    
    # Cerrar el engine OLAP
    olap_engine.dispose()
    
except Exception as e:
    print(f"❌ Error al insertar datos: {e}")
    if 'olap_engine' in locals():
        olap_engine.dispose()

In [None]:
# Verificar que las tablas se crearon correctamente
print("🔍 Verificando las tablas creadas en la base de datos northwind_olap:\n")

try:
    # Crear conexión temporal para verificación
    load_dotenv()
    PW = os.getenv("PW")
    olap_db_url = f"postgresql://postgres:{PW}@localhost:5432/northwind_olap"
    verify_engine = create_engine(olap_db_url)
    
    # Consultar información de las tablas
    verify_query = """
    SELECT table_name, 
           (SELECT COUNT(*) FROM information_schema.columns 
            WHERE table_name = t.table_name AND table_schema = 'public') as num_columns
    FROM information_schema.tables t
    WHERE table_schema = 'public' AND table_name LIKE 'dim_%' OR table_name LIKE 'fact_%'
    ORDER BY table_name;
    """
    
    result = pd.read_sql_query(verify_query, verify_engine)
    print("📋 Tablas del Data Warehouse en northwind_olap:")
    print(result.to_string(index=False))
    
    # Verificar algunos registros de cada tabla
    print("\n📊 Conteo de registros por tabla:")
    tables = ['dim_categoria', 'dim_clientes', 'dim_productos', 'dim_proveedores', 'dim_tiempo', 'fact_orders']
    
    for table in tables:
        try:
            count_query = f"SELECT COUNT(*) as total FROM {table}"
            count_result = pd.read_sql_query(count_query, verify_engine)
            print(f"   - {table}: {count_result['total'].iloc[0]} registros")
        except Exception as table_error:
            print(f"   - {table}: Error al contar registros - {table_error}")
    
    # Cerrar el engine de verificación
    verify_engine.dispose()
    
except Exception as e:
    print(f"❌ Error al verificar las tablas: {e}")
    if 'verify_engine' in locals():
        verify_engine.dispose()

# Cerrar la conexión psycopg2
try:
    cursor.close()
    connection.close()
    print("\n🔒 Conexión psycopg2 a la base de datos cerrada.")
except Exception as e:
    print(f"Error al cerrar conexión: {e}")