In [2]:
import pandas as pd
from sqlalchemy import create_engine
import psycopg2
import warnings
#env
import os
from dotenv import load_dotenv
warnings.filterwarnings('ignore')


## Extraccion

In [3]:
load_dotenv()  # Carga las variables del .env
db_url = os.getenv("DATABASE_URL")  # Obtiene la URL de la base de datos desde el .env
engine = create_engine(db_url)  # Crea el motor de conexión
connection = engine.connect()  # Abre la conexión

Tenemos que realizar 5 dimensiones
1. Categoria
2. Clientes
3. Producto
4. Proveedor
5. Tiempo

y una tabla de hechos

In [4]:
#Extraccion de las tablas de la base de datos
df_categoria = pd.read_sql_query("SELECT * FROM categories", engine)
df_clientes = pd.read_sql_query("SELECT * FROM customers", engine)
df_productos = pd.read_sql_query("SELECT * FROM products", engine)
df_proveedores = pd.read_sql_query("SELECT * FROM suppliers", engine)

Recordar que Mientras que los hechos responden a preguntas como ¿cuánto?

las dimensiones responden a preguntas como ¿quién?, ¿qué?, ¿dónde?, ¿cuándo?, ¿cómo?.

Tambien que NUNCA se tocan los datos crudos, debe de hacerse una copia la cual se debe de modificar

Dependiendo de la situacion evitar los datos nulos o duplicados

# Dimension Categorias

In [5]:
#tabla de categorias contiene los siguientes campos
# category_name, description , picture ,category_id (PK)
#Solo quiero extraer category_name, description y category_id
dim_categoria = df_categoria[['category_id', 'category_name', 'description']].copy()
dim_categoria

Unnamed: 0,category_id,category_name,description
0,1,Beverages,"Soft drinks, coffees, teas, beers, and ales"
1,2,Condiments,"Sweet and savory sauces, relishes, spreads, an..."
2,3,Confections,"Desserts, candies, and sweet breads"
3,4,Dairy Products,Cheeses
4,5,Grains/Cereals,"Breads, crackers, pasta, and cereal"
5,6,Meat/Poultry,Prepared meats
6,7,Produce,Dried fruit and bean curd
7,8,Seafood,Seaweed and fish


# Dimension Clientes

In [6]:
#tabla de clientes contiene los siguientes campos
#company_name, contact_name, contact_title, address, city, region, postal_code, country, phone, fax, customer_id (PK)
#solo quiero extraer customer_id, company_name,contact_name, city, region
dim_clientes = df_clientes[['customer_id', 'company_name', 'contact_name', 'city', 'region']].copy()
dim_clientes

Unnamed: 0,customer_id,company_name,contact_name,city,region
0,ALFKI,Alfreds Futterkiste,Maria Anders,Berlin,
1,ANATR,Ana Trujillo Emparedados y helados,Ana Trujillo,México D.F.,
2,ANTON,Antonio Moreno Taquería,Antonio Moreno,México D.F.,
3,AROUT,Around the Horn,Thomas Hardy,London,
4,BERGS,Berglunds snabbköp,Christina Berglund,Luleå,
...,...,...,...,...,...
86,WARTH,Wartian Herkku,Pirkko Koskitalo,Oulu,
87,WELLI,Wellington Importadora,Paula Parente,Resende,SP
88,WHITC,White Clover Markets,Karl Jablonski,Seattle,WA
89,WILMK,Wilman Kala,Matti Karttunen,Helsinki,


# Dimension Producto

In [7]:
#tabla de productos contiene los siguientes campos
#product_name,supplier_id,quantity_per_unit,unit_price,units_in_stock,units_on_order,reorder_level,discontinued,product_id (PK),category_id (FK)
#solo quiero extrare product_id, product_name, unit_price, units_in_stock,discontinued
dim_productos = df_productos[['product_id', 'product_name', 'unit_price', 'units_in_stock', 'discontinued']].copy()
dim_productos

Unnamed: 0,product_id,product_name,unit_price,units_in_stock,discontinued
0,1,Chai,18.00,39,1
1,2,Chang,19.00,17,1
2,3,Aniseed Syrup,10.00,13,0
3,4,Chef Anton's Cajun Seasoning,22.00,53,0
4,5,Chef Anton's Gumbo Mix,21.35,0,1
...,...,...,...,...,...
72,73,Röd Kaviar,15.00,101,0
73,74,Longlife Tofu,10.00,4,0
74,75,Rhönbräu Klosterbier,7.75,125,0
75,76,Lakkalikööri,18.00,57,0


# Dimension Proveedor

In [8]:
#tabla de Proveedores contiene los siguientes campos
#company_name, contact_name, contact_title, address, city, region, postal_code, country, phone, fax,homepage,supplier_id (PK)
dim_proveedores = df_proveedores[['supplier_id', 'company_name', 'contact_name', 'city', 'region']].copy()
dim_proveedores

Unnamed: 0,supplier_id,company_name,contact_name,city,region
0,1,Exotic Liquids,Charlotte Cooper,London,
1,2,New Orleans Cajun Delights,Shelley Burke,New Orleans,LA
2,3,Grandma Kelly's Homestead,Regina Murphy,Ann Arbor,MI
3,4,Tokyo Traders,Yoshi Nagase,Tokyo,
4,5,Cooperativa de Quesos 'Las Cabras',Antonio del Valle Saavedra,Oviedo,Asturias
5,6,Mayumi's,Mayumi Ohno,Osaka,
6,7,"Pavlova, Ltd.",Ian Devling,Melbourne,Victoria
7,8,"Specialty Biscuits, Ltd.",Peter Wilson,Manchester,
8,9,PB Knäckebröd AB,Lars Peterson,Göteborg,
9,10,Refrescos Americanas LTDA,Carlos Diaz,Sao Paulo,


# Dimension Tiempo

In [None]:
# la dimension tiempo no esta en si en la base de datos

In [9]:
#necesito crear una tabla de fechas con la columna order_date
df_ordenes = pd.read_sql_query("SELECT * FROM orders", engine)
dataframe = df_ordenes[['order_date']].copy()

pd.to_datetime(dataframe['fecha'], format = '%Y/%m/%d')
[i.month for i in dataframe['fecha']]
[i.day for i in dataframe['fecha']]
[i.year for i in dataframe['fecha']]
[i.strftime('%B') for i in dataframe['fecha']]
[i.strftime('%A') for i in dataframe['fecha']]
[i.quarter for i in dataframe['fecha']]

KeyError: 'fecha'