In [1]:
from sqlalchemy import create_engine, text
import contextlib, pymysql, os, urllib.request
import pandas as pd

In [2]:
DOWNLOAD_ROOT = "https://raw.githubusercontent.com/Vallit0/SS2_EVD2025/main/clase5/"
COMPRAS_URL = DOWNLOAD_ROOT + "compras.csv"
VENTAS_URL = DOWNLOAD_ROOT + "ventas.csv"

COMPRAS_PATH = os.path.join("crudos", "compras")
VENTAS_PATH = os.path.join("crudos", "ventas")

def descargar_csv(url, destino, nombre):
    os.makedirs(destino, exist_ok=True)
    path_final = os.path.join(destino, nombre)
    urllib.request.urlretrieve(url, path_final)
    print(f"{nombre} descargado exitosamente")

def descargar_sql(url, destino, nombre):
    os.makedirs(destino, exist_ok=True)
    path_final = os.path.join(destino, nombre)
    urllib.request.urlretrieve(url, path_final)
    print(f"{nombre} SQL Descargado")

descargar_csv(COMPRAS_URL, COMPRAS_PATH, "compras.csv")
descargar_csv(VENTAS_URL, VENTAS_PATH, "ventas.csv")

compras.csv descargado exitosamente
ventas.csv descargado exitosamente


In [5]:
compras = pd.read_csv(os.path.join(COMPRAS_PATH, "compras.csv"))
ventas  = pd.read_csv(os.path.join(VENTAS_PATH,  "ventas.csv"))

ventas


Unnamed: 0,Fecha,CodCliente,NombreCliente,TipoCliente,CodVendedor,NombreVendedor,CodProducto,NombreProducto,MarcaProducto,Categoria,CodSucursal,NombreSucursal,Region,Departamento,Unidades,PrecioUnitario
0,13/07/2021,C0100,Iván Gonzalo Barreto Ordóñez,Mayorista,V0008,Mtro. Hugo Ruelas,AC00004,Vino Gato Blanco,CREM HELADO,Vinos y Licores,S0004,Sucursal Oeste,Occidente,Huehuetenango,294,1104.71
1,21/03/2022,C0100,Iván Gonzalo Barreto Ordóñez,Mayorista,V0007,Eugenio Correa,AC00004,Vino Gato Blanco,CREM HELADO,Vinos y Licores,S0003,Sucursal Este,Nororiente,Zacapa,31,398.48
2,01/11/2020,C0100,Iván Gonzalo Barreto Ordóñez,Mayorista,V0003,Serafín Carvajal,AC00003,Queso Camembert,MONTICELLO,Charcutería,S0002,Sucursal Sur,Suroccidente,Quetzaltenango,277,183.63
3,17/07/2023,C0100,Iván Gonzalo Barreto Ordóñez,Mayorista,V0008,Mtro. Hugo Ruelas,AC00001,Gaseosa Postobon Uva,POSTOBON,Bebidas,S0002,Sucursal Sur,Suroccidente,Quetzaltenango,365,647.15
4,23/12/2018,C0100,Iván Gonzalo Barreto Ordóñez,Mayorista,V0007,Eugenio Correa,AC00006,Vino espumoso Rothberg,SINFONIA,Vinos y Licores,S0003,Sucursal Este,Nororiente,Zacapa,446,944.95
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,14/02/2019,C0039,Wilfrido Casillas,Minorista,V0009,Reynaldo Mejía Guevara,AC00003,Queso Camembert,MONTICELLO,Charcutería,S0002,Sucursal Sur,Suroccidente,Quetzaltenango,58,570.71
996,24/03/2024,C0035,Anel Ricardo Palomino Montes,Minorista,V0003,Serafín Carvajal,AC00002,Cerveza Hofbrau Munchen,ZENU,Vinos y Licores,S0001,Sucursal Norte,Metropolitana,Guatemala,274,368.75
997,24/04/2024,C0014,Dr. Carolina Arguello,Mayorista,V0006,Ing. Adalberto Iglesias,AC00002,Cerveza Hofbrau Munchen,ZENU,Vinos y Licores,S0001,Sucursal Norte,Metropolitana,Guatemala,206,986.18
998,07/11/2021,C0012,Alfonso Urrutia Tafoya,Mayorista,V0003,Serafín Carvajal,AC00003,Queso Camembert,MONTICELLO,Charcutería,S0004,Sucursal Oeste,Occidente,Huehuetenango,203,260.53


In [64]:
# Dimension fecha

fechas_unicas = pd.concat([compras["Fecha"], ventas["Fecha"]], ignore_index=True).dropna().drop_duplicates()

dim_fecha = pd.DataFrame({"Fecha": fechas_unicas})
nan_rows = dim_fecha[dim_fecha.isna().any(axis=1)]
dim_fecha["Fecha"] = pd.to_datetime(dim_fecha["Fecha"], format='%d/%m/%Y', errors = 'coerce')
dim_fecha["id_fecha"] = dim_fecha["Fecha"].dt.strftime("%Y%m%d").astype(int, errors = 'ignore')
dim_fecha["anio"] = dim_fecha["Fecha"].dt.year
dim_fecha["mes"] = dim_fecha["Fecha"].dt.month
dim_fecha["dia"] = dim_fecha["Fecha"].dt.day
mes_nombres = {
    1:"Enero", 2:"Febrero", 3:"Marzo", 4:"Abril",
    5:"Mayo",  6:"Junio",   7:"Julio", 8:"Agosto",
    9:"Septiembre", 10:"Octubre", 11:"Noviembre", 12:"Diciembre"
}
dim_fecha["nombre_mes"] = dim_fecha["mes"].map(mes_nombres)
dim_fecha["trimestre"] = "T" + (((dim_fecha["mes"] - 1) // 3) + 1).astype(str)
dim_fecha = dim_fecha[["id_fecha", "anio", "nombre_mes", "trimestre", "dia", "mes"]]
dim_fecha=dim_fecha[~dim_fecha["id_fecha"].isnull()]


In [65]:
# Definicion de credenciales de base de datos

DB_USER = 'dba'
DB_PASSWORD = 'Ss2_USAC2025#'
DB_HOST = 'localhost'
DB_PORT = '3306'
DB_NAME = 'mysql'

connection_string = (
    f"mysql+pymysql://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_NAME}"
)

In [66]:
# DDL

sql_script_drop_db = """
DROP DATABASE DWH;
"""

sql_script_create_db = """
CREATE DATABASE IF NOT EXISTS DWH;
"""

sql_script_create_table_dim_fecha = """
CREATE TABLE DWH.dim_fecha (
    id_fecha    INT PRIMARY KEY,
    anio        INT NOT NULL,
    nombre_mes  NVARCHAR(20),
    trimestre   NVARCHAR(20),
    dia         INT NOT NULL,
    mes         INT NOT NULL
);
"""

sql_script_create_table_dim_producto= """
CREATE TABLE DWH.dim_producto (
    CodProducto     NVARCHAR(50) PRIMARY KEY,
    NombreProducto  NVARCHAR(200),
    MarcaProducto   NVARCHAR(100),
    Categoria       NVARCHAR(100)
);
"""

sql_script_create_table_dim_sucursal= """
CREATE TABLE DWH.dim_sucursal (
    CodSucursal     NVARCHAR(50) PRIMARY KEY,
    NombreSucursal  NVARCHAR(200),
    Region          NVARCHAR(100),
    Departamento    NVARCHAR(100)
);
"""

sql_script_create_table_dim_cliente= """
CREATE TABLE DWH.dim_cliente (
    CodCliente      NVARCHAR(50) PRIMARY KEY,
    NombreCliente   NVARCHAR(200),
    TipoCliente     NVARCHAR(100)
);
"""

sql_script_create_table_dim_vendedor= """
CREATE TABLE DWH.dim_vendedor (
    CodVendedor     NVARCHAR(50) PRIMARY KEY,
    NombreVendedor  NVARCHAR(200)
);
"""

sql_script_create_table_dim_proveedor= """
CREATE TABLE DWH.dim_proveedor (
    CodProveedor    NVARCHAR(50) PRIMARY KEY,
    NombreProveedor NVARCHAR(200)
);
"""

sql_script_create_table_fac_ventas= """
CREATE TABLE DWH.fac_ventas (
    id_venta        INT AUTO_INCREMENT PRIMARY KEY,
    id_fecha        INT NOT NULL,
    CodProducto     NVARCHAR(50) NOT NULL,
    CodSucursal     NVARCHAR(50) NOT NULL,
    CodCliente      NVARCHAR(50) NOT NULL,
    CodVendedor     NVARCHAR(50) NOT NULL,
    unidades        INT NOT NULL,
    precioUnitario  DECIMAL(10,2)
);
"""
sql_script_create_table_fac_compras= """
CREATE TABLE DWH.fac_compras (
    id_compra       INT AUTO_INCREMENT PRIMARY KEY,
    id_fecha        INT NOT NULL,
    CodProducto     NVARCHAR(50) NOT NULL,
    CodSucursal     NVARCHAR(50) NOT NULL,
    CodProveedor    NVARCHAR(50) NOT NULL,
    unidades        INT NOT NULL,
    costoUnitario   DECIMAL(10,2),
    FOREIGN KEY (id_fecha)     REFERENCES dim_fecha(id_fecha),
    FOREIGN KEY (CodProducto)  REFERENCES dim_producto(CodProducto),
    FOREIGN KEY (CodSucursal)  REFERENCES dim_sucursal(CodSucursal),
    FOREIGN KEY (CodProveedor) REFERENCES dim_proveedor(CodProveedor)
);
"""

In [None]:
engine = create_engine(connection_string, echo=True)
print(f"Engine created: {engine}")

try:
    with engine.connect() as connection:
        connection.execute(text(sql_script_drop_db))
        connection.commit();
        print("Base de datos eliminada.")
        connection.execute(text(sql_script_create_db))
        connection.commit();
        print("Base de datos creada.")
        connection.execute(text(sql_script_create_table_dim_fecha))
        connection.execute(text(sql_script_create_table_dim_producto))
        connection.execute(text(sql_script_create_table_dim_sucursal))
        connection.execute(text(sql_script_create_table_dim_cliente))
        connection.execute(text(sql_script_create_table_dim_vendedor))
        connection.execute(text(sql_script_create_table_dim_proveedor))
        connection.execute(text(sql_script_create_table_fac_ventas))
        connection.execute(text(sql_script_create_table_fac_compras))
        connection.commit();
        dim_fecha.to_sql(
            name = 'dim_fecha',
            con = connection,
            schema = 'DWH',
            if_exists = 'append',
            index = False
        )
        connection.commit();
    print("DDL ejecutado correctamente.")
except Exception as e:
    print(f"Error al ejecutar DDL: {e}")

Engine created: Engine(mysql+pymysql://dba:***@localhost:3306/mysql)
2025-12-12 17:17:01,123 INFO sqlalchemy.engine.Engine SELECT DATABASE()
2025-12-12 17:17:01,124 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-12-12 17:17:01,129 INFO sqlalchemy.engine.Engine SELECT @@sql_mode
2025-12-12 17:17:01,130 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-12-12 17:17:01,136 INFO sqlalchemy.engine.Engine SELECT @@lower_case_table_names
2025-12-12 17:17:01,136 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-12-12 17:17:01,140 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-12-12 17:17:01,142 INFO sqlalchemy.engine.Engine 
DROP DATABASE DWH;

2025-12-12 17:17:01,144 INFO sqlalchemy.engine.Engine [generated in 0.00323s] {}
