In [1]:
from sqlalchemy import create_engine, text
import contextlib, pymysql, os, urllib.request
import pandas as pd

In [2]:
DOWNLOAD_ROOT = "https://raw.githubusercontent.com/Vallit0/SS2_EVD2025/main/clase5/"
COMPRAS_URL = DOWNLOAD_ROOT + "compras.csv"
VENTAS_URL = DOWNLOAD_ROOT + "ventas.csv"

COMPRAS_PATH = os.path.join("crudos", "compras")
VENTAS_PATH = os.path.join("crudos", "ventas")

def descargar_csv(url, destino, nombre):
    os.makedirs(destino, exist_ok=True)
    path_final = os.path.join(destino, nombre)
    urllib.request.urlretrieve(url, path_final)
    print(f"{nombre} descargado exitosamente")

def descargar_sql(url, destino, nombre):
    os.makedirs(destino, exist_ok=True)
    path_final = os.path.join(destino, nombre)
    urllib.request.urlretrieve(url, path_final)
    print(f"{nombre} SQL Descargado")

descargar_csv(COMPRAS_URL, COMPRAS_PATH, "compras.csv")
descargar_csv(VENTAS_URL, VENTAS_PATH, "ventas.csv")

compras.csv descargado exitosamente
ventas.csv descargado exitosamente


In [125]:
compras = pd.read_csv(os.path.join(COMPRAS_PATH, "compras.csv"))
ventas  = pd.read_csv(os.path.join(VENTAS_PATH,  "ventas.csv"))

compras


Unnamed: 0,Fecha,CodProveedor,NombreProveedor,CodProducto,NombreProducto,MarcaProducto,Categoria,CodSucursal,NombreSucursal,Region,Departamento,Unidades,CostoUnitario
0,11/11/2019,P0001,Mercedes Flavio Guerra Pizarro,AC00002,Cerveza Hofbrau Munchen,ZENU,Vinos y Licores,S0004,Sucursal Oeste,Occidente,Huehuetenango,368,285.09
1,08/12/2022,P0001,Mercedes Flavio Guerra Pizarro,AC00003,Queso Camembert,MONTICELLO,Charcutería,S0003,Sucursal Este,Nororiente,Zacapa,235,435.59
2,28/10/2022,P0001,Mercedes Flavio Guerra Pizarro,AC00001,Gaseosa Postobon Uva,POSTOBON,Bebidas,S0001,Sucursal Norte,Metropolitana,Guatemala,282,223.50
3,08/07/2018,P0001,Mercedes Flavio Guerra Pizarro,AC00003,Queso Camembert,MONTICELLO,Charcutería,S0004,Sucursal Oeste,Occidente,Huehuetenango,261,452.27
4,16/08/2020,P0001,Mercedes Flavio Guerra Pizarro,AC00006,Vino espumoso Rothberg,SINFONIA,Vinos y Licores,S0002,Sucursal Sur,Suroccidente,Quetzaltenango,612,82.30
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,28/07/2019,,Citlali Florencia Alcántar Mena,AC00001,Gaseosa Postobon Uva,POSTOBON,Bebidas,S0001,Sucursal Norte,Metropolitana,Guatemala,624,427.70
996,21/03/2019,,Citlali Florencia Alcántar Mena,AC00002,Cerveza Hofbrau Munchen,ZENU,Vinos y Licores,S0004,Sucursal Oeste,Occidente,Huehuetenango,634,441.02
997,30/11/2023,,Citlali Florencia Alcántar Mena,AC00006,Vino espumoso Rothberg,SINFONIA,Vinos y Licores,S0003,Sucursal Este,Nororiente,Zacapa,748,963.89
998,20/02/2019,,Citlali Florencia Alcántar Mena,AC00003,Queso Camembert,MONTICELLO,Charcutería,S0004,Sucursal Oeste,Occidente,Huehuetenango,658,154.36


In [64]:
# Dimension fecha

fechas_unicas = pd.concat([compras["Fecha"], ventas["Fecha"]], ignore_index=True).dropna().drop_duplicates()

dim_fecha = pd.DataFrame({"Fecha": fechas_unicas})
nan_rows = dim_fecha[dim_fecha.isna().any(axis=1)]
dim_fecha["Fecha"] = pd.to_datetime(dim_fecha["Fecha"], format='%d/%m/%Y', errors = 'coerce')
dim_fecha["id_fecha"] = dim_fecha["Fecha"].dt.strftime("%Y%m%d").astype(int, errors = 'ignore')
dim_fecha["anio"] = dim_fecha["Fecha"].dt.year
dim_fecha["mes"] = dim_fecha["Fecha"].dt.month
dim_fecha["dia"] = dim_fecha["Fecha"].dt.day
mes_nombres = {
    1:"Enero", 2:"Febrero", 3:"Marzo", 4:"Abril",
    5:"Mayo",  6:"Junio",   7:"Julio", 8:"Agosto",
    9:"Septiembre", 10:"Octubre", 11:"Noviembre", 12:"Diciembre"
}
dim_fecha["nombre_mes"] = dim_fecha["mes"].map(mes_nombres)
dim_fecha["trimestre"] = "T" + (((dim_fecha["mes"] - 1) // 3) + 1).astype(str)
dim_fecha = dim_fecha[["id_fecha", "anio", "nombre_mes", "trimestre", "dia", "mes"]]
dim_fecha=dim_fecha[~dim_fecha["id_fecha"].isnull()]


In [115]:
# Dimension producto
productos_unicos = pd.concat([compras[["CodProducto","NombreProducto","MarcaProducto","Categoria"]]
                              , ventas[["CodProducto","NombreProducto","MarcaProducto","Categoria"]]], ignore_index=False).dropna().drop_duplicates()
productos_unicos = productos_unicos.drop_duplicates(subset=["CodProducto"])
productos_unicos = productos_unicos[["CodProducto", "NombreProducto", "MarcaProducto", "Categoria"]]
productos_unicos=productos_unicos[~productos_unicos["CodProducto"].isnull()]


In [116]:
# Dimension sucursal

sucursal_unicas = pd.concat([compras[["CodSucursal","NombreSucursal","Region","Departamento"]]
                              , ventas[["CodSucursal","NombreSucursal","Region","Departamento"]]], ignore_index=False).dropna().drop_duplicates()
sucursal_unicas = sucursal_unicas.drop_duplicates(subset=["CodSucursal"])
sucursal_unicas = sucursal_unicas[["CodSucursal", "NombreSucursal", "Region", "Departamento"]]

sucursal_unicas=sucursal_unicas[~sucursal_unicas["CodSucursal"].isnull()]


In [121]:
# Dimension cliente

clientes_unicos = pd.concat([ ventas[["CodCliente","NombreCliente","TipoCliente"]]], ignore_index=False).dropna().drop_duplicates()
clientes_unicos = clientes_unicos.drop_duplicates(subset=["CodCliente"])
clientes_unicos = clientes_unicos[["CodCliente", "NombreCliente", "TipoCliente"]]
clientes_unicos["CodCliente"] = clientes_unicos["CodCliente"].str.strip()
clientes_unicos=clientes_unicos[~clientes_unicos["CodCliente"].isnull()]
clientes_unicos = clientes_unicos.drop_duplicates(subset=["CodCliente"])
clientes_unicos


Unnamed: 0,CodCliente,NombreCliente,TipoCliente
0,C0100,Iván Gonzalo Barreto Ordóñez,Mayorista
6,C0099,Isabela Laureano,Mayorista
16,C0098,Pedro Linares,Mayorista
27,C0097,Ing. Liliana Sevilla,Mayorista
39,C0096,Ing. Lucía Bonilla,Mayorista
...,...,...,...
938,C0005,Ana Ofelia Serna,Mayorista
949,C0004,Patricio Almonte,Mayorista
965,C0003,Silvia Santacruz,Mayorista
975,C0002,Sr(a). Eduardo Arias,Mayorista


In [126]:
# Dimension proveedores
proveedores_unicos = pd.concat([ compras[["CodProveedor","NombreProveedor"]]], ignore_index=False).dropna().drop_duplicates()
proveedores_unicos = proveedores_unicos.drop_duplicates(subset=["CodProveedor"])
proveedores_unicos = proveedores_unicos[["CodProveedor", "NombreProveedor"]]
proveedores_unicos["CodProveedor"] = proveedores_unicos["CodProveedor"].str.strip()
proveedores_unicos=proveedores_unicos[~proveedores_unicos["CodProveedor"].isnull()]
proveedores_unicos = proveedores_unicos.drop_duplicates(subset=["CodProveedor"])
proveedores_unicos

Unnamed: 0,CodProveedor,NombreProveedor
0,P0001,Mercedes Flavio Guerra Pizarro
11,P0002,Esther Guadalupe Haro Soliz
19,P0003,Ing. Eugenia Crespo
23,P0004,Porfirio Asunción Barraza Monroy
28,P0005,Lourdes Garica
...,...,...
939,P0096,Ing. Gilberto del Río
948,P0097,Emiliano Quezada Concepción
960,P0098,Sr(a). Ilse Medina
970,P0099,Porfirio Augusto Contreras


In [122]:
# Definicion de credenciales de base de datos

DB_USER = 'dba'
DB_PASSWORD = 'Ss2_USAC2025#'
DB_HOST = 'localhost'
DB_PORT = '3306'
DB_NAME = 'mysql'

connection_string = (
    f"mysql+pymysql://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_NAME}"
)

In [123]:
# DDL

sql_script_drop_db = """
DROP DATABASE DWH;
"""

sql_script_create_db = """
CREATE DATABASE IF NOT EXISTS DWH;
"""

sql_script_create_table_dim_fecha = """
CREATE TABLE DWH.dim_fecha (
    id_fecha    INT PRIMARY KEY,
    anio        INT NOT NULL,
    nombre_mes  NVARCHAR(20),
    trimestre   NVARCHAR(20),
    dia         INT NOT NULL,
    mes         INT NOT NULL
);
"""

sql_script_create_table_dim_producto= """
CREATE TABLE DWH.dim_producto (
    CodProducto     NVARCHAR(50) PRIMARY KEY,
    NombreProducto  NVARCHAR(200),
    MarcaProducto   NVARCHAR(100),
    Categoria       NVARCHAR(100)
);
"""

sql_script_create_table_dim_sucursal= """
CREATE TABLE DWH.dim_sucursal (
    CodSucursal     NVARCHAR(50) PRIMARY KEY,
    NombreSucursal  NVARCHAR(200),
    Region          NVARCHAR(100),
    Departamento    NVARCHAR(100)
);
"""

sql_script_create_table_dim_cliente= """
CREATE TABLE DWH.dim_cliente (
    CodCliente      NVARCHAR(50) PRIMARY KEY,
    NombreCliente   NVARCHAR(200),
    TipoCliente     NVARCHAR(100)
);
"""

sql_script_create_table_dim_vendedor= """
CREATE TABLE DWH.dim_vendedor (
    CodVendedor     NVARCHAR(50) PRIMARY KEY,
    NombreVendedor  NVARCHAR(200)
);
"""

sql_script_create_table_dim_proveedor= """
CREATE TABLE DWH.dim_proveedor (
    CodProveedor    NVARCHAR(50) PRIMARY KEY,
    NombreProveedor NVARCHAR(200)
);
"""

sql_script_create_table_fac_ventas= """
CREATE TABLE DWH.fac_ventas (
    id_venta        INT AUTO_INCREMENT PRIMARY KEY,
    id_fecha        INT NOT NULL,
    CodProducto     NVARCHAR(50) NOT NULL,
    CodSucursal     NVARCHAR(50) NOT NULL,
    CodCliente      NVARCHAR(50) NOT NULL,
    CodVendedor     NVARCHAR(50) NOT NULL,
    unidades        INT NOT NULL,
    precioUnitario  DECIMAL(10,2)
);
"""
sql_script_create_table_fac_compras= """
CREATE TABLE DWH.fac_compras (
    id_compra       INT AUTO_INCREMENT PRIMARY KEY,
    id_fecha        INT NOT NULL,
    CodProducto     NVARCHAR(50) NOT NULL,
    CodSucursal     NVARCHAR(50) NOT NULL,
    CodProveedor    NVARCHAR(50) NOT NULL,
    unidades        INT NOT NULL,
    costoUnitario   DECIMAL(10,2),
    FOREIGN KEY (id_fecha)     REFERENCES dim_fecha(id_fecha),
    FOREIGN KEY (CodProducto)  REFERENCES dim_producto(CodProducto),
    FOREIGN KEY (CodSucursal)  REFERENCES dim_sucursal(CodSucursal),
    FOREIGN KEY (CodProveedor) REFERENCES dim_proveedor(CodProveedor)
);
"""

In [124]:
engine = create_engine(connection_string, echo=True)
print(f"Engine created: {engine}")

try:
    with engine.connect() as connection:
        connection.execute(text(sql_script_drop_db))
        connection.commit();
        print("Base de datos eliminada.")
        connection.execute(text(sql_script_create_db))
        connection.commit();
        print("Base de datos creada.")
        connection.execute(text(sql_script_create_table_dim_fecha))
        connection.execute(text(sql_script_create_table_dim_producto))
        connection.execute(text(sql_script_create_table_dim_sucursal))
        connection.execute(text(sql_script_create_table_dim_cliente))
        connection.execute(text(sql_script_create_table_dim_vendedor))
        connection.execute(text(sql_script_create_table_dim_proveedor))
        connection.execute(text(sql_script_create_table_fac_ventas))
        connection.execute(text(sql_script_create_table_fac_compras))
        connection.commit();
        dim_fecha.to_sql(
            name = 'dim_fecha',
            con = connection,
            schema = 'DWH',
            if_exists = 'append',
            index = False
        )
        productos_unicos.to_sql(
            name = 'dim_producto',
            con = connection,
            schema = 'DWH',
            if_exists = 'append',
            index = False
        )
        sucursal_unicas.to_sql(
            name = 'dim_sucursal',
            con = connection,
            schema = 'DWH',
            if_exists = 'append',
            index = False
        )
        clientes_unicos.to_sql(
            name = 'dim_cliente',
            con = connection,
            schema = 'DWH',
            if_exists = 'append',
            index = False
        )
        proveedores_unicos.to_sql(
            name = 'dim_proveedor',
            con = connection,
            schema = 'DWH',
            if_exists = 'append',
            index = False
        )
        connection.commit();
    print("DDL ejecutado correctamente.")
except Exception as e:
    print(f"Error al ejecutar DDL: {e}")

Engine created: Engine(mysql+pymysql://dba:***@localhost:3306/mysql)
2025-12-12 18:42:51,152 INFO sqlalchemy.engine.Engine SELECT DATABASE()
2025-12-12 18:42:51,154 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-12-12 18:42:51,163 INFO sqlalchemy.engine.Engine SELECT @@sql_mode
2025-12-12 18:42:51,164 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-12-12 18:42:51,165 INFO sqlalchemy.engine.Engine SELECT @@lower_case_table_names
2025-12-12 18:42:51,169 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-12-12 18:42:51,174 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-12-12 18:42:51,175 INFO sqlalchemy.engine.Engine 
DROP DATABASE DWH;

2025-12-12 18:42:51,177 INFO sqlalchemy.engine.Engine [generated in 0.00317s] {}
2025-12-12 18:42:51,264 INFO sqlalchemy.engine.Engine COMMIT
Base de datos eliminada.
2025-12-12 18:42:51,269 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2025-12-12 18:42:51,272 INFO sqlalchemy.engine.Engine 
CREATE DATABASE IF NOT EXISTS DWH;

2025-12-12 18:42:51,276 I