<a href="https://colab.research.google.com/github/rubuntu/uaa-417-sistemas-de-gestion-de-bases-de-datos-avanzados/blob/main/Ejercicio_SP_UDF_Triggers_ETL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio: Implementación del ELT para el Data Warehouse con ClassicModels

El esquema es de Classic Models, un minorista de modelos a escala de coches clásicos. La base de datos contiene datos comerciales típicos, como clientes, pedidos, artículos de línea de pedido, productos, etc.

Fuente original: www.mysqltutorial.org

![classicmodels[1].svg]()

**Contexto del Ejercicio:**

La empresa ClassicModels requiere construir un Data Warehouse para mejorar sus capacidades analíticas y de toma de decisiones. La base de datos transaccional **ClassicModels**, originalmente en MySQL/MariaDB, ha sido transferida al esquema **ODS** (Operational Data Store) de una base de datos PostgreSQL llamada **DATA_WAREHOUSE**. El objetivo es implementar el proceso **ELT** (Extract, Load, Transform) para transformar y cargar los datos al esquema **DATA_MARTS**, donde se aplicará el **modelado dimensional en estrella** siguiendo la **metodología de Kimball**.

---

**Objetivos Específicos:**

1. **Crear las tablas de dimensiones y hechos** en el esquema **DATA_MARTS** según el diseño dimensional basado en la metodología de Kimball.

2. **Implementar el proceso ELT**, escribiendo scripts SQL que:

   - Extraigan los datos del esquema **ODS**.
   - Transformen los datos según los requerimientos del modelo dimensional.
   - Carguen los datos en las tablas correspondientes del esquema **DATA_MARTS**.

3. **Asegurar la integridad referencial** y la calidad de los datos durante todo el proceso. (Deseable)

**Observación:** Hacer la implementación con procedimientos almacenados. Se recomienda usar "upsert" para actualizar la tabla de hechos y dimensiones.

**Introducción**

La base de datos educativa **ClassicModels** simula una empresa que vende autos a escala y otros productos clásicos. Contiene información sobre clientes, empleados, pedidos, productos y oficinas. Utilizando la **metodología de Kimball**, diseñaremos un **Data Warehouse** en PostgreSQL, mapeando los datos de origen desde MySQL/MariaDB. Proporcionaremos el **linaje de datos**, detallando cómo cada campo en las dimensiones y hechos se origina y transforma desde las tablas fuente.

---

**Metodología de Kimball**

La metodología de Kimball se centra en el modelado dimensional, diseñando esquemas en estrella que facilitan el análisis y la toma de decisiones empresariales. Este enfoque implica:

- **Identificación de Procesos de Negocio**: Determinar los procesos clave que el Data Warehouse debe soportar.
- **Granos**: Definir el nivel de detalle (grano) de los datos almacenados.
- **Dimensiones**: Identificar las entidades que describen los hechos.
- **Hechos**: Determinar las medidas que se analizarán.

---

**Diseño del Data Warehouse**

Basándonos en los requerimientos del negocio y los datos disponibles, diseñaremos las siguientes tablas:

### Dimensiones:

1. **dim_producto**
2. **dim_cliente**
3. **dim_empleado**
4. **dim_tiempo**
5. **dim_oficina**

### Tabla de Hechos:

1. **fact_ventas**

---

**Linaje de Datos: Mapeo de Origen de Datos**

A continuación, se presenta el mapeo detallado de cada dimensión y la tabla de hechos, incluyendo las transformaciones aplicadas.

---

### **Dimensión `dim_producto`**

**Descripción**: Información detallada de los productos vendidos.

#### **Origen de Datos**:

- **`products`**: Información básica de productos.
- **`productlines`**: Detalles de las líneas de productos.

#### **Mapeo y Transformaciones**:

| Campo en `dim_producto`          | Origen                         | Transformación                            |
|----------------------------------|--------------------------------|-------------------------------------------|
| `producto_key`                   | Generado                       | Secuencia o ID autoincremental            |
| `product_code`                   | `products.productCode`         | Ninguna                                   |
| `nombre_producto`                | `products.productName`         | Ninguna                                   |
| `linea_producto`                 | `productlines.productLine`     | JOIN en `productLine`                     |
| `escala`                         | `products.productScale`        | Ninguna                                   |
| `proveedor`                      | `products.productVendor`       | Ninguna                                   |
| `descripcion`                    | `products.productDescription`  | Ninguna                                   |
| `cantidad_en_stock`              | `products.quantityInStock`     | Ninguna                                   |
| `precio_compra`                  | `products.buyPrice`            | Ninguna                                   |
| `precio_venta`                   | `products.MSRP`                | Ninguna                                   |

#### **Relaciones Clave**:

- **JOIN con `productlines`**: Para obtener detalles de la línea de producto.

---

### **Dimensión `dim_cliente`**

**Descripción**: Información de los clientes.

#### **Origen de Datos**:

- **`customers`**: Información de clientes.

#### **Mapeo y Transformaciones**:

| Campo en `dim_cliente`           | Origen                         | Transformación                            |
|----------------------------------|--------------------------------|-------------------------------------------|
| `cliente_key`                    | Generado                       | Secuencia o ID autoincremental            |
| `customer_number`                | `customers.customerNumber`     | Ninguna                                   |
| `nombre_cliente`                 | `customers.customerName`       | Ninguna                                   |
| `contacto_nombre`                | `customers.contactFirstName`   | Ninguna                                   |
| `contacto_apellido`              | `customers.contactLastName`    | Ninguna                                   |
| `telefono`                       | `customers.phone`              | Ninguna                                   |
| `direccion_linea1`               | `customers.addressLine1`       | Ninguna                                   |
| `direccion_linea2`               | `customers.addressLine2`       | Ninguna                                   |
| `ciudad`                         | `customers.city`               | Ninguna                                   |
| `estado`                         | `customers.state`              | Ninguna                                   |
| `codigo_postal`                  | `customers.postalCode`         | Ninguna                                   |
| `pais`                           | `customers.country`            | Ninguna                                   |
| `empleado_key`                   | `customers.salesRepEmployeeNumber` | Mapeo a `dim_empleado`                |

---

### **Dimensión `dim_empleado`**

**Descripción**: Información sobre los empleados y representantes de ventas.

#### **Origen de Datos**:

- **`employees`**: Información de empleados.
- **`offices`**: Información de oficinas.

#### **Mapeo y Transformaciones**:

| Campo en `dim_empleado`          | Origen                         | Transformación                            |
|----------------------------------|--------------------------------|-------------------------------------------|
| `empleado_key`                   | Generado                       | Secuencia o ID autoincremental            |
| `employee_number`                | `employees.employeeNumber`     | Ninguna                                   |
| `nombre`                         | `employees.firstName`          | Ninguna                                   |
| `apellido`                       | `employees.lastName`           | Ninguna                                   |
| `extension`                      | `employees.extension`          | Ninguna                                   |
| `email`                          | `employees.email`              | Ninguna                                   |
| `oficina_key`                    | `employees.officeCode`         | Mapeo a `dim_oficina`                     |
| `puesto`                         | `employees.jobTitle`           | Ninguna                                   |
| `jefe_employee_number`           | `employees.reportsTo`          | Mapeo recursivo a `dim_empleado`          |

---

### **Dimensión `dim_oficina`**

**Descripción**: Detalles de las oficinas de la empresa.

#### **Origen de Datos**:

- **`offices`**: Información de oficinas.

#### **Mapeo y Transformaciones**:

| Campo en `dim_oficina`           | Origen                         | Transformación                            |
|----------------------------------|--------------------------------|-------------------------------------------|
| `oficina_key`                    | Generado                       | Secuencia o ID autoincremental            |
| `office_code`                    | `offices.officeCode`           | Ninguna                                   |
| `ciudad`                         | `offices.city`                 | Ninguna                                   |
| `estado`                         | `offices.state`                | Ninguna                                   |
| `pais`                           | `offices.country`              | Ninguna                                   |
| `codigo_postal`                  | `offices.postalCode`           | Ninguna                                   |
| `territorio`                     | `offices.territory`            | Ninguna                                   |
| `direccion_linea1`               | `offices.addressLine1`         | Ninguna                                   |
| `direccion_linea2`               | `offices.addressLine2`         | Ninguna                                   |

---

### **Dimensión `dim_tiempo`**

**Descripción**: Información temporal para análisis.

#### **Origen de Datos**:

- **`orders.orderDate`**: Fechas de pedidos.
- **`payments.paymentDate`**: Fechas de pagos.

#### **Mapeo y Transformaciones**:

| Campo en `dim_tiempo`            | Origen                         | Transformación                            |
|----------------------------------|--------------------------------|-------------------------------------------|
| `tiempo_key`                     | Generado                       | Secuencia o ID autoincremental            |
| `fecha`                          | Generado                       | Rango de fechas entre mín. y máx.         |
| `dia`                            | `fecha`                        | `EXTRACT(DAY FROM fecha)`                 |
| `mes`                            | `fecha`                        | `EXTRACT(MONTH FROM fecha)`               |
| `anio`                           | `fecha`                        | `EXTRACT(YEAR FROM fecha)`                |
| `trimestre`                      | `fecha`                        | `EXTRACT(QUARTER FROM fecha)`             |
| `nombre_dia`                     | `fecha`                        | `TO_CHAR(fecha, 'Day')`                   |
| `nombre_mes`                     | `fecha`                        | `TO_CHAR(fecha, 'Month')`                 |
| `es_fin_de_semana`               | `fecha`                        | Verificación de día de la semana          |

---

### **Tabla de Hechos `fact_ventas`**

**Descripción**: Registra las ventas realizadas.

#### **Origen de Datos**:

- **`orders`**: Información de pedidos.
- **`orderdetails`**: Detalles de pedidos.
- **`payments`**: Información de pagos.

#### **Mapeo y Transformaciones**:

| Campo en `fact_ventas`           | Origen                         | Transformación                            |
|----------------------------------|--------------------------------|-------------------------------------------|
| `venta_key`                      | Generado                       | Secuencia o ID autoincremental            |
| `order_number`                   | `orders.orderNumber`           | Ninguna                                   |
| `producto_key`                   | `orderdetails.productCode`     | Mapeo a `dim_producto`                    |
| `cliente_key`                    | `orders.customerNumber`        | Mapeo a `dim_cliente`                     |
| `empleado_key`                   | `customers.salesRepEmployeeNumber` | Mapeo a `dim_empleado`               |
| `tiempo_key`                     | `orders.orderDate`             | Mapeo a `dim_tiempo`                      |
| `cantidad_pedida`                | `orderdetails.quantityOrdered` | Ninguna                                   |
| `precio_unidad`                  | `orderdetails.priceEach`       | Ninguna                                   |
| `monto_total`                    | Calculado                      | `cantidad_pedida * precio_unidad`         |
| `estado_pedido`                  | `orders.status`                | Ninguna                                   |
| `fecha_pedido`                   | `orders.orderDate`             | Ninguna                                   |
| `fecha_requerida`                | `orders.requiredDate`          | Ninguna                                   |
| `fecha_envio`                    | `orders.shippedDate`           | Ninguna                                   |

#### **Relaciones Clave**:

- **JOIN entre `orders` y `orderdetails`**: Para vincular pedidos y detalles.
- **JOIN con `dim_producto`**: A través de `productCode`.
- **JOIN con `dim_cliente`**: A través de `customerNumber`.
- **JOIN con `dim_empleado`**: A través de `salesRepEmployeeNumber`.
- **JOIN con `dim_tiempo`**: Basado en `orderDate`.

---

**Proceso ETL y Transformaciones**

1. **Extracción**:

   - Conectar a la base de datos ClassicModels (MySQL/MariaDB).
   - Extraer datos de las tablas: `products`, `productlines`, `customers`, `employees`, `offices`, `orders`, `orderdetails`, `payments` , en el esquema ODS de la base de datos DATA_WAREHOUSE

2. **Transformación**:

   - **Dimensiones**:
     - Crear claves sustitutas (`_key`) autoincrementales.
     - Realizar joins necesarios para enriquecer las dimensiones.
     - Estandarizar formatos de datos (fechas, textos).
     - Manejar valores nulos y datos inconsistentes.

   - **Hechos**:
     - Calcular medidas (e.g., `monto_total`).
     - Asegurar integridad referencial con dimensiones.

3. **Carga**:

   - Conectar a la base de datos DATA_WAREHOUSE, esquema DATA_MARTS (PostgreSQL)
   - Crear esquemas y tablas según diseño.
   - Insertar datos transformados en las tablas de dimensiones y hechos.
   - Establecer índices y claves foráneas para optimizar consultas.

---

**Ejemplo de Mapeo Detallado para `fact_ventas`**

- **`venta_key`**: Generado secuencialmente en PostgreSQL.
- **`order_number`**: Tomado directamente de `orders.orderNumber`.
- **`producto_key`**: Obtenido al mapear `orderdetails.productCode` a `dim_producto.product_code` y obtener `dim_producto.producto_key`.
- **`cliente_key`**: Mapeado desde `orders.customerNumber` a `dim_cliente.customer_number`, obteniendo `dim_cliente.cliente_key`.
- **`empleado_key`**: A través de `customers.salesRepEmployeeNumber` mapeado a `dim_empleado.employee_number`, obteniendo `dim_empleado.empleado_key`.
- **`tiempo_key`**: Basado en `orders.orderDate`, se busca en `dim_tiempo.fecha` para obtener `dim_tiempo.tiempo_key`.
- **`cantidad_pedida`**: Tomado de `orderdetails.quantityOrdered`.
- **`precio_unidad`**: Tomado de `orderdetails.priceEach`.
- **`monto_total`**: Calculado multiplicando `cantidad_pedida` por `precio_unidad`.
- **`estado_pedido`**: Tomado de `orders.status`.
- **`fecha_pedido`**: Tomado de `orders.orderDate`.
- **`fecha_requerida`**: Tomado de `orders.requiredDate`.
- **`fecha_envio`**: Tomado de `orders.shippedDate`.

---

**Implementación Técnica**

- **Herramientas**: Utilizar una herramienta ETL (por ejemplo, DBT, Pentaho Data Integration, Talend) o scripts personalizados en Python con librerías como `pymysql` y `psycopg2` para conectar a ambas bases de datos.
- **Conexión a Bases de Datos**:
  - **MySQL/MariaDB**: Extraer datos de origen en el esquema ODS de base de datos PostgreSQL.
  - **PostgreSQL**: Cargar datos transformados en el Data Warehouse.
- **Procesamiento en Bloques**: Para manejar grandes volúmenes de datos, procesar en lotes para optimizar memoria y rendimiento.
- **Programación**: Automatizar el proceso ETL para actualizaciones periódicas.

---

**Ventajas del Enfoque**

- **Análisis Multidimensional**: El modelo en estrella facilita consultas complejas y análisis de datos.
- **Escalabilidad**: Añadir nuevas dimensiones o hechos es más sencillo.
- **Flexibilidad**: Adaptable a cambios en los requerimientos del negocio.
- **Trazabilidad**: El linaje de datos permite rastrear el origen y transformación de cada dato.

---

**Conclusión**

Siguiendo la **metodología de Kimball**, hemos diseñado un Data Warehouse en PostgreSQL basado en la base de datos ClassicModels, detallando el linaje de datos desde las tablas de origen en MySQL/MariaDB. Este enfoque garantiza que los datos están estructurados para análisis eficientes y soportan las necesidades de información del negocio.

Este Data Warehouse permitirá a la empresa:

- Analizar ventas por producto, cliente, empleado y tiempo.
- Evaluar el rendimiento de representantes de ventas y oficinas.
- Identificar tendencias y patrones en las ventas.
- Tomar decisiones informadas basadas en datos confiables.

---

**Nota**: Este diseño es una propuesta que puede ajustarse según los requerimientos específicos del negocio y las particularidades de los datos reales. Es importante validar y posiblemente enriquecer este diseño con el conocimiento detallado de los procesos empresariales y necesidades de análisis.

In [None]:
%matplotlib inline
import matplotlib
import seaborn as sns
matplotlib.rcParams['savefig.dpi'] = 144

In [None]:
%%capture
!apt-get install postgresql postgresql-contrib
!pip install ipython-sql psycopg2-binary pymysql sqlalchemy

In [None]:
# Arrancar el servicio de PostgreSQL
!service postgresql start

# Crear la base de datos data_warehouse si no la creaste previamente
!sudo -u postgres createdb data_warehouse

# Cambiar la contraseña del usuario postgres
!sudo -u postgres psql -c "ALTER USER postgres PASSWORD 'postgres';"

# Conectarse a la base de datos y crear los esquemas
!sudo -u postgres psql -d data_warehouse -c "CREATE SCHEMA IF NOT EXISTS ods;"
!sudo -u postgres psql -d data_warehouse -c "CREATE SCHEMA IF NOT EXISTS data_marts;"


In [None]:
%load_ext sql
%sql postgresql://postgres:postgres@localhost/data_warehouse

In [None]:
import pandas as pd
from sqlalchemy import create_engine, inspect

# Parámetros de conexión para MariaDB
mariadb_usuario = 'guest'
mariadb_contraseña = 'relational'
mariadb_host = 'db.relational-data.org'  # o la dirección de tu host
mariadb_puerto = 3306  # Puerto por defecto para MariaDB/MySQL
mariadb_base_datos = 'classicmodels'

# Parámetros de conexión para PostgreSQL
postgres_usuario = 'postgres'
postgres_contraseña = 'postgres'
postgres_host = 'localhost'  # o la dirección de tu host
postgres_puerto = 5432  # Puerto por defecto para PostgreSQL
postgres_base_datos = 'classicmodels'

# Crear el motor de conexión para MariaDB
mariadb_engine = create_engine(
    f'mysql+pymysql://{mariadb_usuario}:{mariadb_contraseña}@{mariadb_host}:{mariadb_puerto}/{mariadb_base_datos}'
)

# Crear el motor de conexión para PostgreSQL
postgres_engine = create_engine(
    f'postgresql+psycopg2://{postgres_usuario}:{postgres_contraseña}@{postgres_host}:{postgres_puerto}/{postgres_base_datos}'
)

# Conectar a PostgreSQL para crear el esquema ODS si no existe
with postgres_engine.connect() as conn:
    conn.execute("CREATE SCHEMA IF NOT EXISTS ods;")

# Obtener la lista de tablas de MariaDB
inspector = inspect(mariadb_engine)
tablas = inspector.get_table_names()

# Iterar sobre las tablas y copiarlas a PostgreSQL en el esquema ODS
for nombre_tabla in tablas:
    print(f"Procesando la tabla {nombre_tabla}")
    df = pd.read_sql_table(nombre_tabla, mariadb_engine)

    # Copiar la tabla al esquema ODS en PostgreSQL
    df.to_sql(f"ods.{nombre_tabla}", postgres_engine, index=False, if_exists='replace')

    print(f"Tabla {nombre_tabla} copiada exitosamente.")


In [None]:
%%sql

select *
from ods.customers
limit 10;