## Linaje de datos con metodología de Kimball

Siguiendo la **metodología de Kimball**, veremos el **linaje de datos** que mapea el origen de los datos de las dimensiones y hechos en el proceso ETL desde el esquema `pagila` hacia el data warehouse `pagila_dw`.

La metodología de Kimball se centra en diseñar un data warehouse orientado al negocio, utilizando modelos dimensionales que facilitan el análisis y la toma de decisiones. En este enfoque, las tablas se dividen en **dimensiones** (entidades descriptivas) y **hechos** (transacciones o eventos medibles).

A continuación, se presenta el mapeo detallado de origen de datos para cada dimensión y la tabla de hechos, incluyendo las transformaciones aplicadas y las relaciones entre las tablas.

---

## **Dimensión `dim_pelicula`**

**Descripción**: Contiene información detallada sobre las películas disponibles para alquiler.

### **Origen de Datos**:

- **`pagila.film`**: Información básica de las películas.
- **`pagila.language`**: Detalles del idioma de las películas.
- **`pagila.film_category`**: Relación entre películas y categorías.
- **`pagila.category`**: Nombres de las categorías.

### **Mapeo y Transformaciones**:

| Campo en `dim_pelicula`         | Origen                          | Transformación                                       |
|---------------------------------|---------------------------------|------------------------------------------------------|
| `pelicula_key`                  | Generado (secuencial)           | `ROW_NUMBER() OVER (ORDER BY film_id)`               |
| `film_id`                       | `film.film_id`                  | Ninguna                                              |
| `titulo`                        | `film.title`                    | Ninguna                                              |
| `descripcion`                   | `film.description`              | Ninguna                                              |
| `anio_lanzamiento`              | `film.release_year`             | Ninguna                                              |
| `idioma`                        | `language.name`                 | JOIN en `language_id`                                |
| `duracion_renta`                | `film.rental_duration`          | Ninguna                                              |
| `tasa_renta`                    | `film.rental_rate`              | Ninguna                                              |
| `duracion`                      | `film.length`                   | Ninguna                                              |
| `costo_reemplazo`               | `film.replacement_cost`         | Ninguna                                              |
| `clasificacion`                 | `film.rating`                   | Ninguna                                              |
| `caracteristicas_especiales`    | `film.special_features`         | Ninguna                                              |
| `categoria`                     | `category.name`                 | JOIN a través de `film_category` y `category`        |
| `fecha_ultima_actualizacion`    | `film.last_update`              | Ninguna                                              |

### **Relaciones y Transformaciones Clave**:

- **JOIN con `language`**: Se une `film.language_id` con `language.language_id` para obtener el nombre del idioma.
- **JOIN con `film_category` y `category`**: Para obtener la categoría de cada película.
- **Generación de `pelicula_key`**: Se utiliza una secuencia para generar una clave primaria única.

---

## **Dimensión `dim_cliente`**

**Descripción**: Almacena información sobre los clientes que alquilan películas.

### **Origen de Datos**:

- **`pagila.customer`**: Información personal y de contacto.
- **`pagila.address`**: Dirección del cliente.
- **`pagila.city`**: Ciudad del cliente.
- **`pagila.country`**: País del cliente.

### **Mapeo y Transformaciones**:

| Campo en `dim_cliente`          | Origen                          | Transformación                                       |
|---------------------------------|---------------------------------|------------------------------------------------------|
| `cliente_key`                   | Generado (secuencial)           | `ROW_NUMBER() OVER (ORDER BY customer_id)`           |
| `customer_id`                   | `customer.customer_id`          | Ninguna                                              |
| `nombre`                        | `customer.first_name`           | Ninguna                                              |
| `apellido`                      | `customer.last_name`            | Ninguna                                              |
| `email`                         | `customer.email`                | Ninguna                                              |
| `activo`                        | `customer.active`               | Ninguna                                              |
| `direccion`                     | `address.address`               | JOIN en `address_id`                                 |
| `ciudad`                        | `city.city`                     | JOIN en `city_id`                                    |
| `pais`                          | `country.country`               | JOIN en `country_id`                                 |
| `fecha_creacion`                | `customer.create_date`          | Ninguna                                              |
| `fecha_ultima_actualizacion`    | `customer.last_update`          | Ninguna                                              |

### **Relaciones y Transformaciones Clave**:

- **JOIN con `address`**: Se une `customer.address_id` con `address.address_id`.
- **JOIN con `city`**: Se une `address.city_id` con `city.city_id`.
- **JOIN con `country`**: Se une `city.country_id` con `country.country_id`.

---

## **Dimensión `dim_empleado`**

**Descripción**: Contiene información sobre los empleados de las tiendas.

### **Origen de Datos**:

- **`pagila.staff`**: Detalles personales y de empleo.

### **Mapeo y Transformaciones**:

| Campo en `dim_empleado`         | Origen                          | Transformación                                       |
|---------------------------------|---------------------------------|------------------------------------------------------|
| `empleado_key`                  | Generado (secuencial)           | `ROW_NUMBER() OVER (ORDER BY staff_id)`              |
| `staff_id`                      | `staff.staff_id`                | Ninguna                                              |
| `nombre`                        | `staff.first_name`              | Ninguna                                              |
| `apellido`                      | `staff.last_name`               | Ninguna                                              |
| `email`                         | `staff.email`                   | Ninguna                                              |
| `tienda_id`                     | `staff.store_id`                | Ninguna                                              |
| `activo`                        | `staff.active`                  | Ninguna                                              |
| `nombre_usuario`                | `staff.username`                | Ninguna                                              |
| `fecha_ultima_actualizacion`    | `staff.last_update`             | Ninguna                                              |

---

## **Dimensión `dim_tienda`**

**Descripción**: Proporciona detalles sobre las tiendas físicas.

### **Origen de Datos**:

- **`pagila.store`**: Información básica de la tienda.
- **`pagila.address`**: Dirección de la tienda.
- **`pagila.city`**: Ciudad de la tienda.
- **`pagila.country`**: País de la tienda.

### **Mapeo y Transformaciones**:

| Campo en `dim_tienda`           | Origen                          | Transformación                                       |
|---------------------------------|---------------------------------|------------------------------------------------------|
| `tienda_key`                    | Generado (secuencial)           | `ROW_NUMBER() OVER (ORDER BY store_id)`              |
| `store_id`                      | `store.store_id`                | Ninguna                                              |
| `gerente_staff_id`              | `store.manager_staff_id`        | Ninguna                                              |
| `direccion`                     | `address.address`               | JOIN en `address_id`                                 |
| `ciudad`                        | `city.city`                     | JOIN en `city_id`                                    |
| `pais`                          | `country.country`               | JOIN en `country_id`                                 |
| `codigo_postal`                 | `address.postal_code`           | Ninguna                                              |
| `telefono`                      | `address.phone`                 | Ninguna                                              |
| `fecha_ultima_actualizacion`    | `store.last_update`             | Ninguna                                              |

### **Relaciones y Transformaciones Clave**:

- **JOIN con `address`**: Se une `store.address_id` con `address.address_id`.
- **JOIN con `city`**: Se une `address.city_id` con `city.city_id`.
- **JOIN con `country`**: Se une `city.country_id` con `country.country_id`.

---

## **Dimensión `dim_tiempo`**

**Descripción**: Incluye información temporal para análisis de series de tiempo.

### **Origen de Datos**:

- Generado a partir de las fechas en **`pagila.rental.rental_date`**.

### **Mapeo y Transformaciones**:

| Campo en `dim_tiempo`           | Origen                          | Transformación                                       |
|---------------------------------|---------------------------------|------------------------------------------------------|
| `tiempo_key`                    | Generado (secuencial)           | `ROW_NUMBER() OVER (ORDER BY fecha)`                 |
| `fecha`                         | Generado                        | `generate_series` entre fechas mín. y máx.           |
| `dia`                           | `fecha`                         | `EXTRACT(DAY FROM fecha)`                            |
| `mes`                           | `fecha`                         | `EXTRACT(MONTH FROM fecha)`                          |
| `anio`                          | `fecha`                         | `EXTRACT(YEAR FROM fecha)`                           |
| `trimestre`                     | `fecha`                         | `EXTRACT(QUARTER FROM fecha)`                        |
| `nombre_dia`                    | `fecha`                         | `TO_CHAR(fecha, 'Day')`                              |
| `nombre_mes`                    | `fecha`                         | `TO_CHAR(fecha, 'Month')`                            |
| `es_fin_de_semana`              | `fecha`                         | Verificación si es sábado o domingo                  |

### **Relaciones y Transformaciones Clave**:

- **Generación de Fechas**: Se crea una serie de fechas basadas en el rango de `rental_date`.
- **Cálculo de Campos**: Se extraen componentes de la fecha para análisis temporal.

---

## **Tabla de Hechos `hechos_alquileres`**

**Descripción**: Registra las transacciones de alquiler, vinculando todas las dimensiones.

### **Origen de Datos**:

- **`pagila.rental`**: Información de cada alquiler.
- **`pagila.payment`**: Detalles de pago asociados.
- **`pagila.inventory`**: Relación entre inventario y películas.
- **Dimensiones**: Claves de las dimensiones relacionadas.

### **Mapeo y Transformaciones**:

| Campo en `hechos_alquileres`    | Origen                          | Transformación                                       |
|---------------------------------|---------------------------------|------------------------------------------------------|
| `alquiler_key`                  | Generado (secuencial)           | `ROW_NUMBER() OVER (ORDER BY rental_id)`             |
| `rental_id`                     | `rental.rental_id`              | Ninguna                                              |
| `pelicula_key`                  | `dim_pelicula.pelicula_key`     | JOIN en `film_id`                                    |
| `cliente_key`                   | `dim_cliente.cliente_key`       | JOIN en `customer_id`                                |
| `empleado_key`                  | `dim_empleado.empleado_key`     | JOIN en `staff_id`                                   |
| `tienda_key`                    | `dim_tienda.tienda_key`         | JOIN en `store_id`                                   |
| `tiempo_key`                    | `dim_tiempo.tiempo_key`         | JOIN en `rental_date`                                |
| `duracion_alquiler`             | Calculado                       | `EXTRACT(EPOCH FROM (return_date - rental_date))/60` |
| `monto`                         | `payment.amount`                | Ninguna                                              |

### **Relaciones y Transformaciones Clave**:

- **JOIN con Dimensiones**:
  - **`pelicula_key`**: A través de `inventory.film_id` y `dim_pelicula.film_id`.
  - **`cliente_key`**: Directamente con `rental.customer_id` y `dim_cliente.customer_id`.
  - **`empleado_key`**: Directamente con `rental.staff_id` y `dim_empleado.staff_id`.
  - **`tienda_key`**: A través de `inventory.store_id` y `dim_tienda.store_id`.
  - **`tiempo_key`**: Basado en la fecha de alquiler `rental.rental_date`.
- **Cálculo de `duracion_alquiler`**: Se calcula la duración en minutos entre `return_date` y `rental_date`.

---

## **Resumen del Proceso ETL y Linaje de Datos**

El proceso ETL se diseñó siguiendo la metodología de Kimball, enfocándose en:

1. **Extracción**: Obtener datos relevantes de las tablas fuente en el esquema `pagila`.
2. **Transformación**:
   - Aplicar uniones (JOIN) para enriquecer los datos con información adicional.
   - Calcular campos derivados necesarios para el análisis.
   - Estandarizar y limpiar los datos para asegurar su calidad.
3. **Carga**:
   - Insertar o actualizar los registros en las tablas de dimensiones y hechos en el esquema `dw` de `pagila_dw`.
   - Utilizar operaciones de **upsert** (`INSERT ... ON CONFLICT DO UPDATE`) para manejar eficientemente inserciones y actualizaciones.

### **Diagrama Simplificado de Relaciones**:

```
[Pagila Schema]
   |
   +--> film ------------------------------+
   |                                       |
   +--> language ---------------------+    |
   |                                  |    |
   +--> film_category ---> category --|----+
   |
   +--> customer --> address --> city --> country
   |
   +--> staff
   |
   +--> store --> address --> city --> country
   |
   +--> rental --> payment
   |
   +--> inventory --> film
```

### **Aplicación de la Metodología de Kimball**:

- **Modelo Dimensional**: Se implementó un esquema en estrella, donde la tabla de hechos central (`hechos_alquileres`) se conecta con las dimensiones a través de claves foráneas.
- **Orientación al Negocio**: Las dimensiones y hechos se definieron para responder a preguntas clave del negocio, como el rendimiento de las películas, comportamiento de clientes, desempeño de empleados y análisis temporal.
- **Facilitación del Análisis**: Al estructurar los datos de esta manera, se simplifican las consultas analíticas y se mejora el rendimiento.

### **Beneficios del Linaje de Datos**:

- **Transparencia**: Comprender el origen y transformación de cada dato permite asegurar su integridad y calidad.
- **Trazabilidad**: Facilita el seguimiento de los datos desde su origen hasta su uso final en análisis y reportes.
- **Mantenimiento**: Ayuda en la detección y corrección de errores, así como en la adaptación a cambios futuros en las fuentes de datos.

---

## **Conclusión**

El mapeo de linaje de datos presentado proporciona una visión detallada de cómo los datos fluyen desde el sistema transaccional (esquema `pagila`) hacia el data warehouse (esquema `dw` en `pagila_dw`), siguiendo las mejores prácticas de la metodología de Kimball. Este enfoque garantiza que el data warehouse esté optimizado para el análisis, reflejando con precisión la información del negocio y permitiendo a los usuarios tomar decisiones informadas basadas en datos confiables.