
---

# üìä Proyecto Final: Inteligencia de Negocios y Miner√≠a de Datos

## üìò Informe de Proyecto Final

**Materia:** Inteligencia de Negocios (ICC-321-T)
**Tema:** Dashboard Interactivo y Modelo de Miner√≠a de Datos Descriptivo

**Autores:**

* Randy Alexander Germos√©n Ure√±a *(1013-4707)*
* Fernando Almonte Delgado *(1015-7628)*

**Repositorio:**
[icc321-2025-final](https://github.com/TZeik/icc321-2025-final) <img src="https://upload.wikimedia.org/wikipedia/commons/9/91/Octicons-mark-github.svg" width="15" height="15"/>

---

## üéØ Objetivo del Proyecto

El prop√≥sito de este proyecto es desarrollar una soluci√≥n integral de Inteligencia de Negocios utilizando datos p√∫blicos del gobierno de la Rep√∫blica Dominicana. Consta de dos componentes principales:

1. **Dashboard Interactivo:** Permite visualizar y monitorear m√©tricas de gasto y n√≥mina para apoyar la toma de decisiones.
2. **Modelo de Miner√≠a de Datos:** Implementaci√≥n de un modelo descriptivo (Clustering) para descubrir patrones y segmentar perfiles de empleados.

---

## üìÇ Datasets Utilizados

Se procesaron y unificaron datos hist√≥ricos abarcando el periodo **2018‚Äì2025**:

1. **N√≥mina de la Contralor√≠a General de la Rep√∫blica:**
   Informaci√≥n detallada sobre empleados, cargos, departamentos y sueldos.
2. **√çndice de Precios al Consumidor (IPC):**
   Datos del Banco Central utilizados para calcular el **salario real** (ajustado por inflaci√≥n) en comparaci√≥n con el salario nominal.

---

## üß† Metodolog√≠a

El desarrollo del proyecto se estructur√≥ en las siguientes fases t√©cnicas:

### 1. Ingenier√≠a de Datos (ETL)

* **Extracci√≥n y Limpieza:**

  * Unificaci√≥n de m√∫ltiples archivos CSV mensuales/anuales.
  * Estandarizaci√≥n de nombres de cargos, normalizaci√≥n de formatos monetarios y correcci√≥n de codificaci√≥n (`latin-1`, `utf-8`).
  * Homogeneizaci√≥n de los nombres de los meses.
* **Enriquecimiento:**

  * Cruce entre n√≥mina e IPC para calcular la p√©rdida de poder adquisitivo.

### 2. Almacenamiento (Data Warehousing)

* Implementaci√≥n de un **Data Warehouse** local con **SQLite**.
* Dise√±o bajo un **Esquema en Estrella**, con:

  * Tabla de hechos: `fact_nomina`
  * Tablas de dimensiones: `dim_empleado`, `dim_tiempo`

### 3. Visualizaci√≥n (Dashboard)

* Creaci√≥n de Dashboard interactivo subido a **Tableau Public**.

### 4. Miner√≠a de Datos (Machine Learning)

* **Preprocesamiento:**
  Codificaci√≥n de variables categ√≥ricas y escalado num√©rico.
* **Modelado:**
  Aplicaci√≥n de **K-Means Clustering** para identificar grupos de empleados con caracter√≠sticas similares.
* **Evaluaci√≥n:**

  * M√©todo del Codo
  * Coeficiente de Silueta

---

## üìä Resultados Principales

La soluci√≥n permite analizar hallazgos relevantes como:

* Diferencias entre **Sueldo Nominal** y **Sueldo Real** a lo largo del tiempo.
* Identificaci√≥n de departamentos con mayor incremento en el gasto de n√≥mina.
* Clusters de empleados basados en sueldo, cargo y antig√ºedad, revelando patrones ocultos en la organizaci√≥n.

---

## üß© Herramientas Utilizadas

### Lenguajes y Entorno

* **Python 3.x** (Jupyter Notebook)

### Librer√≠as Principales

* `pandas` ‚Äî Manipulaci√≥n y limpieza de datos
* `sqlite3` ‚Äî Data Warehouse local
* `scikit-learn` ‚Äî Algoritmo K-Means y m√©tricas
* `matplotlib` ‚Äî Visualizaci√≥n del m√©todo del codo

### Visualizaci√≥n

* **Tableau Public** ‚Äî Dashboard interactivo final

---



In [1]:
import pandas as pd
import sqlite3
import numpy as np
import calendar
from pandas.tseries.offsets import MonthEnd

## 1. Configuraci√≥n del Entorno y Reglas de Negocio
Importaci√≥n de librer√≠as esenciales (`pandas`, `sqlite3`, `numpy`) y definici√≥n de funciones auxiliares para la limpieza de datos monetarios, estandarizaci√≥n de texto y el c√°lculo estimado del Impuesto Sobre la Renta (ISR) basado en la escala salarial local.

In [2]:
meses_map = {
    'ENERO': 1, 'FEBRERO': 2, 'MARZO': 3, 'ABRIL': 4, 'MAYO': 5, 'JUNIO': 6,
    'JULIO': 7, 'AGOSTO': 8, 'SEPTIEMBRE': 9, 'OCTUBRE': 10, 'NOVIEMBRE': 11, 'DICIEMBRE': 12
}
meses_inv_map = {v: k for k, v in meses_map.items()}

# --- FUNCIONES DE LIMPIEZA ---
def limpiar_moneda(valor):
    if pd.isna(valor): return 0.0
    s = str(valor).replace('RD$', '').replace(',', '').strip()
    try: return float(s)
    except: return 0.0

def limpiar_texto(texto):
    if pd.isna(texto): return "DESCONOCIDO"
    return str(texto).strip().upper()

def clean_float(val):
    try: return float(str(val).strip())
    except: return 0.0

def normalizar_estatus(texto):
    """Normaliza las categor√≠as de Estatus seg√∫n reglas de negocio"""
    t = str(texto).strip().upper()
    
    if t in ['FIJO', 'FIJOS']:
        return 'FIJO'
    elif t in ['CONTRATADO']:
        return 'CONTRATADO'
    elif t in ['PERSONAL DE CARACTER TEMPORAL', 'TEMPORAL', 'TEMPORAL EN CARGO DE CARRERA']:
        return 'TEMPORAL'
    elif t in ['PERSONAL DE SEGURIDAD', 'SEGURIDAD']:
        return 'SEGURIDAD'
    elif t in ['SUELDO AL PERSONAL NOMINAL EN PERIODO PROBATORIO', 'PRUEBA']:
        return 'PERIODO PROBATORIO'
    elif t in ['TRAMITE DE PENSIONES', 'TRAMITE DE PENSION']:
        return 'TRAMITE DE PENSION'
    else:
        return t

def calcular_isr(sueldo):
    if sueldo <= 34685: return 0.0
    elif sueldo <= 52027: return (sueldo - 34685) * 0.15
    elif sueldo <= 72260: return 2601 + ((sueldo - 52027) * 0.20)
    else: return 6648 + ((sueldo - 72260) * 0.25)

print("Entorno configurado exitosamente.")

Entorno configurado exitosamente.


## 2. Proceso ETL: Extracci√≥n, Limpieza y Normalizaci√≥n
Carga de los datasets crudos (IPC hist√≥rico y N√≥mina). Se realiza una limpieza profunda que incluye:
* Conversi√≥n de tipos de datos (fechas, monedas).
* **Normalizaci√≥n de Estatus Laboral:** Se unifican categor√≠as dispersas (ej: "FIJOS" y "FIJO" -> "FIJO"; "PRUEBA" y "PROBATORIO" -> "PERIODO PROBATORIO", etc.) para garantizar consistencia.
* Enriquecimiento del dataset de IPC con m√©tricas de variaci√≥n mensual y acumulada.

In [3]:


# CARGA DE IPC
df_ipc = pd.read_csv('./raw_data/ipc_base_1984-2025.csv', sep=';')
df_ipc = df_ipc[df_ipc['PERIODO'] >= 2018].copy()

# Limpieza IPC
meses_map = {'ENERO': 1, 'FEBRERO': 2, 'MARZO': 3, 'ABRIL': 4, 'MAYO': 5, 'JUNIO': 6,
             'JULIO': 7, 'AGOSTO': 8, 'SEPTIEMBRE': 9, 'OCTUBRE': 10, 'NOVIEMBRE': 11, 'DICIEMBRE': 12}
df_ipc['MES_NUM'] = df_ipc['MES'].apply(limpiar_texto).map(meses_map)

cols_ipc = ['INDICE', 'VAR_MES', 'VAR_DIC', 'VAR_12', 'PROM_12']
for col in cols_ipc:
    df_ipc[col] = df_ipc[col].apply(clean_float)

df_ipc_clean = df_ipc[['PERIODO', 'MES_NUM'] + cols_ipc].rename(columns={
    'PERIODO': 'ANIO', 'INDICE': 'IPC', 'VAR_MES': 'inflacion_mensual',
    'VAR_DIC': 'inflacion_acumulada', 'VAR_12': 'inflacion_interanual'
})

# CARGA DE N√ìMINA
df_nomina = pd.read_csv('./raw_data/nomina-empleados-fijos-y-contratados-CSV-2018-2025.csv', 
                        sep=';', encoding='latin-1', low_memory=False)

# Normalizaci√≥n Cabeceras
df_nomina.columns = (df_nomina.columns.str.strip().str.upper()
                     .str.normalize("NFKD").str.encode("ascii", errors="ignore").str.decode("utf-8"))
df_nomina.columns = [c.replace('AO', 'ANIO') for c in df_nomina.columns]

# Transformaciones B√°sicas
df_nomina['SUELDO_NOMINAL'] = df_nomina['SUELDO'].apply(limpiar_moneda)
df_nomina['ANIO'] = pd.to_numeric(df_nomina['ANIO'].astype(str).str.extract(r'(\d{4})')[0], errors='coerce')
df_nomina['MES_NUM'] = df_nomina['MES'].astype(str).apply(limpiar_texto).map(meses_map)

# Limpieza Textos Generales
for col in ['NOMBRE', 'FUNCION', 'DEPARTAMENTO', 'ESTATUS']:
    df_nomina[col] = df_nomina[col].apply(limpiar_texto)
    df_nomina[col] = df_nomina[col].str.replace(r"[,.\"\'-]", " ", regex=True).str.replace(r"\s+", " ", regex=True).str.strip()
    df_nomina[col] = df_nomina[col].str.replace(r'\s+\bY\b\s+', ' ', regex=True)
    df_nomina['NOMBRE'] = df_nomina['NOMBRE'].str.replace('√è¬ø¬Ω', '√ë', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('INGENIER√è¬ø¬ΩA', 'INGENIERIA', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('AN√è¬ø¬ΩLISIS', 'ANALISIS', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('ADMINISTRACI√è¬ø¬ΩN', 'ADMINISTRACION', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('DISE√è¬ø¬ΩADOR', 'DISE√ëADOR', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('GR√è¬ø¬ΩFICO', 'GRAFICO', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('TR√è¬ø¬ΩMITE', 'TRAMITE', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('PENSI√è¬ø¬ΩN', 'PENSION', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('PER√è¬ø¬ΩODO', 'PERIODO', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('AUDITOR√è¬ø¬ΩA', 'AUDITORIA', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('AUDITOR√è¬ø¬ΩAS', 'AUDITORIAS', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('DIRECCI√è¬ø¬ΩN', 'DIRECCION', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('DIVISI√è¬ø¬ΩN', 'DIVISION', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('CAPACITACI√è¬ø¬ΩN', 'CAPACITACION', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('MONSE√è¬ø¬ΩOR', 'MONSE√ëOR', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('URE√è¬ø¬ΩA', 'URE√ëA', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('NI√è¬ø¬ΩEZ', 'NI√ëEZ', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('PQUE√è¬ø¬Ω', 'PQUE√ë', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('TRAUMATOL√è¬ø¬ΩGICO', 'TRAUMATOLOGICO', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('QUIR√è¬ø¬ΩRGICO', 'QUIRURGICO', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('PI√è¬ø¬ΩA', 'PI√ëA', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('CAF√è¬ø¬Ω', 'CAFE', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('COMUNICACI√è¬ø¬ΩN', 'COMUNICACION', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('CENTRAL√è¬ø¬Ω', 'CENTRAL', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('DESEMPE√è¬ø¬ΩO', 'DESEMPE√ëO', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('T√è¬ø¬ΩCNICO', 'TECNICO', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('SECCI√è¬ø¬ΩN', 'SECCION', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('TRANSPORTACI√è¬ø¬ΩN', 'TRANSPORTACION', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('MAYORDOM√è¬ø¬ΩA', 'MAYORDOMIA', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('ALMAC√è¬ø¬ΩN', 'ALMACEN', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('INFORMACI√è¬ø¬ΩN', 'TRANSPORTACION', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('REVISI√è¬ø¬ΩN', 'REVISION', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('CERTIFICACI√è¬ø¬ΩN', 'CERTIFICACION', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('JUR√è¬ø¬ΩDICA', 'JURIDICA', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('TECNOLOG√è¬ø¬ΩA', 'TECNOLOGIA', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('PLANIFICACI√è¬ø¬ΩN', 'PLANIFICACION', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('EVALUACI√è¬ø¬ΩN', 'EVALUACION', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('INVESTIGACI√è¬ø¬ΩN', 'INVESTIGACION', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('INVESTIGACI√è¬ø¬Ω', 'INVESTIGACION', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('ESTAD√è¬ø¬ΩSTICOS', 'ESTADISTICOS', regex=False)
    df_nomina[col] = df_nomina[col].str.replace('CIIVLES', 'CIVILES', regex=False)
    
df_nomina['ESTATUS'] = df_nomina['ESTATUS'].apply(normalizar_estatus)

# INVERTIR RANGO > 72737 a 144741
r1 = df_nomina.loc[72737:144741, ['FUNCION', 'DEPARTAMENTO']]
df_nomina.loc[72737:144741, ['FUNCION', 'DEPARTAMENTO']] = \
    r1[['DEPARTAMENTO', 'FUNCION']].values

# INVERTIR RANGO > 148754 a final
rango_dest = df_nomina.loc[148754:, ['FUNCION', 'DEPARTAMENTO']]
rango_src  = df_nomina.loc[148754:, ['DEPARTAMENTO', 'FUNCION']]

n = min(len(rango_dest), len(rango_src))

df_nomina.loc[148754:148754+n-1, ['FUNCION', 'DEPARTAMENTO']] = \
    df_nomina.loc[148754:148754+n-1, ['DEPARTAMENTO', 'FUNCION']].values

# REVISAR FILAS CON DEPARTAMENTO INCORRECTO
cond = df_nomina['DEPARTAMENTO'].isin([
    'ENC AUDITORIA INTERNA',
    'AUDITOR II',
    'SUPERVISOR (A)',
    'COORDINADOR ACADEMICO',
])

# Corregir a√±o err√≥neo desde la fila 134494
df_nomina.loc[134494:, 'ANIO'] = 2025

df_nomina.loc[cond, ['FUNCION', 'DEPARTAMENTO']] = \
    df_nomina.loc[cond, ['DEPARTAMENTO', 'FUNCION']].values

# Filtrado final
df_nomina.dropna(subset=['ANIO', 'MES_NUM', 'SUELDO_NOMINAL'], inplace=True)
df_nomina['ANIO'] = df_nomina['ANIO'].astype(int)
df_nomina['MES_NUM'] = df_nomina['MES_NUM'].astype(int)

print(f"ETL Completado.")

ETL Completado.


## 3. Construcci√≥n del Data Warehouse (Metodolog√≠a Kimball)
Dise√±o del esquema en estrella centrado en el proceso de pago de n√≥mina. Se generan:
* **Dimensiones con Llaves Subrogadas (`KEY_...`):** `DIM_TIEMPO` (Llave inteligente YYYYMM), `DIM_ORGANIZACION`, `DIM_CARGO`, `DIM_EMPLEADO` y `DIM_ESTATUS`.
* **Tabla de Hechos (`FACT_NOMINA`):** Centraliza las m√©tricas de negocio (`monto_sueldo`, `sueldo_real`, `impuesto_renta`) y m√©tricas de contexto econ√≥mico (`valor_ipc`, `inflacion`), conectadas a las dimensiones mediante sus llaves primarias (`KEY_...`) al inicio de la tabla.
---

### GU√çA DE M√âTRICAS PARA EL CONTRALOR GENERAL:

1. **monto_sueldo_nominal_bruto**: 
   - Gasto p√∫blico directo en n√≥mina antes de deducciones.
   - Uso: Auditor√≠a presupuestaria y control del gasto corriente.

2. **monto_sueldo_poder_adquisitivo_real**:
   - Valor del sueldo ajustado a la inflaci√≥n hist√≥rica.
   - Uso: Evaluar si el ajuste salarial compensa el costo de vida real del servidor p√∫blico.

3. **monto_retencion_isr_estimado**:
   - C√°lculo aproximado del Impuesto Sobre la Renta retenido.
   - Uso: Proyecci√≥n de retorno fiscal a la DGII proveniente de la n√≥mina p√∫blica.

4. **indice_precios_consumidor_base_2020**:
   - Nivel general de precios reportado por el Banco Central.
   - Uso: Referencia macroecon√≥mica para ajustes salariales.

5. **tasa_variacion_mensual_precios (VAR_MES)**:
   - Cambio porcentual de precios respecto al mes anterior.
   - Uso: Monitoreo de choques inflacionarios a corto plazo.

6. **tasa_inflacion_acumulada_anio (VAR_DIC)**:
   - Inflaci√≥n acumulada desde Enero hasta el mes corriente.
   - Uso: Evaluar la p√©rdida de valor del presupuesto anual aprobado.

7. **tasa_inflacion_interanual_12m (VAR_12)**:
   - Inflaci√≥n comparada con el mismo mes del a√±o anterior.
   - Uso: Est√°ndar principal para negociaciones de reajuste salarial anual.

8. **promedio_movil_inflacion_12m (PROM_12)**:
   - Promedio de las variaciones de los √∫ltimos 12 meses.
   - Uso: Suaviza la volatilidad para identificar tendencias de inflaci√≥n estructural.

In [4]:
print("Construyendo Modelo Dimensional con nuevas reglas de negocio...")

df_stage = pd.merge(df_nomina, df_ipc_clean, on=['ANIO', 'MES_NUM'], how='left')
meses_inv_map = {v: k for k, v in meses_map.items()}

# DIM_TIEMPO
periodos = df_stage[['ANIO', 'MES_NUM']].drop_duplicates().sort_values(['ANIO', 'MES_NUM']).copy()

periodos['fecha_temp'] = pd.to_datetime(periodos['ANIO'].astype(str) + '-' + periodos['MES_NUM'].astype(str) + '-01')
periodos['fecha_fin_mes'] = periodos['fecha_temp'] + MonthEnd(0)

def obtener_estacion(mes):
    if mes in [12, 1, 2]: return 'INVIERNO'
    elif mes in [3, 4, 5]: return 'PRIMAVERA'
    elif mes in [6, 7, 8]: return 'VERANO'
    else: return 'OTO√ëO'

dim_tiempo = pd.DataFrame()
dim_tiempo['KEY_TIEMPO'] = periodos['ANIO'] * 100 + periodos['MES_NUM']
dim_tiempo['fecha_iso'] = periodos['fecha_fin_mes'].dt.date
dim_tiempo['anio'] = periodos['ANIO']
dim_tiempo['mes_num'] = periodos['MES_NUM']
dim_tiempo['mes_nombre'] = periodos['MES_NUM'].map(meses_inv_map)
dim_tiempo['trimestre'] = periodos['fecha_fin_mes'].dt.quarter
dim_tiempo['estacion'] = periodos['MES_NUM'].apply(obtener_estacion) 
dim_tiempo['decada'] = (periodos['ANIO'] // 10) * 10
dim_tiempo['quinquenio'] = (periodos['ANIO'] // 5) * 5
dim_tiempo = dim_tiempo[['KEY_TIEMPO', 'fecha_iso', 'anio', 'mes_num', 'mes_nombre', 'trimestre', 'estacion', 'decada', 'quinquenio']]

# DIM_ORGANIZACION
dim_org = df_stage[['DEPARTAMENTO']].drop_duplicates().reset_index(drop=True)
dim_org['KEY_ORGANIZACION'] = dim_org.index + 1
dim_org = dim_org.rename(columns={'DEPARTAMENTO': 'departamento'})
dim_org = dim_org[['KEY_ORGANIZACION', 'departamento']]

# DIM_CARGO
dim_cargo = df_stage[['FUNCION']].drop_duplicates().reset_index(drop=True)
dim_cargo['KEY_CARGO'] = dim_cargo.index + 1
def categorizar_grupo(cargo):
    c = str(cargo).upper()
    if any(x in c for x in ['DIRECTOR', 'GERENTE', 'ENCARGADO', 'MINISTRO']): return 'NIVEL ESTRATEGICO'
    if any(x in c for x in ['COORDINADOR', 'SUPERVISOR']): return 'NIVEL TACTICO'
    if any(x in c for x in ['ANALISTA', 'AUDITOR', 'ABOGADO']): return 'NIVEL PROFESIONAL'
    return 'NIVEL OPERATIVO'
dim_cargo['grupo_ocupacional'] = dim_cargo['FUNCION'].apply(categorizar_grupo)
dim_cargo = dim_cargo.rename(columns={'FUNCION': 'cargo_nombre'})
dim_cargo = dim_cargo[['KEY_CARGO', 'cargo_nombre', 'grupo_ocupacional']]

# DIM_EMPLEADO
dim_emp = df_stage[['NOMBRE']].drop_duplicates().reset_index(drop=True)
dim_emp['KEY_EMPLEADO'] = dim_emp.index + 1
dim_emp = dim_emp.rename(columns={'NOMBRE': 'nombre_completo'})
dim_emp = dim_emp[['KEY_EMPLEADO', 'nombre_completo']]

# DIM_ESTATUS
dim_estatus = df_stage[['ESTATUS']].drop_duplicates().reset_index(drop=True)
dim_estatus['KEY_ESTATUS'] = dim_estatus.index + 1
dim_estatus = dim_estatus.rename(columns={'ESTATUS': 'descripcion_estatus'})
dim_estatus = dim_estatus[['KEY_ESTATUS', 'descripcion_estatus']]

# --- FACT_NOMINA ---
fact = df_stage.copy()
fact = pd.merge(fact, dim_org, left_on='DEPARTAMENTO', right_on='departamento', how='left')
fact = pd.merge(fact, dim_cargo, left_on='FUNCION', right_on='cargo_nombre', how='left')
fact = pd.merge(fact, dim_emp, left_on='NOMBRE', right_on='nombre_completo', how='left')
fact = pd.merge(fact, dim_estatus, left_on='ESTATUS', right_on='descripcion_estatus', how='left')

fact['KEY_TIEMPO'] = fact['ANIO'] * 100 + fact['MES_NUM']

# C√°lculos previos
ipc_base = fact['IPC'].min()
fact['sueldo_real_calc'] = (fact['SUELDO_NOMINAL'] / fact['IPC']) * ipc_base
fact['impuesto_renta_calc'] = fact['SUELDO_NOMINAL'].apply(calcular_isr)

fact_nomina = fact[[
    'KEY_TIEMPO', 'KEY_ORGANIZACION', 'KEY_CARGO', 'KEY_EMPLEADO', 'KEY_ESTATUS', # FKs
    'SUELDO_NOMINAL', 
    'sueldo_real_calc', 
    'impuesto_renta_calc',
    'IPC', 
    'inflacion_mensual', 
    'inflacion_acumulada',
    'inflacion_interanual',
    'PROM_12'
]].copy()

nombres_metricas = {
    'SUELDO_NOMINAL': 'monto_sueldo_nominal_bruto',
    'sueldo_real_calc': 'monto_sueldo_poder_adquisitivo_real',
    'impuesto_renta_calc': 'monto_retencion_isr_estimado',
    'IPC': 'indice_precios_consumidor_base_2020',
    'inflacion_mensual': 'tasa_variacion_mensual_precios',
    'inflacion_acumulada': 'tasa_inflacion_acumulada_anio',
    'inflacion_interanual': 'tasa_inflacion_interanual_12m',
    'PROM_12': 'promedio_movil_inflacion_12m'
}

fact_nomina.rename(columns=nombres_metricas, inplace=True)
fact_nomina.index.name = 'KEY_NOMINA'
fact_nomina = fact_nomina.reset_index()

print(f"Fact Table Construida: {len(fact_nomina)} registros.")

Construyendo Modelo Dimensional con nuevas reglas de negocio...
Fact Table Construida: 152728 registros.


## 4. Carga y Persistencia de Datos
Almacenamiento del modelo dimensional final en una base de datos SQLite (`DW_Nomina.db`) y exportaci√≥n de tablas individuales (`FACT` y `DIMs`) a formato CSV para su consumo en herramientas de visualizaci√≥n.

In [5]:
db_name = 'DW_Nomina.db'
conn = sqlite3.connect(db_name)

dim_tiempo.to_sql('DIM_TIEMPO', conn, if_exists='replace', index=False)
dim_org.to_sql('DIM_ORGANIZACION', conn, if_exists='replace', index=False)
dim_cargo.to_sql('DIM_CARGO', conn, if_exists='replace', index=False)
dim_emp.to_sql('DIM_EMPLEADO', conn, if_exists='replace', index=False)
dim_estatus.to_sql('DIM_ESTATUS', conn, if_exists='replace', index=False)
fact_nomina.to_sql('FACT_NOMINA', conn, if_exists='replace', index=False)

conn.close()

dim_tiempo.to_csv('DIM_TIEMPO.csv', index=False)
dim_org.to_csv('DIM_ORGANIZACION.csv', index=False)
dim_cargo.to_csv('DIM_CARGO.csv', index=False)
dim_emp.to_csv('DIM_EMPLEADO.csv', index=False)
dim_estatus.to_csv('DIM_ESTATUS.csv', index=False)
fact_nomina.to_csv('FACT_NOMINA.csv', index=False)

print("--- ETL FINALIZADO ---")

--- ETL FINALIZADO ---
