# Auditor√≠a de Integridad (La Verdad Matem√°tica)

### Objetivo: Validar si podemos confiar en los n√∫meros SIGA antes de tomar decisiones.

In [1]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine, text

# Configuraci√≥n
pd.options.display.float_format = '{:,.2f}'.format
DB_CONN = 'postgresql+psycopg2://analista_medhos:Medhos2025!@postgres:5432/medhos_dw'
engine = create_engine(DB_CONN)

print("üöÄ 2.1 INICIANDO AUDITOR√çA DE INTEGRIDAD DE DATOS")

# 1. CARGA DE DATOS RAW
print("   üì• Descargando datos crudos...")
df = pd.read_sql("SELECT * FROM raw_movimientos_siga WHERE tipo_archivo_detectado IN ('ENTRADA', 'SALIDA')", engine)

# =============================================================================
# 1. VALIDACI√ìN MATEM√ÅTICA (¬øCoinciden los totales?)
# =============================================================================
print("\nüßÆ --- 1. VALIDACI√ìN MATEM√ÅTICA (Cantidad * Precio Unitario vs Total) ---")
# Calculamos el total te√≥rico
df['total_calculado'] = df['cantidad'] * df['precio_unitario']
df['diferencia'] = df['precio_total'] - df['total_calculado']

# Tolerancia de 1 peso por redondeos
errores_matematicos = df[abs(df['diferencia']) > 1.0]

if len(errores_matematicos) > 0:
    print(f"‚ö†Ô∏è ALERTA: Se encontraron {len(errores_matematicos)} registros con error de c√°lculo matem√°tico.")
    print("   Esto puede indicar errores de carga manual en SIGA o descuentos no registrados.")
    print("   Top 5 Errores (Mayor diferencia):")
    display(errores_matematicos[['nombre_archivo', 'cod_insumo', 'cantidad', 'precio_unitario', 'precio_total', 'total_calculado', 'diferencia']].sort_values('diferencia', ascending=False).head(5))
else:
    print("‚úÖ INTEGRIDAD MATEM√ÅTICA OK: Todos los registros coinciden (Cantidad * Unitario = Total).")

# =============================================================================
# 2. MATRIZ DE CONTROL (Tabla de Verdad)
# =============================================================================
print("\nüìã --- 2. MATRIZ DE CONTROL (Registros por A√±o y Tipo) ---")
df['anio'] = pd.to_datetime(df['fecha_movimiento']).dt.year

matriz = df.pivot_table(
    index='anio', 
    columns='tipo_archivo_detectado', 
    values='precio_total', 
    aggfunc=['count', 'sum']
)

# Renombrar para claridad
matriz.columns = ['_'.join(col) for col in matriz.columns]
display(matriz.style.format("{:,.0f}"))

print("\nüîç Interpretaci√≥n:")
print("- Verifica si hay a√±os con muy pocos registros (posible p√©rdida de archivos).")
print("- Compara 'count_ENTRADA' vs 'count_SALIDA'. Deber√≠an tener una proporci√≥n razonable.")

üöÄ 2.1 INICIANDO AUDITOR√çA DE INTEGRIDAD DE DATOS
   üì• Descargando datos crudos...

üßÆ --- 1. VALIDACI√ìN MATEM√ÅTICA (Cantidad * Precio Unitario vs Total) ---
‚úÖ INTEGRIDAD MATEM√ÅTICA OK: Todos los registros coinciden (Cantidad * Unitario = Total).

üìã --- 2. MATRIZ DE CONTROL (Registros por A√±o y Tipo) ---


Unnamed: 0_level_0,count_ENTRADA,count_SALIDA,sum_ENTRADA,sum_SALIDA
anio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2019,2517,40541,154990937,166497899
2020,2821,20150,332999047,302720473
2021,3923,39321,653179086,777832218
2022,5178,38594,823852169,827275988
2023,4474,39841,1973914067,2008751930
2024,5039,37902,6414573756,7141856692
2025,5205,36552,8862315554,9353816209



üîç Interpretaci√≥n:
- Verifica si hay a√±os con muy pocos registros (posible p√©rdida de archivos).
- Compara 'count_ENTRADA' vs 'count_SALIDA'. Deber√≠an tener una proporci√≥n razonable.


### 1. La Buena Noticia: Integridad Matem√°tica ‚úÖ

> **Resultado:** *Todos los registros coinciden (Cantidad * Unitario = Total).*

Esto es fundamental. Significa que **el sistema SIGA funciona bien calculando**. No hay "errores de dedo" ni fallos de software en las l√≠neas individuales. Podemos confiar en que si dice que se gast√≥ 1 mill√≥n, matem√°ticamente es correcto. **No necesitamos correcciones aritm√©ticas.**

### 2. La Matriz de Control (Lo que revelan los n√∫meros) üìã

Aqu√≠ es donde la historia se pone interesante. Vamos a desglosar las columnas:

#### A. La Relaci√≥n Log√≠stica (1 a 8)
F√≠jate en los conteos (`count_ENTRADA` vs `count_SALIDA`).
*   **Patr√≥n:** Tienes aprox. **5.000 entradas** (compras) contra **38.000 salidas** (entregas a servicios) por a√±o.
*   **Interpretaci√≥n:** Esto es **sano y l√≥gico**. Compras en "pallets" (1 movimiento grande) y distribuyes en "cajitas" a Enfermer√≠a, Guardia, Laboratorio, etc. (muchos movimientos peque√±os). La proporci√≥n es correcta.

#### B. El Efecto Pandemia (2020) üò∑
Mira el a√±o 2020 en la columna `count_SALIDA`:
*   **2019:** 40.541 movimientos.
*   **2020:** 20.150 movimientos (¬°Cay√≥ a la mitad!).
*   **2021:** 39.321 movimientos (Volvi√≥ a la normalidad).
*   **Lectura:** En 2020, el hospital "se fren√≥". Se suspendieron cirug√≠as programadas y consultorios externos. Hubo menos movimientos log√≠sticos, aunque se gast√≥ m√°s plata (inflaci√≥n/insumos caros). **El dato refleja la realidad hist√≥rica.**

#### C. El Monstruo de la Inflaci√≥n üí∏
Mira la columna `sum_ENTRADA` (Dinero gastado en compras):
*   **2019:** $154 Millones.
*   **2023:** $1.900 Millones (1.9 Billones).
*   **2024:** **$6.400 Millones** (Salto brutal).
*   **2025:** **$8.800 Millones**.
*   **Conclusi√≥n:** Analizar esto en Pesos es imposible. Un gr√°fico de barras en pesos mostrar√≠a una barra gigante en 2025 y nada en 2019. **Esto confirma 100% la necesidad de usar el an√°lisis en USD que hicimos en la Etapa 3.**

#### D. La "Fuga" de Stock (Entradas vs Salidas) ‚ö†Ô∏è
Este es el punto m√°s cr√≠tico para tu gesti√≥n. Compara la suma de dinero que entra vs. la que sale:

*   **2019:** Entr√≥ $154M -> Sali√≥ $166M (**D√©ficit -$12M**)
*   **2021:** Entr√≥ $653M -> Sali√≥ $777M (**D√©ficit -$124M**)
*   **2024:** Entr√≥ $6.400M -> Sali√≥ $7.141M (**D√©ficit -$700M**)

**¬øQu√© significa esto?**
Sistem√°ticamente **sale m√°s valor del que entra**.

1.  **Consumo de Stock Viejo:** Se est√°n consumiendo insumos que estaban guardados desde a√±os anteriores (antes de 2019).
2.  **Valuaci√≥n:** Es posible que el sistema valorice la salida a "Precio de Reposici√≥n" (m√°s caro por inflaci√≥n) y la entrada a "Precio de Factura".
3.  **Riesgo:** Si sale m√°s de lo que entra por mucho tiempo, **el stock se vac√≠a**. Esto explica por qu√© el Sem√°foro nos dio tantos insumos en ROJO (Stock 0). El sistema cree que ya nos consumimos todo.

---

### ‚úÖ Conclusi√≥n del Notebook 2.1
Los datos son **t√©cnicamente confiables** (sin errores matem√°ticos), pero **financieramente alarmantes** (se consume m√°s valor del que se registra en compras y la inflaci√≥n distorsiona todo).

## C√≥digo de Verificaci√≥n Forense: Precios Cero

In [4]:
print("üïµÔ∏è --- INVESTIGACI√ìN DE PRECIOS EN CERO ---")

# CASO 1: La inconsistencia grave (Unitario 0 pero Total con plata)
# Esto es matem√°ticamente imposible si el sistema calcula bien, pero posible si cargan a mano.
caso_imposible = df[(df['precio_unitario'] == 0) & (df['precio_total'] > 0)]

print(f"1. Casos con Unitario $0 pero Total > $0: {len(caso_imposible)}")

if len(caso_imposible) > 0:
    display(caso_imposible.head())
else:
    print("   ‚úÖ Confirmado: No hay 'generaci√≥n espont√°nea de dinero'. Si el unitario es 0, el total es 0.")

# CASO 2: ¬øCu√°ntos movimientos son realmente GRATIS? (Donaciones o Traslados)
# Aqu√≠ Unitario es 0 y Total es 0.
gratis = df[(df['precio_unitario'] == 0) & (df['precio_total'] == 0)]
print(f"\n2. Casos totalmente gratuitos (Unitario 0 y Total 0): {len(gratis)}")
print(f"   Representan el {(len(gratis)/len(df))*100:.2f}% de la base.")

# CASO 3: ¬øExiste lo inverso? (Unitario con precio pero Total 0)
error_calculo = df[(df['precio_unitario'] > 0) & (df['precio_total'] == 0)]
print(f"\n3. Casos con Precio Unitario pero Total $0 (Error de c√°lculo): {len(error_calculo)}")

if len(error_calculo) > 0:
    display(error_calculo.head())

üïµÔ∏è --- INVESTIGACI√ìN DE PRECIOS EN CERO ---
1. Casos con Unitario $0 pero Total > $0: 0
   ‚úÖ Confirmado: No hay 'generaci√≥n espont√°nea de dinero'. Si el unitario es 0, el total es 0.

2. Casos totalmente gratuitos (Unitario 0 y Total 0): 0
   Representan el 0.00% de la base.

3. Casos con Precio Unitario pero Total $0 (Error de c√°lculo): 0
