# Auditor√≠a Forense (Precios y Proveedores)

## Objetivo: El m√°s cr√≠tico. Detectar si estamos pagando precios diferentes por lo mismo (Dispersi√≥n) y qu√© proveedores son caros.

In [7]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.io as pio
from sqlalchemy import create_engine

# Configuraci√≥n visual y de renderizado
pd.options.display.float_format = '{:,.2f}'.format
pio.renderers.default = "iframe"  # Clave para que se vea en JupyterLab/Docker

# Conexi√≥n
# Usamos el host 'postgres' que ya validamos que funciona en tu red interna
engine = create_engine('postgresql+psycopg2://analista_medhos:Medhos2025!@postgres:5432/medhos_dw')

print("üöÄ 2.4 AUDITOR√çA FORENSE: PRECIOS Y PROVEEDORES (Interactivo)")

# =============================================================================
# 1. CARGA DE DATOS
# =============================================================================
query = """
SELECT r.cod_insumo, r.descripcion_insumo, r.fecha_movimiento, 
       r.precio_unitario, r.nombre_proveedor, c.tipo_cambio_oficial_venta
FROM raw_movimientos_siga r
LEFT JOIN dim_cotizaciones c ON r.fecha_movimiento = c.fecha
WHERE r.tipo_archivo_detectado = 'ENTRADA'
AND r.precio_unitario > 0
"""
df = pd.read_sql(query, engine)

# Procesamiento y Dolarizaci√≥n
df['fecha_movimiento'] = pd.to_datetime(df['fecha_movimiento']) # Asegurar formato fecha
df['cotizacion_usd'] = df['tipo_cambio_oficial_venta'].ffill().bfill()
df['unitario_usd'] = df['precio_unitario'] / df['cotizacion_usd']
df['mes'] = df['fecha_movimiento'].dt.to_period('M')

# =============================================================================
# 2. ALERTA DE DISPERSI√ìN (Mismo mes, Mismo producto, Distinto Precio)
# =============================================================================
print("\nüö® --- 1. ALERTA DE DISPERSI√ìN DE PRECIOS (Intra-mes) ---")
dispersi√≥n = df.groupby(['cod_insumo', 'descripcion_insumo', 'mes'])['unitario_usd'].agg(['min', 'max', 'mean', 'count'])
dispersi√≥n['variacion_pct'] = ((dispersi√≥n['max'] - dispersi√≥n['min']) / dispersi√≥n['min']) * 100

# Filtro: Variaci√≥n > 50% en el mismo mes y m√°s de 1 compra
sospechosos = dispersi√≥n[(dispersi√≥n['variacion_pct'] > 50) & (dispersi√≥n['count'] > 1)].sort_values('variacion_pct', ascending=False)

print(f"Se detectaron {len(sospechosos)} casos de dispersi√≥n extrema (>50% dif en el mismo mes).")
print("Top 10 Casos m√°s graves:")
display(sospechosos.head(10))

# =============================================================================
# 3. INVESTIGACI√ìN FORENSE DE PROVEEDORES
# =============================================================================
print("\nüïµÔ∏è --- 2. INVESTIGACI√ìN DE PROVEEDORES ---")
# Precio promedio de mercado por insumo
precio_mercado = df.groupby('cod_insumo')['unitario_usd'].mean().rename('precio_promedio_mercado')
df = df.merge(precio_mercado, on='cod_insumo')

# Sobreprecio pagado vs promedio
df['sobreprecio_pct'] = ((df['unitario_usd'] - df['precio_promedio_mercado']) / df['precio_promedio_mercado']) * 100

ranking_prov = df.groupby('nombre_proveedor').agg(
    compras_cant=('cod_insumo', 'count'),
    sobreprecio_promedio=('sobreprecio_pct', 'mean')
)
ranking_prov = ranking_prov[ranking_prov['compras_cant'] > 10].sort_values('sobreprecio_promedio', ascending=False)

print("Top 10 Proveedores con precios sistem√°ticamente superiores al promedio:")
display(ranking_prov.head(10))

# =============================================================================
# 4. DISPERSI√ìN VISUAL INTERACTIVA (PLOTLY)
# =============================================================================
print("\nüìä --- 3. DISPERSI√ìN VISUAL (Top 5 Insumos Sospechosos) ---")

if len(sospechosos) > 0:
    # Seleccionamos los Top 5 c√≥digos sospechosos
    top_sospechosos = sospechosos.reset_index()['cod_insumo'].head(5).tolist()
    df_plot = df[df['cod_insumo'].isin(top_sospechosos)].copy()
    
    # Convertir fecha a string para que se vea bien en el tooltip
    df_plot['fecha_str'] = df_plot['fecha_movimiento'].dt.strftime('%Y-%m-%d')

    fig = px.box(
        df_plot, 
        x="unitario_usd", 
        y="descripcion_insumo", 
        color="nombre_proveedor", # Cada proveedor un color distinto
        points="all", # Muestra cada factura individual como un punto
        hover_data=["fecha_str", "nombre_proveedor", "unitario_usd"], # Info al pasar el mouse
        title="Auditor√≠a Forense: Variaci√≥n de Precios por Proveedor (USD)",
        height=600
    )

    fig.update_layout(
        xaxis_title="Precio Unitario (USD)",
        yaxis_title="Insumo",
        template="plotly_white",
        legend_title="Proveedores"
    )
    
    fig.show()
else:
    print("‚úÖ No hay casos sospechosos suficientes para graficar.")

üöÄ 2.4 AUDITOR√çA FORENSE: PRECIOS Y PROVEEDORES (Interactivo)

üö® --- 1. ALERTA DE DISPERSI√ìN DE PRECIOS (Intra-mes) ---
Se detectaron 195 casos de dispersi√≥n extrema (>50% dif en el mismo mes).
Top 10 Casos m√°s graves:


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,min,max,mean,count,variacion_pct
cod_insumo,descripcion_insumo,mes,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
39830,Reactivo p/LDH UV m√©todo AUTOM,2020-06,0.05,17.87,5.99,3,35024.82
52133,Det. de Biotinidasa (unidad),2022-04,3.36,685.46,344.41,2,20283.42
39830,Reactivo p/LDH UV m√©todo AUTOM,2021-05,0.11,21.85,10.98,2,19283.86
39837,Reactivo p/ Fosfatasa alcalina,2019-10,0.11,11.87,5.98,4,10350.47
39830,Reactivo p/LDH UV m√©todo AUTOM,2022-11,0.27,27.72,9.42,3,10299.34
39830,Reactivo p/LDH UV m√©todo AUTOM,2022-10,0.29,28.46,14.37,2,9802.54
24987,Sonda,2022-09,0.26,13.5,9.08,3,5161.83
57110,Ibuprofeno 400 mg IV ampolla,2022-12,0.39,15.36,7.88,2,3830.13
50673,Sonda p/intub.nasogastrica 3mm,2025-04,0.32,12.18,6.25,2,3720.87
56816,Gasa dobladilla.8 capas 10x10c,2020-04,0.07,2.14,0.76,3,2921.86



üïµÔ∏è --- 2. INVESTIGACI√ìN DE PROVEEDORES ---
Top 10 Proveedores con precios sistem√°ticamente superiores al promedio:


Unnamed: 0_level_0,compras_cant,sobreprecio_promedio
nombre_proveedor,Unnamed: 1_level_1,Unnamed: 2_level_1
RO BOT S.R.L.,21,104.72
FARMACIA DEL PUENTE,26,96.36
SOLMED S.A,11,84.96
SAN JUAN S.R.L.,14,62.85
OPTOVISION S.A.,18,26.35
ROSENBLAT EZEQUIEL D,182,16.24
ROYMED S.A,13,15.9
XIMAX S.R.L.,15,14.94
BIOLATINA S.R.L.,2003,13.8
ZANPER S.A.,220,10.89



üìä --- 3. DISPERSI√ìN VISUAL (Top 5 Insumos Sospechosos) ---


In [3]:
import pandas as pd
import plotly.express as px
import plotly.io as pio
from sqlalchemy import create_engine

# Configuraci√≥n de renderizado
pio.renderers.default = "iframe"

print("üöÄ 2.4 (ANEXO) ZOOM FORENSE 2025: DISPERSI√ìN DE PRECIOS")

# 1. CONEXI√ìN Y CARGA (Para asegurar que tenemos los datos frescos)
DB_USER = 'analista_medhos'
DB_PASS = 'Medhos2025!'
DB_HOST = 'postgres'
DB_NAME = 'medhos_dw'
engine = create_engine(f'postgresql+psycopg2://{DB_USER}:{DB_PASS}@{DB_HOST}:5432/{DB_NAME}')

# Carga de Compras
query = """
SELECT r.cod_insumo, r.descripcion_insumo, r.fecha_movimiento, 
       r.precio_unitario, r.nombre_proveedor, r.nro_factura, c.tipo_cambio_oficial_venta
FROM raw_movimientos_siga r
LEFT JOIN dim_cotizaciones c ON r.fecha_movimiento = c.fecha
WHERE r.tipo_archivo_detectado = 'ENTRADA'
AND r.precio_unitario > 0
"""
df = pd.read_sql(query, engine)

# --- CORRECCI√ìN DEL ERROR ---
# Convertimos expl√≠citamente a Datetime
df['fecha_movimiento'] = pd.to_datetime(df['fecha_movimiento'])

# 2. PROCESAMIENTO
# Dolarizar unitario
df['cotizacion_usd'] = df['tipo_cambio_oficial_venta'].ffill().bfill()
df['unitario_usd'] = df['precio_unitario'] / df['cotizacion_usd']

# 3. FILTRO 2025
df_2025 = df[df['fecha_movimiento'].dt.year == 2025].copy()
df_2025['mes_str'] = df_2025['fecha_movimiento'].dt.strftime('%Y-%m')

print(f"   -> Analizando {len(df_2025)} compras registradas en 2025.")

# 4. C√ÅLCULO DE DISPERSI√ìN
stats = df_2025.groupby(['cod_insumo', 'descripcion_insumo', 'mes_str'])['unitario_usd'].agg(['min', 'max', 'count'])
stats['variacion_pct'] = ((stats['max'] - stats['min']) / stats['min']) * 100

# Filtro: >50% variaci√≥n y m√°s de 1 compra
sospechosos_2025 = stats[(stats['variacion_pct'] > 50) & (stats['count'] > 1)].sort_values('variacion_pct', ascending=False)

print(f"\nüö® ALERTA 2025: Se detectaron {len(sospechosos_2025)} insumos con dispersi√≥n extrema.")

if len(sospechosos_2025) > 0:
    print("TOP 10 CASOS M√ÅS GRAVES:")
    display(sospechosos_2025.head(10))

    # 5. VISUALIZACI√ìN (PLOTLY)
    top_codigos = sospechosos_2025.reset_index()['cod_insumo'].head(20).tolist()
    df_plot = df_2025[df_2025['cod_insumo'].isin(top_codigos)].copy()
    df_plot = df_plot.sort_values('descripcion_insumo')

    print("\nüìä --- GR√ÅFICO FORENSE INTERACTIVO ---")
    fig = px.box(
        df_plot, 
        x="unitario_usd", 
        y="descripcion_insumo", 
        color="descripcion_insumo", 
        points="all", 
        hover_data=["nombre_proveedor", "fecha_movimiento", "nro_factura"],
        title="Dispersi√≥n de Precios Unitarios 2025 (Top Casos Sospechosos)",
        height=800
    )
    
    fig.update_layout(
        xaxis_title="Precio Unitario (USD)",
        yaxis_title="",
        showlegend=False,
        template="plotly_white"
    )
    fig.show()
else:
    print("‚úÖ No hay casos sospechosos en 2025.")

üöÄ 2.4 (ANEXO) ZOOM FORENSE 2025: DISPERSI√ìN DE PRECIOS
   -> Analizando 5171 compras registradas en 2025.

üö® ALERTA 2025: Se detectaron 34 insumos con dispersi√≥n extrema.
TOP 10 CASOS M√ÅS GRAVES:


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,min,max,count,variacion_pct
cod_insumo,descripcion_insumo,mes_str,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
50673,Sonda p/intub.nasogastrica 3mm,2025-04,0.32,12.18,2,3720.87
59189,Bolsa de reservorio de silicon,2025-08,0.57,7.32,2,1188.07
58049,Set para administrar sangre y,2025-06,0.67,2.46,2,264.22
54929,Sutura quirurgica de nylon N¬∫5,2025-05,1.0,2.6,2,159.91
39872,Reactivo p/anticore p/hepatiti,2025-04,3.2,7.59,3,136.95
39872,Reactivo p/anticore p/hepatiti,2025-01,3.34,7.8,2,133.49
59600,Colectores HPV (Cell collectio,2025-06,4.82,9.43,3,95.52
59601,Cepillo Esteril p/toma muestra,2025-06,2.22,4.34,3,95.47
54939,Sutura quirurgica de poliglact,2025-04,0.79,1.51,3,91.23
39839,Reactivo p/trigliceridos AUTOM,2025-09,0.11,0.2,4,84.0



üìä --- GR√ÅFICO FORENSE INTERACTIVO ---


In [5]:
# =============================================================================
# 5. ESCENARIO DE AUDITOR√çA: TOLERANCIA DEL 20% SOBRE EL M√çNIMO
# =============================================================================
print("\nüëÆ --- 5. AUDITOR√çA ESTRICTA: ¬øCU√ÅNTO SE PAG√ì POR ENCIMA DEL M√çNIMO (+20%)? ---")

# Usamos el dataframe df_sim que ya tiene los datos de 2025 cargados del paso anterior
# Si no est√° en memoria, descomenta las l√≠neas de carga del bloque anterior.

# 1. Encontrar el PRECIO M√çNIMO conseguido por mes y producto (El "Benchmark")
benchmark = df_sim.groupby(['cod_insumo', 'mes_str'])['unitario_usd'].min().reset_index()
benchmark.rename(columns={'unitario_usd': 'precio_minimo_logrado'}, inplace=True)

# 2. Cruzar con las compras reales
df_audit = df_sim.merge(benchmark, on=['cod_insumo', 'mes_str'])

# 3. Definir el Techo Aceptable (M√≠nimo + 20%)
TOLERANCIA = 0.20 
df_audit['precio_techo'] = df_audit['precio_minimo_logrado'] * (1 + TOLERANCIA)

# 4. Calcular el "Exceso" pagado
# Si pagu√© 150 y el techo era 120, perd√≠ 30. Si pagu√© 100, perd√≠ 0.
df_audit['sobreprecio_unitario'] = df_audit['unitario_usd'] - df_audit['precio_techo']
df_audit['sobreprecio_unitario'] = df_audit['sobreprecio_unitario'].apply(lambda x: max(x, 0)) # Solo positivos

df_audit['dinero_desperdiciado'] = df_audit['sobreprecio_unitario'] * df_audit['cantidad']

# 5. Resultados
total_desperdicio = df_audit['dinero_desperdiciado'].sum()
gasto_total_2025 = df_audit['gasto_real'].sum()

print(f"üìâ RESULTADOS AUDITOR√çA 2025 (Tolerancia {TOLERANCIA*100}%)")
print(f"-------------------------------------------------------------")
print(f"Gasto Total Analizado:             USD {gasto_total_2025:,.2f}")
print(f"Dinero Pagado en Exceso (>20%):    USD {total_desperdicio:,.2f}")
print(f"-------------------------------------------------------------")
print(f"Porcentaje de Ineficiencia:        {(total_desperdicio/gasto_total_2025)*100:.2f}% del presupuesto")

# 6. Top 10 Insumos con mayor ineficiencia monetaria
print("\nüèÜ TOP 10 INSUMOS CON MAYOR DESPERDICIO DE DINERO:")
ranking_ineficiencia = df_audit.groupby('descripcion_insumo')['dinero_desperdiciado'].sum().sort_values(ascending=False).head(10)
display(ranking_ineficiencia.to_frame(name="Dinero Perdido (USD)").style.format("${:,.2f}"))

# 7. Visualizaci√≥n de los Culpables (Proveedores)
top_item_ineficiente = ranking_ineficiencia.index[0]
print(f"\nüîé ZOOM AL CASO #1: {top_item_ineficiente}")
print("¬øQui√©n vendi√≥ barato y qui√©n caro?")

caso_1 = df_audit[df_audit['descripcion_insumo'] == top_item_ineficiente].sort_values('unitario_usd')
display(caso_1[['fecha_movimiento', 'nombre_proveedor', 'cantidad', 'unitario_usd', 'precio_techo', 'dinero_desperdiciado']].style.format({
    'unitario_usd': '${:,.2f}',
    'precio_techo': '${:,.2f}',
    'dinero_desperdiciado': '${:,.2f}'
}))


üëÆ --- 5. AUDITOR√çA ESTRICTA: ¬øCU√ÅNTO SE PAG√ì POR ENCIMA DEL M√çNIMO (+20%)? ---
üìâ RESULTADOS AUDITOR√çA 2025 (Tolerancia 20.0%)
-------------------------------------------------------------
Gasto Total Analizado:             USD 7,060,212.91
Dinero Pagado en Exceso (>20%):    USD 19,832.33
-------------------------------------------------------------
Porcentaje de Ineficiencia:        0.28% del presupuesto

üèÜ TOP 10 INSUMOS CON MAYOR DESPERDICIO DE DINERO:


Unnamed: 0_level_0,Dinero Perdido (USD)
descripcion_insumo,Unnamed: 1_level_1
Tubo para suero c/5ml gel y ac,"$3,202.79"
Reactivo p/prop√©ptido natriur√©,"$2,380.63"
Reactivo p/anticore p/hepatiti,"$2,182.66"
Set para administrar sangre y,"$1,978.13"
Camisolin descartable manga la,"$1,433.83"
Det. de procalcitonina AUTOMAT,"$1,405.32"
Reactivo p/hormona antimulleri,"$1,213.67"
Reactivo p/testosterona libre,$699.85
Tubo p/ hemograma c/edta 3ml c,$597.79
Sonda p/intub.nasogastrica 3mm,$589.74



üîé ZOOM AL CASO #1: Tubo para suero c/5ml gel y ac
¬øQui√©n vendi√≥ barato y qui√©n caro?


Unnamed: 0,fecha_movimiento,nombre_proveedor,cantidad,unitario_usd,precio_techo,dinero_desperdiciado
3969,2025-06-18 00:00:00,NIPRO MEDICAL CORPOR,30000.0,$0.15,$0.18,$0.00
3970,2025-11-07 00:00:00,BIOLATINA S.R.L.,30000.0,$0.20,$0.23,$0.00
3968,2025-06-02 00:00:00,BIOLATINA S.R.L.,50000.0,$0.24,$0.18,"$3,202.79"
3966,2025-05-20 00:00:00,BIOLATINA S.R.L.,20000.0,$0.25,$0.30,$0.00
3967,2025-05-20 00:00:00,BIOLATINA S.R.L.,10000.0,$0.25,$0.30,$0.00
3965,2025-05-16 00:00:00,BIOLATINA S.R.L.,1300.0,$0.25,$0.30,$0.00
3963,2025-04-01 00:00:00,BIOLATINA S.R.L.,1300.0,$0.31,$0.37,$0.00
3964,2025-04-01 00:00:00,BIOLATINA S.R.L.,18700.0,$0.31,$0.37,$0.00
3959,2025-01-09 00:00:00,BIOLATINA S.R.L.,24671.0,$0.31,$0.38,$0.00
3960,2025-01-09 00:00:00,BIOLATINA S.R.L.,3000.0,$0.31,$0.38,$0.00



Los resultados son mixtos: hay una buena gesti√≥n general del presupuesto macro (baja ineficiencia total), pero hay **casos puntuales grav√≠simos** de dispersi√≥n de precios y problemas de datos que debemos corregir.

### üìã Resumen Ejecutivo: Hallazgos Clave 2025

#### 1. Ineficiencia Financiera Controlada (0.28%) ‚úÖ
*   De los **USD 7.06 Millones** analizados en 2025, el "dinero tirado a la basura" (pagado m√°s de un 20% por encima del m√≠nimo) fue de solo **USD 19,832**.
*   **Conclusi√≥n:** El sistema de compras general es estable. No hay un desfalco sist√©mico masivo, pero s√≠ "micro-fugas" que suman.

#### 2. La "Sonda de la Discordia" (Error de Unidad de Medida) üö®
*   El caso de la *Sonda p/intub.nasogastrica* muestra una variaci√≥n del **3,720%** ($0.32 vs $12.18).
*   **Diagn√≥stico:** Esto **NO es fraude**, es un error de carga.
    *   Un proveedor factur√≥ por **UNIDAD** ($0.32).
    *   Otro factur√≥ por **CAJA** ($12.18).
*   **Acci√≥n:** Antes de llevar esto a un tablero gerencial, debemos limpiar estos casos o el promedio se romper√°.

#### 3. El Caso "Biolatina vs Nipro" (Ineficiencia Real) üí∏
*   En el *Tubo para suero*, detectamos una p√©rdida neta de **$3,200 USD** en junio.
*   **La Evidencia:**
    *   Compraste a **Nipro** a **$0.15**.
    *   En el mismo mes, le compraste a **Biolatina** a **$0.24** (un 60% m√°s caro).
*   **Conclusi√≥n:** Aqu√≠ no hay error de unidad. Es el mismo producto. Compras no coordin√≥ con Nipro para cubrir todo el pedido y tuvo que salir a comprar caro a Biolatina.

#### 4. Proveedores en la Mira üïµÔ∏è
*   **RO BOT S.R.L.** y **FARMACIA DEL PUENTE** aparecen con sobreprecios promedio del **100%** respecto al mercado.
*   Aunque sus vol√∫menes sean bajos, sistem√°ticamente cobran el doble que el resto. Son candidatos para la conexi√≥n y los primeros Dashboards.