# Modulos

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix

# Pandas: manipulaci√≥n y an√°lisis de datos en estructuras tipo DataFrame

# NumPy: operaciones matem√°ticas y manejo eficiente de arreglos num√©ricos

# Matplotlib: visualizaci√≥n de datos mediante gr√°ficos est√°ticos
import matplotlib.pyplot as plt

# Seaborn: visualizaci√≥n estad√≠stica avanzada basada en Matplotlib

# Scikit-learn: herramientas para machine learning y an√°lisis predictivo

# SciPy: funciones matem√°ticas y estad√≠sticas avanzadas
import scipy.stats as stats

# Rutas y Datafarmes

In [None]:
R_bd = r"C:\Users\osmarrincon\OneDrive - 891856000_CAPRESOCA E P S\Escritorio\Yesid Rinc√≥n Z\informes\2025\CTO135.2025 Informe  #7\ACTIVIDAD 14\Presatciones economicas\Limpia BASE UNICA MATERNIDAD-PATERNIDAD CONSOLIDADO.xlsx"
R_Salida = r"C:\Users\osmarrincon\OneDrive - 891856000_CAPRESOCA E P S\Escritorio\Yesid Rinc√≥n Z\informes\2025\CTO135.2025 Informe  #7\ACTIVIDAD 14\Presatciones economicas\Licencias Maternidad"

In [None]:
df_maternidad = pd.read_excel(
    R_bd,
    sheet_name="BASE MATERNIDAD 2023,2024,2025",
    header=0
)
df_maternidad.columns

In [None]:
df_maternidad.dtypes

# 1. üìò Introducci√≥n y Prop√≥sito del An√°lisis

Este notebook tiene como prop√≥sito realizar un an√°lisis exploratorio de las **licencias de maternidad** registradas por Capresoca EPS durante los a√±os **2023, 2024 y 2025**, con el fin de generar insumos t√©cnicos para la construcci√≥n de informes ejecutivos, seguimiento institucional y evaluaci√≥n del impacto econ√≥mico.

La informaci√≥n analizada proviene del dataframe `df_maternidad`, el cual contiene datos administrativos, econ√≥micos y cl√≠nicos relacionados con las licencias de maternidad radicadas y pagadas por ADRES. Todas las columnas est√°n inicialmente en formato de texto (string) y ser√°n procesadas para su an√°lisis.

## Normatividad Aplicable

El an√°lisis se desarrolla bajo el marco normativo vigente que regula el reconocimiento y pago de licencias de maternidad en el Sistema General de Seguridad Social en Salud, destacando:

- **Decreto 2126 de 2023**: Define los par√°metros para el reconocimiento de prestaciones econ√≥micas por parte del SGSS.
- **Decreto 1427 de 2022**: Reglamenta el procedimiento para el reconocimiento y pago de licencias de maternidad y otras prestaciones econ√≥micas.
- **Decreto Ley 19 de 2012 ‚Äì Art√≠culo 142**: Establece la racionalizaci√≥n de tr√°mites, facilitando el acceso a beneficios como licencias.

## Objetivos T√©cnicos del An√°lisis

- **Cuantificar** el impacto econ√≥mico total y promedio de las licencias de maternidad pagadas por ADRES.
- **Analizar** la distribuci√≥n temporal de los casos (por mes y a√±o).
- **Detectar** patrones de recurrencia por afiliado, empresa o diagn√≥stico.
- **Identificar** posibles inconsistencias o irregularidades que puedan requerir auditor√≠a o seguimiento.
- **Generar** visualizaciones y tablas resumen que sirvan como base para la elaboraci√≥n posterior de informes ejecutivos y presentaciones institucionales.

> ‚ö†Ô∏è Este an√°lisis **no incluye incapacidades m√©dicas generales ni licencias de otro tipo**, las cuales se abordan en notebooks separados.

# 2. üìä An√°lisis Descriptivo General

Esta secci√≥n tiene como prop√≥sito explorar la estructura general de los datos, identificar la distribuci√≥n b√°sica de las licencias de maternidad y preparar el terreno para an√°lisis m√°s profundos en secciones posteriores. El objetivo es obtener una visi√≥n clara del volumen, temporalidad y caracter√≠sticas generales de las licencias.


## üîç 2.1: Validaci√≥n y limpieza inicial de datos
* **Objetivo:**
Detectar valores nulos o vac√≠os.

Corregir errores comunes en el formato (fechas, num√©ricos).

Preparar columnas clave (FECHA DE NACIMIENTO, FECHA DE INICIO, FECHA FINAL, FECHA DE RADICA, FECHA DE NOTIFICACION DEL PAGO, SALARIO, VALOR PAGADO POR ADRES) para an√°lisis cuantitativo.

In [None]:
# --- 1. Renombrar columnas: quitar espacios y convertir a may√∫sculas
df_maternidad.columns = df_maternidad.columns.str.strip().str.replace(' ', '_').str.upper()
df_maternidad.dtypes
# Crear una tabla con dos columnas: columnas_Dataframe y Tipo_Datos
tabla_tipos = (
    df_maternidad.dtypes
    .reset_index()
    .rename(columns={"index": "columnas_Dataframe", 0: "Tipo_Datos"})
)
tabla_tipos["Tipo_Datos"] = tabla_tipos["Tipo_Datos"].astype(str)
tabla_tipos

In [None]:
# Convertir la columna "DIAS_RECONOCIDOS_ADRES" a tipo int64 de forma segura
df_maternidad["DIAS_RECONOCIDOS_ADRES"] = pd.to_numeric(df_maternidad["DIAS_RECONOCIDOS_ADRES"], errors="coerce").astype("Int64")

In [None]:
# --- 2. Convertir columnas de fecha a datetime
columnas_fecha = [
    'FECHA_NACIMIENTO',
    'FECHA__DE_INICIO',
    'FECHA__FINAL',
    'FECHA_DE_RADICA',
    'FECHA_DE_NOTIFICACION_DEL_PAGO'
]

for col in columnas_fecha:
    if df_maternidad[col].dtype == 'object':
        df_maternidad[col] = (
            df_maternidad[col]
            .str.strip()
            .replace('01/01/1900', pd.NA)
        )

    df_maternidad[col] = pd.to_datetime(
        df_maternidad[col],
        errors='coerce',
        dayfirst=True  # m√°s seguro para Colombia
    )

In [None]:
# --- 3. Convertir columnas num√©ricas de texto a float
def limpiar_valor_monetario_seguro(serie):
    """
    Limpia y convierte una serie de salarios o valores monetarios a float,
    detectando si ya viene en formato num√©rico o como texto con puntos/separadores.
    """
    if serie.dtype == 'object':
        # Limpiar texto: eliminar puntos de miles, cambiar coma decimal
        return pd.to_numeric(
            serie.str.replace('.', '', regex=False).str.replace(',', '.', regex=False),
            errors='coerce'
        )
    else:
        # Ya es num√©rico, se devuelve tal cual o como float
        return pd.to_numeric(serie, errors='coerce')


df_maternidad['SALARIO'] = limpiar_valor_monetario_seguro(df_maternidad['SALARIO'])

In [None]:
# --- 4. Resumen de valores nulos y conversiones
resumen_nulos = df_maternidad[[
    'FECHA_NACIMIENTO',
    'FECHA_DE_RADICA',
    'SALARIO',
    'VALOR_PAGADO'
]].isnull().sum().to_frame(name='NULOS')

resumen_nulos['TOTAL_REGISTROS'] = len(df_maternidad)
resumen_nulos['%_NULOS'] = (resumen_nulos['NULOS'] / len(df_maternidad) * 100).round(2)

In [None]:
# --- 5. Mostrar resultado
print("\nResumen de valores nulos y conversiones:\n")
print(resumen_nulos)

## üîç2.2 ‚Äì Distribuci√≥n general por a√±o y estado
* **Objetivo:**

¬øC√≥mo se distribuyen las licencias por a√±o (FECHA_DE_RADICA.dt.year)?

¬øCu√°ntas est√°n en estado PAGADA, RESERVA, NEGADA?

¬øCu√°nto dinero representa por a√±o o por estado?

1. Agregar columna de A√ëO

In [None]:
df_maternidad['A√ëO_RADICACION'] = df_maternidad['FECHA_DE_RADICA'].dt.year

2. Conteo por a√±o y estado

In [None]:
conteo_estado_anual = df_maternidad.groupby(['A√ëO_RADICACION', 'ESTADO_DE_LA_LICENCIA']).size().unstack(fill_value=0)
print("Distribuci√≥n de licencias por a√±o y estado:")
conteo_estado_anual

3. Total de licencias PAGADAS por a√±o

In [None]:
pagadas_anual = df_maternidad[df_maternidad['ESTADO_DE_LA_LICENCIA'] == 'PAGADA']
conteo_pagadas = pagadas_anual['A√ëO_RADICACION'].value_counts().sort_index()
print("Total de licencias PAGADAS por a√±o:")
conteo_pagadas

4. Valor total pagado por a√±o (solo PAGADAS)

In [None]:
valor_pagado_anual = pagadas_anual.groupby('A√ëO_RADICACION')['VALOR_PAGADO'].sum().sort_index()
print("Valor total pagado por a√±o (COP):")
valor_pagado_anual

5. Valor promedio pagado por licencia por a√±o

In [None]:
valor_promedio_anual = (valor_pagado_anual / conteo_pagadas).round(0)
print("Valor promedio pagado por licencia (COP):")
valor_promedio_anual

6. Variaci√≥n anual en n√∫mero de licencias pagadas

In [None]:
variacion_pagadas = conteo_pagadas.pct_change().round(3) * 100
print("Variaci√≥n porcentual de licencias pagadas por a√±o (%):")
variacion_pagadas

7. Variaci√≥n en valor pagado total

In [None]:
variacion_valor = valor_pagado_anual.pct_change().round(3) * 100
print("Variaci√≥n en valor total pagado por a√±o (%):")
variacion_valor

## 2.3 Graficas

In [None]:
# --- Ordenar columnas por l√≥gica visual: NEGADO (base), RESERVA (medio), PAGADA (arriba)
orden_estados = ['NEGADO', 'RESERVA', 'PAGADA']
conteo_ordenado = conteo_estado_anual[orden_estados]

# --- Crear figura
fig, ax = plt.subplots(figsize=(12, 6))

# --- Colores personalizados (puedes ajustarlos si Capresoca maneja paleta institucional)
colores = ['#1f77b4', '#2ca02c', '#ff7f0e']  # Azul, Verde, Naranja

# --- Gr√°fico de barras apiladas
conteo_ordenado.plot(kind='bar', stacked=True, color=colores, ax=ax)

# --- T√≠tulos y ejes
ax.set_title('Composici√≥n anual de licencias de maternidad seg√∫n estado (2023‚Äì2025)', fontsize=14)
ax.set_ylabel('Cantidad de licencias', fontsize=12)
ax.set_xlabel('A√±o de radicaci√≥n', fontsize=12)
ax.legend(title='Estado de la licencia')
ax.grid(axis='y', linestyle='--', alpha=0.7)

# --- A√±adir etiquetas num√©ricas sobre cada barra apilada
for container in ax.containers:
    ax.bar_label(container, label_type='center', fontsize=9, color='white')

plt.tight_layout()
plt.show()

In [None]:
# --- 2. Total de licencias PAGADAS por a√±o (conteo_pagadas)
fig, ax = plt.subplots(figsize=(8, 5))

# --- Gr√°fico
conteo_pagadas.plot(kind='bar', color='#4a90e2', ax=ax)  # Azul profesional

# --- Est√©tica y t√≠tulos
ax.set_title('Total anual de licencias de maternidad PAGADAS (2023‚Äì2025)', fontsize=13)
ax.set_ylabel('Cantidad de licencias', fontsize=11)
ax.set_xlabel('A√±o de radicaci√≥n', fontsize=11)
ax.grid(axis='y', linestyle='--', alpha=0.6)

# --- Etiquetas sobre las barras
for i, valor in enumerate(conteo_pagadas):
    ax.text(i, valor + 3, str(valor), ha='center', va='bottom', fontsize=9, fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(9, 5))

# Gr√°fico con l√≠nea
valor_pagado_anual.plot(kind='line', marker='o', markersize=6, linewidth=2, color='#003366', ax=ax)

# T√≠tulos
ax.set_title('Valor total anual pagado por licencias de maternidad (2023‚Äì2025)', fontsize=13)
ax.set_ylabel('Valor en COP', fontsize=11)
ax.set_xlabel('A√±o de radicaci√≥n', fontsize=11)
ax.grid(True, linestyle='--', alpha=0.6)

# Mostrar etiquetas en millones (M COP)
for x, y in valor_pagado_anual.items():
    etiqueta = f"${y/1e6:,.0f}M"
    ax.annotate(etiqueta, (x, y), textcoords="offset points", xytext=(0,8), ha='center', fontsize=9, color='black')

plt.tight_layout()
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(8, 5))

# --- Gr√°fico de barras
valor_promedio_anual.plot(kind='bar', color='#2ca02c', ax=ax)  # Verde institucional

# --- T√≠tulos y etiquetas
ax.set_title('Valor promedio por licencia de maternidad (2023‚Äì2025)', fontsize=13)
ax.set_ylabel('Valor promedio en COP', fontsize=11)
ax.set_xlabel('A√±o de radicaci√≥n', fontsize=11)
ax.grid(axis='y', linestyle='--', alpha=0.6)

# --- Mostrar etiquetas con valores en millones de COP
for i, valor in enumerate(valor_promedio_anual):
    ax.text(i, valor + 1e5, f"${valor/1e6:,.1f}M", ha='center', va='bottom', fontsize=9, fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(8, 5))

# --- Gr√°fico de barras
variacion_pagadas.plot(kind='bar', color='#FFA500', ax=ax)  # Naranja institucional

# --- T√≠tulo y ejes
ax.set_title('Variaci√≥n porcentual anual de licencias de maternidad pagadas (2023‚Äì2025)', fontsize=13)
ax.set_ylabel('% de variaci√≥n', fontsize=11)
ax.set_xlabel('A√±o de radicaci√≥n', fontsize=11)

# --- L√≠nea base en 0
ax.axhline(0, color='black', linewidth=0.8)
ax.grid(axis='y', linestyle='--', alpha=0.6)

# --- Etiquetas encima de las barras
for i, valor in enumerate(variacion_pagadas):
    ax.text(i, valor + (2 if valor > 0 else -6), f'{valor:.1f}%', ha='center', va='bottom', fontsize=9, fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(8, 5))

# --- Gr√°fico de barras
variacion_valor.plot(kind='bar', color='#d62728', ax=ax)  # Rojo institucional

# --- T√≠tulos y ejes
ax.set_title('Variaci√≥n porcentual anual en el valor total pagado por licencias (2023‚Äì2025)', fontsize=13)
ax.set_ylabel('% de variaci√≥n', fontsize=11)
ax.set_xlabel('A√±o de radicaci√≥n', fontsize=11)

# --- L√≠nea base y rejilla
ax.axhline(0, color='black', linewidth=0.8)
ax.grid(axis='y', linestyle='--', alpha=0.6)

# --- Etiquetas sobre las barras
for i, valor in enumerate(variacion_valor):
    desplazamiento = 3 if valor > 0 else -6
    ax.text(i, valor + desplazamiento, f'{valor:.1f}%', ha='center', va='bottom', fontsize=9, fontweight='bold')

plt.tight_layout()
plt.show()

## üß† 2.4 ‚Äì Hallazgos

A partir del an√°lisis exploratorio de las licencias de maternidad reportadas entre **2023 y 2025**, se destacan los siguientes hallazgos clave:

---

### üìå 1. Reducci√≥n aparente en licencias pagadas en 2025 (‚ö†Ô∏è interpretaci√≥n condicionada)

- En **2023** se registraron **241** licencias pagadas.  
- En **2024** hubo un ligero aumento, con **255** licencias (**+5.8%**).  
- En **2025**, se reportan **48 licencias pagadas**, lo que en comparaci√≥n directa sugiere una reducci√≥n del **81.2%**.

> ‚ö†Ô∏è **Advertencia**: esta disminuci√≥n no debe interpretarse como una ca√≠da real, ya que el corte de datos para 2025 es **solo hasta mayo**, mientras que los otros a√±os cubren el per√≠odo completo. Se espera un aumento progresivo conforme avance el a√±o.

---

### üìå 2. Composici√≥n del estado de las licencias

- En **2023** y **2024**, la mayor√≠a de las licencias est√°n en estado **PAGADA**.  
- En **2025**, hay un incremento en licencias **RESERVA** (32), representando una proporci√≥n significativa.  
- Las licencias **NEGADAS** han disminuido de **36** en 2023 a solo **4** en 2025.

> üí° *Esto podr√≠a reflejar mejoras en la documentaci√≥n o en la gesti√≥n previa a la radicaci√≥n.*

---

### üìå 3. Valor total pagado por a√±o

- **$964M COP** en **2023**.  
- **$1.133M COP** en **2024** (**+17.5%**).  
- **$208M COP** en **2025** (**‚Äì81.7%**).

> ‚ö†Ô∏è *El bajo valor en 2025 se debe al corte parcial del a√±o. La variaci√≥n negativa debe entenderse como efecto de la temporalidad, no de una reducci√≥n estructural.*

---

### üìå 4. Valor promedio por licencia se mantiene estable

- **$4.0M COP** en 2023.  
- **$4.4M COP** en 2024.  
- **$4.3M COP** en 2025.

> üí° *Este indicador sugiere que no ha habido cambios bruscos en el monto individual de las licencias, lo cual es esperable si los par√°metros de liquidaci√≥n (salario base y tiempo) se han mantenido.*

---

### üìå 5. Limitaciones por corte de informaci√≥n

- El an√°lisis para 2025 debe ser considerado **provisional**.  
- Muchas licencias de 2025 se encuentran **en tr√°mite**, **en reserva** o **a la espera de pago**.  
- Es recomendable actualizar los hallazgos al cierre del segundo semestre.

---



# üí∞ 3. Impacto econ√≥mico anual y mensual
* **Objetivo:** Evaluar el valor pagado por ADRES y su comportamiento en el tiempo.
An√°lisis sugerido:
    * Valor total anual y mensual.
    * Valor promedio por licencia y por empresa.
    * Comparaci√≥n entre valor radicado y valor pagado (si hay campos disponibles).
    * Ranking de empresas con mayor impacto econ√≥mico.

## üìÜ 3.1 ‚Äì Distribuci√≥n mensual del valor pagado por a√±o
- Objetivo: Visualizar el flujo econ√≥mico mes a mes, por cada a√±o.
- KPI: Total mensual pagado en licencias.
- Output: Gr√°fico de barras agrupadas por mes y a√±o.

In [None]:
# --- Filtrar solo registros PAGADOS
pagadas = df_maternidad[df_maternidad["ESTADO_DE_LA_LICENCIA"] == "PAGADA"].copy()

# --- Crear columna de MES (nombre) y A√ëO
pagadas["MES_RADICACION"] = pagadas["FECHA_DE_RADICA"].dt.month
pagadas["A√ëO_RADICACION"] = pagadas["FECHA_DE_RADICA"].dt.year

# --- Asegurar que VALOR_PAGADO es num√©rico
pagadas["VALOR_PAGADO"] = pd.to_numeric(pagadas["VALOR_PAGADO"], errors='coerce')

# --- Agrupar por a√±o y mes
valor_mensual = (
    pagadas
    .groupby(["A√ëO_RADICACION", "MES_RADICACION"])["VALOR_PAGADO"]
    .sum()
    .unstack(level=0)
    .fillna(0)
)

# --- Ordenar los meses por n√∫mero y asignar nombres
meses_nombres = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun',
                 'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']
valor_mensual.index = [meses_nombres[m - 1] for m in valor_mensual.index]

# --- Gr√°fico
fig, ax = plt.subplots(figsize=(12, 6))
valor_mensual.plot(kind="bar", ax=ax, width=0.8)  # Espacio entre barras mejorado

# --- Personalizaci√≥n
ax.set_title("Distribuci√≥n mensual del valor pagado por licencias de maternidad (2023‚Äì2025)", fontsize=14)
ax.set_ylabel("Valor pagado (millones de COP)", fontsize=11)
ax.set_xlabel("Mes de radicaci√≥n", fontsize=11)
ax.legend(title="A√±o de radicaci√≥n")
ax.grid(axis='y', linestyle='--', alpha=0.6)

# --- Etiquetas del eje Y: formato $XM
from matplotlib.ticker import FuncFormatter
ax.yaxis.set_major_formatter(FuncFormatter(lambda x, _: f"${int(x/1e6):,}M".replace(",", ".")))

# --- Etiquetas encima de cada barra, con desplazamiento
for container in ax.containers:
    for bar in container:
        valor = bar.get_height()
        if valor > 0:
            # Evita que los valores queden encima de las barras m√°s altas
            offset = 8 if valor > 120_000_000 else 6 if valor > 80_000_000 else 4
            ax.annotate(
                f"${int(valor):,}".replace(",", "."),
                xy=(bar.get_x() + bar.get_width() / 2, valor),
                xytext=(0, offset),
                textcoords="offset points",
                ha='center', va='bottom',
                fontsize=7,
                rotation=35  # ligera inclinaci√≥n evita superposici√≥n
            )

plt.tight_layout()
plt.show()

In [None]:
# --- Crear copia base ---
valor_mensual_tabla = valor_mensual.copy()

# --- Reindexar con todos los meses del a√±o en orden ---
meses_nombres = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun',
                 'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']
valor_mensual_tabla = valor_mensual_tabla.reindex(meses_nombres)

# --- Agregar fila de totales anuales ---
valor_mensual_tabla.loc["Total Anual"] = valor_mensual_tabla.sum()

# --- Resetear √≠ndice para tener columna "Mes" ---
valor_mensual_tabla.reset_index(inplace=True)
valor_mensual_tabla.rename(columns={'index': 'Mes'}, inplace=True)  # opcional si no se llama 'Mes'

# --- Aplicar formato COP ---
def formato_pesos(x):
    return f"${int(x):,}".replace(",", ".")

# Formatear solo valores num√©ricos
valor_mensual_tabla_formateada = valor_mensual_tabla.copy()
for col in valor_mensual_tabla_formateada.columns[1:]:
    valor_mensual_tabla_formateada[col] = valor_mensual_tabla_formateada[col].apply(
        lambda x: formato_pesos(x) if x > 0 else "$0"
    )

# --- Mostrar tabla final ---
from IPython.display import display
print("üìã **Distribuci√≥n mensual del valor pagado por licencias de maternidad (COP):**")
display(valor_mensual_tabla_formateada)

## üìà 3.2 ‚Äì Tendencia mensual consolidada
Esta subsecci√≥n nos permitir√° identificar si existe una estacionalidad en el comportamiento de pagos por licencias de maternidad, independientemente del a√±o, a trav√©s de un consolidado mensual.

‚úÖ Objetivo:
Analizar la distribuci√≥n del valor pagado total por mes, sumando los a√±os 2023, 2024 y 2025, para observar qu√© meses concentran m√°s recursos.

üß† Enfoque t√©cnico:
Vamos a reutilizar el valor_mensual generado previamente, que contiene los valores por mes y a√±o, y sumar por filas.

In [None]:
# --- Asegurar que las filas est√°n ordenadas por mes ---
orden_meses = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun',
               'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']
valor_mensual = valor_mensual.reindex(orden_meses)

# --- Gr√°fico de l√≠neas por a√±o completo (mostrando huecos en 2025) ---
fig, ax = plt.subplots(figsize=(12, 6))
for a√±o in valor_mensual.columns:
    ax.plot(valor_mensual.index, valor_mensual[a√±o], marker='o', label=str(a√±o))

# --- Personalizaci√≥n del gr√°fico ---
ax.set_title("Tendencia mensual del valor pagado por licencias de maternidad (2023‚Äì2025)", fontsize=14)
ax.set_xlabel("Mes de radicaci√≥n", fontsize=11)
ax.set_ylabel("Valor pagado (COP)", fontsize=11)
ax.grid(True, linestyle='--', alpha=0.6)
ax.legend(title="A√±o de radicaci√≥n")

# --- Formato eje Y en millones de pesos ---
from matplotlib.ticker import FuncFormatter
ax.yaxis.set_major_formatter(FuncFormatter(lambda x, _: f"${int(x/1e6):,}M".replace(",", ".")))

# --- Etiquetas en cada punto (solo donde hay datos) ---
for a√±o in valor_mensual.columns:
    for i, valor in enumerate(valor_mensual[a√±o]):
        if pd.notnull(valor):
            ax.annotate(
                f"${int(valor):,}".replace(",", "."),
                xy=(valor_mensual.index[i], valor),
                xytext=(0, 6),
                textcoords="offset points",
                ha="center",
                fontsize=8
            )

plt.tight_layout()
plt.show()

## üìä 3.3 ‚Äì Desviaciones mensuales por a√±o
üìå Objetivo:
Detectar meses at√≠picos donde los pagos fueron muy superiores o inferiores al promedio mensual del mismo a√±o.

üìê Metodolog√≠a sugerida:
Calcular el promedio mensual por a√±o (base de comparaci√≥n).

Calcular la desviaci√≥n absoluta y porcentual de cada mes respecto a su promedio.

Identificar visualmente o num√©ricamente meses at√≠picos (e.g., desviaciones mayores al 25%).

In [None]:
# --- Paso 1: Calcular el promedio mensual por a√±o ---
promedio_anual = valor_mensual.mean()

# --- Paso 2: Calcular la desviaci√≥n absoluta y porcentual ---
desviacion_abs = valor_mensual - promedio_anual
desviacion_pct = ((valor_mensual - promedio_anual) / promedio_anual) * 100

# --- Paso 3: Preparar tabla final con formato ---
tabla_desviaciones = pd.DataFrame(index=valor_mensual.index)

for a√±o in valor_mensual.columns:
    tabla_desviaciones[f"{a√±o} (COP)"] = valor_mensual[a√±o].apply(lambda x: f"${int(x):,}".replace(",", "."))
    tabla_desviaciones[f"{a√±o} (Œî %)"] = desviacion_pct[a√±o].apply(lambda x: f"{x:.1f}%" if pd.notnull(x) else "-")

# --- Mostrar tabla con meses como columna visible ---
tabla_desviaciones.index.name = "Mes"
tabla_desviaciones = tabla_desviaciones.reset_index()

from IPython.display import display
print("üìä **Tabla de desviaciones mensuales por a√±o respecto al promedio anual:**")
display(tabla_desviaciones)

## üìå Hallazgos ‚Äì Secci√≥n 3: Impacto econ√≥mico anual y mensual

### üìÜ 3.1 ‚Äì Distribuci√≥n mensual del valor pagado por a√±o

- En **2024** se registr√≥ el mayor valor total pagado por licencias de maternidad con **$1.132.806.038 COP**, superando al **2023** que cerr√≥ con **$964.253.210 COP**.
- A marzo de **2025**, se han pagado **$335.532.589 COP**, lo cual representa apenas el **29,6% del total de 2024**, reflejando que el a√±o a√∫n no est√° consolidado.
- Se evidencian **picos estacionales** de pagos en:
  - **Enero de 2023**: $139.884.655
  - **Mayo de 2024**: $119.730.650
  - **Agosto de 2024**: $137.692.769
  - **Noviembre de 2024**: $130.313.187
- La concentraci√≥n de pagos en meses puntuales puede indicar **procesos administrativos acumulativos** o patrones de radicaci√≥n espec√≠ficos.

---

### üìà 3.2 ‚Äì Tendencia mensual consolidada (2023‚Äì2025)

- El valor total pagado consolidadamente por mes muestra una **tendencia irregular**, con m√°ximos en:
  - **Enero**: $305.170.236
  - **Marzo**: $236.460.995
  - **Noviembre**: $229.942.819
- El **promedio mensual consolidado** se ubic√≥ en **$192.060.380**, sirviendo como referencia para identificar desviaciones cr√≠ticas.
- A partir de abril, los valores de 2025 son nulos, lo que limita el an√°lisis longitudinal completo de ese a√±o. Esta omisi√≥n debe tenerse en cuenta para evitar interpretaciones sesgadas.

---

### üìä 3.3 ‚Äì Desviaciones mensuales por a√±o respecto al promedio anual

- En **2023**, los meses con mayor desviaci√≥n positiva fueron:
  - **Enero** (+74.1%)
  - **Mayo** (+19.6%)
  Mientras que las desviaciones negativas m√°s marcadas fueron:
  - **Julio** (‚Äì33.9%)
  - **Agosto** (‚Äì27.6%)
- En **2024**, las desviaciones positivas m√°s destacadas fueron:
  - **Agosto** (+45.9%)
  - **Mayo** (+26.8%)
  - **Abril** (+23.2%)
  Las negativas m√°s relevantes:
  - **Febrero** (‚Äì31.3%)
  - **Junio** (‚Äì14.4%)
- Estas fluctuaciones evidencian **meses con posible sobrepresi√≥n presupuestal**, as√≠ como otros que podr√≠an presentar **subutilizaci√≥n de recursos financieros**.

---



# ‚è±Ô∏è 4. D√≠as acumulados de licencia por afiliado y empresa
üéØ **Objetivos de la secci√≥n:**
Detectar afiliados con posible uso excesivo de d√≠as de licencia (alerta por fraude o mal uso).

Identificar empresas con patrones an√≥malos (concentraci√≥n de casos o acumulaci√≥n at√≠pica).

Correlacionar d√≠as con el valor econ√≥mico pagado (alto costo por ciertos casos o empresas).

## üßë‚Äçüíº 4.1 ‚Äì Afiliados con mayor acumulado de d√≠as de licencia

- Tabla de top 10 afiliados con m√°s d√≠as acumulados (2023‚Äì2025)
- C√°lculo de promedio de d√≠as por afiliado
- Identificaci√≥n de casos fuera de lo esperado

In [None]:
# --- Filtrar solo licencias PAGADAS ---
licencias_pagadas = df_maternidad[df_maternidad["ESTADO_DE_LA_LICENCIA"] == "PAGADA"].copy()

# --- Asegurar que los d√≠as son num√©ricos ---
licencias_pagadas["DIAS_RECONOCIDOS"] = pd.to_numeric(licencias_pagadas["DIAS_RECONOCIDOS"], errors="coerce")
licencias_pagadas["DIAS_RECONOCIDOS_ADRES"] = pd.to_numeric(licencias_pagadas["DIAS_RECONOCIDOS_ADRES"], errors="coerce")

# --- Agrupar por afiliado y sumar los d√≠as ---
acumulado_afiliado = (
    licencias_pagadas
    .groupby(["N_DOC_AFILIADO", "NOMBRE_DEL_COTIZANTE"])[["DIAS_RECONOCIDOS", "DIAS_RECONOCIDOS_ADRES"]]
    .sum()
    .sort_values(by="DIAS_RECONOCIDOS", ascending=False)
    .reset_index()
)

# --- Top 15 afiliados con mayor acumulado de d√≠as PAGADOS por la EPS ---
acumulado_afiliado_top = acumulado_afiliado.head(15)

# --- Mostrar tabla final ---
from IPython.display import display
print("üßë‚Äçüíº **Top 15 afiliados con mayor acumulado de d√≠as de licencia (2023‚Äì2025):**")
display(acumulado_afiliado_top)

In [None]:
# --- Filtrar solo afiliados con d√≠as reconocidos por ADRES > 0 ---
acumulado_filtrado = acumulado_afiliado_top[acumulado_afiliado_top["DIAS_RECONOCIDOS_ADRES"] > 0].copy()

# --- Ordenar de menor a mayor para gr√°fico horizontal ---
acumulado_filtrado = acumulado_filtrado.sort_values("DIAS_RECONOCIDOS_ADRES", ascending=True)

# --- Crear gr√°fico de barras horizontal ---
fig, ax = plt.subplots(figsize=(10, 6))
ax.barh(
    acumulado_filtrado["NOMBRE_DEL_COTIZANTE"],
    acumulado_filtrado["DIAS_RECONOCIDOS_ADRES"],
    color="steelblue"
)

# --- Personalizaci√≥n del gr√°fico ---
ax.set_title("Top afiliados con m√°s d√≠as de licencia reconocidos por ADRES (2023‚Äì2025)", fontsize=14)
ax.set_xlabel("D√≠as reconocidos por ADRES", fontsize=11)
ax.set_ylabel("Afiliado", fontsize=11)
ax.grid(axis="x", linestyle="--", alpha=0.6)

# --- Mostrar valores al final de cada barra ---
for i, (dias, nombre) in enumerate(zip(acumulado_filtrado["DIAS_RECONOCIDOS_ADRES"], acumulado_filtrado["NOMBRE_DEL_COTIZANTE"])):
    ax.text(dias + 1, i, f"{int(dias)} d√≠as", va="center", fontsize=9)

plt.tight_layout()
plt.show()

## üè¢ 4.2 ‚Äì Empresas con mayor n√∫mero de d√≠as acumulados por licencias

Teniendo en cuenta que ya disponemos de las columnas DIAS_RECONOCIDOS (EPS) y DIAS_RECONOCIDOS_ADRES, usaremos ambas para identificar:

Empresas con mayor acumulado de d√≠as pagados por la EPS.

Empresas con mayor acumulado de d√≠as reconocidos por ADRES.

In [None]:
# --- Filtrar licencias PAGADAS ---
licencias_pagadas = df_maternidad[df_maternidad["ESTADO_DE_LA_LICENCIA"] == "PAGADA"].copy()

# --- Agrupar por ID de empresa y calcular totales EPS vs ADRES ---
acumulado_empresas = (
    licencias_pagadas
    .groupby("NUMERODEDOCUMENTOSDELEMPELADOR")[["DIAS_RECONOCIDOS", "DIAS_RECONOCIDOS_ADRES"]]
    .sum()
    .sort_values(by="DIAS_RECONOCIDOS_ADRES", ascending=False)
    .reset_index()
)

# --- Agregar nombre de empresa para referencia (puede haber duplicados) ---
nombres_empresa = licencias_pagadas[["NUMERODEDOCUMENTOSDELEMPELADOR", "NOMBRE_DE_EMPRESA"]].drop_duplicates("NUMERODEDOCUMENTOSDELEMPELADOR")
acumulado_empresas = acumulado_empresas.merge(nombres_empresa, on="NUMERODEDOCUMENTOSDELEMPELADOR", how="left")

# --- Calcular brecha EPS - ADRES ---
acumulado_empresas["BRECHA_DIAS"] = acumulado_empresas["DIAS_RECONOCIDOS"] - acumulado_empresas["DIAS_RECONOCIDOS_ADRES"]

# --- Seleccionar top 15 por d√≠as reconocidos por ADRES ---
top_empresas = acumulado_empresas.head(15)

# --- Reordenar columnas para visualizaci√≥n ---
top_empresas = top_empresas[[
    "NUMERODEDOCUMENTOSDELEMPELADOR", 
    "NOMBRE_DE_EMPRESA", 
    "DIAS_RECONOCIDOS", 
    "DIAS_RECONOCIDOS_ADRES", 
    "BRECHA_DIAS"
]]

# --- Mostrar tabla final ---
from IPython.display import display
print("üè¢ **Top 15 empresas con mayor acumulado de d√≠as de licencia reconocidos por ADRES (2023‚Äì2025):**")
top_empresas

In [None]:
# --- Preparar los datos ---
top_empresas_plot = top_empresas.copy()
top_empresas_plot = top_empresas_plot.sort_values("DIAS_RECONOCIDOS_ADRES", ascending=True)

# --- Crear figura ---
fig, ax = plt.subplots(figsize=(10, 7))

# --- Posici√≥n para las barras
pos = range(len(top_empresas_plot))

# --- Barras ADRES ---
ax.barh(pos, top_empresas_plot["DIAS_RECONOCIDOS_ADRES"], color="steelblue", label="D√≠as reconocidos por ADRES")

# --- Barras EPS (en fondo m√°s claro si hay brecha) ---
ax.barh(pos, top_empresas_plot["DIAS_RECONOCIDOS"], color="lightgray", left=0, label="D√≠as pagados por EPS", alpha=0.4)

# --- Etiquetas al lado derecho ---
for i, (eps, adres) in enumerate(zip(top_empresas_plot["DIAS_RECONOCIDOS"], top_empresas_plot["DIAS_RECONOCIDOS_ADRES"])):
    ax.text(adres + 1, i, f"{adres} d√≠as", va='center', fontsize=8, color='black')
    if eps > adres:
        ax.text(eps + 1, i, f"{eps} d√≠as", va='center', fontsize=8, color='gray')

# --- Configuraci√≥n visual ---
ax.set_yticks(pos)
ax.set_yticklabels(top_empresas_plot["NOMBRE_DE_EMPRESA"])
ax.invert_yaxis()
ax.set_xlabel("D√≠as acumulados de licencia")
ax.set_title("Top empresas con m√°s d√≠as de licencia reconocidos por ADRES vs pagados por EPS (2023‚Äì2025)", fontsize=12)
ax.legend()
plt.tight_layout()
plt.show()

In [None]:
# --- Crear DataFrame base con las columnas relevantes ---
df_empresas = top_empresas.copy()

# --- Calcular diferencia absoluta y % no reconocido por ADRES ---
df_empresas["DIFERENCIA"] = df_empresas["DIAS_RECONOCIDOS"] - df_empresas["DIAS_RECONOCIDOS_ADRES"]
df_empresas["% NO RECONOCIDO"] = (df_empresas["DIFERENCIA"] / df_empresas["DIAS_RECONOCIDOS"]) * 100
df_empresas["% RECUPERACION"] = (df_empresas["DIAS_RECONOCIDOS_ADRES"] / df_empresas["DIAS_RECONOCIDOS"]) * 100

# --- Redondear para visualizaci√≥n ---
df_empresas["% NO RECONOCIDO"] = df_empresas["% NO RECONOCIDO"].round(1)
df_empresas["% RECUPERACION"] = df_empresas["% RECUPERACION"].round(1)

# --- Seleccionar columnas clave para reporte visual ---
df_resumen = df_empresas[[
    "NOMBRE_DE_EMPRESA", 
    "DIAS_RECONOCIDOS", 
    "DIAS_RECONOCIDOS_ADRES", 
    "DIFERENCIA", 
    "% NO RECONOCIDO", 
    "% RECUPERACION"
]].sort_values("% NO RECONOCIDO", ascending=False).reset_index(drop=True)

# --- Mostrar tabla cr√≠tica ---
from IPython.display import display
print("üìâ Empresas con mayor brecha entre d√≠as pagados por EPS y reconocidos por ADRES:")
display(df_resumen)

In [None]:
# --- Gr√°fico: porcentaje no reconocido por ADRES ---
import matplotlib.pyplot as plt

fig, ax = plt.subplots(figsize=(10, 6))
ax.barh(df_resumen["NOMBRE_DE_EMPRESA"], df_resumen["% NO RECONOCIDO"], color="indianred")

# Etiquetas de valor en las barras
for i, v in enumerate(df_resumen["% NO RECONOCIDO"]):
    ax.text(v + 0.5, i, f"{v}%", va='center', fontsize=8)

# Configuraci√≥n del gr√°fico
ax.set_title("% de d√≠as NO reconocidos por ADRES (2023‚Äì2025)", fontsize=13)
ax.set_xlabel("% de d√≠as no reconocidos")
ax.set_ylabel("Empresa")
ax.invert_yaxis()
plt.tight_layout()
plt.show()

## üí∏ 4.3 ‚Äì Correlaci√≥n entre d√≠as de licencia y valor pagado

A continuaci√≥n se analiza si existe una relaci√≥n coherente entre los d√≠as reconocidos por ADRES y el valor pagado por cada licencia. Este ejercicio permite identificar posibles errores de c√°lculo, casos at√≠picos y desviaciones significativas que pueden afectar la eficiencia financiera de la EPS.

In [None]:
# --- Asegurar conversiones num√©ricas v√°lidas ---
df_maternidad["DIAS_RECONOCIDOS_ADRES"] = pd.to_numeric(df_maternidad["DIAS_RECONOCIDOS_ADRES"], errors="coerce")
df_maternidad["VALOR_PAGADO"] = pd.to_numeric(df_maternidad["VALOR_PAGADO"], errors="coerce")

# --- Filtro: licencias pagadas con d√≠as y valor v√°lidos ---
df_validos = df_maternidad[
    (df_maternidad["ESTADO_DE_LA_LICENCIA"] == "PAGADA") &
    (df_maternidad["DIAS_RECONOCIDOS_ADRES"] > 0) &
    (df_maternidad["VALOR_PAGADO"] > 0)
].copy()

# --- Crear el gr√°fico de dispersi√≥n ---
plt.figure(figsize=(10, 6))
sns.scatterplot(
    data=df_validos,
    x="DIAS_RECONOCIDOS_ADRES",
    y="VALOR_PAGADO",
    alpha=0.6
)

# --- L√≠neas de referencia (promedios) ---
media_dias = df_validos["DIAS_RECONOCIDOS_ADRES"].mean()
media_valor = df_validos["VALOR_PAGADO"].mean()

plt.axhline(media_valor, color="gray", linestyle="--", alpha=0.5, label=f"Valor promedio: ${int(media_valor):,}".replace(",", "."))
plt.axvline(media_dias, color="gray", linestyle="--", alpha=0.5, label=f"D√≠as promedio: {int(media_dias)}")

# --- Personalizaci√≥n ---
plt.title("Correlaci√≥n entre d√≠as de licencia reconocidos y valor pagado (2023‚Äì2025)", fontsize=13)
plt.xlabel("D√≠as reconocidos por ADRES")
plt.ylabel("Valor pagado (COP)")
plt.grid(True, linestyle="--", alpha=0.4)
plt.legend()
plt.tight_layout()
plt.show()

### 4.3.1 an√°lisis multivariable

In [None]:
df_multi = df_maternidad.copy()

# Convertir columnas num√©ricas
df_multi["DIAS_RECONOCIDOS_ADRES"] = pd.to_numeric(df_multi["DIAS_RECONOCIDOS_ADRES"], errors="coerce")
df_multi["VALOR_PAGADO"] = pd.to_numeric(df_multi["VALOR_PAGADO"], errors="coerce")
df_multi["SALARIO"] = pd.to_numeric(df_multi["SALARIO"], errors="coerce")  # si existe
df_multi = df_multi[
    (df_multi["ESTADO_DE_LA_LICENCIA"] == "PAGADA") &
    (df_multi["DIAS_RECONOCIDOS_ADRES"] > 0) &
    (df_multi["VALOR_PAGADO"] > 0) &
    (df_multi["SALARIO"] > 0)
].copy()

In [None]:
# Mapeo de tipos de cotizante a etiquetas comprensibles
tipo_map = {
    1: "Independiente",
    3: "Empleado",
    16: "Madre comunitaria"
}
df_multi["TIPO_DE_COTIZANTE"] = df_multi["TIPO_DE_COTIZANTE"].map(tipo_map)

# Asegurar que es categor√≠a
df_multi["TIPO_DE_COTIZANTE"] = df_multi["TIPO_DE_COTIZANTE"].astype("category")

# Escalar salario para no tener tama√±os extremos
salario_min = df_multi["SALARIO"].min()
salario_max = df_multi["SALARIO"].max()
df_multi["SALARIO_ESCALADO"] = 100 + 400 * ((df_multi["SALARIO"] - salario_min) / (salario_max - salario_min))

# Gr√°fico
plt.figure(figsize=(12, 6))
sns.scatterplot(
    data=df_multi,
    x="DIAS_RECONOCIDOS_ADRES",
    y="VALOR_PAGADO",
    hue="TIPO_DE_COTIZANTE",
    size="SALARIO_ESCALADO",
    sizes=(30, 300),
    palette="Set2",
    alpha=0.7,
    edgecolor="gray"
)

plt.title("Relaci√≥n multivariable: d√≠as, valor pagado, salario y tipo de cotizante", fontsize=13)
plt.xlabel("D√≠as reconocidos por ADRES")
plt.ylabel("Valor pagado (COP)")
plt.grid(True, linestyle="--", alpha=0.4)
plt.tight_layout()
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.show()

## ‚è±Ô∏è Hallazgos ‚Äì Secci√≥n 4: D√≠as acumulados de licencia por afiliado y empresa

### üßë‚Äçüíº 4.1 ‚Äì Acumulado de d√≠as por afiliado

- Se identificaron casos en los que un mismo afiliado ha recibido hasta **168 d√≠as de licencia reconocidos por ADRES**, lo que representa el doble del per√≠odo reglamentario est√°ndar (84 d√≠as), evidenciando posibles licencias m√∫ltiples o extendidas.
- Al cruzar con los datos de la EPS, algunos registros presentan **d√≠as pagados por la EPS pero no reconocidos a√∫n por ADRES**, situaci√≥n que podr√≠a deberse a glosas, procesos en validaci√≥n o no haber sido reportados.

### üè¢ 4.2 ‚Äì Acumulado de d√≠as por empresa

- Empresas como **UNI√ìN TEMPORAL NUTRI-PAE 2023**, **COLVISEG** y **GRUPO MOVA SAS** presentan los mayores acumulados de d√≠as de licencia reconocidos por ADRES, lo que sugiere alta incidencia de maternidades en estas organizaciones.
- El an√°lisis comparativo entre **d√≠as pagados por EPS** y **reconocidos por ADRES** revel√≥ brechas significativas:
  - Por ejemplo, **FUNDACI√ìN BIENESTAR** pag√≥ 518 d√≠as, pero solo 266 fueron reconocidos por ADRES (**una tasa de no reconocimiento del 48.6%**).
  - En contraste, empresas como **GASES DEL CUSIANA** y **D1 SAS** no presentan diferencias significativas entre lo pagado por la EPS y lo reconocido por ADRES.

### üìä 4.3 ‚Äì Correlaci√≥n y an√°lisis multivariable

- Existe una **correlaci√≥n directa** entre los d√≠as reconocidos por ADRES y el valor pagado: a mayor duraci√≥n de la licencia, mayor el valor reconocido.
- La variabilidad en los valores pagados depende principalmente de:
  - **N√∫mero de d√≠as reconocidos**
  - **Salario base del afiliado (IBC)**
  - **Tipo de cotizante (empleado, independiente o madre comunitaria)**
- El an√°lisis multivariable evidenci√≥ que los **empleados** concentran la mayor√≠a de los casos de alto valor pagado, aunque tambi√©n se identificaron outliers en cotizantes independientes con pagos elevados y d√≠as reducidos, lo que amerita revisi√≥n puntual.


# ü©∫ 5. Diagn√≥sticos m√°s frecuentes y reincidentes
* **Objetivo:** Detectar diagn√≥sticos que concentran m√°s licencias o que podr√≠an ser recurrentes.
An√°lisis sugerido:
    * Ranking de diagn√≥sticos por frecuencia y valor asociado.
    * Repetici√≥n del mismo diagn√≥stico en el mismo afiliado.

In [None]:
# --- Filtrar licencias pagadas
licencias_pagadas = df_maternidad[df_maternidad["ESTADO_DE_LA_LICENCIA"] == "PAGADA"].copy()

# --- Agrupar por diagn√≥stico principal y contar correctamente
diagnosticos_frecuentes = (
    licencias_pagadas["DIAGNOSTICO_PRINCIPAL"]
    .value_counts()
    .rename("CANTIDAD")  # Le asignamos nombre expl√≠cito a la serie
    .reset_index()       # Convertimos a DataFrame
    .rename(columns={"index": "DIAGNOSTICO_PRINCIPAL"})  # Renombramos columna de diagn√≥stico
)

# --- Mostrar los 15 m√°s frecuentes
diagnosticos_top15 = diagnosticos_frecuentes.head(15)

# --- Asegurar tipo num√©rico para la cantidad (√∫til para graficar)
diagnosticos_top15["CANTIDAD"] = pd.to_numeric(diagnosticos_top15["CANTIDAD"], errors="coerce")

# --- Mostrar tabla
from IPython.display import display
print("üìã Diagn√≥sticos m√°s frecuentes en licencias de maternidad (TOP 15):")
display(diagnosticos_top15)

In [None]:
# --- Asegurar orden descendente para la gr√°fica ---
diagnosticos_top15 = diagnosticos_top15.sort_values("CANTIDAD", ascending=True)

# --- Crear gr√°fico de barras horizontales con etiquetas ---
plt.figure(figsize=(10, 6))
ax = sns.barplot(
    data=diagnosticos_top15,
    y="DIAGNOSTICO_PRINCIPAL",
    x="CANTIDAD",
    palette="Blues_d"
)

# --- A√±adir etiquetas al final de cada barra ---
for i, (valor, nombre) in enumerate(zip(diagnosticos_top15["CANTIDAD"], diagnosticos_top15["DIAGNOSTICO_PRINCIPAL"])):
    ax.text(valor + 1, i, f"{valor}", va='center', fontsize=8, color="black")

# --- Personalizaci√≥n visual ---
plt.title("Top 15 diagn√≥sticos m√°s frecuentes en licencias de maternidad (2023‚Äì2025)", fontsize=14)
plt.xlabel("Cantidad de licencias")
plt.ylabel("C√≥digo diagn√≥stico principal")
plt.grid(axis="x", linestyle="--", alpha=0.5)
plt.tight_layout()
plt.show()

## ü©∫ Hallazgos ‚Äì Diagn√≥sticos m√°s frecuentes

- **El diagn√≥stico m√°s frecuente** en las licencias registradas entre 2023 y 2025 fue **Paternidad**, con 187 licencias reconocidas, evidenciando una adecuada implementaci√≥n del beneficio por parte de la EPS.
- En los **diagn√≥sticos obst√©tricos**, destacan:
  - **O800** (Parto √∫nico espont√°neo) con 102 casos.
  - **O829** (Otros partos √∫nicos sin menci√≥n de complicaci√≥n) con 97 casos.
  - **O809** (Parto √∫nico no especificado) con 68 casos.
- La distribuci√≥n evidencia que **m√°s del 75% de las licencias** est√°n concentradas en diagn√≥sticos directamente relacionados con partos sin complicaciones.
- Diagn√≥sticos como **Z359** (supervisi√≥n del embarazo) o **Z392** (cuidado del puerperio) aparecen en menor frecuencia, lo cual podr√≠a indicar:
  - Uso de licencias con menor cobertura por parte del personal m√©dico.
  - Oportunidad para reforzar la gesti√≥n administrativa de estos eventos en reportes a ADRES.

> En general, los diagn√≥sticos son coherentes con los eventos biol√≥gicos asociados a la maternidad y no se observan c√≥digos at√≠picos o an√≥malos.


# üîç 6. Detecci√≥n de posibles irregularidades
* **Objetivo:** Generar alertas tempranas de comportamientos at√≠picos.
Ideas exploratorias:
    * Personas con licencias continuas o encadenadas.
    * Empresas con patrones sospechosos (picos inusuales, concentraci√≥n por pocos empleados).
    * Casos donde fecha inicio y fecha final coinciden o se traslapan entre registros del mismo cotizante.

## üîç 6.1 ‚Äì Licencias m√∫ltiples por misma afiliada en un mismo a√±o

In [None]:
# --- Filtrar licencias pagadas ---
licencias_pagadas = df_maternidad[df_maternidad["ESTADO_DE_LA_LICENCIA"] == "PAGADA"].copy()

# --- Convertir fecha a datetime y extraer a√±o ---
licencias_pagadas["FECHA__DE_INICIO"] = pd.to_datetime(licencias_pagadas["FECHA__DE_INICIO"], errors="coerce")
licencias_pagadas["A√ëO_INICIO"] = licencias_pagadas["FECHA__DE_INICIO"].dt.year

# --- Agrupar por afiliado, a√±o y empresa ---
conteo_triple = (
    licencias_pagadas.groupby(["N_DOC_AFILIADO", "A√ëO_INICIO", "NUMERODEDOCUMENTOSDELEMPELADOR"])
    .size()
    .reset_index(name="CANTIDAD_LICENCIAS")
)

# --- Filtrar casos con m√°s de una licencia por empresa en el mismo a√±o ---
sospechosos = conteo_triple[conteo_triple["CANTIDAD_LICENCIAS"] > 1]

# --- Mostrar resultados ordenados ---
from IPython.display import display
print("üîç Afiliadas con m√∫ltiples licencias pagadas por la misma empresa en el mismo a√±o:")
display(sospechosos.sort_values(by="CANTIDAD_LICENCIAS", ascending=False))

## üîç 6. Detecci√≥n de posibles irregularidades

### üìå 6.1 ‚Äì Validaci√≥n de licencias m√∫ltiples por afiliada y empleador

- Se realiz√≥ una verificaci√≥n detallada de licencias pagadas por la EPS entre 2023 y 2025, enfoc√°ndonos en identificar casos donde una misma afiliada pudiera haber recibido m√°s de una licencia de maternidad en un mismo a√±o, lo cual contravendr√≠a la normativa vigente.
- El an√°lisis tuvo en cuenta el NIT del empleador (`NUMERODEDOCUMENTOSDELEMPELADOR`) para evitar errores causados por duplicidad o inconsistencias en el nombre de la empresa.
- Los resultados mostraron que:
  - Los casos con m√∫ltiples licencias en el mismo a√±o corresponden a afiliadas con m√°s de una relaci√≥n laboral activa, lo cual es normativamente v√°lido.
  - No se encontraron licencias duplicadas por parte del mismo empleador en el mismo a√±o para una misma afiliada.

> ‚úÖ **Conclusi√≥n:** No se detectaron irregularidades ni indicios de duplicidad indebida en las licencias de maternidad pagadas por Capresoca EPS. Los casos de m√∫ltiples licencias se explican por la existencia de m√∫ltiples contratos laborales v√°lidos.

---

# üìà 7. KPIs institucionales sugeridos

**Objetivo:** Proponer indicadores clave que sirvan para el monitoreo, control y toma de decisiones estrat√©gicas en el √°rea de Aseguramiento, a partir del comportamiento hist√≥rico de las licencias de maternidad.

---

### üìä 7.1 ‚Äì Variaci√≥n mensual en valor pagado
**Definici√≥n:** Porcentaje de cambio en el valor total pagado mes a mes, considerando el total consolidado de licencias.

**F√≥rmula:**  
\[
\text{Variaci√≥n mensual (\%)} = \frac{\text{Valor actual} - \text{Valor anterior}}{\text{Valor anterior}} \times 100
\]

**Uso:** Este KPI permite detectar aumentos inesperados, picos por temporadas, o efectos de nuevas pol√≠ticas.

---

### ‚è±Ô∏è 7.2 ‚Äì D√≠as promedio por licencia
**Definici√≥n:** Promedio de d√≠as reconocidos por cada licencia pagada.

**F√≥rmula:**  
\[
\text{D√≠as promedio} = \frac{\sum \text{DIAS_RECONOCIDOS}}{\text{N√∫mero total de licencias pagadas}}
\]

**Uso:** Ayuda a evaluar la coherencia del tiempo reconocido por la EPS frente al est√°ndar normativo (generalmente 126 d√≠as para maternidad y 8 para paternidad).

---

### üí∞ 7.3 ‚Äì Costo promedio por d√≠a de incapacidad
**Definici√≥n:** Valor promedio pagado por cada d√≠a de licencia reconocida.

**F√≥rmula:**  
\[
\text{Costo por d√≠a} = \frac{\sum \text{VALOR_PAGADO}}{\sum \text{DIAS_RECONOCIDOS}}
\]

**Uso:** Este indicador permite evaluar si hay casos con un valor inusualmente alto por d√≠a, posiblemente asociados a cotizantes de mayor salario o inconsistencias.

---

### üìù Recomendaci√≥n:
Integrar estos KPIs como parte del seguimiento mensual en tableros internos y compararlos con promedios hist√≥ricos para generar alertas tempranas o auditor√≠as focalizadas.



In [None]:
# --- Filtrar solo licencias pagadas con datos v√°lidos ---
df_kpis = df_maternidad[
    (df_maternidad["ESTADO_DE_LA_LICENCIA"] == "PAGADA") &
    (df_maternidad["VALOR_PAGADO"].apply(lambda x: str(x).replace(".", "").isdigit())) &
    (df_maternidad["DIAS_RECONOCIDOS"].apply(lambda x: str(x).isdigit()))
].copy()

# --- Convertir columnas a num√©ricas ---
df_kpis["VALOR_PAGADO"] = pd.to_numeric(df_kpis["VALOR_PAGADO"], errors="coerce")
df_kpis["DIAS_RECONOCIDOS"] = pd.to_numeric(df_kpis["DIAS_RECONOCIDOS"], errors="coerce")

# --- Crear columna de fecha mensual ---
df_kpis["MES_RADICACION"] = df_kpis["FECHA_DE_RADICA"].dt.to_period("M")

# --- 7.1 Variaci√≥n mensual del valor pagado ---
valor_mensual = df_kpis.groupby("MES_RADICACION")["VALOR_PAGADO"].sum()
variacion_mensual = valor_mensual.pct_change().dropna() * 100

# --- 7.2 D√≠as promedio por licencia ---
dias_promedio = df_kpis["DIAS_RECONOCIDOS"].mean()

# --- 7.3 Costo promedio por d√≠a de licencia ---
costo_prom_dia = df_kpis["VALOR_PAGADO"].sum() / df_kpis["DIAS_RECONOCIDOS"].sum()

# --- Mostrar resultados ---
print("üìà KPIs institucionales sugeridos:")
print("-" * 50)
print(f"üîÅ 7.1 ‚Äì Variaci√≥n mensual en valor pagado (%):")
display(variacion_mensual.round(2))

print(f"\n‚è±Ô∏è 7.2 ‚Äì D√≠as promedio por licencia: {dias_promedio:.2f} d√≠as")
print(f"üí∞ 7.3 ‚Äì Costo promedio por d√≠a de incapacidad: ${costo_prom_dia:,.0f}".replace(",", "."))


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.ticker import FuncFormatter

# --- Gr√°fico 7.1: Variaci√≥n mensual del valor pagado (%)
plt.figure(figsize=(10, 4))
sns.lineplot(x=variacion_mensual.index.to_timestamp(), y=variacion_mensual.values, marker="o")
plt.axhline(0, color="gray", linestyle="--", alpha=0.5)
plt.title("üìà 7.1 ‚Äì Variaci√≥n mensual del valor pagado en licencias (%)")
plt.xlabel("Mes de radicaci√≥n")
plt.ylabel("% Variaci√≥n")
plt.grid(True, linestyle="--", alpha=0.4)
plt.tight_layout()
plt.show()


In [None]:
# --- Gr√°fico 7.2: D√≠as promedio por licencia
plt.figure(figsize=(6, 1.5))
plt.barh(["üïí D√≠as promedio por licencia"], [dias_promedio], color="lightgreen")
plt.xlim(0, 120)
plt.xlabel("D√≠as")
plt.title("‚è±Ô∏è 7.2 ‚Äì D√≠as promedio por licencia")
plt.tight_layout()
plt.show()

In [None]:
import matplotlib.pyplot as plt

# --- Gr√°fico 7.3: Costo promedio por d√≠a de incapacidad (mejorado)
fig, ax = plt.subplots(figsize=(8, 2.5))  # Mayor altura
barra = ax.barh(
    ["üí∞ Costo promedio por d√≠a"],
    [costo_prom_dia],
    color="#FF9999"
)

# --- Mostrar el valor sobre la barra
for rect in barra:
    width = rect.get_width()
    ax.text(
        width + 2000,
        rect.get_y() + rect.get_height() / 2,
        f"${int(width):,}".replace(",", "."),
        va="center",
        fontsize=10,
        color="black"
    )

# --- Personalizaci√≥n de ejes y texto
ax.set_xlim(0, 70000)
ax.set_xlabel("Valor en COP")
ax.set_title("7.3 ‚Äì Costo promedio por d√≠a de incapacidad", fontsize=12)
ax.set_xticks([0, 10000, 20000, 30000, 40000, 50000, 60000, 70000])
ax.set_xticklabels(["$0", "$10.000", "$20.000", "$30.000", "$40.000", "$50.000", "$60.000", "$70.000"])
ax.tick_params(axis="y", labelsize=10)

plt.tight_layout()
plt.show()

# üìë 9. Conclusiones y recomendaciones
* **Objetivo:** Integrar hallazgos claves, proponer acciones preventivas o de auditor√≠a, y sugerir mejoras en los procesos de validaci√≥n o seguimiento.