# Mudulos

In [None]:
# Cargar librer√≠as para manejo de datos
import pandas as pd  # manipulaci√≥n de tablas, lectura/escritura CSV/Excel, pivot, merge
import numpy as np  # arrays, operaciones num√©ricas y algebra lineal

# Visualizaci√≥n (bonitas e interactivas) para tableros de control
import matplotlib.pyplot as plt  # gr√°ficos est√°ticos b√°sicos y personalizaci√≥n fina
import seaborn as sns  # estilos y gr√°ficos estad√≠sticos est√©ticos sobre matplotlib
import plotly.express as px  # gr√°ficos interactivos sencillos y r√°pidos para dashboards
import plotly.graph_objects as go  # construcci√≥n de gr√°ficos interactivos m√°s avanzados
import altair as alt  # visualizaciones declarativas e interactividad (Vega-Lite)
from bokeh.plotting import figure, show  # visualizaciones interactivas y widgets para dashboards

# Rutas, archivos y utilidades del sistema
import os  # operaciones con el sistema de archivos, variables de entorno
from pathlib import Path  # manejo de rutas como objetos (recomendado)
import glob  # b√∫squeda de ficheros por patrones

# Expresiones regulares y manejo de fechas
import re  # b√∫squeda y limpieza de texto con patrones
from datetime import datetime, timedelta  # fechas y tiempos b√°sicos
from dateutil import parser as date_parser  # parseo flexible de cadenas a fechas

# Lectura/escritura de Excel y archivos planos
import csv  # lectura/escritura de CSV con la librer√≠a est√°ndar
import io  # manejo de buffers en memoria
try:
    from openpyxl import load_workbook  # leer/escribir archivos .xlsx (engine usado por pandas)
except Exception:
    pass  # openpyxl puede no estar instalado en el entorno

# Utilidades para procesamiento
from tqdm import tqdm  # barras de progreso (√∫til al procesar muchos archivos o filas)

# Configuraciones visuales por defecto
sns.set_theme()  # tema por defecto para seaborn/matplotlib
plt.rcParams["figure.dpi"] = 100  # resoluci√≥n de figuras en notebooks

# Rutas

In [None]:
R_raiz = r"C:\Users\crist\OneDrive - 891856000_CAPRESOCA E P S\Escritorio\Yesid Rinc√≥n Z\informes\2026\CTO 102.2026\CTO102.2026 Informe  #01\10 Actividades"

R_s2 = R_raiz + r"\S2"
R_s4 = R_raiz + r"\S4"
R_r2 = R_raiz + r"\R2"
R_r4 = R_raiz + r"\R4"

# Datafarmes

## R4

In [None]:
# Verificar que la ruta existe
if not os.path.exists(R_r4):
    print(f"‚ùå ERROR: La carpeta no existe: {R_r4}")
else:
    print(f"‚úì Carpeta encontrada: {R_r4}")
    
    # Obtener todos los archivos .NEG y .VAL de la carpeta R_r4
    archivos_r4 = glob.glob(os.path.join(R_r4, "*.NEG")) + glob.glob(os.path.join(R_r4, "*.VAL"))
    
    # Verificar si se encontraron archivos
    if len(archivos_r4) == 0:
        print(f"‚ö†Ô∏è No se encontraron archivos .NEG o .VAL en: {R_r4}")
    else:
        print(f"‚úì Archivos encontrados: {len(archivos_r4)}")
        
        # Lista para almacenar los dataframes
        lista_df = []
        archivos_vacios = []
        
        # Cargar cada archivo
        for archivo in archivos_r4:
            try:
                # Verificar si el archivo est√° vac√≠o
                if os.path.getsize(archivo) == 0:
                    archivos_vacios.append(os.path.basename(archivo))
                    continue
                
                # Extraer r√©gimen y fecha del nombre del archivo
                nombre_archivo = os.path.basename(archivo)
                
                # Determinar r√©gimen
                if "EPSC" in nombre_archivo:
                    regimen = "Contributivo"
                else:
                    regimen = "Subsidiado"
                
                # Extraer fecha (√∫ltimos 8 d√≠gitos antes de la extensi√≥n)
                # Ejemplo: R4EPSC2523012026.NEG -> 23012026
                patron_fecha = re.search(r'(\d{8})\.(NEG|VAL)$', nombre_archivo)
                if patron_fecha:
                    fecha_str = patron_fecha.group(1)
                    # Convertir de ddmmyyyy a formato fecha
                    dia = fecha_str[:2]
                    mes = fecha_str[2:4]
                    anio = fecha_str[4:]
                    fecha_proceso = f"{dia}/{mes}/{anio}"
                else:
                    fecha_proceso = "Sin fecha"
                
                df_temp = pd.read_csv(
                    archivo,
                    sep=",",
                    header=None,
                    encoding="latin-1",  # ANSI
                    dtype=str
                )
                
                # Agregar columnas de r√©gimen y fecha
                df_temp['regimen'] = regimen
                df_temp['fecha_proceso'] = fecha_proceso
                
                lista_df.append(df_temp)
            except Exception as e:
                print(f"‚ùå Error al leer {os.path.basename(archivo)}: {e}")
        
        # Mostrar archivos vac√≠os omitidos
        if archivos_vacios:
            print(f"\n‚ö†Ô∏è Archivos vac√≠os omitidos: {len(archivos_vacios)}")
            for archivo in archivos_vacios:
                print(f"   - {archivo}")
        
        # Concatenar todos los dataframes
        if len(lista_df) > 0:
            df_r4 = pd.concat(lista_df, ignore_index=True)
            
            print(f"\nüìä Resumen:")
            print(f"Archivos cargados exitosamente: {len(lista_df)}")
            print(f"Total de registros: {len(df_r4)}")
            print(f"\n{df_r4.head()}")
        else:
            print("‚ùå No se pudieron cargar dataframes")

## S4

In [None]:
# Verificar que la ruta existe
if not os.path.exists(R_s4):
    print(f"‚ùå ERROR: La carpeta no existe: {R_s4}")
else:
    print(f"‚úì Carpeta encontrada: {R_s4}")
    
    # Obtener todos los archivos .NEG y .VAL de la carpeta R_s4
    archivos_s4 = glob.glob(os.path.join(R_s4, "*.NEG")) + glob.glob(os.path.join(R_s4, "*.VAL"))
    
    # Verificar si se encontraron archivos
    if len(archivos_s4) == 0:
        print(f"‚ö†Ô∏è No se encontraron archivos .NEG o .VAL en: {R_s4}")
    else:
        print(f"‚úì Archivos encontrados: {len(archivos_s4)}")
        
        # Lista para almacenar los dataframes
        lista_df = []
        archivos_vacios = []
        
        # Cargar cada archivo
        for archivo in archivos_s4:
            try:
                # Verificar si el archivo est√° vac√≠o
                if os.path.getsize(archivo) == 0:
                    archivos_vacios.append(os.path.basename(archivo))
                    continue
                
                # Extraer r√©gimen y fecha del nombre del archivo
                nombre_archivo = os.path.basename(archivo)
                
                # Determinar r√©gimen
                if "EPSC" in nombre_archivo:
                    regimen = "Contributivo"
                else:
                    regimen = "Subsidiado"
                
                # Extraer fecha (√∫ltimos 8 d√≠gitos antes de la extensi√≥n)
                patron_fecha = re.search(r'(\d{8})\.(NEG|VAL)$', nombre_archivo)
                if patron_fecha:
                    fecha_str = patron_fecha.group(1)
                    # Convertir de ddmmyyyy a formato fecha
                    dia = fecha_str[:2]
                    mes = fecha_str[2:4]
                    anio = fecha_str[4:]
                    fecha_proceso = f"{dia}/{mes}/{anio}"
                else:
                    fecha_proceso = "Sin fecha"
                
                df_temp = pd.read_csv(
                    archivo,
                    sep=",",
                    header=None,
                    encoding="latin-1",  # ANSI
                    dtype=str
                )
                
                # Agregar columnas de r√©gimen y fecha
                df_temp['regimen'] = regimen
                df_temp['fecha_proceso'] = fecha_proceso
                
                lista_df.append(df_temp)
            except Exception as e:
                print(f"‚ùå Error al leer {os.path.basename(archivo)}: {e}")
        
        # Mostrar archivos vac√≠os omitidos
        if archivos_vacios:
            print(f"\n‚ö†Ô∏è Archivos vac√≠os omitidos: {len(archivos_vacios)}")
            for archivo in archivos_vacios:
                print(f"   - {archivo}")
        
        # Concatenar todos los dataframes
        if len(lista_df) > 0:
            df_s4 = pd.concat(lista_df, ignore_index=True)
            
            print(f"\nüìä Resumen:")
            print(f"Archivos cargados exitosamente: {len(lista_df)}")
            print(f"Total de registros: {len(df_s4)}")
            print(f"\n{df_s4.head()}")
        else:
            print("‚ùå No se pudieron cargar dataframes")

## S2

In [None]:
# Verificar que la ruta existe
if not os.path.exists(R_s2):
    print(f"‚ùå ERROR: La carpeta no existe: {R_s2}")
else:
    print(f"‚úì Carpeta encontrada: {R_s2}")
    
    # Obtener todos los archivos .TXT de la carpeta R_s2
    archivos_s2 = glob.glob(os.path.join(R_s2, "*.TXT"))
    
    # Verificar si se encontraron archivos
    if len(archivos_s2) == 0:
        print(f"‚ö†Ô∏è No se encontraron archivos .TXT en: {R_s2}")
    else:
        print(f"‚úì Archivos encontrados: {len(archivos_s2)}")
        
        # Lista para almacenar los dataframes
        lista_df = []
        archivos_vacios = []
        
        # Cargar cada archivo
        for archivo in archivos_s2:
            try:
                # Verificar si el archivo est√° vac√≠o
                if os.path.getsize(archivo) == 0:
                    archivos_vacios.append(os.path.basename(archivo))
                    continue
                
                # Extraer r√©gimen y fecha del nombre del archivo
                nombre_archivo = os.path.basename(archivo)
                
                # Determinar r√©gimen
                if "EPSC" in nombre_archivo:
                    regimen = "Contributivo"
                else:
                    regimen = "Subsidiado"
                
                # Extraer fecha (√∫ltimos 8 d√≠gitos antes de la extensi√≥n)
                patron_fecha = re.search(r'(\d{8})\.TXT$', nombre_archivo)
                if patron_fecha:
                    fecha_str = patron_fecha.group(1)
                    # Convertir de ddmmyyyy a formato fecha
                    dia = fecha_str[:2]
                    mes = fecha_str[2:4]
                    anio = fecha_str[4:]
                    fecha_proceso = f"{dia}/{mes}/{anio}"
                else:
                    fecha_proceso = "Sin fecha"
                
                df_temp = pd.read_csv(
                    archivo,
                    sep=",",
                    header=None,
                    encoding="latin-1",  # ANSI
                    dtype=str
                )
                
                # Agregar columnas de r√©gimen y fecha
                df_temp['regimen'] = regimen
                df_temp['fecha_proceso'] = fecha_proceso
                
                lista_df.append(df_temp)
            except Exception as e:
                print(f"‚ùå Error al leer {os.path.basename(archivo)}: {e}")
        
        # Mostrar archivos vac√≠os omitidos
        if archivos_vacios:
            print(f"\n‚ö†Ô∏è Archivos vac√≠os omitidos: {len(archivos_vacios)}")
            for archivo in archivos_vacios:
                print(f"   - {archivo}")
        
        # Concatenar todos los dataframes
        if len(lista_df) > 0:
            df_s2 = pd.concat(lista_df, ignore_index=True)
            
            print(f"\nüìä Resumen:")
            print(f"Archivos cargados exitosamente: {len(lista_df)}")
            print(f"Total de registros: {len(df_s2)}")
            print(f"\n{df_s2.head()}")
        else:
            print("‚ùå No se pudieron cargar dataframes")

## R2

In [None]:
# Verificar que la ruta existe
if not os.path.exists(R_r2):
    print(f"‚ùå ERROR: La carpeta no existe: {R_r2}")
else:
    print(f"‚úì Carpeta encontrada: {R_r2}")
    
    # Obtener todos los archivos .TXT de la carpeta R_r2
    archivos_r2 = glob.glob(os.path.join(R_r2, "*.TXT"))
    
    # Verificar si se encontraron archivos
    if len(archivos_r2) == 0:
        print(f"‚ö†Ô∏è No se encontraron archivos .TXT en: {R_r2}")
    else:
        print(f"‚úì Archivos encontrados: {len(archivos_r2)}")
        
        # Lista para almacenar los dataframes
        lista_df = []
        archivos_vacios = []
        
        # Cargar cada archivo
        for archivo in archivos_r2:
            try:
                # Verificar si el archivo est√° vac√≠o
                if os.path.getsize(archivo) == 0:
                    archivos_vacios.append(os.path.basename(archivo))
                    continue
                
                # Extraer r√©gimen y fecha del nombre del archivo
                nombre_archivo = os.path.basename(archivo)
                
                # Determinar r√©gimen
                if "EPSC" in nombre_archivo:
                    regimen = "Contributivo"
                else:
                    regimen = "Subsidiado"
                
                # Extraer fecha (√∫ltimos 8 d√≠gitos antes de la extensi√≥n)
                patron_fecha = re.search(r'(\d{8})\.TXT$', nombre_archivo)
                if patron_fecha:
                    fecha_str = patron_fecha.group(1)
                    # Convertir de ddmmyyyy a formato fecha
                    dia = fecha_str[:2]
                    mes = fecha_str[2:4]
                    anio = fecha_str[4:]
                    fecha_proceso = f"{dia}/{mes}/{anio}"
                else:
                    fecha_proceso = "Sin fecha"
                
                df_temp = pd.read_csv(
                    archivo,
                    sep=",",
                    header=None,
                    encoding="latin-1",  # ANSI
                    dtype=str
                )
                
                # Agregar columnas de r√©gimen y fecha
                df_temp['regimen'] = regimen
                df_temp['fecha_proceso'] = fecha_proceso
                
                lista_df.append(df_temp)
            except Exception as e:
                print(f"‚ùå Error al leer {os.path.basename(archivo)}: {e}")
        
        # Mostrar archivos vac√≠os omitidos
        if archivos_vacios:
            print(f"\n‚ö†Ô∏è Archivos vac√≠os omitidos: {len(archivos_vacios)}")
            for archivo in archivos_vacios:
                print(f"   - {archivo}")
        
        # Concatenar todos los dataframes
        if len(lista_df) > 0:
            df_r2 = pd.concat(lista_df, ignore_index=True)
            
            print(f"\nüìä Resumen:")
            print(f"Archivos cargados exitosamente: {len(lista_df)}")
            print(f"Total de registros: {len(df_r2)}")
            print(f"\n{df_r2.head()}")
        else:
            print("‚ùå No se pudieron cargar dataframes")

# Validar integridad

In [None]:
print("=" * 80)
print("VALIDACI√ìN DE INTEGRIDAD DE REGISTROS")
print("=" * 80)

# Validaci√≥n S2 vs S4
print("\nüìã SOLICITUDES (S2 vs S4)")
print("-" * 80)

if 'df_s2' in locals() and 'df_s4' in locals():
    total_s2 = len(df_s2)
    total_s4 = len(df_s4)
    diferencia_s = total_s2 - total_s4
    
    print(f"Total registros S2 (Solicitudes recibidas): {total_s2:,}")
    print(f"Total registros S4 (Respuestas enviadas):   {total_s4:,}")
    print(f"Diferencia:                                  {diferencia_s:,}")
    
    if diferencia_s == 0:
        print("‚úÖ CORRECTO: Todas las solicitudes tienen respuesta")
    elif diferencia_s > 0:
        print(f"‚ö†Ô∏è ALERTA: Hay {diferencia_s} solicitudes sin respuesta")
    else:
        print(f"‚ö†Ô∏è ALERTA: Hay {abs(diferencia_s)} respuestas de m√°s")
else:
    print("‚ùå ERROR: No se pudieron cargar los dataframes S2 o S4")

# Validaci√≥n R2 vs R4
print("\nüìã RESPUESTAS (R2 vs R4)")
print("-" * 80)

if 'df_r2' in locals() and 'df_r4' in locals():
    total_r2 = len(df_r2)
    total_r4 = len(df_r4)
    diferencia_r = total_r2 - total_r4
    
    print(f"Total registros R2 (Solicitudes enviadas):  {total_r2:,}")
    print(f"Total registros R4 (Respuestas recibidas):  {total_r4:,}")
    print(f"Diferencia:                                  {diferencia_r:,}")
    
    if diferencia_r == 0:
        print("‚úÖ CORRECTO: Todas las solicitudes tienen respuesta")
    elif diferencia_r > 0:
        print(f"‚ö†Ô∏è ALERTA: Hay {diferencia_r} solicitudes sin respuesta")
    else:
        print(f"‚ö†Ô∏è ALERTA: Hay {abs(diferencia_r)} respuestas de m√°s")
else:
    print("‚ùå ERROR: No se pudieron cargar los dataframes R2 o R4")

# Resumen general
print("\n" + "=" * 80)
print("RESUMEN GENERAL")
print("=" * 80)

if all(df in locals() for df in ['df_s2', 'df_s4', 'df_r2', 'df_r4']):
    print(f"\nTotal solicitudes RECIBIDAS (S):  {total_s2:,}")
    print(f"Total respuestas ENVIADAS (S):     {total_s4:,}")
    print(f"Total solicitudes ENVIADAS (R):    {total_r2:,}")
    print(f"Total respuestas RECIBIDAS (R):    {total_r4:,}")
    
    integridad_s = "‚úÖ" if diferencia_s == 0 else "‚ö†Ô∏è"
    integridad_r = "‚úÖ" if diferencia_r == 0 else "‚ö†Ô∏è"
    
    print(f"\n{integridad_s} Integridad Solicitudes (S): {'COMPLETA' if diferencia_s == 0 else 'INCOMPLETA'}")

# Unificar

## S2 - S4

In [None]:
print("=" * 80)
print("UNIFICACI√ìN S2 - S4 (SOLICITUDES RECIBIDAS Y RESPUESTAS ENVIADAS)")
print("=" * 80)

if 'df_s2' in locals() and 'df_s4' in locals():
    # Asignar nombres a las columnas de S2
    df_s2_trabajo = df_s2.copy()
    df_s2_trabajo.columns = [f'col_{i}' for i in range(len(df_s2.columns) - 2)] + ['regimen', 'fecha_proceso']
    df_s2_trabajo = df_s2_trabajo.rename(columns={'col_0': 'id_afiliado'})
    
    # Asignar nombres a las columnas de S4
    df_s4_trabajo = df_s4.copy()
    df_s4_trabajo.columns = [f'col_{i}' for i in range(len(df_s4.columns) - 2)] + ['regimen', 'fecha_proceso']
    df_s4_trabajo = df_s4_trabajo.rename(columns={
        'col_0': 'id_afiliado',
        'col_4': 'respuesta',
        'col_5': 'causal'
    })
    
    # Convertir fecha_proceso a formato datetime para comparaciones
    df_s2_trabajo['fecha_proceso_dt'] = pd.to_datetime(df_s2_trabajo['fecha_proceso'], format='%d/%m/%Y')
    df_s4_trabajo['fecha_proceso_dt'] = pd.to_datetime(df_s4_trabajo['fecha_proceso'], format='%d/%m/%Y')
    
    print("\nüìã Estructura de datos:")
    print(f"S2 - Columnas: {list(df_s2_trabajo.columns)}")
    print(f"S4 - Columnas: {list(df_s4_trabajo.columns)}")
    
    # Crear lista para almacenar los matches
    resultados = []
    
    print("\nüîÑ Procesando unificaci√≥n...")
    
    # Por cada registro en S2, buscar su respuesta en S4
    for idx, row_s2 in tqdm(df_s2_trabajo.iterrows(), total=len(df_s2_trabajo)):
        id_afiliado = row_s2['id_afiliado']
        fecha_s2 = row_s2['fecha_proceso_dt']
        regimen_s2 = row_s2['regimen']
        
        # Buscar respuestas en S4 para este afiliado
        # Filtrar por: mismo id, mismo r√©gimen, y fecha entre 1-4 d√≠as despu√©s
        respuestas_candidatas = df_s4_trabajo[
            (df_s4_trabajo['id_afiliado'] == id_afiliado) &
            (df_s4_trabajo['regimen'] == regimen_s2) &
            (df_s4_trabajo['fecha_proceso_dt'] >= fecha_s2) &
            (df_s4_trabajo['fecha_proceso_dt'] <= fecha_s2 + pd.Timedelta(days=4))
        ]
        
        # Si hay respuestas, tomar la m√°s reciente
        if len(respuestas_candidatas) > 0:
            respuesta_final = respuestas_candidatas.sort_values('fecha_proceso_dt', ascending=False).iloc[0]
            
            # Crear registro unificado
            registro = row_s2.copy()
            registro['respuesta'] = respuesta_final['respuesta']
            registro['causal'] = respuesta_final['causal']
            registro['fecha_respuesta'] = respuesta_final['fecha_proceso']
            registro['dias_respuesta'] = (respuesta_final['fecha_proceso_dt'] - fecha_s2).days
        else:
            # No se encontr√≥ respuesta
            registro = row_s2.copy()
            registro['respuesta'] = 'Sin respuesta'
            registro['causal'] = 'Sin respuesta'
            registro['fecha_respuesta'] = 'Sin respuesta'
            registro['dias_respuesta'] = None
        
        resultados.append(registro)
    
    # Crear dataframe unificado
    df_s2_s4_unificado = pd.DataFrame(resultados)
    
    # Eliminar columna temporal
    df_s2_s4_unificado = df_s2_s4_unificado.drop('fecha_proceso_dt', axis=1)
    
    print("\n‚úÖ Unificaci√≥n completada")
    print(f"\nüìä Resumen:")
    print(f"Total registros S2: {len(df_s2_trabajo):,}")
    print(f"Registros con respuesta: {len(df_s2_s4_unificado[df_s2_s4_unificado['respuesta'] != 'Sin respuesta']):,}")
    print(f"Registros sin respuesta: {len(df_s2_s4_unificado[df_s2_s4_unificado['respuesta'] == 'Sin respuesta']):,}")
    
    # Estad√≠sticas de respuestas
    print("\nüìà Distribuci√≥n de respuestas:")
    if 'respuesta' in df_s2_s4_unificado.columns:
        distribucion = df_s2_s4_unificado[df_s2_s4_unificado['respuesta'] != 'Sin respuesta']['respuesta'].value_counts()
        for valor, cantidad in distribucion.items():
            estado = "Aprobadas" if valor == '1' else "Negadas"
            print(f"  {estado} ({valor}): {cantidad:,}")
    
    # Estad√≠sticas de d√≠as de respuesta
    print("\n‚è±Ô∏è Tiempo de respuesta:")
    dias_validos = df_s2_s4_unificado[df_s2_s4_unificado['dias_respuesta'].notna()]['dias_respuesta']
    if len(dias_validos) > 0:
        print(f"  Promedio: {dias_validos.mean():.1f} d√≠as")
        print(f"  M√≠nimo: {dias_validos.min():.0f} d√≠as")
        print(f"  M√°ximo: {dias_validos.max():.0f} d√≠as")
    
    print(f"\n{df_s2_s4_unificado.head(10)}")
    
else:
    print("‚ùå ERROR: No se pudieron cargar los dataframes S2 o S4")

### Quitar duplicados

In [None]:
print("=" * 80)
print("DEPURACI√ìN DE DUPLICADOS - PRIORIZACI√ìN DE APROBACIONES")
print("=" * 80)

if 'df_s2_s4_unificado' in locals():
    print("\nüìã An√°lisis de duplicados antes de depurar:")
    print(f"Total de registros: {len(df_s2_s4_unificado):,}")
    
    # Identificar duplicados por id_afiliado y r√©gimen
    duplicados = df_s2_s4_unificado.groupby(['id_afiliado', 'regimen']).size()
    afiliados_duplicados = duplicados[duplicados > 1]
    
    print(f"Afiliados √∫nicos: {len(duplicados):,}")
    print(f"Afiliados con m√∫ltiples solicitudes: {len(afiliados_duplicados):,}")
    
    if len(afiliados_duplicados) > 0:
        print(f"\nüìä Distribuci√≥n de solicitudes por afiliado:")
        dist_solicitudes = afiliados_duplicados.value_counts().sort_index()
        for num_solicitudes, cantidad in dist_solicitudes.items():
            print(f"  {num_solicitudes} solicitudes: {cantidad:,} afiliados")
    
    # Crear copia para trabajar
    df_depurado = df_s2_s4_unificado.copy()
    
    # Convertir respuesta a num√©rico para ordenamiento (1=aprobado, 0=negado, -1=sin respuesta)
    df_depurado['respuesta_num'] = df_depurado['respuesta'].apply(
        lambda x: 1 if x == '1' else (0 if x == '0' else -1)
    )
    
    # Convertir fecha_respuesta a datetime para ordenamiento
    df_depurado['fecha_respuesta_dt'] = pd.to_datetime(
        df_depurado['fecha_respuesta'], 
        format='%d/%m/%Y', 
        errors='coerce'
    )
    
    print("\nüîÑ Aplicando l√≥gica de depuraci√≥n:")
    print("  1. Priorizar aprobaciones (respuesta = 1)")
    print("  2. Si no hay aprobaciones, tomar la negaci√≥n m√°s reciente")
    print("  3. Si no hay respuestas, tomar la solicitud m√°s reciente")
    
    # Ordenar por: id_afiliado, r√©gimen, respuesta (descendente), fecha (descendente)
    df_depurado_sorted = df_depurado.sort_values(
        by=['id_afiliado', 'regimen', 'respuesta_num', 'fecha_respuesta_dt'],
        ascending=[True, True, False, False]
    )
    
    # Mantener solo el primer registro de cada grupo (el m√°s prioritario)
    df_s2_s4_depurado = df_depurado_sorted.groupby(['id_afiliado', 'regimen']).first().reset_index()
    
    # Eliminar columnas auxiliares
    df_s2_s4_depurado = df_s2_s4_depurado.drop(['respuesta_num', 'fecha_respuesta_dt'], axis=1)
    
    print("\n‚úÖ Depuraci√≥n completada")
    print(f"\nüìä Resumen despu√©s de depurar:")
    print(f"Total de registros depurados: {len(df_s2_s4_depurado):,}")
    print(f"Registros eliminados (duplicados): {len(df_s2_s4_unificado) - len(df_s2_s4_depurado):,}")
    
    # Estad√≠sticas de respuestas despu√©s de depurar
    print("\nüìà Distribuci√≥n de respuestas (datos depurados):")
    if 'respuesta' in df_s2_s4_depurado.columns:
        distribucion = df_s2_s4_depurado['respuesta'].value_counts()
        total_con_respuesta = len(df_s2_s4_depurado[df_s2_s4_depurado['respuesta'] != 'Sin respuesta'])
        
        for valor, cantidad in distribucion.items():
            if valor == '1':
                estado = "Aprobadas"
                porcentaje = (cantidad / total_con_respuesta * 100) if total_con_respuesta > 0 else 0
                print(f"  {estado} ({valor}): {cantidad:,} ({porcentaje:.1f}%)")
            elif valor == '0':
                estado = "Negadas"
                porcentaje = (cantidad / total_con_respuesta * 100) if total_con_respuesta > 0 else 0
                print(f"  {estado} ({valor}): {cantidad:,} ({porcentaje:.1f}%)")
            else:
                print(f"  Sin respuesta: {cantidad:,}")
    
    # An√°lisis por r√©gimen
    print("\nüìä Distribuci√≥n por r√©gimen:")
    dist_regimen = df_s2_s4_depurado.groupby(['regimen', 'respuesta']).size().unstack(fill_value=0)
    print(dist_regimen)
    
    # An√°lisis de causales de negaci√≥n (solo para registros negados)
    negados = df_s2_s4_depurado[df_s2_s4_depurado['respuesta'] == '0']
    if len(negados) > 0:
        print("\nüìã Top 10 causales de negaci√≥n:")
        causales = negados['causal'].value_counts().head(10)
        for causal, cantidad in causales.items():
            porcentaje = (cantidad / len(negados) * 100)
            print(f"  Causal {causal}: {cantidad:,} ({porcentaje:.1f}%)")
    
    print(f"\n{df_s2_s4_depurado.head(10)}")
    
    # Guardar estad√≠sticas de casos depurados
    print("\nüìù Ejemplos de casos depurados:")
    ejemplos_depurados = df_s2_s4_unificado[
        df_s2_s4_unificado.duplicated(subset=['id_afiliado', 'regimen'], keep=False)
    ].sort_values(['id_afiliado', 'fecha_proceso'])
    
    if len(ejemplos_depurados) > 0:
        print(f"\nPrimeros 5 afiliados con m√∫ltiples solicitudes:")
        for id_afiliado in ejemplos_depurados['id_afiliado'].unique()[:5]:
            casos = ejemplos_depurados[ejemplos_depurados['id_afiliado'] == id_afiliado]
            print(f"\n  ID: {id_afiliado}")
            for idx, row in casos.iterrows():
                print(f"    Fecha: {row['fecha_proceso']} | Respuesta: {row['respuesta']} | Causal: {row['causal']}")
            # Mostrar el registro que se mantuvo
            mantenido = df_s2_s4_depurado[df_s2_s4_depurado['id_afiliado'] == id_afiliado]
            if len(mantenido) > 0:
                print(f"    ‚úÖ REGISTRO FINAL: Respuesta={mantenido.iloc[0]['respuesta']}, Fecha={mantenido.iloc[0]['fecha_respuesta']}")
    
else:
    print("‚ùå ERROR: No se encuentra el dataframe unificado df_s2_s4_unificado")

### Categorias

In [None]:
print("=" * 80)
print("CATEGORIZACI√ìN DE APROBACIONES")
print("=" * 80)

if 'df_s2_s4_depurado' in locals():
    # Crear copia para trabajar
    df_categorizado = df_s2_s4_depurado.copy()
    
    # Inicializar columna descripcion vac√≠a
    df_categorizado['descripcion'] = ''
    
    # Identificar registros aprobados
    aprobados = df_categorizado['respuesta'] == '1'
    
    print(f"\nüìä Total de registros aprobados: {aprobados.sum():,}")
    
    # Categor√≠a 1: Dispersi√≥n geogr√°fica (departamento diferente a 85)
    dispersion = aprobados & (df_categorizado['col_8'] != '85')
    df_categorizado.loc[dispersion, 'descripcion'] = 'Dispersi√≥n geogr√°fica'
    
    # Categor√≠a 2: Solicitud formal (todos los dem√°s aprobados en departamento 85)
    solicitud_formal = aprobados & (df_categorizado['col_8'] == '85')
    df_categorizado.loc[solicitud_formal, 'descripcion'] = 'Solicitud formal'
    
    print("\n‚úÖ Categorizaci√≥n completada")
    print(f"\nüìã Distribuci√≥n de categor√≠as:")
    print(f"  Dispersi√≥n geogr√°fica: {dispersion.sum():,}")
    print(f"  Solicitud formal: {solicitud_formal.sum():,}")
    
    # Validar que todos los aprobados tienen categor√≠a
    aprobados_sin_categoria = aprobados & (df_categorizado['descripcion'] == '')
    if aprobados_sin_categoria.sum() > 0:
        print(f"\n‚ö†Ô∏è ALERTA: {aprobados_sin_categoria.sum()} aprobados sin categor√≠a")
    
    # Mostrar distribuci√≥n por r√©gimen
    print("\nüìä Distribuci√≥n por r√©gimen y categor√≠a:")
    dist_regimen_cat = df_categorizado[aprobados].groupby(['regimen', 'descripcion']).size().unstack(fill_value=0)
    print(dist_regimen_cat)
    
    # Mostrar ejemplos
    print(f"\nüìù Ejemplos de categorizaci√≥n:")
    print("\nDispersi√≥n geogr√°fica:")
    print(df_categorizado[dispersion][['id_afiliado', 'col_8', 'regimen', 'respuesta', 'descripcion']].head(3))
    
    print("\nSolicitud formal:")
    print(df_categorizado[solicitud_formal][['id_afiliado', 'col_8', 'regimen', 'respuesta', 'descripcion']].head(3))
    
    # Guardar resultado en nuevo dataframe
    df_s2_s4_final = df_categorizado.copy()
    
    print(f"\n‚úÖ Dataframe final creado: df_s2_s4_final")
    print(f"Total de registros: {len(df_s2_s4_final):,}")
    
else:
    print("‚ùå ERROR: No se encuentra el dataframe depurado df_s2_s4_depurado")

## R2 -R4

In [None]:
print("=" * 80)
print("UNIFICACI√ìN R2 - R4 (SOLICITUDES ENVIADAS Y RESPUESTAS RECIBIDAS)")
print("=" * 80)

if 'df_r2' in locals() and 'df_r4' in locals():
    # Asignar nombres a las columnas de R2
    df_r2_trabajo = df_r2.copy()
    df_r2_trabajo.columns = [f'col_{i}' for i in range(len(df_r2.columns) - 2)] + ['regimen', 'fecha_proceso']
    df_r2_trabajo = df_r2_trabajo.rename(columns={'col_0': 'id_afiliado'})
    
    # Asignar nombres a las columnas de R4
    df_r4_trabajo = df_r4.copy()
    df_r4_trabajo.columns = [f'col_{i}' for i in range(len(df_r4.columns) - 2)] + ['regimen', 'fecha_proceso']
    df_r4_trabajo = df_r4_trabajo.rename(columns={
        'col_0': 'id_afiliado',
        'col_5': 'respuesta',
        'col_6': 'causal'
    })
    
    # Convertir fecha_proceso a formato datetime para comparaciones
    df_r2_trabajo['fecha_proceso_dt'] = pd.to_datetime(df_r2_trabajo['fecha_proceso'], format='%d/%m/%Y')
    df_r4_trabajo['fecha_proceso_dt'] = pd.to_datetime(df_r4_trabajo['fecha_proceso'], format='%d/%m/%Y')
    
    print("\nüìã Estructura de datos:")
    print(f"R2 - Columnas: {list(df_r2_trabajo.columns)}")
    print(f"R4 - Columnas: {list(df_r4_trabajo.columns)}")
    
    # Crear lista para almacenar los matches
    resultados = []
    
    print("\nüîÑ Procesando unificaci√≥n...")
    
    # Por cada registro en R2, buscar su respuesta en R4
    for idx, row_r2 in tqdm(df_r2_trabajo.iterrows(), total=len(df_r2_trabajo)):
        id_afiliado = row_r2['id_afiliado']
        fecha_r2 = row_r2['fecha_proceso_dt']
        regimen_r2 = row_r2['regimen']
        
        # Buscar respuestas en R4 para este afiliado
        # Filtrar por: mismo id, mismo r√©gimen, y fecha entre 1-4 d√≠as despu√©s
        respuestas_candidatas = df_r4_trabajo[
            (df_r4_trabajo['id_afiliado'] == id_afiliado) &
            (df_r4_trabajo['regimen'] == regimen_r2) &
            (df_r4_trabajo['fecha_proceso_dt'] >= fecha_r2) &
            (df_r4_trabajo['fecha_proceso_dt'] <= fecha_r2 + pd.Timedelta(days=4))
        ]
        
        # Si hay respuestas, tomar la m√°s reciente
        if len(respuestas_candidatas) > 0:
            respuesta_final = respuestas_candidatas.sort_values('fecha_proceso_dt', ascending=False).iloc[0]
            
            # Crear registro unificado
            registro = row_r2.copy()
            registro['respuesta'] = respuesta_final['respuesta']
            registro['causal'] = respuesta_final['causal']
            registro['fecha_respuesta'] = respuesta_final['fecha_proceso']
            registro['dias_respuesta'] = (respuesta_final['fecha_proceso_dt'] - fecha_r2).days
        else:
            # No se encontr√≥ respuesta
            registro = row_r2.copy()
            registro['respuesta'] = 'Sin respuesta'
            registro['causal'] = 'Sin respuesta'
            registro['fecha_respuesta'] = 'Sin respuesta'
            registro['dias_respuesta'] = None
        
        resultados.append(registro)
    
    # Crear dataframe unificado
    df_r2_r4_unificado = pd.DataFrame(resultados)
    
    # Eliminar columna temporal
    df_r2_r4_unificado = df_r2_r4_unificado.drop('fecha_proceso_dt', axis=1)
    
    print("\n‚úÖ Unificaci√≥n completada")
    print(f"\nüìä Resumen:")
    print(f"Total registros R2: {len(df_r2_trabajo):,}")
    print(f"Registros con respuesta: {len(df_r2_r4_unificado[df_r2_r4_unificado['respuesta'] != 'Sin respuesta']):,}")
    print(f"Registros sin respuesta: {len(df_r2_r4_unificado[df_r2_r4_unificado['respuesta'] == 'Sin respuesta']):,}")
    
    # Estad√≠sticas de respuestas
    print("\nüìà Distribuci√≥n de respuestas:")
    if 'respuesta' in df_r2_r4_unificado.columns:
        distribucion = df_r2_r4_unificado[df_r2_r4_unificado['respuesta'] != 'Sin respuesta']['respuesta'].value_counts()
        for valor, cantidad in distribucion.items():
            estado = "Aprobadas" if valor == '1' else "Negadas"
            print(f"  {estado} ({valor}): {cantidad:,}")
    
    # Estad√≠sticas de d√≠as de respuesta
    print("\n‚è±Ô∏è Tiempo de respuesta:")
    dias_validos = df_r2_r4_unificado[df_r2_r4_unificado['dias_respuesta'].notna()]['dias_respuesta']
    if len(dias_validos) > 0:
        print(f"  Promedio: {dias_validos.mean():.1f} d√≠as")
        print(f"  M√≠nimo: {dias_validos.min():.0f} d√≠as")
        print(f"  M√°ximo: {dias_validos.max():.0f} d√≠as")
    
    print(f"\n{df_r2_r4_unificado.head(10)}")
    
else:
    print("‚ùå ERROR: No se pudieron cargar los dataframes R2 o R4")

### Quitar duplicados

In [None]:
print("=" * 80)
print("DEPURACI√ìN DE DUPLICADOS R2-R4 - PRIORIZACI√ìN DE APROBACIONES")
print("=" * 80)

if 'df_r2_r4_unificado' in locals():
    print("\nüìã An√°lisis de duplicados antes de depurar:")
    print(f"Total de registros: {len(df_r2_r4_unificado):,}")
    
    # Identificar duplicados por id_afiliado y r√©gimen
    duplicados = df_r2_r4_unificado.groupby(['id_afiliado', 'regimen']).size()
    afiliados_duplicados = duplicados[duplicados > 1]
    
    print(f"Afiliados √∫nicos: {len(duplicados):,}")
    print(f"Afiliados con m√∫ltiples solicitudes: {len(afiliados_duplicados):,}")
    
    if len(afiliados_duplicados) > 0:
        print(f"\nüìä Distribuci√≥n de solicitudes por afiliado:")
        dist_solicitudes = afiliados_duplicados.value_counts().sort_index()
        for num_solicitudes, cantidad in dist_solicitudes.items():
            print(f"  {num_solicitudes} solicitudes: {cantidad:,} afiliados")
    
    # Crear copia para trabajar
    df_depurado = df_r2_r4_unificado.copy()
    
    # Convertir respuesta a num√©rico para ordenamiento (1=aprobado, 0=negado, -1=sin respuesta)
    df_depurado['respuesta_num'] = df_depurado['respuesta'].apply(
        lambda x: 1 if x == '1' else (0 if x == '0' else -1)
    )
    
    # Convertir fecha_respuesta a datetime para ordenamiento
    df_depurado['fecha_respuesta_dt'] = pd.to_datetime(
        df_depurado['fecha_respuesta'], 
        format='%d/%m/%Y', 
        errors='coerce'
    )
    
    print("\nüîÑ Aplicando l√≥gica de depuraci√≥n:")
    print("  1. Priorizar aprobaciones (respuesta = 1)")
    print("  2. Si no hay aprobaciones, tomar la negaci√≥n m√°s reciente")
    print("  3. Si no hay respuestas, tomar la solicitud m√°s reciente")
    
    # Ordenar por: id_afiliado, r√©gimen, respuesta (descendente), fecha (descendente)
    df_depurado_sorted = df_depurado.sort_values(
        by=['id_afiliado', 'regimen', 'respuesta_num', 'fecha_respuesta_dt'],
        ascending=[True, True, False, False]
    )
    
    # Mantener solo el primer registro de cada grupo (el m√°s prioritario)
    df_r2_r4_depurado = df_depurado_sorted.groupby(['id_afiliado', 'regimen']).first().reset_index()
    
    # Eliminar columnas auxiliares
    df_r2_r4_depurado = df_r2_r4_depurado.drop(['respuesta_num', 'fecha_respuesta_dt'], axis=1)
    
    print("\n‚úÖ Depuraci√≥n completada")
    print(f"\nüìä Resumen despu√©s de depurar:")
    print(f"Total de registros depurados: {len(df_r2_r4_depurado):,}")
    print(f"Registros eliminados (duplicados): {len(df_r2_r4_unificado) - len(df_r2_r4_depurado):,}")
    
    # Estad√≠sticas de respuestas despu√©s de depurar
    print("\nüìà Distribuci√≥n de respuestas (datos depurados):")
    if 'respuesta' in df_r2_r4_depurado.columns:
        distribucion = df_r2_r4_depurado['respuesta'].value_counts()
        total_con_respuesta = len(df_r2_r4_depurado[df_r2_r4_depurado['respuesta'] != 'Sin respuesta'])
        
        for valor, cantidad in distribucion.items():
            if valor == '1':
                estado = "Aprobadas"
                porcentaje = (cantidad / total_con_respuesta * 100) if total_con_respuesta > 0 else 0
                print(f"  {estado} ({valor}): {cantidad:,} ({porcentaje:.1f}%)")
            elif valor == '0':
                estado = "Negadas"
                porcentaje = (cantidad / total_con_respuesta * 100) if total_con_respuesta > 0 else 0
                print(f"  {estado} ({valor}): {cantidad:,} ({porcentaje:.1f}%)")
            else:
                print(f"  Sin respuesta: {cantidad:,}")
    
    # An√°lisis por r√©gimen
    print("\nüìä Distribuci√≥n por r√©gimen:")
    dist_regimen = df_r2_r4_depurado.groupby(['regimen', 'respuesta']).size().unstack(fill_value=0)
    print(dist_regimen)
    
    # An√°lisis de causales de negaci√≥n (solo para registros negados)
    negados = df_r2_r4_depurado[df_r2_r4_depurado['respuesta'] == '0']
    if len(negados) > 0:
        print("\nüìã Top 10 causales de negaci√≥n:")
        causales = negados['causal'].value_counts().head(10)
        for causal, cantidad in causales.items():
            porcentaje = (cantidad / len(negados) * 100)
            print(f"  Causal {causal}: {cantidad:,} ({porcentaje:.1f}%)")
    
    print(f"\n{df_r2_r4_depurado.head(10)}")
    
    # Guardar estad√≠sticas de casos depurados
    print("\nüìù Ejemplos de casos depurados:")
    ejemplos_depurados = df_r2_r4_unificado[
        df_r2_r4_unificado.duplicated(subset=['id_afiliado', 'regimen'], keep=False)
    ].sort_values(['id_afiliado', 'fecha_proceso'])
    
    if len(ejemplos_depurados) > 0:
        print(f"\nPrimeros 5 afiliados con m√∫ltiples solicitudes:")
        for id_afiliado in ejemplos_depurados['id_afiliado'].unique()[:5]:
            casos = ejemplos_depurados[ejemplos_depurados['id_afiliado'] == id_afiliado]
            print(f"\n  ID: {id_afiliado}")
            for idx, row in casos.iterrows():
                print(f"    Fecha: {row['fecha_proceso']} | Respuesta: {row['respuesta']} | Causal: {row['causal']}")
            # Mostrar el registro que se mantuvo
            mantenido = df_r2_r4_depurado[df_r2_r4_depurado['id_afiliado'] == id_afiliado]
            if len(mantenido) > 0:
                print(f"    ‚úÖ REGISTRO FINAL: Respuesta={mantenido.iloc[0]['respuesta']}, Fecha={mantenido.iloc[0]['fecha_respuesta']}")
    
else:
    print("‚ùå ERROR: No se encuentra el dataframe unificado df_r2_r4_unificado")

### Categorias

In [None]:
print("=" * 80)
print("CATEGORIZACI√ìN DE APROBACIONES R2-R4")
print("=" * 80)

if 'df_r2_r4_depurado' in locals():
    # Crear copia para trabajar
    df_categorizado = df_r2_r4_depurado.copy()
    
    # Inicializar columna descripcion vac√≠a
    df_categorizado['descripcion'] = ''
    
    # Identificar registros aprobados
    aprobados = df_categorizado['respuesta'] == '1'
    
    print(f"\nüìä Total de registros aprobados: {aprobados.sum():,}")
    
    # Categor√≠a 1: Dispersi√≥n geogr√°fica (departamento diferente a 85)
    dispersion = aprobados & (df_categorizado['col_7'] != '85')
    df_categorizado.loc[dispersion, 'descripcion'] = 'Dispersi√≥n geogr√°fica'
    
    # Categor√≠a 2: Solicitud formal (todos los dem√°s aprobados en departamento 85)
    solicitud_formal = aprobados & (df_categorizado['col_7'] == '85')
    df_categorizado.loc[solicitud_formal, 'descripcion'] = 'Solicitud formal'
    
    print("\n‚úÖ Categorizaci√≥n completada")
    print(f"\nüìã Distribuci√≥n de categor√≠as:")
    print(f"  Dispersi√≥n geogr√°fica: {dispersion.sum():,}")
    print(f"  Solicitud formal: {solicitud_formal.sum():,}")
    
    # Validar que todos los aprobados tienen categor√≠a
    aprobados_sin_categoria = aprobados & (df_categorizado['descripcion'] == '')
    if aprobados_sin_categoria.sum() > 0:
        print(f"\n‚ö†Ô∏è ALERTA: {aprobados_sin_categoria.sum()} aprobados sin categor√≠a")
    
    # Mostrar distribuci√≥n por r√©gimen
    print("\nüìä Distribuci√≥n por r√©gimen y categor√≠a:")
    dist_regimen_cat = df_categorizado[aprobados].groupby(['regimen', 'descripcion']).size().unstack(fill_value=0)
    print(dist_regimen_cat)
    
    # Mostrar ejemplos
    print(f"\nüìù Ejemplos de categorizaci√≥n:")
    print("\nDispersi√≥n geogr√°fica:")
    print(df_categorizado[dispersion][['id_afiliado', 'col_7', 'regimen', 'respuesta', 'descripcion']].head(3))
    
    print("\nSolicitud formal:")
    print(df_categorizado[solicitud_formal][['id_afiliado', 'col_7', 'regimen', 'respuesta', 'descripcion']].head(3))
    
    # Guardar resultado en nuevo dataframe
    df_r2_r4_final = df_categorizado.copy()
    
    print(f"\n‚úÖ Dataframe final creado: df_r2_r4_final")
    print(f"Total de registros: {len(df_r2_r4_final):,}")
    
else:
    print("‚ùå ERROR: No se encuentra el dataframe depurado df_r2_r4_depurado")

# DashBoard

## Unificar procesos

In [None]:
print("=" * 80)
print("PREPARACI√ìN DE DATOS - AN√ÅLISIS CORRECTO DE FLUJOS")
print("=" * 80)

# Preparar S2-S4 (Hacia EPS SUBSIDIADAS)
if 'df_s2_s4_final' in locals():
    df_salidas_subs = df_s2_s4_final.copy()
    df_salidas_subs['eps_destino_tipo'] = 'EPS Subsidiada'
    df_salidas_subs['regimen_origen'] = df_salidas_subs['regimen']  # De qu√© r√©gimen de Capresoca salen
    df_salidas_subs['eps_destino_cod'] = df_salidas_subs['col_1']
    df_salidas_subs['departamento_destino'] = df_salidas_subs['col_8']
    df_salidas_subs['municipio_destino'] = df_salidas_subs['col_9']
    df_salidas_subs['fecha_efectiva'] = df_salidas_subs['col_11']
    
    # Clasificar tipo de migraci√≥n
    def clasificar_migracion_s4(row):
        if row['regimen_origen'] == 'Subsidiado':
            return 'Cambio lateral (Subs‚ÜíSubs)'
        else:
            return 'Migraci√≥n descendente (Cont‚ÜíSubs)'
    
    df_salidas_subs['tipo_migracion'] = df_salidas_subs.apply(clasificar_migracion_s4, axis=1)
    
    print(f"‚úÖ SALIDAS hacia EPS SUBSIDIADAS (S4):")
    print(f"   Total: {len(df_salidas_subs):,}")
    print(f"\n   Desde Subsidiado: {len(df_salidas_subs[df_salidas_subs['regimen_origen'] == 'Subsidiado']):,}")
    print(f"   Desde Contributivo: {len(df_salidas_subs[df_salidas_subs['regimen_origen'] == 'Contributivo']):,}")

# Preparar R2-R4 (Hacia EPS CONTRIBUTIVAS)
if 'df_r2_r4_final' in locals():
    df_salidas_cont = df_r2_r4_final.copy()
    df_salidas_cont['eps_destino_tipo'] = 'EPS Contributiva'
    df_salidas_cont['regimen_origen'] = df_salidas_cont['regimen']  # De qu√© r√©gimen de Capresoca salen
    df_salidas_cont['eps_destino_cod'] = df_salidas_cont['col_1']
    df_salidas_cont['departamento_destino'] = df_salidas_cont['col_13']
    df_salidas_cont['municipio_destino'] = df_salidas_cont['col_14']
    df_salidas_cont['fecha_efectiva'] = df_salidas_cont['col_9']
    
    # Clasificar tipo de migraci√≥n
    def clasificar_migracion_r4(row):
        if row['regimen_origen'] == 'Contributivo':
            return 'Cambio lateral (Cont‚ÜíCont)'
        else:
            return 'Migraci√≥n ascendente (Subs‚ÜíCont)'
    
    df_salidas_cont['tipo_migracion'] = df_salidas_cont.apply(clasificar_migracion_r4, axis=1)
    
    print(f"\n‚úÖ SALIDAS hacia EPS CONTRIBUTIVAS (R4):")
    print(f"   Total: {len(df_salidas_cont):,}")
    print(f"\n   Desde Subsidiado: {len(df_salidas_cont[df_salidas_cont['regimen_origen'] == 'Subsidiado']):,}")
    print(f"   Desde Contributivo: {len(df_salidas_cont[df_salidas_cont['regimen_origen'] == 'Contributivo']):,}")

# An√°lisis de impacto financiero
print("\n" + "=" * 80)
print("AN√ÅLISIS DE IMPACTO FINANCIERO POR FECHA EFECTIVA")
print("=" * 80)

for df_name, df in [('S4', df_salidas_subs), ('R4', df_salidas_cont)]:
    if df is not None:
        df['fecha_efectiva_dt'] = pd.to_datetime(df['fecha_efectiva'], format='%d/%m/%Y', errors='coerce')
        df['fecha_proceso_dt'] = pd.to_datetime(df['fecha_proceso'], format='%d/%m/%Y')
        
        # Calcular retroactividad
        df['retroactivo'] = df['fecha_efectiva_dt'] < df['fecha_proceso_dt']
        df['mismo_mes'] = (df['fecha_efectiva_dt'].dt.to_period('M') == 
                           df['fecha_proceso_dt'].dt.to_period('M'))
        
        # Clasificar impacto
        def clasificar_impacto(row):
            if row['respuesta'] != '1':
                return 'No aplica'
            elif row['retroactivo'] or row['mismo_mes']:
                return 'Impacto inmediato'
            else:
                return 'Impacto diferido'
        
        df['impacto_financiero'] = df.apply(clasificar_impacto, axis=1)
        
        print(f"\n{df_name} - Impacto financiero:")
        aprobados = df[df['respuesta'] == '1']
        if len(aprobados) > 0:
            impacto = aprobados['impacto_financiero'].value_counts()
            for categoria, cantidad in impacto.items():
                print(f"   {categoria}: {cantidad:,}")

# Unificar todas las salidas
if 'df_salidas_subs' in locals() and 'df_salidas_cont' in locals():
    df_salidas_total = pd.concat([df_salidas_subs, df_salidas_cont], ignore_index=True)
    
    print(f"\n" + "=" * 80)
    print(f"RESUMEN TOTAL DE SALIDAS")
    print("=" * 80)
    print(f"\nTotal salidas: {len(df_salidas_total):,}")
    
    aprobados_total = df_salidas_total[df_salidas_total['respuesta'] == '1']
    print(f"Aprobadas: {len(aprobados_total):,}")
    
    print(f"\nüìä Distribuci√≥n por tipo de migraci√≥n (aprobados):")
    dist_migracion = aprobados_total['tipo_migracion'].value_counts()
    for tipo, cantidad in dist_migracion.items():
        porcentaje = (cantidad / len(aprobados_total) * 100)
        print(f"   {tipo}: {cantidad:,} ({porcentaje:.1f}%)")
    
    print(f"\nüìä Distribuci√≥n por r√©gimen origen y destino (aprobados):")
    tabla_cruzada = pd.crosstab(
        aprobados_total['regimen_origen'], 
        aprobados_total['eps_destino_tipo'],
        margins=True
    )
    print(tabla_cruzada)
    
    print(f"\n‚úÖ Dataset unificado creado: df_salidas_total")

In [None]:
print("=" * 80)
print("PREPARACI√ìN FINAL DE DATOS PARA DASHBOARD")
print("=" * 80)

# Preparar S2-S4 (Salidas hacia EPS SUBSIDIADAS)
if 'df_s2_s4_final' in locals():
    df_salidas_subs = df_s2_s4_final.copy()
    df_salidas_subs['eps_destino_tipo'] = 'EPS Subsidiada'
    df_salidas_subs['regimen_origen'] = df_salidas_subs['regimen']
    df_salidas_subs['eps_destino_cod'] = df_salidas_subs['col_1']
    df_salidas_subs['departamento_destino'] = df_salidas_subs['col_8']
    df_salidas_subs['municipio_destino'] = df_salidas_subs['col_9']
    df_salidas_subs['fecha_efectiva'] = df_salidas_subs['col_11']
    
    # Clasificar tipo de migraci√≥n
    def clasificar_migracion_s4(row):
        if row['regimen_origen'] == 'Subsidiado':
            return 'Cambio lateral (Subs‚ÜíSubs)'
        else:
            return 'Migraci√≥n descendente (Cont‚ÜíSubs)'
    
    df_salidas_subs['tipo_migracion'] = df_salidas_subs.apply(clasificar_migracion_s4, axis=1)
    
    print(f"‚úÖ SALIDAS hacia EPS SUBSIDIADAS (S4): {len(df_salidas_subs):,}")

# Preparar R2-R4 (Salidas hacia EPS CONTRIBUTIVAS)
if 'df_r2_r4_final' in locals():
    df_salidas_cont = df_r2_r4_final.copy()
    df_salidas_cont['eps_destino_tipo'] = 'EPS Contributiva'
    df_salidas_cont['regimen_origen'] = df_salidas_cont['regimen']
    df_salidas_cont['eps_destino_cod'] = df_salidas_cont['col_1']
    df_salidas_cont['departamento_destino'] = df_salidas_cont['col_13']
    df_salidas_cont['municipio_destino'] = df_salidas_cont['col_14']
    df_salidas_cont['fecha_efectiva'] = df_salidas_cont['col_9']
    
    # Clasificar tipo de migraci√≥n
    def clasificar_migracion_r4(row):
        if row['regimen_origen'] == 'Contributivo':
            return 'Cambio lateral (Cont‚ÜíCont)'
        else:
            return 'Migraci√≥n ascendente (Subs‚ÜíCont)'
    
    df_salidas_cont['tipo_migracion'] = df_salidas_cont.apply(clasificar_migracion_r4, axis=1)
    
    print(f"‚úÖ SALIDAS hacia EPS CONTRIBUTIVAS (R4): {len(df_salidas_cont):,}")

# An√°lisis de impacto financiero por fecha efectiva
print("\n" + "=" * 80)
print("AN√ÅLISIS DE IMPACTO FINANCIERO")
print("=" * 80)

for df_name, df_temp in [('Subsidiadas', df_salidas_subs), ('Contributivas', df_salidas_cont)]:
    if df_temp is not None:
        df_temp['fecha_efectiva_dt'] = pd.to_datetime(df_temp['fecha_efectiva'], format='%d/%m/%Y', errors='coerce')
        df_temp['fecha_proceso_dt'] = pd.to_datetime(df_temp['fecha_proceso'], format='%d/%m/%Y')
        
        df_temp['retroactivo'] = df_temp['fecha_efectiva_dt'] < df_temp['fecha_proceso_dt']
        df_temp['mismo_mes'] = (df_temp['fecha_efectiva_dt'].dt.to_period('M') == 
                                df_temp['fecha_proceso_dt'].dt.to_period('M'))
        
        def clasificar_impacto(row):
            if row['respuesta'] != '1':
                return 'No aplica'
            elif row['retroactivo'] or row['mismo_mes']:
                return 'Impacto inmediato (Restituci√≥n UPC)'
            else:
                return 'Impacto diferido (Mantiene UPC)'
        
        df_temp['impacto_financiero'] = df_temp.apply(clasificar_impacto, axis=1)
        
        aprobados = df_temp[df_temp['respuesta'] == '1']
        if len(aprobados) > 0:
            print(f"\nEPS {df_name}:")
            impacto = aprobados['impacto_financiero'].value_counts()
            for categoria, cantidad in impacto.items():
                print(f"  {categoria}: {cantidad:,}")

# Unificar todas las salidas
if 'df_salidas_subs' in locals() and 'df_salidas_cont' in locals():
    df_salidas_total = pd.concat([df_salidas_subs, df_salidas_cont], ignore_index=True)
    
    print(f"\n‚úÖ Dataset unificado creado: df_salidas_total")
    print(f"Total de salidas: {len(df_salidas_total):,}")
    print(f"Aprobadas: {len(df_salidas_total[df_salidas_total['respuesta'] == '1']):,}")

## SECCI√ìN 1: KPIs PRINCIPALES

In [None]:
# ============================================================================
# SECCI√ìN 1: KPIs PRINCIPALES
# ============================================================================

print("=" * 80)
print("DASHBOARD DE SALIDAS - CAPRESOCA EPS")
print("=" * 80)

if 'df_salidas_total' in locals():
    # Filtrar solo aprobados
    df_aprobados = df_salidas_total[df_salidas_total['respuesta'] == '1'].copy()
    
    from plotly.subplots import make_subplots
    import plotly.graph_objects as go
    
    # M√©tricas principales
    total_salidas = len(df_aprobados)
    salidas_subs = len(df_aprobados[df_aprobados['regimen_origen'] == 'Subsidiado'])
    salidas_cont = len(df_aprobados[df_aprobados['regimen_origen'] == 'Contributivo'])
    
    dispersion = len(df_aprobados[df_aprobados['descripcion'] == 'Dispersi√≥n geogr√°fica'])
    solicitud_formal = len(df_aprobados[df_aprobados['descripcion'] == 'Solicitud formal'])
    
    impacto_inmediato = len(df_aprobados[df_aprobados['impacto_financiero'] == 'Impacto inmediato (Restituci√≥n UPC)'])
    impacto_diferido = total_salidas - impacto_inmediato
    
    # Calcular porcentajes
    pct_subs = (salidas_subs / total_salidas * 100) if total_salidas > 0 else 0
    pct_cont = (salidas_cont / total_salidas * 100) if total_salidas > 0 else 0
    pct_dispersion = (dispersion / total_salidas * 100) if total_salidas > 0 else 0
    pct_formal = (solicitud_formal / total_salidas * 100) if total_salidas > 0 else 0
    pct_inmediato = (impacto_inmediato / total_salidas * 100) if total_salidas > 0 else 0
    pct_diferido = (impacto_diferido / total_salidas * 100) if total_salidas > 0 else 0
    
    # Calcular salidas a EPS contributivas
    hacia_contrib = len(df_aprobados[df_aprobados['eps_destino_tipo'] == 'EPS Contributiva'])
    pct_hacia_contrib = (hacia_contrib / total_salidas * 100) if total_salidas > 0 else 0
    
    # Crear subplots para KPIs
    fig_kpis = make_subplots(
        rows=2, cols=4,
        specs=[[{'type': 'indicator'}, {'type': 'indicator'}, {'type': 'indicator'}, {'type': 'indicator'}],
               [{'type': 'indicator'}, {'type': 'indicator'}, {'type': 'indicator'}, {'type': 'indicator'}]],
        vertical_spacing=0.3
    )
    
    # Fila 1
    fig_kpis.add_trace(go.Indicator(
        mode = "number",
        value = total_salidas,
        title = {"text": "<b>Total Salidas<br>Aprobadas</b>", "font": {"size": 16}},
        number = {"font": {"size": 60, "color": "#2c3e50"}},
    ), row=1, col=1)
    
    fig_kpis.add_trace(go.Indicator(
        mode = "number",
        value = salidas_subs,
        title = {"text": f"<b>Desde Subsidiado</b><br><span style='font-size:14px'>{pct_subs:.1f}% del total</span>", "font": {"size": 14}},
        number = {"font": {"size": 50, "color": "#e74c3c"}},
    ), row=1, col=2)
    
    fig_kpis.add_trace(go.Indicator(
        mode = "number",
        value = salidas_cont,
        title = {"text": f"<b>Desde Contributivo</b><br><span style='font-size:14px'>{pct_cont:.1f}% del total</span>", "font": {"size": 14}},
        number = {"font": {"size": 50, "color": "#3498db"}},
    ), row=1, col=3)
    
    fig_kpis.add_trace(go.Indicator(
        mode = "number",
        value = impacto_inmediato,
        title = {"text": f"<b>Impacto Inmediato</b><br><span style='font-size:14px'>‚ö†Ô∏è {pct_inmediato:.1f}% (Restituci√≥n UPC)</span>", "font": {"size": 14}},
        number = {"font": {"size": 50, "color": "#e67e22"}},
    ), row=1, col=4)
    
    # Fila 2
    fig_kpis.add_trace(go.Indicator(
        mode = "number",
        value = dispersion,
        title = {"text": f"<b>Dispersi√≥n Geogr√°fica</b><br><span style='font-size:14px'>{pct_dispersion:.1f}% del total</span>", "font": {"size": 14}},
        number = {"font": {"size": 50, "color": "#9b59b6"}},
    ), row=2, col=1)
    
    fig_kpis.add_trace(go.Indicator(
        mode = "number",
        value = solicitud_formal,
        title = {"text": f"<b>Solicitud Formal</b><br><span style='font-size:14px'>{pct_formal:.1f}% del total</span>", "font": {"size": 14}},
        number = {"font": {"size": 50, "color": "#16a085"}},
    ), row=2, col=2)
    
    fig_kpis.add_trace(go.Indicator(
        mode = "number",
        value = impacto_diferido,
        title = {"text": f"<b>Impacto Diferido</b><br><span style='font-size:14px'>‚úÖ {pct_diferido:.1f}% (Mantiene UPC)</span>", "font": {"size": 14}},
        number = {"font": {"size": 50, "color": "#27ae60"}},
    ), row=2, col=3)
    
    fig_kpis.add_trace(go.Indicator(
        mode = "number",
        value = hacia_contrib,
        title = {"text": f"<b>Migraci√≥n Ascendente</b><br><span style='font-size:14px'>{pct_hacia_contrib:.1f}% hacia contributivo</span>", "font": {"size": 14}},
        number = {"font": {"size": 50, "color": "#f39c12"}},
    ), row=2, col=4)
    
    fig_kpis.update_layout(
        height=500,
        title_text="üìä KPIs Principales - Traslados de Salida Enero 2026",
        title_font_size=22,
        title_x=0.5,
        title_xanchor='center',
        margin=dict(t=100, b=20)
    )
    
    fig_kpis.show()
    
else:
    print("‚ùå ERROR: No se encuentra el dataframe unificado df_salidas_total")

## SECCI√ìN 2: MATRIZ DE MIGRACI√ìN

In [None]:
# ============================================================================
# SECCI√ìN 2: MATRIZ DE MIGRACI√ìN
# ============================================================================

if 'df_aprobados' in locals():
    import plotly.graph_objects as go
    
    tabla_migracion = pd.crosstab(
        df_aprobados['regimen_origen'], 
        df_aprobados['eps_destino_tipo'],
        margins=True,
        margins_name='Total'
    )
    
    fig_matriz = go.Figure(data=[go.Table(
        header=dict(
            values=['<b>R√©gimen Origen</b>'] + ['<b>' + col + '</b>' for col in tabla_migracion.columns],
            fill_color='#1f77b4',
            align='center',
            font=dict(color='white', size=14)
        ),
        cells=dict(
            values=[tabla_migracion.index] + [tabla_migracion[col] for col in tabla_migracion.columns],
            fill_color=[['#f0f0f0', 'white'] * len(tabla_migracion)],
            align='center',
            font=dict(size=13),
            height=30
        )
    )])
    
    fig_matriz.update_layout(
        title_text="üîÑ Matriz de Migraci√≥n: Origen ‚Üí Destino",
        title_font_size=18,
        height=300
    )
    
    fig_matriz.show()
else:
    print("‚ùå ERROR: Ejecuta primero la secci√≥n de KPIs")

## SECCI√ìN 3: AN√ÅLISIS POR TIPO DE MIGRACI√ìN

In [None]:
# ============================================================================
# SECCI√ìN 3: AN√ÅLISIS POR TIPO DE MIGRACI√ìN
# ============================================================================

if 'df_aprobados' in locals():
    import plotly.graph_objects as go
    
    tipo_migracion = df_aprobados['tipo_migracion'].value_counts()
    
    fig_tipo = go.Figure(data=[
        go.Bar(
            x=tipo_migracion.index,
            y=tipo_migracion.values,
            text=tipo_migracion.values,
            textposition='auto',
            marker_color=['#2ecc71', '#e74c3c', '#3498db', '#f39c12']
        )
    ])
    
    fig_tipo.update_layout(
        title_text="üîÄ Distribuci√≥n por Tipo de Migraci√≥n",
        title_font_size=18,
        xaxis_title="Tipo de Migraci√≥n",
        yaxis_title="Cantidad de Afiliados",
        height=400,
        showlegend=False
    )
    
    fig_tipo.show()
else:
    print("‚ùå ERROR: Ejecuta primero la secci√≥n de KPIs")

## SECCI√ìN 4: DISTRIBUCI√ìN GEOGR√ÅFICA

In [None]:
# ============================================================================
# SECCI√ìN 4: DISTRIBUCI√ìN GEOGR√ÅFICA
# ============================================================================

if 'df_aprobados' in locals():
    import plotly.graph_objects as go
    
    # Top 10 Departamentos destino
    top_deptos = df_aprobados['departamento_destino'].value_counts().head(10)
    
    # Calcular porcentajes
    total_aprobados_graf = len(df_aprobados)
    porcentajes = (top_deptos / total_aprobados_graf * 100).round(1)
    
    # Crear texto enriquecido para las barras
    text_labels = [
        f"<b>{cant}</b> afiliados<br>({pct}% del total)" 
        for cant, pct in zip(top_deptos.values, porcentajes.values)
    ]
    
    # Asignar colores degradados seg√∫n cantidad
    colores = ['#1a5490' if i == 0 else '#3498db' if i < 3 else '#5dade2' 
               for i in range(len(top_deptos))]
    
    fig_deptos = go.Figure(data=[
        go.Bar(
            y=top_deptos.index,
            x=top_deptos.values,
            orientation='h',
            text=text_labels,
            textposition='auto',
            marker_color=colores,
            marker_line_color='#2c3e50',
            marker_line_width=1,
            hovertemplate='<b>Departamento %{y}</b><br>' +
                          'Afiliados: %{x}<br>' +
                          'Porcentaje: %{customdata}%<br>' +
                          '<extra></extra>',
            customdata=porcentajes.values
        )
    ])
    
    fig_deptos.update_layout(
        title_text=f"<b>Top 10 Departamentos Destino</b><br>" +
                   f"<sub>Total de salidas aprobadas: {total_aprobados_graf:,} afiliados</sub>",
        title_font_size=20,
        title_x=0.5,
        title_xanchor='center',
        xaxis_title="<b>Cantidad de Afiliados</b>",
        yaxis_title="<b>C√≥digo Departamento</b>",
        height=600,  # Aumentado de 550 a 600
        plot_bgcolor='white',
        paper_bgcolor='white',
        margin=dict(l=80, r=50, t=100, b=120),  # Aumentado margen inferior de 80 a 120
        xaxis=dict(
            gridcolor='#ecf0f1',
            showgrid=True,
            zeroline=False
        ),
        yaxis=dict(
            autorange='reversed',
            gridcolor='#ecf0f1'
        ),
        font=dict(family="Arial, sans-serif", size=12)
    )
    
    # Agregar anotaci√≥n con resumen
    concentracion_top3 = top_deptos.head(3).sum()
    pct_concentracion = (concentracion_top3 / total_aprobados_graf * 100)
    
    fig_deptos.add_annotation(
        text=f"Los 3 principales departamentos concentran el <b>{pct_concentracion:.1f}%</b> de las salidas",
        xref="paper", yref="paper",
        x=0.5, y=-0.15,  # Cambiado de -0.12 a -0.15
        showarrow=False,
        font=dict(size=13, color='#2c3e50'),
        xanchor='center'
    )
    
    fig_deptos.show()
    
    # Resumen en texto
    print("\n" + "=" * 80)
    print("AN√ÅLISIS GEOGR√ÅFICO - TOP 10 DEPARTAMENTOS DESTINO")
    print("=" * 80)
    print(f"\nTotal de afiliados que causaron salida: {total_aprobados_graf:,}")
    print(f"\nDistribuci√≥n por departamento:\n")
    
    for idx, (depto, cantidad) in enumerate(top_deptos.items(), 1):
        porcentaje = (cantidad / total_aprobados_graf * 100)
        barra = "‚ñà" * int(porcentaje / 2)
        print(f"{idx:2d}. Depto {depto}: {cantidad:3d} afiliados ({porcentaje:5.1f}%) {barra}")
    
    # Calcular concentraci√≥n
    otros_deptos = total_aprobados_graf - top_deptos.sum()
    pct_otros = (otros_deptos / total_aprobados_graf * 100)
    
    print(f"\nOtros departamentos: {otros_deptos:,} afiliados ({pct_otros:.1f}%)")
    print("\n" + "=" * 80)
    
else:
    print("ERROR: Ejecuta primero la secci√≥n de KPIs")

## SECCI√ìN 5: TOP EPS DESTINO

In [None]:
# ============================================================================
# SECCI√ìN 5: TOP EPS DESTINO
# ============================================================================

if 'df_aprobados' in locals():
    import plotly.graph_objects as go
    
    top_eps = df_aprobados['eps_destino_cod'].value_counts().head(15)
    
    fig_eps = go.Figure(data=[
        go.Bar(
            x=top_eps.index,
            y=top_eps.values,
            text=top_eps.values,
            textposition='auto',
            marker_color='#e74c3c'
        )
    ])
    
    fig_eps.update_layout(
        title_text="üè• Top 15 EPS Destino (que nos quitan m√°s afiliados)",
        title_font_size=18,
        xaxis_title="C√≥digo EPS",
        yaxis_title="Cantidad de Afiliados",
        height=500
    )
    
    fig_eps.show()
else:
    print("‚ùå ERROR: Ejecuta primero la secci√≥n de KPIs")

## SECCI√ìN 6: DISTRIBUCI√ìN POR CATEGOR√çA Y R√âGIMEN

In [None]:
# ============================================================================
# SECCI√ìN 6: DISTRIBUCI√ìN POR CATEGOR√çA Y R√âGIMEN
# ============================================================================

if 'df_aprobados' in locals():
    import plotly.graph_objects as go
    from plotly.subplots import make_subplots
    
    # An√°lisis de categor√≠as
    categorias_dist = df_aprobados['descripcion'].value_counts()
    
    # An√°lisis cruzado: categor√≠a x r√©gimen
    tabla_cat_regimen = pd.crosstab(
        df_aprobados['descripcion'], 
        df_aprobados['regimen_origen'],
        margins=True,
        margins_name='Total'
    )
    
    # Crear subplots
    fig_categorias = make_subplots(
        rows=1, cols=2,
        specs=[[{'type': 'pie'}, {'type': 'bar'}]],
        subplot_titles=(
            '<b>Distribuci√≥n General</b>',
            '<b>Desglose por R√©gimen</b>'
        ),
        horizontal_spacing=0.2
    )
    
    # 1. GR√ÅFICO DE DONA
    colores_categoria = {
        'Dispersi√≥n geogr√°fica': '#9b59b6',
        'Solicitud formal': '#16a085'
    }
    
    colors = [colores_categoria.get(cat, '#95a5a6') for cat in categorias_dist.index]
    
    labels_limpias = [
        'Dispersi√≥n<br>geogr√°fica' if cat == 'Dispersi√≥n geogr√°fica' else 'Solicitud<br>formal'
        for cat in categorias_dist.index
    ]
    
    fig_categorias.add_trace(go.Pie(
        labels=labels_limpias,
        values=categorias_dist.values,
        hole=0.55,
        marker=dict(
            colors=colors, 
            line=dict(color='white', width=3)
        ),
        textinfo='percent',
        textposition='inside',
        textfont=dict(size=16, color='white', family='Arial Black'),
        hovertemplate='<b>%{label}</b><br>' +
                      'Cantidad: %{value:,} afiliados<br>' +
                      'Porcentaje: %{percent}<br>' +
                      '<extra></extra>',
        showlegend=True
    ), row=1, col=1)
    
    # 2. BARRAS AGRUPADAS
    if 'Total' in tabla_cat_regimen.columns:
        tabla_sin_total = tabla_cat_regimen.drop('Total', axis=1)
        tabla_sin_total = tabla_sin_total.drop('Total', axis=0)
    else:
        tabla_sin_total = tabla_cat_regimen
    
    for idx, regimen in enumerate(tabla_sin_total.columns):
        color_base = '#e74c3c' if regimen == 'Subsidiado' else '#3498db'
        
        fig_categorias.add_trace(go.Bar(
            name=f'<b>{regimen}</b>',
            x=tabla_sin_total.index,
            y=tabla_sin_total[regimen],
            text=[f'<b>{int(val)}</b>' for val in tabla_sin_total[regimen].values],
            textposition='outside',
            textfont=dict(size=14, color=color_base),
            marker_color=color_base,
            marker_line_color='white',
            marker_line_width=2,
            hovertemplate='<b>%{x}</b><br>' +
                          f'{regimen}: %{{y:,}} afiliados<br>' +
                          '<extra></extra>',
            opacity=0.9
        ), row=1, col=2)
    
    # Texto central en la dona - CORREGIDO CON MEJOR ESPACIADO
    total_categorizado = categorias_dist.sum()
    fig_categorias.add_annotation(
        text=f'<span style="font-size:14px">Total</span><br><br>' +
             f'<span style="font-size:36px; font-weight:bold">{total_categorizado}</span><br>' +
             f'<span style="font-size:12px">afiliados</span>',
        x=0.185, 
        y=0.5,
        xref='paper', 
        yref='paper',
        font=dict(color='#2c3e50'),
        showarrow=False,
        align='center'
    )
    
    # Layout
    fig_categorias.update_layout(
        title=dict(
            text="<b>üìä An√°lisis de Salidas por Categor√≠a y R√©gimen</b>",
            font=dict(size=20),
            x=0.5,
            xanchor='center'
        ),
        height=550,
        plot_bgcolor='white',
        paper_bgcolor='white',
        margin=dict(t=100, b=100, l=60, r=60),
        barmode='group',
        bargap=0.3,
        showlegend=True,
        legend=dict(
            orientation="h",
            yanchor="bottom",
            y=-0.20,
            xanchor="center",
            x=0.75,
            font=dict(size=13),
            bgcolor='rgba(255,255,255,0.8)',
            bordercolor='#bdc3c7',
            borderwidth=1
        )
    )
    
    # Configurar ejes de barras
    fig_categorias.update_xaxes(
        title_text="",
        tickfont=dict(size=11),
        row=1, col=2
    )
    
    fig_categorias.update_yaxes(
        title_text="<b>Cantidad de Afiliados</b>",
        title_font=dict(size=13),
        gridcolor='#ecf0f1',
        gridwidth=1,
        range=[0, max(tabla_sin_total.max()) * 1.15],
        row=1, col=2
    )
    
    fig_categorias.show()
    
    # (El resto del c√≥digo de resumen textual se mantiene igual...)
    
else:
    print("‚ùå ERROR: Ejecuta primero la secci√≥n de KPIs")

## SECCI√ìN 7: IMPACTO FINANCIERO

In [None]:
# ============================================================================
# SECCI√ìN 7: IMPACTO FINANCIERO
# ============================================================================

if 'df_aprobados' in locals():
    import plotly.graph_objects as go
    
    # An√°lisis de impacto financiero
    impacto_dist = df_aprobados['impacto_financiero'].value_counts()
    
    # Calcular totales y porcentajes
    total_aprobados_impacto = len(df_aprobados)
    impacto_inmediato_cant = impacto_dist.get('Impacto inmediato (Restituci√≥n UPC)', 0)
    impacto_diferido_cant = impacto_dist.get('Impacto diferido (Mantiene UPC)', 0)
    
    pct_inmediato = (impacto_inmediato_cant / total_aprobados_impacto * 100) if total_aprobados_impacto > 0 else 0
    pct_diferido = (impacto_diferido_cant / total_aprobados_impacto * 100) if total_aprobados_impacto > 0 else 0
    
    # Explicaci√≥n contextual
    print("=" * 80)
    print("üìå CONTEXTO: ¬øQU√â SIGNIFICA EL IMPACTO FINANCIERO?")
    print("=" * 80)
    print("\nCuando un afiliado se traslada a otra EPS, la fecha efectiva del traslado")
    print("determina el impacto financiero para CAPRESOCA:\n")
    
    print("üî¥ IMPACTO INMEDIATO (Restituci√≥n de UPC):")
    print("   ‚Üí Ocurre cuando la fecha efectiva es RETROACTIVA o en el MISMO MES")
    print("   ‚Üí CAPRESOCA debe devolver la UPC recibida por ese afiliado")
    print("   ‚Üí Representa una p√©rdida financiera inmediata")
    print("   ‚Üí Afecta el flujo de caja del periodo actual\n")
    
    print("üü¢ IMPACTO DIFERIDO (Mantiene UPC):")
    print("   ‚Üí Ocurre cuando la fecha efectiva es en un MES FUTURO")
    print("   ‚Üí CAPRESOCA conserva la UPC del mes actual")
    print("   ‚Üí La salida se ejecuta en el siguiente periodo")
    print("   ‚Üí Permite planificar y ajustar presupuesto\n")
    
    print("üí° IMPORTANCIA PARA LA TOMA DE DECISIONES:")
    print(f"   ‚Ä¢ Un {pct_inmediato:.1f}% de impacto inmediato puede afectar liquidez")
    print("   ‚Ä¢ Requiere provisiones financieras para restituciones")
    print("   ‚Ä¢ Indica la eficiencia en los tiempos de procesamiento")
    print("=" * 80 + "\n")
    
    # Colores con sem√°foro claro
    colors_impacto = ['#e74c3c' if 'inmediato' in str(x).lower() else '#27ae60' for x in impacto_dist.index]
    
    # Crear etiquetas personalizadas
    labels_personalizadas = []
    for label in impacto_dist.index:
        if 'inmediato' in str(label).lower():
            labels_personalizadas.append('‚ö†Ô∏è Impacto Inmediato<br>(Restituci√≥n UPC)')
        else:
            labels_personalizadas.append('‚úÖ Impacto Diferido<br>(Mantiene UPC)')
    
    # Crear gr√°fico de dona mejorado
    fig_impacto = go.Figure(data=[
        go.Pie(
            labels=labels_personalizadas,
            values=impacto_dist.values,
            hole=0.5,
            marker=dict(
                colors=colors_impacto,
                line=dict(color='white', width=3)
            ),
            textinfo='percent+value',
            textfont=dict(size=14, color='white', family='Arial Black'),
            textposition='inside',
            hovertemplate='<b>%{label}</b><br>' +
                          'Cantidad: %{value:,} afiliados<br>' +
                          'Porcentaje: %{percent}<br>' +
                          '<extra></extra>',
            pull=[0.05 if 'inmediato' in str(label).lower() else 0 for label in impacto_dist.index]  # Resaltar impacto inmediato
        )
    ])
    
    # Layout mejorado
    fig_impacto.update_layout(
        title=dict(
            text=f"<b>üí∞ Impacto Financiero por Fecha Efectiva</b><br>" +
                 f"<sub>Total de traslados aprobados: {total_aprobados_impacto:,} afiliados</sub>",
            font=dict(size=20),
            x=0.5,
            xanchor='center'
        ),
        height=600,
        plot_bgcolor='white',
        paper_bgcolor='white',
        margin=dict(t=120, b=100, l=50, r=50),
        showlegend=True,
        legend=dict(
            orientation="v",
            yanchor="middle",
            y=0.5,
            xanchor="left",
            x=1.05,
            font=dict(size=13)
        ),
        annotations=[
            # Texto central en la dona
            dict(
                text=f'<b>Impacto<br>UPC</b><br><br>{total_aprobados_impacto:,}<br>afiliados',
                x=0.5, y=0.5,
                font=dict(size=16, color='#2c3e50', family='Arial'),
                showarrow=False
            ),
            # Advertencia si impacto inmediato es alto
            dict(
                text=f"<b>‚ö†Ô∏è ATENCI√ìN:</b> {pct_inmediato:.1f}% requiere restituci√≥n de UPC" if pct_inmediato > 20 else 
                     f"<b>‚úÖ FAVORABLE:</b> Solo {pct_inmediato:.1f}% requiere restituci√≥n de UPC",
                xref="paper", yref="paper",
                x=0.5, y=-0.15,
                showarrow=False,
                font=dict(size=14, color='#e74c3c' if pct_inmediato > 20 else '#27ae60'),
                xanchor='center'
            )
        ]
    )
    
    fig_impacto.show()
    
    # Resumen cuantitativo
    print("\n" + "=" * 80)
    print("üìä RESUMEN DE IMPACTO FINANCIERO")
    print("=" * 80)
    print(f"\nüî¥ Impacto Inmediato (Restituci√≥n UPC):")
    print(f"   ‚Ä¢ Cantidad: {impacto_inmediato_cant:,} afiliados")
    print(f"   ‚Ä¢ Porcentaje: {pct_inmediato:.1f}%")
    print(f"   ‚Ä¢ Interpretaci√≥n: {'‚ö†Ô∏è ALTO - Requiere atenci√≥n' if pct_inmediato > 30 else '‚úÖ MODERADO - Dentro de lo esperado' if pct_inmediato > 15 else '‚úÖ BAJO - Situaci√≥n favorable'}")
    
    print(f"\nüü¢ Impacto Diferido (Mantiene UPC):")
    print(f"   ‚Ä¢ Cantidad: {impacto_diferido_cant:,} afiliados")
    print(f"   ‚Ä¢ Porcentaje: {pct_diferido:.1f}%")
    print(f"   ‚Ä¢ Interpretaci√≥n: {'‚úÖ EXCELENTE - Mayor tiempo para planificar' if pct_diferido > 70 else '‚ö†Ô∏è Revisar tiempos de procesamiento'}")
    
    print("\nüí° RECOMENDACIONES:")
    if pct_inmediato > 30:
        print("   1. Revisar tiempos de procesamiento de solicitudes")
        print("   2. Implementar alertas tempranas de traslados")
        print("   3. Provisionar recursos para restituciones de UPC")
        print("   4. Analizar causas de fechas efectivas retroactivas")
    elif pct_inmediato > 15:
        print("   1. Monitorear tendencia mensual de impacto inmediato")
        print("   2. Optimizar tiempos de respuesta a solicitudes")
        print("   3. Mantener provisiones para restituciones")
    else:
        print("   1. Mantener los procesos actuales")
        print("   2. Documentar buenas pr√°cticas")
        print("   3. Seguimiento mensual preventivo")
    
    print("\n" + "=" * 80)
    
else:
    print("‚ùå ERROR: Ejecuta primero la secci√≥n de KPIs")

## SECCI√ìN 8: AN√ÅLISIS DE TASA DE APROBACI√ìN

In [None]:
# ============================================================================
# SECCI√ìN 8: AN√ÅLISIS DE TASA DE APROBACI√ìN
# ============================================================================

if 'df_salidas_total' in locals():
    import plotly.graph_objects as go
    from plotly.subplots import make_subplots
    
    # Calcular m√©tricas de aprobaci√≥n
    total_solicitudes = len(df_salidas_total)
    total_aprobadas = len(df_salidas_total[df_salidas_total['respuesta'] == '1'])
    total_negadas = len(df_salidas_total[df_salidas_total['respuesta'] == '0'])
    sin_respuesta = len(df_salidas_total[df_salidas_total['respuesta'] == 'Sin respuesta'])
    
    tasa_aprobacion = (total_aprobadas / total_solicitudes * 100) if total_solicitudes > 0 else 0
    tasa_negacion = (total_negadas / total_solicitudes * 100) if total_solicitudes > 0 else 0
    
    # Calcular aprobaci√≥n por r√©gimen
    aprobacion_regimen = df_salidas_total.groupby(['regimen_origen', 'respuesta']).size().unstack(fill_value=0)
    total_por_regimen = aprobacion_regimen.sum(axis=1)
    
    # Crear figura con 2 gr√°ficos
    fig_aprobacion = make_subplots(
        rows=1, cols=2,
        specs=[[{'type': 'indicator'}, {'type': 'bar'}]],
        subplot_titles=('', 'Tasa de Aprobaci√≥n por R√©gimen'),
        horizontal_spacing=0.2,
        column_widths=[0.4, 0.6]
    )
    
    # 1. GAUGE - Tasa de aprobaci√≥n general (SIN delta)
    fig_aprobacion.add_trace(go.Indicator(
        mode = "gauge+number",
        value = tasa_aprobacion,
        title = {'text': f"<b>Tasa de Aprobaci√≥n General</b><br><span style='font-size:14px'>{total_aprobadas:,} de {total_solicitudes:,} solicitudes</span>", 
                 'font': {'size': 16}},
        number = {'suffix': '%', 'font': {'size': 50, 'color': '#2c3e50'}},
        gauge = {
            'axis': {'range': [None, 100], 'ticksuffix': '%', 'tickfont': {'size': 12}},
            'bar': {'color': "#2ecc71", 'thickness': 0.8},
            'bgcolor': "white",
            'borderwidth': 2,
            'bordercolor': "#bdc3c7",
            'steps': [
                {'range': [0, 30], 'color': "#ffebee"},
                {'range': [30, 60], 'color': "#fff3e0"},
                {'range': [60, 100], 'color': "#e8f5e9"}
            ],
            'threshold': {
                'line': {'color': "#2c3e50", 'width': 4},
                'thickness': 0.75,
                'value': tasa_aprobacion
            }
        }
    ), row=1, col=1)
    
    # 2. BARRAS - Comparaci√≥n por r√©gimen
    if '1' in aprobacion_regimen.columns:
        pct_aprobacion_regimen = (aprobacion_regimen['1'] / total_por_regimen * 100)
        
        colores = ['#e74c3c' if r == 'Subsidiado' else '#3498db' for r in pct_aprobacion_regimen.index]
        
        fig_aprobacion.add_trace(go.Bar(
            x=pct_aprobacion_regimen.index,
            y=pct_aprobacion_regimen.values,
            text=[f"<b>{pct:.1f}%</b><br>{int(aprobacion_regimen.loc[r, '1']):,}/{int(total_por_regimen[r]):,}" 
                  for r, pct in pct_aprobacion_regimen.items()],
            textposition='auto',
            marker_color=colores,
            showlegend=False,
            textfont={'size': 14, 'color': 'white'}
        ), row=1, col=2)
    
    # Layout general
    fig_aprobacion.update_layout(
        height=400,
        title_text=f"üìä An√°lisis de Tasa de Aprobaci√≥n - Enero 2026",
        title_font_size=22,
        title_x=0.5,
        title_xanchor='center',
        margin=dict(t=80, b=60, l=50, r=50),
        plot_bgcolor='white',
        paper_bgcolor='white'
    )
    
    # Configurar eje Y para barras
    fig_aprobacion.update_yaxes(
        title_text="% Aprobaci√≥n",
        range=[0, 100],
        gridcolor='#ecf0f1',
        row=1, col=2
    )
    
    fig_aprobacion.update_xaxes(
        title_text="R√©gimen de Origen",
        row=1, col=2
    )
    
    fig_aprobacion.show()
    
    # Resumen en texto
    print("\n" + "=" * 80)
    print("üìä RESUMEN DE APROBACI√ìN - ENERO 2026")
    print("=" * 80)
    
    print(f"\nüî¢ VOLUMEN:")
    print(f"   ‚Ä¢ Total de solicitudes recibidas: {total_solicitudes:,}")
    print(f"   ‚Ä¢ Solicitudes aprobadas: {total_aprobadas:,}")
    print(f"   ‚Ä¢ Solicitudes negadas: {total_negadas:,}")
    
    print(f"\n‚úÖ TASA DE APROBACI√ìN GENERAL: {tasa_aprobacion:.1f}%")
    
    if tasa_aprobacion >= 70:
        status = "üü¢ ALTA"
        mensaje = "Excelente desempe√±o en gesti√≥n de solicitudes"
    elif tasa_aprobacion >= 50:
        status = "üü° MEDIA"
        mensaje = "Revisar principales causales de negaci√≥n"
    else:
        status = "üî¥ BAJA"
        mensaje = "Requiere an√°lisis detallado y plan de acci√≥n"
    
    print(f"   {status} - {mensaje}")
    
    print(f"\nüìã POR R√âGIMEN:")
    for regimen in aprobacion_regimen.index:
        total_reg = total_por_regimen[regimen]
        aprobadas_reg = aprobacion_regimen.loc[regimen, '1'] if '1' in aprobacion_regimen.columns else 0
        pct_reg = (aprobadas_reg / total_reg * 100) if total_reg > 0 else 0
        print(f"   ‚Ä¢ {regimen}: {pct_reg:.1f}% ({int(aprobadas_reg):,} de {int(total_reg):,})")
    
    if total_negadas > 0:
        print(f"\n‚ùå TOP 3 CAUSALES DE NEGACI√ìN:")
        negados = df_salidas_total[df_salidas_total['respuesta'] == '0']
        top_causales = negados['causal'].value_counts().head(3)
        for idx, (causal, cantidad) in enumerate(top_causales.items(), 1):
            pct_causal = (cantidad / total_negadas * 100)
            print(f"   {idx}. Causal {causal}: {cantidad:,} ({pct_causal:.1f}%)")
    
    print("\n" + "=" * 80)
    
else:
    print("‚ùå ERROR: No se encuentra el dataframe df_salidas_total")

## SECCI√ìN 9: AN√ÅLISIS DE MIGRACI√ìN INTERNA EN CASANARE (DEPARTAMENTO 85)

In [None]:
# ============================================================================
# SECCI√ìN 9: AN√ÅLISIS DE MIGRACI√ìN INTERNA EN CASANARE (DEPARTAMENTO 85)
# ============================================================================

if 'df_aprobados' in locals():
    import plotly.graph_objects as go
    from plotly.subplots import make_subplots
    
    # Filtrar traslados dentro de Casanare (departamento 85)
    migracion_interna = df_aprobados[df_aprobados['departamento_destino'] == '85'].copy()
    
    total_migracion_interna = len(migracion_interna)
    pct_migracion_interna = (total_migracion_interna / len(df_aprobados) * 100) if len(df_aprobados) > 0 else 0
    
    print("=" * 80)
    print("üìå CONTEXTO: ¬øPOR QU√â ES CR√çTICA LA MIGRACI√ìN INTERNA?")
    print("=" * 80)
    print("\nLa migraci√≥n interna (dentro del departamento 85 - Casanare) es el indicador")
    print("M√ÅS PREOCUPANTE para CAPRESOCA porque revela problemas estructurales:\n")
    
    print("üî¥ IMPLICACIONES:")
    print("   ‚Üí El afiliado SE VA a otra EPS en el MISMO municipio donde CAPRESOCA opera")
    print("   ‚Üí Indica INSATISFACCI√ìN con los servicios de CAPRESOCA")
    print("   ‚Üí La competencia est√° ganando afiliados en NUESTRO territorio")
    print("   ‚Üí Posibles causas: mala atenci√≥n m√©dica, IPS deficientes, procesos lentos\n")
    
    print("üí° IMPORTANCIA ESTRAT√âGICA:")
    print("   ‚Ä¢ Refleja DIRECTAMENTE la calidad del servicio percibida")
    print("   ‚Ä¢ Permite identificar municipios con MAYOR insatisfacci√≥n")
    print("   ‚Ä¢ Requiere ACCI√ìN INMEDIATA para mejorar servicios")
    print("   ‚Ä¢ Es el tipo de p√©rdida M√ÅS EVITABLE")
    print("=" * 80 + "\n")
    
    if total_migracion_interna > 0:
        # An√°lisis por r√©gimen
        dist_regimen = migracion_interna['regimen_origen'].value_counts()
        
        # Top 10 municipios con m√°s migraci√≥n interna
        top_municipios = migracion_interna['municipio_destino'].value_counts().head(10)
        
        # Calcular porcentajes
        porcentajes_mun = (top_municipios / total_migracion_interna * 100).round(1)
        
        # Top EPS que reciben estos afiliados
        top_eps_casanare = migracion_interna['eps_destino_cod'].value_counts().head(5)
        
        # Crear figura con 2 subgr√°ficos
        fig_migracion = make_subplots(
            rows=1, cols=2,
            subplot_titles=(
                '<b>Top 10 Municipios de Casanare con Mayor Fuga</b>',
                '<b>EPS que Captan Nuestros Afiliados en Casanare</b>'
            ),
            horizontal_spacing=0.15,
            specs=[[{'type': 'bar'}, {'type': 'bar'}]]
        )
        
        # 1. BARRAS HORIZONTALES - Top municipios
        colores_municipios = ['#c0392b' if i < 3 else '#e74c3c' if i < 5 else '#ec7063' 
                              for i in range(len(top_municipios))]
        
        fig_migracion.add_trace(go.Bar(
            y=top_municipios.index,
            x=top_municipios.values,
            orientation='h',
            text=[f"<b>{cant}</b><br>({pct}%)" for cant, pct in zip(top_municipios.values, porcentajes_mun.values)],
            textposition='auto',
            marker_color=colores_municipios,
            marker_line_color='#641e16',
            marker_line_width=1.5,
            hovertemplate='<b>Municipio %{y}</b><br>' +
                          'Afiliados perdidos: %{x}<br>' +
                          '<extra></extra>',
            showlegend=False
        ), row=1, col=1)
        
        # 2. BARRAS VERTICALES - Top EPS competidoras
        colores_eps = ['#16a085' if i == 0 else '#1abc9c' if i < 3 else '#48c9b0' 
                       for i in range(len(top_eps_casanare))]
        
        fig_migracion.add_trace(go.Bar(
            x=top_eps_casanare.index,
            y=top_eps_casanare.values,
            text=top_eps_casanare.values,
            textposition='auto',
            marker_color=colores_eps,
            marker_line_color='#117a65',
            marker_line_width=1.5,
            hovertemplate='<b>EPS %{x}</b><br>' +
                          'Afiliados captados: %{y}<br>' +
                          '<extra></extra>',
            showlegend=False,
            textfont={'size': 14, 'color': 'white'}
        ), row=1, col=2)
        
        # Layout general
        fig_migracion.update_layout(
            title=dict(
                text=f"<b>üö® AN√ÅLISIS CR√çTICO: Migraci√≥n Interna en Casanare</b><br>" +
                     f"<sub>{total_migracion_interna:,} afiliados ({pct_migracion_interna:.1f}% del total) se fueron a otra EPS en el mismo departamento</sub>",
                font=dict(size=20),
                x=0.5,
                xanchor='center'
            ),
            height=500,
            plot_bgcolor='white',
            paper_bgcolor='white',
            margin=dict(t=120, b=80, l=50, r=50),
            showlegend=False
        )
        
        # Configurar ejes
        fig_migracion.update_xaxes(
            title_text="<b>Afiliados Perdidos</b>",
            gridcolor='#ecf0f1',
            row=1, col=1
        )
        
        fig_migracion.update_yaxes(
            title_text="<b>C√≥digo Municipio</b>",
            autorange='reversed',
            gridcolor='#ecf0f1',
            row=1, col=1
        )
        
        fig_migracion.update_xaxes(
            title_text="<b>C√≥digo EPS Receptora</b>",
            row=1, col=2
        )
        
        fig_migracion.update_yaxes(
            title_text="<b>Afiliados Captados</b>",
            gridcolor='#ecf0f1',
            row=1, col=2
        )
        
        fig_migracion.show()
        
        # Resumen detallado en texto
        print("\n" + "=" * 80)
        print("üìä RESUMEN DE MIGRACI√ìN INTERNA - CASANARE (DEPTO 85)")
        print("=" * 80)
        
        print(f"\nüî¢ MAGNITUD DEL PROBLEMA:")
        print(f"   ‚Ä¢ Total de afiliados perdidos en Casanare: {total_migracion_interna:,}")
        print(f"   ‚Ä¢ Representa el {pct_migracion_interna:.1f}% de todas las salidas")
        
        print(f"\nüìã DISTRIBUCI√ìN POR R√âGIMEN:")
        for regimen, cantidad in dist_regimen.items():
            pct_reg = (cantidad / total_migracion_interna * 100)
            print(f"   ‚Ä¢ {regimen}: {cantidad:,} afiliados ({pct_reg:.1f}%)")
        
        print(f"\nüèòÔ∏è TOP 5 MUNICIPIOS M√ÅS CR√çTICOS:")
        for idx, (municipio, cantidad) in enumerate(top_municipios.head(5).items(), 1):
            pct = (cantidad / total_migracion_interna * 100)
            nivel = "üî¥ CR√çTICO" if idx <= 2 else "üü† ALTO" if idx <= 3 else "üü° MODERADO"
            print(f"   {idx}. Municipio {municipio}: {cantidad:,} afiliados ({pct:.1f}%) - {nivel}")
        
        print(f"\nüè• TOP 3 EPS COMPETIDORAS EN CASANARE:")
        for idx, (eps, cantidad) in enumerate(top_eps_casanare.head(3).items(), 1):
            pct = (cantidad / total_migracion_interna * 100)
            print(f"   {idx}. EPS {eps}: {cantidad:,} afiliados captados ({pct:.1f}%)")
        
        # Comparaci√≥n con dispersi√≥n geogr√°fica
        dispersion_geografica = len(df_aprobados[df_aprobados['departamento_destino'] != '85'])
        
        print(f"\nüìä COMPARACI√ìN:")
        print(f"   ‚Ä¢ Migraci√≥n INTERNA (mismo depto): {total_migracion_interna:,} ({pct_migracion_interna:.1f}%)")
        print(f"   ‚Ä¢ Dispersi√≥n GEOGR√ÅFICA (otro depto): {dispersion_geografica:,} " +
              f"({(dispersion_geografica/len(df_aprobados)*100):.1f}%)")
        
        print(f"\nüí° INTERPRETACI√ìN:")
        if pct_migracion_interna > 50:
            print("   üî¥ CR√çTICO: M√°s del 50% de las salidas son EVITABLES")
            print("   ‚Üí Indica GRAVES problemas de calidad del servicio")
            print("   ‚Üí Requiere INTERVENCI√ìN INMEDIATA de la alta direcci√≥n")
        elif pct_migracion_interna > 30:
            print("   üü† ALTO: Un porcentaje significativo de salidas es por insatisfacci√≥n")
            print("   ‚Üí Revisar calidad de atenci√≥n en municipios cr√≠ticos")
            print("   ‚Üí Implementar plan de mejora urgente")
        else:
            print("   üü¢ CONTROLADO: La mayor√≠a de salidas son por dispersi√≥n geogr√°fica")
            print("   ‚Üí Mantener est√°ndares de calidad")
            print("   ‚Üí Seguimiento preventivo en municipios identificados")
        
        print(f"\nüéØ RECOMENDACIONES PRIORITARIAS:")
        print("   1. AUDITAR servicios en los 3 municipios m√°s cr√≠ticos")
        print("   2. ENTREVISTAR afiliados que se trasladaron (encuestas de salida)")
        print("   3. EVALUAR desempe√±o de IPS contratadas en esos municipios")
        print("   4. COMPARAR tiempos de respuesta vs. competencia")
        print("   5. IMPLEMENTAR plan de retenci√≥n focalizado")
        print("   6. MEJORAR canales de comunicaci√≥n y quejas")
        
        # An√°lisis de tipo de migraci√≥n interna
        if 'tipo_migracion' in migracion_interna.columns:
            print(f"\nüîÄ TIPO DE MIGRACI√ìN INTERNA:")
            tipo_mig_int = migracion_interna['tipo_migracion'].value_counts()
            for tipo, cant in tipo_mig_int.items():
                pct_tipo = (cant / total_migracion_interna * 100)
                print(f"   ‚Ä¢ {tipo}: {cant:,} ({pct_tipo:.1f}%)")
        
        print("\n" + "=" * 80)
        
    else:
        print("\n‚úÖ EXCELENTE: No hay migraci√≥n interna detectada en Casanare")
        print("Todas las salidas son hacia otros departamentos (dispersi√≥n geogr√°fica)")
        
else:
    print("‚ùå ERROR: Ejecuta primero la secci√≥n de KPIs")

## SECCI√ìN 10: RESUMEN EJECUTIVO COMPLETO

In [None]:
# ============================================================================
# SECCI√ìN 10: RESUMEN EJECUTIVO COMPLETO
# ============================================================================

if 'df_salidas_total' in locals() and 'df_aprobados' in locals():
    print("\n" + "=" * 80)
    print("RESUMEN EJECUTIVO - TRASLADOS DE SALIDA ENERO 2026")
    print("=" * 80)
    
    # 1. RESUMEN GENERAL
    print("\nüìä 1. RESUMEN GENERAL DE SOLICITUDES")
    print("-" * 80)
    print(f"Total de solicitudes procesadas: {total_solicitudes:,}")
    print(f"Solicitudes aprobadas: {total_aprobadas:,}")
    print(f"Solicitudes negadas: {total_negadas:,}")
    if sin_respuesta > 0:
        print(f"Solicitudes sin respuesta: {sin_respuesta:,}")
    print(f"\n‚úÖ TASA DE APROBACI√ìN GENERAL: {tasa_aprobacion:.1f}%")
    
    # 2. AN√ÅLISIS POR R√âGIMEN
    print("\n" + "-" * 80)
    print("üìã 2. AN√ÅLISIS POR R√âGIMEN DE ORIGEN")
    print("-" * 80)
    print(f"Desde Subsidiado: {salidas_subs:,} ({pct_subs:.1f}%)")
    print(f"Desde Contributivo: {salidas_cont:,} ({pct_cont:.1f}%)")
    
    print(f"\n   Tasa de aprobaci√≥n por r√©gimen:")
    for regimen in aprobacion_regimen.index:
        total_reg = total_por_regimen[regimen]
        aprobadas_reg = aprobacion_regimen.loc[regimen, '1'] if '1' in aprobacion_regimen.columns else 0
        pct_reg = (aprobadas_reg / total_reg * 100) if total_reg > 0 else 0
        print(f"   {regimen}: {pct_reg:.1f}%")
    
    # 3. DESTINO DE LAS SALIDAS
    print("\n" + "-" * 80)
    print("üè• 3. DESTINO DE LAS SALIDAS APROBADAS")
    print("-" * 80)
    destino_dist = df_aprobados['eps_destino_tipo'].value_counts()
    for tipo, cant in destino_dist.items():
        print(f"{tipo}: {cant:,} ({cant/total_salidas*100:.1f}%)")
    
    # 4. CATEGORIZACI√ìN
    print("\n" + "-" * 80)
    print("üìç 4. CATEGORIZACI√ìN DE SALIDAS")
    print("-" * 80)
    print(f"Dispersi√≥n geogr√°fica: {dispersion:,} ({pct_dispersion:.1f}%)")
    print(f"Solicitud formal: {solicitud_formal:,} ({pct_formal:.1f}%)")
    
    # 5. TIPO DE MIGRACI√ìN
    print("\n" + "-" * 80)
    print("üîÄ 5. TIPO DE MIGRACI√ìN")
    print("-" * 80)
    tipo_dist = df_aprobados['tipo_migracion'].value_counts()
    for tipo, cant in tipo_dist.items():
        print(f"{tipo}: {cant:,} ({cant/total_salidas*100:.1f}%)")
    
    # 6. IMPACTO FINANCIERO
    print("\n" + "-" * 80)
    print("üí∞ 6. IMPACTO FINANCIERO")
    print("-" * 80)
    print(f"‚ö†Ô∏è Impacto Inmediato (Restituci√≥n UPC): {impacto_inmediato:,} ({pct_inmediato:.1f}%)")
    print(f"‚úÖ Impacto Diferido (Mantiene UPC): {impacto_diferido:,} ({pct_diferido:.1f}%)")
    
    # 7. MIGRACI√ìN INTERNA EN CASANARE (NUEVO - M√ÅS CR√çTICO)
    print("\n" + "-" * 80)
    print("üö® 7. MIGRACI√ìN INTERNA EN CASANARE (DEPARTAMENTO 85)")
    print("-" * 80)
    migracion_interna_total = len(df_aprobados[df_aprobados['departamento_destino'] == '85'])
    pct_interna = (migracion_interna_total / total_salidas * 100) if total_salidas > 0 else 0
    
    print(f"Afiliados que se fueron a otra EPS en Casanare: {migracion_interna_total:,} ({pct_interna:.1f}%)")
    
    if migracion_interna_total > 0:
        casanare_data = df_aprobados[df_aprobados['departamento_destino'] == '85']
        top_3_mun_casanare = casanare_data['municipio_destino'].value_counts().head(3)
        
        print(f"\nTop 3 municipios cr√≠ticos:")
        for idx, (mun, cant) in enumerate(top_3_mun_casanare.items(), 1):
            print(f"   {idx}. Municipio {mun}: {cant:,} afiliados")
        
        if pct_interna > 30:
            print(f"\n   üî¥ ALERTA CR√çTICA: {pct_interna:.1f}% de p√©rdidas son EVITABLES")
            print("   ‚Üí Indica problemas graves de calidad en el servicio")
    
    # 8. TOP EPS DESTINO
    print("\n" + "-" * 80)
    print("üîù 8. TOP 5 EPS QUE M√ÅS AFILIADOS RECIBEN")
    print("-" * 80)
    top_5_eps = df_aprobados['eps_destino_cod'].value_counts().head(5)
    for idx, (eps, cantidad) in enumerate(top_5_eps.items(), 1):
        print(f"{idx}. EPS {eps}: {cantidad:,} afiliados ({cantidad/total_aprobadas*100:.1f}%)")
    
    # 9. TOP DEPARTAMENTOS DESTINO
    print("\n" + "-" * 80)
    print("üìç 9. TOP 5 DEPARTAMENTOS DESTINO")
    print("-" * 80)
    top_5_deptos = df_aprobados['departamento_destino'].value_counts().head(5)
    for idx, (depto, cantidad) in enumerate(top_5_deptos.items(), 1):
        print(f"{idx}. Departamento {depto}: {cantidad:,} afiliados ({cantidad/total_aprobadas*100:.1f}%)")
    
    # 10. CAUSALES DE NEGACI√ìN
    if total_negadas > 0:
        print("\n" + "-" * 80)
        print("‚ùå 10. PRINCIPALES CAUSALES DE NEGACI√ìN")
        print("-" * 80)
        negados = df_salidas_total[df_salidas_total['respuesta'] == '0']
        top_5_causales = negados['causal'].value_counts().head(5)
        for idx, (causal, cantidad) in enumerate(top_5_causales.items(), 1):
            print(f"{idx}. Causal {causal}: {cantidad:,} ({cantidad/total_negadas*100:.1f}%)")
    
    # 11. CONCLUSIONES Y RECOMENDACIONES
    print("\n" + "=" * 80)
    print("üí° 11. CONCLUSIONES Y RECOMENDACIONES")
    print("=" * 80)
    
    print(f"\n‚úì La tasa de aprobaci√≥n general es de {tasa_aprobacion:.1f}%")
    
    if tasa_aprobacion >= 70:
        print("  ‚Üí Tasa de aprobaci√≥n ALTA - buen indicador de gesti√≥n")
    elif tasa_aprobacion >= 50:
        print("  ‚Üí Tasa de aprobaci√≥n MEDIA - revisar causales de negaci√≥n")
    else:
        print("  ‚Üí Tasa de aprobaci√≥n BAJA - requiere an√°lisis detallado")
    
    print(f"\n‚úì El {pct_inmediato:.1f}% de las salidas tienen impacto financiero inmediato")
    if pct_inmediato > 50:
        print("  ‚ö†Ô∏è ALERTA: M√°s del 50% requiere restituci√≥n de UPC")
        print("  ‚Üí Revisar tiempos de procesamiento y fechas efectivas")
    
    # NUEVA CONCLUSI√ìN CR√çTICA SOBRE MIGRACI√ìN INTERNA
    print(f"\n‚úì El {pct_interna:.1f}% son por migraci√≥n INTERNA en Casanare")
    if pct_interna > 30:
        print("  üî¥ CR√çTICO: P√©rdida de afiliados en territorio propio")
        print("  ‚Üí PRIORIDAD M√ÅXIMA: Auditar calidad de servicio en municipios cr√≠ticos")
        print("  ‚Üí Implementar encuestas de satisfacci√≥n y plan de retenci√≥n")
    elif pct_interna > 15:
        print("  üü† ATENCI√ìN: Nivel significativo de insatisfacci√≥n local")
        print("  ‚Üí Revisar desempe√±o de IPS en municipios identificados")
    else:
        print("  üü¢ CONTROLADO: Mayor√≠a de salidas por dispersi√≥n geogr√°fica")
    
    print(f"\n‚úì El {pct_dispersion:.1f}% son por dispersi√≥n geogr√°fica (otros departamentos)")
    if pct_dispersion > 50:
        print("  ‚Üí Situaci√≥n NORMAL - p√©rdidas esperadas por movilidad")
    
    regimen_mayor = salidas_subs if salidas_subs > salidas_cont else salidas_cont
    regimen_nombre = "Subsidiado" if salidas_subs > salidas_cont else "Contributivo"
    pct_mayor = (regimen_mayor / total_aprobadas * 100)
    
    print(f"\n‚úì El {pct_mayor:.1f}% de las salidas provienen del r√©gimen {regimen_nombre}")
    print(f"  ‚Üí Focalizar estrategias de retenci√≥n en este r√©gimen")
    
    # RECOMENDACI√ìN FINAL PRIORIZADA
    print("\n" + "=" * 80)
    print("üéØ ACCIONES PRIORITARIAS RECOMENDADAS")
    print("=" * 80)
    
    if pct_interna > 30:
        print("\n1. üî¥ URGENTE - MIGRACI√ìN INTERNA:")
        print("   ‚Ä¢ Auditar servicios en municipios cr√≠ticos de Casanare")
        print("   ‚Ä¢ Encuestas de satisfacci√≥n a afiliados")
        print("   ‚Ä¢ Plan de mejora inmediato en calidad de atenci√≥n")
    
    if pct_inmediato > 30:
        print("\n2. üü† IMPORTANTE - IMPACTO FINANCIERO:")
        print("   ‚Ä¢ Optimizar tiempos de respuesta a solicitudes")
        print("   ‚Ä¢ Provisionar recursos para restituciones UPC")
    
    print("\n3. üü° SEGUIMIENTO - MONITOREO CONTINUO:")
    print("   ‚Ä¢ An√°lisis mensual de tendencias")
    print("   ‚Ä¢ Benchmark con competencia local")
    
    print("\n" + "=" * 80)
    print(f"Fecha del informe: Enero 2026")
    print(f"Total de afiliados que salieron: {total_aprobadas:,}")
    print(f"Afiliados perdidos en Casanare (evitables): {migracion_interna_total:,}")
    print("=" * 80)
    
else:
    print("‚ùå ERROR: Ejecuta primero las secciones anteriores")

# Duardar dataframe

In [None]:
# ============================================================================
# EXPORTAR RESULTADOS A EXCEL
# ============================================================================

if 'df_salidas_total' in locals():
    import pandas as pd
    from datetime import datetime
    
    # Generar nombre de archivo con fecha
    fecha_actual = datetime.now().strftime("%Y%m%d")
    nombre_archivo = f"Traslados_Salida_{fecha_actual}.xlsx"
    ruta_salida = os.path.join(R_raiz, nombre_archivo)
    
    print("=" * 80)
    print("üìä EXPORTANDO RESULTADOS A EXCEL")
    print("=" * 80)
    
    try:
        # Crear writer de Excel con m√∫ltiples hojas
        with pd.ExcelWriter(ruta_salida, engine='openpyxl') as writer:
            
            # 1. HOJA PRINCIPAL - Todos los datos
            df_salidas_total.to_excel(
                writer, 
                sheet_name='Datos Completos',
                index=False
            )
            
            # 2. HOJA - Solo aprobados
            df_aprobados.to_excel(
                writer,
                sheet_name='Aprobados',
                index=False
            )
            
            # 3. HOJA - Resumen ejecutivo
            resumen_data = {
                'Indicador': [
                    'Total Solicitudes',
                    'Total Aprobadas',
                    'Total Negadas',
                    'Tasa de Aprobaci√≥n (%)',
                    'Desde Subsidiado',
                    'Desde Contributivo',
                    'Dispersi√≥n Geogr√°fica',
                    'Solicitud Formal',
                    'Impacto Inmediato',
                    'Impacto Diferido',
                    'Migraci√≥n Interna (Casanare)'
                ],
                'Valor': [
                    total_solicitudes,
                    total_aprobadas,
                    total_negadas,
                    round(tasa_aprobacion, 1),
                    salidas_subs,
                    salidas_cont,
                    dispersion,
                    solicitud_formal,
                    impacto_inmediato,
                    impacto_diferido,
                    len(df_aprobados[df_aprobados['departamento_destino'] == '85'])
                ]
            }
            
            df_resumen = pd.DataFrame(resumen_data)
            df_resumen.to_excel(
                writer,
                sheet_name='Resumen',
                index=False
            )
            
            # 4. HOJA - Top Municipios Cr√≠ticos
            if len(df_aprobados[df_aprobados['departamento_destino'] == '85']) > 0:
                migracion_interna = df_aprobados[df_aprobados['departamento_destino'] == '85']
                top_municipios = migracion_interna['municipio_destino'].value_counts().head(10).reset_index()
                top_municipios.columns = ['Municipio', 'Cantidad']
                top_municipios.to_excel(
                    writer,
                    sheet_name='Municipios Cr√≠ticos',
                    index=False
                )
            
            # 5. HOJA - Top EPS Destino
            top_eps = df_aprobados['eps_destino_cod'].value_counts().head(15).reset_index()
            top_eps.columns = ['EPS', 'Cantidad']
            top_eps.to_excel(
                writer,
                sheet_name='Top EPS Destino',
                index=False
            )
            
            # 6. HOJA - Causales de Negaci√≥n
            if total_negadas > 0:
                negados = df_salidas_total[df_salidas_total['respuesta'] == '0']
                causales = negados['causal'].value_counts().reset_index()
                causales.columns = ['Causal', 'Cantidad']
                causales.to_excel(
                    writer,
                    sheet_name='Causales Negaci√≥n',
                    index=False
                )
        
        print(f"\n‚úÖ Archivo guardado exitosamente:")
        print(f"   üìÇ Ubicaci√≥n: {ruta_salida}")
        print(f"   üìÑ Nombre: {nombre_archivo}")
        print(f"\nüìã Hojas creadas:")
        print(f"   1. Datos Completos ({len(df_salidas_total):,} registros)")
        print(f"   2. Aprobados ({len(df_aprobados):,} registros)")
        print(f"   3. Resumen (11 indicadores)")
        print(f"   4. Municipios Cr√≠ticos (Top 10)")
        print(f"   5. Top EPS Destino (Top 15)")
        print(f"   6. Causales Negaci√≥n ({total_negadas:,} registros)")
        
        print("\n" + "=" * 80)
        
    except Exception as e:
        print(f"‚ùå ERROR al guardar archivo: {e}")
        print(f"\nVerifica que:")
        print(f"  ‚Ä¢ La ruta existe: {R_raiz}")
        print(f"  ‚Ä¢ Tienes permisos de escritura")
        print(f"  ‚Ä¢ El archivo no est√° abierto en Excel")
        
else:
    print("‚ùå ERROR: No se encuentra el dataframe df_salidas_total")
    print("Ejecuta primero las secciones anteriores del an√°lisis")