# Modulos

In [None]:
import os
from datetime import datetime, timedelta
import openpyxl
from openpyxl.styles import Font, PatternFill, Alignment
import seaborn as sns
from pathlib import Path
import pandas as pd
import numpy as np

# Módulo para trabajar con archivos de texto

# Módulo para trabajar con fechas y tiempos

# Módulo para leer y escribir archivos Excel

# Módulo para crear gráficas
import matplotlib.pyplot as plt

# Módulo para trabajar con rutas del sistema de forma multiplataforma

# Módulo para crear reportes en Excel con más funcionalidades

# Módulo adicional para manipular datos tabulares

# Rutas y varaibles

In [None]:
R_S4 = r"C:\Users\crist\OneDrive - 891856000_CAPRESOCA E P S\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\Procesos BDUA EPS\S4\S4_consolidado_total.txt"
R_R4 = r"C:\Users\crist\OneDrive - 891856000_CAPRESOCA E P S\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\Procesos BDUA EPS\R4\R4_consolidado_total.txt"
R_NS = r"C:\Users\crist\OneDrive - 891856000_CAPRESOCA E P S\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\Procesos BDUA EPS\NS\NS validado\all-NS-VAL.txt"

R_SAT = r"C:\Users\crist\OneDrive - 891856000_CAPRESOCA E P S\Capresoca\AlmostClear\SAT\SUBSIDIADO\Consolidado_Sat_EP025.txt"


In [None]:
# Cargar el archivo R_SAT en un dataframe
df_traslados_SAT = pd.read_csv(R_SAT, sep='|', dtype=str, encoding='ANSI')

print(f"Total de registros en SAT: {len(df_traslados_SAT)}")
print(f"\nPrimeras filas del dataframe:")
print(f"\nColumnas disponibles:")
print(df_traslados_SAT.columns.tolist())

In [None]:
# Cargar el archivo R_R4 en un dataframe
df_traslados_R4 = pd.read_csv(R_R4, sep=',', dtype=str, encoding='utf-8')

print(f"Total de registros en R4: {len(df_traslados_R4)}")
print(f"\nPrimeras filas del dataframe:")
print(f"\nColumnas disponibles:")
print(df_traslados_R4.columns.tolist())

In [None]:
# Cargar el archivo R_S4 en un dataframe
df_traslados_S4 = pd.read_csv(R_S4, sep=',', dtype=str, encoding='utf-8')

print(f"Total de registros en S4: {len(df_traslados_S4)}")
print(f"\nPrimeras filas del dataframe:")
print(f"\nColumnas disponibles:")
print(df_traslados_S4.columns.tolist())

In [None]:
# Cargar el archivo R_NS en un dataframe
df_ns_BDUA = pd.read_csv(R_NS, sep=',', dtype=str, encoding='latin-1')

print(f"Total de registros en NS BDUA: {len(df_ns_BDUA)}")
print(f"\nPrimeras filas del dataframe:")
print(f"\nColumnas disponibles:")
print(df_ns_BDUA.columns.tolist())

## df resultadosEspeciales

In [None]:
# Ruta base donde están los archivos .VAL
ruta_val = r"C:\Users\crist\OneDrive - 891856000_CAPRESOCA E P S\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\RESULTADOS ESPECIALES\VAL"

# Lista para almacenar todos los dataframes
lista_dfs = []

# Recorrer la carpeta y subcarpetas buscando archivos .VAL
for archivo in Path(ruta_val).rglob("*.VAL"):
    # Leer el archivo como texto separado por comas, todo como string
    df_temp = pd.read_csv(archivo, sep=',', dtype=str, encoding='latin-1', header=None)
    
    # Obtener el nombre del archivo sin extensión
    nombre_archivo = archivo.stem
    
    # Extraer la fecha de los últimos 8 dígitos del nombre del archivo
    fecha_str = nombre_archivo[-8:]  # Últimos 8 caracteres: ddmmyyyy
    # Convertir a formato dd/mm/yyyy
    fecha_formateada = f"{fecha_str[0:2]}/{fecha_str[2:4]}/{fecha_str[4:8]}"
    
    # Agregar columna con el nombre del archivo
    df_temp['nombre_archivo'] = nombre_archivo
    
    # Agregar columna con la fecha
    df_temp['fecha_archivo'] = fecha_formateada
    
    # Agregar a la lista
    lista_dfs.append(df_temp)

# Consolidar todos los dataframes en uno solo
df_resultadosEspeciales = pd.concat(lista_dfs, ignore_index=True)

print(f"Total de archivos cargados: {len(lista_dfs)}")
print(f"Total de registros: {len(df_resultadosEspeciales)}")
print(f"\nPrimeras filas del dataframe consolidado:")

## df novedades municipios

In [None]:
# Rutas base donde están los archivos .VAL de novedades municipios
rutas_ns_municipios = [
    r"C:\Users\crist\OneDrive - 891856000_CAPRESOCA E P S\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\Novedades municipios\2025",
    r"C:\Users\crist\OneDrive - 891856000_CAPRESOCA E P S\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\Novedades municipios\2026"
]

# Lista para almacenar todos los dataframes
lista_dfs_municipios = []

# Recorrer ambas carpetas y subcarpetas buscando archivos .VAL
for ruta in rutas_ns_municipios:
    for archivo in Path(ruta).rglob("*.VAL"):
        # Leer el archivo como texto separado por comas, todo como string
        df_temp = pd.read_csv(archivo, sep=',', dtype=str, encoding='latin-1', header=None)
        
        # Obtener el nombre del archivo sin extensión
        nombre_archivo = archivo.stem
        
        # Extraer la fecha de los últimos 8 dígitos del nombre del archivo
        fecha_str = nombre_archivo[-8:]  # Últimos 8 caracteres: ddmmyyyy
        # Convertir a formato dd/mm/yyyy
        fecha_formateada = f"{fecha_str[0:2]}/{fecha_str[2:4]}/{fecha_str[4:8]}"
        
        # Agregar columna con el nombre del archivo
        df_temp['nombre_archivo'] = nombre_archivo
        
        # Agregar columna con la fecha
        df_temp['fecha_archivo'] = fecha_formateada
        
        # Agregar a la lista
        lista_dfs_municipios.append(df_temp)

# Consolidar todos los dataframes en uno solo
df_ns_municipios = pd.concat(lista_dfs_municipios, ignore_index=True)

print(f"Total de archivos cargados: {len(lista_dfs_municipios)}")
print(f"Total de registros: {len(df_ns_municipios)}")
print(f"\nPrimeras filas del dataframe consolidado:")
print(df_ns_municipios.head())

# Depurar Resultados Especiales 

In [None]:
# Obtener la cantidad de registros antes del filtro
registros_antes = len(df_resultadosEspeciales)

# Filtrar solo los registros donde la columna 11 es "N09"
df_resultadosEspeciales = df_resultadosEspeciales[df_resultadosEspeciales[11] == "N09"]

# Obtener la cantidad de registros después del filtro
registros_despues = len(df_resultadosEspeciales)

# Imprimir resultados
print(f"Registros antes del filtro: {registros_antes}")
print(f"Registros después del filtro: {registros_despues}")
print(f"Registros eliminados: {registros_antes - registros_despues}")

In [None]:
# Obtener las categorías y cantidad de registros de la columna 11
print(df_resultadosEspeciales[11].value_counts())
print(f"\nTotal de categorías: {df_resultadosEspeciales[11].nunique()}")

# Depurar novedades municipios 

In [None]:
# Obtener la cantidad de registros antes del filtro
registros_antes = len(df_ns_municipios)

# Filtrar solo los registros donde la columna 11 es "N09" o "N13"
df_ns_municipios = df_ns_municipios[df_ns_municipios[11].isin(["N09", "N13"])]

# Obtener la cantidad de registros después del filtro
registros_despues = len(df_ns_municipios)

# Imprimir resultados
print(f"Registros antes del filtro: {registros_antes}")
print(f"Registros después del filtro: {registros_despues}")
print(f"Registros eliminados: {registros_antes - registros_despues}")
print(f"\nDistribución de novedades:")
print(df_ns_municipios[11].value_counts())

In [None]:
# Obtener las categorías y cantidad de registros de la columna 11
print(df_ns_municipios[11].value_counts())
print(f"\nTotal de categorías: {df_ns_municipios[11].nunique()}")

# Depurar NS proceso BDUA

In [None]:
# Obtener la cantidad de registros antes del filtro
registros_antes = len(df_ns_BDUA)

# Paso 1: Filtrar por novedades N09 y N14
df_ns_BDUA = df_ns_BDUA[df_ns_BDUA['NOVEDAD'].isin(['N09', 'N14'])]

# Paso 2: Convertir Fecha_Proceso a datetime y filtrar por años 2025 y 2026
df_ns_BDUA['fecha_dt'] = pd.to_datetime(df_ns_BDUA['Fecha_Proceso'], format='%d/%m/%Y')
df_ns_BDUA['año'] = df_ns_BDUA['fecha_dt'].dt.year
df_ns_BDUA = df_ns_BDUA[df_ns_BDUA['año'].isin([2025, 2026])]

# Obtener la cantidad de registros después del filtro
registros_despues = len(df_ns_BDUA)

# Imprimir resultados
print(f"========== FILTRADO DE df_ns_BDUA ==========")
print(f"\nRegistros antes del filtro: {registros_antes:,}")
print(f"Registros después del filtro: {registros_despues:,}")
print(f"Registros eliminados: {(registros_antes - registros_despues):,}")
print(f"\n{'='*45}")

print(f"\nDistribución por NOVEDAD:")
print(df_ns_BDUA['NOVEDAD'].value_counts())
print(f"\nTotal de categorías de novedad: {df_ns_BDUA['NOVEDAD'].nunique()}")

print(f"\nDistribución por AÑO:")
print(df_ns_BDUA['año'].value_counts().sort_index())

print(f"\nDistribución cruzada (NOVEDAD x AÑO):")
print(pd.crosstab(df_ns_BDUA['NOVEDAD'], df_ns_BDUA['año'], margins=True, margins_name='TOTAL'))

In [None]:
# Obtener las categorías y cantidad de registros de la columna 'NOVEDAD'
print(df_ns_BDUA['NOVEDAD'].value_counts())
print(f"\nTotal de categorías: {df_ns_BDUA['NOVEDAD'].nunique()}")

# Depurar S4 proceso BDUA Traslados de salida

In [None]:
# Obtener la cantidad de registros antes del filtro
registros_antes = len(df_traslados_S4)

# Convertir Fecha_Proceso a datetime y filtrar por años 2025 y 2026
df_traslados_S4['fecha_dt'] = pd.to_datetime(df_traslados_S4['FECHA_PROCESO'], format='%d/%m/%Y')
df_traslados_S4['año'] = df_traslados_S4['fecha_dt'].dt.year
df_traslados_S4 = df_traslados_S4[df_traslados_S4['año'].isin([2025, 2026])]

# Obtener la cantidad de registros después del filtro
registros_despues = len(df_traslados_S4)

# Imprimir resultados
print(f"========== FILTRADO DE df_traslados_S4 ==========")
print(f"\nRegistros antes del filtro: {registros_antes:,}")
print(f"Registros después del filtro: {registros_despues:,}")
print(f"Registros eliminados: {(registros_antes - registros_despues):,}")
print(f"\n{'='*45}")

print(f"\nDistribución por AÑO:")
print(df_traslados_S4['año'].value_counts().sort_index())

In [None]:
# Obtener la cantidad de registros antes del filtro
registros_antes = len(df_traslados_S4)

# Paso 1: Filtrar solo los registros donde RESPUESTA es "1"
df_traslados_S4 = df_traslados_S4[df_traslados_S4['RESPUESTA'] == '1']

registros_despues_respuesta = len(df_traslados_S4)

# Paso 2: Eliminar duplicados por TPS_IDN_ID y HST_IDN_NUMERO_IDENTIFICACION
# Mantener el primer registro de cada usuario
df_traslados_S4 = df_traslados_S4.drop_duplicates(
    subset=['TPS_IDN_ID', 'HST_IDN_NUMERO_IDENTIFICACION'], 
    keep='first'
)

registros_despues_duplicados = len(df_traslados_S4)

# Imprimir resultados
print(f"========== FILTRADO DE df_traslados_S4 ==========")
print(f"\nRegistros antes del filtro: {registros_antes:,}")
print(f"Registros después de filtrar RESPUESTA='1': {registros_despues_respuesta:,}")
print(f"Registros eliminados por RESPUESTA: {(registros_antes - registros_despues_respuesta):,}")
print(f"\nRegistros después de eliminar duplicados: {registros_despues_duplicados:,}")
print(f"Registros eliminados por duplicados: {(registros_despues_respuesta - registros_despues_duplicados):,}")
print(f"\n{'='*50}")
print(f"REGISTROS FINALES: {registros_despues_duplicados:,}")
print(f"REGISTROS ELIMINADOS EN TOTAL: {(registros_antes - registros_despues_duplicados):,}")
print(f"{'='*50}")

# Depurar R4 proceso BDUA Traslados de salida

In [None]:
df_traslados_R4
# Obtener la cantidad de registros antes del filtro
registros_antes = len(df_traslados_R4)

# Convertir Fecha_Proceso a datetime y filtrar por años 2025 y 2026
df_traslados_R4['fecha_dt'] = pd.to_datetime(df_traslados_R4['FECHA_PROCESO'], format='%d/%m/%Y')
df_traslados_R4['año'] = df_traslados_R4['fecha_dt'].dt.year
df_traslados_R4 = df_traslados_R4[df_traslados_R4['año'].isin([2025, 2026])]

# Obtener la cantidad de registros después del filtro
registros_despues = len(df_traslados_R4)

# Imprimir resultados
print(f"========== FILTRADO DE df_traslados_R4 ==========")
print(f"\nRegistros antes del filtro: {registros_antes:,}")
print(f"Registros después del filtro: {registros_despues:,}")
print(f"Registros eliminados: {(registros_antes - registros_despues):,}")
print(f"\n{'='*45}")

print(f"\nDistribución por AÑO:")
print(df_traslados_R4['año'].value_counts().sort_index())

In [None]:
# Obtener la cantidad de registros antes del proceso
registros_antes = len(df_traslados_R4)

# Paso 1: Modificar RESPUESTA y CAUSAL_RESPUESTA donde GLOSA no es vacío, null o 0
df_traslados_R4.loc[
    (df_traslados_R4['GLOSA'].notna()) & (df_traslados_R4['GLOSA'] != '0') & (df_traslados_R4['GLOSA'] != ''),
    ['RESPUESTA', 'CAUSAL_RESPUESTA']
] = '1'

# Paso 2: Filtrar solo los registros donde RESPUESTA es "1"
df_traslados_R4 = df_traslados_R4[df_traslados_R4['RESPUESTA'] == '1']

# Obtener la cantidad de registros después del filtro
registros_despues = len(df_traslados_R4)

# Imprimir resultados
print(f"========== PROCESAMIENTO DE df_traslados_R4 ==========")
print(f"\nRegistros antes del proceso: {registros_antes:,}")
print(f"Registros después del filtro (RESPUESTA='1'): {registros_despues:,}")
print(f"Registros eliminados: {(registros_antes - registros_despues):,}")
print(f"\n{'='*50}")
print(f"REGISTROS FINALES: {registros_despues:,}")
print(f"{'='*50}")

In [None]:
# Validar duplicados en df_traslados_R4 por ID con ventanas móviles de 2 meses

print(f"{'='*70}")
print(f"VALIDACIÓN DE DUPLICADOS CON VENTANAS MÓVILES DE 2 MESES")
print(f"{'='*70}\n")

registros_antes = len(df_traslados_R4)
print(f"Registros ANTES de eliminar duplicados: {registros_antes:,}\n")

# Ordenar por ID y fecha
df_traslados_R4 = df_traslados_R4.sort_values(['TPS_IDN_ID', 'HST_IDN_NUMERO_IDENTIFICACION', 'fecha_dt']).reset_index(drop=True)

# Lista para marcar registros a eliminar
indices_a_eliminar = []

# Agrupar por ID
for (tps_id, hst_id), grupo in df_traslados_R4.groupby(['TPS_IDN_ID', 'HST_IDN_NUMERO_IDENTIFICACION']):
    if len(grupo) > 1:
        # Ordenar por fecha
        grupo_ordenado = grupo.sort_values('fecha_dt')
        
        # Guardar el primer registro
        fecha_anterior = grupo_ordenado.iloc[0]['fecha_dt']
        indices_validos = [grupo_ordenado.index[0]]
        
        # Revisar los demás registros
        for idx in grupo_ordenado.index[1:]:
            fecha_actual = df_traslados_R4.loc[idx, 'fecha_dt']
            
            # Calcular diferencia en días
            diferencia_dias = (fecha_actual - fecha_anterior).days
            
            # Si la diferencia es menor a 60 días (2 meses aprox), marcar para eliminar
            if diferencia_dias < 60:
                indices_a_eliminar.append(idx)
            else:
                # Si pasan más de 60 días, actualizar fecha de referencia
                fecha_anterior = fecha_actual
                indices_validos.append(idx)

# Eliminar los registros duplicados
df_traslados_R4_limpio = df_traslados_R4.drop(indices_a_eliminar).reset_index(drop=True)

registros_despues = len(df_traslados_R4_limpio)
registros_eliminados = len(indices_a_eliminar)

print(f"Registros DESPUÉS de eliminar duplicados: {registros_despues:,}")
print(f"Registros ELIMINADOS: {registros_eliminados:,}\n")
print(f"{'='*70}\n")

# Validación: Contar duplicados restantes
duplicados_por_id = df_traslados_R4_limpio.groupby(['TPS_IDN_ID', 'HST_IDN_NUMERO_IDENTIFICACION']).size()
duplicados_por_id = duplicados_por_id[duplicados_por_id > 1].sort_values(ascending=False)

print(f"{'='*70}")
print(f"VALIDACIÓN POST-LIMPIEZA")
print(f"{'='*70}\n")
print(f"Total de IDs que aún aparecen más de 1 vez: {len(duplicados_por_id)}\n")

if len(duplicados_por_id) > 0:
    print("Top 10 IDs con más registros:")
    print(duplicados_por_id.head(10))
    print(f"\n{'='*70}\n")
    
    # Mostrar ejemplo de un ID que quedó con múltiples registros
    print(f"EJEMPLO: ID con múltiples registros (separados por más de 60 días)\n")
    
    id_ejemplo = duplicados_por_id.idxmax()
    tps_id, hst_id = id_ejemplo
    
    registros_ejemplo = df_traslados_R4_limpio[
        (df_traslados_R4_limpio['TPS_IDN_ID'] == tps_id) & 
        (df_traslados_R4_limpio['HST_IDN_NUMERO_IDENTIFICACION'] == hst_id)
    ].sort_values('fecha_dt')
    
    print(f"ID de ejemplo (TPS_IDN_ID: {tps_id}, HST_IDN_NUMERO_IDENTIFICACION: {hst_id})")
    print(f"Total de registros para este ID: {len(registros_ejemplo)}\n")
    print(registros_ejemplo[['TPS_IDN_ID', 'HST_IDN_NUMERO_IDENTIFICACION', 'FECHA_PROCESO', 'año', 'RESPUESTA', 'CAUSAL_RESPUESTA']])
    
    # Calcular diferencias entre fechas consecutivas
    print(f"\nDiferencia en días entre registros consecutivos:")
    fechas = registros_ejemplo['fecha_dt'].tolist()
    for i in range(1, len(fechas)):
        dias = (fechas[i] - fechas[i-1]).days
        print(f"  Entre registro {i} y {i+1}: {dias} días")
else:
    print("✅ No hay IDs duplicados. Cada ID aparece máximo 1 vez por período de 60 días.")

# Actualizar df_traslados_R4 con los registros limpios
df_traslados_R4 = df_traslados_R4_limpio

print(f"\n{'='*70}")
print(f"RESUMEN FINAL")
print(f"{'='*70}")
print(f"df_traslados_R4 actualizado con {len(df_traslados_R4):,} registros únicos")
print(f"{'='*70}")

# Depurar traslados Salida SAT 

In [None]:
# Obtener la cantidad de registros antes del filtro
registros_antes = len(df_traslados_SAT)

# Filtrar registros donde COL18:
# - NO es "EPS025" ni "EPSC25"
# - NO está vacío, nulo o es "0"
df_traslados_SAT = df_traslados_SAT[
    (df_traslados_SAT['COL18'] != 'EPS025') & 
    (df_traslados_SAT['COL18'] != 'EPSC25') &
    (df_traslados_SAT['COL18'].notna()) &  # No es nulo
    (df_traslados_SAT['COL18'] != '') &     # No está vacío
    (df_traslados_SAT['COL18'] != '0')      # No es "0"
]

# Obtener la cantidad de registros después del filtro
registros_despues = len(df_traslados_SAT)

# Imprimir resultados
print(f"========== FILTRADO DE df_traslados_SAT ==========")
print(f"\nRegistros antes del filtro: {registros_antes:,}")
print(f"Registros después del filtro: {registros_despues:,}")
print(f"Registros eliminados: {(registros_antes - registros_despues):,}")
print(f"\n{'='*50}")

In [None]:
# Convertir COL1 a datetime y filtrar por años 2025 y 2026
df_traslados_SAT['COL1_dt'] = pd.to_datetime(df_traslados_SAT['COL1'], format='%d-%m-%Y', errors='coerce')
df_traslados_SAT['año'] = df_traslados_SAT['COL1_dt'].dt.year

# Obtener registros antes del filtro
registros_antes = len(df_traslados_SAT)

# Contar valores inválidos (NaT)
valores_invalidos = df_traslados_SAT['COL1_dt'].isna().sum()

# Filtrar solo años 2025 y 2026 (esto excluirá automáticamente los NaT)
df_traslados_SAT = df_traslados_SAT[df_traslados_SAT['año'].isin([2025, 2026])]

# Obtener registros después del filtro
registros_despues = len(df_traslados_SAT)

# Mostrar resultados
print(f"========== FILTRADO DE df_traslados_SAT POR AÑO ==========")
print(f"\nRegistros antes del filtro: {registros_antes:,}")
print(f"Valores con fecha INVÁLIDA: {valores_invalidos:,}")
print(f"Registros después del filtro: {registros_despues:,}")
print(f"Registros eliminados: {(registros_antes - registros_despues):,}")
print(f"\n{'='*50}")
print(f"\nDistribución por AÑO:")
print(df_traslados_SAT['año'].value_counts(dropna=False).sort_index())

In [None]:
# Obtener registros antes del filtro
registros_antes = len(df_traslados_SAT)

# Filtrar para eliminar registros donde COL3 es "4"
df_traslados_SAT = df_traslados_SAT[df_traslados_SAT['COL3'] != '4']

# Obtener registros después del filtro
registros_despues = len(df_traslados_SAT)

# Imprimir resultados
print(f"========== FILTRADO DE df_traslados_SAT (COL3 = '4') ==========")
print(f"\nRegistros antes del filtro: {registros_antes:,}")
print(f"Registros después del filtro: {registros_despues:,}")
print(f"Registros eliminados: {(registros_antes - registros_despues):,}")
print(f"\n{'='*50}")

In [None]:
# Obtener la cantidad de registros antes del filtro
registros_antes = len(df_traslados_SAT)

# Eliminar registros con las categorías especificadas en COL19
categorias_a_eliminar = [
    "Activo Reinscripción en el régimen subsidiado",
    "Activo afiliación de oficio",
    "Activo Afiliación Oficio IPS"
]

df_traslados_SAT = df_traslados_SAT[~df_traslados_SAT['COL19'].isin(categorias_a_eliminar)]

# Obtener la cantidad de registros después del filtro
registros_despues = len(df_traslados_SAT)

# Imprimir resultados
print(f"========== FILTRADO DE df_traslados_SAT (COL19) ==========")
print(f"\nRegistros antes del filtro: {registros_antes:,}")
print(f"Registros después del filtro: {registros_despues:,}")
print(f"Registros eliminados: {(registros_antes - registros_despues):,}")
print(f"\n{'='*50}")

In [None]:
# Obtener las categorías y cantidad de registros de la columna COL19 en df_traslados_SAT
print("="*70)
print("CATEGORÍAS Y CANTIDAD DE REGISTROS EN df_traslados_SAT['COL19']")
print("="*70)
print(f"\nTotal de registros: {len(df_traslados_SAT):,}\n")
print(df_traslados_SAT['COL19'].value_counts())
print(f"\nTotal de categorías únicas: {df_traslados_SAT['COL19'].nunique()}")
print(f"\nRegistros con valores nulos: {df_traslados_SAT['COL19'].isna().sum()}")
print("="*70)

In [None]:
# Obtener las categorías y cantidad de registros de la columna COL3 en df_traslados_SAT
print("="*70)
print("CATEGORÍAS Y CANTIDAD DE REGISTROS EN df_traslados_SAT['COL3']")
print("="*70)
print(f"\nTotal de registros: {len(df_traslados_SAT):,}\n")
print(df_traslados_SAT['COL3'].value_counts())
print(f"\nTotal de categorías únicas: {df_traslados_SAT['COL3'].nunique()}")
print(f"\nRegistros con valores nulos: {df_traslados_SAT['COL3'].isna().sum()}")
print("="*70)

In [None]:
# Filtrar categorías de COL3 que NO sean de 1 o 2 dígitos
df_traslados_SAT['COL3_length'] = df_traslados_SAT['COL3'].astype(str).str.len()

# Obtener categorías con longitud diferente a 1 o 2 dígitos
categorias_diferentes = df_traslados_SAT[~df_traslados_SAT['COL3_length'].isin([1, 2])]['COL3'].value_counts()

print("="*70)
print("CATEGORÍAS DE COL3 CON LONGITUD DIFERENTE A 1 O 2 DÍGITOS")
print("="*70)
print(f"\nTotal de categorías diferentes: {len(categorias_diferentes)}\n")
print(categorias_diferentes)
print(f"\nTotal de registros con categorías diferentes: {categorias_diferentes.sum():,}")
print("="*70)

# Limpiar columna temporal
df_traslados_SAT = df_traslados_SAT.drop('COL3_length', axis=1)

# Guardar resultados

In [None]:
# Crear workbook y agregar las hojas de datos
output_path = r"C:\Users\crist\OneDrive - 891856000_CAPRESOCA E P S\Escritorio\Yesid Rincón Z\informes\2026\CTO 102.2026\CTO102.2026 Informe  #02\12 Actividad\Salidas EPS S4-R4-NS-SAT\Resultados_Especiales.xlsx"

# Convertir fecha_archivo a datetime para agrupar por mes en ambos DataFrames
df_resultadosEspeciales['fecha_dt'] = pd.to_datetime(df_resultadosEspeciales['fecha_archivo'], format='%d/%m/%Y')
df_resultadosEspeciales['mes_año'] = df_resultadosEspeciales['fecha_dt'].dt.to_period('M').astype(str)

df_ns_municipios['fecha_dt'] = pd.to_datetime(df_ns_municipios['fecha_archivo'], format='%d/%m/%Y')
df_ns_municipios['mes_año'] = df_ns_municipios['fecha_dt'].dt.to_period('M').astype(str)

# Para df_ns_BDUA ya tenemos fecha_dt del filtrado anterior
df_ns_BDUA['mes_año'] = df_ns_BDUA['fecha_dt'].dt.to_period('M').astype(str)

# Para df_traslados_S4 ya tenemos fecha_dt del filtrado anterior
df_traslados_S4['mes_año'] = df_traslados_S4['fecha_dt'].dt.to_period('M').astype(str)

# Para df_traslados_R4 ya tenemos fecha_dt del filtrado anterior
df_traslados_R4['mes_año'] = df_traslados_R4['fecha_dt'].dt.to_period('M').astype(str)

# Para df_traslados_SAT usar COL1_dt que ya se creó en el filtrado anterior
df_traslados_SAT['mes_año'] = df_traslados_SAT['COL1_dt'].dt.to_period('M').astype(str)

with pd.ExcelWriter(output_path, engine='openpyxl') as writer:
    # ==================== HOJA 1: Resultados Especiales ====================
    df_resultadosEspeciales.to_excel(writer, sheet_name='Resultados_Especiales', index=False)
    
    # ==================== HOJA 2: NS Municipios ====================
    df_ns_municipios.to_excel(writer, sheet_name='NS municipios', index=False)
    
    # ==================== HOJA 3: NS BDUA ====================
    df_ns_BDUA.to_excel(writer, sheet_name='NS_BDUA', index=False)
    
    # ==================== HOJA 4: Traslados Salida S4 ====================
    df_traslados_S4.to_excel(writer, sheet_name='Traslados Salida S4', index=False)
    
    # ==================== HOJA 5: Traslados Salida R4 ====================
    df_traslados_R4.to_excel(writer, sheet_name='Traslados Salida R4', index=False)
    
    # ==================== HOJA 6: Traslados Salida SAT ====================
    df_traslados_SAT.to_excel(writer, sheet_name='Traslados Salida SAT', index=False)
    
    # ==================== HOJA 7: RESUMEN CONSOLIDADO ====================
    # Preparar resúmenes
    resumen_re = df_resultadosEspeciales.groupby('mes_año').size().sort_index()
    df_resumen_re = pd.DataFrame({
        'Mes/Año': resumen_re.index,
        'Fallecidos MinSalud': resumen_re.values
    })
    
    resumen_ns = df_ns_municipios.groupby(['mes_año', 11]).size().unstack(fill_value=0).sort_index()
    df_resumen_ns = pd.DataFrame({
        'Mes/Año': resumen_ns.index,
        'N09 - Fallecidos Municipios': resumen_ns['N09'] if 'N09' in resumen_ns.columns else 0,
        'N13 - Retiros Alcaldías': resumen_ns['N13'] if 'N13' in resumen_ns.columns else 0
    })
    
    # Resumen NS BDUA
    resumen_bdua = df_ns_BDUA.groupby(['mes_año', 'NOVEDAD']).size().unstack(fill_value=0).sort_index()
    df_resumen_bdua = pd.DataFrame({
        'Mes/Año': resumen_bdua.index,
        'N09 - BDUA': resumen_bdua['N09'] if 'N09' in resumen_bdua.columns else 0,
        'N14 - BDUA': resumen_bdua['N14'] if 'N14' in resumen_bdua.columns else 0
    })
    
    # Resumen Traslados S4
    resumen_s4 = df_traslados_S4.groupby('mes_año').size().sort_index()
    df_resumen_s4 = pd.DataFrame({
        'Mes/Año': resumen_s4.index,
        'S4 - Traslados': resumen_s4.values
    })
    
    # Resumen Traslados R4
    resumen_r4 = df_traslados_R4.groupby('mes_año').size().sort_index()
    df_resumen_r4 = pd.DataFrame({
        'Mes/Año': resumen_r4.index,
        'R4 - Traslados': resumen_r4.values
    })
    
    # Resumen Traslados SAT
    resumen_sat = df_traslados_SAT.groupby('mes_año').size().sort_index()
    df_resumen_sat = pd.DataFrame({
        'Mes/Año': resumen_sat.index,
        'SAT - Traslados': resumen_sat.values
    })
    
    # Combinar todos los resúmenes en uno solo
    df_resumen_total = pd.merge(df_resumen_re, df_resumen_ns, on='Mes/Año', how='outer')
    df_resumen_total = pd.merge(df_resumen_total, df_resumen_bdua, on='Mes/Año', how='outer')
    df_resumen_total = pd.merge(df_resumen_total, df_resumen_s4, on='Mes/Año', how='outer')
    df_resumen_total = pd.merge(df_resumen_total, df_resumen_r4, on='Mes/Año', how='outer')
    df_resumen_total = pd.merge(df_resumen_total, df_resumen_sat, on='Mes/Año', how='outer').fillna(0)
    
    # CONVERTIR TODO A ENTEROS
    columnas_numericas = ['Fallecidos MinSalud', 'N09 - Fallecidos Municipios', 'N13 - Retiros Alcaldías', 
                          'N09 - BDUA', 'N14 - BDUA', 'S4 - Traslados', 'R4 - Traslados', 'SAT - Traslados']
    for col in columnas_numericas:
        df_resumen_total[col] = df_resumen_total[col].astype(int)
    
    df_resumen_total['Total Salidas'] = (
        df_resumen_total['Fallecidos MinSalud'] + 
        df_resumen_total['N09 - Fallecidos Municipios'] + 
        df_resumen_total['N13 - Retiros Alcaldías'] +
        df_resumen_total['N09 - BDUA'] +
        df_resumen_total['N14 - BDUA'] +
        df_resumen_total['S4 - Traslados'] +
        df_resumen_total['R4 - Traslados'] +
        df_resumen_total['SAT - Traslados']
    )
    df_resumen_total = df_resumen_total.sort_values('Mes/Año')
    
    # AGREGAR FILA DE TOTALES
    fila_totales = pd.DataFrame({
        'Mes/Año': ['TOTAL'],
        'Fallecidos MinSalud': [df_resumen_total['Fallecidos MinSalud'].sum()],
        'N09 - Fallecidos Municipios': [df_resumen_total['N09 - Fallecidos Municipios'].sum()],
        'N13 - Retiros Alcaldías': [df_resumen_total['N13 - Retiros Alcaldías'].sum()],
        'N09 - BDUA': [df_resumen_total['N09 - BDUA'].sum()],
        'N14 - BDUA': [df_resumen_total['N14 - BDUA'].sum()],
        'S4 - Traslados': [df_resumen_total['S4 - Traslados'].sum()],
        'R4 - Traslados': [df_resumen_total['R4 - Traslados'].sum()],
        'SAT - Traslados': [df_resumen_total['SAT - Traslados'].sum()],
        'Total Salidas': [df_resumen_total['Total Salidas'].sum()]
    })
    
    df_resumen_total = pd.concat([df_resumen_total, fila_totales], ignore_index=True)
    
    # Escribir el resumen consolidado
    df_resumen_total.to_excel(writer, sheet_name='Resumen', index=False, startrow=0, startcol=0)
    
    # Obtener la hoja para agregar formatos
    workbook = writer.book
    ws_resumen = writer.sheets['Resumen']
    
    # Aplicar estilos al encabezado
    header_fill = PatternFill(start_color="366092", end_color="366092", fill_type="solid")
    header_font = Font(bold=True, color="FFFFFF")
    
    for cell in ws_resumen[1]:
        cell.fill = header_fill
        cell.font = header_font
        cell.alignment = Alignment(horizontal="center", vertical="center")
    
    # Aplicar estilos a la fila de TOTALES
    fila_total_idx = len(df_resumen_total) + 1  # +1 porque la primera fila es el encabezado
    total_fill = PatternFill(start_color="FFC000", end_color="FFC000", fill_type="solid")
    total_font = Font(bold=True, color="000000")
    
    for col in range(1, 11):  # Columnas A hasta J (ahora incluye SAT)
        cell = ws_resumen.cell(row=fila_total_idx, column=col)
        cell.fill = total_fill
        cell.font = total_font
        cell.alignment = Alignment(horizontal="center", vertical="center")
    
    # Ajustar ancho de columnas
    ws_resumen.column_dimensions['A'].width = 15
    ws_resumen.column_dimensions['B'].width = 22
    ws_resumen.column_dimensions['C'].width = 25
    ws_resumen.column_dimensions['D'].width = 25
    ws_resumen.column_dimensions['E'].width = 18
    ws_resumen.column_dimensions['F'].width = 18
    ws_resumen.column_dimensions['G'].width = 18
    ws_resumen.column_dimensions['H'].width = 18
    ws_resumen.column_dimensions['I'].width = 18
    ws_resumen.column_dimensions['J'].width = 15
    
    # ==================== GRÁFICO 1: Fallecidos MinSalud ====================
    from openpyxl.chart import BarChart, Reference
    from openpyxl.chart.label import DataLabelList
    
    chart1 = BarChart()
    chart1.type = "col"
    chart1.style = 10
    chart1.title = "Fallecidos reportados por el Ministerio de Salud"
    chart1.y_axis.title = 'Cantidad de Afiliados'
    chart1.x_axis.title = 'Periodo (Mes/Año)'
    
    # EXCLUIR LA FILA DE TOTALES de los gráficos
    data1 = Reference(ws_resumen, min_col=2, min_row=1, max_row=len(df_resumen_total))
    cats1 = Reference(ws_resumen, min_col=1, min_row=2, max_row=len(df_resumen_total))
    
    chart1.add_data(data1, titles_from_data=True)
    chart1.set_categories(cats1)
    
    chart1.dataLabels = DataLabelList()
    chart1.dataLabels.showVal = True
    chart1.dataLabels.showLegendKey = False
    chart1.dataLabels.showCatName = False
    chart1.dataLabels.showSerName = False
    
    chart1.legend = None
    chart1.height = 12
    chart1.width = 20
    
    ws_resumen.add_chart(chart1, "L2")
    
    # ==================== GRÁFICO 2: NS Municipios ====================
    chart2 = BarChart()
    chart2.type = "col"
    chart2.style = 11
    chart2.title = "Salidas reportadas por Alcaldías"
    chart2.y_axis.title = 'Cantidad de Afiliados'
    chart2.x_axis.title = 'Periodo (Mes/Año)'
    
    data2 = Reference(ws_resumen, min_col=3, max_col=4, min_row=1, max_row=len(df_resumen_total))
    cats2 = Reference(ws_resumen, min_col=1, min_row=2, max_row=len(df_resumen_total))
    
    chart2.add_data(data2, titles_from_data=True)
    chart2.set_categories(cats2)
    
    chart2.dataLabels = DataLabelList()
    chart2.dataLabels.showVal = True
    chart2.dataLabels.showLegendKey = False
    chart2.dataLabels.showCatName = False
    chart2.dataLabels.showSerName = False
    
    chart2.legend.position = 'r'
    chart2.height = 12
    chart2.width = 20
    
    ws_resumen.add_chart(chart2, "L22")
    
    # ==================== GRÁFICO 3: NS BDUA (EPS) ====================
    chart3 = BarChart()
    chart3.type = "col"
    chart3.style = 12
    chart3.title = "Novedades reportadas por la EPS (BDUA)"
    chart3.y_axis.title = 'Cantidad de Afiliados'
    chart3.x_axis.title = 'Periodo (Mes/Año)'
    
    data3 = Reference(ws_resumen, min_col=5, max_col=6, min_row=1, max_row=len(df_resumen_total))
    cats3 = Reference(ws_resumen, min_col=1, min_row=2, max_row=len(df_resumen_total))
    
    chart3.add_data(data3, titles_from_data=True)
    chart3.set_categories(cats3)
    
    chart3.dataLabels = DataLabelList()
    chart3.dataLabels.showVal = True
    chart3.dataLabels.showLegendKey = False
    chart3.dataLabels.showCatName = False
    chart3.dataLabels.showSerName = False
    
    chart3.legend.position = 'r'
    chart3.height = 12
    chart3.width = 20
    
    ws_resumen.add_chart(chart3, "L42")
    
    # ==================== GRÁFICO 4: Traslados S4, R4 y SAT ====================
    chart4 = BarChart()
    chart4.type = "col"
    chart4.style = 13
    chart4.title = "Traslados de Salida - Procesos S4, R4 y SAT"
    chart4.y_axis.title = 'Cantidad de Afiliados'
    chart4.x_axis.title = 'Periodo (Mes/Año)'
    
    data4 = Reference(ws_resumen, min_col=7, max_col=9, min_row=1, max_row=len(df_resumen_total))
    cats4 = Reference(ws_resumen, min_col=1, min_row=2, max_row=len(df_resumen_total))
    
    chart4.add_data(data4, titles_from_data=True)
    chart4.set_categories(cats4)
    
    chart4.dataLabels = DataLabelList()
    chart4.dataLabels.showVal = True
    chart4.dataLabels.showLegendKey = False
    chart4.dataLabels.showCatName = False
    chart4.dataLabels.showSerName = False
    
    chart4.legend.position = 'r'
    chart4.height = 12
    chart4.width = 20
    
    ws_resumen.add_chart(chart4, "L62")

print(f"Archivo Excel guardado en: {output_path}")
print(f"\nResumen Consolidado por Mes/Año:\n{df_resumen_total}")
print(f"\n{'='*60}")
print(f"TOTAL DE REGISTROS POR FUENTE:")
print(f"{'='*60}")
print(f"- Fallecidos MinSalud:          {df_resumen_total['Fallecidos MinSalud'].iloc[-1]}")
print(f"- N09 Fallecidos Municipios:    {df_resumen_total['N09 - Fallecidos Municipios'].iloc[-1]}")
print(f"- N13 Retiros Alcaldías:        {df_resumen_total['N13 - Retiros Alcaldías'].iloc[-1]}")
print(f"- N09 BDUA:                     {df_resumen_total['N09 - BDUA'].iloc[-1]}")
print(f"- N14 BDUA:                     {df_resumen_total['N14 - BDUA'].iloc[-1]}")
print(f"- S4 Traslados:                 {df_resumen_total['S4 - Traslados'].iloc[-1]}")
print(f"- R4 Traslados:                 {df_resumen_total['R4 - Traslados'].iloc[-1]}")
print(f"- SAT Traslados:                {df_resumen_total['SAT - Traslados'].iloc[-1]}")
print(f"{'='*60}")
print(f"TOTAL SALIDAS:                  {df_resumen_total['Total Salidas'].iloc[-1]}")
print(f"{'='*60}")