# Proceso de Identificaci√≥n y Gesti√≥n de Cartera de Afiliados - Capresoca EPS

**Normatividad:**  
- *Decreto 780 de 2016*: Es la ley macro que dice qu√© se debe hacer (pagar) y qu√© pasa si no se hace (mora y suspensi√≥n). 
- *Resoluci√≥n 1702 de 2021*: Fue el primer manual de instrucciones detallado sobre c√≥mo cobrar.
- *Resoluci√≥n 2082 de 2016*: Es el manual de instrucciones vigente y mejorado sobre c√≥mo deben las EPS cobrar la cartera hoy (2025).  

**Contexto:**  
Este notebook tiene como objetivo agilizar la identificaci√≥n de afiliados en estado de Mora, Aviso o Sin Pagos, para que el √°rea de Aseguramiento de Capresoca EPS realice la gesti√≥n de cobro y notificaci√≥n a afiliados y empresas, conforme a la normatividad vigente.

**Fuentes de datos principales:**  
- PILA entregada por el operador a la EPS "Pila I y Pila IP" 
- PILA conciliada por ADRES  "Pila 3047"
- Maestro contributivo de afiliados de la EPS  

**Fuentes de datos secundarias:**  
- Informaci√≥n interna de la EPS ;
    * relaciones laborales del sistema interno.
    * Maestro del sitema interno de la EPS.
    

El proceso permite consolidar y analizar la informaci√≥n para facilitar la gesti√≥n y el recaudo de cartera.

# 1. Carga de librer√≠as y configuraci√≥n inicial

In [None]:
import pandas as pd
import os
import re
from datetime import datetime
import openpyxl  # Motor recomendado para escribir archivos Excel (.xlsx)

In [None]:
V_Periodo_Actual = "2025-06-01"
Dia = "2025-06-01"
Mora = "2025-05-01"

# 2. Fuentes de datos y rutas

In [None]:
#rutas Capresoca 
R_MaestroAdres = r"\\Servernas\AYC2\ASEGURAMIENTO\eps_data_management\Procesos BDUA\Contributivo\Maestro\2025-2\EPSC25MC0014072025.TXT" # Cambiar nombre
R_Relaciones_Laborales_SIE = r"\\Servernas\AYC2\ASEGURAMIENTO\eps_data_management\SIE\Aseguramiento\relaciones laborales\Reporte_Afiliados Contributivo Relaciones Laborales_2025_07_16.csv" # Cambiar nombre
R_Ms_SIE =r"\\Servernas\AYC2\ASEGURAMIENTO\eps_data_management\SIE\Aseguramiento\ms_sie\Reporte_Validaci√≥n Archivos Maestro_2025_07_15.csv" # Cambiar nombre

R_Pila3047 = r"\\Servernas\AYC2\ASEGURAMIENTO\eps_data_management\Procesos BDUA\Contributivo\Compensaci√≥n\Pila consiliada ADRES\Pila_Unificado_Con_Aportante_2018_2025.TXT"
R_Pila_I_SIE = r"\\Servernas\AYC2\ASEGURAMIENTO\eps_data_management\SIE\Pila_SIE\Pila I"
R_Pila_IP_SIE = r"\\Servernas\AYC2\ASEGURAMIENTO\eps_data_management\SIE\Pila_SIE\Pila IP"

In [None]:
# Rutas de salida Capresoca 
R_Salida_Pila_SIE_i = r"C:\Users\osmarrincon\Downloads\Proceso.xlsx"
#R_Salida_Relaciones_Laborales = r"C:\Users\osmarrincon\OneDrive - uniminuto.edu\Capresoca\AlmostClear\Procesos BDUA\Contributivo\Compensaci√≥n\_Pila_SIE\SIE\Relaciones laborales.txt"

In [None]:
import glob

# Obtener la lista de archivos .txt en la ruta especificada
file_list = glob.glob(R_Pila_I_SIE + "/*.TXT")
file_list_IP = glob.glob(R_Pila_IP_SIE + "/*.TXT")

# Leer y concatenar todos los archivos .txt en un solo dataframe
df_pila_i_sie = pd.concat((pd.read_csv(file, sep='|', encoding='ANSI') for file in file_list), ignore_index=True)
df_pila_iP_sie = pd.concat((pd.read_csv(file, sep='|', encoding='ANSI', header=None) for file in file_list_IP), ignore_index=True)
DF_MC_Adres = pd.read_csv(R_MaestroAdres, sep=',', encoding='ansi', header=None)
df_Pila_3047 = pd.read_csv(R_Pila3047, sep=',', encoding='UTF-16')
df_Relaciones_Laborales_SIE = pd.read_csv(R_Relaciones_Laborales_SIE, sep=';', encoding='ansi')
Df_SIE = pd.read_csv(R_Ms_SIE, sep=';', dtype=str, encoding='ANSI')

## 2.1. üßæ Registro de Logs de Entrada (Trazabilidad de Fuentes)

Para garantizar la trazabilidad, reproducibilidad y control de calidad del proceso automatizado, se implementa un mecanismo de auditor√≠a que registra las fuentes de informaci√≥n que alimentan el proceso de cartera.

**Objetivo:**  
Generar estructuras de resumen (`logs_3047` y `logs_pila`) que permitan identificar con precisi√≥n qu√© archivos o fechas alimentaron el modelo actual. Esto facilita detectar inconsistencias, regresiones en la calidad de datos, o depurar resultados hist√≥ricos.

### a) **Logs de df_Pila_3047**  
El DataFrame `df_Pila_3047` (fuente ADRES) incluye una columna `nombre_Archivo`, que contiene el nombre del archivo de origen.  
- Se extraen los nombres √∫nicos de archivo.
- Se infiere la fecha del archivo a partir del patr√≥n `PILA_EPSC2520241001.TXT`, reconociendo el fragmento `20241001` como la fecha `01/10/2024`.
- El resultado es un DataFrame `logs_3047` con las columnas:
  - `nombre_Archivo`
  - `Fecha` (convertida a formato datetime)

### b) **Logs de PILA Interna (`Pila_I` y `Pila_IP`)**
Los DataFrames `df_pila_i_sie` y `df_pila_iP_sie` provienen de archivos `.TXT` internos, que no incluyen el nombre del archivo como columna.  
Como a√∫n no se han asignado nombres de columnas a estas estructuras, se toma la **columna n√∫mero 18** (`√≠ndice 17`, correspondiente a la `Fecha Pago` en la estructura esperada) para inferir la √∫ltima fecha de actualizaci√≥n de cada fuente.

- `Pila_I` ‚Üí Datos principales (`df_pila_i_sie`)
- `Pila_IP` ‚Üí Datos adicionales (`df_pila_iP_sie`)

El resultado es un DataFrame `logs_pila` con:
- `Origen` (Pila_I o Pila_IP)
- `Fecha M√°xima` (m√°xima fecha de pago detectada en cada fuente)

**Resultado:**  
Ambos registros se exportan en hojas separadas dentro del archivo final (`Logs_3047`, `Logs_PILA`) para facilitar su trazabilidad, validaci√≥n o comparaci√≥n entre ejecuciones del modelo de cartera.


In [None]:
# --- Logs para df_Pila_3047 ---
logs_3047 = (
    df_Pila_3047[["nombre_Archivo"]]
    .dropna()
    .drop_duplicates()
    .assign(
        Fecha=lambda df: pd.to_datetime(
            df["nombre_Archivo"].str.extract(r'EPSC25(\d{8})')[0],
            format='%Y%m%d',
            errors='coerce'
        )
    )
)


# --- Logs para fuentes internas PILA_I y PILA_IP (usando la columna 17 = Fecha Pago) ---
logs_pila = pd.concat([
    pd.DataFrame({
        "Origen": "Pila_I",
        "Fecha": pd.to_datetime(df_pila_i_sie.iloc[:, 17], errors='coerce')
    }),
    pd.DataFrame({
        "Origen": "Pila_IP",
        "Fecha": pd.to_datetime(df_pila_iP_sie.iloc[:, 17], errors='coerce')
    })
], ignore_index=True)

logs_pila = (
    logs_pila
    .groupby("Origen")["Fecha"]
    .max()
    .reset_index()
    .rename(columns={"Fecha": "Fecha M√°xima"})
)

# 3. Limpieza y normalizaci√≥n de datos
## 3.1 Limpieza de PILA IP y PILA 3047
- Reemplazo de valores
- Definic√≥n del origen de los datos 

In [None]:
# Reemplazar los valores 'X' por 1 en todo el dataframe df_pila_iP_sie
df_pila_iP_sie = df_pila_iP_sie.replace('X', 1)
df_Pila_3047 = df_Pila_3047.replace('X', 1)

In [None]:
df_pila_i_sie['origen'] = 'Pila_I'
df_pila_iP_sie['origen'] = 'Pila_IP'
df_Pila_3047['origen'] = 'Pila_3047'
print(f"N√∫mero de columnas en df_pila_i_sie: {df_pila_i_sie.shape[1]}")
print(f"N√∫mero de columnas en df_pila_iP_sie: {df_pila_iP_sie.shape[1]}")
print(f"N√∫mero de columnas en df_Pila_3047: {df_Pila_3047.shape[1]}")

## 3.2. üîó Unificaci√≥n de Fuentes de PILA Interna

En esta celda se realiza la unificaci√≥n de dos fuentes internas relacionadas con los pagos PILA (`df_pila_i_sie` y `df_pila_iP_sie`). El prop√≥sito es consolidar la informaci√≥n de pagos reportados desde distintas instancias internas del sistema SIE, manteniendo una √∫nica base de an√°lisis.

**Pasos realizados:**
1. Se valida que ambos DataFrames tengan la misma cantidad de columnas.
2. Se renombra `df_pila_iP_sie` para asegurar consistencia en los nombres de columnas.
3. Se concatenan ambos DataFrames en `df_pila_i_sie`.
4. Se verifica que la unificaci√≥n se haya realizado correctamente.
5. Se elimina `df_pila_iP_sie` para liberar memoria.

Este proceso asegura que toda la informaci√≥n de pagos desde diferentes m√≥dulos del sistema quede unificada para su posterior an√°lisis de cartera.


In [None]:
# Mostrar la cantidad de registros antes de la unificaci√≥n
print(f"Cantidad de registros en df_pila_i_sie antes de la unificaci√≥n: {len(df_pila_i_sie)}")
print(f"Cantidad de registros en df_pila_iP_sie antes de la unificaci√≥n: {len(df_pila_iP_sie)}")

# Validar que ambos dataframes tengan la misma cantidad de columnas
if df_pila_iP_sie.shape[1] == df_pila_i_sie.shape[1]:
    # Asignar el mismo nombre de columnas de df_pila_i_sie a df_pila_iP_sie
    df_pila_iP_sie.columns = df_pila_i_sie.columns
    
    # Unificar ambos dataframes
    df_pila_i_sie = pd.concat([df_pila_i_sie, df_pila_iP_sie], ignore_index=True)
    
    # Validar que la unificaci√≥n se haya realizado correctamente
    if len(df_pila_i_sie) > len(df_pila_i_sie) - len(df_pila_iP_sie):
        print("Unificaci√≥n realizada correctamente.")
    else:
        print("Error en la unificaci√≥n de los dataframes.")
    
    # Eliminar el dataframe df_pila_iP_sie
    del df_pila_iP_sie
else:
    print("Los dataframes no tienen la misma cantidad de columnas. No se puede realizar la unificaci√≥n.")

# Mostrar la cantidad de registros despu√©s de la unificaci√≥n
print(f"Cantidad de registros despu√©s de la unificaci√≥n: {len(df_pila_i_sie)}")

## 3.3üîç Filtrado del √öltimo Per√≠odo de Pago por Aportante

Esta celda tiene como objetivo conservar √∫nicamente el registro m√°s reciente de cada aportante (empresa o entidad) con base en la columna `Perido Pago`. Para ello:

1. Se convierte la columna `Perido Pago` al tipo `datetime` usando el formato `%Y-%m`.
2. Se ordenan los registros por `Raz√≥n Social Aportante`, `N¬∞ Identificaci√≥n Aportante` y `Perido Pago` en orden descendente.
3. Se eliminan los duplicados por aportante, manteniendo solo el per√≠odo de pago m√°s reciente.

Este paso es clave para consolidar la informaci√≥n y evitar duplicidades en el an√°lisis de cartera, permitiendo identificar la √∫ltima vez que cada empresa realiz√≥ aportes en PILA.


In [None]:
df_Datos_Complementarios = df_pila_i_sie

# Mostrar la cantidad de registros antes de filtrar
print(f"Cantidad de registros antes de filtrar: {len(df_Datos_Complementarios)}")

# Convertir la columna 'Perido Pago' a tipo datetime
df_Datos_Complementarios['Perido Pago'] = pd.to_datetime(df_Datos_Complementarios['Perido Pago'], format='%Y-%m')

# Ordenar el dataframe por las columnas especificadas y por 'Perido Pago' en orden descendente
df_pila_df_Datos_Complementariosi_sie = df_Datos_Complementarios.sort_values(by=['Raz√≥n Social Aportante', 'N¬∞ Identificaci√≥n Aportante', 'Perido Pago'], ascending=[True, True, False])

# Eliminar duplicados manteniendo solo los registros con el periodo m√°ximo
df_Datos_Complementarios = df_Datos_Complementarios.drop_duplicates(subset=['Raz√≥n Social Aportante', 'N¬∞ Identificaci√≥n Aportante'], keep='first')

# Mostrar la cantidad de registros despu√©s de filtrar
print(f"Cantidad de registros despu√©s de filtrar: {len(df_Datos_Complementarios)}")

In [None]:
# Mostrar las primeras filas del dataframe
print(f"Cantidad de registros Pila SIE: {len(df_pila_i_sie)}")

print(DF_MC_Adres.columns)
print(f"Cantidad de registros MC ADRES: {len(DF_MC_Adres)}")

## 3.4. üßæ Depuraci√≥n y Selecci√≥n de Variables del Maestro Contributivo ADRES

Esta celda realiza la depuraci√≥n inicial del archivo maestro contributivo proveniente de ADRES (`DF_MC_Adres`). El objetivo es conservar √∫nicamente las columnas relevantes para la identificaci√≥n del afiliado y su clasificaci√≥n en el r√©gimen contributivo.

**Pasos realizados:**
1. Se seleccionan 11 columnas clave mediante √≠ndices posicionales (`columns_to_keep`), asegurando eficiencia en el manejo de estructuras de archivos sin encabezado estandarizado.
2. Se filtran los registros excluyendo aquellos con tipo de afiliado `"AF"` (Afiliado Fallecido) o con ese campo vac√≠o.
3. Se renombran las columnas seleccionadas para facilitar la interpretaci√≥n y an√°lisis.
4. Se imprimen las columnas resultantes y la cantidad total de registros filtrados.

Esta depuraci√≥n permite trabajar con una versi√≥n optimizada del maestro contributivo, √∫til para cruces con PILA y detecci√≥n de inconsistencias en estado y afiliaci√≥n.


In [None]:
# Seleccionar solo las columnas especificadas
columns_to_keep = [
    4, 5, 6, 7, 8, 9, 17, 23, 24, 33, 41 
]

# Filtrar el dataframe para mantener solo las columnas especificadas
DF_MC_Adres = DF_MC_Adres[columns_to_keep]
DF_MC_Adres = DF_MC_Adres[
    (DF_MC_Adres[33] != "AF") | (DF_MC_Adres[33].isna())
]

# Asignar nombres a las columnas seleccionadas
DF_MC_Adres.columns = [
    'Tp_Do', 'No_Do', '1A', '2A', '1N', '2N', 'Tp_Afiliado', 'Departamento', 'Municipio', 'Estado_ADRES', 'Sisben'
]


# Mostrar las primeras filas del dataframe resultante
print(DF_MC_Adres.columns)
print(f"Cantidad de registros: {len(DF_MC_Adres)}")

## 3.5. üßπ Eliminaci√≥n de Planillas Corregidas y Selecci√≥n de Variables Relevantes ‚Äì PILA Interna

Esta celda tiene como objetivo depurar los registros del DataFrame `df_pila_i_sie` eliminando las planillas que fueron corregidas por los afiliados, ya que estas pueden generar duplicidad o sesgos en el an√°lisis de cotizaciones y mora.

**Contexto t√©cnico:**
Cuando un afiliado realiza una correcci√≥n sobre su planilla (por ejemplo, modifica los d√≠as cotizados o retira una novedad err√≥nea), el sistema PILA genera dos planillas: la original y la corregida. Es fundamental conservar solo la √∫ltima (v√°lida), eliminando aquellas con indicador de correcci√≥n `"A"` en la columna `Correcciones`.

**Pasos realizados:**
1. Se eliminan los registros marcados como correcciones (`Correcciones = "A"`), conservando √∫nicamente planillas v√°lidas o sin marca.
2. Se seleccionan las columnas clave para el an√°lisis de aportes, afiliaci√≥n y origen de los datos:
   - Datos del aportante y cotizante.
   - Per√≠odo y fecha de pago.
   - Ingresos y valores cotizados.
   - Indicador de origen de la informaci√≥n (fuente de carga).

Este paso asegura que el an√°lisis posterior no se vea afectado por registros corregidos que podr√≠an duplicar o distorsionar la informaci√≥n real de aportes.


In [None]:
df_pila_i_sie = df_pila_i_sie[
    (df_pila_i_sie['Correcciones'] != "A") | (df_pila_i_sie['Correcciones'].isna())
]

# Seleccionar solo las columnas especificadas
columns_to_keep = [
    'Raz√≥n Social Aportante', 'N¬∞ Identificaci√≥n Aportante', 'Perido Pago', 'Fecha Pago',
    'Tipo Documento Cotizante', 'N¬∞ Identificaci√≥n Cotizante', 'Tipo Cotizante', 'ING', 'RET', 'D√≠as Cotizados', 
    'Ingreso Base Cotizaci√≥n', 'Cotizaci√≥n Obligatoria', 'N√∫mero Planilla', 'origen'
]
# Filtrar el dataframe para mantener solo las columnas especificadas
df_pila_i_sie = df_pila_i_sie[columns_to_keep]

## 3.6. üßæ Estandarizaci√≥n de Columnas del Archivo PILA 3047 ‚Äì Conciliada ADRES

Esta celda tiene como objetivo estandarizar la estructura del archivo `df_Pila_3047`, correspondiente a la planilla PILA conciliada por ADRES, con el fin de unificar su an√°lisis con otras fuentes de informaci√≥n interna (como PILA SIE).

**Pasos realizados:**
1. Se renombran las columnas originales para adoptar la misma nomenclatura utilizada en el an√°lisis interno de PILA (`df_pila_i_sie`), garantizando compatibilidad estructural.
2. Se reorganizan las columnas en un orden l√≥gico que facilita su comparaci√≥n, consolidaci√≥n y posterior cruce de datos con otras fuentes como:
   - Maestro contributivo EPS.
   - Relaci√≥n laboral SIE.
   - PILA del operador.

La estandarizaci√≥n de esta fuente es fundamental para evitar ambig√ºedades, asegurar trazabilidad en los campos clave y permitir un an√°lisis integral de la informaci√≥n de aportes y cartera, conforme a los lineamientos normativos de Capresoca EPS.

In [None]:
df_Pila_3047 = df_Pila_3047.rename(columns={
    'Num_rad_planilla': 'N√∫mero Planilla',
    'perido_pago_del_aportante': 'Perido Pago',
    'fecha_pago': 'Fecha Pago',
    'Tipo_doc_cotizante': 'Tipo Documento Cotizante',
    'doc_cotizante' : 'N¬∞ Identificaci√≥n Cotizante',
    'Tipo_cotizante': 'Tipo Cotizante',
    'ingreso': 'ING',
    'retiro': 'RET',
    'dias_cotizados': 'D√≠as Cotizados',
    'ibc': 'Ingreso Base Cotizaci√≥n',
    'cotizacion_obligatoria':'Cotizaci√≥n Obligatoria',
    'Nit': 'N¬∞ Identificaci√≥n Aportante',
    'Razon_Soacial': 'Raz√≥n Social Aportante'
})
print(df_Pila_3047.columns)

In [None]:
column_order = [
    'Raz√≥n Social Aportante', 'N¬∞ Identificaci√≥n Aportante', 'Perido Pago', 'Fecha Pago',
    'Tipo Documento Cotizante', 'N¬∞ Identificaci√≥n Cotizante', 'Tipo Cotizante', 'ING', 'RET', 'D√≠as Cotizados', 
    'Ingreso Base Cotizaci√≥n', 'Cotizaci√≥n Obligatoria', 'N√∫mero Planilla', 'origen'
    ]
df_Pila_3047 = df_Pila_3047[column_order]

## 3.7. üß™ Normalizaci√≥n de Tipos de Datos en PILA Interna y PILA Conciliada ADRES

Esta celda realiza la conversi√≥n y estandarizaci√≥n de tipos de datos num√©ricos clave en los DataFrames `df_pila_i_sie` (fuente interna de Capresoca EPS) y `df_Pila_3047` (planilla PILA conciliada por ADRES). Esta normalizaci√≥n es esencial para garantizar que operaciones como filtros, comparaciones y agregaciones puedan ejecutarse sin errores de tipo o coerci√≥n.

**Campos transformados:**

- `Tipo Cotizante`: convertido a entero (`int64`) y valores nulos reemplazados por 0.
- `Ingreso Base Cotizaci√≥n`: convertido a n√∫mero decimal (`float64`) para permitir operaciones aritm√©ticas.
- `N¬∞ Identificaci√≥n Aportante`: asegurado como n√∫mero entero, reemplazando errores o vac√≠os.
- Indicadores de novedad (`ING`, `RET`) y `D√≠as Cotizados`: completados con 0 y convertidos a `int64`.

**Importancia operativa:**
Esta limpieza evita errores en procesos como:
- Uniones (`merge`) basadas en identificadores.
- C√°lculo de mora y d√≠as cotizados.
- Generaci√≥n de reportes consolidados por empresa o afiliado.

Al aplicar esta estandarizaci√≥n, se fortalece la calidad y confiabilidad del an√°lisis de cartera de acuerdo con los lineamientos t√©cnicos de Capresoca EPS.

Finalmente, se realiza la uni√≥n vertical (`concat`) de ambas fuentes (`df_pila_i_sie` y `df_Pila_3047`), consolidando as√≠ la base de datos completa de aportes reportados tanto por el sistema interno como por la conciliaci√≥n ADRES. Esta consolidaci√≥n permite un an√°lisis integral y depurado de los registros de cotizaci√≥n.

In [None]:
# Add new columns to df_sin_pagos
df_pila_i_sie['Tipo Cotizante'] = df_pila_i_sie['Tipo Cotizante'].fillna(0).astype('int64')


df_Pila_3047['Ingreso Base Cotizaci√≥n'] = df_Pila_3047['Ingreso Base Cotizaci√≥n'].astype('float64')
df_Pila_3047['N¬∞ Identificaci√≥n Aportante'] = pd.to_numeric(df_Pila_3047['N¬∞ Identificaci√≥n Aportante'], errors='coerce').fillna(0).astype('int64')
df_Pila_3047['Tipo Cotizante'] = df_Pila_3047['Tipo Cotizante'].astype('int64')
df_Pila_3047['ING'] = df_Pila_3047['ING'].fillna(0).astype('int64')
df_Pila_3047['RET'] = df_Pila_3047['RET'].fillna(0).astype('int64')
df_Pila_3047['D√≠as Cotizados'] = df_Pila_3047['D√≠as Cotizados'].fillna(0).astype('int64')
df_pila_i_sie['ING'] = df_pila_i_sie['ING'].fillna(0).astype('int64')
df_pila_i_sie['RET'] = df_pila_i_sie['RET'].fillna(0).astype('int64')


In [None]:
# Mostrar la cantidad de registros antes de la uni√≥n
print(f"Cantidad de registros en df_Pila_3047 antes de la uni√≥n: {len(df_Pila_3047)}")
print(f"Cantidad de registros en df_pila_i_sie antes de la uni√≥n: {len(df_pila_i_sie)}")

# Unir los dataframes uno debajo del otro
df_pila_i_sie = pd.concat([df_pila_i_sie, df_Pila_3047], ignore_index=True)

# Mostrar la cantidad de registros despu√©s de la uni√≥n
print(f"Cantidad de registros en df_pila_i_sie despu√©s de la uni√≥n: {len(df_pila_i_sie)}")

## 3.8. üîÑ Cruce con Maestro Contributivo ADRES y Filtro por Estado Activo

Esta celda tiene como objetivo enriquecer y depurar la base de PILA consolidada (`df_pila_i_sie`) mediante el cruce con el Maestro Contributivo ADRES (`DF_MC_Adres`). Se busca garantizar que los registros analizados correspondan √∫nicamente a afiliados activos en ADRES y que cuenten con informaci√≥n complementaria √∫til para la segmentaci√≥n futura.

**Pasos realizados:**
1. Se estandarizan los nombres de las columnas de identificaci√≥n (`Tipo Documento Cotizante` y `N¬∞ Identificaci√≥n Cotizante`) para permitir la uni√≥n.
2. Se cruza la informaci√≥n con `DF_MC_Adres`, incorporando:
   - Apellidos y nombres.
   - Ubicaci√≥n geogr√°fica (Departamento y Municipio).
   - Estado del afiliado y puntaje Sisben.
3. Se filtran √∫nicamente los registros cuyo estado sea `"AC"` (Activo), asegurando que el an√°lisis posterior no incluya afiliados suspendidos, retirados o sin validaci√≥n ante ADRES.

Este paso cierra el proceso de limpieza y normalizaci√≥n, dejando los datos listos para la identificaci√≥n de afiliados en mora, aviso o sin pagos.

In [None]:
# Cambiar el nombre de las columnas especificadas
df_pila_i_sie = df_pila_i_sie.rename(columns={
    'Tipo Documento Cotizante': 'Tp_Do', 
    'N¬∞ Identificaci√≥n Cotizante': 'No_Do'
})

print(f"Cantidad de registros Pila: {len(df_pila_i_sie)}")
# Realizar la uni√≥n de los dataframes
df_pila_i_sie = df_pila_i_sie.merge(DF_MC_Adres[['Tp_Do', 'No_Do', '1A', '2A', '1N', '2N', 'Tp_Afiliado', 'Departamento', 'Municipio', 'Estado_ADRES', 'Sisben']], on=['Tp_Do', 'No_Do'], how='left')
df_pila_i_sie = df_pila_i_sie[df_pila_i_sie['Estado_ADRES'].notna() & (df_pila_i_sie['Estado_ADRES'] == "AC")]


print(f"Cantidad de registros Pila: {len(df_pila_i_sie)}")
print(f"Cantidad de registros df_pila_i_sie: {len(df_pila_i_sie)}")

## 3.9. üßÆ Normalizaci√≥n por Agrupaci√≥n: D√≠as Cotizados, ING y RET

Este paso aplica reglas de consolidaci√≥n y estandarizaci√≥n sobre los registros de PILA (`df_pila_i_sie`), agrupando por empresa, afiliado y per√≠odo de pago. El objetivo es asegurar la consistencia interna de los indicadores antes de aplicar filtros anal√≠ticos.

**Pasos realizados:**
1. Se convierte la columna `D√≠as Cotizados` a tipo num√©rico para permitir su agregaci√≥n.
2. Se agrupan los registros por:
   - N¬∞ de identificaci√≥n del aportante.
   - Tipo y n√∫mero de documento del afiliado.
   - Per√≠odo de pago.
3. Se aplica:
   - Suma total de d√≠as cotizados dentro del grupo.
   - M√°ximo valor para las columnas `ING` y `RET` (si alguno en el grupo tiene novedad, se refleja en todos).

**Resultado:**
Una estructura depurada donde cada grupo representa de forma homog√©nea la totalidad de los d√≠as cotizados y las novedades reportadas, eliminando discrepancias dentro del mismo conjunto de identificaci√≥n.


In [None]:
# Mostrar la cantidad de registros antes de filtrar
print(f"Cantidad de registros antes de filtrar: {len(df_pila_i_sie)}")

# Convertir la columna 'D√≠as Cotizados' a tipo num√©rico
df_pila_i_sie['D√≠as Cotizados'] = pd.to_numeric(df_pila_i_sie['D√≠as Cotizados'], errors='coerce')

# Sumar los d√≠as cotizados por cada ID1
df_pila_i_sie['D√≠as Cotizados'] = df_pila_i_sie.groupby(
    ["N¬∞ Identificaci√≥n Aportante", "Tp_Do", "No_Do", 'Perido Pago']
)['D√≠as Cotizados'].transform('sum')

# Si en la columna ING hay un 1, todos los registros del mismo grupo quedan con 1
df_pila_i_sie['ING'] = df_pila_i_sie.groupby(
    ["N¬∞ Identificaci√≥n Aportante", "Tp_Do", "No_Do", 'Perido Pago']
)['ING'].transform('max')

# Si en la columna RET hay un 1, todos los registros del mismo grupo quedan con 1
df_pila_i_sie['RET'] = df_pila_i_sie.groupby(
    ["N¬∞ Identificaci√≥n Aportante", "Tp_Do", "No_Do", 'Perido Pago']
)['RET'].transform('max')

# Mostrar las primeras filas del dataframe resultante
print(f"Cantidad de registros despu√©s de la agregaci√≥n: {len(df_pila_i_sie)}")

## 3.10. üìÖ Filtrado del √öltimo Per√≠odo Reportado por Afiliado y Aportante

Esta celda tiene como objetivo conservar √∫nicamente el registro correspondiente al √∫ltimo per√≠odo de pago disponible para cada afiliado, dentro de cada empresa (aportante).

**Pasos realizados:**
1. Se convierte la columna `Perido Pago` a formato fecha (`datetime`), con formato `YYYY-MM`.
2. Se agrupa por:
   - N¬∞ de identificaci√≥n del aportante.
   - Tipo y n√∫mero de documento del afiliado.
3. Para cada grupo, se selecciona autom√°ticamente el registro con la fecha m√°xima de per√≠odo reportado.
4. El DataFrame resultante contiene un solo registro por afiliado y aportante, correspondiente al per√≠odo m√°s reciente.

**Resultado:**
Una base depurada, donde se mantiene el registro m√°s actual de cotizaci√≥n por afiliado. Esto evita duplicidades y garantiza que los an√°lisis se basen en el dato m√°s vigente del sistema.

In [None]:
# Convertir la columna 'Perido Pago' a datetime
df_pila_i_sie['Perido Pago'] = pd.to_datetime(df_pila_i_sie['Perido Pago'], format='%Y-%m', errors='coerce')

# Para cada grupo, obtener el √≠ndice del registro con la fecha m√°xima
idx_max = df_pila_i_sie.groupby(['N¬∞ Identificaci√≥n Aportante', 'Tp_Do', 'No_Do'])['Perido Pago'].idxmax()

# Seleccionar √∫nicamente esos registros
df_pila_i_sie = df_pila_i_sie.loc[idx_max].reset_index(drop=True)

# Mostrar la cantidad de registros despu√©s de filtrar
print(f"Cantidad de registros despu√©s de filtrar: {len(df_pila_i_sie)}")

## 3.11. üì¨ Enriquecimiento con Informaci√≥n de Contacto del Aportante

Esta celda tiene como objetivo complementar el DataFrame depurado de PILA (`df_pila_i_sie`) con informaci√≥n de contacto proveniente de los datos internos de la EPS (`df_Datos_Complementarios`), para facilitar la posterior gesti√≥n de cobro, notificaci√≥n o seguimiento por parte del √°rea de Aseguramiento.

**Pasos realizados:**
1. Se extraen del DataFrame `df_Datos_Complementarios` las columnas:
   - `Direcci√≥n de Correspondencia`
   - `Tel√©fono`
   - `Correo Electr√≥nico`
2. Se realiza un cruce (`merge`) con `df_pila_i_sie`, utilizando como clave el `N¬∞ Identificaci√≥n Aportante`.

**Resultado:**
Cada registro de afiliado en PILA ahora incluye datos clave de contacto de la empresa aportante, permitiendo que los procesos de gesti√≥n de cartera puedan ejecutarse de forma m√°s eficiente.


In [None]:
# Seleccionar solo las columnas necesarias de df_Datos_Complementarios
df_Datos_Complementarios_subset = df_Datos_Complementarios[['N¬∞ Identificaci√≥n Aportante', 'Direcci√≥n de Correspondencia', 'Tel√©fono', 'Correo Electr√≥nico']]

# Realizar el merge para traer las columnas a df_pila_i_sie
df_pila_i_sie = df_pila_i_sie.merge(df_Datos_Complementarios_subset, on='N¬∞ Identificaci√≥n Aportante', how='left')

print(df_pila_i_sie.columns)

## 3.12. üßæ Extracci√≥n de Afiliados √önicos para An√°lisis

Esta celda extrae un subconjunto con los afiliados √∫nicos a partir del DataFrame `df_pila_i_sie`, utilizando las columnas de identificaci√≥n (`Tp_Do` y `No_Do`). Este paso permite construir una vista depurada para an√°lisis posteriores, sin duplicidad de registros por afiliado.

**Pasos realizados:**
1. Se seleccionan √∫nicamente las columnas `Tp_Do` y `No_Do` del DataFrame de PILA.
2. Se eliminan duplicados para obtener una lista √∫nica de afiliados presentes en el consolidado.

**Resultado:**
Un DataFrame (`df_unique_aportantes`) con un registro por afiliado, que puede usarse como base para an√°lisis posteriores de mora, avisos o estado de pagos en ADRES y SIE.


In [None]:
# Crear un nuevo dataframe con los valores √∫nicos de las columnas especificadas
df_unique_aportantes = df_pila_i_sie[["Tp_Do", "No_Do"]].drop_duplicates()

# Mostrar las primeras filas del nuevo dataframe
print(f"Cantidad de registros √∫nicos: {len(df_unique_aportantes)}")

## 3.13. üßπ Depuraci√≥n de la Base de Relaciones Laborales del SIE

Esta celda tiene como objetivo limpiar y consolidar la base de relaciones laborales internas (`df_Relaciones_Laborales_SIE`) para asegurar que cada afiliado quede representado con su v√≠nculo laboral m√°s reciente por empresa aportante.

**Pasos realizados:**
1. Se convierte la columna `fecha_ingreso` al tipo de dato `datetime`, con el formato est√°ndar `%Y-%m-%d`.
2. Se agrupan los registros por documento del afiliado y del aportante (`tipo_documento`, `numero_identificacion`, etc.).
3. Para cada grupo, se conserva √∫nicamente la fecha m√°xima de ingreso (`fecha_ingreso` m√°s reciente).
4. Se eliminan los registros duplicados, conservando un √∫nico v√≠nculo laboral vigente por afiliado y aportante.

**Resultado:**
Una base de relaciones laborales limpia y lista para ser cruzada con la PILA, que garantiza integridad temporal y unicidad de los v√≠nculos activos para an√°lisis posteriores.


In [None]:
print(f"Cantidad de registros realcionaes laborales #1: {len(df_Relaciones_Laborales_SIE)}")
# Convertir la columna 'fecha_ingreso' a tipo datetime
df_Relaciones_Laborales_SIE['fecha_ingreso'] = pd.to_datetime(df_Relaciones_Laborales_SIE['fecha_ingreso'], format='%Y-%m-%d')

# Asignar la fecha m√°xima de 'fecha_ingreso' a todo el grupo
df_Relaciones_Laborales_SIE['fecha_ingreso'] = df_Relaciones_Laborales_SIE.groupby(
    ['tipo_documento', 'numero_identificacion', 'tipo_documento_aportante', 'numero_identificacion_aportante']
)['fecha_ingreso'].transform('max')

# Eliminar duplicados manteniendo solo un registro por grupo
df_Relaciones_Laborales_SIE = df_Relaciones_Laborales_SIE.drop_duplicates(
    subset=['tipo_documento', 'numero_identificacion', 'tipo_documento_aportante', 'numero_identificacion_aportante']
)

# Mostrar las primeras filas del dataframe resultante
print(f"Cantidad de registros realcionaes laborales #2: {len(df_Relaciones_Laborales_SIE)}")

## 3.14. üîß Estandarizaci√≥n Final y Enriquecimiento de la Base de Relaciones Laborales (SIE)

En este paso se finaliza la preparaci√≥n de la base de relaciones laborales del sistema SIE (`df_Relaciones_Laborales_SIE`), alineando su estructura con el resto de fuentes y a√±adiendo informaci√≥n de contacto relevante.

**Pasos realizados:**
1. Se renombran columnas clave para homogeneizar la estructura con la base de PILA.
2. Se convierten los identificadores del aportante (`N¬∞ Identificaci√≥n Aportante`) a tipo `str` para asegurar la correcta uni√≥n de DataFrames.
3. Se realiza un cruce con la PILA (`df_pila_i_sie`) para a√±adir la columna `Correo Electr√≥nico` del aportante a cada relaci√≥n laboral.

**Resultado:**
Una base de relaciones laborales con estructura estandarizada, identificadores consistentes y campos de contacto listos para facilitar futuras notificaciones o validaciones de v√≠nculo laboral.


In [None]:
df_Relaciones_Laborales_SIE = df_Relaciones_Laborales_SIE.rename(columns={
    'tipo_documento': 'Tp_Do',
    'numero_identificacion': 'No_Do',
    'tipo_documento_aportante': 'Tipo Documento Aportante',
    'numero_identificacion_aportante': 'N¬∞ Identificaci√≥n Aportante',
    'razon_social': 'Raz√≥n Social Aportante'
})
print(df_Relaciones_Laborales_SIE.columns)
df_Relaciones_Laborales_SIE['N¬∞ Identificaci√≥n Aportante'] = df_Relaciones_Laborales_SIE['N¬∞ Identificaci√≥n Aportante'].astype(str)
df_pila_i_sie['N¬∞ Identificaci√≥n Aportante'] = df_pila_i_sie['N¬∞ Identificaci√≥n Aportante'].astype(str)

df_Relaciones_Laborales_SIE = df_Relaciones_Laborales_SIE.merge(df_pila_i_sie[['N¬∞ Identificaci√≥n Aportante', 'Correo Electr√≥nico']], on=['N¬∞ Identificaci√≥n Aportante'], how='left')
print(df_Relaciones_Laborales_SIE.columns)

# 4. Clasificaci√≥n de Afiliados: Mora, Aviso y Sin Pagos
En esta secci√≥n se identifican y clasifican los afiliados que presentan riesgo de recaudo o interrupci√≥n de cotizaciones, seg√∫n los datos cruzados entre PILA, Maestro Contributivo ADRES y el sistema interno de la EPS. Esta clasificaci√≥n responde a los lineamientos del Decreto 780 de 2016 y busca facilitar la gesti√≥n oportuna de cobro por parte del √°rea de Aseguramiento.

## 4.1. ‚ùå Identificaci√≥n de Afiliados Sin Pagos Reportados

En este paso se identifican los afiliados activos en el Maestro Contributivo ADRES que no presentan ning√∫n registro de cotizaci√≥n en la base de PILA consolidada (`df_pila_i_sie`).

**Criterios aplicados:**
1. Se cruzan las c√©dulas (`Tp_Do`, `No_Do`) de `DF_MC_Adres` contra los afiliados presentes en PILA (`df_unique_aportantes`).
2. Se seleccionan los registros que **no est√°n en PILA** (`_merge = "left_only"`).
3. Se filtran solo los afiliados tipo `"C"` (Cotizante) y con estado `"AC"` (activo) en ADRES.

**Resultado:**
Una lista de afiliados activos y sin evidencia de pago, que puede ser usada para alertar, notificar o priorizar en la gesti√≥n de cartera.

In [None]:
# Filtrar los registros en DF_MC_Adres que no est√°n en df_unique_aportantes
df_sin_pagos = DF_MC_Adres.merge(df_unique_aportantes, on=["Tp_Do", "No_Do"], how="left", indicator=True)
df_sin_pagos = df_sin_pagos[df_sin_pagos["_merge"] == "left_only"].drop(columns=["_merge"])

# Filtrar las columnas [Tp_Afiliado= 'C' y Estado_ADRES= 'AC']
df_sin_pagos = df_sin_pagos[(df_sin_pagos['Tp_Afiliado'] == 'C') & (df_sin_pagos['Estado_ADRES'] == 'AC')]

# Mostrar la cantidad de registros filtrados
print(f"Cantidad de registros sin pagos: {len(df_sin_pagos)}")

### 4.1.1. üîó Enriquecimiento de Afiliados Sin Pagos con Datos del SIE

Este paso complementa la base de afiliados sin pagos (`df_sin_pagos`) con informaci√≥n adicional proveniente de las relaciones laborales internas (`df_Relaciones_Laborales_SIE`), con el fin de mejorar la trazabilidad del v√≠nculo laboral y la capacidad operativa de contacto para acciones de cobranza.

**Pasos realizados:**
1. Se asegura que los documentos (`No_Do`) est√©n en formato `str` en ambas fuentes para permitir una uni√≥n sin errores.
2. Se cruzan los datos usando como claves `Tp_Do` y `No_Do`.
3. Se a√±aden los siguientes campos:
   - `Tipo Documento Aportante`
   - `N¬∞ Identificaci√≥n Aportante`
   - `Raz√≥n Social Aportante`
   - `fecha_ingreso` del v√≠nculo laboral
   - `Correo Electr√≥nico` del aportante

**Resultado:**
Una vista de afiliados sin pagos con contexto empresarial y laboral, √∫til para procesos de contacto, priorizaci√≥n y validaci√≥n de posibles omisiones de pago o mora en el sistema.

In [None]:
# Convertir 'No_Do' en df_Relaciones_Laborales_SIE a str para que coincida con df_sin_pagos
df_Relaciones_Laborales_SIE['No_Do'] = df_Relaciones_Laborales_SIE['No_Do'].astype(str)
df_sin_pagos['No_Do'] = df_sin_pagos['No_Do'].astype(str)

# Realizar el merge para traer la columna 'fecha_ingreso' a df_sin_pagos
df_sin_pagos = df_sin_pagos.merge(df_Relaciones_Laborales_SIE[['Tp_Do', 'No_Do', 'Tipo Documento Aportante', 'N¬∞ Identificaci√≥n Aportante', 'Raz√≥n Social Aportante', 'fecha_ingreso', 'Correo Electr√≥nico']], on=['Tp_Do', 'No_Do'], how='left')
print(df_sin_pagos.columns)

### 4.1.2. üßÆ Consolidaci√≥n √önica de Afiliados Sin Pagos

Una vez enriquecida la base `df_sin_pagos` con informaci√≥n laboral y de contacto, este paso tiene como objetivo asegurar que cada afiliado aparezca una sola vez en el listado, independientemente de cu√°ntas relaciones laborales tenga registradas.

**Pasos realizados:**
1. Se eliminan duplicados utilizando como clave de unicidad la combinaci√≥n `Tp_Do` + `No_Do` (tipo y n√∫mero de documento del afiliado).
2. Se conserva √∫nicamente un registro por afiliado para evitar alertas o notificaciones duplicadas.

**Resultado:**
Una base de afiliados sin pagos depurada y consolidada, con un registro √∫nico por persona, lista para priorizaci√≥n operativa o generaci√≥n de reportes para el √°rea de Aseguramiento.


In [None]:
print(f"Cantidad de registros sin pagos: {len(df_sin_pagos)}")
# Dejar valores √∫nicos en df_sin_pagos seg√∫n las columnas ['Tp_Do', 'No_Do']
df_sin_pagos = df_sin_pagos.drop_duplicates(subset=['Tp_Do', 'No_Do'])

# Mostrar las primeras filas del dataframe resultante para verificar
print(f"Cantidad de registros √∫nicos en df_sin_pagos: {len(df_sin_pagos)}")
print(df_sin_pagos.columns)

### 4.1.3. üîÅ Revalidaci√≥n Final de Afiliados Sin Pagos

Luego del proceso de enriquecimiento y consolidaci√≥n de `df_sin_pagos`, se realiza una revalidaci√≥n cruzando nuevamente con `df_unique_aportantes` para asegurar que los afiliados seleccionados no hayan sido incorporados por error durante etapas intermedias del an√°lisis.

**Pasos realizados:**
1. Se aseguran los formatos de las columnas `No_Do` como `string` para evitar errores de uni√≥n.
2. Se vuelve a cruzar la base de sin pagos con los afiliados presentes en PILA consolidada (`df_unique_aportantes`) para garantizar exclusividad.
3. Se aplica nuevamente el filtro de afiliados tipo `"C"` y con estado `"AC"` en ADRES.

**Resultado:**
Una validaci√≥n final que garantiza que los afiliados listados en `df_sin_pagos` no tienen registros en PILA, est√°n activos ante ADRES, y pertenecen al r√©gimen contributivo, con un √∫nico registro por persona.


In [None]:
# Convert No_Do to string type in both dataframes
df_sin_pagos['No_Do'] = df_sin_pagos['No_Do'].astype(str)
df_unique_aportantes['No_Do'] = df_unique_aportantes['No_Do'].astype(str)

# Now perform the merge
df_sin_pagos = df_sin_pagos.merge(df_unique_aportantes, on=["Tp_Do", "No_Do"], how="left", indicator=True)
df_sin_pagos = df_sin_pagos[df_sin_pagos["_merge"] == "left_only"].drop(columns=["_merge"])

# Filter records with required conditions
df_sin_pagos = df_sin_pagos[(df_sin_pagos['Tp_Afiliado'] == 'C') & (df_sin_pagos['Estado_ADRES'] == 'AC')]

# Show results
print(f"Cantidad de registros sin pagos: {len(df_sin_pagos)}")
print(df_sin_pagos.columns)

### 4.1.4. üß± Estandarizaci√≥n Estructural y Reorganizaci√≥n de Afiliados Sin Pagos

Con el fin de permitir una futura concatenaci√≥n o an√°lisis conjunto entre `df_sin_pagos` y `df_pila_i_sie`, este paso ajusta la estructura del DataFrame `df_sin_pagos` para que coincida exactamente con el esquema de columnas, tipos y orden de la base consolidada de PILA.

**Pasos realizados:**

1. **Creaci√≥n de columnas faltantes**: Se agregan campos que no existen en `df_sin_pagos`, asignando valores por defecto:
   - Num√©ricos: `Tipo Cotizante`, `D√≠as Cotizados`, `Ingreso Base Cotizaci√≥n`, `N√∫mero Planilla`, etc.
   - Categ√≥ricos: `Direcci√≥n de Correspondencia`, `Correcciones`, `origen` (establecido como `"MC_ADRES"`).
   - Fechas: `Perido Pago` y `fecha_ingreso` se inicializan como vac√≠as (`datetime`).

2. **Conversi√≥n de tipos de datos**: Se aseguran tipos consistentes con `df_pila_i_sie`:
   - `int64` para campos num√©ricos.
   - `float64` para ingresos base.
   - `str` con relleno (`zfill`) para c√≥digos de `Departamento` (2 d√≠gitos) y `Municipio` (3 d√≠gitos).

3. **Reorganizaci√≥n de columnas**: Se reordena el DataFrame `df_sin_pagos` para que el orden de las columnas sea id√©ntico al de `df_pila_i_sie`, facilitando la uni√≥n vertical (`concat`) o an√°lisis conjunto.

**Resultado:**
Una versi√≥n totalmente estructurada de los afiliados sin pagos, con la misma forma, tipos y orden que la base de PILA consolidada, lista para integraci√≥n, visualizaci√≥n o exportaci√≥n operativa.

In [None]:
# Add new columns to df_sin_pagos
df_sin_pagos['No_Do'] = df_sin_pagos['No_Do'].astype('int64')
df_sin_pagos['N¬∞ Identificaci√≥n Aportante'] = df_sin_pagos['N¬∞ Identificaci√≥n Aportante'].fillna(0).astype('int64')
df_sin_pagos['Tipo Cotizante'] = 0
df_sin_pagos['Tipo Cotizante'] = df_sin_pagos['Tipo Cotizante'].astype('int64')
df_sin_pagos['Direcci√≥n de Correspondencia'] = ""
df_sin_pagos['Perido Pago'] = pd.to_datetime("")
df_sin_pagos['Fecha Pago'] = ""

df_sin_pagos['ING'] = 0
df_sin_pagos['ING'] = df_sin_pagos['ING'].astype('int64')
df_sin_pagos['RET'] = 0
df_sin_pagos['RET'] = df_sin_pagos['RET'].astype('int64')
df_sin_pagos['D√≠as Cotizados'] = 0
df_sin_pagos['D√≠as Cotizados'] = df_sin_pagos['D√≠as Cotizados'].astype('int64')
df_sin_pagos['Ingreso Base Cotizaci√≥n'] = 0
df_sin_pagos['Ingreso Base Cotizaci√≥n'] = df_sin_pagos['Ingreso Base Cotizaci√≥n'].astype('float64')
df_sin_pagos['Correcciones'] = ""
df_sin_pagos['N√∫mero Planilla'] = 0
df_sin_pagos['N√∫mero Planilla'] = df_sin_pagos['N√∫mero Planilla'].astype('int64')
df_sin_pagos['Departamento'] = df_sin_pagos['Departamento'].astype('int64')
df_sin_pagos['Departamento'] = df_sin_pagos['Departamento'].astype(str).str.zfill(2)
df_sin_pagos['Municipio'] = df_sin_pagos['Municipio'].astype('int64')
df_sin_pagos['Municipio'] = df_sin_pagos['Municipio'].astype(str).str.zfill(3)
df_sin_pagos['origen'] = "MC_ADRES"

df_pila_i_sie['Tipo Cotizante'] = df_pila_i_sie['Tipo Cotizante'].fillna(0).astype('int64')
df_pila_i_sie['ING'] = df_pila_i_sie['ING'].fillna(0).astype('int64')
df_pila_i_sie['RET'] = df_pila_i_sie['RET'].fillna(0).astype('int64')
df_pila_i_sie['Departamento'] = df_pila_i_sie['Departamento'].astype('int64')
df_pila_i_sie['Departamento'] = df_pila_i_sie['Departamento'].astype(str).str.zfill(2)
df_pila_i_sie['Municipio'] = df_pila_i_sie['Municipio'].astype('int64')
df_pila_i_sie['Municipio'] = df_pila_i_sie['Municipio'].astype(str).str.zfill(3)
df_pila_i_sie['fecha_ingreso'] = pd.to_datetime("")

In [None]:
# Reorganizar las columnas de df_sin_pagos en el orden especificado
column_order = ['Raz√≥n Social Aportante', 'Tipo Documento Aportante', 'N¬∞ Identificaci√≥n Aportante', 'Direcci√≥n de Correspondencia', 'Correo Electr√≥nico', 'Perido Pago', 'Fecha Pago', 'Tp_Do', 'No_Do', 'Tipo Cotizante', 'ING', 'RET', 'D√≠as Cotizados', 'Ingreso Base Cotizaci√≥n', 'Correcciones', 'N√∫mero Planilla', 'origen', '1A', '2A', '1N', '2N', 'Tp_Afiliado', 'Departamento', 'Municipio', 'Estado_ADRES', 'Sisben', 'fecha_ingreso']
df_sin_pagos = df_sin_pagos[column_order]

### 4.1.5. üß© Integraci√≥n Final: Uni√≥n de Afiliados con Pagos y Sin Pagos

Una vez estructuradas ambas fuentes (`df_pila_i_sie` y `df_sin_pagos`) con el mismo esquema de columnas, se realiza la concatenaci√≥n vertical de los registros, unificando en un √∫nico DataFrame todos los afiliados del r√©gimen contributivo que se encuentran en estado activo seg√∫n ADRES.

**Pasos realizados:**

1. Se imprime la cantidad de registros en cada base antes de la uni√≥n:
   - `df_pila_i_sie`: Afiliados con pagos registrados en PILA (operador o ADRES).
   - `df_sin_pagos`: Afiliados activos en ADRES sin evidencia de pagos.

2. Se concatenan ambos DataFrames utilizando `pd.concat([...], ignore_index=True)` para generar un √≠ndice limpio.

3. Se imprime la cantidad total de registros resultantes tras la integraci√≥n.

**Resultado:**
Una √∫nica base maestra (`df_pila_i_sie`) que contiene:
- Afiliados con v√≠nculo laboral y pagos identificables.
- Afiliados sin pagos, pero con v√≠nculo y estado activo en ADRES.

Esta integraci√≥n servir√° de insumo para reportes finales y estrategias de intervenci√≥n por parte del √°rea de Aseguramiento de Capresoca EPS.

In [None]:
print(f"Cantidad de registros sin pagos: {len(df_sin_pagos)}")
print(f"Cantidad de registros PAgos SIE pagos: {len(df_pila_i_sie)}")
df_pila_i_sie = pd.concat([df_pila_i_sie, df_sin_pagos], ignore_index=True)
print(f"Cantidad de registros Total: {len(df_pila_i_sie)}")

## 4.2. üßØ Depuraci√≥n Final: Exclusi√≥n de Registros Retirados y Fuera de Periodo

Despu√©s de unificar la base de afiliados con y sin pagos, se realiza un nuevo filtrado para excluir los registros que corresponden a afiliados retirados o cuya cotizaci√≥n pertenece al per√≠odo actual (en curso), ya que estos no requieren intervenci√≥n inmediata.

**Pasos realizados:**

1. Se asegura que la columna `Perido Pago` est√© en formato `datetime`.
2. Se eliminan los registros con novedad de retiro (`RET = 1`), ya que estos afiliados ya no hacen parte activa del sistema.
3. Se restringe el an√°lisis a registros con `Perido Pago` **anterior al mes actual**, o sin informaci√≥n en esa columna (`NaT`), asumiendo que estas omisiones tambi√©n podr√≠an representar casos sin cotizaci√≥n reciente.

**Variable utilizada:**
- `V_Periodo_Actual`: variable definida previamente que representa el primer d√≠a del mes actual.

**Resultado:**
Una base m√°s precisa para an√°lisis operativo, centrada en afiliados activos sin retiro reciente y con cotizaciones omitidas o desactualizadas, lista para priorizaci√≥n o intervenci√≥n por parte del √°rea de Aseguramiento.


In [None]:
# Ensure 'Perido Pago' is datetime
print(f"Cantidad de registros df_pila_i_sie: {len(df_pila_i_sie)}")

df_pila_i_sie['Perido Pago'] = pd.to_datetime(df_pila_i_sie['Perido Pago'], errors='coerce')

# Filter out records where RET = 1
df_pila_i_sie = df_pila_i_sie[
    (df_pila_i_sie['RET'] != 1) &
    ((df_pila_i_sie['Perido Pago'] < pd.to_datetime(V_Periodo_Actual)) | (df_pila_i_sie['Perido Pago'].isna()))
]
print(f"Cantidad de registros despu√©s de filtrar RET != 1: {len(df_pila_i_sie)}")

## 4.3. üìä Clasificaci√≥n de Afiliados seg√∫n Estado de Cartera

En este paso se asigna a cada afiliado un estado de cartera (`Sin Pagos`, `Mora`, `Aviso`, `Al D√≠a`) en funci√≥n de la fecha de su √∫ltimo per√≠odo cotizado (`Perido Pago`), comparada con los umbrales definidos por la EPS.

**Variables utilizadas:**
- `Mora`: fecha l√≠mite para considerar que un afiliado ha ca√≠do en mora.
- `Dia`: fecha a partir de la cual un afiliado puede considerarse al d√≠a.

**Clasificaci√≥n aplicada:**
1. Se crea la columna `Cartera` con valor por defecto `"Sin Pagos"`, para casos sin `Perido Pago`.
2. Para afiliados con fecha v√°lida:
   - Si `Perido Pago` < `Mora`: se clasifica como `"mora"`.
   - Si `Mora` ‚â§ `Perido Pago` < `Dia`: se clasifica como `"Aviso"`.
   - Si `Perido Pago` ‚â• `Dia`: se clasifica como `"Al D√≠a"`.

**Resultado:**
Cada afiliado queda clasificado seg√∫n su nivel de riesgo de cartera, permitiendo priorizar acciones correctivas, preventivas o informativas desde el √°rea de Aseguramiento.

In [None]:
# Create new column 'Cartera' based on conditions
df_pila_i_sie['Cartera'] = 'Sin Pagos'  # Default value

# Convert Mora to datetime
mora_date = pd.to_datetime(Mora)
Dia_date = pd.to_datetime(Dia)

# Update values based on conditions for non-null Perido Pago
mask = df_pila_i_sie['Perido Pago'].notna()
df_pila_i_sie.loc[mask & (df_pila_i_sie['Perido Pago'] < mora_date), 'Cartera'] = 'mora'
df_pila_i_sie.loc[mask & (df_pila_i_sie['Perido Pago'] >= mora_date), 'Cartera'] = 'Aviso'
df_pila_i_sie.loc[mask & (df_pila_i_sie['Perido Pago'] >= Dia_date), 'Cartera'] = 'Al Dia'
print(f"Cantidad de registros df_pila_i_sie: {len(df_pila_i_sie)}")

## 4.4. üß∑ Consolidaci√≥n del V√≠nculo Laboral Vigente por Afiliado

Como preparaci√≥n para reportes o an√°lisis posteriores, se depura la base de relaciones laborales internas (`df_Relaciones_Laborales_SIE`) para conservar √∫nicamente un registro por afiliado, correspondiente a su v√≠nculo laboral m√°s reciente.

**Pasos realizados:**

1. Se ordena la base por:
   - Tipo y n√∫mero de documento (`Tp_Do`, `No_Do`).
   - Fecha de ingreso (`fecha_ingreso`), en orden descendente (del m√°s reciente al m√°s antiguo).
2. Se eliminan duplicados, conservando solo el primer registro de cada afiliado (que ser√° el m√°s reciente por el orden aplicado).
3. Se reinicia el √≠ndice del DataFrame resultante.

**Resultado:**
Una base consolidada con un √∫nico v√≠nculo laboral vigente por afiliado, √∫til para reportes operativos, validaci√≥n de empresas activas, o an√°lisis de posibles evasores reincidentes por empresa.


In [None]:
# Sort by date in descending order and keep first record for each ID
df_Relaciones_Laborales_SIE = df_Relaciones_Laborales_SIE.sort_values(
    by=['Tp_Do', 'No_Do', 'fecha_ingreso'], 
    ascending=[True, True, False]
)

# Drop duplicates keeping first record (which will be the one with max date due to sort)
df_Relaciones_Laborales_SIE = df_Relaciones_Laborales_SIE.drop_duplicates(
    subset=['Tp_Do', 'No_Do'], 
    keep='first'
)

# Reset the index if needed
df_Relaciones_Laborales_SIE = df_Relaciones_Laborales_SIE.reset_index(drop=True)

print(f"Cantidad de registros despu√©s de eliminar duplicados: {len(df_Relaciones_Laborales_SIE)}")

## 4.5. üìÖ Validaci√≥n del Rango Temporal del Per√≠odo de Pago

Para asegurar que el an√°lisis de cartera y los reportes se concentren en datos v√°lidos y coherentes, se realiza un filtrado final sobre la columna `Perido Pago` para excluir fechas fuera de rango o err√≥neas.

**Pasos realizados:**

1. Se convierte la columna `Perido Pago` al formato `datetime` con estructura `dd/mm/yyyy`.
2. Se define un rango v√°lido entre:
   - `2024-01-01` (inicio del an√°lisis operativo).
   - `2050-12-31` (l√≠mite preventivo ante errores de digitaci√≥n).
3. Se conserva:
   - Registros cuyo `Perido Pago` est√© dentro del rango definido.
   - Registros con `Perido Pago` vac√≠o (`NaT`), v√°lidos para clasificaciones como "Sin Pagos".

**Resultado:**
Una base libre de errores por fechas an√≥malas, con periodos de pago consistentes y apta para reportes operativos, priorizaci√≥n o generaci√≥n de alertas autom√°ticas.

In [None]:
# Convertir la columna 'Perido Pago' al formato datetime con el formato dd/mm/yyyy
df_pila_i_sie['Perido Pago'] = pd.to_datetime(df_pila_i_sie['Perido Pago'], format='%d/%m/%Y', errors='coerce')

# Definir el rango de fechas deseado
start_date = pd.to_datetime('2024-01-01')
end_date   = pd.to_datetime('2050-12-31')

# Filtrar: conservar los registros cuyo 'Perido Pago' est√© vac√≠o o est√© entre las fechas definidas
mask = df_pila_i_sie['Perido Pago'].isna() | ((df_pila_i_sie['Perido Pago'] >= start_date) & (df_pila_i_sie['Perido Pago'] <= end_date))
df_pila_i_sie = df_pila_i_sie[mask]

print(f"Cantidad de registros despu√©s del filtrado: {len(df_pila_i_sie)}")

## 4.6. üóìÔ∏è Formateo Final de Fechas para Reportes y Exportaci√≥n

Para facilitar la interpretaci√≥n de los datos y cumplir con los est√°ndares visuales de presentaci√≥n de reportes, se convierten las columnas de tipo fecha al formato `DD/MM/YYYY`, tradicionalmente utilizado en documentos administrativos en Colombia.

**Pasos realizados:**
1. Se define la lista `columnas_fecha` con las columnas que contienen fechas relevantes:
   - `Perido Pago`
   - `fecha_ingreso`
2. Para cada columna en esa lista:
   - Se convierte su contenido al tipo `datetime` (con manejo de errores).
   - Se transforma al formato `d√≠a/mes/a√±o` usando `.dt.strftime('%d/%m/%Y')`.

**Resultado:**
Un DataFrame `df_pila_i_sie` con todas las fechas visibles en formato amigable para lectura humana, listo para ser exportado a Excel o utilizado en informes del √°rea de Aseguramiento.

In [None]:
# Lista de columnas que contienen fechas (ajusta seg√∫n tu DataFrame)
columnas_fecha = ['Perido Pago', 'fecha_ingreso']  # Reempl√°zalas con los nombres reales

# Convertir las columnas de fecha al formato DD/MM/YYYY
for col in columnas_fecha:
    df_pila_i_sie[col] = pd.to_datetime(df_pila_i_sie[col], errors='coerce').dt.strftime('%d/%m/%Y')

## 4.7. üß¨ Normalizaci√≥n del NIT del Aportante para Consolidaci√≥n Empresarial

En este paso se corrigen variaciones del n√∫mero de identificaci√≥n del aportante (`N¬∞ Identificaci√≥n Aportante`) que podr√≠an representar a una misma empresa, pero con extensiones, errores o sufijos que afectan el an√°lisis agrupado.

**Objetivo:**  
Consolidar planillas o relaciones laborales bajo un √∫nico identificador base por empresa, especialmente cuando existen NITs como `800123456`, `800123456-1`, `800123456001`, etc.

**Pasos realizados:**

1. Se convierten todos los NITs a tipo `str` para manipulaci√≥n segura.
2. Se ordena la lista √∫nica de identificaciones por longitud creciente, asumiendo que el ID base es el m√°s corto.
3. Se crea un diccionario `id_map` que relaciona cada ID extendido con su versi√≥n base, si comparte el prefijo.
4. Se genera una nueva columna auxiliar `Id_Normalizado` aplicando ese mapeo.
5. Se eliminan duplicados por aportante y afiliado (`Id_Normalizado`, `Tp_Do`, `No_Do`), conservando el primer registro.
6. Finalmente, se elimina la columna auxiliar para dejar limpia la estructura.

**Resultado:**
Una base consolidada por empresa aportante, libre de fragmentaciones causadas por NITs con sufijos o inconsistencias, lista para an√°lisis agregados, generaci√≥n de reportes o agrupamientos confiables.

In [None]:
# Paso 1: Convertir todos los ID a string para evitar errores
df_pila_i_sie["N¬∞ Identificaci√≥n Aportante"] = df_pila_i_sie["N¬∞ Identificaci√≥n Aportante"].astype(str)

# Paso 2: Obtener lista √∫nica de identificaciones ordenadas por longitud ascendente
ids_unicos = sorted(df_pila_i_sie["N¬∞ Identificaci√≥n Aportante"].unique(), key=len)

# Paso 3: Crear un diccionario para mapear los IDs con sus equivalentes base (m√°s cortos)
id_map = {}

for i, base_id in enumerate(ids_unicos):
    for other_id in ids_unicos[i+1:]:
        if other_id.startswith(base_id):
            id_map[other_id] = base_id

# Paso 4: Aplicar el mapeo al DataFrame
def mapear_id(ident):
    return id_map.get(ident, ident)

df_pila_i_sie["Id_Normalizado"] = df_pila_i_sie["N¬∞ Identificaci√≥n Aportante"].apply(mapear_id)

# Paso 5: Eliminar duplicados
df_pila_i_sie = df_pila_i_sie.drop_duplicates(subset=["Id_Normalizado", "Tp_Do", "No_Do"], keep='first')

# (Opcional) Eliminar la columna auxiliar
df_pila_i_sie = df_pila_i_sie.drop(columns=["Id_Normalizado"])

## 4.8. üß© Enriquecimiento de Contacto desde el Maestro SIE

Despu√©s de consolidar y normalizar los registros, se identificaron afiliados cuyos campos de contacto (`Direcci√≥n de Correspondencia`, `Tel√©fono`, `Correo Electr√≥nico`) estaban vac√≠os. Para complementar esta informaci√≥n, se utiliz√≥ el maestro de datos del sistema interno SIE (`Df_SIE`), cruzado por tipo y n√∫mero de documento.

**Pasos realizados:**

1. Se seleccionaron los campos relevantes del archivo maestro: `tipo_documento`, `numero_identificacion`, `direccion`, `celular`, `correo_electronico`.
2. Se renombraron para facilitar la uni√≥n con `df_pila_i_sie`.
3. Se aplic√≥ un `merge` por `Tp_Do` y `No_Do`.
4. Se actualizaron los campos vac√≠os del DataFrame principal √∫nicamente cuando los valores originales estaban en blanco (`""` o `NaN`).

**Resultado:**
Una base enriquecida con mayor cobertura de informaci√≥n de contacto para los afiliados, lo cual facilita la **notificaci√≥n oportuna** y la **gesti√≥n proactiva de cartera** por parte del √°rea de Aseguramiento de Capresoca EPS.

In [None]:
# --- Paso 1: Asegurar que los IDs est√©n en el mismo formato ---
df_pila_i_sie["Tp_Do"] = df_pila_i_sie["Tp_Do"].astype(str)
df_pila_i_sie["No_Do"] = df_pila_i_sie["No_Do"].astype(str)
Df_SIE["tipo_documento"] = Df_SIE["tipo_documento"].astype(str)
Df_SIE["numero_identificacion"] = Df_SIE["numero_identificacion"].astype(str)

# --- Paso 2: Seleccionar columnas relevantes del maestro del SIE ---
Df_SIE_contacto = Df_SIE[["tipo_documento", "numero_identificacion", "direccion", "celular", "correo_electronico"]].copy()

# --- Paso 3: Renombrar columnas para facilitar el merge ---
Df_SIE_contacto = Df_SIE_contacto.rename(columns={
    "tipo_documento": "Tp_Do",
    "numero_identificacion": "No_Do",
    "direccion": "Direcci√≥n de Correspondencia",
    "celular": "Tel√©fono",
    "correo_electronico": "Correo Electr√≥nico"
})

# --- Paso 4: Realizar el merge solo si las columnas est√°n vac√≠as ---
campos_contacto = ["Direcci√≥n de Correspondencia", "Tel√©fono", "Correo Electr√≥nico"]

for campo in campos_contacto:
    df_pila_i_sie[campo] = df_pila_i_sie[campo].fillna("")

df_pila_i_sie = df_pila_i_sie.merge(
    Df_SIE_contacto,
    on=["Tp_Do", "No_Do"],
    how="left",
    suffixes=('', '_SIE')
)

# --- Paso 5: Completar campos faltantes con valores del SIE ---
for campo in campos_contacto:
    df_pila_i_sie[campo] = df_pila_i_sie[campo].mask(df_pila_i_sie[campo] == "", df_pila_i_sie[f"{campo}_SIE"])
    df_pila_i_sie = df_pila_i_sie.drop(columns=[f"{campo}_SIE"])

## 4.9. ‚úâÔ∏è Validaci√≥n de Correos Electr√≥nicos

Con el fin de garantizar que las estrategias de notificaci√≥n y comunicaci√≥n con los afiliados sean efectivas, se implementa una funci√≥n de validaci√≥n que detecta correos electr√≥nicos **inv√°lidos operativamente**, aunque sean t√©cnicamente v√°lidos en cuanto a su formato.

**Motivaci√≥n:**
Muchos registros contienen correos gen√©ricos, falsos o placeholders, como:
- `actualizar@actualizar.com`
- `notiene@gmail.com`
- `a@a.com`
- `correo@correo.com`
- Correos de prueba (`ejemplo@...`, `test@...`, etc.)

Este tipo de valores impide contactar al afiliado y generan falsos positivos en indicadores de cobertura de contacto.

In [None]:
import pandas as pd
import re

# Lista exacta de correos inv√°lidos comunes
CORREOS_INVALIDOS_EXACTOS = {
    "a@a.com", "email@email.com", "correo@correo.com", "correo@noexiste.com", "notiene@gmail.com"
}

# Palabras clave que invalidan si aparecen solas o son parte de un patr√≥n corto
CORREOS_PALABRAS_INVALIDAS = [
    "sincorreo", "sin_correo", "NOTINE", "no_tiene", "notiene", "actualizar", "ejemplo", "test", "prueba", "aaa", "xxxx", " "
]

# Expresi√≥n regular para validar la estructura del correo
regex_valido = re.compile(r"^[\w\.-]+@[\w\.-]+\.\w+$")

def validar_correo_operativo(correo):
    if pd.isna(correo):
        return False

    correo = str(correo).strip().lower()

    # Validaci√≥n 1: estructura b√°sica v√°lida
    if not regex_valido.match(correo):
        return False

    # Validaci√≥n 2: coincidencia exacta con correos inv√°lidos
    if correo in CORREOS_INVALIDOS_EXACTOS:
        return False

    # Validaci√≥n 3: patrones sospechosos en la parte local del correo
    local_part = correo.split('@')[0]
    for palabra in CORREOS_PALABRAS_INVALIDAS:
        if palabra in local_part:
            return False

    # Validaci√≥n 4: longitud m√≠nima total
    if len(correo) < 10:
        return False

    return True

# Aplicar validaci√≥n al dataframe
df_pila_i_sie["Correo_V√°lido"] = df_pila_i_sie["Correo Electr√≥nico"].apply(validar_correo_operativo)

# (Opcional) Crear subconjunto con solo los v√°lidos
df_correos_validos = df_pila_i_sie[df_pila_i_sie["Correo_V√°lido"] == True]


## 4.10. üì± Validaci√≥n y Normalizaci√≥n de N√∫meros Telef√≥nicos seg√∫n Normativa Colombiana

Con el objetivo de asegurar la calidad y operatividad de los n√∫meros telef√≥nicos registrados en la base `df_pila_i_sie`, se implementa una funci√≥n que **limpia, valida y clasifica** los datos de contacto con base en la normativa actual de marcaci√≥n telef√≥nica en Colombia.

---

### üéØ Motivaci√≥n

Durante el proceso de an√°lisis se identificaron m√∫ltiples problemas como:

- Formatos inconsistentes: `310-2267612` ‚Üí `3102267612`
- Entradas gen√©ricas o inv√°lidas: `"actualizar"`, `"ninguno"`, `"no tiene"`, `"0000000000"`, `"99999999"`
- N√∫meros con longitud incorrecta (menos de 10 d√≠gitos o no normativos)

Estos errores dificultan las estrategias de **contacto, cobranza y seguimiento de cartera**.

---

### üõ†Ô∏è Reglas de Validaci√≥n Aplicadas

| Tipo de L√≠nea              | Longitud esperada | Prefijo requerido          | Ejemplo v√°lido       |
|---------------------------|-------------------|-----------------------------|-----------------------|
| **Tel√©fono m√≥vil**        | 10 d√≠gitos        | Inicia con `3`              | `3102267612`         |
| **L√≠nea fija nacional**   | 10 d√≠gitos        | Inicia con `60` + indicativo (`1`, `2`, `4`, `5`, `6`, `7`, `8`) | `6012345678` |
| **L√≠nea gratuita (toll-free)** | 11 d√≠gitos    | Inicia con `01800`          | `018005556789`        |
| ‚ùå **L√≠neas de emergencia** | 3 d√≠gitos         | `123`, `112`, etc. ‚Üí **no v√°lidas** | ‚Äî                   |

---

### üßπ Proceso de Limpieza y Validaci√≥n

1. Se eliminan todos los caracteres no num√©ricos (como `-`, espacios, par√©ntesis).
2. Se descartan entradas con palabras clave como `"sin"`, `"no tiene"`, `"actualizar"`, etc.
3. Se eval√∫a si el n√∫mero cumple con las reglas de longitud y prefijo seg√∫n la tabla anterior.
4. Se generan dos nuevas columnas:
   - `Tel√©fono_Normalizado`: n√∫mero limpio, solo con d√≠gitos.
   - `Tel√©fono_V√°lido`: indicador booleano (`True`/`False`) seg√∫n las reglas anteriores.

---

### ‚úÖ Resultado

Este control de calidad permite **focalizar las estrategias de contacto** en n√∫meros verificados, operativos y √∫tiles para procesos de notificaci√≥n, cobranza o contacto institucional, mejorando la eficiencia y reduciendo reprocesos.



In [None]:
TELEFONOS_INVALIDOS = [
    "actualizar", "sin", "ninguno", "no tiene", "desconocido", "no registra", "prueba"
]

EMERGENCY_NUMBERS = {'123', '112', '119', '132', '144', '155'}

def validar_telefono_co(tel):
    if pd.isna(tel):
        return "", False

    tel_raw = str(tel).strip().lower()
    for palabra in TELEFONOS_INVALIDOS:
        if palabra in tel_raw:
            return "", False

    tel_num = re.sub(r'\D', '', tel_raw)

    if len(tel_num) == 3 and tel_num in EMERGENCY_NUMBERS:
        return tel_num, False

    if len(tel_num) == 11 and tel_num.startswith('01800'):
        return tel_num, True

    if len(tel_num) == 10:
        if tel_num.startswith('3'):
            return tel_num, True
        if tel_num.startswith('60') and tel_num[2] in {'1','2','4','5','6','7','8'}:
            return tel_num, True
        return tel_num, False

    return tel_num, False

df_pila_i_sie[['Tel_Normalizado', 'Tel√©fono_V√°lido']] = df_pila_i_sie['Tel√©fono'].apply(
    lambda x: pd.Series(validar_telefono_co(x))
)

# 5. üìä Indicadores Clave de Desempe√±o (KPIs) del Proceso de Cartera

Con el objetivo de medir la efectividad y cobertura del proceso de generaci√≥n de cartera, se calculan KPIs estrat√©gicos por cada ejecuci√≥n del modelo.

Estos indicadores permiten realizar seguimiento a la evoluci√≥n del comportamiento de pagos, la calidad de los datos de contacto y la cobertura institucional del sistema de aseguramiento.

**M√©tricas calculadas:**

- `Fecha Generaci√≥n`: Fecha en que se ejecut√≥ el proceso.
- `Total Registros`: Total de registros analizados.
- `Sin Pagos`: Afiliados sin ning√∫n registro de pago.
- `En Mora`: Afiliados con √∫ltimo pago anterior a la fecha de corte.
- `En Aviso`: Afiliados que requieren seguimiento (pero no est√°n en mora).
- `Empresas Aportantes`: N√∫mero de empleadores distintos en la base.
- `Afiliados √önicos`: N√∫mero de afiliados identificados por documento.
- `Correos V√°lidos`: Afiliados con correos operativos verificados.
- `Tel√©fonos V√°lidos`: Afiliados con tel√©fonos operativos verificados.

El resultado se guarda en un DataFrame (`resumen_kpis`) para su posterior exportaci√≥n y an√°lisis comparativo en el tiempo.


In [None]:
# 5. KPIs Operativos de Cartera

from datetime import datetime

# --- Fecha de generaci√≥n del reporte ---
fecha_generacion = pd.to_datetime("today").strftime('%Y-%m-%d')

# --- Total general de registros ---
total_registros = len(df_pila_i_sie)

# --- Registros por tipo de cartera ---
conteo_cartera = df_pila_i_sie["Cartera"].value_counts().to_dict()
mora = conteo_cartera.get("mora", 0)
aviso = conteo_cartera.get("Aviso", 0)
sin_pagos = conteo_cartera.get("Sin Pagos", 0)

# --- N√∫mero de empresas distintas (aportantes) ---
empresas = df_pila_i_sie["N¬∞ Identificaci√≥n Aportante"].nunique()

# --- N√∫mero de afiliados √∫nicos ---
afiliados = df_pila_i_sie["No_Do"].nunique()

# --- Correos v√°lidos ---
correos_validos = df_pila_i_sie["Correo_V√°lido"].sum()

# --- Tel√©fonos v√°lidos ---
telefonos_validos = df_pila_i_sie["Tel√©fono_V√°lido"].sum()

# --- Crear DataFrame resumen ---
resumen_kpis = pd.DataFrame([{
    "Fecha Generaci√≥n": fecha_generacion,
    "Total Registros": total_registros,
    "Sin Pagos": sin_pagos,
    "En Mora": mora,
    "En Aviso": aviso,
    "Empresas Aportantes": empresas,
    "Afiliados √önicos": afiliados,
    "Correos V√°lidos": correos_validos,
    "Tel√©fonos V√°lidos": telefonos_validos
}])


# 6. Generaci√≥n de reportes para aseguramiento

In [None]:
#df_pila_i_sie.to_excel(R_Salida_Pila_SIE_i, index=False, engine='openpyxl')
#df_Relaciones_Laborales_SIE.to_csv(R_Salida_Relaciones_Laborales, sep=',', index=False, encoding='ANSI')

In [None]:
df_pila_i_sie.columns

In [134]:
import xlsxwriter

with pd.ExcelWriter(R_Salida_Pila_SIE_i, engine='xlsxwriter') as writer:
    # Exportar las hojas normales
    df_pila_i_sie.to_excel(writer, sheet_name='Cartera Consolidada', index=False)
    logs_3047.to_excel(writer, sheet_name='Logs_3047', index=False)
    logs_pila.to_excel(writer, sheet_name='Logs_PILA', index=False)

    # Escribir KPIs
    resumen_kpis.to_excel(writer, sheet_name='Resumen_KPIs', index=False)

    # Obtener el libro y la hoja de KPIs
    workbook = writer.book
    worksheet = writer.sheets['Resumen_KPIs']

    # --- Formatos personalizados ---
    header_format = workbook.add_format({
        'bold': True,
        'text_wrap': True,
        'valign': 'center',
        'align': 'center',
        'border': 1,
        'bg_color': '#004C97',  # Azul institucional
        'font_color': 'white'
    })

    body_format = workbook.add_format({
        'valign': 'center',
        'align': 'center',
        'border': 1,
        'bg_color': '#E9EDF5'  # Gris muy claro
    })

    number_format = workbook.add_format({
        'num_format': '#,##0',
        'valign': 'center',
        'align': 'center',
        'border': 1,
        'bg_color': '#E9EDF5'
    })

    date_format = workbook.add_format({
        'num_format': 'dd/mm/yyyy',
        'valign': 'center',
        'align': 'center',
        'border': 1,
        'bg_color': '#E9EDF5'
    })

    # --- Aplicar formato a cada celda ---
    for col_num, value in enumerate(resumen_kpis.columns):
        # Escribir encabezado con formato
        worksheet.write(0, col_num, value, header_format)

        # Aplicar formatos por tipo de dato
        if "Fecha" in value:
            fmt = date_format
        elif resumen_kpis.dtypes[value] in ['int64', 'float64']:
            fmt = number_format
        else:
            fmt = body_format

        # Aplicar a la(s) fila(s) de datos (asumiendo una sola fila de KPIs)
        worksheet.write(1, col_num, resumen_kpis.iloc[0, col_num], fmt)

        # Autoajustar ancho de columna
        col_width = max(len(str(value)), len(str(resumen_kpis.iloc[0, col_num]))) + 2
        worksheet.set_column(col_num, col_num, col_width)