# modulos y rutas

In [None]:
# Importar librer√≠as necesarias
import os  # Para trabajar con rutas del sistema
import pandas as pd  # Para trabajar con dataframes y archivos Excel
import numpy as np  # Para operaciones num√©ricas
import re  # Para validaci√≥n de correos electr√≥nicos
from datetime import datetime  # Para trabajar con fechas
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from datetime import datetime
import sys
from pathlib import Path

## DETECCI√ìN AUTOM√ÅTICA DEL PROYECTO

In [None]:
# ========================
# üîß DETECCI√ìN AUTOM√ÅTICA DEL PROYECTO
# ========================
notebook_path = Path.cwd()
project_root = notebook_path

while not (project_root / 'src').exists() and project_root != project_root.parent:
    project_root = project_root.parent

if str(project_root) not in sys.path:
    sys.path.insert(0, str(project_root))
    print(f"‚úÖ Proyecto detectado: {project_root}")

## üö©CONFIGURACI√ìN (SOLO EDITAR AQU√ç)

In [None]:
# ========================
# üìÖ CONFIGURACI√ìN (SOLO EDITAR AQU√ç)
# ========================
# Fecha principal del proceso
Fecha = "15-02-2026"  # Formato: DD-MM-YYYY

# üìÖ Fechas espec√≠ficas de archivos (editar seg√∫n disponibilidad)
FECHAS_ARCHIVOS = {
    "ms_sie": None,           # None = usa fecha principal
    "ms_adres": "10-02-2026", # Fecha espec√≠fica del maestro ADRES
    "sisben": None,           # None = usa fecha principal
    "pr": None,               # None = usa fecha principal (formato nombre archivo)
}

# Informaci√≥n del informe CTO (editar seg√∫n corresponda)
INFORME_CTO = {
    "codigo": "CTO 102.2026",
    "numero": "#02",
    "actividad": "12 ACTIVIDAD"
}

# Nombre del archivo de Presuntos Repetidos (PR)
# Opciones comunes: "SEGUIMIENTO NACIMIENTOS (version 1).xlsb.xlsx" o formato con fecha
NOMBRE_ARCHIVO_PR = "SEGUIMIENTO NACIMIENTOS (version 1).xlsb.xlsx"
# Si el archivo PR usa formato de fecha: f"{fecha_pr['dia']}-{fecha_pr['mes_numero']}-{fecha_pr['a√±o']}.xlsx"

# Nombre del archivo SISBEN (si tiene patr√≥n espec√≠fico)
# Dejar None para usar patr√≥n por defecto "DNP-SISBEN-CO-XXXXXXXX.xlsx"
NOMBRE_ARCHIVO_SISBEN = "DNP-SISBEN-CO-0000086146.xlsx"  # None O especificar: "DNP-SISBEN-CO-0000086146.xlsx"

 ## CONSTRUCCI√ìN AUTOM√ÅTICA DE FECHAS

In [None]:
# ========================
# üóìÔ∏è CONSTRUCCI√ìN AUTOM√ÅTICA DE FECHAS
# ========================
def parsear_fecha(fecha_str):
    """Convierte fecha DD-MM-YYYY a componentes individuales"""
    fecha_obj = datetime.strptime(fecha_str, "%d-%m-%Y")
    return {
        "obj": fecha_obj,
        "a√±o": str(fecha_obj.year),
        "mes_numero": f"{fecha_obj.month:02d}",
        "dia": f"{fecha_obj.day:02d}",
        "mes_nombre": {
            1:"Enero", 2:"Febrero", 3:"Marzo", 4:"Abril", 5:"Mayo", 6:"Junio",
            7:"Julio", 8:"Agosto", 9:"Septiembre", 10:"Octubre", 11:"Noviembre", 12:"Diciembre"
        }[fecha_obj.month],
        "fecha_str": fecha_str,
        "a√±o_mes": None  # Para formato "2025-02"
    }

# Parsear fecha principal
fecha_principal = parsear_fecha(Fecha)
a√±o = fecha_principal["a√±o"]
mes_numero = fecha_principal["mes_numero"]
dia = fecha_principal["dia"]
mes_nombre = fecha_principal["mes_nombre"]

# Parsear fechas de archivos
fecha_sie = parsear_fecha(FECHAS_ARCHIVOS.get("ms_sie") or Fecha)
fecha_adres = parsear_fecha(FECHAS_ARCHIVOS.get("ms_adres") or Fecha)
fecha_sisben = parsear_fecha(FECHAS_ARCHIVOS.get("sisben") or Fecha)
fecha_pr = parsear_fecha(FECHAS_ARCHIVOS.get("pr") or Fecha)



# ========================
# üìÇ CONSTRUCCI√ìN AUTOM√ÅTICA DE RUTAS
# ========================
# Detectar usuario autom√°ticamente
usuario = os.getlogin()
print(f"üë§ Usuario detectado: {usuario}")

# Base OneDrive
onedrive_base = Path(f"C:/Users/{usuario}/OneDrive - 891856000_CAPRESOCA E P S")

if not onedrive_base.exists():
    print(f"‚ö†Ô∏è  Advertencia: OneDrive no encontrado en: {onedrive_base}")

# ========================
# üóÇÔ∏è RUTAS DE ARCHIVOS DE ENTRADA
# ========================
capresoca_base = onedrive_base / "Capresoca/AlmostClear"

# MS del SIE
R_MS_SIe = capresoca_base / "SIE/Aseguramiento/ms_sie" / f"Reporte_Validaci√≥n Archivos Maestro_{fecha_sie['a√±o']}_{fecha_sie['mes_numero']}_{fecha_sie['dia']}.csv"

# Maestro ADRES Subsidiado
R_MS_ADRES = capresoca_base / "Procesos BDUA/Subsidiados/Maestro/MS" / f"{fecha_adres['a√±o']}" / f"EPS025MS00{fecha_adres['dia']}{fecha_adres['mes_numero']}{fecha_adres['a√±o']}.TXT"

# C√≥digo DANE
R_Cod_DANE = capresoca_base / "Constantes/Departamentos.txt"

# Presuntos Repetidos (PR)
if NOMBRE_ARCHIVO_PR:
    archivo_pr = NOMBRE_ARCHIVO_PR
else:
    archivo_pr = f"{fecha_pr['dia']}-{fecha_pr['mes_numero']}-{fecha_pr['a√±o']}.xlsx"

R_PR = (onedrive_base / "Escritorio/Yesid Rinc√≥n Z/informes" / a√±o / INFORME_CTO["codigo"] / 
        f"{INFORME_CTO['codigo'].replace(' ', '')} Informe  {INFORME_CTO['numero']}" / 
        INFORME_CTO["actividad"] / "Bases de datos notificaciones telefonicas" / archivo_pr)

# SISBEN
if NOMBRE_ARCHIVO_SISBEN:
    archivo_sisben = NOMBRE_ARCHIVO_SISBEN
else:
    # Si no se especifica, buscar cualquier archivo que coincida con el patr√≥n
    ruta_sisben_dir = capresoca_base / "SISBEN" / fecha_sisben['a√±o'] / f"{fecha_sisben['mes_numero']}_{fecha_sisben['mes_nombre']}"
    archivo_sisben = "DNP-SISBEN-CO-*.xlsx"  # Patr√≥n para b√∫squeda

R_Sisben = capresoca_base / "SISBEN" / fecha_sisben['a√±o'] / f"{fecha_sisben['mes_numero']}_{fecha_sisben['mes_nombre']}" / archivo_sisben

# ========================
# üì§ RUTAS DE SALIDA
# ========================
base_salida = (onedrive_base / "Escritorio/Yesid Rinc√≥n Z/informes" / a√±o / INFORME_CTO["codigo"] / 
               f"{INFORME_CTO['codigo'].replace(' ', '')} Informe  {INFORME_CTO['numero']}" / 
               INFORME_CTO["actividad"] / "Bases de datos notificaciones telefonicas")

# Definir todas las rutas de salida
Ruta_Salida_Actualizaci√≥n_Datos = base_salida / "NOTIFICAR ACTUALIZACION DE DATOS" / f"Actualizaci√≥n de datos_{Fecha}.xlsx"
Ruta_Salida_Actualizaci√≥n_Documento = base_salida / "ACTUALIZACION DE DOCUMENTO" / f"Actualizaci√≥n_documento-{Fecha}.xlsx"
Ruta_Salida_No_Sisben = base_salida / "USUARIOS ACTIVOS SIN SISBEN (IV)" / f"No Sisben-{Fecha}.xlsx"
R_resumen_SIE = base_salida / "resumen SIE.xlsx"
R_MS_SIE_Correo = base_salida / "Validado SIE.xlsx"
R_Sisben_OtroMunicipio = base_salida / "NOTIFICACION SISBEN EN OTRO MUNICIPIO" / f"Sisben otro municipio-{Fecha}.xlsx"

# ========================
# ‚úÖ VERIFICACI√ìN DE ARCHIVOS
# ========================
print(f"\n{'='*70}")
print(f"üîç VERIFICACI√ìN DE RUTAS Y ARCHIVOS")
print(f"{'='*70}")
print(f"üë§ Usuario: {usuario}")
print(f"üìÖ Fecha Principal: {Fecha} ({mes_nombre} {a√±o})")
print(f"üìÖ Fecha MS SIE: {fecha_sie['fecha_str']}")
print(f"üìÖ Fecha MS ADRES: {fecha_adres['fecha_str']} (carpeta: {fecha_adres['a√±o']})")
print(f"üìÖ Fecha SISBEN: {fecha_sisben['fecha_str']}")
print(f"üìã Informe CTO: {INFORME_CTO['codigo']} {INFORME_CTO['numero']}")
print(f"üìÅ Actividad: {INFORME_CTO['actividad']}")

# Verificar archivos de entrada
rutas_entrada = {
    "üìã MS SIE": R_MS_SIe,
    "üìä Maestro ADRES": R_MS_ADRES,
    "üó∫Ô∏è  C√≥digo DANE": R_Cod_DANE,
    "üìÑ Presuntos Repetidos": R_PR,
}

# Para SISBEN, verificar si es patr√≥n o archivo espec√≠fico
if "*" in str(R_Sisben):
    # Buscar archivos que coincidan con el patr√≥n
    sisben_dir = R_Sisben.parent
    if sisben_dir.exists():
        archivos_sisben = list(sisben_dir.glob(R_Sisben.name))
        if archivos_sisben:
            R_Sisben = archivos_sisben[0]  # Tomar el primero encontrado
            rutas_entrada["üìà SISBEN"] = R_Sisben
        else:
            rutas_entrada["üìà SISBEN (‚ö†Ô∏è No encontrado)"] = sisben_dir / R_Sisben.name
    else:
        rutas_entrada["üìà SISBEN (‚ö†Ô∏è Directorio no existe)"] = sisben_dir
else:
    rutas_entrada["üìà SISBEN"] = R_Sisben

print(f"\nüìÑ Archivos de entrada:")
todas_existen = True
for nombre, ruta in rutas_entrada.items():
    existe = ruta.exists() if isinstance(ruta, Path) else False
    simbolo = "‚úÖ" if existe else "‚ùå"
    todas_existen = todas_existen and existe
    print(f"  {simbolo} {nombre}")
    if isinstance(ruta, Path):
        print(f"     ‚îî‚îÄ {ruta.name}")
        if not existe:
            print(f"     ‚îî‚îÄ ‚ö†Ô∏è  {ruta}")

# Verificar rutas de salida
print(f"\nüì§ Archivos de salida:")
rutas_salida = {
    "Actualizaci√≥n Datos": Ruta_Salida_Actualizaci√≥n_Datos,
    "Actualizaci√≥n Documento": Ruta_Salida_Actualizaci√≥n_Documento,
    "No Sisben": Ruta_Salida_No_Sisben,
    "Resumen SIE": R_resumen_SIE,
    "Validado SIE": R_MS_SIE_Correo,
    "Sisben Otro Municipio": R_Sisben_OtroMunicipio
}

for nombre, ruta in rutas_salida.items():
    dir_existe = ruta.parent.exists()
    simbolo = "üìÅ" if dir_existe else "‚ö†Ô∏è"
    print(f"  {simbolo} {nombre}")
    print(f"     ‚îî‚îÄ {ruta.name}")
    if not dir_existe:
        print(f"     ‚îî‚îÄ ‚ö†Ô∏è  Directorio: {ruta.parent}")
        print(f"     ‚îî‚îÄ üìù Se crear√° al guardar")

print(f"{'='*70}\n")

if not todas_existen:
    print("‚ö†Ô∏è  ADVERTENCIA: Algunos archivos de entrada no existen")
else:
    print("‚úÖ Todos los archivos de entrada verificados\n")

# ========================
# üéØ RESUMEN DE CONFIGURACI√ìN
# ========================
print("üéØ Variables de rutas disponibles:")
print(f"   üì• Entrada:")
print(f"      - R_MS_SIe")
print(f"      - R_MS_ADRES")
print(f"      - R_Cod_DANE")
print(f"      - R_PR")
print(f"      - R_Sisben")
print(f"   üì§ Salida:")
print(f"      - Ruta_Salida_Actualizaci√≥n_Datos")
print(f"      - Ruta_Salida_Actualizaci√≥n_Documento")
print(f"      - Ruta_Salida_No_Sisben")
print(f"      - R_resumen_SIE")
print(f"      - R_MS_SIE_Correo")
print(f"      - R_Sisben_OtroMunicipio\n")

# Datafarmes

In [None]:
# Cargar el archivo .txt en un DataFrame
df_cod_dane = pd.read_csv(R_Cod_DANE, sep=';', encoding='UTF-8')
df_ms_adres = pd.read_csv(R_MS_ADRES, sep=',', encoding='ansi', header=None)
df_ms_SIE = pd.read_csv(R_MS_SIe, sep=';', encoding='ansi')
# Cargar los datos de la hoja "PR" del archivo Excel en la ruta R_PR
df_PR = pd.read_excel(R_PR, sheet_name="PR", usecols=["T_DOC", "N_DOC"], header=0)
df_Sisben = pd.read_excel(R_Sisben, sheet_name="Resultado")

In [None]:
# Formatear la columna 'CODIGO' de df_cod_dane para que tenga 5 d√≠gitos
df_cod_dane['CODIGO'] = df_cod_dane['CODIGO'].astype(int).apply(lambda x: f"{x:05d}")

In [None]:
df_ms_SIE = df_ms_SIE[['tipo_documento', 'numero_identificacion', 'celular', 'telefono_1', 'telefono_2', 'correo_electronico']]
cols = ['celular', 'telefono_1', 'telefono_2']
df_ms_SIE[cols] = df_ms_SIE[cols].apply(lambda col: col.str.replace('[- ]', '', regex=True))
def valid_phone(val):
    val_str = str(val)
    if val_str.isdigit() and len(val_str) == 10 and val_str.startswith('3'):
        return val_str
    return ''

df_ms_SIE[cols] = df_ms_SIE[cols].applymap(valid_phone)

In [None]:
# ========================
# üîß VALIDACI√ìN DE CORREOS ELECTR√ìNICOS CON AUDITOR√çA (VERSI√ìN MEJORADA)
# ========================

def validar_correo_electronico_con_auditoria(email):
    """
    Valida correos electr√≥nicos y retorna tupla (correo_validado, motivo_rechazo)
    Acepta caracteres latinos (√±, tildes) seg√∫n RFC 6531
    Rechaza dominios mal escritos y correos temporales
    Normaliza a min√∫sculas para mejor agrupaci√≥n
    """
    # 1. Validar nulos y vac√≠os
    if pd.isnull(email) or str(email).strip() == "":
        return ("", "Correo nulo o vac√≠o")
    
    email_original = str(email).strip()
    # üÜï NORMALIZAR A MIN√öSCULAS desde el inicio
    email_lower = email_original.lower()
    
    # 2. Validar estructura b√°sica de email (permite caracteres latinos)
    patron_email = r'^[a-zA-Z√°√©√≠√≥√∫√Å√â√ç√ì√ö√±√ë√º√ú0-9_.+-]+@[a-zA-Z√°√©√≠√≥√∫√Å√â√ç√ì√ö√±√ë√º√ú0-9-]+\.[a-zA-Z]{2,}$'
    if not re.match(patron_email, email_lower):
        return ("", f"Estructura inv√°lida: {email_original}")
    
    # 3. Validar que tenga @ (redundante pero por claridad)
    if '@' not in email_lower:
        return ("", f"Sin s√≠mbolo @: {email_original}")
    
    # 4. Extraer usuario y dominio
    usuario, dominio_completo = email_lower.split('@', 1)
    
    # 5. Validar que el dominio tenga al menos un punto
    if '.' not in dominio_completo:
        return ("", f"Dominio sin extensi√≥n: {email_original}")
    
    # ========================
    # üÜï 6. VALIDAR DOMINIOS MAL ESCRITOS (ERRORES DE DIGITACI√ìN)
    # ========================
    dominios_mal_escritos = {
        # Gmail mal escrito
        'gamil.com': 'gmail.com',
        'gmial.com': 'gmail.com',
        'gmai.com': 'gmail.com',
        'gmil.com': 'gmail.com',
        'gmaul.com': 'gmail.com',
        'gmal.com': 'gmail.com',
        'gnail.com': 'gmail.com',
        'gimail.com': 'gmail.com',
        'gemail.com': 'gmail.com',
        'gmeil.com': 'gmail.com',
        'gmaill.com': 'gmail.com',
        'gmailcom': 'gmail.com',  # Sin punto
        'gmail.co': 'gmail.com',
        'gmail.con': 'gmail.com',
        'gmail.vom': 'gmail.com',
        'gmail.cpm': 'gmail.com',
        'gamail.com': 'gmail.com',  # üÜï NUEVO - Error com√∫n
        
        # Hotmail mal escrito
        'hotmial.com': 'hotmail.com',
        'hotmeil.com': 'hotmail.com',
        'hotmal.com': 'hotmail.com',
        'hotmil.com': 'hotmail.com',
        'homail.com': 'hotmail.com',
        'hoymail.com': 'hotmail.com',
        'hotmailcom': 'hotmail.com',  # Sin punto
        'hotmail.co': 'hotmail.com',
        'hotmail.con': 'hotmail.com',
        'hotmail.vom': 'hotmail.com',
        'hotmali.com': 'hotmail.com',
        'hotmaul.com': 'hotmail.com',
        
        # Outlook mal escrito
        'outlok.com': 'outlook.com',
        'outlock.com': 'outlook.com',
        'outluk.com': 'outlook.com',
        'otlook.com': 'outlook.com',
        'outlookcom': 'outlook.com',  # Sin punto
        'outlook.co': 'outlook.com',
        'outlook.con': 'outlook.com',
        'outlool.com': 'outlook.com',
        'outloock.com': 'outlook.com',
        
        # Yahoo mal escrito
        'yaho.com': 'yahoo.com',
        'yahooo.com': 'yahoo.com',
        'yhaoo.com': 'yahoo.com',
        'yajoo.com': 'yahoo.com',
        'yahho.com': 'yahoo.com',
        'yahoocom': 'yahoo.com',  # Sin punto
        'yahoo.co': 'yahoo.com',
        'yahoo.con': 'yahoo.com',
        'yahoo.es.com': 'yahoo.es',
        
        # Otros errores comunes
        'live.co': 'live.com',
        'icloud.co': 'icloud.com',
        'protonmail.co': 'protonmail.com',
    }
    
    if dominio_completo in dominios_mal_escritos:
        dominio_correcto = dominios_mal_escritos[dominio_completo]
        return ("", f"Dominio mal escrito '{dominio_completo}' (deber√≠a ser '{dominio_correcto}'): {email_original}")
    
    # ========================
    # üÜï 7. LISTA NEGRA DE DOMINIOS TEMPORALES/DESECHABLES
    # ========================
    dominios_temporales = [
        'gufum.com',         # Correos temporales
        '10minutemail.com',  # Correos temporales
        'guerrillamail.com', # Correos temporales
        'mailinator.com',    # Correos temporales
        'temp-mail.org',     # Correos temporales
        'throwaway.email',   # Correos temporales
        'tempmail.com',      # Correos temporales
        'yopmail.com',       # Correos temporales
        'maildrop.cc',       # Correos temporales
        'trashmail.com',     # Correos temporales
    ]
    
    if dominio_completo in dominios_temporales:
        return ("", f"Dominio de correo temporal/desechable '{dominio_completo}': {email_original}")
    
    # ========================
    # 8. Lista negra de correos espec√≠ficos
    # ========================
    correos_invalidos = [
        'actualizar@actualizar.com',
        'notiene@gmail.com',
        'notiene@gamil.com',
        '00@hotmail.com',
        'sincorreo@gmail.com',
        'noaplica@gmail.com',
        'ninguno@gmail.com',
        'actualizar@hotmail.com',
        'actualizar@outlook.com'
    ]
    if email_lower in correos_invalidos:
        return ("", f"Lista negra espec√≠fica: {email_original}")
    
    # ========================
    # 9. Validar palabras clave inv√°lidas en TODO el correo
    # ========================
    palabras_invalidas = {
        r'\bactualizar\b': 'actualizar',
        r'\bactualiza\b': 'actualiza',
        r'\btraslado\b': 'traslado',
        r'\bsat\b': 'sat',
        r'\btiene\b': 'tiene',
        r'\bafilia\b': 'afilia',
        r'\bnoaplica\b': 'noaplica',
        r'\bsincorreo\b': 'sincorreo',
        r'\bninguno\b': 'ninguno',
        r'\bnoexiste\b': 'noexiste',
        r'\bnotiene\b': 'notiene',
        r'\bsinmail\b': 'sinmail',
        r'\bnoemail\b': 'noemail',
        r'\bsin\s*correo\b': 'sin correo',
        r'\bno\s*tiene\b': 'no tiene'
    }
    
    for patron, palabra in palabras_invalidas.items():
        if re.search(patron, email_lower):
            return ("", f"Palabra inv√°lida '{palabra}': {email_original}")
    
    # ========================
    # 10. Validar dominios inv√°lidos
    # ========================
    dominios_invalidos = {
        r'\bactualizar\.': 'actualizar',
        r'\bnotiene\.': 'notiene',
        r'\bsincorreo\.': 'sincorreo',
        r'\bnoaplica\.': 'noaplica',
        r'\bninguno\.': 'ninguno',
        r'\bnoexiste\.': 'noexiste',
        r'\bafilia\.': 'afilia',
        r'\btraslado\.': 'traslado',
        r'\bsat\.': 'sat',
        r'\btiene\.': 'tiene',
        r'\bsinmail\.': 'sinmail',
        r'\bnoemail\.': 'noemail'
    }
    
    for patron_dominio, dominio in dominios_invalidos.items():
        if re.search(patron_dominio, dominio_completo):
            return ("", f"Dominio inv√°lido '@{dominio}.*': {email_original}")
    
    # ========================
    # 11. Descartar si el usuario es solo n√∫meros
    # ========================
    if usuario.isdigit():
        return ("", f"Usuario solo num√©rico: {email_original}")
    
    # ========================
    # 12. Validar longitud m√≠nima del usuario (al menos 2 caracteres)
    # ========================
    if len(usuario) < 2:
        return ("", f"Usuario muy corto: {email_original}")
    
    # ========================
    # 13. Validar que la extensi√≥n del dominio sea v√°lida (al menos 2 caracteres)
    # ========================
    extension = dominio_completo.split('.')[-1]
    if len(extension) < 2:
        return ("", f"Extensi√≥n de dominio inv√°lida: {email_original}")
    
    # ‚úÖ Si pas√≥ todas las validaciones, retornar EN MIN√öSCULAS
    return (email_lower, "")


# ========================
# üìä APLICAR VALIDACI√ìN CON AUDITOR√çA
# ========================
print("üîç Iniciando validaci√≥n de correos electr√≥nicos con auditor√≠a...")
print(f"üìã Total de registros: {len(df_ms_SIE):,}\n")

# Crear copia del DataFrame original para auditor√≠a
df_correos_original = df_ms_SIE[['tipo_documento', 'numero_identificacion', 'correo_electronico']].copy()

# Contar correos antes de la validaci√≥n
correos_antes = df_ms_SIE['correo_electronico'].notna().sum()

# Aplicar la validaci√≥n y guardar resultados
resultados = df_ms_SIE['correo_electronico'].apply(validar_correo_electronico_con_auditoria)

# Separar correos validados y motivos de rechazo
df_ms_SIE['correo_electronico'] = resultados.apply(lambda x: x[0])
df_correos_original['correo_validado'] = resultados.apply(lambda x: x[0])
df_correos_original['motivo_rechazo'] = resultados.apply(lambda x: x[1])

# Contar correos despu√©s de la validaci√≥n
correos_despues = df_ms_SIE['correo_electronico'].ne("").sum()
correos_eliminados = correos_antes - correos_despues

print(f"‚úÖ Validaci√≥n completada:")
print(f"   üìß Correos antes: {correos_antes:,}")
print(f"   ‚úÖ Correos v√°lidos: {correos_despues:,}")
print(f"   ‚ùå Correos eliminados: {correos_eliminados:,}")
print(f"   üìä Tasa de validez: {(correos_despues/correos_antes*100):.2f}%")
print(f"   üî° Todos los correos normalizados a min√∫sculas\n")

# ========================
# üìã CREAR DATAFRAME DE CORREOS RECHAZADOS
# ========================
df_correos_rechazados = df_correos_original[df_correos_original['motivo_rechazo'] != ''].copy()

# Reorganizar columnas
df_correos_rechazados.rename(columns={'correo_electronico': 'correo_original'}, inplace=True)
df_correos_rechazados = df_correos_rechazados[['tipo_documento', 'numero_identificacion', 'correo_original', 'motivo_rechazo']]

print(f"üìã DataFrame de correos rechazados creado:")
print(f"   üìä Total de correos rechazados: {len(df_correos_rechazados):,}")
print(f"   üìÅ Variable: df_correos_rechazados\n")

# ========================
# üìä AN√ÅLISIS DE MOTIVOS DE RECHAZO
# ========================
print("="*80)
print("üìä AN√ÅLISIS DE MOTIVOS DE RECHAZO")
print("="*80)

# Agrupar por motivo de rechazo
resumen_rechazos = df_correos_rechazados['motivo_rechazo'].value_counts()

print(f"\nüîç Top 15 motivos de rechazo m√°s comunes:\n")
for idx, (motivo, count) in enumerate(resumen_rechazos.head(15).items(), 1):
    porcentaje = (count / len(df_correos_rechazados)) * 100 if len(df_correos_rechazados) > 0 else 0
    print(f"   {idx:2d}. {count:6,} ({porcentaje:5.2f}%) - {motivo}")

print("\n" + "="*80)

# ========================
# üìù MUESTRA DE CORREOS RECHAZADOS
# ========================
if len(df_correos_rechazados) > 0:
    print("\nüìù Muestra de correos rechazados (primeros 10):")
    print("-" * 80)
    pd.set_option('display.max_colwidth', 50)
    print(df_correos_rechazados.head(10).to_string(index=False))
    print("-" * 80 + "\n")
else:
    print("\n‚úÖ ¬°EXCELENTE! No hay correos rechazados\n")

print("‚úÖ DataFrame 'df_correos_rechazados' listo para usar en reportes posteriores\n")

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

# ========================
# üìä AN√ÅLISIS DE CORREOS ELECTR√ìNICOS
# ========================

print("\n" + "="*60)
print("üìä AN√ÅLISIS DE CORREOS ELECTR√ìNICOS")
print("="*60)

# 1Ô∏è‚É£ Contar correos v√°lidos vs vac√≠os
correos_validos = df_ms_SIE['correo_electronico'].ne("").sum()
correos_vacios = df_ms_SIE['correo_electronico'].eq("").sum()
total_registros = len(df_ms_SIE)

print(f"\n‚úÖ Total de registros: {total_registros:,}")
print(f"üìß Correos v√°lidos: {correos_validos:,} ({correos_validos/total_registros*100:.1f}%)")
print(f"‚ùå Correos vac√≠os: {correos_vacios:,} ({correos_vacios/total_registros*100:.1f}%)")

# 2Ô∏è‚É£ Gr√°fico de barras: Correos v√°lidos vs vac√≠os
fig, ax = plt.subplots(1, 2, figsize=(12, 5))

# Gr√°fico 1: Conteo
categorias = ['V√°lidos', 'Vac√≠os']
valores = [correos_validos, correos_vacios]
colores = ['#5B9BD5', '#ED7D31']

ax[0].bar(categorias, valores, color=colores)
ax[0].set_ylabel('Cantidad de registros')
ax[0].set_title('Correos Electr√≥nicos: V√°lidos vs Vac√≠os')
ax[0].set_ylim(0, max(valores) * 1.1)

# Agregar valores en las barras
for i, v in enumerate(valores):
    ax[0].text(i, v + max(valores)*0.02, f'{v:,}\n({v/total_registros*100:.1f}%)', 
               ha='center', va='bottom', fontweight='bold')

# Gr√°fico 2: Porcentaje (Pie)
ax[1].pie(valores, labels=categorias, autopct='%1.1f%%', colors=colores, startangle=90)
ax[1].set_title('Distribuci√≥n Porcentual')

plt.tight_layout()
plt.show()

# 3Ô∏è‚É£ Top 10 dominios de correo m√°s comunes
print("\nüìà Top 10 dominios de correo m√°s utilizados:")
print("-" * 60)

correos_validos_df = df_ms_SIE[df_ms_SIE['correo_electronico'].ne("")].copy()

if len(correos_validos_df) > 0:
    # Extraer el dominio (despu√©s del @)
    correos_validos_df['dominio'] = correos_validos_df['correo_electronico'].str.split('@').str[1]
    
    # Contar los dominios m√°s frecuentes
    top_dominios = correos_validos_df['dominio'].value_counts().head(10)
    
    for idx, (dominio, count) in enumerate(top_dominios.items(), 1):
        porcentaje = (count / len(correos_validos_df)) * 100
        print(f"   {idx:2d}. {dominio:25s} - {count:6,} correos ({porcentaje:5.2f}%)")
    
    # Gr√°fico de dominios
    plt.figure(figsize=(10, 6))
    plt.barh(range(len(top_dominios)), top_dominios.values, color='#5B9BD5')
    plt.yticks(range(len(top_dominios)), top_dominios.index)
    plt.xlabel('Cantidad de correos')
    plt.title('Top 10 Dominios de Correo Electr√≥nico')
    plt.gca().invert_yaxis()
    
    # Agregar valores en las barras
    for i, v in enumerate(top_dominios.values):
        plt.text(v + max(top_dominios.values)*0.01, i, f'{v:,}', 
                va='center', fontweight='bold')
    
    plt.tight_layout()
    plt.show()
else:
    print("‚ö†Ô∏è  No hay correos v√°lidos para analizar dominios")

# 4Ô∏è‚É£ Ejemplos de correos v√°lidos aleatorios
print("\nüìù Muestra de 10 correos v√°lidos (aleatorios):")
print("-" * 60)

if len(correos_validos_df) > 0:
    muestra = correos_validos_df['correo_electronico'].sample(min(10, len(correos_validos_df)))
    for idx, correo in enumerate(muestra, 1):
        print(f"   {idx:2d}. {correo}")
else:
    print("‚ö†Ô∏è  No hay correos v√°lidos para mostrar")

print("\n" + "="*60 + "\n")

In [None]:
empty_count = df_ms_SIE['correo_electronico'].eq("").sum()
non_empty_count = df_ms_SIE['correo_electronico'].ne("").sum()

print("Cantidad de registros vac√≠os en 'correo_electronico':", empty_count)
print("Cantidad de registros no vac√≠os en 'correo_electronico':", non_empty_count)

In [None]:
empty_count = df_ms_SIE['correo_electronico'].eq("").sum()
non_empty_count = df_ms_SIE['correo_electronico'].ne("").sum()

print("Cantidad de registros vac√≠os en 'correo_electronico':", empty_count)
print("Cantidad de registros no vac√≠os en 'correo_electronico':", non_empty_count)

In [None]:
print(df_ms_SIE[df_ms_SIE['numero_identificacion'] == '1121872381'])

In [None]:
# Calcular el total de registros de df_ms_SIE
total_registros = df_ms_SIE.shape[0]

tabla = []
columnas = ['celular', 'telefono_1', 'telefono_2', 'correo_electronico']

for col in columnas:
    # Calcular la cantidad de registros vac√≠os y con datos
    vacios = df_ms_SIE[col].apply(lambda x: pd.isnull(x) or x == "").sum()
    con_dato = total_registros - vacios
    # Calcular porcentajes
    pct_con_dato = (con_dato / total_registros) * 100
    pct_vacios = (vacios / total_registros) * 100
    tabla.append({
        'Columna': col,
        'Total': total_registros,
        'Datos (Cantidad)': con_dato,
        '% Datos': f"{pct_con_dato:.2f}%",
        'Vac√≠os (Cantidad)': vacios,
        '% Vac√≠os': f"{pct_vacios:.2f}%"
    })

# Convertir a DataFrame y mostrar la tabla
tabla_df = pd.DataFrame(tabla)
print("Cantidad total de registros en df_ms_SIE:", total_registros)
print(tabla_df)

In [None]:
with pd.ExcelWriter(R_resumen_SIE, engine='xlsxwriter') as writer:
    # Escribir tabla_df en la hoja "Resumen" empezando en la fila 2 (fila 1 para cabecera)
    tabla_df.to_excel(writer, sheet_name='Resumen', index=False, startrow=1)

    workbook  = writer.book
    worksheet = writer.sheets['Resumen']

    # Formato para la cabecera: negrita, ajuste de texto y color de fondo
    header_format = workbook.add_format({
        'bold': True,
        'text_wrap': True,
        'valign': 'vcenter',
        'fg_color': '#DCE6F1',
        'border': 1
    })

    # Aplicar el formato a la cabecera
    for col_num, value in enumerate(tabla_df.columns.values):
        worksheet.write(1, col_num, value, header_format)

    # Definir el rango de datos (la tabla comienza en la fila 2, por lo que cabe recalcular √≠ndices)
    nrows = len(tabla_df)
    first_data_row = 2
    last_data_row = first_data_row + nrows - 1

    # Crear un gr√°fico de columnas para comparar "Datos (Cantidad)" y "Vac√≠os (Cantidad)"
    chart = workbook.add_chart({'type': 'column'})

    # Agregar serie para "Datos (Cantidad)" (columna 3, √≠ndice 2)
    chart.add_series({
        'name':       'Datos (Cantidad)',
        'categories': ['Resumen', first_data_row, 0, last_data_row, 0],
        'values':     ['Resumen', first_data_row, 2, last_data_row, 2],
        'fill':       {'color': '#5B9BD5'},
    })

    # Agregar serie para "Vac√≠os (Cantidad)" (columna 5, √≠ndice 4)
    chart.add_series({
        'name':       'Vac√≠os (Cantidad)',
        'categories': ['Resumen', first_data_row, 0, last_data_row, 0],
        'values':     ['Resumen', first_data_row, 4, last_data_row, 4],
        'fill':       {'color': '#ED7D31'},
    })

    chart.set_title({'name': 'Resumen de Datos vs Vac√≠os'})
    chart.set_x_axis({'name': 'Columna'})
    chart.set_y_axis({'name': 'Cantidad'})
    chart.set_style(10)

    # Insertar el gr√°fico en la hoja (ubicado en la celda H2)
    worksheet.insert_chart('H2', chart, {'x_scale': 1.0, 'y_scale': 1.0})

    # Agregar una breve descripci√≥n debajo de la tabla y del gr√°fico
    description = (
        "La tabla muestra, por cada columna evaluada, el total de registros, "
        "la cantidad de registros con datos y la cantidad de registros vac√≠os. "
        "La gr√°fica ilustra visualmente la comparaci√≥n entre los registros con datos "
        "y aquellos que est√°n vac√≠os, facilitando la identificaci√≥n de √°reas que requieran atenci√≥n."
    )
    worksheet.write(last_data_row + 3, 0, description)

In [None]:
df_ms_SIE.columns

In [None]:
# Crear la nueva columna "municipio" con el formato deseado:
df_ms_adres['municipio'] = (
    df_ms_adres[23].astype(int).apply(lambda x: f"{x:02d}") +
    df_ms_adres[24].astype(int).apply(lambda x: f"{x:03d}")
)

# Eliminar las columnas 23 y 24
df_ms_adres.drop(columns=[23, 24], inplace=True)

df_ms_adres = df_ms_adres.merge(
    df_cod_dane[['CODIGO', 'Nombre Departamento', 'Nombre Municipio']],
    left_on='municipio',
    right_on='CODIGO',
    how='left'
)
df_ms_adres.drop('CODIGO', axis=1, inplace=True)

# Convertir la columna 5 de df_ms_adres a string para asegurar la coincidencia
df_ms_adres[5] = df_ms_adres[5].astype(str)
df_ms_SIE['numero_identificacion'] = df_ms_SIE['numero_identificacion'].astype(str)

# Seleccionar las columnas a unir de df_ms_SIE
cols_to_merge = ['numero_identificacion', 'celular', 'telefono_1', 'telefono_2', 'correo_electronico']

# Realizar el merge usando la columna "numero_identificacion" de df_ms_SIE y la columna 5 de df_ms_adres
df_ms_adres = df_ms_adres.merge(df_ms_SIE[cols_to_merge],
                                                      left_on=5,
                                                      right_on='numero_identificacion',
                                                      how='left')
# Si ya no se necesita la columna duplicada, se puede eliminar
df_ms_adres.drop('numero_identificacion', axis=1, inplace=True)

In [None]:
# Guardar df_ms_SIE en la ruta especificada como un archivo Excel
df_ms_SIE.to_excel(R_MS_SIE_Correo, index=False)

In [None]:
df_ms_adres

# 1. NOTIFICAR ACTUALIZACION DE DATOS

Se organiza la base de datos de los usuarios sin correo para notivicar via mensaje de texto para que actualicen un correo y las personas sin telefono pero con correo electronico para que actualicen numeros de telefono.

In [None]:
# Filtrar el DataFrame seg√∫n las condiciones
Df_Actualizacion_Datos = df_ms_adres[
    (df_ms_adres[2].isnull() | (df_ms_adres[2] == '')) &  # Columna 2 vac√≠a o nula
    (df_ms_adres[33] == 'AC') &  # Columna 33 igual a 'AC'
    (df_ms_adres[42] == 0)  # Columna 42 igual a 0
]
#Df_Actualizacion_Datos = Df_Actualizacion_Datos.iloc[:, list(range(4, 12)) + ['Nombre Departamento', 'Nombre Municipio', 'celular', 'telefono_1', 'telefono_2', 'correo_electronico']]

# Obtener los nombres de las columnas correspondientes a los √≠ndices del 4 al 11
cols_por_indice = Df_Actualizacion_Datos.columns[4:12].tolist()
# Combinar con las columnas adicionales
columnas_finales = cols_por_indice + ['Nombre Departamento', 'Nombre Municipio', 'celular', 'telefono_1', 'telefono_2', 'correo_electronico']
Df_Actualizacion_Datos = Df_Actualizacion_Datos.loc[:, columnas_finales]

In [None]:
# Filtrar los registros donde todas las columnas de contacto est√°n vac√≠as o nulas
df_sin_datos = Df_Actualizacion_Datos[
    Df_Actualizacion_Datos[['celular', 'telefono_1', 'telefono_2', 'correo_electronico']].isnull().all(axis=1) |
    Df_Actualizacion_Datos[['celular', 'telefono_1', 'telefono_2', 'correo_electronico']].eq("").all(axis=1)
]

# Filtrar los registros donde al menos una de las columnas de tel√©fono no est√° vac√≠a y el correo est√° vac√≠o
df_telefonos = Df_Actualizacion_Datos[
    Df_Actualizacion_Datos[['celular', 'telefono_1', 'telefono_2']].notnull().any(axis=1) &
    Df_Actualizacion_Datos[['celular', 'telefono_1', 'telefono_2']].ne("").any(axis=1) &
    (Df_Actualizacion_Datos['correo_electronico'].isnull() | Df_Actualizacion_Datos['correo_electronico'].eq(""))
]

# Filtrar los registros donde todas las columnas de tel√©fono est√°n vac√≠as y el correo no est√° vac√≠o
df_correo = Df_Actualizacion_Datos[
    (Df_Actualizacion_Datos[['celular', 'telefono_1', 'telefono_2']].isnull().all(axis=1) |
     Df_Actualizacion_Datos[['celular', 'telefono_1', 'telefono_2']].eq("").all(axis=1)) &
    Df_Actualizacion_Datos['correo_electronico'].notnull() &
    Df_Actualizacion_Datos['correo_electronico'].str.strip().ne("")
]

# Filtrar los registros donde al menos una de las columnas de tel√©fono no est√° vac√≠a y el correo tampoco est√° vac√≠o
df_ok = Df_Actualizacion_Datos[
    Df_Actualizacion_Datos[['celular', 'telefono_1', 'telefono_2']].notnull().any(axis=1) &
    Df_Actualizacion_Datos[['celular', 'telefono_1', 'telefono_2']].ne("").any(axis=1) &
    Df_Actualizacion_Datos['correo_electronico'].notnull() &
    Df_Actualizacion_Datos['correo_electronico'].ne("")
]

In [None]:
# Verificar el valor del registro "1151188288" en la columna 5 y correo_electronico
registro = Df_Actualizacion_Datos[Df_Actualizacion_Datos[5] == "1151188288"]
print("Registro encontrado:")
print(registro[['correo_electronico']])

In [None]:
df_ok

In [None]:
import os

# Crear las tablas resumen
resumen1 = pd.DataFrame({
    "Grupo": ["Sin Datos", "Telefonos", "Correo", "OK"],
    "Cantidad": [len(df_sin_datos), len(df_telefonos), len(df_correo), len(df_ok)],
    "Descripci√≥n": [
        "Registros sin ning√∫n dato de contacto",
        "Registros con al menos un tel√©fono pero sin correo",
        "Registros con correo pero sin tel√©fonos",
        "Registros con ambos datos completos"
    ]
})

municipios = Df_Actualizacion_Datos["Nombre Municipio"].unique()
lista = []
for mun in municipios:
    count_sin = df_sin_datos["Nombre Municipio"].eq(mun).sum()
    count_tel = df_telefonos["Nombre Municipio"].eq(mun).sum()
    count_cor = df_correo["Nombre Municipio"].eq(mun).sum()
    count_ok  = df_ok["Nombre Municipio"].eq(mun).sum()
    lista.append({
        "Nombre Municipio": mun,
        "Sin Datos": count_sin,
        "Telefonos": count_tel,
        "Correo": count_cor,
        "OK": count_ok
    })
resumen2 = pd.DataFrame(lista)

# Agregar una fila de totales a cada tabla
total_resumen1 = pd.DataFrame({
    "Grupo": ["Total"],
    "Cantidad": [resumen1["Cantidad"].sum()],
    "Descripci√≥n": [""]
})
resumen1 = pd.concat([resumen1, total_resumen1], ignore_index=True)

total_resumen2 = pd.DataFrame({
    "Nombre Municipio": ["Total"],
    "Sin Datos": [resumen2["Sin Datos"].sum()],
    "Telefonos": [resumen2["Telefonos"].sum()],
    "Correo": [resumen2["Correo"].sum()],
    "OK": [resumen2["OK"].sum()]
})
resumen2 = pd.concat([resumen2, total_resumen2], ignore_index=True)

# ========================
# üìã PREPARAR TABLA RESUMEN DE CORREOS RECHAZADOS
# ========================
resumen_correos_rechazados = df_correos_rechazados['motivo_rechazo'].value_counts().reset_index()
resumen_correos_rechazados.columns = ['Motivo de Rechazo', 'Cantidad']
resumen_correos_rechazados['Porcentaje'] = (resumen_correos_rechazados['Cantidad'] / len(df_correos_rechazados) * 100).round(2)

# Agregar fila de total
total_correos_rechazados = pd.DataFrame({
    'Motivo de Rechazo': ['Total'],
    'Cantidad': [resumen_correos_rechazados['Cantidad'].sum()],
    'Porcentaje': [100.0]
})
resumen_correos_rechazados = pd.concat([resumen_correos_rechazados, total_correos_rechazados], ignore_index=True)

# Crear el Excel con los 4 dataframes y la hoja resumen.
with pd.ExcelWriter(Ruta_Salida_Actualizaci√≥n_Datos, engine='xlsxwriter') as writer:
    # Escribir cada dataframe en su respectiva hoja
    df_sin_datos.to_excel(writer, sheet_name="Sin_Datos", index=False)
    df_telefonos.to_excel(writer, sheet_name="Telefonos", index=False)
    df_correo.to_excel(writer, sheet_name="Correo", index=False)
    df_ok.to_excel(writer, sheet_name="OK", index=False)
    
    # ========================
    # üìã NUEVA HOJA: AUDITOR√çA DE CORREOS RECHAZADOS
    # ========================
    df_correos_rechazados.to_excel(writer, sheet_name="Auditoria_Correos", index=False)
    
    # Crear hoja Resumen y preparar formatos
    resumen_sheet_name = "Resumen"
    resumen_ws = writer.book.add_worksheet(resumen_sheet_name)
    
    # Create formats for header, cells and totales
    header_format = writer.book.add_format({
        'bold': True,
        'text_wrap': True,
        'valign': 'middle',
        'align': 'center',
        'fg_color': '#DCE6F1',
        'border': 1
    })
    cell_format = writer.book.add_format({
        'border': 1,
        'valign': 'top'
    })
    total_cell_format = writer.book.add_format({
        'border': 1,
        'valign': 'top',
        'bold': True,
        'bg_color': '#FFD700'
    })
    
    # Ajustar ancho de columnas para la primera tabla
    resumen_ws.set_column('A:C', 25)
    
    # ========================
    # TABLA 1: Resumen por Grupo
    # ========================
    # Escribir encabezado de resumen1
    for col_num, value in enumerate(resumen1.columns.tolist()):
         resumen_ws.write(0, col_num, value, header_format)
    # Escribir datos de resumen1 (resaltando la fila de totales)
    for row_idx, row in resumen1.iterrows():
         fmt = total_cell_format if row_idx == len(resumen1)-1 else cell_format
         for col_idx, cell_val in enumerate(row.tolist()):
             resumen_ws.write(row_idx + 1, col_idx, cell_val, fmt)
    
    # Insertar el gr√°fico basado en resumen1
    chart1 = writer.book.add_chart({'type': 'column'})
    chart1.add_series({
        'name':       'Cantidad de Registros',
        'categories': [resumen_sheet_name, 1, 0, len(resumen1)-1, 0],
        'values':     [resumen_sheet_name, 1, 1, len(resumen1)-1, 1],
        'fill':       {'color': '#5B9BD5'},
    })
    chart1.set_title({'name': 'Cantidad de Registros por Grupo'})
    chart1.set_x_axis({'name': 'Grupo'})
    chart1.set_y_axis({'name': 'Cantidad'})
    chart1.set_style(11)
    
    # Insertar el gr√°fico en la hoja Resumen en la celda E2 con escalado
    resumen_ws.insert_chart('E2', chart1, {'x_scale': 1.2, 'y_scale': 1.2})
    
    # ========================
    # TABLA 2: Resumen por Municipio
    # ========================
    # Escribir la segunda tabla resumen (resumen2) a partir de la fila siguiente a resumen1
    start_row = len(resumen1) + 3
    # Ajustar ancho de columnas para resumen2
    resumen_ws.set_column(start_row, start_row+4, 20)
    
    # Escribir encabezado de resumen2
    for col_num, value in enumerate(resumen2.columns.tolist()):
         resumen_ws.write(start_row, col_num, value, header_format)
    # Escribir datos de resumen2 (resaltando la fila de totales)
    for i, row in resumen2.iterrows():
         fmt = total_cell_format if i == len(resumen2)-1 else cell_format
         for col_num, cell_val in enumerate(row.tolist()):
             resumen_ws.write(start_row + i + 1, col_num, cell_val, fmt)
    
    # ========================
    # TABLA 3: Resumen de Correos Rechazados
    # ========================
    start_row_correos = start_row + len(resumen2) + 4
    
    # Escribir t√≠tulo
    resumen_ws.write(start_row_correos - 1, 0, "RESUMEN DE CORREOS RECHAZADOS", header_format)
    resumen_ws.merge_range(start_row_correos - 1, 0, start_row_correos - 1, 2, 
                          "RESUMEN DE CORREOS RECHAZADOS", header_format)
    
    # Escribir encabezados
    for col_num, value in enumerate(resumen_correos_rechazados.columns.tolist()):
         resumen_ws.write(start_row_correos, col_num, value, header_format)
    
    # Ajustar ancho de columnas
    resumen_ws.set_column(start_row_correos, 0, 60)  # Motivo de Rechazo
    resumen_ws.set_column(start_row_correos, 1, 15)  # Cantidad
    resumen_ws.set_column(start_row_correos, 2, 15)  # Porcentaje
    
    # Escribir datos (resaltando la fila de totales)
    for i, row in resumen_correos_rechazados.iterrows():
         fmt = total_cell_format if i == len(resumen_correos_rechazados)-1 else cell_format
         for col_num, cell_val in enumerate(row.tolist()):
             resumen_ws.write(start_row_correos + i + 1, col_num, cell_val, fmt)
    
    # Insertar gr√°fico de correos rechazados
    chart_correos = writer.book.add_chart({'type': 'bar'})
    chart_correos.add_series({
        'name':       'Cantidad de Rechazos',
        'categories': [resumen_sheet_name, start_row_correos + 1, 0, 
                      start_row_correos + min(10, len(resumen_correos_rechazados)-1), 0],
        'values':     [resumen_sheet_name, start_row_correos + 1, 1, 
                      start_row_correos + min(10, len(resumen_correos_rechazados)-1), 1],
        'data_labels': {'value': True},
        'fill':       {'color': '#ED7D31'},
    })
    chart_correos.set_title({'name': 'Top 10 Motivos de Rechazo de Correos'})
    chart_correos.set_x_axis({'name': 'Cantidad'})
    chart_correos.set_y_axis({'name': 'Motivo'})
    chart_correos.set_size({'width': 720, 'height': 576})
    
    # Insertar gr√°fico a la derecha de la tabla
    resumen_ws.insert_chart(start_row_correos, 4, chart_correos)
    
    # ========================
    # DESCRIPCI√ìN FINAL
    # ========================
    # Agregar una descripci√≥n debajo de todas las tablas
    desc_row = start_row_correos + len(resumen_correos_rechazados) + 3
    resumen_ws.set_row(desc_row, 50)
    desc_format = writer.book.add_format({
        'italic': True, 
        'font_color': '#595959',
        'text_wrap': True
    })
    descripcion = (
        "La primera tabla muestra la cantidad de registros por cada grupo de validaci√≥n de datos de contacto. "
        "El primer gr√°fico ilustra visualmente estas cantidades.\n\n"
        "La segunda tabla detalla, para cada 'Nombre Municipio', cu√°ntos registros corresponden a cada grupo.\n\n"
        f"La tercera tabla muestra el resumen de {len(df_correos_rechazados):,} correos electr√≥nicos rechazados "
        "durante el proceso de validaci√≥n, con los motivos espec√≠ficos de cada rechazo. "
        "Para ver el detalle completo, consulte la hoja 'Auditoria_Correos'."
    )
    resumen_ws.write(desc_row, 0, descripcion, desc_format)
    resumen_ws.merge_range(desc_row, 0, desc_row, 3, descripcion, desc_format)
    
    # ========================
    # üé® FORMATEAR HOJA DE AUDITOR√çA DE CORREOS
    # ========================
    audit_ws = writer.sheets['Auditoria_Correos']
    
    # Aplicar formato a encabezados
    for col_num, value in enumerate(df_correos_rechazados.columns):
        audit_ws.write(0, col_num, value, header_format)
    
    # Ajustar anchos de columna
    audit_ws.set_column('A:A', 15)  # tipo_documento
    audit_ws.set_column('B:B', 20)  # numero_identificacion
    audit_ws.set_column('C:C', 35)  # correo_original
    audit_ws.set_column('D:D', 60)  # motivo_rechazo
    
    # Agregar autofiltro
    audit_ws.autofilter(0, 0, len(df_correos_rechazados), len(df_correos_rechazados.columns) - 1)
    
    # Congelar primera fila
    audit_ws.freeze_panes(1, 0)

print("\n" + "="*80)
print("‚úÖ Archivo Excel guardado exitosamente")
print("="*80)
print(f"üìÅ Ruta: {Ruta_Salida_Actualizaci√≥n_Datos}")
print(f"\nüìä Hojas creadas:")
print(f"   1. Sin_Datos ({len(df_sin_datos):,} registros)")
print(f"   2. Telefonos ({len(df_telefonos):,} registros)")
print(f"   3. Correo ({len(df_correo):,} registros)")
print(f"   4. OK ({len(df_ok):,} registros)")
print(f"   5. Auditoria_Correos ({len(df_correos_rechazados):,} correos rechazados)")
print(f"   6. Resumen (con 3 tablas y gr√°ficos)")
print("="*80 + "\n")

# 2. NOTIFICAR ACTUALIZACION DE DOCUMENTO

Se organiza la base de datos de los usuarios para evoluci√≥n de documento

In [None]:
# Filtrar el DataFrame seg√∫n las condiciones
Df_Actualizacion_Documento = df_ms_adres[
    (df_ms_adres[33] == 'AC') &  # Columna 33 igual a 'AC'
    (df_ms_adres[42] == 0) &  # Columna 37 igual a 0
    (df_ms_adres[4].isin(['CN', 'RC', 'TI']))  # Columna 4 debe ser NC, RC o TI
]
#Df_Actualizacion_Documento = Df_Actualizacion_Documento.iloc[:, list(range(4, 12)) + ['Nombre Departamento', 'Nombre Municipio', 'celular', 'telefono_1', 'telefono_2', 'correo_electronico']]

# Obtener los nombres de las columnas correspondientes a los √≠ndices del 4 al 11
cols_por_indice = Df_Actualizacion_Documento.columns[4:12].tolist()
# Combinar con las columnas adicionales
columnas_finales = cols_por_indice + ['Nombre Departamento', 'Nombre Municipio', 'celular', 'telefono_1', 'telefono_2', 'correo_electronico']
Df_Actualizacion_Documento = Df_Actualizacion_Documento.loc[:, columnas_finales]

#Excluye los Presuntos Repetidos PR
# Convertir las columnas a tipo string para asegurar coincidencias exactas
Df_Actualizacion_Documento[5] = Df_Actualizacion_Documento[5].astype(str)
df_PR["N_DOC"] = df_PR["N_DOC"].astype(str)

# Eliminar registros donde las columnas 'celular', 'telefono_1', 'telefono_2' sean vac√≠as o nulas
Df_Actualizacion_Documento = Df_Actualizacion_Documento[
    ~Df_Actualizacion_Documento[['celular', 'telefono_1', 'telefono_2']].isnull().all(axis=1) &
    ~Df_Actualizacion_Documento[['celular', 'telefono_1', 'telefono_2']].eq("").all(axis=1)
]
# Excluir los registros que est√°n en df_PR
Df_Actualizacion_Documento = Df_Actualizacion_Documento[~Df_Actualizacion_Documento[5].isin(df_PR["N_DOC"])]

Df_Actualizacion_Documento.rename(columns={10: "fecha_nacimiento"}, inplace=True)

In [None]:
# Fecha actual del sistema
current_date = datetime.today()

# Convierte expl√≠citamente la columna a datetime indicando el formato exacto dd/mm/yyyy
Df_Actualizacion_Documento['fecha_nacimiento'] = pd.to_datetime(
    Df_Actualizacion_Documento['fecha_nacimiento'], format='%d/%m/%Y', errors='coerce'
)

# Realiza el c√°lculo correctamente usando `.dt`
birth = Df_Actualizacion_Documento['fecha_nacimiento']
has_had_birthday = (
    (current_date.month > birth.dt.month) |
    ((current_date.month == birth.dt.month) & (current_date.day >= birth.dt.day))
)

# Calcula la edad exacta
Df_Actualizacion_Documento['edad'] = (
    current_date.year - birth.dt.year - (~has_had_birthday).astype(int)
)

In [None]:
# Contar el n√∫mero de registros antes del proceso
initial_count = Df_Actualizacion_Documento.shape[0]

# Crear la nueva columna "Evoluci√≥n" con valor por defecto "ok"
Df_Actualizacion_Documento["Evoluci√≥n"] = "ok"

# Definir las condiciones seg√∫n lo solicitado:
mask_CN = (Df_Actualizacion_Documento[4] == "CN")
mask_RC = (Df_Actualizacion_Documento[4] == "RC") & (Df_Actualizacion_Documento["edad"] > 7)
mask_TI = (Df_Actualizacion_Documento[4] == "TI") & (Df_Actualizacion_Documento["edad"] > 18)

# Asignar los valores correspondientes a la columna "Evoluci√≥n"
Df_Actualizacion_Documento.loc[mask_CN, "Evoluci√≥n"] = "evolucion CN a RC"
Df_Actualizacion_Documento.loc[mask_RC, "Evoluci√≥n"] = "evoluci√≥n RC a TI"
Df_Actualizacion_Documento.loc[mask_TI, "Evoluci√≥n"] = "evoluci√≥n de TI a CC"

# Eliminar los registros en los que "Evoluci√≥n" es "ok"
df_evolucion = Df_Actualizacion_Documento[Df_Actualizacion_Documento["Evoluci√≥n"] != "ok"].copy()

# Contar el n√∫mero de registros despu√©s del proceso
final_count = df_evolucion.shape[0]

print(f"Registros antes del proceso: {initial_count}")
print(f"Registros despu√©s del proceso: {final_count}")

In [None]:
evol_values = Df_Actualizacion_Documento["Evoluci√≥n"].unique()

def safe_sheet_name(name):
    return name if len(name) <= 31 else name[:31]

with pd.ExcelWriter(Ruta_Salida_Actualizaci√≥n_Documento, engine='xlsxwriter') as writer:
    workbook = writer.book
    # Formatos para cabeceras, celdas y totales
    header_format = workbook.add_format({
        'bold': True,
        'bg_color': '#DCE6F1',
        'border': 1,
        'align': 'center',
        'valign': 'vcenter'
    })
    cell_format = workbook.add_format({
        'border': 1,
        'valign': 'vcenter'
    })
    total_cell_format = workbook.add_format({
        'border': 1,
        'valign': 'vcenter',
        'bold': True,
        'bg_color': '#FFD700'
    })
    
    # Crear hojas por cada grupo de "Evoluci√≥n", omitiendo la categor√≠a "ok"
    for ev in evol_values:
        if ev == "ok":
            continue
        sheet_name = safe_sheet_name(ev)
        df_group = Df_Actualizacion_Documento[Df_Actualizacion_Documento["Evoluci√≥n"] == ev]
        df_group.to_excel(writer, sheet_name=sheet_name, index=False)
    
    # Crear hoja "Resumen"
    resumen_sheet = "Resumen"
    resumen_ws = workbook.add_worksheet(resumen_sheet)
    
    start_row = 1
    # ====================
    # Tabla: Resumen Evoluci√≥n (sin la categor√≠a "ok")
    resumen_doc = Df_Actualizacion_Documento[Df_Actualizacion_Documento["Evoluci√≥n"] != "ok"]\
                    .groupby("Evoluci√≥n").size().reset_index(name="Cantidad")
    descripciones = {
        "evolucion CN a RC": "Registros que deben evolucionar de CN a RC",
        "evoluci√≥n RC a TI": "Registros que deben evolucionar de RC a TI",
        "evoluci√≥n de TI a CC": "Registros que deben evolucionar de TI a CC"
    }
    resumen_doc["Descripci√≥n"] = resumen_doc["Evoluci√≥n"].map(descripciones)
    total_val = resumen_doc["Cantidad"].sum()
    total_row = pd.DataFrame({"Evoluci√≥n": ["Total"], "Cantidad": [total_val], "Descripci√≥n": [""]})
    resumen_doc = pd.concat([resumen_doc, total_row], ignore_index=True)
    
    resumen_ws.write(0, 0, "Resumen Documentos", header_format)
    # Escribir encabezados
    for col_num, col_name in enumerate(resumen_doc.columns):
         resumen_ws.write(start_row, col_num, col_name, header_format)
    # Escribir datos
    for r_idx, row in resumen_doc.iterrows():
         fmt = total_cell_format if row["Evoluci√≥n"] == "Total" else cell_format
         for c_idx, value in enumerate(row):
              resumen_ws.write(start_row + 1 + r_idx, c_idx, value, fmt)
    nrows_doc = len(resumen_doc) + 1  # Incluye encabezados

    # Agregar gr√°fica para visualizar el resumen de evoluci√≥n
    chart = workbook.add_chart({'type': 'column'})
    chart.add_series({
         'name':       'Cantidad',
         'categories': [resumen_sheet, start_row + 1, 0, start_row + nrows_doc - 1, 0],
         'values':     [resumen_sheet, start_row + 1, 1, start_row + nrows_doc - 1, 1],
         'data_labels': {'value': True},
    })
    chart.set_title({'name': 'Resumen Evoluci√≥n'})
    chart.set_x_axis({'name': 'Evoluci√≥n'})
    chart.set_y_axis({'name': 'Cantidad'})
    # Insertar la gr√°fica debajo de la tabla
    resumen_ws.insert_chart(start_row + nrows_doc + 1, 0, chart)
    
    # ====================
    # Tabla: Resumen por Municipio seg√∫n categor√≠as de "Evoluci√≥n" (omitiendo "ok")
    resumen_mun = Df_Actualizacion_Documento[Df_Actualizacion_Documento["Evoluci√≥n"] != "ok"]\
                    .pivot_table(
                        index="Nombre Municipio", 
                        columns="Evoluci√≥n", 
                        aggfunc='size', 
                        fill_value=0
                    ).reset_index()
    
    # Reordenar columnas para incluir solo las categor√≠as necesarias
    cols_evol = ["evolucion CN a RC", "evoluci√≥n RC a TI", "evoluci√≥n de TI a CC"]
    cols_final = ["Nombre Municipio"] + [col for col in cols_evol if col in resumen_mun.columns]
    resumen_mun = resumen_mun[cols_final]
    
    # Agregar fila de totales
    total_vals = resumen_mun.select_dtypes(include='number').sum()
    total_vals["Nombre Municipio"] = "Total"
    total_vals = pd.DataFrame([total_vals])
    resumen_mun = pd.concat([resumen_mun, total_vals], ignore_index=True)
    
    table3_row = start_row + nrows_doc + 2  # Dejar dos filas en blanco
    resumen_ws.write(table3_row - 1, 0, "Resumen por Municipio", header_format)
    # Encabezados de la Tabla 3
    for col_num, col_name in enumerate(resumen_mun.columns):
         resumen_ws.write(table3_row, col_num, col_name, header_format)
    # Datos
    for r_idx, row in resumen_mun.iterrows():
         fmt = total_cell_format if row["Nombre Municipio"] == "Total" else cell_format
         for c_idx, value in enumerate(row):
              resumen_ws.write(table3_row + 1 + r_idx, c_idx, value, fmt)
              
print("Archivo Excel guardado en:", Ruta_Salida_Actualizaci√≥n_Documento)

# 3. USUARIOS ACTIVOS SIN SISBEN (IV)
Notificar a la poblaci√≥n, no listado sensal o sin siben para que actualicen sus datos en las tablas de referencia y saquen sisben o validen su listado censal

In [None]:
# Filtrar el DataFrame seg√∫n las condiciones
Df_No_Sisben = df_ms_adres


Df_No_Sisben = Df_No_Sisben[
    ~Df_No_Sisben[41].str.contains(
        r"LC\(9\)|LC\(17\)|LC\(1\)|LC\(2\)|LC\(28\)|LC\(16\)|"
        r"SIV\(B\d+\)|SIV\(A\d+\)|SIV\(C\d+\)|"
        r"LC\((?:[^)]*\b(9|2|17|1|22)\b[^)]*)\)", 
        regex=True, 
        na=False
    )
]



Df_No_Sisben = Df_No_Sisben[
    (Df_No_Sisben[2].isnull() | (Df_No_Sisben[2] == '')) &  # Columna 2 vac√≠a o nula
    (Df_No_Sisben[19] != 34) &  # Columna 14 diferente a a poblaci√≥n 34
    (Df_No_Sisben[33] == 'AC') &  # Columna 28 igual a 'AC'
    (Df_No_Sisben[42] == 0)  # Columna 37 igual a 0
]

# Obtener los nombres de las columnas correspondientes a los √≠ndices del 4 al 11
cols_por_indice = Df_No_Sisben.columns[4:12].tolist() + [Df_No_Sisben.columns[40]]
# Combinar con las columnas adicionales
columnas_finales = cols_por_indice + ['Nombre Departamento', 'Nombre Municipio', 'celular', 'telefono_1', 'telefono_2', 'correo_electronico']
Df_No_Sisben = Df_No_Sisben.loc[:, columnas_finales]

# Eliminar registros donde las columnas 'celular', 'telefono_1', 'telefono_2' sean vac√≠as o nulas
Df_No_Sisben = Df_No_Sisben[
    ~Df_No_Sisben[['celular', 'telefono_1', 'telefono_2']].isnull().all(axis=1) &
    ~Df_No_Sisben[['celular', 'telefono_1', 'telefono_2']].eq("").all(axis=1)
]

In [None]:
import pandas as pd

# Crear la tabla resumen por "Nombre Municipio"
resumen_municipios = Df_No_Sisben.groupby('Nombre Municipio').size().reset_index(name='Cantidad')
# Agregar una fila con el total de registros
total_fila = pd.DataFrame({'Nombre Municipio': ['Total'], 'Cantidad': [resumen_municipios['Cantidad'].sum()]})
resumen_municipios = pd.concat([resumen_municipios, total_fila], ignore_index=True)

# Guardar en un archivo Excel
with pd.ExcelWriter(Ruta_Salida_No_Sisben, engine='xlsxwriter') as writer:
    # Guardar el DataFrame original en una hoja
    Df_No_Sisben.to_excel(writer, sheet_name='Datos', index=False)
    
    # Guardar la tabla resumen en otra hoja
    resumen_municipios.to_excel(writer, sheet_name='Resumen', index=False, startrow=1)
    
    # Obtener el workbook y worksheet para aplicar formatos
    workbook = writer.book
    worksheet = writer.sheets['Resumen']
    
    # Formato para la cabecera
    header_format = workbook.add_format({
        'bold': True,
        'text_wrap': True,
        'valign': 'middle',
        'align': 'center',
        'fg_color': '#DCE6F1',
        'border': 1
    })
    
    # Formato para las celdas
    cell_format = workbook.add_format({
        'border': 1,
        'valign': 'middle'
    })
    
    # Formato para la fila de totales
    total_format = workbook.add_format({
        'bold': True,
        'border': 1,
        'valign': 'middle',
        'fg_color': '#FFD700'
    })
    
    # Aplicar formato a la cabecera
    for col_num, value in enumerate(resumen_municipios.columns):
        worksheet.write(1, col_num, value, header_format)
    
    # Aplicar formato a las celdas
    for row_num, row_data in resumen_municipios.iterrows():
        fmt = total_format if row_data['Nombre Municipio'] == 'Total' else cell_format
        for col_num, cell_value in enumerate(row_data):
            worksheet.write(row_num + 2, col_num, cell_value, fmt)
    
    # Ajustar el ancho de las columnas
    worksheet.set_column('A:A', 30)
    worksheet.set_column('B:B', 15)

print(f"Archivo guardado en: {Ruta_Salida_No_Sisben}")

# 4 NOTIFICACION SISBEN EN OTRO MUNICIPIO

In [None]:
# Filtrar el DataFrame seg√∫n las condiciones
Df_Sisben_Otro_Municipio = df_ms_adres

Df_Sisben_Otro_Municipio = Df_Sisben_Otro_Municipio[
    (Df_Sisben_Otro_Municipio[2].isnull() | (Df_Sisben_Otro_Municipio[2] == '')) &  # Columna 2 vac√≠a o nula
    (Df_Sisben_Otro_Municipio[19] == 34) |  # Columna 14 igual a a poblaci√≥n 34
    (Df_Sisben_Otro_Municipio[19] == 5) &  # Columna 14 igual a a poblaci√≥n 5
    (Df_Sisben_Otro_Municipio[33] == 'AC') &  # Columna 28 igual a 'AC'
    (Df_Sisben_Otro_Municipio[42] == 0)  # Columna 37 igual a 0
]

# Obtener los nombres de las columnas correspondientes a los √≠ndices del 4 al 11
cols_por_indice = Df_Sisben_Otro_Municipio.columns[4:12].tolist() + [Df_Sisben_Otro_Municipio.columns[40]]
# Combinar con las columnas adicionales
columnas_finales = cols_por_indice + ['municipio', 'Nombre Departamento', 'Nombre Municipio', 'celular', 'telefono_1', 'telefono_2', 'correo_electronico']
Df_Sisben_Otro_Municipio = Df_Sisben_Otro_Municipio.loc[:, columnas_finales]

# Eliminar registros donde las columnas 'celular', 'telefono_1', 'telefono_2' sean vac√≠as o nulas
Df_Sisben_Otro_Municipio = Df_Sisben_Otro_Municipio[
    ~Df_Sisben_Otro_Municipio[['celular', 'telefono_1', 'telefono_2']].isnull().all(axis=1) &
    ~Df_Sisben_Otro_Municipio[['celular', 'telefono_1', 'telefono_2']].eq("").all(axis=1)
]

# Asegurarse de que las columnas de uni√≥n sean del mismo tipo
df_Sisben['numeroDocumento'] = df_Sisben['numeroDocumento'].astype(str)
Df_Sisben_Otro_Municipio[5] = Df_Sisben_Otro_Municipio[5].astype(str)

# Realizar el merge para traer la columna "cod_mpio" de df_Sisben a Df_Sisben_Otro_Municipio
Df_Sisben_Otro_Municipio = Df_Sisben_Otro_Municipio.merge(
    df_Sisben[['numeroDocumento', 'cod_mpio']],
    left_on=5,
    right_on='numeroDocumento',
    how='left'
)
# Eliminar la columna duplicada "numeroDocumento" si no es necesaria
Df_Sisben_Otro_Municipio.drop(columns=['numeroDocumento'], inplace=True)

# Filtrar los registros donde "municipio" y "cod_mpio" son diferentes
# Convertir las columnas 'municipio' y 'cod_mpio' a tipo num√©rico de 5 d√≠gitos
Df_Sisben_Otro_Municipio['municipio'] = Df_Sisben_Otro_Municipio['municipio'].astype(int).apply(lambda x: f"{x:05d}")
Df_Sisben_Otro_Municipio['cod_mpio'] = Df_Sisben_Otro_Municipio['cod_mpio'].fillna(-1).astype(int).apply(lambda x: f"{x:05d}" if x != -1 else "00000")

# Filtrar los registros donde "municipio" y "cod_mpio" son diferentes
Df_Sisben_Otro_Municipio = Df_Sisben_Otro_Municipio[Df_Sisben_Otro_Municipio['municipio'] != Df_Sisben_Otro_Municipio['cod_mpio']]

Df_Sisben_Otro_Municipio.rename(columns={"cod_mpio": "municipio_Sisben"}, inplace=True)
Df_Sisben_Otro_Municipio = Df_Sisben_Otro_Municipio[Df_Sisben_Otro_Municipio['municipio_Sisben'].notnull() & (Df_Sisben_Otro_Municipio['municipio_Sisben'] != "00000")]

In [None]:
# Crear la tabla resumen por "Nombre Municipio"
resumen_municipios = Df_Sisben_Otro_Municipio.groupby('Nombre Municipio').size().reset_index(name='Cantidad')

# Agregar una fila con el total de registros
total_fila = pd.DataFrame({'Nombre Municipio': ['Total'], 'Cantidad': [resumen_municipios['Cantidad'].sum()]})
resumen_municipios = pd.concat([resumen_municipios, total_fila], ignore_index=True)

# Guardar en un archivo Excel
with pd.ExcelWriter(R_Sisben_OtroMunicipio, engine='xlsxwriter') as writer:
    # Guardar el DataFrame original en una hoja
    Df_Sisben_Otro_Municipio.to_excel(writer, sheet_name='Datos', index=False)
    
    # Guardar la tabla resumen en otra hoja
    resumen_municipios.to_excel(writer, sheet_name='Resumen', index=False, startrow=1)
    
    # Obtener el workbook y worksheet para aplicar formatos
    workbook = writer.book
    worksheet = writer.sheets['Resumen']
    
    # Formato para la cabecera
    header_format = workbook.add_format({
        'bold': True,
        'text_wrap': True,
        'valign': 'middle',
        'align': 'center',
        'fg_color': '#DCE6F1',
        'border': 1
    })
    
    # Formato para las celdas
    cell_format = workbook.add_format({
        'border': 1,
        'valign': 'middle'
    })
    
    # Formato para la fila de totales
    total_format = workbook.add_format({
        'bold': True,
        'border': 1,
        'valign': 'middle',
        'fg_color': '#FFD700'
    })
    
    # Aplicar formato a la cabecera
    for col_num, value in enumerate(resumen_municipios.columns):
        worksheet.write(1, col_num, value, header_format)
    
    # Aplicar formato a las celdas
    for row_num, row_data in resumen_municipios.iterrows():
        fmt = total_format if row_data['Nombre Municipio'] == 'Total' else cell_format
        for col_num, cell_value in enumerate(row_data):
            worksheet.write(row_num + 2, col_num, cell_value, fmt)
    
    # Ajustar el ancho de las columnas
    worksheet.set_column('A:A', 30)
    worksheet.set_column('B:B', 15)

print(f"Archivo guardado en: {R_Sisben_OtroMunicipio}")