In [1]:
import pandas as pd
import os
from pathlib import Path

# Rutas de entrada
ruta_excel = r"C:\Users\jjbustos\OneDrive - Grupo Jerónimo Martins\Documents\auditoria ausentismos\archivos_planos\Reporte 45_082025_26082025 ausentismo.XLSX"
ruta_csv = r"C:\Users\jjbustos\OneDrive - Grupo Jerónimo Martins\Documents\auditoria ausentismos\archivos_salida\relacion_laboral_con_validaciones.csv"

# Ruta de salida
ruta_salida = r"C:\Users\jjbustos\OneDrive - Grupo Jerónimo Martins\Documents\auditoria ausentismos\archivos_salida"
nombre_archivo_salida = "merge_ausentismos_filtrado.csv"

# Paso 1: Leer el archivo Excel
print("Leyendo archivo Excel...")
df_excel = pd.read_excel(ruta_excel)

# Paso 2: Filtrar por los valores específicos en la columna 'Txt.cl.pres./ab.'
print("Filtrando datos del Excel...")
valores_filtro = [
    'Enf Gral SOAT',
    'Inc. Accidente de Trabajo',
    'Inca. Enfer Gral Integral',
    'Inca. Enfermedad  General',
    'Prorroga Enf Gral SOAT',
    'Prorroga Inc. Accid. Trab',
    'Prorroga Inca/Enfer Gene',
    'Incapa.fuera de turno'
]

df_excel_filtrado = df_excel[df_excel['Txt.cl.pres./ab.'].isin(valores_filtro)].copy()
print(f"Registros después del filtro: {len(df_excel_filtrado)}")

# Paso 3: Leer el archivo CSV
print("Leyendo archivo CSV...")
df_csv = pd.read_csv(ruta_csv)

# Paso 4: Hacer el merge
print("Realizando merge...")
# Asegurarse de que las columnas para merge estén en el mismo tipo
df_excel_filtrado['Número de personal'] = df_excel_filtrado['Número de personal'].astype(str).str.strip()
df_csv['id_personal'] = df_csv['id_personal'].astype(str).str.strip()

# Realizar el merge (left join para mantener todos los registros del CSV)
df_merged = pd.merge(
    df_csv,
    df_excel_filtrado[['Número de personal', 'Descripc.enfermedad']],
    left_on='id_personal',
    right_on='Número de personal',
    how='left'
)

# Eliminar la columna duplicada 'Número de personal' si existe
if 'Número de personal' in df_merged.columns:
    df_merged = df_merged.drop(columns=['Número de personal'])

# Paso 5: Eliminar filas completamente vacías
print("Eliminando filas vacías...")
df_merged = df_merged.dropna(how='all')

# Paso 6: Guardar el resultado
print("Guardando archivo de salida...")
ruta_completa_salida = os.path.join(ruta_salida, nombre_archivo_salida)
df_merged.to_csv(ruta_completa_salida, index=False, encoding='utf-8-sig')

print(f"\n✓ Proceso completado exitosamente!")
print(f"✓ Registros en Excel original: {len(df_excel)}")
print(f"✓ Registros después del filtro: {len(df_excel_filtrado)}")
print(f"✓ Registros en CSV original: {len(df_csv)}")
print(f"✓ Registros en resultado final: {len(df_merged)}")
print(f"✓ Archivo guardado en: {ruta_completa_salida}")
print(f"\nColumnas en el archivo final:")
for col in df_merged.columns:
    print(f"  - {col}")

Leyendo archivo Excel...
Filtrando datos del Excel...
Registros después del filtro: 1420
Leyendo archivo CSV...


  df_csv = pd.read_csv(ruta_csv)


Realizando merge...
Eliminando filas vacías...
Guardando archivo de salida...

✓ Proceso completado exitosamente!
✓ Registros en Excel original: 5261
✓ Registros después del filtro: 1420
✓ Registros en CSV original: 128151
✓ Registros en resultado final: 135938
✓ Archivo guardado en: C:\Users\jjbustos\OneDrive - Grupo Jerónimo Martins\Documents\auditoria ausentismos\archivos_salida\merge_ausentismos_filtrado.csv

Columnas en el archivo final:
  - id_personal
  - nombre_completo
  - cod_funcion_external_code
  - cod_funcion_label
  - tipo_documento_identidad
  - numero_documento_identidad
  - estado_empleado_picklist_label
  - external_code
  - external_name_label
  - start_date
  - end_date
  - quantity_in_days
  - calendar_days
  - descripcion_general_external_code
  - descripcion_general_picklist_label
  - fecha_inicio_ausentismo
  - agregador_global_ausencias_picklist_label
  - last_modified_by
  - last_approval_status_date
  - hr_personnel_subarea
  - hr_personnel_subarea_name
  - 

In [3]:
import pandas as pd
import os
from pathlib import Path

# Rutas de entrada
ruta_excel = r"C:\Users\jjbustos\OneDrive - Grupo Jerónimo Martins\Documents\auditoria ausentismos\archivos_planos\Reporte 45_082025_26082025 ausentismo.XLSX"
ruta_csv = r"C:\Users\jjbustos\OneDrive - Grupo Jerónimo Martins\Documents\auditoria ausentismos\archivos_salida\relacion_laboral_con_validaciones.csv"

# Ruta de salida
ruta_salida = r"C:\Users\jjbustos\OneDrive - Grupo Jerónimo Martins\Documents\auditoria ausentismos\archivos_salida"
nombre_archivo_salida = "super_merge_ausentismos.csv"

# Paso 1: Leer el archivo Excel
print("Leyendo archivo Excel...")
df_excel = pd.read_excel(ruta_excel)
print(f"Registros en Excel: {len(df_excel)}")

# Paso 2: Filtrar por los valores específicos en la columna 'Txt.cl.pres./ab.'
print("\nFiltrando datos del Excel...")
valores_filtro = [
    'Enf Gral SOAT',
    'Inc. Accidente de Trabajo',
    'Inca. Enfer Gral Integral',
    'Inca. Enfermedad  General',
    'Prorroga Enf Gral SOAT',
    'Prorroga Inc. Accid. Trab',
    'Prorroga Inca/Enfer Gene',
    'Incapa.fuera de turno'
]

df_excel_filtrado = df_excel[df_excel['Txt.cl.pres./ab.'].isin(valores_filtro)].copy()
print(f"Registros después del filtro: {len(df_excel_filtrado)}")

# Paso 3: Leer el archivo CSV
print("\nLeyendo archivo CSV...")
df_csv = pd.read_csv(ruta_csv)
print(f"Registros en CSV: {len(df_csv)}")

# Paso 4: Preparar las columnas para el SUPER MERGE
print("\nPreparando columnas para el SUPER MERGE...")

# Normalizar columnas del Excel
df_excel_filtrado['Número de personal'] = df_excel_filtrado['Número de personal'].astype(str).str.strip()
df_excel_filtrado['Inicio de validez'] = pd.to_datetime(df_excel_filtrado['Inicio de validez'], errors='coerce')
df_excel_filtrado['Fin de validez'] = pd.to_datetime(df_excel_filtrado['Fin de validez'], errors='coerce')

# Normalizar columnas del CSV
df_csv['id_personal'] = df_csv['id_personal'].astype(str).str.strip()
df_csv['start_date'] = pd.to_datetime(df_csv['start_date'], errors='coerce')
df_csv['end_date'] = pd.to_datetime(df_csv['end_date'], errors='coerce')

# Paso 5: SUPER MERGE usando las 3 columnas
print("\nRealizando SUPER MERGE con 3 columnas...")
df_merged = pd.merge(
    df_csv,
    df_excel_filtrado,
    left_on=['id_personal', 'start_date', 'end_date'],
    right_on=['Número de personal', 'Inicio de validez', 'Fin de validez'],
    how='inner'  # Solo mantener registros que hagan match en las 3 columnas
)

# Eliminar columnas duplicadas del merge
columnas_duplicadas = ['Número de personal', 'Inicio de validez', 'Fin de validez']
for col in columnas_duplicadas:
    if col in df_merged.columns:
        df_merged = df_merged.drop(columns=[col])

print(f"Registros después del SUPER MERGE: {len(df_merged)}")

# Paso 6: Eliminar filas completamente vacías (por si acaso)
df_merged = df_merged.dropna(how='all')

# Paso 7: Guardar el resultado
print("\nGuardando archivo de salida...")
ruta_completa_salida = os.path.join(ruta_salida, nombre_archivo_salida)
df_merged.to_csv(ruta_completa_salida, index=False, encoding='utf-8-sig')

# Paso 8: Mostrar estadísticas
print("\n" + "="*60)
print("✓ SUPER MERGE COMPLETADO EXITOSAMENTE!")
print("="*60)
print(f"\n📊 ESTADÍSTICAS DEL PROCESO:")
print(f"   • Registros en Excel original: {len(df_excel):,}")
print(f"   • Registros después del filtro: {len(df_excel_filtrado):,}")
print(f"   • Registros en CSV original: {len(df_csv):,}")
print(f"   • Registros con MATCH (3 columnas): {len(df_merged):,}")
print(f"   • Registros eliminados (sin match): {len(df_csv) - len(df_merged):,}")
print(f"\n📁 Archivo guardado en:")
print(f"   {ruta_completa_salida}")
print(f"\n📋 Columnas en el archivo final ({len(df_merged.columns)}):")
for i, col in enumerate(df_merged.columns, 1):
    print(f"   {i:2d}. {col}")
print("="*60)

Leyendo archivo Excel...
Registros en Excel: 5261

Filtrando datos del Excel...
Registros después del filtro: 1420

Leyendo archivo CSV...


  df_csv = pd.read_csv(ruta_csv)


Registros en CSV: 128151

Preparando columnas para el SUPER MERGE...

Realizando SUPER MERGE con 3 columnas...
Registros después del SUPER MERGE: 16

Guardando archivo de salida...

✓ SUPER MERGE COMPLETADO EXITOSAMENTE!

📊 ESTADÍSTICAS DEL PROCESO:
   • Registros en Excel original: 5,261
   • Registros después del filtro: 1,420
   • Registros en CSV original: 128,151
   • Registros con MATCH (3 columnas): 16
   • Registros eliminados (sin match): 128,135

📁 Archivo guardado en:
   C:\Users\jjbustos\OneDrive - Grupo Jerónimo Martins\Documents\auditoria ausentismos\archivos_salida\super_merge_ausentismos.csv

📋 Columnas en el archivo final (60):
    1. id_personal
    2. nombre_completo
    3. cod_funcion_external_code
    4. cod_funcion_label
    5. tipo_documento_identidad
    6. numero_documento_identidad
    7. estado_empleado_picklist_label
    8. external_code
    9. external_name_label
   10. start_date
   11. end_date
   12. quantity_in_days
   13. calendar_days
   14. descripci