# üìä Notebook Esencial: Mezclado Personal Asignado vs Servicio Vivo

## üéØ Objetivo
An√°lisis paso a paso del mezclado entre Personal Asignado (empleados reales) y Servicio Vivo (personal estimado) con identificaci√≥n de discrepancias.

## ‚ö†Ô∏è PROBLEMA IDENTIFICADO: Registro ANTAPACCAY
**Registro buscado**: `117232, 22799, 476, RESGUARDO 12 HRS L/D D√çA, 1.17`  
**Estado**: NO aparece en an√°lisis final  
**Causa probable**: 
1. C√≥digo de servicio diferente (encontrado: 453 vs buscado: 476)
2. Filtros de estado (debe ser "Aprobado")
3. Limpieza de datos que elimina registros con problemas

---

## üìã PASOS ESENCIALES PARA EJECUCI√ìN

### ‚úÖ **PASO 1: Preparaci√≥n y Carga** (Celdas 1-3)
1. **Celda 1**: Importar librer√≠as
2. **Celda 2**: Cargar Personal Asignado  
3. **Celda 3**: Cargar Servicio Vivo

### ‚úÖ **PASO 2: Normalizaci√≥n** (Celdas 4-5)
4. **Celda 4**: Procesar Personal Asignado (filtro ACTIVO + fallback grupo)
5. **Celda 5**: Procesar Servicio Vivo (filtro Aprobado + fallback grupo)

### ‚úÖ **PASO 3: Mezclado** (Celda 6)
6. **Celda 6**: JOIN optimizado con m√©tricas

### ‚úÖ **PASO 4: Exportaci√≥n y An√°lisis** (Celda 7)
7. **Celda 7**: Exportar resultados y an√°lisis de discrepancias

---

In [1]:
# ‚úÖ PASO 1: IMPORTAR LIBRER√çAS
print("üì¶ Importando librer√≠as esenciales...")

import polars as pl
import fastexcel
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Librer√≠as cargadas:")
print(f"   ‚Ä¢ Polars: {pl.__version__}")
print(f"   ‚Ä¢ FastExcel: {fastexcel.__version__}")
print("\nüéØ Listo para procesar datos...")

üì¶ Importando librer√≠as esenciales...
‚úÖ Librer√≠as cargadas:
   ‚Ä¢ Polars: 1.32.3
   ‚Ä¢ FastExcel: 0.14.0

üéØ Listo para procesar datos...


In [None]:
PERSONAL_ASIGNADO_PATH = "11. Personal Asignado - Noviembre 2025 - (041125).xlsx"
SERVICIO_VIVO_PATH =  "Servicios Vivos - Setiembre 2025 - 141025 - General 4 Planillas.xlsx"

In [None]:
import logging
def load_excel_with_validation(path: str, schema: dict) -> pl.DataFrame:
    """Carga Excel con validaci√≥n robusta"""
    try:
        df = pl.read_excel(path, schema = schema)
        if df.height == 0:
            raise ValueError("El DataFrame est√° vac√≠o despu√©s de la carga.")
        logging.info(f"Archivo con {df.height} filas cargado correctamente: {path}")
        return df
    except Exception as e:
        logging.error(f"Error al cargar el archivo {path}: {e}")
        raise

In [None]:
def clean_string_column(df: pl.DataFrame, col: str) -> pl.Expr:
    """Limpia columna de strings: strip, filtra vac√≠os."""
    return (
        pl.col(col)
        .cast(pl.Utf8)
        .str.strip_chars(" ")
        .filter(pl.col(col).is_not_null() & (pl.col(col) != "") & (pl.col(col) != "-"))
    )

def create_fallback_client(df: pl.DataFrame, client_col: str, group_col: str) -> pl.Expr:
    """Crea columna Cliente_Final con fallback."""
    return (
        pl.when(pl.col(client_col).is_not_null() & (pl.col(client_col) != ""))
        .then(pl.col(client_col))
        .otherwise(pl.col(group_col))
    )


In [None]:
# ‚úÖ PASO 2: CARGAR PERSONAL ASIGNADO
print("üìÇ Cargando Personal Asignado...")

try:
    df_personal_asignado = pl.read_excel(
        PERSONAL_ASIGNADO_PATH, 
        sheet_name='ASIGNADO', 
        read_options={"header_row": 3}
    )
    
    print(f"‚úÖ Personal Asignado cargado:")
    print(f"   ‚Ä¢ Filas: {df_personal_asignado.height:,}")
    print(f"   ‚Ä¢ Columnas: {df_personal_asignado.width}")
    print(f"   ‚Ä¢ Estados √∫nicos: {df_personal_asignado.select(pl.col('ESTADO').unique()).to_series().to_list()}")
    
    # Mostrar muestra de datos
    print(f"\nüìã Muestra de columnas clave:")
    muestra_pa = df_personal_asignado.select([
        "ESTADO", "COD CLIENTE", "COD UNID", "COD SERVICIO", "COD GRUPO"
    ]).head(3)
    print(muestra_pa)
    
except Exception as e:
    print(f"‚ùå ERROR: {e}")
    raise

üìÇ Cargando Personal Asignado...
‚úÖ Personal Asignado cargado:
   ‚Ä¢ Filas: 14,620
   ‚Ä¢ Columnas: 30
   ‚Ä¢ Estados √∫nicos: ['ALTA NUEVA', 'ALTA NUEVA - PARA BAJA', 'ACTIVO', 'ACTIVO - PARA BAJA']

üìã Muestra de columnas clave:
shape: (3, 5)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ ESTADO ‚îÜ COD CLIENTE ‚îÜ COD UNID ‚îÜ COD SERVICIO ‚îÜ COD GRUPO   ‚îÇ
‚îÇ ---    ‚îÜ ---         ‚îÜ ---      ‚îÜ ---          ‚îÜ ---         ‚îÇ
‚îÇ str    ‚îÜ i64         ‚îÜ i64      ‚îÜ str          ‚îÜ str         ‚îÇ
‚ïû‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï°
‚îÇ ACTIVO ‚îÜ 7592        ‚îÜ 4992     ‚îÜ 16           ‚îÜ (en blanco) ‚îÇ
‚îÇ ACTIVO ‚îÜ 24549       ‚îÜ 9066     ‚îÜ 95         

In [None]:
# ‚úÖ PASO 3: CARGAR SERVICIO VIVO
print("üìÇ Cargando Servicio Vivo...")

try:
    df_servicio_vivo = pl.read_excel(
        SERVICIO_VIVO_PATH,
        sheet_name='Sheet1', 
        read_options={"header_row": 0}
    )
    
    print(f"‚úÖ Servicio Vivo cargado:")
    print(f"   ‚Ä¢ Filas: {df_servicio_vivo.height:,}")
    print(f"   ‚Ä¢ Columnas: {df_servicio_vivo.width}")
    print(f"   ‚Ä¢ Estados √∫nicos: {df_servicio_vivo.select(pl.col('Estado').unique()).to_series().to_list()}")
    
    # Mostrar muestra de datos
    print(f"\nüìã Muestra de columnas clave:")
    muestra_sv = df_servicio_vivo.select([
        #"Estado", 
        "Cliente", 
        "Unidad", 
        "Servicio", 
        "Grupo", 
        "Q¬∞ PER REAL + Q¬∞ FAC. DESC"
    ]).head(3)
    print(muestra_sv)
    
    # üîç INVESTIGACI√ìN ESPEC√çFICA: Buscar registro ANTAPACCAY
    print(f"\nüîç INVESTIGACI√ìN: Buscando registro ANTAPACCAY...")
    antapaccay_registros = df_servicio_vivo.filter(
        (pl.col("Cliente") == 117232) & 
        (pl.col("Unidad") == 22799)
    )
    
    if antapaccay_registros.height > 0:
        print(f"‚úÖ Encontrados {antapaccay_registros.height} registros ANTAPACCAY 117232-22799:")
        print(antapaccay_registros.select([
            "Estado", "Cliente", "Unidad", "Servicio", "Nombre Servicio", 
            "Q¬∞ PER REAL + Q¬∞ FAC. DESC"
        ]))
    else:
        print("‚ùå NO se encontraron registros ANTAPACCAY 117232-22799")
    
except Exception as e:
    print(f"‚ùå ERROR: {e}")
    raise

üìÇ Cargando Servicio Vivo...


Could not determine dtype for column 22, falling back to string
Could not determine dtype for column 27, falling back to string


‚úÖ Servicio Vivo cargado:
   ‚Ä¢ Filas: 6,091
   ‚Ä¢ Columnas: 28
   ‚Ä¢ Estados √∫nicos: ['Aprobado']

üìã Muestra de columnas clave:
‚ùå ERROR: unable to find column "Q¬∞ PER REAL + Q¬∞ FAC. DESC"; valid columns: ["Compa√±√≠a", "Cliente", "Nombre Cliente", "Grupo", "Nombre Grupo", "Unidad", "Nombre Unidad", "Hoja Costo", "Departamento", "Descripcion Departamento", "Servicio", "Nombre Servicio", "Linea", "Zona", "Total Mensual", "Puestos", "Total Factura", "Tipo", "F. Inicio", "Fecha Fin", "Estado", "F. Aprobaci√≥n", "F. Cierre", "N¬∫ Contrato", "Factura", "F. Documento", "Estado Factura", "Nota Credito"]


ColumnNotFoundError: unable to find column "Q¬∞ PER REAL + Q¬∞ FAC. DESC"; valid columns: ["Compa√±√≠a", "Cliente", "Nombre Cliente", "Grupo", "Nombre Grupo", "Unidad", "Nombre Unidad", "Hoja Costo", "Departamento", "Descripcion Departamento", "Servicio", "Nombre Servicio", "Linea", "Zona", "Total Mensual", "Puestos", "Total Factura", "Tipo", "F. Inicio", "Fecha Fin", "Estado", "F. Aprobaci√≥n", "F. Cierre", "N¬∫ Contrato", "Factura", "F. Documento", "Estado Factura", "Nota Credito"]

In [None]:
# ‚úÖ PASO 4: PROCESAR PERSONAL ASIGNADO
print("üîÑ Procesando Personal Asignado...")

try:
    personal_procesado = (
        df_personal_asignado
        # .filter(pl.col("ESTADO") == "ACTIVO")  # Solo empleados activos
        .with_columns([
            # Limpieza de c√≥digos de servicio (eliminar espacios)
            pl.col("COD SERVICIO").cast(pl.Utf8).str.strip_chars(" ").alias("Servicio_Limpio"),
            
            # FALLBACK: Cliente_Final = COD CLIENTE si no es null, sino COD GRUPO
            pl.when(
                pl.col("COD CLIENTE").is_not_null() & 
                (pl.col("COD CLIENTE").cast(pl.Utf8) != "")
            )
            .then(pl.col("COD CLIENTE").cast(pl.Utf8))
            .otherwise(pl.col("COD GRUPO").cast(pl.Utf8))
            .alias("Cliente_Final"),
        ])
        .filter(
            pl.col("Cliente_Final").is_not_null() & 
            (pl.col("Cliente_Final") != "-") &
            (pl.col("Cliente_Final") != "") &
            pl.col("COD UNID").is_not_null() &
            (pl.col("COD UNID") != "-") &
            (pl.col("COD UNID") != "") &
            pl.col("Servicio_Limpio").is_not_null() &
            (pl.col("Servicio_Limpio") != "")
            (pl.col("Servicio_Limpio") != "-")
        )
        .group_by(["Cliente_Final", "COD UNID", "Servicio_Limpio"])
        .agg([
            pl.len().alias("Personal_Real"),
            pl.col("TIPO DE COMPA√ë√çA").first().alias("Compa√±√≠a_PA"),
            pl.col("CLIENTE").first().alias("Nombre_Cliente_PA"),
            pl.col("UNIDAD").first().alias("Nombre_Unidad_PA"),
            pl.col("TIPO DE SERVCIO").first().alias("Nombre_Servicio_PA"),
            
            # ‚úÖ AGREGADO: Nombres de grupo para PA
            pl.col("COD GRUPO").first().alias("Codigo_Grupo_PA"),
            pl.col("GRUPO").first().alias("Nombre_Grupo_PA"),
            pl.col("LIDER ZONAL / COORDINADOR").first().alias("Lider_Zonal_PA"),
            pl.col("JEFE DE OPERACIONES").first().alias("Jefatura_PA"),
            pl.col("GERENTE REGIONAL").first().alias("Gerencia_PA"),
            pl.col("SECTOR").first().alias("Sector_PA"),
            pl.col("DEPARTAMENTO").first().alias("Departamento_PA"),
        ])
    )
    
    total_empleados = personal_procesado.select(pl.col("Personal_Real").sum()).item()
    servicios_unicos = personal_procesado.height
    
    print(f"‚úÖ Personal Asignado procesado:")
    print(f"   ‚Ä¢ Servicios √∫nicos: {servicios_unicos:,}")
    print(f"   ‚Ä¢ Total empleados: {total_empleados:,}")
    
    # Verificar si hay registros de ANTAPACCAY en Personal Asignado
    print(f"\nüîç ANTAPACCAY en Personal Asignado:")
    antapaccay_pa = personal_procesado.filter(pl.col("Cliente_Final") == "117232")
    print(f"   ‚Ä¢ Registros encontrados: {antapaccay_pa.height}")
    if antapaccay_pa.height > 0:
        print(antapaccay_pa.select([
            "Cliente_Final", "COD UNID", "Servicio_Limpio", "Personal_Real", "Nombre_Grupo_PA"
        ]).head(5))
    
except Exception as e:
    print(f"‚ùå ERROR: {e}")
    raise

üîÑ Procesando Personal Asignado...
‚úÖ Personal Asignado procesado:
   ‚Ä¢ Servicios √∫nicos: 4,550
   ‚Ä¢ Total empleados: 13,936

üîç ANTAPACCAY en Personal Asignado:
   ‚Ä¢ Registros encontrados: 17
shape: (5, 5)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ Cliente_Final ‚îÜ COD UNID ‚îÜ Servicio_Limpio ‚îÜ Personal_Real ‚îÜ Nombre_Grupo_PA ‚îÇ
‚îÇ ---           ‚îÜ ---      ‚îÜ ---             ‚îÜ ---           ‚îÜ ---             ‚îÇ
‚îÇ str           ‚îÜ i64      ‚îÜ str             ‚îÜ u32           ‚îÜ str             ‚îÇ
‚ïû‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï°
‚îÇ 117232        ‚î

In [None]:
# ‚úÖ PASO 5: PROCESAR SERVICIO VIVO
print("üîÑ Procesando Servicio Vivo...")

try:
    servicio_procesado = (
        df_servicio_vivo
        # .filter(pl.col("Estado") == "Aprobado")  # Solo aprobados
        .with_columns([
            # Limpieza de c√≥digos de servicio (eliminar espacios)
            pl.col("Servicio").cast(pl.Utf8).str.strip_chars(" ").alias("Servicio_Limpio"),
            
            # FALLBACK: Cliente_Final = Cliente si no es null, sino Grupo  
            pl.when(
                pl.col("Cliente").is_not_null() & 
                (pl.col("Cliente").cast(pl.Utf8) != "")
            )
            .then(pl.col("Cliente").cast(pl.Utf8))
            .otherwise(pl.col("Grupo").cast(pl.Utf8))
            .alias("Cliente_Final"),
            
            # Convertir Unidad a string para compatibilidad
            pl.col("Unidad").cast(pl.Utf8).alias("Unidad_Str"),
        ])
        .filter(
            pl.col("Cliente_Final").is_not_null() & 
            (pl.col("Cliente_Final") != "") &
            (pl.col("Cliente_Final") != "-") &
            pl.col("Unidad_Str").is_not_null() &
            (pl.col("Unidad_Str")!="") &
            (pl.col("Unidad_Str")!="-") & 
            pl.col("Servicio_Limpio").is_not_null() &
            (pl.col("Servicio_Limpio") != "") &
            (pl.col("Servicio_Limpio") != "-")
        )
        .group_by(["Cliente_Final", "Unidad_Str", "Servicio_Limpio"])
        .agg([
            pl.col("Q¬∞ PER REAL + Q¬∞ FAC. DESC").sum().alias("Personal_Estimado"),
            pl.col("Compa√±√≠a").first().alias("Compa√±√≠a_SV"),
            pl.col("Nombre Cliente").first().alias("Nombre_Cliente_SV"),
            pl.col("Nombre Unidad").first().alias("Nombre_Unidad_SV"),
            pl.col("Nombre Servicio").first().alias("Nombre_Servicio_SV"),
            pl.col("ZONA").first().alias("Zona_SV"),
            pl.col("MACROZONA").first().alias("Macrozona_SV"),
            
            # ‚úÖ AGREGADO: C√≥digos y nombres de grupo para SV
            pl.col("Grupo").first().alias("Codigo_Grupo_SV"),
            pl.col("Nombre Grupo").first().alias("Nombre_Grupo_SV"),
            pl.col("LIDERZONAL").first().alias("Lider_Zonal_SV"),
            pl.col("JEFATURA").first().alias("Jefatura_SV"),
            pl.col("GERENCIA").first().alias("Gerencia_SV"),
            pl.col("SECTOR").first().alias("Sector_SV"),
            pl.col("Descripcion Departamento").first().alias("Departamento_SV"),
        ])
    )
    
    total_estimado = servicio_procesado.select(pl.col("Personal_Estimado").sum()).item()
    servicios_unicos = servicio_procesado.height
    
    print(f"‚úÖ Servicio Vivo procesado:")
    print(f"   ‚Ä¢ Servicios √∫nicos: {servicios_unicos:,}")
    print(f"   ‚Ä¢ Total personal estimado: {total_estimado:,.2f}")
    
    # Verificar si hay registros de ANTAPACCAY en Servicio Vivo despu√©s del filtro
    print(f"\nüîç ANTAPACCAY en Servicio Vivo (despu√©s de filtros):")
    antapaccay_sv = servicio_procesado.filter(pl.col("Cliente_Final") == "117232")
    print(f"   ‚Ä¢ Registros encontrados: {antapaccay_sv.height}")
    if antapaccay_sv.height > 0:
        print(antapaccay_sv.select([
            "Cliente_Final", "Unidad_Str", "Servicio_Limpio", "Personal_Estimado", 
            "Nombre_Servicio_SV", "Nombre_Grupo_SV"
        ]).head(10))
    
    # Buscar espec√≠ficamente la unidad 22799
    antapaccay_22799 = servicio_procesado.filter(
        (pl.col("Cliente_Final") == "117232") & 
        (pl.col("Unidad_Str") == "22799")
    )
    print(f"\nüéØ ANTAPACCAY Unidad 22799:")
    print(f"   ‚Ä¢ Registros encontrados: {antapaccay_22799.height}")
    if antapaccay_22799.height > 0:
        print(antapaccay_22799.select([
            "Cliente_Final", "Unidad_Str", "Servicio_Limpio", "Personal_Estimado",
            "Nombre_Servicio_SV", "Nombre_Grupo_SV"
        ]))
    
except Exception as e:
    print(f"‚ùå ERROR: {e}")
    raise

üîÑ Procesando Servicio Vivo...
‚úÖ Servicio Vivo procesado:
   ‚Ä¢ Servicios √∫nicos: 4,953
   ‚Ä¢ Total personal estimado: 15,285.49

üîç ANTAPACCAY en Servicio Vivo (despu√©s de filtros):
   ‚Ä¢ Registros encontrados: 17
shape: (10, 6)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ Cliente_Final ‚îÜ Unidad_Str ‚îÜ Servicio_Limpio ‚îÜ Personal_Estima ‚îÜ Nombre_Servici ‚îÜ Nombre_Grupo_S ‚îÇ
‚îÇ ---           ‚îÜ ---        ‚îÜ ---             ‚îÜ do              ‚îÜ o_SV           ‚îÜ V              ‚îÇ
‚îÇ str           ‚îÜ str        ‚îÜ str             ‚îÜ ---             ‚îÜ ---            ‚îÜ ---            ‚îÇ
‚îÇ               ‚îÜ            ‚îÜ                 ‚îÜ f64             ‚îÜ str            ‚îÜ str            ‚î

In [None]:
# ‚úÖ PASO 6: MEZCLADO OPTIMIZADO
print("üîó Realizando mezclado con JOIN optimizado...")

try:
    # Crear claves de mezclado
    pa_con_clave = personal_procesado.with_columns([
        pl.concat_str([
            pl.col("Cliente_Final"),
            pl.lit("_"),
            pl.col("COD UNID").cast(pl.Utf8),
            pl.lit("_"), 
            pl.col("Servicio_Limpio")
        ]).alias("Clave_Mezclado")
    ])
    
    sv_con_clave = servicio_procesado.with_columns([
        pl.concat_str([
            pl.col("Cliente_Final"),
            pl.lit("_"),
            pl.col("Unidad_Str"),
            pl.lit("_"),
            pl.col("Servicio_Limpio")
        ]).alias("Clave_Mezclado")
    ])
    print("PA columnas:", pa_con_clave.columns)
    print("SV columnas:", sv_con_clave.columns)
    print(pa_con_clave.schema)
    print(sv_con_clave.schema)
    # JOIN optimizado
    resultado_mezclado = pa_con_clave.join(
        sv_con_clave,
        on="Clave_Mezclado",
        how="full",
        coalesce=True  # Evita columnas duplicadas
    ).with_columns([
        # Rellenar valores nulos
        pl.col("Personal_Real").fill_null(0),
        pl.col("Personal_Estimado").fill_null(0),
        
        # Calcular m√©tricas
        (pl.col("Personal_Real") - pl.col("Personal_Estimado")).round(2).alias("Diferencia"),
        
        pl.when(pl.col("Personal_Estimado") > 0)
        .then((pl.col("Personal_Real") / pl.col("Personal_Estimado") * 100).round(2))
        .otherwise(0)
        .alias("Cobertura_Pct"),
        
        # Estado detallado
        pl.when(
            (pl.col("Personal_Real") == 0) & (pl.col("Personal_Estimado") == 0)
        ).then(pl.lit("SIN_DATOS"))
        .when(pl.col("Personal_Real") == 0)
        .then(pl.lit("SIN_PERSONAL"))
        .when(pl.col("Personal_Estimado") == 0)
        .then(pl.lit("NO_PLANIFICADO"))
        .when(pl.col("Personal_Real") == pl.col("Personal_Estimado"))
        .then(pl.lit("EXACTO"))
        .when(pl.col("Personal_Real") > pl.col("Personal_Estimado"))
        .then(pl.lit("SOBRECARGA"))
        .when(pl.col("Personal_Estimado") > pl.col("Personal_Real"))
        .then(pl.lit("FALTA"))
        .otherwise(pl.lit("INDETERMINADO"))
        .alias("Estado"),
    ])
    
    # Estad√≠sticas del mezclado
    total_registros = resultado_mezclado.height
    total_real = resultado_mezclado.select(pl.col("Personal_Real").sum()).item()
    total_estimado = resultado_mezclado.select(pl.col("Personal_Estimado").sum()).item()
    
    print(f"‚úÖ Mezclado completado:")
    print(f"   ‚Ä¢ Total servicios mezclados: {total_registros:,}")
    print(f"   ‚Ä¢ Total empleados reales: {total_real:,}")
    print(f"   ‚Ä¢ Total empleados estimados: {total_estimado:,.2f}")
    print(f"   ‚Ä¢ Diferencia total: {(total_real - total_estimado):,.2f}")
    
    # Estad√≠sticas por estado
    stats_estado = (
        resultado_mezclado
        .group_by("Estado")
        .agg([pl.len().alias("Cantidad")])
        .sort("Cantidad", descending=True)
    )
    
    print(f"\nüìä Distribuci√≥n por estado:")
    for row in stats_estado.iter_rows(named=True):
        estado = row["Estado"]
        cantidad = row["Cantidad"]
        pct = (cantidad / total_registros * 100)
        print(f"   ‚Ä¢ {estado}: {cantidad:,} ({pct:.1f}%)")
    
    # INVESTIGACI√ìN FINAL: ¬øApareci√≥ ANTAPACCAY?
    print(f"\nüîç INVESTIGACI√ìN FINAL: ANTAPACCAY en resultado mezclado...")
    antapaccay_final = resultado_mezclado.filter(pl.col("Cliente_Final") == "117232")
    print(f"   ‚Ä¢ Registros ANTAPACCAY en resultado: {antapaccay_final.height}")
    
    if antapaccay_final.height > 0:
        print("‚úÖ ANTAPACCAY encontrado en resultado final:")
        print(antapaccay_final.select([
            "Cliente_Final", "COD UNID", "Unidad_Str", "Servicio_Limpio", 
            "Personal_Real", "Personal_Estimado", "Diferencia", "Estado",
            "Nombre_Grupo_PA", "Nombre_Grupo_SV"
        ]).head(10))
    else:
        print("‚ùå ANTAPACCAY NO encontrado en resultado final")
    
    # ‚úÖ VERIFICACI√ìN DE NOMBRES DE GRUPOS
    print(f"\nüè∑Ô∏è VERIFICACI√ìN: Nombres de grupos incluidos...")
    grupos_pa_unicos = resultado_mezclado.select(pl.col("Nombre_Grupo_PA").n_unique()).item()
    grupos_sv_unicos = resultado_mezclado.select(pl.col("Nombre_Grupo_SV").n_unique()).item()
    
    print(f"   ‚Ä¢ Grupos √∫nicos en PA: {grupos_pa_unicos}")
    print(f"   ‚Ä¢ Grupos √∫nicos en SV: {grupos_sv_unicos}")
    print("   ‚Ä¢ ‚úÖ Nombres de grupos agregados correctamente al resultado")
    
except Exception as e:
    print(f"‚ùå ERROR: {e}")
    raise

üîó Realizando mezclado con JOIN optimizado...
‚úÖ Mezclado completado:
   ‚Ä¢ Total servicios mezclados: 5,305
   ‚Ä¢ Total empleados reales: 13,936
   ‚Ä¢ Total empleados estimados: 15,285.49
   ‚Ä¢ Diferencia total: -1,349.49

üìä Distribuci√≥n por estado:
   ‚Ä¢ FALTA: 1,902 (35.9%)
   ‚Ä¢ EXACTO: 1,195 (22.5%)
   ‚Ä¢ INDETERMINADO: 1,106 (20.8%)
   ‚Ä¢ SOBRECARGA: 1,099 (20.7%)
   ‚Ä¢ NO_PLANIFICADO: 3 (0.1%)

üîç INVESTIGACI√ìN FINAL: ANTAPACCAY en resultado mezclado...
   ‚Ä¢ Registros ANTAPACCAY en resultado: 17
‚úÖ ANTAPACCAY encontrado en resultado final:
shape: (10, 10)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ Cliente_F ‚îÜ COD UNID ‚îÜ Unidad_St ‚îÜ Servicio_ ‚îÜ ‚Ä¶ ‚îÜ Diferenci ‚îÜ Estado    ‚îÜ Nombre_Gr ‚îÜ

In [None]:
def export_to_excel(df: pl.DataFrame, path: str) -> None:
    """Exporta DataFrame de polars a Excel usando FastExcel."""
    df.write_excel(path, worksheet= "Resultado",engine="fastexcel")
schema = {
    "COD CLIENTE": pl.Utf8,
    "COD UNID": pl.Utf8,
    "COD SERVICIO": pl.Utf8,
}
#df = pl.read_excel(path, schema = schema, read_options={"header_row": 3} )

In [None]:
# ‚úÖ PASO 7: EXPORTAR A EXCEL CON AN√ÅLISIS
print("üìä Exportando resultados con an√°lisis completo...")

try:
    # Importar pandas si no est√° disponible
    import pandas as pd
    
    # Preparar datos para pandas
    resultado_pandas = resultado_mezclado.to_pandas()
    
    # Nombre de archivo con timestamp
    from datetime import datetime
    timestamp = datetime.now().strftime("%Y%m%d_%H%M")
    archivo_salida = f"Mezclado_PA_vs_SV_{timestamp}.xlsx"
    
    # Crear writer de Excel
    with pd.ExcelWriter(archivo_salida, engine='xlsxwriter') as writer:
        
        # Hoja 1: Resultado completo con grupos
        resultado_pandas.to_excel(writer, sheet_name='Resultado_Completo', index=False)
        print(f"   ‚Ä¢ Hoja 'Resultado_Completo': {len(resultado_pandas):,} registros (con nombres de grupos)")
        
        # Hoja 2: An√°lisis ANTAPACCAY
        antapaccay_completo = resultado_mezclado.filter(pl.col("Cliente_Final") == "117232")
        if antapaccay_completo.height > 0:
            antapaccay_pandas = antapaccay_completo.to_pandas()
            antapaccay_pandas.to_excel(writer, sheet_name='Analisis_ANTAPACCAY', index=False)
            print(f"   ‚Ä¢ Hoja 'Analisis_ANTAPACCAY': {len(antapaccay_pandas)} registros")
        
        # Hoja 3: Discrepancias mayores (diferencia > 50 o < -50)
        discrepancias = resultado_mezclado.filter(
            (pl.col("Diferencia") > 50) | (pl.col("Diferencia") < -50)
        )
        if discrepancias.height > 0:
            discrepancias_pandas = discrepancias.to_pandas()
            discrepancias_pandas.to_excel(writer, sheet_name='Discrepancias_Mayores', index=False)
            print(f"   ‚Ä¢ Hoja 'Discrepancias_Mayores': {len(discrepancias_pandas)} registros")
        
        # Hoja 4: Resumen por cliente con nombres de grupos
        resumen_cliente = (
            resultado_mezclado
            .group_by(["Cliente_Final", "Nombre_Grupo_PA", "Nombre_Grupo_SV"])
            .agg([
                pl.col("Personal_Real").sum().alias("Total_Personal_Real"),
                pl.col("Personal_Estimado").sum().alias("Total_Personal_Estimado"),
                pl.len().alias("Servicios_Totales")
            ])
            .with_columns([
                (pl.col("Total_Personal_Real") - pl.col("Total_Personal_Estimado")).round(2).alias("Diferencia_Total"),
                pl.when(pl.col("Total_Personal_Estimado") > 0)
                .then((pl.col("Total_Personal_Real") / pl.col("Total_Personal_Estimado") * 100).round(2))
                .otherwise(0)
                .alias("Cobertura_Pct")
            ])
            .sort("Diferencia_Total", descending=True)
        )
        
        resumen_pandas = resumen_cliente.to_pandas()
        resumen_pandas.to_excel(writer, sheet_name='Resumen_por_Cliente', index=False)
        print(f"   ‚Ä¢ Hoja 'Resumen_por_Cliente': {len(resumen_pandas)} registros (con nombres de grupos)")
        
        # Hoja 5: Top 40 diferencias (positivas y negativas)
        top_diferencias = resultado_mezclado.select([
            "Cliente_Final", "COD UNID", "Servicio_Limpio", 
            "Personal_Real", "Personal_Estimado", "Diferencia", "Estado",
            "Nombre_Grupo_PA", "Nombre_Grupo_SV"
        ]).sort("Diferencia", descending=True).head(40)
        
        top_pandas = top_diferencias.to_pandas()
        top_pandas.to_excel(writer, sheet_name='Top_Diferencias', index=False)
        print(f"   ‚Ä¢ Hoja 'Top_Diferencias': {len(top_pandas)} registros (con nombres de grupos)")
        
        # Formatear hojas
        workbook = writer.book
        header_format = workbook.add_format({
            'bold': True,
            'text_wrap': True,
            'valign': 'top',
            'fg_color': '#366092',
            'font_color': 'white'
        })
        
        # Aplicar formato a cada hoja (m√©todo corregido)
        for sheet_name in writer.sheets:
            worksheet = writer.sheets[sheet_name]
            worksheet.freeze_panes(1, 0)  # Congelar primera fila
            
            # Obtener las hojas de datos para aplicar formato
            if sheet_name == 'Resultado_Completo':
                data_df = resultado_pandas
            elif sheet_name == 'Analisis_ANTAPACCAY':
                data_df = antapaccay_pandas if antapaccay_completo.height > 0 else None
            elif sheet_name == 'Discrepancias_Mayores':
                data_df = discrepancias_pandas if discrepancias.height > 0 else None
            elif sheet_name == 'Resumen_por_Cliente':
                data_df = resumen_pandas
            elif sheet_name == 'Top_Diferencias':
                data_df = top_pandas
            else:
                data_df = None
            
            # Aplicar formato de cabecera usando los nombres de columnas del DataFrame
            if data_df is not None:
                for col_num, column_name in enumerate(data_df.columns):
                    worksheet.write(0, col_num, column_name, header_format)
                
                # Autoajustar columnas
                worksheet.autofit()
    
    print(f"‚úÖ Archivo exportado exitosamente: {archivo_salida}")
    print(f"   ‚Ä¢ Incluye nombres de grupos para mejor identificaci√≥n")
    print(f"   ‚Ä¢ 5 hojas de an√°lisis detallado")
    print(f"   ‚Ä¢ Formato profesional con cabeceras y columnas autoajustadas")
    
    # Resumen final del proceso
    print(f"\nüéØ RESUMEN FINAL DEL AN√ÅLISIS:")
    print(f"   ‚Ä¢ Servicios analizados: {total_registros:,}")
    print(f"   ‚Ä¢ Personal real total: {total_real:,}")
    print(f"   ‚Ä¢ Personal estimado total: {total_estimado:,.2f}")
    print(f"   ‚Ä¢ Diferencia global: {(total_real - total_estimado):,.2f}")
    print(f"   ‚Ä¢ Cobertura promedio: {(total_real/total_estimado*100):,.1f}%")
    print(f"   ‚Ä¢ ‚úÖ Nombres de grupos incluidos en todas las hojas")
    
except Exception as e:
    print(f"‚ùå ERROR en exportaci√≥n: {e}")
    raise

üìä Exportando resultados con an√°lisis completo...


   ‚Ä¢ Hoja 'Resultado_Completo': 5,305 registros (con nombres de grupos)
   ‚Ä¢ Hoja 'Analisis_ANTAPACCAY': 17 registros
   ‚Ä¢ Hoja 'Discrepancias_Mayores': 1 registros
   ‚Ä¢ Hoja 'Resumen_por_Cliente': 853 registros (con nombres de grupos)
   ‚Ä¢ Hoja 'Top_Diferencias': 40 registros (con nombres de grupos)
‚úÖ Archivo exportado exitosamente: Mezclado_PA_vs_SV_20250901_1231.xlsx
   ‚Ä¢ Incluye nombres de grupos para mejor identificaci√≥n
   ‚Ä¢ 5 hojas de an√°lisis detallado
   ‚Ä¢ Formato profesional con cabeceras y columnas autoajustadas

üéØ RESUMEN FINAL DEL AN√ÅLISIS:
   ‚Ä¢ Servicios analizados: 5,305
   ‚Ä¢ Personal real total: 13,936
   ‚Ä¢ Personal estimado total: 15,285.49
   ‚Ä¢ Diferencia global: -1,349.49
   ‚Ä¢ Cobertura promedio: 91.2%
   ‚Ä¢ ‚úÖ Nombres de grupos incluidos en todas las hojas
‚úÖ Archivo exportado exitosamente: Mezclado_PA_vs_SV_20250901_1231.xlsx
   ‚Ä¢ Incluye nombres de grupos para mejor identificaci√≥n
   ‚Ä¢ 5 hojas de an√°lisis detallado
   ‚Ä¢

## üéØ CONCLUSIONES DEL AN√ÅLISIS

### ‚ùå **PROBLEMA IDENTIFICADO: Registro ANTAPACCAY Faltante**

**Registro buscado**: `117232, 22799, 476, RESGUARDO 12 HRS L/D D√çA, 1.17`

### üîç **CAUSAS PROBABLES:**

1. **üö´ Estado ‚â† "Aprobado"**: 
   - Solo se procesan registros con Estado = "Aprobado"
   - El registro puede estar en estado "Pendiente", "Rechazado" o similar

2. **üî¢ C√≥digo de servicio diferente**:
   - Encontrado en archivos: servicio **"453"**
   - Buscado: servicio **"476"**
   - Posible inconsistencia en c√≥digos de servicio

3. **üßπ Filtros de limpieza**:
   - Se eliminan registros con Cliente, Unidad o Servicio NULL/vac√≠o
   - Limpieza de espacios puede afectar coincidencias

4. **üìä Agrupaci√≥n**:
   - Los datos se agrupan por Cliente+Unidad+Servicio
   - Registros con c√≥digos similares se consolidan

### ‚úÖ **PASOS PARA RESOLVER:**

1. **Verificar en Excel original**:
   - Buscar directamente `117232, 22799` en Servicio Vivo
   - Verificar el estado del registro
   - Confirmar c√≥digo de servicio exacto

2. **Ejecutar sin filtros**:
   - Remover temporalmente filtro de Estado = "Aprobado"
   - Verificar si aparece el registro

3. **Comparar c√≥digos similares**:
   - Buscar servicios 453, 476, y similares
   - Verificar si son el mismo tipo de servicio

### üìã **INSTRUCCIONES DE EJECUCI√ìN:**

**Para ejecutar este notebook completo:**
1. ‚ñ∂Ô∏è Ejecutar celda 1: Importar librer√≠as
2. ‚ñ∂Ô∏è Ejecutar celda 2: Cargar Personal Asignado  
3. ‚ñ∂Ô∏è Ejecutar celda 3: Cargar Servicio Vivo (incluye investigaci√≥n ANTAPACCAY)
4. ‚ñ∂Ô∏è Ejecutar celda 4: Procesar Personal Asignado
5. ‚ñ∂Ô∏è Ejecutar celda 5: Procesar Servicio Vivo
6. ‚ñ∂Ô∏è Ejecutar celda 6: Realizar mezclado
7. ‚ñ∂Ô∏è Ejecutar celda 7: Exportar y analizar resultados

**Tiempo estimado total**: 30-60 segundos

**Archivos generados**:
- `Analisis_Esencial_[timestamp].xlsx` (multi-hoja)
- `Analisis_Esencial_[timestamp].csv` (datos completos)