In [1]:
# ========== BLOQUE 1: LIBRER√çAS ==========
import pandas as pd
import numpy as np

# Visualizaci√≥n est√°tica y ajustes de estilo
import matplotlib.pyplot as plt
import seaborn as sns

# Visualizaci√≥n interactiva
import plotly.express as px
import plotly.graph_objects as go

# Para leer Excel con varias hojas
import openpyxl

# Para exportar figuras de Plotly a PNG (si lo necesitas)
import plotly.io as pio

# Configuraci√≥n general de estilos
sns.set_palette("Set2")
plt.style.use("seaborn-v0_8-muted")


In [2]:
# ========== BLOQUE 2: CARGA DE DATOS ==========
archivo = "CR EJEMPLO MOD.xlsm"
xlsx = pd.ExcelFile(archivo)

print("üìÑ Hojas disponibles en el archivo:")
print(xlsx.sheet_names)

# 1. Cargar hoja 'Summary' y hoja 'Data' sin transformaciones adicionales
df_summary = pd.read_excel(xlsx, sheet_name="Summary")
df_data    = pd.read_excel(xlsx, sheet_name="Data")

# 2. Leer "Cost Report" saltando filas iniciales irrelevantes y seleccionando columnas C:Z
df_costreport = pd.read_excel(
    xlsx,
    sheet_name="Cost Report",
    skiprows=8,
    usecols="C:Z"
)

print("\nüìä Hoja 'Summary':")
display(df_summary.head())

print("\nüìä Hoja 'Cost Report' (raw, columnas C:Z):")
display(df_costreport.head())

print("\nüìä Hoja 'Data':")
display(df_data.head())



üìÑ Hojas disponibles en el archivo:
['Summary', 'Comprometidos', 'Cost Report', 'Balance Sheet', 'Budget', 'Data Commitments', 'Data', 'Commitments', 'Tablas', 'Conciliaci√≥n Bancaria']


  warn(msg)
  warn(msg)



üìä Hoja 'Summary':


Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14
0,,,,,,,,,,,,,,,
1,,,,,,,,,,,,,,,
2,,,,,,,,,,,,,,,
3,,,,COST REPORT,,,,,,,,,,,
4,,,,Etapa:,ALL,,,,1.0,0.0,,,,,



üìä Hoja 'Cost Report' (raw, columnas C:Z):


Unnamed: 0,TIPO,REF,Etapa,Secci√≥n,ACCT,Unnamed: 7,1,COST TO DATE,COMMITMENTS,TOTAL CTD,...,INDEX,2,P ESTIMATE FINAL COST,VARIANCE VS PFCST,INDEX.1,Comentarios,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25
0,Above the Line,Cuenta General,,,1100,,,10065000.08,0.0,10065000.08,...,,,10065000.08,0.0,,,,,,
1,Above the Line,Sub cuenta,,,1101,,,8340000.02,0.0,8340000.02,...,,,8340000.02,0.0,,,,,,11.0
2,Above the Line,Detalle,,,1101-002,,,0.0,0.0,0.0,...,,,0.0,0.0,,,,,1101.0,
3,Above the Line,Detalle,,,1101-004,,,0.0,0.0,0.0,...,,,0.0,0.0,,,,,1101.0,
4,Above the Line,Detalle,DEVELOPMENT,,1101-005,,,1400000.0,0.0,1400000.0,...,,,1400000.0,0.0,,,,,1101.0,



üìä Hoja 'Data':


Unnamed: 0,CONTROL,# CHEQUE,PARTIDA PRESUPUESTAL,UIDD/FOLIO FISCAL,DIRECCION,REGIMEN FISCAL,NOMBRE REGIMEN FISCAL,RFC,STATUS,FECHA DE RECIBIDO,...,Valida,MES,Column1,SUBTOTAL2,IVA3,RET IVA4,RET ISR.1,TOTAL.1,CAMBIOS,Unnamed: 36
0,,,Income (Funding),,,,,,,,...,Balance,,0,,,,,,,
1,,,Income (Funding) IVA,,,,,,,,...,Balance,,0,,,,,,,
2,F1.2,,Income (Funding),,,Estados Unidos (los),Estados Unidos (los),0.0,,,...,Balance,,0,,,,,,,
3,N001,1.0,7007-009,0.0,86127.0,R√©gimen Simplificado de Confianza,R√©gimen Simplificado de Confianza,1.0,,33.0,...,7007-009,,0,,,,,,,-45135.0
4,N003,4.0,1107-009,1.0,4318.0,R√©gimen Simplificado de Confianza,R√©gimen Simplificado de Confianza,2.0,,40.0,...,1107-009,,0,,,,,,,-45128.0


In [3]:
# ========== BLOQUE 3: PREPROCESAMIENTO DE COST REPORT ==========

# 1. Crear copia de trabajo
df_cost = df_costreport.copy()

# 2. Eliminar cualquier columna 'Unnamed' que haya quedado
df_cost = df_cost.loc[:, ~df_cost.columns.str.contains("^Unnamed", na=False)]

# 3. Limpiar espacios en los nombres de columna
df_cost.columns = df_cost.columns.str.strip()

# 4. Asegurar conversi√≥n a num√©rico en caso de que alguna columna clave exista
posibles_numericas = [
    "COST TO DATE", "COMMITMENTS", "TOTAL CTD",
    "ESTIMATE TO COMPLETE (ETC)", "ESTIMATE FINAL COST (EFC)",
    "BUDGET", "VARIANCE $", "INDEX", "P FCST", "VARIANCE $ "
]
for col in posibles_numericas:
    if col in df_cost.columns:
        df_cost[col] = pd.to_numeric(df_cost[col], errors="coerce")

# 5. Filtrar √∫nicamente las filas √∫tiles: REF == 'detalle' (insensible a may√∫sculas/espacios)
if "REF" in df_cost.columns:
    df_cost["REF"] = df_cost["REF"].fillna("").astype(str)
    mask_detalle = df_cost["REF"].str.strip().str.lower() == "detalle"
    df_cost = df_cost.loc[mask_detalle].copy()

# 6. Limpiar la columna 'ACCT' si existe
if "ACCT" in df_cost.columns:
    df_cost["ACCT"] = df_cost["ACCT"].astype(str).str.strip()

    # 7. Extraer jerarqu√≠a contable (Cuenta Madre, Si es Detalle, Nivel) usando vectorizaci√≥n
    df_cost["Cuenta Madre"] = df_cost["ACCT"].str.split("-").str[0]
    df_cost["Es Detalle"]   = df_cost["ACCT"].str.contains("-", na=False)

    mask_len4  = df_cost["ACCT"].str.len() == 4
    mask_guion = df_cost["Es Detalle"]

    df_cost["Nivel"] = np.where(
        mask_guion,
        "Detalle",
        np.where(mask_len4, "Subcuenta", "Cuenta General")
    )

    # 8. Crear columna 'Cuenta General' (dos primeros d√≠gitos de Cuenta Madre + "00")
    df_cost["Cuenta General"] = df_cost["Cuenta Madre"].str[:2] + "00"

    # 9. Generar columna 'Etiqueta' para gr√°ficas: "ACCT - Secci√≥n" si hay secci√≥n, o s√≥lo "ACCT"
    if "Secci√≥n" in df_cost.columns:
        etiqueta_sin = df_cost["ACCT"]
        etiqueta_con = df_cost["ACCT"] + " - " + df_cost["Secci√≥n"].fillna("")
        df_cost["Etiqueta"] = np.where(
            df_cost["Secci√≥n"].notna(),
            etiqueta_con,
            etiqueta_sin
        )
    else:
        df_cost["Etiqueta"] = df_cost["ACCT"]

# 10. Normalizar la columna 'Etapa' si existe
if "Etapa" in df_cost.columns:
    etapas_validas = ["DEVELOPMENT", "SOFT", "PREP", "SHOOT", "WRAP", "POST"]
    etapas_upper = (
        df_cost["Etapa"]
        .astype(str)
        .str.strip()
        .str.upper()
        .replace("NAN", np.nan)
    )

    df_cost["Etapa Normalizada"] = np.where(
        etapas_upper.isin(etapas_validas),
        etapas_upper,
        "SHOOT"
    )

    # Restaurar NaN para filas donde originalmente 'Etapa' era NaN
    mask_nan_original = df_cost["Etapa"].isna()
    df_cost.loc[mask_nan_original, "Etapa Normalizada"] = np.nan

    # Rellenar valores faltantes de 'Etapa Normalizada' por continuidad (ffill y bfill)
    df_cost["Etapa Normalizada"] = (
        df_cost["Etapa Normalizada"]
        .fillna(method="ffill")
        .fillna(method="bfill")
    )

# 11. Seleccionar columnas finales (aquellas √∫tiles para an√°lisis o gr√°ficas)
columnas_validas = [
    "TIPO", "REF", "Etapa", "Etapa Normalizada", "Secci√≥n", "ACCT",
    "COST TO DATE", "COMMITMENTS", "TOTAL CTD",
    "ESTIMATE TO COMPLETE (ETC)", "ESTIMATE FINAL COST (EFC)",
    "BUDGET", "VARIANCE $", "INDEX", "P FCST", "VARIANCE $ ",
    "Cuenta General", "Cuenta Madre", "Es Detalle", "Nivel", "Etiqueta"
]
df_cost_clean = df_cost[[col for col in columnas_validas if col in df_cost.columns]].copy()

# 12. Reiniciar √≠ndice en el DataFrame final limpio
df_cost_clean.reset_index(drop=True, inplace=True)

# 13. Vista r√°pida del DataFrame limpio
display(df_cost_clean.head())


  .fillna(method="ffill")
  .fillna(method="bfill")


Unnamed: 0,TIPO,REF,Etapa,Etapa Normalizada,Secci√≥n,ACCT,COST TO DATE,COMMITMENTS,TOTAL CTD,ESTIMATE TO COMPLETE (ETC),ESTIMATE FINAL COST (EFC),BUDGET,VARIANCE $,INDEX,Cuenta General,Cuenta Madre,Es Detalle,Nivel,Etiqueta
0,Above the Line,Detalle,,DEVELOPMENT,,1101-002,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,1100,1101,True,Detalle,1101-002
1,Above the Line,Detalle,,DEVELOPMENT,,1101-004,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,1100,1101,True,Detalle,1101-004
2,Above the Line,Detalle,DEVELOPMENT,DEVELOPMENT,,1101-005,1400000.0,0.0,1400000.0,0.0,1400000.0,1400000.0,0.0,,1100,1101,True,Detalle,1101-005
3,Above the Line,Detalle,DEVELOPMENT,DEVELOPMENT,,1101-006,100000.03,0.0,100000.03,0.0,100000.03,100000.0,-0.03,,1100,1101,True,Detalle,1101-006
4,Above the Line,Detalle,DEVELOPMENT,DEVELOPMENT,,1101-007,100000.0,0.0,100000.0,0.0,100000.0,100000.0,0.0,,1100,1101,True,Detalle,1101-007


In [4]:
# ========== BLOQUE 4: VERIFICACIONES DE INTEGRIDAD ==========

# 1. Revisar la distribuci√≥n de valores en 'Nivel' (si existe)
if "Nivel" in df_cost_clean.columns:
    print("Distribuci√≥n de 'Nivel' en df_cost_clean:")
    print(df_cost_clean["Nivel"].value_counts(), "\n")

# 2. Comparar sumas de 'COST TO DATE' y 'BUDGET' antes y despu√©s de seleccionar columnas
cols_a_verificar = [col for col in ["COST TO DATE", "BUDGET"] if col in df_cost.columns]
if cols_a_verificar:
    suma_preproc = df_cost[cols_a_verificar].sum()
    suma_final   = df_cost_clean[cols_a_verificar].sum()
    print("Suma en df_cost (luego de filtrar 'detalle'):\n", suma_preproc)
    print("\nSuma en df_cost_clean (columnas finales):\n", suma_final, "\n")

# 3. Agrupar por 'Cuenta General' para ver si la suma de totales concuerda (si existe)
if "Cuenta General" in df_cost_clean.columns:
    print("Totales agrupados por 'Cuenta General':")
    totales_por_cg = (
        df_cost_clean
        .groupby("Cuenta General")[["COST TO DATE", "BUDGET"]]
        .sum()
        .sort_values(by="COST TO DATE", ascending=False)
    )
    display(totales_por_cg)

# 4. (Opcional) Verificar jerarqu√≠a: para cada 'Cuenta Madre', su contribuci√≥n al total de su 'Cuenta General'
if {"Cuenta Madre", "Cuenta General"}.issubset(df_cost_clean.columns):
    print("Desglose por Cuenta Madre dentro de cada Cuenta General:")
    agrup_cm = (
        df_cost_clean
        .groupby(["Cuenta Madre", "Cuenta General"])[["COST TO DATE", "BUDGET"]]
        .sum()
        .reset_index()
    )
    display(agrup_cm.head(10))

# 5. Cantidad final de registros
print(f"N√∫mero total de filas en df_cost_clean: {len(df_cost_clean)}")


Distribuci√≥n de 'Nivel' en df_cost_clean:
Nivel
Detalle    2234
Name: count, dtype: int64 

Suma en df_cost (luego de filtrar 'detalle'):
 COST TO DATE    1.343720e+08
BUDGET          1.350979e+08
dtype: float64

Suma en df_cost_clean (columnas finales):
 COST TO DATE    1.343720e+08
BUDGET          1.350979e+08
dtype: float64 

Totales agrupados por 'Cuenta General':


Unnamed: 0_level_0,COST TO DATE,BUDGET
Cuenta General,Unnamed: 1_level_1,Unnamed: 2_level_1
1400,13899920.0,11960556.35
7000,12895650.0,13503508.17
3400,12724040.0,15001515.11
3100,11595700.0,11484172.03
1100,10065000.0,10065000.0
1200,9361342.0,9449620.0
3600,7730091.0,7591103.12
2000,7144078.0,6668300.0
3900,5884214.0,5965292.71
2400,5254387.0,5268025.0


Desglose por Cuenta Madre dentro de cada Cuenta General:


Unnamed: 0,Cuenta Madre,Cuenta General,COST TO DATE,BUDGET
0,1101,1100,8340000.02,8340000.0
1,1104,1100,150000.0,150000.0
2,1107,1100,1100000.06,1100000.0
3,1122,1100,250000.0,250000.0
4,1193,1100,225000.0,225000.0
5,1201,1200,5978554.41,5979120.0
6,1202,1200,1063000.0,1063000.0
7,1204,1200,1053750.0,1050000.0
8,1222,1200,566000.0,564500.0
9,1287,1200,700037.9,793000.0


N√∫mero total de filas en df_cost_clean: 2234


In [5]:
# ========== BLOQUE 5 REVISADO: INTEGRACI√ìN Y VALIDACI√ìN DE LA HOJA ‚ÄúData‚Äù ==========

import pandas as pd
import numpy as np

# 0. CONFIGURACI√ìN GLOBAL: formatear todos los floats con comas de miles y dos decimales
pd.options.display.float_format = '{:,.2f}'.format

# 1. Hacer copia de df_data para no alterar el original
df_d = df_data.copy()

# 2. NORMALIZAR nombres de columna: quitar espacios y pasar a may√∫sculas
df_d.columns = df_d.columns.str.strip().str.upper()

# 3. Mostrar las columnas para confirmar nombres exactos
print("Columnas en Data (despu√©s de strip + upper):")
print(df_d.columns.tolist())

# 4. Verificar que exista la columna "SUBTOTAL" para trabajar con ella
#    (ya normalizamos a may√∫sculas, as√≠ que buscamos "SUBTOTAL" exacto)
col_subtotal = "SUBTOTAL"
if col_subtotal not in df_d.columns:
    raise ValueError(f"No existe la columna '{col_subtotal}' en Data. Rev√≠sala en df_d.columns.")
print(f"Usaremos la columna '{col_subtotal}' para sumar los importes de Data.")

# 5. Convertir "PARTIDA PRESUPUESTAL" a string (upper y sin espacios extra)
col_partida = "PARTIDA PRESUPUESTAL"
if col_partida not in df_d.columns:
    raise ValueError(f"No existe la columna '{col_partida}' en Data. Rev√≠sala en df_d.columns.")
df_d[col_partida] = df_d[col_partida].astype(str).str.strip()

# 6. Convertir la columna "SUBTOTAL" a num√©rico
df_d[col_subtotal] = pd.to_numeric(df_d[col_subtotal], errors="coerce")

# 7. Agrupar todos los registros de Data por "PARTIDA PRESUPUESTAL"
#    y sumar el campo SUBTOTAL para cada cuenta
df_d_agg = (
    df_d
    .groupby(col_partida)[[col_subtotal]]
    .sum()
    .reset_index()
    .rename(columns={col_subtotal: "Total_Data"})
)

# 8. Hacer un merge entre df_cost_clean y df_d_agg usando ACCT ‚Üî PARTIDA PRESUPUESTAL
df_join = df_cost_clean.merge(
    df_d_agg,
    left_on="ACCT",
    right_on=col_partida,
    how="left"
)

# 9. Reemplazar NaN en Total_Data por 0 (cuentas que no tienen registros en Data)
df_join["Total_Data"] = df_join["Total_Data"].fillna(0)

# 10. Verificar cuentas en las que NO hubo registros de Data
sin_data = df_join[df_join["Total_Data"] == 0]
if not sin_data.empty:
    print("‚ÑπÔ∏è Estas cuentas NO tienen registros en 'Data':")
    display(sin_data[["ACCT", "COST TO DATE", "Total_Data"]].head(10))
    # De esas, ver si el COST TO DATE es distinto de cero (potencial inconsistencia)
    sin_data_conflicto = sin_data[sin_data["COST TO DATE"] != 0]
    if not sin_data_conflicto.empty:
        print("‚ö†Ô∏è Atenci√≥n: Cuentas SIN Data pero con COST TO DATE ‚â† 0:")
        display(sin_data_conflicto[["ACCT", "COST TO DATE"]])
    else:
        print("‚úÖ Todas las cuentas sin Data tienen COST TO DATE = 0.")
else:
    print("‚úÖ No hay cuentas con Total_Data = 0 (todas tienen al menos un SUBTOTAL en Data o su COST TO DATE era 0).")

# 11. Verificar discrepancias entre COST TO DATE (Cost Report) y Total_Data (suma de SUBTOTAL),
#     con TOLERANCIA de ¬±0.01 para descartar diferencias de redondeo.
mask_discrep = ~np.isclose(df_join["COST TO DATE"], df_join["Total_Data"], atol=0.01)
discrepancias = df_join[mask_discrep]
if not discrepancias.empty:
    print("‚ö†Ô∏è Discrepancias detectadas (fuera de ¬±0.01) entre 'COST TO DATE' y 'Total_Data':")
    display(discrepancias[["ACCT", "COST TO DATE", "Total_Data"]].head(10))
else:
    print("‚úÖ Todas las cuentas cuadran (dentro de ¬±0.01) entre 'COST TO DATE' y 'Total_Data'.")

# 12. (Opcional) Agrupar por 'Cuenta Madre' para ver aportes de Data a nivel de subcuenta
if "Cuenta Madre" in df_join.columns:
    print("\nDesglose de suma de Data por Cuenta Madre (Subcuenta):")
    totales_d_madre = (
        df_join
        .groupby("Cuenta Madre")[["Total_Data"]]
        .sum()
        .reset_index()
        .rename(columns={"Total_Data": "Total_Data_Subcuenta"})
    )
    display(totales_d_madre.head(10))

# 13. (Opcional) Agrupar por 'Cuenta General' para ver aportes de Data a nivel general
if "Cuenta General" in df_join.columns:
    print("\nDesglose de suma de Data por Cuenta General:")
    totales_d_cg = (
        df_join
        .groupby("Cuenta General")[["Total_Data"]]
        .sum()
        .reset_index()
        .rename(columns={"Total_Data": "Total_Data_CuentaGeneral"})
    )
    display(totales_d_cg.head(10))

# 14. Guardar el DataFrame combinado con la validaci√≥n final
df_cost_data_validado = df_join.copy()


Columnas en Data (despu√©s de strip + upper):
['CONTROL', '# CHEQUE', 'PARTIDA PRESUPUESTAL', 'UIDD/FOLIO FISCAL', 'DIRECCION', 'REGIMEN FISCAL', 'NOMBRE REGIMEN FISCAL', 'RFC', 'STATUS', 'FECHA DE RECIBIDO', 'SEMANA QUE SE PAGA', 'TIPO', 'NOMBRE DEL PROVEEDOR', 'CORREO', 'CONCEPTO', 'TIPO2', 'SUBTOTAL', 'IVA', 'OTROS IMPUESTOS', 'RET IVA', 'RET ISR', 'TOTAL', 'CUENTA CLAVE', 'BANCO', 'ESTATUS', 'FECHA DE PAGO', 'NOTAS', 'VALIDA', 'MES', 'COLUMN1', 'SUBTOTAL2', 'IVA3', 'RET IVA4', 'RET ISR.1', 'TOTAL.1', 'CAMBIOS', 'UNNAMED: 36']
Usaremos la columna 'SUBTOTAL' para sumar los importes de Data.
‚ÑπÔ∏è Estas cuentas NO tienen registros en 'Data':


Unnamed: 0,ACCT,COST TO DATE,Total_Data
0,1101-002,0.0,0.0
1,1101-004,0.0,0.0
5,1101-010,0.0,0.0
8,1101-015,0.0,0.0
11,1101-020,0.0,0.0
14,1101-025,0.0,0.0
17,1101-030,0.0,0.0
18,1101-032,0.0,0.0
20,1101-036,0.0,0.0
22,1101-040,0.0,0.0


‚úÖ Todas las cuentas sin Data tienen COST TO DATE = 0.
‚úÖ Todas las cuentas cuadran (dentro de ¬±0.01) entre 'COST TO DATE' y 'Total_Data'.

Desglose de suma de Data por Cuenta Madre (Subcuenta):


Unnamed: 0,Cuenta Madre,Total_Data_Subcuenta
0,1101,8340000.02
1,1104,150000.0
2,1107,1100000.06
3,1122,250000.0
4,1193,225000.0
5,1201,5978554.41
6,1202,1063000.0
7,1204,1053750.0
8,1222,566000.0
9,1287,700037.9



Desglose de suma de Data por Cuenta General:


Unnamed: 0,Cuenta General,Total_Data_CuentaGeneral
0,1100,10065000.08
1,1200,9361342.31
2,1300,2663850.53
3,1400,13899922.03
4,1600,1188979.76
5,2000,7144077.98
6,2100,2041865.6
7,2200,1857793.18
8,2300,951190.57
9,2400,5254387.16


In [7]:
# ========== BLOQUE 6E: AJUSTE FINAL DE ‚ÄúFECHA DE PAGO‚Äù PARA VALORES INV√ÅLIDOS Y AGRUPAR =====

import pandas as pd
import numpy as np
import datetime

# 1. Partir de df_data y normalizar nombres de columna
df_dates = df_data.copy()
df_dates.columns = df_dates.columns.str.strip().str.upper()

# 2. Verificar que existan las columnas necesarias
col_fecha   = "FECHA DE PAGO"
col_partida = "PARTIDA PRESUPUESTAL"
if col_fecha not in df_dates.columns or col_partida not in df_dates.columns:
    raise ValueError("Falta 'FECHA DE PAGO' o 'PARTIDA PRESUPUESTAL' en df_dates.columns.")

# 3. Filtrar solo filas cuyas PARTIDA PRESUPUESTAL est√©n en df_cost_clean["ACCT"]
cuentas_validas = df_cost_clean["ACCT"].astype(str).tolist()
df_dates = df_dates[df_dates[col_partida].astype(str).isin(cuentas_validas)].copy()

# 4. Eliminar filas donde ‚ÄúFECHA DE PAGO‚Äù es un objeto datetime.time (no nos sirven)
df_dates = df_dates[~df_dates[col_fecha].apply(lambda x: isinstance(x, datetime.time))].copy()

# 5. Convertir ‚ÄúFECHA DE PAGO‚Äù a num√©rico; errores se convierten en NaN
df_dates[col_fecha] = pd.to_numeric(df_dates[col_fecha], errors="coerce")

# 6. Reemplazar valores negativos con NaN (no queremos conservar negativos)
df_dates.loc[df_dates[col_fecha] < 0, col_fecha] = np.nan

# 7. Rellenar NaN en ‚ÄúFECHA DE PAGO‚Äù usando backfill (bfill) dentro de cada PARTIDA PRESUPUESTAL
#    Esto propaga hacia arriba el siguiente valor v√°lido
df_dates.sort_values([col_partida, col_fecha], ascending=[True, True], inplace=True)
df_dates[col_fecha] = df_dates.groupby(col_partida)[col_fecha].transform(lambda grp: grp.fillna(method="bfill"))

# 8. Despu√©s del bfill, eliminar filas que sigan sin un valor num√©rico en ‚ÄúFECHA DE PAGO‚Äù
df_dates = df_dates[pd.to_numeric(df_dates[col_fecha], errors="coerce").notna()].copy()

# 9. Ahora definimos FECHA_NUM_LIMPIA como el valor absoluto de FECHA_DE_PAGO
df_dates["FECHA_NUM_LIMPIA"] = df_dates[col_fecha].abs()

# 10. Reducir a un solo valor por PARTIDA PRESUPUESTAL:
#     Tomamos el valor M√çNIMO de FECHA_NUM_LIMPIA (positivo m√°s cercano a cero)
fechas_unique = (
    df_dates
    .groupby(col_partida, as_index=False)[["FECHA_NUM_LIMPIA"]]
    .min()
)

# 11. Crear un diccionario para mapear cada cuenta (PARTIDA PRESUPUESTAL) a su FECHA_NUM_LIMPIA
map_fechas = dict(zip(fechas_unique[col_partida], fechas_unique["FECHA_NUM_LIMPIA"]))

# 12. Agregar la columna "FECHA_NUM_LIMPIA" a df_cost_data_validado v√≠a map
#     Aquellas cuentas que no aparezcan en map_fechas conservar√°n NaN
df_cost_data_validado["FECHA_NUM_LIMPIA"] = df_cost_data_validado["ACCT"].map(map_fechas)

# 13. Mostrar resultado final para comprobar
print("\nüìä Vista final de df_cost_data_validado con FECHA_NUM_LIMPIA ajustada:")
display(
    df_cost_data_validado[
        ["ACCT", "COST TO DATE", "Total_Data", "FECHA_NUM_LIMPIA"]
    ].head(10)
)


  df_dates[col_fecha] = df_dates.groupby(col_partida)[col_fecha].transform(lambda grp: grp.fillna(method="bfill"))



üìä Vista final de df_cost_data_validado con FECHA_NUM_LIMPIA ajustada:


Unnamed: 0,ACCT,COST TO DATE,Total_Data,FECHA_NUM_LIMPIA
0,1101-002,0.0,0.0,
1,1101-004,0.0,0.0,
2,1101-005,1400000.0,1400000.0,48.0
3,1101-006,100000.03,100000.03,58.0
4,1101-007,100000.0,100000.0,55.0
5,1101-010,0.0,0.0,
6,1101-011,1400000.0,1400000.0,48.0
7,1101-012,75000.0,75000.0,92.0
8,1101-015,0.0,0.0,
9,1101-016,1400000.0,1400000.0,49.0
