In [2]:
import pandas as pd
import numpy as np
import unicodedata
import re


In [3]:

# 1) Cargo toda la hoja como texto


archivo = 'Abril 2025.xlsx'
df = pd.read_excel(
    archivo,
    sheet_name='01 ALM BBVA MN',
    header=12,
    dtype=str
)

# 2) Normalizo nombres
df.columns = df.columns.str.strip().str.upper()


df["ABONO"] = pd.to_numeric(df["ABONO"], errors="coerce")

# 1) Filtrar filas con abono positivo (ajusta la condición si solo quieres != NaN)
df_abonos = df.loc[df["ABONO"].notna() & (df["ABONO"] > 0)]

# 2) Columnas a descartar
cols_drop = [
    "UUID", "MÉTODO DE PAGO", "UUID REP",
    "UNNAMED: 14", "NETO", "IVA ACRED",
    "UNNAMED: 17", "UNNAMED: 18", "UNNAMED: 19",
    "UNNAMED: 20", "UNNAMED: 21", "UNNAMED: 22", "UNNAMED: 23", "NO FACT","FECHA ENTREGA","ELECTRONICO","OBSERVACIONES", "SALDO", "PROYECTO"
]

df_abonos = df_abonos.drop(columns=cols_drop, errors="ignore")

# (opcional) Reindexamos filas para que queden 0..n‑1
df_abonos = df_abonos.reset_index(drop=True)


# ────────────────────────────────
# 1. FECHA sin hora (YYYY‑MM‑DD)
# ────────────────────────────────
df_abonos["FECHA"] = pd.to_datetime(df_abonos["FECHA"], errors="coerce").dt.date
#  (si ya era datetime64, el .dt.date elimina la hora).

# ────────────────────────────────
# 2. Enumeración desde 1
# ────────────────────────────────
# Opción A: nueva columna
df_abonos.insert(0, "NUM", range(1, len(df_abonos) + 1))

# (Si prefieres que el índice sea 1‑based en lugar de columna,
#   usa:  df_abonos.index = range(1, len(df_abonos) + 1)  )

# ────────────────────────────────
# 3. Guardar a Excel listo para descargar
# ────────────────────────────────
output_path = "abonos_limpios2.xlsx"

with pd.ExcelWriter(output_path, date_format="yyyy-mm-dd") as writer:
    df_abonos.to_excel(writer, index=False)

print(f"Archivo creado: {output_path}")
# En Jupyter aparecerá un link clicable; en otros entornos bastará ir a la ruta.


Archivo creado: abonos_limpios2.xlsx


In [51]:
df_abonos

Unnamed: 0,NUM,FECHA,BENEFICIARIO,CONCEPTO,CARGO,ABONO
0,1,2025-06-04,BANAMEX (Rodolfo Quintanilla),PRÉSTAMO,,60000.00
1,2,2025-06-04,INTERCAM ALM,TRASPASO ENTRE CUENTAS 1,,95575.00
2,3,2025-06-06,INTERCAM ALM,TRASPASO ENTRE CUENTAS 2,,95175.00
3,4,2025-06-06,NORBERTO MARTINEZ ACOSTA,DEVOLUCIÓN DE VIÁTICOS,,5000.00
4,5,2025-06-06,ACQUASU TRATAMIENTO DE AGUA & MA,Pago factura C 1145,,36418.78
...,...,...,...,...,...,...
56,57,2025-06-30,VICTOR PIÑA GARCIA,Devolución Viáticos Depósito 04 abril,,2002.81
57,58,2025-06-30,VICTOR PIÑA GARCIA,Devolución Viáticos Depósito Mayo,,1413.05
58,59,NaT,,,7130156.620000003,7263937.98
59,60,NaT,,,7130156.620000003,2484529.30


In [4]:
def normaliza_txt(txt):
    if pd.isna(txt):
        return ""
    txt = unicodedata.normalize("NFKD", txt).encode("ascii", "ignore").decode().lower()
    txt = re.sub(r"\s+", " ", txt).strip()
    txt = re.sub(r"[^\w\s]", "", txt)
    return txt

if "CONCEPTO_NORM" not in df_abonos.columns:
    df_abonos["CONCEPTO_NORM"] = df_abonos["CONCEPTO"].apply(normaliza_txt)

# ────────────────────────────────────────────────
# 1. Enumeración -> columna NUM (mantiene huecos)
# ────────────────────────────────────────────────
if "NUM" not in df_abonos.columns:                       # por si ya existe
    df_abonos.insert(0, "NUM", range(1, len(df_abonos)+1))

# ────────────────────────────────────────────────
# 2. Filtrar: quitar “pago factura(s)”
# ────────────────────────────────────────────────
mask_factura = df_abonos["CONCEPTO_NORM"].str.contains(r"\bpago factura(s)?\b", na=False)
df_abonos = df_abonos.loc[~mask_factura].copy()

  mask_factura = df_abonos["CONCEPTO_NORM"].str.contains(r"\bpago factura(s)?\b", na=False)


In [5]:
import numpy as np
import re

# Suponemos que sigues teniendo df_abonos_sin_facturas
# y la versión normalizada en CONCEPTO_NORM
# (si no la tienes, reutiliza la función normaliza_txt del paso anterior).

# ----------------------------------------------------------
# 1. Construir condiciones sobre la versión normalizada
# ----------------------------------------------------------
cond = [
    df_abonos["CONCEPTO_NORM"].str.contains(r"\bprestamo(s)?\b", na=False),
    df_abonos["CONCEPTO_NORM"].str.contains(r"\bdevolucion(es)?\b", na=False),
    df_abonos["CONCEPTO_NORM"].str.contains(r"traspaso entre cuenta(s)?", na=False) |
    df_abonos["CONCEPTO_NORM"].str.contains(r"pago monex", na=False),
    df_abonos["CONCEPTO_NORM"].str.contains(r"\bcompensacion(es)?\b", na=False)
]
val  = [0, 1, 2, 3]

df_abonos["AUX"]    = np.select(cond, val, default=np.nan)
df_abonos["CUENTA"] = ""             # ← vacía (string)  ← o usa np.nan si prefieres

# ────────────────────────────────────────────────
# 4. Guardar a Excel con fechas limpias
# ────────────────────────────────────────────────
df_abonos["FECHA"] = pd.to_datetime(df_abonos["FECHA"], errors="coerce").dt.date

with pd.ExcelWriter("abonos_limpios_final5.xlsx",
                    date_format="yyyy-mm-dd") as w:
    df_abonos.to_excel(w, index=False)

print("Archivo abonos_limpios_final.xlsx creado.")


Archivo abonos_limpios_final.xlsx creado.


  df_abonos["CONCEPTO_NORM"].str.contains(r"\bprestamo(s)?\b", na=False),
  df_abonos["CONCEPTO_NORM"].str.contains(r"\bdevolucion(es)?\b", na=False),
  df_abonos["CONCEPTO_NORM"].str.contains(r"traspaso entre cuenta(s)?", na=False) |
  df_abonos["CONCEPTO_NORM"].str.contains(r"\bcompensacion(es)?\b", na=False)


In [6]:
import re, unicodedata, numpy as np

# ────────────────────────────────────────────────
# 0. Función de normalización (si no la tienes)
# ────────────────────────────────────────────────
def normaliza_txt(txt):
    if pd.isna(txt):
        return ""
    txt = unicodedata.normalize("NFKD", txt).encode("ascii", "ignore").decode().lower()
    txt = re.sub(r"\s+", " ", txt).strip()
    txt = re.sub(r"[^\w\s]", "", txt)
    return txt

# ────────────────────────────────────────────────
# 1. Catálogo normalizado → diccionario {nombre_norm: cuenta}
# ────────────────────────────────────────────────
catalogo = {
    "aaron edel ramirez sandoval":        "1070010016",
    "aaron mendoza chavez":               "1070010030",
    "abigail alejandra calzada loyol":    "1070010065",
    "alberto velazquez alcantar":         "1070010001",
    "alejandro torres carreto":           "1070010020",
    "bbva comisiones":                    "1070010067",
    "brianda hinojosa pina":              "1070010017",
    "carlos chavez flores":               "1070010021",
    "claudio felipe esquivel mex":        "1070010058",
    "david morales maldonado":            "1070010002",
    "deudores prestamo":                  "1070010040",
    "diana fernanda dominguez garcia":    "1070010003",
    "edgar rodriguez martinez":           "1070010068",
    "erick david elizalde moreno":        "1070010004",
    "ferny alcala salinas":               "1070660000",
    "fidelio alberto canche castro":      "1070010006",
    "francisco javier oviedo espinoza":   "1070010025",
    "gerardo martinez bucio":             "1070010007",
    "helder alberto elizalde moreno":     "1070010026",
    "jessica vera jacal pago jessica vera anticipo int": "1070620000",
    "julio david aguilar cardoso":        "1070010059",
    "laura cecilia huerta garcia":        "1070010041",
    "maria antonieta lopez lopez":        "1070010008",
    "maria dayanira moreno acosta":       "1070010009",
    "maria zenaida legorreta teodoro":    "1070010027",
    "mariel monserrat sandoval cuellar":  "1070010066",
    "martha isabel ruiz rodriguez":       "1070010018",
    "mayra paulina diaz camacho":         "1070010057",
    "nathan macedo quezada":              "1070010060",
    "norberto martinez acosta":           "1070640000",
    "oscar cruz morales":                 "1070010010",
    "otros deudores diversos":            "1070050000",
    "pedro cuitlahuac romero":            "1070010063",
    "retiros por identificar":            "1070010100",
    "rodolfo antonio taxilaga zetina":    "1070010022",
    "rodolfo quintanilla nava":           "1070010023",
    "sergio oswaldo ramirez rodriguez":   "1070630000",
    "victor pina garcia":                 "1070010031",
    "yanelli berenice cantto cordova":    "1070010061",
    "aylin abigail hernandez jimenez":    "1070010069"
}
catalogo_norm = {normaliza_txt(k): v for k, v in catalogo.items()}

# ────────────────────────────────────────────────
# 2. Beneficiario normalizado
# ────────────────────────────────────────────────
df_abonos["BENEFICIARIO_NORM"] = df_abonos["BENEFICIARIO"].apply(normaliza_txt)

# ────────────────────────────────────────────────
# 3. Asignar CUENTA según AUX
# ────────────────────────────────────────────────
def obtener_cuenta(row):
    aux = row["AUX"]
    if aux == 0:
        return "2050020010"
    elif aux == 1:
        return catalogo_norm.get(row["BENEFICIARIO_NORM"], "")
    elif aux == 3:
        return "7040230000"
    else:                        # aux == 2 o NaN u otro
        return ""

df_abonos["CUENTA"] = df_abonos.apply(obtener_cuenta, axis=1)

# ────────────────────────────────────────────────
# 4. Guardar el resultado
# ────────────────────────────────────────────────
with pd.ExcelWriter("abonos_clasificados_cuenta2.xlsx",
                    date_format="yyyy-mm-dd") as w:
    df_abonos.to_excel(w, index=False)
    
print("Archivo abonos_clasificados_cuenta.xlsx creado.")


Archivo abonos_clasificados_cuenta.xlsx creado.


In [7]:
mask_aux2 = df_abonos["AUX"] == 2
df_abonos.loc[mask_aux2, "CUENTA"] = "1020100001"

with pd.ExcelWriter(archivo+"FINAL1.xlsx",
                    date_format="yyyy-mm-dd") as w:
    df_abonos.to_excel(w, index=False)
    
print("Archivo abonos_clasificados_cuenta.xlsx creado.")


Archivo abonos_clasificados_cuenta.xlsx creado.


In [8]:
mask_aux2 = df_abonos["AUX"] == 2
df_abonos.loc[mask_aux2, "CUENTA"] = "1020100001"

# ────────────────────────────────────────────────
# 2. Generar duplicados con CUENTA distinta
# ────────────────────────────────────────────────
# Guardamos el índice actual para reinsertar los duplicados "debajo"
df_abonos["_idx"] = range(len(df_abonos))

# Copia idéntica de las filas AUX == 2
dup = df_abonos.loc[mask_aux2].copy()
dup["CUENTA"] = "1020100002"
dup["ABONO"]  = np.nan          # ← DEJAR ABONO EN BLANCO (puedes usar "" si prefieres)
dup["_idx"] = dup["_idx"] + 0.5        # +0.5 = asegura que quede justo después

# ────────────────────────────────────────────────
# 3. Combinar y ordenar (original + duplicados)
# ────────────────────────────────────────────────
df_final = (
    pd.concat([df_abonos, dup], ignore_index=True)
      .sort_values("_idx")              # respeta el orden original+duplicado
      .reset_index(drop=True)
      .drop(columns="_idx")
)

# ────────────────────────────────────────────────
# 4. Exportar a Excel
# ────────────────────────────────────────────────
with pd.ExcelWriter(archivo+"abonos_aux2_duplicados2.xlsx", date_format="yyyy-mm-dd") as w:
    df_final.to_excel(w, index=False)

print("Archivo abonos_aux2_duplicados.xlsx creado.")

Archivo abonos_aux2_duplicados.xlsx creado.


In [10]:
archivo = "2025 06 ALM Ingresos.xlsx"
fila_header_excel = 12
fila_header = fila_header_excel

# ──────────────────────────────────
# 0. Función de normalización texto
# ──────────────────────────────────
def norm(txt):
    if pd.isna(txt):
        return ""
    txt = unicodedata.normalize("NFKD", txt).encode("ascii", "ignore").decode().lower()
    txt = re.sub(r"\s+", " ", txt).strip()
    txt = re.sub(r"[^\w\s]", "", txt)           # opcional: quitar signos
    return txt

# ──────────────────────────────────
# 1. Leer USD (FECHA, CARGO, CONCEPTO)
# ──────────────────────────────────
usd = pd.read_excel(
    archivo,
    sheet_name="02 ALM BBVA USD",
    header=fila_header,
    usecols=["FECHA", "CARGO", "CONCEPTO"],
    engine="openpyxl",
    dtype=str
)

usd["FECHA"]     = pd.to_datetime(usd["FECHA"], errors="coerce").dt.normalize()
usd["CARGO"]     = pd.to_numeric(usd["CARGO"], errors="coerce")
usd["CONCEPTO_NORM"] = usd["CONCEPTO"].apply(norm)

usd


Unnamed: 0,FECHA,CONCEPTO,CARGO,CONCEPTO_NORM
0,2025-06-02,PENALIZ SDO PROM MIN,43.0,penaliz sdo prom min
1,2025-06-02,IVA PENALIZ SDO PROM,6.88,iva penaliz sdo prom
2,2025-06-04,Pago factura C 1144,,pago factura c 1144
3,2025-06-04,Pago intercam venta usd a mxn 1,5000.0,pago intercam venta usd a mxn 1
4,2025-06-05,,678.32,
5,2025-06-06,Pago Factura C 1143,,pago factura c 1143
6,2025-06-06,Pago taisa finiquito oc01 chileno bay,1967.42,pago taisa finiquito oc01 chileno bay
7,2025-06-06,Pago intercam venta usd a mxn bbva,5000.0,pago intercam venta usd a mxn bbva
8,2025-06-13,Pago Facturas A 181 y A 182,,pago facturas a 181 y a 182
9,2025-06-13,Pago monex venta usd a mxn bbva 1,50000.0,pago monex venta usd a mxn bbva 1


In [11]:
df_final

Unnamed: 0,NUM,FECHA,BENEFICIARIO,CONCEPTO,CARGO,ABONO,FOLIO,FOLIO REP,TRANS/CHEQUE,UNNAMED: 16,UNNAMED: 24,UNNAMED: 25,CONCEPTO_NORM,AUX,CUENTA,BENEFICIARIO_NORM
0,1,2025-04-01,VICTOR PIÑA GARCIA,Devolución de Gastos,,880.58,,,,,,,devolucion de gastos,1.0,1070010031,victor pina garcia
1,2,2025-04-01,ALBERTO VELAZQUEZ ALCANTAR,Devolución de Gastos,,3523.47,,,,,,,devolucion de gastos,1.0,1070010001,alberto velazquez alcantar
2,3,2025-04-01,ALBERTO VELAZQUEZ ALCANTAR,Devolución de Gastos,,1893.21,,,,,,,devolucion de gastos,1.0,1070010001,alberto velazquez alcantar
3,4,2025-04-02,DELGADO JUAREZ INTERNATIONAL LOGISTICS S,Devolucion remisiones,,714396.0,,,,,,,devolucion remisiones,1.0,,delgado juarez international logistics s
4,5,2025-04-14,ALM SCOTIABANK,TRASPASO ENTRE CUENTAS 1,,300000.0,,,,,,,traspaso entre cuentas 1,2.0,102-010-0001,alm scotiabank
5,5,2025-04-14,ALM SCOTIABANK,TRASPASO ENTRE CUENTAS 1,,,,,,,,,traspaso entre cuentas 1,2.0,102-010-0002,alm scotiabank
6,7,2025-04-21,BANCO MONEX SA,Pago monex venta usd a mnx bbva,,155600.0,,,,,,,pago monex venta usd a mnx bbva,2.0,102-010-0001,banco monex sa
7,7,2025-04-21,BANCO MONEX SA,Pago monex venta usd a mnx bbva,,,,,,,,,pago monex venta usd a mnx bbva,2.0,102-010-0002,banco monex sa
8,8,2025-04-25,ALM SCOTIABANK,TRASPASO ENTRE CUENTAS 2,,35000.0,,,,,,,traspaso entre cuentas 2,2.0,102-010-0001,alm scotiabank
9,8,2025-04-25,ALM SCOTIABANK,TRASPASO ENTRE CUENTAS 2,,,,,,,,,traspaso entre cuentas 2,2.0,102-010-0002,alm scotiabank


In [12]:
def categoria(conc):
    if "intercam" in conc:
        return "intercam"
    if "monex" in conc:
        return "monex"
    # agrega más reglas según necesites…
    return "otros"

usd["CAT"] = usd["CONCEPTO_NORM"].apply(categoria)

# Nos quedamos con filas con CARGO válido (>0)
usd_valid = usd.loc[usd["CARGO"].notna() & (usd["CARGO"] > 0)]

# Para cada (FECHA, CAT) tomar el primer cargo no-nulo
usd_first = (
    usd_valid.sort_values("FECHA")
             .drop_duplicates(subset=["FECHA", "CAT"], keep="first")
)

# Diccionario clave doble → cargo
key2cargo = {
    (row.FECHA, row.CAT): row.CARGO
    for row in usd_first.itertuples()
}

# ──────────────────────────────────
# 3. Preparar df_final
# ──────────────────────────────────
df_final["FECHA"] = pd.to_datetime(df_final["FECHA"], errors="coerce").dt.normalize()
df_final["CONCEPTO_NORM"] = df_final["CONCEPTO"].apply(norm)
df_final["CAT"] = df_final["CONCEPTO_NORM"].apply(categoria)

df_final["ABONO"].replace("", np.nan, inplace=True)

mask_copia_vacia = (
    df_final["CUENTA"].eq("1020100002") &
    df_final["ABONO"].isna()
)

# ──────────────────────────────────
# 4. Rellenar ABONO usando (fecha, cat)
# ──────────────────────────────────
def lookup(row):
    return key2cargo.get((row.FECHA, row.CAT), np.nan)

df_final.loc[mask_copia_vacia, "ABONO"] = (
    df_final.loc[mask_copia_vacia].apply(lookup, axis=1)
)

# ──────────────────────────────────
# 5. Informe rápido
# ──────────────────────────────────
total_a_llenar = mask_copia_vacia.sum()
llenas = df_final.loc[mask_copia_vacia, "ABONO"].notna().sum()
print(f"Copias a llenar: {total_a_llenar}  |  Llenadas: {llenas}")

# (opcional) guardar
with pd.ExcelWriter("abonos_aux2_completados6.xlsx",
                    date_format="yyyy-mm-dd") as w:
    df_final.drop(columns=["CAT"]).to_excel(w, index=False)

Copias a llenar: 4  |  Llenadas: 0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_final["ABONO"].replace("", np.nan, inplace=True)


In [13]:
# ── 1) FECHA en USD  ⟶  date (aaaa-mm-dd, sin hora) ──────────────────────
usd["FECHA"] = pd.to_datetime(usd["FECHA"], errors="coerce").dt.date

# ── … resto del flujo idéntico … ──────────────────────────────────────────

# ── 3) FECHA en df_final  ⟶  date (aaaa-mm-dd, sin hora) ────────────────
df_final["FECHA"] = pd.to_datetime(df_final["FECHA"], errors="coerce").dt.date

# ── 5) Exportar ──────────────────────────────────────────────────────────
with pd.ExcelWriter(archivo+"abonos_aux2_completados.xlsx",
                    date_format="yyyy-mm-dd") as w:
    df_final.drop(columns=["CAT"]).to_excel(w, index=False)





In [63]:
df_final

Unnamed: 0,NUM,FECHA,BENEFICIARIO,CONCEPTO,CARGO,ABONO,CONCEPTO_NORM,AUX,CUENTA,BENEFICIARIO_NORM,CAT
0,1,2025-06-04,BANAMEX (Rodolfo Quintanilla),PRÉSTAMO,,60000.00,prestamo,0.0,205-002-0010,banamex rodolfo quintanilla,otros
1,2,2025-06-04,INTERCAM ALM,TRASPASO ENTRE CUENTAS 1,,95575.00,traspaso entre cuentas 1,2.0,102-010-0001,intercam alm,otros
2,2,2025-06-04,INTERCAM ALM,TRASPASO ENTRE CUENTAS 1,,,traspaso entre cuentas 1,2.0,102-010-0002,intercam alm,otros
3,3,2025-06-06,INTERCAM ALM,TRASPASO ENTRE CUENTAS 2,,95175.00,traspaso entre cuentas 2,2.0,102-010-0001,intercam alm,otros
4,3,2025-06-06,INTERCAM ALM,TRASPASO ENTRE CUENTAS 2,,1967.42,traspaso entre cuentas 2,2.0,102-010-0002,intercam alm,otros
...,...,...,...,...,...,...,...,...,...,...,...
59,57,2025-06-30,VICTOR PIÑA GARCIA,Devolución Viáticos Depósito 04 abril,,2002.81,devolucion viaticos deposito 04 abril,1.0,1070010031,victor pina garcia,otros
60,58,2025-06-30,VICTOR PIÑA GARCIA,Devolución Viáticos Depósito Mayo,,1413.05,devolucion viaticos deposito mayo,1.0,1070010031,victor pina garcia,otros
61,59,NaT,,,7130156.620000003,7263937.98,,,,,otros
62,60,NaT,,,7130156.620000003,2484529.30,,,,,otros


In [14]:
import pandas as pd
import numpy as np

# df_final  ← dataframe con NUM, FECHA, AUX, CUENTA y ABONO ya listos

# 1) Asegúrate de que ABONO sea numérico
df_final["ABONO"] = pd.to_numeric(df_final["ABONO"], errors="coerce")

# 2) Filas con CUENTA 102-010-0002 y ABONO no nulo
mask_1002 = (df_final["CUENTA"] == "1020100002") & df_final["ABONO"].notna()
idx_1002  = df_final.index[mask_1002]

for idx in idx_1002:
    idx_arriba = idx - 1                             # fila inmediatamente anterior
    if (idx_arriba in df_final.index and
        df_final.at[idx_arriba, "CUENTA"] == "1020100001"):

        diff = df_final.at[idx_arriba, "ABONO"] - df_final.at[idx, "ABONO"]
        df_final.at[idx_arriba, "ABONO"] = diff
    else:
        print(f"⚠️  La fila {idx_arriba} no presenta CUENTA 1020100001; revísala.")

# 3) Exportar resultado
with pd.ExcelWriter(archivo+"FINAL2.xlsx", date_format="yyyy-mm-dd") as w:
    df_final.to_excel(w, index=False)

print("Archivo FINAL2.xlsx generado.")


Archivo FINAL2.xlsx generado.
