In [1]:
import json
import pandas as pd
from datetime import datetime, timedelta
from rapidfuzz import fuzz
from collections import defaultdict
from tqdm import tqdm


def procesar_tickets(ruta, umbral_productos=90, umbral_claves=85, validar_fecha=True, salida_csv="tickets_clasificados.csv"):
    def validar_cuit(cuit):
        try:
            cuit = cuit.replace("-", "")
            if len(cuit) != 11 or not cuit.isdigit():
                return False
            mult = [5, 4, 3, 2, 7, 6, 5, 4, 3, 2]
            suma = sum(int(cuit[i]) * mult[i] for i in range(10))
            resto = suma % 11
            verificador = 11 - resto if resto != 0 else 0
            return verificador == int(cuit[-1])
        except:
            return False

    def normalizar_pv(pv):
        reemplazos = {'3': '8', '8': '8', '1': '7', '7': '7'}
        return ''.join(reemplazos.get(c, c) for c in pv)

    def filtrar_por_fecha(tickets):
        hoy = datetime.today().date()
        ayer = hoy - timedelta(days=1)
        tickets_validos, moderacion, descartados = [], [], []

        for t in tickets:
            fecha_str = t.get("fecha", "")
            try:
                fecha_ticket = datetime.strptime(fecha_str, "%d/%m/%Y").date()
                if fecha_ticket in [hoy, ayer]:
                    tickets_validos.append((t, "válido", "-"))
                else:
                    descartados.append((t, "descartado", "fecha fuera de rango"))
            except:
                if fuzz.partial_ratio(fecha_str, hoy.strftime("%d/%m/%Y")) > 80 or \
                   fuzz.partial_ratio(fecha_str, ayer.strftime("%d/%m/%Y")) > 80:
                    moderacion.append((t, "moderación", "fecha dudosa (OCR)"))
                else:
                    descartados.append((t, "descartado", "fecha inválida"))

        if not validar_fecha:
            return [(t, "válido", "-") for t in tickets], [], []

        return tickets_validos + moderacion, descartados, moderacion

    def comparar_por_claves(t1, t2):
        try:
            f1 = datetime.strptime(t1["fecha"], "%d/%m/%Y")
            f2 = datetime.strptime(t2["fecha"], "%d/%m/%Y")
            if f1 != f2:
                return False, 0.0
        except:
            return False, 0.0

        claves = ["numeroDeTicket", "hora"]
        sim_sum = 0
        for campo in claves:
            if campo in t1 and campo in t2:
                sim = fuzz.token_sort_ratio(str(t1[campo]), str(t2[campo]))
                sim_sum += sim
        promedio = sim_sum / len(claves)
        return promedio >= umbral_claves, promedio

    def comparar_por_productos(t1, t2):
        def extraer_nombres_relevantes(productos):
            if len(productos) == 0:
                return []
            if len(productos) <= 4:
                return [p["nombre"] for p in productos]
            return [productos[i]["nombre"] for i in [0, 1, 2, -1] if i < len(productos)]

        productos1 = extraer_nombres_relevantes(t1.get("productos", []))
        productos2 = extraer_nombres_relevantes(t2.get("productos", []))
        return fuzz.token_sort_ratio(" ".join(productos1), " ".join(productos2))

    def agrupar_tickets_por_cuit_pv(tickets):
        agrupados = defaultdict(lambda: defaultdict(list))
        for ticket, estado, motivo in tickets:
            cuit = ticket.get("cuit", "").strip()
            if not validar_cuit(cuit):
                motivo = "CUIT inválido"
                estado = "advertencia"
            pv = normalizar_pv(ticket.get("puntoDeVenta", ""))
            agrupados[cuit][pv].append((ticket, estado, motivo))
        return agrupados

    with open(ruta, "r", encoding="utf-8") as f:
        raw_tickets = [json.loads(line) for line in f]

    filtrados, descartados, _ = filtrar_por_fecha(raw_tickets)
    agrupados = agrupar_tickets_por_cuit_pv(filtrados)

    registros = []
    progreso = tqdm(total=sum(len(agrupados[c]) for c in agrupados), desc="🔍 Analizando grupos", ncols=80)

    for cuit in agrupados:
        for pv in agrupados[cuit]:
            grupo = agrupados[cuit][pv]
            locales = []
            for ticket, estado, motivo in grupo:
                es_duplicado = False
                duplicado_de = "-"
                similitud = "-"

                for otro, _, _ in locales:
                    claves_ok, sim_claves = comparar_por_claves(ticket, otro)
                    if claves_ok:
                        es_duplicado = True
                        estado = "duplicado"
                        motivo = "duplicado por claves"
                        duplicado_de = otro["numeroDeTicket"]
                        similitud = round(sim_claves, 2)
                        break

                if not es_duplicado:
                    for otro, _, _ in locales:
                        sim_prod = comparar_por_productos(ticket, otro)
                        if sim_prod >= umbral_productos:
                            es_duplicado = True
                            estado = "duplicado"
                            motivo = "duplicado por productos"
                            duplicado_de = otro["numeroDeTicket"]
                            similitud = round(sim_prod, 2)
                            break

                if not es_duplicado:
                    estado = "único"
                    motivo = "-"
                    similitud = "-"
                    locales.append((ticket, estado, motivo))

                registros.append({
                    "numeroDeTicket": ticket.get("numeroDeTicket", ""),
                    "estado": estado,
                    "motivo": motivo,
                    "duplicadoDe": duplicado_de,
                    "similitud": similitud,
                    "fecha": ticket.get("fecha", ""),
                    "cuit": ticket.get("cuit", ""),
                    "nombreComercio": ticket.get("nombreComercio", "")
                })
            progreso.update(1)

    for ticket, estado, motivo in descartados:
        registros.append({
            "numeroDeTicket": ticket.get("numeroDeTicket", ""),
            "estado": estado,
            "motivo": motivo,
            "duplicadoDe": "-",
            "similitud": "-",
            "fecha": ticket.get("fecha", ""),
            "cuit": ticket.get("cuit", ""),
            "nombreComercio": ticket.get("nombreComercio", "")
        })

    df = pd.DataFrame(registros)
    df.to_csv(salida_csv, index=False)
    print(f"\n✅ Archivo CSV generado: {salida_csv}")
    print(f"✔ Totales: {len(df)} tickets clasificados.")


ModuleNotFoundError: No module named 'rapidfuzz'