# PDF Data Extractor

Este notebook permite procesar todas las páginas del PDF en una sola ejecución.

## Aclaración:

Los conceptos que están en ingresos y egresos se tratan por separado, es decir, sí un código inicialmente es ingreso y después se detecta cómo egreso, se genera un nuevo campo, con el Código del Concepto y **(E)**, el cual puede sumar varios códigos que estén como egresos, aunque inicialmente esté como un ingreso. 

La limitante radica en que solo puede haber un **(1)** código diferenciador (el último código de ingreso, después del cual deben seguir solo egresos)

Este código procesa desprendibles con varios conceptos diferenciadores, en este caso **COD3** y **COD4**.

También corrige el fallo de los conceptos muy largos.

**Contiene los códigos del notebook PoC-5, solo se incluye algunas líneas adicionales y una re-posicionamiento de la evaluación del concepto_diefrenciador, ya que sí no se detecta, no tiene sentido ejecutar el resto de código.**

In [1]:
# Importar las bibliotecas
import fitz # pip install pymupdf
import re
import pandas as pd # pip install pandas
import numpy as np # pip install numpy

In [2]:
pdf_file = "Comprobantes_de_Pago.pdf"

doc = fitz.open(pdf_file) # Procesa el PDF mediante la biblioteca Pymupdf

log_paginas = [] # Lista donde se guardan las páginas no procesadas, porque su concepto diferenciador no está contemplado 
pag = 0
lista_dic_desprendible = []

In [3]:
for pagina in doc:
    pag += 1
    texto = pagina.get_text() # Se obtiene los datos de una página de PDF

    pos_egresos = texto.find("Egresos")
    pos_totales = texto.find("Totales")
    cadena_conceptos_valores = texto[pos_egresos + 9: pos_totales - 2]
    cadena_conceptos_valores = re.sub(r'\n(\s*\n)+', '\n', cadena_conceptos_valores) # la expresión regular busca patrones en los que haya uno o más saltos de línea seguidos por cero o más caracteres de espacio en blanco.
    # Realiza sustituciones y ajustes en el texto
    subs = [
        ('\nde concepto muy largo', ' de concepto muy largo')
           ]

    for old, new in subs:
        cadena_conceptos_valores = cadena_conceptos_valores.replace(old, new)

    lista_conceptos_valores = cadena_conceptos_valores.split(' \n')

    # Tiene dos conceptos diefrenciadores
    if 'COD4' in lista_conceptos_valores:
        concepto_diferenciador = 'COD4'
    elif 'COD3' in lista_conceptos_valores:
        concepto_diferenciador = 'COD3'
    else:
        log_paginas.append(pag) # Lista donde se almancena las páginas no procesadas
        continue

    # El concepto_diferenciador es el último código con Ingersos, después están los códigos con Egresos
    pos_concepto_diferenciador = lista_conceptos_valores.index(concepto_diferenciador)
    
    pos_periodo_pago = texto.find("Periodo de pago")
    pos_comprobante_pago = texto.find("\nComprobante de Pago \nP")
    cadena_periodo_pago = texto[pos_periodo_pago + 17: pos_comprobante_pago - 7]
    mes_periodo_pago = cadena_periodo_pago[3:6]
    anio_periodo_pago = 2000 + int(cadena_periodo_pago[7:9])
    pos_nombre = texto.find("Nombres")
    pos_documento = texto.find("Documento")
    nombre_empleado = texto[pos_nombre + 10: pos_documento - 2]
    pos_ciudad = texto.find('Ciudad')
    num_doc = int(texto[pos_documento + 12: pos_ciudad - 2])
    pos_sede = texto.find('Sede')
    ciudad = texto[pos_ciudad + 8: pos_sede - 2]
    pos_dependencia = texto.find('Dependencia')
    sede = texto[pos_sede + 6: pos_dependencia - 2]
    pos_cargo = texto.find('Cargo')
    dependencia = texto[pos_dependencia + 14: pos_cargo - 2]
    pos_contrato = texto.find('N. Contratación')
    cargo_empleado = texto[pos_cargo + 8: pos_contrato - 2]
    pos_area = texto.find("Área")
    num_contrato = texto[pos_contrato + 17: pos_area - 2]
    pos_ingresos = texto.find('Ingresos')
    area = texto[pos_area + 7: pos_ingresos - 2]
    pos_cap_endeudamiento = texto.find('Capacidad de Endeudamiento')
    ingresos = int(texto[pos_ingresos + 12: pos_cap_endeudamiento - 2].replace(',', ''))
    pos_grado = texto.find('Grado')
    capacidad_endeudamiento = int(texto[pos_cap_endeudamiento + 29: pos_grado -4].replace(',', ''))
    pos_cod_conc = texto.find('CódConc')
    grado = int(texto[pos_grado + 8: pos_cod_conc - 4])
    pos_banco = texto.find('Banco')
    pos_neto_pagar = texto.find('Neto a Pagar')
    cadena_banco = texto[pos_banco + 7: pos_neto_pagar - 4]
    lista_banco = cadena_banco.split(" – ")
    banco = lista_banco[0]
    cuenta_bancaria = int(lista_banco[1])
    tipo_cuenta = lista_banco[2][6:]
    pos_neto_pagar = texto.find('Neto')
    neto_pagar = float(texto[pos_neto_pagar + 15: len(texto) - 6].replace(',', '')) # Elimina las comas

    dic_desprendible = {
        'Pagina_pdf': pag,
        'Periodo_de_Pago': cadena_periodo_pago,
        'Año': anio_periodo_pago,
        'Mes': mes_periodo_pago,
        'Num_Doc_Empleado': num_doc,
        'Nombre_Empleado': nombre_empleado,
        'Ciudad': ciudad,
        'Dependencia': dependencia,
        'Sede': sede,
        'Cargo_Empleado': cargo_empleado,
        'Contrato': num_contrato,
        'Area': area,
        'Grado': grado,
        'Ingresos': ingresos,
        'Capacidad_Endeudamiento': capacidad_endeudamiento,
        'Banco': banco,
        'Tipo_Cuenta': tipo_cuenta,
        'Numero_Cuenta': cuenta_bancaria,
        'Neto_Pagar': neto_pagar
    }

    dic_conceptos_valores = {}
    # Crea un diccionario con los códigos y valores, el cual se adiciona al diccionario anterior.
    # Los valores se suman, siempre y cuando ambos códigos sean del mismo tipo, es decir, sean o ingresos 
    # o egresos, pero sí hay de los dos tipos, se crea una columna adicional para el código del tipo Egreso
    for pos_dato in range(0, len(lista_conceptos_valores), 3):
        codigo_concepto = lista_conceptos_valores[pos_dato]
        #nombre_concepto = lista[pos_dato + 1]
        valor_concepto = float(lista_conceptos_valores[pos_dato + 2].replace(',', ''))
    
        if pos_dato <= pos_concepto_diferenciador:
            dic_conceptos_valores[codigo_concepto] = valor_concepto + dic_conceptos_valores.get(codigo_concepto, 0)
            
        else:
            # El else es para los Egresos, por lo tanto, en el siguiente if, se evalua sí el concepto actual
        # no existe o existe solo como egreso. Sí existe como ingreso, crea una columna nueva, con el 
        # código actual y la letra (E), que indica que es Egreso
            if dic_conceptos_valores.get(codigo_concepto, 0) <= 0:
                dic_conceptos_valores[codigo_concepto] = (valor_concepto * -1) + dic_conceptos_valores.get(codigo_concepto, 0)
            else:
                codigo_concepto += ' (E)' 
                dic_conceptos_valores[codigo_concepto] = (valor_concepto * -1) + dic_conceptos_valores.get(codigo_concepto, 0)
    
        dic_desprendible |= dic_conceptos_valores   #dic_desprendible.update(dic_conceptos_valores)

    lista_dic_desprendible.append(dic_desprendible)

df_desprendible = pd.DataFrame(lista_dic_desprendible)

# Crea una columna que suma todos los valores de los conceptos de la fila y luego la compara con el 
# valor extraido del desprendible, generando una columna de comprobación que indica si los valores 
# coinciden, indicando Correcto, en caso contrario Error
columna_inicial_concepto = df_desprendible.columns.get_loc('Neto_Pagar') + 1
columna_final_concepto = df_desprendible.shape[1]
columnas_conceptos = df_desprendible.iloc[:, columna_inicial_concepto: columna_final_concepto]
df_desprendible['Valor_Pagar_Calculado'] = columnas_conceptos.sum(axis=1)
df_desprendible['Comprobacion'] = np.where(df_desprendible['Neto_Pagar'] == df_desprendible['Valor_Pagar_Calculado'], 'Correcto', 'Error')
display(df_desprendible)

Unnamed: 0,Pagina_pdf,Periodo_de_Pago,Año,Mes,Num_Doc_Empleado,Nombre_Empleado,Ciudad,Dependencia,Sede,Cargo_Empleado,...,COD5,COD6,COD7,COD8,COD9,COD4 (E),COD3 (E),COD10,Valor_Pagar_Calculado,Comprobacion
0,1,01-Nov-23 a 30-Nov-23,2023,Nov,10000000,Pepito Pérez,Bogotá,Tecnología,Sede Norte,Ingeniero,...,-50000.0,-55000.0,-60000.0,-10000.0,-100000.0,,,,2325000.0,Correcto
1,2,01-Nov-23 a 30-Nov-23,2023,Nov,10000001,Pepita Flórez,Medellín,Tecnología,Sede Norte,Ingeniera,...,-50000.0,-20000.0,-60000.0,-10000.0,-100000.0,,,,2260000.0,Correcto
2,3,01-Nov-23 a 30-Nov-23,2023,Nov,10000002,Chepe Contre,Bogotá,Tecnología,Sede Norte,Ingeniero,...,-110000.0,-60000.0,-60000.0,,-100000.0,,,,3870000.0,Correcto
3,4,01-Nov-23 a 30-Nov-23,2023,Nov,10000003,Camilo López,Bogotá,Tecnología,Sede Sur,Ingeniero,...,-50000.0,-55000.0,-60000.0,-10000.0,,-100000.0,,,2325000.0,Correcto
4,5,01-Nov-23 a 30-Nov-23,2023,Nov,10000004,Dennis Albaca,Cali,Tecnología,Sede Norte,Ingeniero,...,-20000.0,-10000.0,-30000.0,-10000.0,,,-100000.0,,2230000.0,Correcto
5,6,01-Nov-23 a 30-Nov-23,2023,Nov,10000005,Camila Taurna,Cali,Tecnología,Sede Norte,Ingeniera,...,-80000.0,-50000.0,-60000.0,-10000.0,-50000.0,,,,3550000.0,Correcto
6,7,01-Nov-23 a 30-Nov-23,2023,Nov,10000006,María del Barrio,Bogotá,Imagen Corp.,Sede Norte,Estratega,...,-50000.0,-55000.0,-60000.0,-10000.0,-100000.0,,,,2325000.0,Correcto
7,8,01-Nov-23 a 30-Nov-23,2023,Nov,10000007,Paquita Piraquive,Bogotá,Proyección Corp.,Sede Norte,Vendedora,...,-50000.0,-55000.0,,-10000.0,,,,-100000.0,2385000.0,Correcto
8,9,01-Nov-23 a 30-Nov-23,2023,Nov,10000008,Pablito Gómez,Bogotá,Proyección Corp.,Sede Norte,Gerente,...,-90000.0,-50000.0,-60000.0,-60000.0,-100000.0,,,,6640000.0,Correcto
9,10,01-Nov-23 a 30-Nov-23,2023,Nov,10000009,Andrea Sofía Juárez,Bogotá,Proyección Corp.,Sede Sur,Ejecutiva,...,-50000.0,-100000.0,-60000.0,,-100000.0,-50000.0,,,5640000.0,Correcto


In [4]:
display(log_paginas) # Muestra las páginas no procesadas

[]