# PDF Data Extractor

Este notebook permite procesar una a una, todas las páginas del PDF.
## Aclaración:

Los conceptos que están en ingresos y egresos se restan y se encuentran en una única columna, lo cual genera como **ventaja** la exactitud del valor de dicho código, pero genera una **desventaja,** en el caso de requerir un análisis de los valores por conceptos de ingresos y egresos.

Este código procesa desprendibles con varios conceptos diferenciadores, en este caso **COD3** y **COD4**.

También corrige el fallo de los conceptos muy largos.

In [1]:
# Importar las bibliotecas
import fitz # pip install pymupdf
import re
import pandas as pd # pip install pandas
import numpy as np # pip install numpy

In [2]:
pdf_file = "Comprobantes_de_Pago.pdf"

doc = fitz.open(pdf_file) # Procesa el PDF mediante la biblioteca Pymupdf
pos_pag = 7

In [3]:
texto = doc[pos_pag].get_text() # Se obtiene los datos de una página de PDF

In [4]:
print(texto)

NOMBRE DE LA EMPRESA 
 
1000000000-1 
 
 
Fecha 
04/12/2023 02:15:10 PM 
Comprobante de Pago 
 
 
 
 
 
Periodo de pago: 01-Nov-23  a  30-Nov-23 
 
 
 
Comprobante de Pago 
Página 8 de 11 
 
Nombres: 
Paquita Piraquive 
Documento: 
10000007 
Ciudad: Bogotá 
Sede 
Sede Norte 
Dependencia: 
Proyección Corp. 
Cargo: 
Vendedora 
N. Contratación: 03-2022 
Área: 
Ventas 
Ingresos: 
$2,000,000 
Capacidad de Endeudamiento: $500,000 
 
Grado: 
1 
 
CódConc. 
Concepto 
Cuotas 
Días 
Ingresos 
Egresos 
COD1 
CONCEPTO NO. 1 
 
 
100,000.00 
 
COD2 
CONCEPTO NO. 2 
 
 
300,000.00 
 
COD3 
CONCEPTO NO. 3 
 
 
200,000.00 
 
COD4 
CONCEPTO NO. 4 
 
 
2,000,000.00 
 
COD5 
CONCEPTO NO. 5 
 
 
 
50,000.00 
COD6 
CONCEPTO NO. 6 
 
 
 
55,000.00 
COD8 
CONCEPTO NO. 8 
 
 
 
10,000.00 
COD10 
CONCEPTO NO. 10 – Este es un ejemplo 
de concepto muy largo 
 
 
 
100,000.00 
Totales: 
$2,600,000.00 
$215,000.00 
 
Firma 
 
10000007 Paquita Piraquive 
COD Banco: Mi Banquito 1 – 313131313 – Tipo: Ahorros 
 
Neto 

In [5]:
display(texto)

'NOMBRE DE LA EMPRESA \n \n1000000000-1 \n \n \nFecha \n04/12/2023 02:15:10 PM \nComprobante de Pago \n \n \n \n \n \nPeriodo de pago: 01-Nov-23  a  30-Nov-23 \n \n \n \nComprobante de Pago \nPágina 8 de 11 \n \nNombres: \nPaquita Piraquive \nDocumento: \n10000007 \nCiudad: Bogotá \nSede \nSede Norte \nDependencia: \nProyección Corp. \nCargo: \nVendedora \nN. Contratación: 03-2022 \nÁrea: \nVentas \nIngresos: \n$2,000,000 \nCapacidad de Endeudamiento: $500,000 \n \nGrado: \n1 \n \nCódConc. \nConcepto \nCuotas \nDías \nIngresos \nEgresos \nCOD1 \nCONCEPTO NO. 1 \n \n \n100,000.00 \n \nCOD2 \nCONCEPTO NO. 2 \n \n \n300,000.00 \n \nCOD3 \nCONCEPTO NO. 3 \n \n \n200,000.00 \n \nCOD4 \nCONCEPTO NO. 4 \n \n \n2,000,000.00 \n \nCOD5 \nCONCEPTO NO. 5 \n \n \n \n50,000.00 \nCOD6 \nCONCEPTO NO. 6 \n \n \n \n55,000.00 \nCOD8 \nCONCEPTO NO. 8 \n \n \n \n10,000.00 \nCOD10 \nCONCEPTO NO. 10 – Este es un ejemplo \nde concepto muy largo \n \n \n \n100,000.00 \nTotales: \n$2,600,000.00 \n$215,000.00 \n

In [6]:
pos_periodo_pago = texto.find("Periodo de pago")
pos_comprobante_pago = texto.find("\nComprobante de Pago \nP")
cadena_periodo_pago = texto[pos_periodo_pago + 17: pos_comprobante_pago - 7]
display(cadena_periodo_pago)

'01-Nov-23  a  30-Nov-23'

In [7]:
mes_periodo_pago = cadena_periodo_pago[3:6]
display(mes_periodo_pago)

'Nov'

In [8]:
anio_periodo_pago = cadena_periodo_pago[7:9]
display(anio_periodo_pago)

'23'

In [9]:
anio_periodo_pago = 2000 + int(anio_periodo_pago)
display(anio_periodo_pago)

2023

In [10]:
pos_nombre = texto.find("Nombres")
pos_documento = texto.find("Documento")
nombre_empleado = texto[pos_nombre + 10: pos_documento - 2]
display(nombre_empleado)

'Paquita Piraquive'

In [11]:
pos_ciudad = texto.find('Ciudad')
num_doc = int(texto[pos_documento + 12: pos_ciudad - 2])
display(num_doc)

10000007

In [12]:
pos_sede = texto.find('Sede')
ciudad = texto[pos_ciudad + 8: pos_sede - 2]
display(ciudad)

'Bogotá'

In [13]:
pos_dependencia = texto.find('Dependencia')
sede = texto[pos_sede + 6: pos_dependencia - 2]
display(sede)

'Sede Norte'

In [14]:
pos_cargo = texto.find('Cargo')
dependencia = texto[pos_dependencia + 14: pos_cargo - 2]
display(dependencia)

'Proyección Corp.'

In [15]:
pos_contrato = texto.find('N. Contratación')
cargo_empleado = texto[pos_cargo + 8: pos_contrato - 2]
display(cargo_empleado)

'Vendedora'

In [16]:
pos_area = texto.find("Área")
num_contrato = texto[pos_contrato + 17: pos_area - 2]
display(num_contrato)

'03-2022'

In [17]:
pos_ingresos = texto.find('Ingresos')
area = texto[pos_area + 7: pos_ingresos - 2]
display(area)

'Ventas'

In [18]:
pos_cap_endeudamiento = texto.find('Capacidad de Endeudamiento')
ingresos = texto[pos_ingresos + 12: pos_cap_endeudamiento - 2]
display(ingresos)

'2,000,000'

In [19]:
ingresos = int(ingresos.replace(',', ''))
display(ingresos)

2000000

In [20]:
pos_grado = texto.find('Grado')
capacidad_endeudamiento = int(texto[pos_cap_endeudamiento + 29: pos_grado -4].replace(',', ''))
display(capacidad_endeudamiento)

500000

In [21]:
pos_cod_conc = texto.find('CódConc')
grado = int(texto[pos_grado + 8: pos_cod_conc - 4])
display(grado)

1

In [22]:
pos_banco = texto.find('Banco')
pos_neto_pagar = texto.find('Neto a Pagar')
cadena_banco = texto[pos_banco + 7: pos_neto_pagar - 4]
display(cadena_banco)

'Mi Banquito 1 – 313131313 – Tipo: Ahorros'

In [23]:
lista_banco = cadena_banco.split(" – ")
display(lista_banco)

['Mi Banquito 1', '313131313', 'Tipo: Ahorros']

In [24]:
banco = lista_banco[0]
display(banco)

'Mi Banquito 1'

In [25]:
cuenta_bancaria = int(lista_banco[1])
display(cuenta_bancaria)

313131313

In [26]:
tipo_cuenta = lista_banco[2][6:]
display(tipo_cuenta)

'Ahorros'

In [27]:
pos_neto_pagar = texto.find('Neto')
neto_pagar = float(texto[pos_neto_pagar + 15: len(texto) - 6].replace(',', '')) # Elimina las comas
display(neto_pagar)

2385000.0

In [28]:
dic_desprendible = {
    'Periodo_de_Pago': cadena_periodo_pago,
    'Año': anio_periodo_pago,
    'Mes': mes_periodo_pago,
    'Num_Doc_Empleado': num_doc,
    'Nombre_Empleado': nombre_empleado,
    'Ciudad': ciudad,
    'Dependencia': dependencia,
    'Sede': sede,
    'Cargo_Empleado': cargo_empleado,
    'Contrato': num_contrato,
    'Area': area,
    'Grado': grado,
    'Ingresos': ingresos,
    'Capacidad_Endeudamiento': capacidad_endeudamiento,
    'Banco': banco,
    'Tipo_Cuenta': tipo_cuenta,
    'Numero_Cuenta': cuenta_bancaria,
    'Neto_Pagar': neto_pagar
}
display(dic_desprendible)

{'Periodo_de_Pago': '01-Nov-23  a  30-Nov-23',
 'Año': 2023,
 'Mes': 'Nov',
 'Num_Doc_Empleado': 10000007,
 'Nombre_Empleado': 'Paquita Piraquive',
 'Ciudad': 'Bogotá',
 'Dependencia': 'Proyección Corp.',
 'Sede': 'Sede Norte',
 'Cargo_Empleado': 'Vendedora',
 'Contrato': '03-2022',
 'Area': 'Ventas',
 'Grado': 1,
 'Ingresos': 2000000,
 'Capacidad_Endeudamiento': 500000,
 'Banco': 'Mi Banquito 1',
 'Tipo_Cuenta': 'Ahorros',
 'Numero_Cuenta': 313131313,
 'Neto_Pagar': 2385000.0}

In [29]:
pos_egresos = texto.find("Egresos")
pos_totales = texto.find("Totales")
cadena_conceptos_valores = texto[pos_egresos + 9: pos_totales - 2]
display(cadena_conceptos_valores)

'COD1 \nCONCEPTO NO. 1 \n \n \n100,000.00 \n \nCOD2 \nCONCEPTO NO. 2 \n \n \n300,000.00 \n \nCOD3 \nCONCEPTO NO. 3 \n \n \n200,000.00 \n \nCOD4 \nCONCEPTO NO. 4 \n \n \n2,000,000.00 \n \nCOD5 \nCONCEPTO NO. 5 \n \n \n \n50,000.00 \nCOD6 \nCONCEPTO NO. 6 \n \n \n \n55,000.00 \nCOD8 \nCONCEPTO NO. 8 \n \n \n \n10,000.00 \nCOD10 \nCONCEPTO NO. 10 – Este es un ejemplo \nde concepto muy largo \n \n \n \n100,000.00'

In [30]:
cadena_conceptos_valores = re.sub(r'\n(\s*\n)+', '\n', cadena_conceptos_valores) # la expresión regular busca patrones en los que haya uno o más saltos de línea seguidos por cero o más caracteres de espacio en blanco.
display(cadena_conceptos_valores)

'COD1 \nCONCEPTO NO. 1 \n100,000.00 \nCOD2 \nCONCEPTO NO. 2 \n300,000.00 \nCOD3 \nCONCEPTO NO. 3 \n200,000.00 \nCOD4 \nCONCEPTO NO. 4 \n2,000,000.00 \nCOD5 \nCONCEPTO NO. 5 \n50,000.00 \nCOD6 \nCONCEPTO NO. 6 \n55,000.00 \nCOD8 \nCONCEPTO NO. 8 \n10,000.00 \nCOD10 \nCONCEPTO NO. 10 – Este es un ejemplo \nde concepto muy largo \n100,000.00'

## La siguiente celda fue incluida, en comparación con el notebook 'PoC-3'

In [31]:
# Realiza sustituciones y ajustes en el texto
subs = [
    ('\nde concepto muy largo', ' de concepto muy largo')
       ]

for old, new in subs:
                cadena_conceptos_valores = cadena_conceptos_valores.replace(old, new)

display(cadena_conceptos_valores)

'COD1 \nCONCEPTO NO. 1 \n100,000.00 \nCOD2 \nCONCEPTO NO. 2 \n300,000.00 \nCOD3 \nCONCEPTO NO. 3 \n200,000.00 \nCOD4 \nCONCEPTO NO. 4 \n2,000,000.00 \nCOD5 \nCONCEPTO NO. 5 \n50,000.00 \nCOD6 \nCONCEPTO NO. 6 \n55,000.00 \nCOD8 \nCONCEPTO NO. 8 \n10,000.00 \nCOD10 \nCONCEPTO NO. 10 – Este es un ejemplo  de concepto muy largo \n100,000.00'

In [32]:
lista_conceptos_valores = cadena_conceptos_valores.split(' \n')
display(lista_conceptos_valores)

['COD1',
 'CONCEPTO NO. 1',
 '100,000.00',
 'COD2',
 'CONCEPTO NO. 2',
 '300,000.00',
 'COD3',
 'CONCEPTO NO. 3',
 '200,000.00',
 'COD4',
 'CONCEPTO NO. 4',
 '2,000,000.00',
 'COD5',
 'CONCEPTO NO. 5',
 '50,000.00',
 'COD6',
 'CONCEPTO NO. 6',
 '55,000.00',
 'COD8',
 'CONCEPTO NO. 8',
 '10,000.00',
 'COD10',
 'CONCEPTO NO. 10 – Este es un ejemplo  de concepto muy largo',
 '100,000.00']

In [33]:
# Tiene dos conceptos diefrenciadores
if 'COD4' in lista_conceptos_valores:
    concepto_diferenciador = 'COD4'
elif 'COD3' in lista_conceptos_valores:
    concepto_diferenciador = 'COD3'

In [34]:
# El concepto_diferenciador es el último código con Ingersos, después están los códigos con Egresos
pos_concepto_diferenciador = lista_conceptos_valores.index(concepto_diferenciador)
display(pos_concepto_diferenciador)

9

In [35]:
dic_conceptos_valores = {}

# Crea un diccionario con los códigos y valores, el cual se adiciona al diccionario anterior.
# Los valores se suman o se restan, pero en caso de un código que sea ingreso y egreso, el valor se
# resta y se mantiene en una sola columna
for pos_dato in range(0, len(lista_conceptos_valores), 3):
    codigo_concepto = lista_conceptos_valores[pos_dato]
    #nombre_concepto = lista[pos_dato + 1]
    valor_concepto = float(lista_conceptos_valores[pos_dato + 2].replace(',', ''))

    if pos_dato <= pos_concepto_diferenciador:
        dic_conceptos_valores[codigo_concepto] = valor_concepto + dic_conceptos_valores.get(codigo_concepto, 0)
    else:
        dic_conceptos_valores[codigo_concepto] = (valor_concepto * -1) + dic_conceptos_valores.get(codigo_concepto, 0)

    dic_desprendible |= dic_conceptos_valores   #dic_desprendible.update(dic_conceptos_valores)
    #display(dic_conceptos_valores)
display(dic_desprendible)

{'Periodo_de_Pago': '01-Nov-23  a  30-Nov-23',
 'Año': 2023,
 'Mes': 'Nov',
 'Num_Doc_Empleado': 10000007,
 'Nombre_Empleado': 'Paquita Piraquive',
 'Ciudad': 'Bogotá',
 'Dependencia': 'Proyección Corp.',
 'Sede': 'Sede Norte',
 'Cargo_Empleado': 'Vendedora',
 'Contrato': '03-2022',
 'Area': 'Ventas',
 'Grado': 1,
 'Ingresos': 2000000,
 'Capacidad_Endeudamiento': 500000,
 'Banco': 'Mi Banquito 1',
 'Tipo_Cuenta': 'Ahorros',
 'Numero_Cuenta': 313131313,
 'Neto_Pagar': 2385000.0,
 'COD1': 100000.0,
 'COD2': 300000.0,
 'COD3': 200000.0,
 'COD4': 2000000.0,
 'COD5': -50000.0,
 'COD6': -55000.0,
 'COD8': -10000.0,
 'COD10': -100000.0}

In [36]:
df_desprendible = pd.DataFrame.from_dict([dic_desprendible])
display(df_desprendible)

Unnamed: 0,Periodo_de_Pago,Año,Mes,Num_Doc_Empleado,Nombre_Empleado,Ciudad,Dependencia,Sede,Cargo_Empleado,Contrato,...,Numero_Cuenta,Neto_Pagar,COD1,COD2,COD3,COD4,COD5,COD6,COD8,COD10
0,01-Nov-23 a 30-Nov-23,2023,Nov,10000007,Paquita Piraquive,Bogotá,Proyección Corp.,Sede Norte,Vendedora,03-2022,...,313131313,2385000.0,100000.0,300000.0,200000.0,2000000.0,-50000.0,-55000.0,-10000.0,-100000.0


In [37]:
# Crea una columna que suma todos los valores de los conceptos de la fila y luego la compara con el 
# valor extraido del desprendible, generando una columna de comprobación que indica si los valores 
# coinciden, indicando Correcto, en caso contrario Error
columna_inicial_concepto = df_desprendible.columns.get_loc('Neto_Pagar') + 1
columna_final_concepto = df_desprendible.shape[1]
columnas_conceptos = df_desprendible.iloc[:, columna_inicial_concepto: columna_final_concepto]
df_desprendible['Valor_Pagar_Calculado'] = columnas_conceptos.sum(axis=1)
df_desprendible['Comprobacion'] = np.where(df_desprendible['Neto_Pagar'] == df_desprendible['Valor_Pagar_Calculado'], 'Correcto', 'Error')
display(df_desprendible)

Unnamed: 0,Periodo_de_Pago,Año,Mes,Num_Doc_Empleado,Nombre_Empleado,Ciudad,Dependencia,Sede,Cargo_Empleado,Contrato,...,COD1,COD2,COD3,COD4,COD5,COD6,COD8,COD10,Valor_Pagar_Calculado,Comprobacion
0,01-Nov-23 a 30-Nov-23,2023,Nov,10000007,Paquita Piraquive,Bogotá,Proyección Corp.,Sede Norte,Vendedora,03-2022,...,100000.0,300000.0,200000.0,2000000.0,-50000.0,-55000.0,-10000.0,-100000.0,2385000.0,Correcto
