# PDF Data Extractor

Este notebook permite procesar una a una, todas las páginas del PDF.

## Aclaración:

Los conceptos que están en ingresos y egresos se tratan por separado, es decir, sí un código inicialmente es ingreso y después se detecta cómo egreso, se genera un nuevo campo, con el Código del Concepto y **(E)**, el cual puede sumar varios códigos que estén como egresos, aunque inicialmente esté como un ingreso. 

La limitante radica en que solo puede haber un **(1)** código diferenciador (el último código de ingreso, después del cual deben seguir solo egresos)

Este código procesa desprendibles con varios conceptos diferenciadores, en este caso **COD3** y **COD4**.

También corrige el fallo de los conceptos muy largos.

In [1]:
# Importar las bibliotecas
import fitz # pip install pymupdf
import re
import pandas as pd # pip install pandas
import numpy as np # pip install numpy

In [2]:
pdf_file = "Comprobantes_de_Pago_1.pdf"

doc = fitz.open(pdf_file) # Procesa el PDF mediante la biblioteca Pymupdf
pos_pag = 10

In [3]:
texto = doc[pos_pag].get_text() # Se obtiene los datos de una página de PDF

In [4]:
print(texto)

NOMBRE DE LA EMPRESA 
 
1000000000-1 
 
 
Fecha 
04/12/2023 02:15:10 PM 
Comprobante de Pago 
 
 
 
 
 
Periodo de pago: 01-Nov-23  a  30-Nov-23 
 
 
 
Comprobante de Pago 
Página 11 de 11 
 
Nombres: 
Camila Rondón 
Documento: 
10000009 
Ciudad: Bogotá 
Sede 
Sede Norte 
Dependencia: 
Proyección Corp. 
Cargo: 
Ejecutiva 
N. Contratación: 01-2021 
Área: 
Gerencia 
Ingresos: 
$5,500,000 
Capacidad de Endeudamiento: $2,500,000 
 
Grado: 
1 
 
CódConc. 
Concepto 
Cuotas 
Días 
Ingresos 
Egresos 
COD2 
CONCEPTO NO. 2 
 
 
300,000.00 
 
COD3 
CONCEPTO NO. 3 
 
 
200,000.00 
 
COD4 
CONCEPTO NO. 4 
 
 
5,500,000.00 
 
COD5 
CONCEPTO NO. 5 
 
 
 
50,000.00 
COD6 
CONCEPTO NO. 6 
 
 
 
50,000.00 
COD4 
CONCEPTO NO. 4 
 
 
 
50,000.00 
COD7 
CONCEPTO NO. 7 
 
 
 
60,000.00 
COD4 
CONCEPTO NO. 4 
 
 
 
50,000.00 
COD9 
CONCEPTO NO. 9 
 
 
 
100,000.00 
Totales: 
$6.000,000.00 
$360,000.00 
 
Firma 
 
10000009 Camila Rondón 
COD Banco: Mi Banquito 1 – 464646464 – Tipo: Ahorros 
 
Neto a Pagar 
$5

In [5]:
display(texto)

'NOMBRE DE LA EMPRESA \n \n1000000000-1 \n \n \nFecha \n04/12/2023 02:15:10 PM \nComprobante de Pago \n \n \n \n \n \nPeriodo de pago: 01-Nov-23  a  30-Nov-23 \n \n \n \nComprobante de Pago \nPágina 11 de 11 \n \nNombres: \nCamila Rondón \nDocumento: \n10000009 \nCiudad: Bogotá \nSede \nSede Norte \nDependencia: \nProyección Corp. \nCargo: \nEjecutiva \nN. Contratación: 01-2021 \nÁrea: \nGerencia \nIngresos: \n$5,500,000 \nCapacidad de Endeudamiento: $2,500,000 \n \nGrado: \n1 \n \nCódConc. \nConcepto \nCuotas \nDías \nIngresos \nEgresos \nCOD2 \nCONCEPTO NO. 2 \n \n \n300,000.00 \n \nCOD3 \nCONCEPTO NO. 3 \n \n \n200,000.00 \n \nCOD4 \nCONCEPTO NO. 4 \n \n \n5,500,000.00 \n \nCOD5 \nCONCEPTO NO. 5 \n \n \n \n50,000.00 \nCOD6 \nCONCEPTO NO. 6 \n \n \n \n50,000.00 \nCOD4 \nCONCEPTO NO. 4 \n \n \n \n50,000.00 \nCOD7 \nCONCEPTO NO. 7 \n \n \n \n60,000.00 \nCOD4 \nCONCEPTO NO. 4 \n \n \n \n50,000.00 \nCOD9 \nCONCEPTO NO. 9 \n \n \n \n100,000.00 \nTotales: \n$6.000,000.00 \n$360,000.00 \n \

In [6]:
pos_periodo_pago = texto.find("Periodo de pago")
pos_comprobante_pago = texto.find("\nComprobante de Pago \nP")
cadena_periodo_pago = texto[pos_periodo_pago + 17: pos_comprobante_pago - 7]
display(cadena_periodo_pago)

'01-Nov-23  a  30-Nov-23'

In [7]:
mes_periodo_pago = cadena_periodo_pago[3:6]
display(mes_periodo_pago)

'Nov'

In [8]:
anio_periodo_pago = cadena_periodo_pago[7:9]
display(anio_periodo_pago)

'23'

In [9]:
anio_periodo_pago = 2000 + int(anio_periodo_pago)
display(anio_periodo_pago)

2023

In [10]:
pos_nombre = texto.find("Nombres")
pos_documento = texto.find("Documento")
nombre_empleado = texto[pos_nombre + 10: pos_documento - 2]
display(nombre_empleado)

'Camila Rondón'

In [11]:
pos_ciudad = texto.find('Ciudad')
num_doc = int(texto[pos_documento + 12: pos_ciudad - 2])
display(num_doc)

10000009

In [12]:
pos_sede = texto.find('Sede')
ciudad = texto[pos_ciudad + 8: pos_sede - 2]
display(ciudad)

'Bogotá'

In [13]:
pos_dependencia = texto.find('Dependencia')
sede = texto[pos_sede + 6: pos_dependencia - 2]
display(sede)

'Sede Norte'

In [14]:
pos_cargo = texto.find('Cargo')
dependencia = texto[pos_dependencia + 14: pos_cargo - 2]
display(dependencia)

'Proyección Corp.'

In [15]:
pos_contrato = texto.find('N. Contratación')
cargo_empleado = texto[pos_cargo + 8: pos_contrato - 2]
display(cargo_empleado)

'Ejecutiva'

In [16]:
pos_area = texto.find("Área")
num_contrato = texto[pos_contrato + 17: pos_area - 2]
display(num_contrato)

'01-2021'

In [17]:
pos_ingresos = texto.find('Ingresos')
area = texto[pos_area + 7: pos_ingresos - 2]
display(area)

'Gerencia'

In [18]:
pos_cap_endeudamiento = texto.find('Capacidad de Endeudamiento')
ingresos = texto[pos_ingresos + 12: pos_cap_endeudamiento - 2]
display(ingresos)

'5,500,000'

In [19]:
ingresos = int(ingresos.replace(',', ''))
display(ingresos)

5500000

In [20]:
pos_grado = texto.find('Grado')
capacidad_endeudamiento = int(texto[pos_cap_endeudamiento + 29: pos_grado -4].replace(',', ''))
display(capacidad_endeudamiento)

2500000

In [21]:
pos_cod_conc = texto.find('CódConc')
grado = int(texto[pos_grado + 8: pos_cod_conc - 4])
display(grado)

1

In [22]:
pos_banco = texto.find('Banco')
pos_neto_pagar = texto.find('Neto a Pagar')
cadena_banco = texto[pos_banco + 7: pos_neto_pagar - 4]
display(cadena_banco)

'Mi Banquito 1 – 464646464 – Tipo: Ahorros'

In [23]:
lista_banco = cadena_banco.split(" – ")
display(lista_banco)

['Mi Banquito 1', '464646464', 'Tipo: Ahorros']

In [24]:
banco = lista_banco[0]
display(banco)

'Mi Banquito 1'

In [25]:
cuenta_bancaria = int(lista_banco[1])
display(cuenta_bancaria)

464646464

In [26]:
tipo_cuenta = lista_banco[2][6:]
display(tipo_cuenta)

'Ahorros'

In [27]:
pos_neto_pagar = texto.find('Neto')
neto_pagar = float(texto[pos_neto_pagar + 15: len(texto) - 6].replace(',', '')) # Elimina las comas
display(neto_pagar)

5640000.0

In [28]:
dic_desprendible = {
    'Periodo_de_Pago': cadena_periodo_pago,
    'Año': anio_periodo_pago,
    'Mes': mes_periodo_pago,
    'Num_Doc_Empleado': num_doc,
    'Nombre_Empleado': nombre_empleado,
    'Ciudad': ciudad,
    'Dependencia': dependencia,
    'Sede': sede,
    'Cargo_Empleado': cargo_empleado,
    'Contrato': num_contrato,
    'Area': area,
    'Grado': grado,
    'Ingresos': ingresos,
    'Capacidad_Endeudamiento': capacidad_endeudamiento,
    'Banco': banco,
    'Tipo_Cuenta': tipo_cuenta,
    'Numero_Cuenta': cuenta_bancaria,
    'Neto_Pagar': neto_pagar
}
display(dic_desprendible)

{'Periodo_de_Pago': '01-Nov-23  a  30-Nov-23',
 'Año': 2023,
 'Mes': 'Nov',
 'Num_Doc_Empleado': 10000009,
 'Nombre_Empleado': 'Camila Rondón',
 'Ciudad': 'Bogotá',
 'Dependencia': 'Proyección Corp.',
 'Sede': 'Sede Norte',
 'Cargo_Empleado': 'Ejecutiva',
 'Contrato': '01-2021',
 'Area': 'Gerencia',
 'Grado': 1,
 'Ingresos': 5500000,
 'Capacidad_Endeudamiento': 2500000,
 'Banco': 'Mi Banquito 1',
 'Tipo_Cuenta': 'Ahorros',
 'Numero_Cuenta': 464646464,
 'Neto_Pagar': 5640000.0}

In [29]:
pos_egresos = texto.find("Egresos")
pos_totales = texto.find("Totales")
cadena_conceptos_valores = texto[pos_egresos + 9: pos_totales - 2]
display(cadena_conceptos_valores)

'COD2 \nCONCEPTO NO. 2 \n \n \n300,000.00 \n \nCOD3 \nCONCEPTO NO. 3 \n \n \n200,000.00 \n \nCOD4 \nCONCEPTO NO. 4 \n \n \n5,500,000.00 \n \nCOD5 \nCONCEPTO NO. 5 \n \n \n \n50,000.00 \nCOD6 \nCONCEPTO NO. 6 \n \n \n \n50,000.00 \nCOD4 \nCONCEPTO NO. 4 \n \n \n \n50,000.00 \nCOD7 \nCONCEPTO NO. 7 \n \n \n \n60,000.00 \nCOD4 \nCONCEPTO NO. 4 \n \n \n \n50,000.00 \nCOD9 \nCONCEPTO NO. 9 \n \n \n \n100,000.00'

In [30]:
cadena_conceptos_valores = re.sub(r'\n(\s*\n)+', '\n', cadena_conceptos_valores) # la expresión regular busca patrones en los que haya uno o más saltos de línea seguidos por cero o más caracteres de espacio en blanco.
display(cadena_conceptos_valores)

'COD2 \nCONCEPTO NO. 2 \n300,000.00 \nCOD3 \nCONCEPTO NO. 3 \n200,000.00 \nCOD4 \nCONCEPTO NO. 4 \n5,500,000.00 \nCOD5 \nCONCEPTO NO. 5 \n50,000.00 \nCOD6 \nCONCEPTO NO. 6 \n50,000.00 \nCOD4 \nCONCEPTO NO. 4 \n50,000.00 \nCOD7 \nCONCEPTO NO. 7 \n60,000.00 \nCOD4 \nCONCEPTO NO. 4 \n50,000.00 \nCOD9 \nCONCEPTO NO. 9 \n100,000.00'

In [31]:
# Realiza sustituciones y ajustes en el texto
subs = [
    ('\nde concepto muy largo', ' de concepto muy largo')
       ]

for old, new in subs:
                cadena_conceptos_valores = cadena_conceptos_valores.replace(old, new)

display(cadena_conceptos_valores)

'COD2 \nCONCEPTO NO. 2 \n300,000.00 \nCOD3 \nCONCEPTO NO. 3 \n200,000.00 \nCOD4 \nCONCEPTO NO. 4 \n5,500,000.00 \nCOD5 \nCONCEPTO NO. 5 \n50,000.00 \nCOD6 \nCONCEPTO NO. 6 \n50,000.00 \nCOD4 \nCONCEPTO NO. 4 \n50,000.00 \nCOD7 \nCONCEPTO NO. 7 \n60,000.00 \nCOD4 \nCONCEPTO NO. 4 \n50,000.00 \nCOD9 \nCONCEPTO NO. 9 \n100,000.00'

In [32]:
lista_conceptos_valores = cadena_conceptos_valores.split(' \n')
display(lista_conceptos_valores)

['COD2',
 'CONCEPTO NO. 2',
 '300,000.00',
 'COD3',
 'CONCEPTO NO. 3',
 '200,000.00',
 'COD4',
 'CONCEPTO NO. 4',
 '5,500,000.00',
 'COD5',
 'CONCEPTO NO. 5',
 '50,000.00',
 'COD6',
 'CONCEPTO NO. 6',
 '50,000.00',
 'COD4',
 'CONCEPTO NO. 4',
 '50,000.00',
 'COD7',
 'CONCEPTO NO. 7',
 '60,000.00',
 'COD4',
 'CONCEPTO NO. 4',
 '50,000.00',
 'COD9',
 'CONCEPTO NO. 9',
 '100,000.00']

In [33]:
# Tiene dos conceptos diefrenciadores
if 'COD4' in lista_conceptos_valores:
    concepto_diferenciador = 'COD4'
elif 'COD3' in lista_conceptos_valores:
    concepto_diferenciador = 'COD3'

In [34]:
# El concepto_diferenciador es el último código con Ingersos, después están los códigos con Egresos
pos_concepto_diferenciador = lista_conceptos_valores.index(concepto_diferenciador)
display(pos_concepto_diferenciador)

6

## La siguiente celda fue modificada, en comparación con el notebook PoC-4

In [35]:
dic_conceptos_valores = {}

# Crea un diccionario con los códigos y valores, el cual se adiciona al diccionario anterior.
# Los valores se suman, siempre y cuando ambos códigos sean del mismo tipo, es decir, sean o ingresos 
# o egresos, pero sí hay de los dos tipos, se crea una columna adicional para el código del tipo Egreso
for pos_dato in range(0, len(lista_conceptos_valores), 3):
    codigo_concepto = lista_conceptos_valores[pos_dato]
    #nombre_concepto = lista[pos_dato + 1]
    valor_concepto = float(lista_conceptos_valores[pos_dato + 2].replace(',', ''))

    if pos_dato <= pos_concepto_diferenciador:
        dic_conceptos_valores[codigo_concepto] = valor_concepto + dic_conceptos_valores.get(codigo_concepto, 0)
        
    else:
        # El else es para los Egresos, por lo tanto, en el siguiente if, se evalua sí el concepto actual
        # no existe o existe solo como egreso. Sí existe como ingreso, crea una columna nueva, con el 
        # código actual y la letra (E), que indica que es Egreso
        if dic_conceptos_valores.get(codigo_concepto, 0) <= 0:
            dic_conceptos_valores[codigo_concepto] = (valor_concepto * -1) + dic_conceptos_valores.get(codigo_concepto, 0)
        else:
            codigo_concepto += ' (E)' 
            dic_conceptos_valores[codigo_concepto] = (valor_concepto * -1) + dic_conceptos_valores.get(codigo_concepto, 0)

    dic_desprendible |= dic_conceptos_valores   #dic_desprendible.update(dic_conceptos_valores)
    
display(dic_desprendible)

{'Periodo_de_Pago': '01-Nov-23  a  30-Nov-23',
 'Año': 2023,
 'Mes': 'Nov',
 'Num_Doc_Empleado': 10000009,
 'Nombre_Empleado': 'Camila Rondón',
 'Ciudad': 'Bogotá',
 'Dependencia': 'Proyección Corp.',
 'Sede': 'Sede Norte',
 'Cargo_Empleado': 'Ejecutiva',
 'Contrato': '01-2021',
 'Area': 'Gerencia',
 'Grado': 1,
 'Ingresos': 5500000,
 'Capacidad_Endeudamiento': 2500000,
 'Banco': 'Mi Banquito 1',
 'Tipo_Cuenta': 'Ahorros',
 'Numero_Cuenta': 464646464,
 'Neto_Pagar': 5640000.0,
 'COD2': 300000.0,
 'COD3': 200000.0,
 'COD4': 5500000.0,
 'COD5': -50000.0,
 'COD6': -50000.0,
 'COD4 (E)': -100000.0,
 'COD7': -60000.0,
 'COD9': -100000.0}

In [36]:
df_desprendible = pd.DataFrame.from_dict([dic_desprendible])
display(df_desprendible)

Unnamed: 0,Periodo_de_Pago,Año,Mes,Num_Doc_Empleado,Nombre_Empleado,Ciudad,Dependencia,Sede,Cargo_Empleado,Contrato,...,Numero_Cuenta,Neto_Pagar,COD2,COD3,COD4,COD5,COD6,COD4 (E),COD7,COD9
0,01-Nov-23 a 30-Nov-23,2023,Nov,10000009,Camila Rondón,Bogotá,Proyección Corp.,Sede Norte,Ejecutiva,01-2021,...,464646464,5640000.0,300000.0,200000.0,5500000.0,-50000.0,-50000.0,-100000.0,-60000.0,-100000.0


In [37]:
# Crea una columna que suma todos los valores de los conceptos de la fila y luego la compara con el 
# valor extraido del desprendible, generando una columna de comprobación que indica si los valores 
# coinciden, indicando Correcto, en caso contrario Error
columna_inicial_concepto = df_desprendible.columns.get_loc('Neto_Pagar') + 1
columna_final_concepto = df_desprendible.shape[1]
columnas_conceptos = df_desprendible.iloc[:, columna_inicial_concepto: columna_final_concepto]
df_desprendible['Valor_Pagar_Calculado'] = columnas_conceptos.sum(axis=1)
df_desprendible['Comprobacion'] = np.where(df_desprendible['Neto_Pagar'] == df_desprendible['Valor_Pagar_Calculado'], 'Correcto', 'Error')
display(df_desprendible)

Unnamed: 0,Periodo_de_Pago,Año,Mes,Num_Doc_Empleado,Nombre_Empleado,Ciudad,Dependencia,Sede,Cargo_Empleado,Contrato,...,COD2,COD3,COD4,COD5,COD6,COD4 (E),COD7,COD9,Valor_Pagar_Calculado,Comprobacion
0,01-Nov-23 a 30-Nov-23,2023,Nov,10000009,Camila Rondón,Bogotá,Proyección Corp.,Sede Norte,Ejecutiva,01-2021,...,300000.0,200000.0,5500000.0,-50000.0,-50000.0,-100000.0,-60000.0,-100000.0,5640000.0,Correcto
