In [1]:
import os, re
from pypdf import PdfReader
from config import DOWNLOAD_PATH

##TODO: remove from here
pdf_files = [os.path.join(DOWNLOAD_PATH, file) for file in os.listdir(DOWNLOAD_PATH) if file.endswith('.pdf')]

def extract_text(pdf_files: list) -> dict:
    # PDF files data extraction
    extractions_dict = {}
    for pdf_file in pdf_files:
        reader = PdfReader(pdf_file)
        text = ''.join([page.extract_text() for page in reader.pages])
        extractions_dict[os.path.basename(pdf_file)] = {"text": text}
    
    return extractions_dict


def extract_annotations(pdf_files: list) -> dict:
    # PDF files annotations extraction
    extractions_dict = {}
    for pdf_file in pdf_files:
        reader = PdfReader(pdf_file)
        annotations_list = []

        for page in reader.pages:
            if "/Annots" in page:
                for annot in page["/Annots"]:
                    obj = annot.get_object()
                    annotation = {"subtype": obj["/Subtype"], "location": obj["/Rect"]}
                    annotations_list.append(annotation)

        extractions_dict[os.path.basename(pdf_file)] = annotations_list

    return extractions_dict


def extract_unique_characters(pdf_files: list) -> dict:
    # PDF files data extraction
    extractions_dict = {}
    for pdf_file in pdf_files:
        reader = PdfReader(pdf_file)
        text = ''.join([page.extract_text() for page in reader.pages])
        characteristics = {"characters": sorted(set(text))}
        extractions_dict[os.path.basename(pdf_file)] = characteristics
        
    return extractions_dict


def extract_uppercase_lines(pdf_files: list) -> dict:
    # PDF files data extraction
    extractions_dict = {}
    for pdf_file in pdf_files:
        reader = PdfReader(pdf_file)
        characteristics = {"uppercase_lines": []}

        for page in reader.pages:
            text = page.extract_text()

            # Obtain the uppercase lines in the text
            uppercase_lines = [line.strip() for line in text.split("\n") if line.isupper()]
            characteristics["uppercase_lines"].extend(uppercase_lines)

        # Results storage
        extractions_dict[os.path.basename(pdf_file)] = characteristics
        
    return extractions_dict


def count_patterns(pdf_files: list, pattern: str, normalize: bool=False) -> dict:
    # WARNING: Case Sensitive
    extraction_dict = {}
    for pdf_file in pdf_files:
        characteristics = {}
        reader = PdfReader(pdf_file)
        text = ''.join([page.extract_text() for page in reader.pages])
        if normalize:
            text = text.lower()
            pattern = pattern.lower()
        matches = re.findall(r'\b' + pattern + r'\b', text)
        characteristics[f"count_{pattern}"] = len(matches)
        extraction_dict[os.path.basename(pdf_file)] = characteristics
    
    return extraction_dict
    

def count_pages(pdf_files: list) -> dict:
    # PDF files pages count
    extractions_dict = {}
    for pdf_file in pdf_files:
        characteristics = {}
        reader = PdfReader(pdf_file)
        characteristics["pages"] = len(reader.pages)
        extractions_dict[os.path.basename(pdf_file)] = characteristics
    
    return extractions_dict

In [2]:
[pdf_files[0]]

['c:\\Users\\Agustin\\Proyectos_2024\\AnyoneAI-TPF\\database\\queplan_insurance\\POL120190177.pdf']

In [3]:
text = extract_text([pdf_files[0]])
result_2 = extract_annotations([pdf_files[0]])
result_3 = extract_unique_characters([pdf_files[0]])
result_4 = extract_uppercase_lines([pdf_files[0]])
result_5_1 = count_patterns([pdf_files[0]], "Cobertura")
result_5_2 = count_patterns([pdf_files[0]], "Cobertura", normalize=True)
result_6 = count_pages([pdf_files[0]])

In [6]:
dic = text["POL120190177.pdf"]
doc = dic["text"]
doc

'PÓLIZA DE ACCIDENTES PERSONALES / REEMBOLSO GASTOS MÉDICOS\nIncorporada al Depósito de Pólizas bajo el código POL120190177\nARTÍCULO 1°: REGLAS APLICABLES AL CONTRATO\nSe aplicarán al presente contrato de seguro las disposiciones contenidas en los artículos siguientes y las\nnormas legales de carácter imperativo establecidas en el título VIII, del Libro II, del Código de Comercio. Sin\nembargo, se entenderán válidas las estipulaciones contractuales que sean más beneficiosas para el\nasegurado o el beneficiario.\nARTÍCULO 2º: COBERTURA Y MATERIA ASEGURADA\nLa Compañía Aseguradora reembolsará al asegurado o pagará directamente al prestador de salud los\nGastos Médicos Razonables y Acostumbrados y Efectivamente Incurridos, una vez se haya otorgado y\npagado la cobertura del sistema de salud previsional, seguros complementarios u otros beneficios\ncontratados por el asegurado. Lo anterior, cuando al asegurado le ocurra un accidente durante la vigencia de\nesta póliza que demande su intern

In [8]:
doc.splitlines()


['PÓLIZA DE ACCIDENTES PERSONALES / REEMBOLSO GASTOS MÉDICOS',
 'Incorporada al Depósito de Pólizas bajo el código POL120190177',
 'ARTÍCULO 1°: REGLAS APLICABLES AL CONTRATO',
 'Se aplicarán al presente contrato de seguro las disposiciones contenidas en los artículos siguientes y las',
 'normas legales de carácter imperativo establecidas en el título VIII, del Libro II, del Código de Comercio. Sin',
 'embargo, se entenderán válidas las estipulaciones contractuales que sean más beneficiosas para el',
 'asegurado o el beneficiario.',
 'ARTÍCULO 2º: COBERTURA Y MATERIA ASEGURADA',
 'La Compañía Aseguradora reembolsará al asegurado o pagará directamente al prestador de salud los',
 'Gastos Médicos Razonables y Acostumbrados y Efectivamente Incurridos, una vez se haya otorgado y',
 'pagado la cobertura del sistema de salud previsional, seguros complementarios u otros beneficios',
 'contratados por el asegurado. Lo anterior, cuando al asegurado le ocurra un accidente durante la vigencia de'

In [None]:
# Primera exploración visual
"""
'ARTÍCULO 1°: REGLAS APLICABLES AL CONTRATO',
 'ARTÍCULO 2º: COBERTURA Y MATERIA ASEGURADA',
 'ARTÍCULO 3°: LIMITACIONES DE LAS COBERTURAS',
'ARTÍCULO 4º: DEFINICIONES',
 'ARTÍCULO 5º: EXCLUSIONES',
 'ARTÍCULO 6°: OBLIGACIONES DEL ASEGURADO',
 'ARTÍCULO 7°: DECLARACIONES DEL CONTRATANTE Y DEL ASEGURADO',
  'ARTÍCULO 8º: PRIMAS Y EFECTO DEL NO PAGO DE LA PRIMA',
   'ARTÍCULO 9º: DENUNCIA DE SINIESTRO ',
   'ARTÍCULO 10°: CALCULO DE LOS GASTOS REEMBOLSABLES',
    'ARTÍCULO 11°: LIQUIDACIÓN DE LOS GASTOS, FORMA DE PAGO Y MONTO MÁXIMO DE GASTOS',
 'REEMBOLSABLES',
 'ARTÍCULO 12°: APLICACIÓN DEL DEDUCIBLE',
   'ARTÍCULO 13°: VIGENCIA Y DURACIÓN DEL CONTRATO DE SEGURO',
   'ARTÍCULO 14°: INCORPORACIÓN DE ASEGURADOS E INICIO DE LA VIGENCIA DE LA COBERTURA',
 'INDIVIDUAL',
    'ARTÍCULO 15°: TERMINACIÓN DEL CONTRATO',
    
    'ARTÍCULO 16º: AJUSTE DE LA PRIMA ->  'ARTÍCULO 16º: AJUSTE DE LA PRIMAEn el evento que...
   
    'ARTÍCULO 17°: MONEDA O UNIDAD DEL CONTRATO',
    'ARTICULO 18°: REHABILITACIÓN DE LA PÓLIZA',
     'ARTÍCULO 19º: CONTRIBUCIONES E IMPUESTOS ',
     ARTÍCULO 20º: COMUNICACIÓN ENTRE LAS PARTES',
     'ARTÍCULO 21º: SOLUCIÓN DE CONTROVERSIAS',
     'ARTÍCULO 22º: CLÁUSULAS ADICIONALES',
     'ARTÍCULO 23°: DOMICILIO',
     
""";
# A pesar de una línea que require mayor inspección todas las demás responden a determinados patrones
# mayusculas 
# la palabra "ARTÍCULO" seguida de un número
# ...

In [5]:
result_2

{'POL120190177.pdf': []}

In [6]:
result_3

{'POL120190177.pdf': {'characters': ['\n',
   ' ',
   '"',
   '(',
   ')',
   ',',
   '-',
   '.',
   '/',
   '0',
   '1',
   '2',
   '3',
   '4',
   '5',
   '6',
   '7',
   '8',
   '9',
   ':',
   ';',
   'A',
   'B',
   'C',
   'D',
   'E',
   'F',
   'G',
   'H',
   'I',
   'J',
   'L',
   'M',
   'N',
   'O',
   'P',
   'Q',
   'R',
   'S',
   'T',
   'U',
   'V',
   'X',
   'Y',
   'Z',
   'a',
   'b',
   'c',
   'd',
   'e',
   'f',
   'g',
   'h',
   'i',
   'j',
   'k',
   'l',
   'm',
   'n',
   'o',
   'p',
   'q',
   'r',
   's',
   't',
   'u',
   'v',
   'w',
   'x',
   'y',
   'z',
   '°',
   'º',
   'Á',
   'É',
   'Í',
   'Ó',
   'á',
   'é',
   'í',
   'ñ',
   'ó',
   'ú']}}

In [7]:
result_4

{'POL120190177.pdf': {'uppercase_lines': ['PÓLIZA DE ACCIDENTES PERSONALES / REEMBOLSO GASTOS MÉDICOS',
   'ARTÍCULO 1°: REGLAS APLICABLES AL CONTRATO',
   'ARTÍCULO 3°: LIMITACIONES DE LAS COBERTURAS',
   'ARTÍCULO 6°: OBLIGACIONES DEL ASEGURADO',
   'ARTÍCULO 7°: DECLARACIONES DEL CONTRATANTE Y DEL ASEGURADO',
   'ARTÍCULO 10°: CALCULO DE LOS GASTOS REEMBOLSABLES',
   'ARTÍCULO 11°: LIQUIDACIÓN DE LOS GASTOS, FORMA DE PAGO Y MONTO MÁXIMO DE GASTOS',
   'REEMBOLSABLES',
   'ARTÍCULO 12°: APLICACIÓN DEL DEDUCIBLE',
   'ARTÍCULO 13°: VIGENCIA Y DURACIÓN DEL CONTRATO DE SEGURO',
   'ARTÍCULO 14°: INCORPORACIÓN DE ASEGURADOS E INICIO DE LA VIGENCIA DE LA COBERTURA',
   'INDIVIDUAL',
   'ARTÍCULO 15°: TERMINACIÓN DEL CONTRATO',
   'ARTÍCULO 17°: MONEDA O UNIDAD DEL CONTRATO',
   'ARTICULO 18°: REHABILITACIÓN DE LA PÓLIZA',
   'ARTÍCULO 23°: DOMICILIO']}}

In [8]:
result_5_1

{'POL120190177.pdf': {'count_Cobertura': 2}}

In [9]:
result_5_2

{'POL120190177.pdf': {'count_cobertura': 21}}

In [10]:
result_6

{'POL120190177.pdf': {'pages': 14}}