# Librerías

In [79]:
import cv2
import pickle
from tqdm import tqdm
import numpy as np
import pytesseract
from matplotlib import pyplot as plt
from pdf2image import convert_from_path

# Útiles

In [81]:
def convert_multiple_pages(pages: list) -> str:
    """ 
    Convierte en texto las imagenes de un pdf

    input:
    - pages: lista con imagenes del pdf

    output:
    - texto_completo: str con el texto leído de las imagenes separadas por $$$$$
    """
    texto_completo = ''

    for page in tqdm(pages):
        im_convert = cv2.cvtColor(np.array(page), cv2.COLOR_BGR2GRAY)
        text = pytesseract.image_to_string(im_convert)

        texto_completo += '\n\n$$$$$$$$$$$\n\n' + text

    return texto_completo

# Lectura de datos

In [82]:
# Read image from which text needs to be extracted
pages = convert_from_path('../data/Constitución de 1991_Ikun (Arhuaco).pdf')

In [83]:
primera_parte_A = pages[8:21]
primera_parte_B = pages[22:58]
lexico = pages[60:62]

articulos_traduccion = pages[84:117] 
glosario = pages[118:124]

# Pasar a texto

In [84]:
# Pasar a texto

texto_primera_parte_A = convert_multiple_pages(primera_parte_A)
texto_primera_parte_B = convert_multiple_pages(primera_parte_B)

texto_lexico = convert_multiple_pages(lexico)

texto_articulos_traduccion = convert_multiple_pages(articulos_traduccion)
texto_glosario = convert_multiple_pages(glosario)

100%|██████████| 13/13 [00:11<00:00,  1.13it/s]
100%|██████████| 36/36 [00:24<00:00,  1.50it/s]
100%|██████████| 2/2 [00:01<00:00,  1.36it/s]
100%|██████████| 33/33 [00:45<00:00,  1.38s/it]
100%|██████████| 6/6 [00:05<00:00,  1.03it/s]


In [85]:
texto = {
    'texto_primera_parte_A': texto_primera_parte_A,
    'texto_primera_parte_B': texto_primera_parte_B,
    'texto_lexico': texto_lexico,
    'texto_articulos_traduccion': texto_articulos_traduccion,
    'texto_glosario': texto_glosario
}

In [86]:
# Guardar en formato pickle

with open('../data/ocr_constitucion_arhuaco/conversion.pickle', 'wb') as f:
    pickle.dump(texto, f)