# Librerías

In [66]:
import cv2
import pickle
import re
from tqdm import tqdm
import numpy as np
import pytesseract
from matplotlib import pyplot as plt
from pdf2image import convert_from_path

# Útiles

In [81]:
def convert_multiple_pages(pages: list) -> str:
    """ 
    Convierte en texto las imagenes de un pdf

    input:
    - pages: lista con imagenes del pdf

    output:
    - texto_completo: str con el texto leído de las imagenes separadas por $$$$$
    """
    texto_completo = ''

    for page in tqdm(pages):
        im_convert = cv2.cvtColor(np.array(page), cv2.COLOR_BGR2GRAY)
        text = pytesseract.image_to_string(im_convert)

        texto_completo += '\n\n$$$$$$$$$$$\n\n' + text

    return texto_completo

# Lectura de datos

In [82]:
# Read image from which text needs to be extracted
pages = convert_from_path('../data/Constitución de 1991_Ikun (Arhuaco).pdf')

In [83]:
primera_parte_A = pages[8:21]
primera_parte_B = pages[22:58]
lexico = pages[60:62]

articulos_traduccion = pages[84:117] 
glosario = pages[118:124]

# Pasar a texto

In [84]:
# Pasar a texto

texto_primera_parte_A = convert_multiple_pages(primera_parte_A)
texto_primera_parte_B = convert_multiple_pages(primera_parte_B)

texto_lexico = convert_multiple_pages(lexico)

texto_articulos_traduccion = convert_multiple_pages(articulos_traduccion)
texto_glosario = convert_multiple_pages(glosario)

100%|██████████| 13/13 [00:11<00:00,  1.13it/s]
100%|██████████| 36/36 [00:24<00:00,  1.50it/s]
100%|██████████| 2/2 [00:01<00:00,  1.36it/s]
100%|██████████| 33/33 [00:45<00:00,  1.38s/it]
100%|██████████| 6/6 [00:05<00:00,  1.03it/s]


In [85]:
texto = {
    'texto_primera_parte_A': texto_primera_parte_A,
    'texto_primera_parte_B': texto_primera_parte_B,
    'texto_lexico': texto_lexico,
    'texto_articulos_traduccion': texto_articulos_traduccion,
    'texto_glosario': texto_glosario
}

In [86]:
# Guardar en formato pickle

with open('../data/ocr_constitucion_arhuaco/conversion.pickle', 'wb') as f:
    pickle.dump(texto, f)

# Estructura - Texto lexico

En esta parte no se puede difernecias cuando se pasa a otra palabra exactamente en la parte de Arahuaco entonces relizaremos una parte manual para tener bien nuestro dataset

In [115]:
with open('/Users/frubana/Desktop/NLP/ProyectoNLP/data/ocr_constitucion_arhuaco/conversion.pickle', 'rb') as archivo:
    # Carga los datos desde el archivo pickle
    texto = pickle.load(archivo)

In [116]:
texto.keys()

dict_keys(['texto_primera_parte_A', 'texto_primera_parte_B', 'texto_lexico', 'texto_articulos_traduccion', 'texto_glosario'])

In [117]:
lexico = texto['texto_lexico']
esp = lexico.split('\n69')[0].split('\nCASTELLANO\n')[1]
iken = lexico.split('\n69')[0].split('\nCASTELLANO\n')[0]

In [118]:
iken

"\n\n$$$$$$$$$$$\n\nIKEN .\n\nBirin zanv pinnazey nari inwki eyki chuzdéneya\nDiwén diwin winnenanvydy dakweya\n\nDiwan diwan winnenanuydy akwey zoya\nDiwén diwan arufiey awa re'muga\nre'béakumey zoya\n\nDu kawi ga'kunamu wésuya\n\nEnanuyd4y\n\nEytiwe ikwey ka'gume re‘kumana\nGa'kanama abunna zukuta\n\nGa'kunamy sumy neyka zaka'chésuya\nGa'kunamy sump na'ba agagiikuya\n\nG.ij.z. (Ga'kuname i'ngwijuna zaka'chésuya)\nG.ij.z. mend ndnukin wazweingwa neyka\nGwamy guga\n\nGwamw guga guwa umin a'zuna\n\nGwamwu guga gawuydrigun\n\nGwamu guga gawuya-jina\n\nGwamua guga guwa awd a'zuna\n\nGwamu guga zukuta\n\nGwamwu guga zukuta ka'gumu re'kumey\nzoya si wasuya\n\nGwamy yeyka unchufiwn gwdsuyajina\nGwamw guga unchuitdsuya\nGwamu guga unchuitwya re'zugurusi zoya\n\nI'ngweti i‘ngweti menanuydy mikundnuya\nneyka\n\nInu ikumey zweingwa du kawi ga‘kanama\nwésuyajina\n\nKa'se' inu a'chuiakumuyeykazey nari,jwi\nanni'kumyyari\n\nKa'gumy awd re'kumana'ba windiiunni'sana\nKa'gume fkuzey re'kumana\n"

In [119]:
esp = esp[esp.index('patrimonio'):]
esp = esp.replace('\n\n','\n').split("\n")

In [120]:
esp

['patrimonio arqueolégico',
 'diversidad étnica y cultural',
 'grupos étnicos',
 'minorias politicas',
 'consejero',
 'derecho',
 'parques naturales',
 'Constitucién Politica',
 'titulo',
 'capitulo',
 'articulo',
 'articulo transitorio',
 'ley',
 'senador',
 'rama legislativa',
 'cuerpo legislativo o congresistas',
 'Representante a la Camara',
 'Ley Organica',
 'Ley Organica de Ordenamiento',
 'Territorial',
 'cuerpo ejecutivo',
 'decreto',
 'resolucién',
 'los derechos de las personas',
 'consejo consultivo',
 'regalias',
 'reunién de municipios (provincia)',
 'territorio indigena',
 '']

In [121]:
iken = iken[iken.index('Birin'):]
iken = iken.replace('\n\n','\n').split("\n")
iken

['Birin zanv pinnazey nari inwki eyki chuzdéneya',
 'Diwén diwin winnenanvydy dakweya',
 'Diwan diwan winnenanuydy akwey zoya',
 "Diwén diwan arufiey awa re'muga",
 "re'béakumey zoya",
 "Du kawi ga'kunamu wésuya",
 'Enanuyd4y',
 "Eytiwe ikwey ka'gume re‘kumana",
 "Ga'kanama abunna zukuta",
 "Ga'kunamy sumy neyka zaka'chésuya",
 "Ga'kunamy sump na'ba agagiikuya",
 "G.ij.z. (Ga'kuname i'ngwijuna zaka'chésuya)",
 'G.ij.z. mend ndnukin wazweingwa neyka',
 'Gwamy guga',
 "Gwamw guga guwa umin a'zuna",
 'Gwamwu guga gawuydrigun',
 'Gwamu guga gawuya-jina',
 "Gwamua guga guwa awd a'zuna",
 'Gwamu guga zukuta',
 "Gwamwu guga zukuta ka'gumu re'kumey",
 'zoya si wasuya',
 'Gwamy yeyka unchufiwn gwdsuyajina',
 'Gwamw guga unchuitdsuya',
 "Gwamu guga unchuitwya re'zugurusi zoya",
 "I'ngweti i‘ngweti menanuydy mikundnuya",
 'neyka',
 'Inu ikumey zweingwa du kawi ga‘kanama',
 'wésuyajina',
 "Ka'se' inu a'chuiakumuyeykazey nari,jwi",
 "anni'kumyyari",
 "Ka'gumy awd re'kumana'ba windiiunni'sana",
 "Ka

In [122]:
lexico = texto['texto_lexico']
esp = lexico.split('\n69')[1].split('\nCASTELLANO\n')[1]
iken = lexico.split('\n69')[1].split('\nCASTELLANO\n')[0]

In [123]:
esp = esp[esp.index('Comisién'):]
esp = esp.replace('\n\n','\n').split("\n")
esp

['Comisién de Ordenamiento',
 'Territorial',
 'estado',
 'cédula de ciudadania',
 'indocumentado',
 'acci6n de tutela',
 'persona con doble nacionalidad',
 'nuestro pais (Colombia)',
 'nuestro territorio (Linea Negra)',
 'cuerpo jurisdiccional (juez)',
 'departamento',
 'municipio',
 'empleado piiblico',
 'accién popular',
 'plan o programa de desarrollo',
 'concejales',
 'miembros de las asambleas',
 'departamentales',
 'autoridad del departamento',
 '(Gobernador)',
 'autoridad del municipio (Alcalde)',
 'ciudadano',
 '']

In [124]:
iken = iken[iken.index("Ka'guma"):]
iken = iken.replace('\n\n','\n').split("\n")
iken

["Ka'guma re‘kumungwa'ba chwi winzwein",
 'nikuyajina',
 "Kuma'pinre’tana",
 "Jwa'kumukweyna",
 "Jwa'kumukweyna kuna’ neyka",
 'Michwi Enanay4y Winikwuya',
 "Mu'bajwa'kumukwéy neyka kundnuya",
 "Niwi ka'-jome riwen",
 "Niwi U'meke",
 "No'ku' neykazey, a'tuhuyeykazey",
 'gwame gwdkuya',
 "(Niwi ka'jome riwun) ka'gumy re'kumana",
 'umiin zauna',
 "(Niwi ka'jome riwen) ka'gumy re'kumana",
 'awa zuna',
 "Re'masi neyka ka'mukanungwasi iku",
 "a'chuhakumana",
 "Re'masi Neykazey Nari Nanaydy Winikwuya",
 'Rifawazori awungwa neyka',
 "Sakuku dikin wina'zuna awa re'kumana'ba zanu",
 "Sakuku dikin wina'zana umért awutari",
 "re'kumana'ba zane",
 "Sakuku ka'gume umn awutari re'kumana'ba",
 'zane',
 "Sakuku ka'gume awd re‘kumana'ba zanu",
 "Umi a'zuna-jwa'kumukwéy neyka kundneya",
 '70',
 '']

In [125]:
lexico = {'patrimonio arqueolégico': 'Birin zanv pinnazey nari inwki eyki chuzdéneya',
          'diversidad étnica y cultural': "Diwun diwun winnenanuyay akwuya",
          'grupos étnicos': 'Diwan diwan winnenanuydy akwey zoya',
          'minorias politicas': "Diwén diwan arufiey awa re'muga re'béakumey zoya",
          'consejero': "Du kawi ga'kunamu wésuya",
          'derecho': 'Enanuyay',
          'parques naturales': "Eytiwe ikwey ka'gume re‘kumana",
          'Constitucién Politica': "Ga'kanama abunna zukuta",
          'titulo': "Ga'kunamy sumy neyka zaka'chésuya",
          'capitulo':"Ga'kunamy sump na'ba agagiikuya",
          'articulo': "G.ij.z. (Ga'kuname i'ngwijuna zaka'chésuya)",
          'articulo transitorio': 'G.ij.z. mend ndnukin wazweingwa neyka',
          'ley': 'Gwamy guga',
          'senador': "Gwamw guga guwa umin a'zuna",
          'rama legislativa': 'Gwamwu guga gawuydrigun',
          'cuerpo legislativo o congresistas': 'Gwamu guga gawuya-jina',
          'Representante a la Camara': "Gwamua guga guwa awd a'zuna",
          'Ley Organica': 'Gwamu guga zukuta',
         'Ley Organica de Ordenamiento Territorial': "Gwamwu guga zukuta ka'gumu re'kumey zoya si wasuya",
         'cuerpo ejecutivo': 'Gwamy yeyka unchufiwn gwdsuyajina',
         'decreto': 'Gwamw guga unchuitdsuya',
         'resolucién': "Gwamu guga unchuitwya re'zugurusi zoya",
         'los derechos de las personas': "I'ngweti i‘ngweti menanuydy mikundnuya neyka",
         'consejo consultivo': 'Inu ikumey zweingwa du kawi ga‘kanama wésuyajina',
         'regalias': "Ka'se' inu a'chuiakumuyeykazey nari,jwi anni'kumyyari",
         'reunién de municipios (provincia)': "Ka'gumy awd re'kumana'ba windiiunni'sana",
         'territorio indigena': "Ka'gume fkuzey re'kumana",
         'Comision de Ordenamiento Territorial': "Ka'guma re‘kumungwa'ba chwi winzwein nikuyajina",
         'estado': "Kuma'pinre’tana",
         'cédula de ciudadania': "Jwa'kumukweyna",
         'indocumentado': "Jwa'kumukweyna kuna’ neyka",
         'accion de tutela': 'Michwi Enanuyay Winikwuya',
         'persona con doble nacionalidad': "Mu'bajwa'kumukwéy neyka kundnuya",
         'nuestro pais (Colombia)': "Niwi ka'-jome riwen",
         'nuestro territorio (Linea Negra)': "Niwi U'meke",
         'cuerpo jurisdiccional (juez)': "No'ku' neykazey, a'tuhuyeykazey gwame gwdkuya",
         'departamento': "(Niwi ka'jome riwun) ka'gumy re'kumana  umiin zauna",
         'municipio': "(Niwi ka'jome riwen) ka'gumy re'kumana awuzuna",
         'empleado publico': "Re'masi neyka ka'mukanungwasi iku a'chuhakumana",
         'accion popular': "Re'masi Neykazey Nari Nanaydy Winikwuya",
         'plan o programa de desarrollo': 'Rifawazori awungwa neyka',
         'concejales':  "Sakuku dikin wina'zuna awa re'kumana'ba zanu",
         'miembros de las asambleas departamentales': "Sakuku dikin wina'zana umért awutari re'kumana'ba zane",
         'autoridad del departamento (Gobernador)': "Sakuku ka'gume umn awutari re'kumana'ba zanu",
         'autoridad del municipio (Alcalde)': "Sakuku ka'gume awd re‘kumana'ba zanu",
         'ciudadano': "Umi a'zuna-jwa'kumukwéy neyka kundneya"
         }

In [126]:
len(lexico)

46

In [127]:
corpus_constitucion = []

for key_w, value_e in lexico.items():
    corpus_constitucion.append({'arahuaco': value_e, 'esp': key_w})

In [128]:
corpus_constitucion

[{'arahuaco': 'Birin zanv pinnazey nari inwki eyki chuzdéneya',
  'esp': 'patrimonio arqueolégico'},
 {'arahuaco': 'Diwun diwun winnenanuyay akwuya',
  'esp': 'diversidad étnica y cultural'},
 {'arahuaco': 'Diwan diwan winnenanuydy akwey zoya', 'esp': 'grupos étnicos'},
 {'arahuaco': "Diwén diwan arufiey awa re'muga re'béakumey zoya",
  'esp': 'minorias politicas'},
 {'arahuaco': "Du kawi ga'kunamu wésuya", 'esp': 'consejero'},
 {'arahuaco': 'Enanuyay', 'esp': 'derecho'},
 {'arahuaco': "Eytiwe ikwey ka'gume re‘kumana", 'esp': 'parques naturales'},
 {'arahuaco': "Ga'kanama abunna zukuta", 'esp': 'Constitucién Politica'},
 {'arahuaco': "Ga'kunamy sumy neyka zaka'chésuya", 'esp': 'titulo'},
 {'arahuaco': "Ga'kunamy sump na'ba agagiikuya", 'esp': 'capitulo'},
 {'arahuaco': "G.ij.z. (Ga'kuname i'ngwijuna zaka'chésuya)",
  'esp': 'articulo'},
 {'arahuaco': 'G.ij.z. mend ndnukin wazweingwa neyka',
  'esp': 'articulo transitorio'},
 {'arahuaco': 'Gwamy guga', 'esp': 'ley'},
 {'arahuaco': "Gwam

# texto 

In [129]:
with open('/Users/frubana/Desktop/NLP/ProyectoNLP/data/ocr_constitucion_arhuaco/constitucion_esp.pickle', 'rb') as archivo:
    # Carga los datos desde el archivo pickle
    esp = pickle.load(archivo)

In [130]:
esp = esp[esp.index('CARTA DEL SENOR'):]
esp = re.sub(r'(\$\n+)|(\$+)|(\n(?!\n))', '', esp)
esp = esp.split("\n")
esp = [cadena for cadena in esp if not (cadena.isdigit() or cadena == "")]
esp.pop(1)
esp

['CARTA DEL SENOR PRESIDENTE DE LA REPUBLICA DE COLOMBIA',
 'Santafé de Bogotd, Septiembre de 1993',
 'Apreciados amigos:',
 'Al clausurar las sesiones de la Asamblea Nacional Constituyente afirmé que ese dia seiniciaba una nueva era en la historia de Colombia. Esa misma felicidad que desde entoncesanima el coraz6n de los colombianos, esa satisfaccién que sentimos quienes hemos luchadosin tregua por construir una patria abierta a la participacién, que no excluya a nadie, quecobije por igual a pobres y a ricos, a fuertes y a débiles, a los que han sido gestores denuestra historia, cobra un especial sentido con la publicacién de nuestra Carta Magna a sietelenguas indfgenas.',
 'Qué equivocados estaban quienes afirmaron alguna vez que la Constitucién seria un textomuerto. La entrega oficial de esta traducci6n es el resultado de un exhaustivo e intensotrabajo con los representantes de las comunidades indfgenas, en el cual nos hemos nutridode su milenaria sabidurfa, para comprender con ello

In [131]:
iken = texto["texto_primera_parte_A"][texto["texto_primera_parte_A"].index("Gwame ye"):]
iken = re.sub(r'(\$\n+)|(\$+)|(\n(?!\n))', '', iken)
iken = iken.split("\n")
iken = [cadena for cadena in iken if not (cadena.isdigit() or cadena == "")]

iken = [elemento.replace("\'", "'") for elemento in iken]
iken

["Gwame yeyka enchiieya umén a'zuna zuga'kenamu*",
 "Santa Fe de Bogotd, ikawa tima zuna'ba 1993 kugise’.",
 'Miwi, najinukane Jinari:',
 'Ga\'kunama abunna zukutu du unde\'bonungwa nari, Santa Fe de Bogoté unnikumeyazoyanari; wya anukuchuhakumaye\'ri; “iwa-jwia pariri Koronbia zari zweinnugeykaunta\'kumuya kawin", gwaku\' nunkwe. Eyméy zare\' pariri Koronbia re\'masi akweyzoyeykari anugwese\' zeyzey niwe\'zunnari, akin kinki niwe\'zuna ni.',
 "Koronbia akwey zoyari; né6wmusine nuna neyka, chawi a'zari akweya neyka, jumea'nikweya,jume a'niku' neyka, emi dikin ga'kunama kawunka'si, du zdkusi azoyananeykasin, yow; i'ngwi pin kawure'kumey, dikin gwamye angwasi, gunti azweingwasi,anka'mechu' nari zapari zoya una nunkurase'ri, azi niwe'zano: Ga'kunamu abunna zukaturi,iwa koga-juna ga'‘kunamu iky akwey zoyeykase' aseykumuya sfrigun, a'chundkumaawa'bari kwa niwe’zunin niwe'zarfkucha zeyzey niwe'zanna neki kau' nari na ni.",
 '"Ga\'kunama abunna zekete iwa zane neykari, ga’‘kandmekin nari zu\'

In [133]:
for i in range(0,min(len(esp),len(iken))):
    corpus_constitucion.append({"arahuaco": iken[i], "esp": esp[i]})

In [134]:
len(corpus_constitucion)

111

In [135]:
corpus_constitucion

[{'arahuaco': 'Birin zanv pinnazey nari inwki eyki chuzdéneya',
  'esp': 'patrimonio arqueolégico'},
 {'arahuaco': 'Diwun diwun winnenanuyay akwuya',
  'esp': 'diversidad étnica y cultural'},
 {'arahuaco': 'Diwan diwan winnenanuydy akwey zoya', 'esp': 'grupos étnicos'},
 {'arahuaco': "Diwén diwan arufiey awa re'muga re'béakumey zoya",
  'esp': 'minorias politicas'},
 {'arahuaco': "Du kawi ga'kunamu wésuya", 'esp': 'consejero'},
 {'arahuaco': 'Enanuyay', 'esp': 'derecho'},
 {'arahuaco': "Eytiwe ikwey ka'gume re‘kumana", 'esp': 'parques naturales'},
 {'arahuaco': "Ga'kanama abunna zukuta", 'esp': 'Constitucién Politica'},
 {'arahuaco': "Ga'kunamy sumy neyka zaka'chésuya", 'esp': 'titulo'},
 {'arahuaco': "Ga'kunamy sump na'ba agagiikuya", 'esp': 'capitulo'},
 {'arahuaco': "G.ij.z. (Ga'kuname i'ngwijuna zaka'chésuya)",
  'esp': 'articulo'},
 {'arahuaco': 'G.ij.z. mend ndnukin wazweingwa neyka',
  'esp': 'articulo transitorio'},
 {'arahuaco': 'Gwamy guga', 'esp': 'ley'},
 {'arahuaco': "Gwam

In [137]:
with open('constitucion_arahuaco.pickle', 'wb') as archivo_pickle:
    pickle.dump(corpus_constitucion, archivo_pickle)

In [138]:
corpus_constitucion

[{'arahuaco': 'Birin zanv pinnazey nari inwki eyki chuzdéneya',
  'esp': 'patrimonio arqueolégico'},
 {'arahuaco': 'Diwun diwun winnenanuyay akwuya',
  'esp': 'diversidad étnica y cultural'},
 {'arahuaco': 'Diwan diwan winnenanuydy akwey zoya', 'esp': 'grupos étnicos'},
 {'arahuaco': "Diwén diwan arufiey awa re'muga re'béakumey zoya",
  'esp': 'minorias politicas'},
 {'arahuaco': "Du kawi ga'kunamu wésuya", 'esp': 'consejero'},
 {'arahuaco': 'Enanuyay', 'esp': 'derecho'},
 {'arahuaco': "Eytiwe ikwey ka'gume re‘kumana", 'esp': 'parques naturales'},
 {'arahuaco': "Ga'kanama abunna zukuta", 'esp': 'Constitucién Politica'},
 {'arahuaco': "Ga'kunamy sumy neyka zaka'chésuya", 'esp': 'titulo'},
 {'arahuaco': "Ga'kunamy sump na'ba agagiikuya", 'esp': 'capitulo'},
 {'arahuaco': "G.ij.z. (Ga'kuname i'ngwijuna zaka'chésuya)",
  'esp': 'articulo'},
 {'arahuaco': 'G.ij.z. mend ndnukin wazweingwa neyka',
  'esp': 'articulo transitorio'},
 {'arahuaco': 'Gwamy guga', 'esp': 'ley'},
 {'arahuaco': "Gwam