In [1]:
from google.cloud import documentai_v1 as documentai
from google.oauth2 import service_account
from database import Database

db = Database()

# Base processor data
project_id = "genealogy-ocr-index"
location = "us"
processor_id = "4cb2ae40b145c48"

class ocr_engine:
    def __init__(self) -> None:

        # Create a client
        cred = service_account.Credentials.from_service_account_file("secrets/docai_credentials.json")
        self.__client = documentai.DocumentProcessorServiceClient(
            credentials=cred,
            client_options={"api_endpoint": f"{location}-documentai.googleapis.com"}
        )

        # Get the processor
        self.__processor = self.__client.processor_path(project=project_id, location=location, processor=processor_id)

    def process_documents(self):

        # Get image from URL
        uris = db.storage_get_images()

        # Get extension of images to set correct mime type
        extension = uris[2][-3:]
        if "jpg" in extension:
            extension = "jpeg"
        elif "png" in extension:
            extension = "png"

        # Create a raw document object
        document = documentai.GcsDocument(gcs_uri=uris[2], mime_type=f"image/{extension}")

        # Create API request
        request = documentai.ProcessRequest(name=self.__processor, 
                                            gcs_document=document,
                                            process_options={"ocr_config": {
                                                "hints": {"language_hints": "es"}
                                                }
                                            })

        # Get result
        result = self.__client.process_document(request=request)
        return result.document

App initialized


In [2]:
engine = ocr_engine()

In [3]:
result = engine.process_documents()

In [276]:
text = result.text

In [277]:
document_text = ""
i = 0
while i < len(text):
    if text[i] == "-" and text[i+1] == "\n":
        document_text += ""
        i += 2
    elif text[i] == "\n" and text[i-1] != "":
        document_text += " "
        i += 1
    else:
        document_text += text[i]
        i += 1

In [278]:
text

"648\n-62-\nen el citio de la Loma donde se divide para Chiscote, la que hubo\nen el reparto del resguardo de Guacamayas.-\n334)--Esc .292-- El Cocuy 25 de julio de 1858- Eleuterio y Ju-\nlian Patricio venden a Joaquín 1 aría Espinel el derecho y acción\nque a cada uno le corresponde en las tierras del Alizal, ycortade\nra vereda do. laa Tapias jurisdicción de Chiscas, las que hubieron\nen el reparto del resguardo de índíjenas de dicho Chiscas.-------\n355)--Esc #293-- El Cocuy 25 de julio de 1858 Juan Crisostomo Ro\ndríguez, vendor a Gavino Largo un pedazo de tierra en el sitio de\nBocachica jurisdicción de la Capilla; el que hubo por compra\nΠ\nJavier Solano y Gregorio Murillo\no a su pr\n536)--Eso . 294-- ElCocuy 25 de julio de 1858-- Con éste Número\ny en la fecha queda protocolado el documento que Antonio José de\nHerrera otorgó a Mateo Marón y Francisco Javier Leal vendiendoles\nuna estancia en el páramo del Contento jurisdicción de Chiscas y\nGuicon\n357)--Folio 512-- El Cocuy 1

In [279]:
print(document_text)

648 -62en el citio de la Loma donde se divide para Chiscote, la que hubo en el reparto del resguardo de Guacamayas.334)--Esc .292-- El Cocuy 25 de julio de 1858- Eleuterio y Julian Patricio venden a Joaquín 1 aría Espinel el derecho y acción que a cada uno le corresponde en las tierras del Alizal, ycortade ra vereda do. laa Tapias jurisdicción de Chiscas, las que hubieron en el reparto del resguardo de índíjenas de dicho Chiscas.------355)--Esc #293-- El Cocuy 25 de julio de 1858 Juan Crisostomo Ro dríguez, vendor a Gavino Largo un pedazo de tierra en el sitio de Bocachica jurisdicción de la Capilla; el que hubo por compra Π Javier Solano y Gregorio Murillo o a su pr 536)--Eso . 294-- ElCocuy 25 de julio de 1858-- Con éste Número y en la fecha queda protocolado el documento que Antonio José de Herrera otorgó a Mateo Marón y Francisco Javier Leal vendiendoles una estancia en el páramo del Contento jurisdicción de Chiscas y Guicon 357)--Folio 512-- El Cocuy 1° de setiembre de 1807-- Anto

In [280]:
# Open name and last name files to add them to the model's entity ruler
import csv
names = []
last_names = []

with open('ner_data/first_names_processed.csv', 'r', newline="") as file:
    reader = csv.reader(file, delimiter=",")
    for row in reader:
        names.append(row[0])

with open('ner_data/last_names_processed.csv', 'r', newline='') as file:
    reader = csv.reader(file, delimiter=",")
    for row in reader:
        last_names.append(row[0])

In [281]:
# Load Spanish model
import spacy
nlp = spacy.load("es_core_news_lg")

In [282]:
# Add names and last names to entity ruler
ruler = nlp.add_pipe("entity_ruler", after="ner")

In [283]:
# Create patterns
patterns = []
for name in names:
    patterns.append({
        "label":"FIRST_NAME",
        "pattern": [{"LOWER":name.lower()}]
    })

for name in last_names:
    patterns.append({
        "label":"LAST_NAME",
        "pattern": [{"LOWER":name.lower()}]
    })

# Add patterns to pipeline
ruler.add_patterns(patterns)

In [288]:
patterns

[{'label': 'FIRST_NAME',
  'pattern': [{'ORTH': 'Antonio'}, {'LOWER': 'antonio'}, {'LENGTH': 7}]},
 {'label': 'FIRST_NAME',
  'pattern': [{'ORTH': 'Manuel'}, {'LOWER': 'manuel'}, {'LENGTH': 6}]},
 {'label': 'FIRST_NAME',
  'pattern': [{'ORTH': 'Jose'}, {'LOWER': 'jose'}, {'LENGTH': 4}]},
 {'label': 'FIRST_NAME',
  'pattern': [{'ORTH': 'Francisco'}, {'LOWER': 'francisco'}, {'LENGTH': 9}]},
 {'label': 'FIRST_NAME',
  'pattern': [{'ORTH': 'David'}, {'LOWER': 'david'}, {'LENGTH': 5}]},
 {'label': 'FIRST_NAME',
  'pattern': [{'ORTH': 'Juan'}, {'LOWER': 'juan'}, {'LENGTH': 4}]},
 {'label': 'FIRST_NAME',
  'pattern': [{'ORTH': 'Javier'}, {'LOWER': 'javier'}, {'LENGTH': 6}]},
 {'label': 'FIRST_NAME',
  'pattern': [{'ORTH': 'Daniel'}, {'LOWER': 'daniel'}, {'LENGTH': 6}]},
 {'label': 'FIRST_NAME',
  'pattern': [{'ORTH': 'Jose Antonio'},
   {'LOWER': 'jose antonio'},
   {'LENGTH': 12}]},
 {'label': 'FIRST_NAME',
  'pattern': [{'ORTH': 'Francisco Javier'},
   {'LOWER': 'francisco javier'},
   {'LE

In [284]:
text = document_text.split()

In [285]:
i = 0

In [286]:
modified_text = []
while i < len(text):
    print(f"i: {i}")
    if i+1 < len(text):
        combined = text[i] + text[i+1]
        #print("Combined element: " + combined)
        doc = nlp(combined)
        if len(doc.ents) == 0:
            modified_text.append(text[i])
            i += 1
        else:
            for ent in doc.ents:
                print(doc.ents)
                print(ent.label_)
                if ent.label_ == "PER":
                    print("Person!")
                    modified_text.append(combined)
                    i += 2
                    break
                else:
                    print("Not a person.")
                    modified_text.append(text[i])
                    i += 1

i: 0
i: 1
i: 2
i: 3
i: 4
i: 5
(laLoma,)
LOC
Not a person.
i: 6
i: 7
i: 8
i: 9
i: 10
(paraChiscote,)
MISC
Not a person.
i: 11
(Chiscote,)
MISC
Not a person.
i: 12
(laque,)
PER
Person!
i: 14
(huboen,)
MISC
Not a person.
i: 15
(enel,)
PER
Person!
i: 17
(repartodel,)
PER
Person!
i: 19
(resguardode,)
LOC
Not a person.
i: 20
i: 21
i: 22
i: 23
(ElCocuy,)
LOC
Not a person.
i: 24
i: 25
i: 26
i: 27
(juliode,)
PER
Person!
i: 29
(1858-Eleuterio,)
MISC
Not a person.
i: 30
i: 31
(yJulian,)
MISC
Not a person.
i: 32
(JulianPatricio,)
LOC
Not a person.
i: 33
(Patriciovenden,)
PER
Person!
i: 35
(aJoaquín,)
MISC
Not a person.
i: 36
(Joaquín1,)
ORG
Not a person.
i: 37
i: 38
(aríaEspinel,)
LOC
Not a person.
i: 39
i: 40
i: 41
(derechoy,)
PER
Person!
i: 43
(acciónque,)
LOC
Not a person.
i: 44
(quea,)
PER
Person!
i: 46
(cadauno,)
PER
Person!
i: 48
(lecorresponde,)
LOC
Not a person.
i: 49
(correspondeen,)
PER
Person!
i: 51
(lastierras,)
PER
Person!
i: 53
(delAlizal,)
MISC
Not a person.
i: 54
(Alizal,)
PER
Pers

In [250]:
" ".join(modified_text)

"648 -62en el citio de la Loma donde se divide para Chiscote, laque hubo enel repartodel resguardo de Guacamayas.334)--Esc .292-- El Cocuy 25 de juliode 1858- Eleuterio y Julian Patriciovenden a Joaquín 1 aría Espinel el derechoy acción quea cadauno le correspondeen lastierras del Alizal,ycortade ra vereda do. laa Tapias jurisdicción de Chiscas, las que hubieronen el repartodel resguardo de índíjenas de dicho Chiscas.------355)--Esc #293-- El Cocuy 25 de juliode 1858 Juan Crisostomo Rodríguez, vendor a Gavino Largo un pedazo detierra enel sitio de Bocachica jurisdicción de la Capilla; el que hubo por compra Π Javier Solano y Gregorio Murillo o asu pr 536)--Eso . 294-- ElCocuy 25 de juliode 1858-- Con éste Número y enla fechaqueda protocolado el documento que Antonio José de Herreraotorgó a Mateo Marón y Francisco Javier Leal vendiendoles una estanciaen el páramodel Contento jurisdicción de Chiscasy Guicon 357)--Folio 512-- El Cocuy 1° de setiembre de 1807-- Antonio José de Herrera,vend

In [251]:
document_text = " ".join(modified_text)
print(document_text)

648 -62en el citio de la Loma donde se divide para Chiscote, laque hubo enel repartodel resguardo de Guacamayas.334)--Esc .292-- El Cocuy 25 de juliode 1858- Eleuterio y Julian Patriciovenden a Joaquín 1 aría Espinel el derechoy acción quea cadauno le correspondeen lastierras del Alizal,ycortade ra vereda do. laa Tapias jurisdicción de Chiscas, las que hubieronen el repartodel resguardo de índíjenas de dicho Chiscas.------355)--Esc #293-- El Cocuy 25 de juliode 1858 Juan Crisostomo Rodríguez, vendor a Gavino Largo un pedazo detierra enel sitio de Bocachica jurisdicción de la Capilla; el que hubo por compra Π Javier Solano y Gregorio Murillo o asu pr 536)--Eso . 294-- ElCocuy 25 de juliode 1858-- Con éste Número y enla fechaqueda protocolado el documento que Antonio José de Herreraotorgó a Mateo Marón y Francisco Javier Leal vendiendoles una estanciaen el páramodel Contento jurisdicción de Chiscasy Guicon 357)--Folio 512-- El Cocuy 1° de setiembre de 1807-- Antonio José de Herrera,vende

In [287]:
text = "Ana Maria y Julián Patricio se casaron hace diez años"
doc = nlp(text)
for ent in doc.ents:
    print(ent)
    print(ent.label_)

Ana Maria
PER
Julián Patricio
PER
