# Coeus AI

## Selección de técnica de binarización
1. Selección aleatoria de un conjunto de prueba
2. Generación de imágenes con ambos métodos de binarización
3. Predicción de OCR para tres conjuntos: normal, Otsu y adaptativa
4. Evaluación de los métodos con métricas: Dice, Jaccard y Cosine
5. Selección del mejor método de binarización: Adaptativa

**Nota:** El proceso de diseño, evaluación y selección de la técnica de binarización se puede encontrar en la libreta [Preprocesamiento.ipynb](Preprocesamiento.ipynb)

## Pre-procesamiento de imágenes
1. Transformación del documento a escala de grises
2. Reescalado de imagen por un factor $f$
3. Eliminación de sombras (Blurred + (255 - abs diff de planos))
4. Binarización Adaptativa
5. Corrección de orientación (OpenCV o Tesseract)
6. Recorte de bordes de fotografía/escaneo

**Nota:** Todas las funciones necesarias para realizar el pre-procesamiento se pueden encontrar en [extras/preprocessing.py](extras/preprocessing.py), incluyendo la función "preprocess", que contiene el pipeline completo.

In [1]:
"""
Ejecutar esta celda solo si se desea realizar el pre-procesamiento a todos los documentos dentro de "path_to_docs".
"""
import os
from cv2 import imread as cv2_imread
from cv2 import imwrite as cv2_imwrite
from extras.preprocessing import preprocess

# Se define la ruta a los documentos
path_to_docs = "Datos/Evaluacion/original/"

# Se define la ruta en donde guardar los documentos procesados
path_to_procs = "Datos/Evaluacion/procesados/"

# Por cada imagen dentro de 'path_to_docs'
for nombre_archivo in os.listdir(path_to_docs):
    # Se define la ruta al documento
    path_archivo = os.path.join(path_to_docs, nombre_archivo)
    
    # Se carga el documento con OpenCV
    img = cv2_imread(path_archivo)
    
    # Se aplica el tratamiento (pre-procesamiento) al documento
    """
    Nota: La función 'preprocess' permite seleccionar el tipo e intensidad de la binarización, así como el método de corrección de orientación.
    Los valores por defecto son aquellos que reportaron mejores métricas durante la etapa de pruebas.
    """
    procs_img = preprocess(img, binarization='adaptive', orientation='cv2', t=10)
    
    # Se genera la ruta al documento procesado
    if os.path.exists(path_to_procs):
        path_output = os.path.join(path_to_procs, nombre_archivo)
    else:
        os.mkdir(path_to_procs)
        path_output = os.path.join(path_to_procs, nombre_archivo)
    
    # Se escribe el documento con OpenCV
    cv2_imwrite(path_output, procs_img)
    print("El tratamiento para el documento",nombre_archivo,"ha finalizado.")

El tratamiento para el documento Ficheros_Represores_Martinez_Adame_Arturo_Martinez_Adame_Arturo-31-.JPG ha finalizado.
El tratamiento para el documento Ficheros_ACNR_militantes_Olea_Castaneyra_Rafel_Olea_Castaneyra_Rafael,_ACNR-19-.JPG ha finalizado.
El tratamiento para el documento Ficheros_Detenidos_Desaparecidos_Perez_Lopez_Martha_Perez_Lopez_Martha-21-.JPG ha finalizado.
El tratamiento para el documento Ficheros_Detenidos_Desaparecidos_Morales_Lopez_Delia_Morales_Lopez_Delia-23-.JPG ha finalizado.
El tratamiento para el documento Ficheros_Union_Campesina_Independiente,_fichas_UCI,_fichas-2-.JPG ha finalizado.
El tratamiento para el documento Ficheros_Brigada_Campesina_de_Ajusticiamiento_BCA_Brigada_Campesina_de_Ajusticiamiento-79-.JPG ha finalizado.
El tratamiento para el documento Ficheros_UAG_73-10-29_a_73-12-07_UAG,_fichas-134-.JPG ha finalizado.
El tratamiento para el documento Ficheros_FAR,_concentrado_general_FAR,_concentrado_general-157-.JPG ha finalizado.
El tratamiento pa

## Extracción de OCR de las imágenes con motores seleccionados
1. OCR a la imagen $i$ con Azure OCR
2. OCR a la imagen $i$ con EasyOCR
3. Selección del mejor texto de forma no-supervisada: métrica compuesta ponderada

In [2]:
"""
Ejecutar esta celda solo si se desea extraer el texto de los documentos.
"""
from coeus import inference

# Se define la ruta a los documentos
path_to_docs = "Datos/Evaluacion/original/"

# Se define la ruta en donde guardar los documentos procesados
path_to_procs = "Datos/Evaluacion/procesados/"

# Se define la ruta en donde guardar el JSON con el texto extraído
path_to_predictions = "Datos/Evaluacion/predictions.json"

# Realizando la predicción de texto: Azure + EasyOCR
inference(path_to_docs, path_to_procs, path_to_predictions)

El archivo de transcripciones se ha creado con éxito: Datos/Evaluacion/predictions.json


  return torch.max_pool2d(input, kernel_size, stride, padding, dilation, ceil_mode)


EasyOCR de documento Ficheros_Represores_Martinez_Adame_Arturo_Martinez_Adame_Arturo-31-.JPG finalizado con éxito.
EasyOCR de documento Ficheros_ACNR_militantes_Olea_Castaneyra_Rafel_Olea_Castaneyra_Rafael,_ACNR-19-.JPG finalizado con éxito.
EasyOCR de documento Ficheros_Detenidos_Desaparecidos_Perez_Lopez_Martha_Perez_Lopez_Martha-21-.JPG finalizado con éxito.
EasyOCR de documento Ficheros_Detenidos_Desaparecidos_Morales_Lopez_Delia_Morales_Lopez_Delia-23-.JPG finalizado con éxito.
EasyOCR de documento Ficheros_Union_Campesina_Independiente,_fichas_UCI,_fichas-2-.JPG finalizado con éxito.
EasyOCR de documento Ficheros_Brigada_Campesina_de_Ajusticiamiento_BCA_Brigada_Campesina_de_Ajusticiamiento-79-.JPG finalizado con éxito.
EasyOCR de documento Ficheros_UAG_73-10-29_a_73-12-07_UAG,_fichas-134-.JPG finalizado con éxito.
EasyOCR de documento Ficheros_FAR,_concentrado_general_FAR,_concentrado_general-157-.JPG finalizado con éxito.
EasyOCR de documento Ficheros_UAG_76-11-16_a_77-03-19_UAG

## Extracción de entidades
1. Extracción de entidades con Spacy: es_core_news_lg
2. Enriquecimiento de entidades de Spacy con DateParser
3. Extracción de entidades con Azure NER
4. Creación de un conjunto único: Spacy + DateParser + Azure NER
5. Extracción de expediente con Regex

In [2]:
"""
La función coeus.add_entities_json() realiza los 4 pasos descritos en la 
celda anterior.
Ejecturar esta celda solo si se desea realizar el procedimiento de extracción y enriquecimiento de entidades.
"""
from coeus import add_entities_json

credentials = {'key': "dadc0fff23804ae0890878f9b74ea18d",
               'endpoint': "https://hacktextocrcoueus.cognitiveservices.azure.com/"}

# Se define la ruta en donde se guardó el JSON con el texto extraído
path_to_predictions = "Datos/Evaluacion/predictions.json"

# Se define la ruta en donde se guardó el JSON con el texto extraído
path_to_save = "Datos/Evaluacion/predictions_entities.json"

add_entities_json(path_to_predictions, path_to_save, credentials) # Añadiendo las entidades

Entidades del documento 1 : Ficheros_Represores_Martinez_Adame_Arturo_Martinez_Adame_Arturo-31-.JPG han sido procesadas.
Entidades del documento 2 : Ficheros_ACNR_militantes_Olea_Castaneyra_Rafel_Olea_Castaneyra_Rafael,_ACNR-19-.JPG han sido procesadas.
Entidades del documento 3 : Ficheros_Detenidos_Desaparecidos_Perez_Lopez_Martha_Perez_Lopez_Martha-21-.JPG han sido procesadas.
Entidades del documento 4 : Ficheros_Detenidos_Desaparecidos_Morales_Lopez_Delia_Morales_Lopez_Delia-23-.JPG han sido procesadas.
Entidades del documento 5 : Ficheros_Union_Campesina_Independiente,_fichas_UCI,_fichas-2-.JPG han sido procesadas.
Entidades del documento 6 : Ficheros_Brigada_Campesina_de_Ajusticiamiento_BCA_Brigada_Campesina_de_Ajusticiamiento-79-.JPG han sido procesadas.
Entidades del documento 7 : Ficheros_UAG_73-10-29_a_73-12-07_UAG,_fichas-134-.JPG han sido procesadas.
Entidades del documento 8 : Ficheros_FAR,_concentrado_general_FAR,_concentrado_general-157-.JPG han sido procesadas.
Entidades

## Generación de archivos CSV con el formato requerido.
1. Toda la información sobre cada documento se encuentra en el archivo JSON generado en las celdas anteriores
2. Se extraerá la información de dicho JSON para construir los archivos CSV solicitados.

Formato para entrega de extracción de texto: 

| filename | text |
| --- | ----------- |
| file1.jpg | "Exp-11-240-74 \| texto" |
| file1.jpg | "Exp-13-123-74 \| texto" |

Formato para entrega de extracción de texto: 

| filename | label | class |
| --- | --- | --- |
| File1.jpg | Grupo Popular Guerrillero (GPG) | Organización |
File1.jpg | 23/09/1965 | Fecha
File1.jpg | Arturo Gámiz García | Persona
File1.jpg | "Madera, Chihuahua" | Lugar

**Nota:** Para evitar problemas a la hora de cargar el documento CSV (pues además de delimitadores también puede haber comas en el texto), se decidió utilizar el delimitador: |

In [3]:
"""
Ejecutar esta celda si se desea extraer los datos guardados en el archivo JSON, para posteriormente
generar los entregables en formato CSV requeridos por el Hackathon.
"""
from coeus import json_to_csv_2a, json_to_csv_2b

json_to_csv_2a("Datos/Evaluacion/predictions_entities.json", "Datos/Evaluacion/2A.csv")
json_to_csv_2b("Datos/Evaluacion/predictions_entities.json", "Datos/Evaluacion/2B.csv")

2A: Documento Ficheros_Represores_Martinez_Adame_Arturo_Martinez_Adame_Arturo-31-.JPG procesado.
2A: Documento Ficheros_ACNR_militantes_Olea_Castaneyra_Rafel_Olea_Castaneyra_Rafael,_ACNR-19-.JPG procesado.
2A: Documento Ficheros_Detenidos_Desaparecidos_Perez_Lopez_Martha_Perez_Lopez_Martha-21-.JPG procesado.
2A: Documento Ficheros_Detenidos_Desaparecidos_Morales_Lopez_Delia_Morales_Lopez_Delia-23-.JPG procesado.
2A: Documento Ficheros_Union_Campesina_Independiente,_fichas_UCI,_fichas-2-.JPG procesado.
2A: Documento Ficheros_Brigada_Campesina_de_Ajusticiamiento_BCA_Brigada_Campesina_de_Ajusticiamiento-79-.JPG procesado.
2A: Documento Ficheros_UAG_73-10-29_a_73-12-07_UAG,_fichas-134-.JPG procesado.
2A: Documento Ficheros_FAR,_concentrado_general_FAR,_concentrado_general-157-.JPG procesado.
2A: Documento Ficheros_UAG_76-11-16_a_77-03-19_UAG,_fichas-113-.JPG procesado.
2A: Documento Ficheros_PPUA_Fichas_PPUA,_Fichas-98-.JPG procesado.
2B: Documento Ficheros_Represores_Martinez_Adame_Arturo