## Data loading

In [148]:
import os
import json

In [143]:
def load_file(file_name):
    try:
        with open(file_name, "r") as f:
            return json.load(f)
    except Exception as e:
        print("Couldn't load file. Error: " + e)
        return None

def labeled_sentences_from_dataset(dataset):
    sentence_tags_map = {}
                    
    for document in dataset.values():
        for section in document.values():
            for subsection in section.values():
                for sentence in subsection['sentences'].values():
                    sentence_tags_map[sentence['text']] = sentence['labels'][0]
                    
    return sentence_tags_map

def labeled_sentences_from_model_output(model_preds):
    sentence_tags_map = {}
    for preds in model_preds:
        sentence_tags_map[preds["text"]] = preds["labels"][0]
    return sentence_tags_map

def labels_from_dataset(dataset):
    labels = []
                    
    for document in dataset.values():
        for section in document.values():
            for subsection in section.values():
                for sentence in subsection['sentences'].values():
                    labels.append(sentence['labels'][0])
                    
    return labels

def labels_from_model_output(model_preds):
    return [preds["labels"][0] for preds in model_preds]

In [144]:
dataset_fname = "/Users/dafirebanks/Projects/policy-data-analyzer/tasks/evaluate_model/input/sample_dataset.json"
model_preds_fname = "/Users/dafirebanks/Projects/policy-data-analyzer/tasks/evaluate_model/input/sample_model_output.json"

dataset = load_file(dataset_fname)
model_preds = load_file(model_preds_fname) 

In [145]:
dataset_pairs = labeled_sentences_from_dataset(dataset)
dataset_pairs 

{'Participar en las consultas previas a la definición y aprobación de la política de bosques, áreas naturales y zonas de amortiguamiento en las formas y mecanismos establecidos en la presente ordenanza': 1,
 'Ser informados de forma oportuna, clara y suficiente de las políticas, programas y planes de manejo de los bosques, áreas naturales y zonas de amortiguamiento': 0,
 'Recibir capacitaciones relacionadas a los temas que desarrolla esta ordenanza.': 2,
 'Art. 34.- Toda persona natural o jurídica que haga uso de los recursos de los Bosques, Áreas Naturales y Zonas de Amortiguamiento, en legal forma, estará obligada a:': 0,
 'En el caso de tala, a sembrar por cada árbol talado diez de su misma especie en los mismos lugares o en aquellos donde la Unidad Ambiental Municipal les señale.': 1,
 'A darle cuido y mantenimiento a cada uno de los árboles sembrados hasta cuando se encontraren en buenas condiciones de desarrollarse por sí mismos; estableciéndose un mínimo de tres años.': 1,
 'Art

In [146]:
model_preds_pairs = labeled_sentences_from_model_output(model_preds)
model_preds_pairs

{'Participar en las consultas previas a la definición y aprobación de la política de bosques, áreas naturales y zonas de amortiguamiento en las formas y mecanismos establecidos en la presente ordenanza': 1,
 'Ser informados de forma oportuna, clara y suficiente de las políticas, programas y planes de manejo de los bosques, áreas naturales y zonas de amortiguamiento': 0,
 'Recibir capacitaciones relacionadas a los temas que desarrolla esta ordenanza.': 1,
 'Art. 34.- Toda persona natural o jurídica que haga uso de los recursos de los Bosques, Áreas Naturales y Zonas de Amortiguamiento, en legal forma, estará obligada a:': 2,
 'En el caso de tala, a sembrar por cada árbol talado diez de su misma especie en los mismos lugares o en aquellos donde la Unidad Ambiental Municipal les señale.': 1,
 'A darle cuido y mantenimiento a cada uno de los árboles sembrados hasta cuando se encontraren en buenas condiciones de desarrollarse por sí mismos; estableciéndose un mínimo de tres años.': 2,
 'Art

In [147]:
dataset_labels = labels_from_dataset(dataset)
model_preds_labels = labels_from_model_output(model_preds)
dataset_labels, model_preds_labels

([1, 0, 2, 0, 1, 1, 3, 4], [1, 0, 1, 2, 1, 2, 3, 2])

## Model setup