In [1]:
import json
from pathlib import Path
from tqdm import tqdm
import re

from pie import Pie

### Load data

In [9]:
def load_test_data(file="data/gold_data.json"):
    """Load test data from directory"""
    with open(file) as f:
        return json.load(f)

data = load_test_data()

In [10]:
pie = Pie()

In [11]:

for example in tqdm(data):
    response = pie.bake(example["text"])
    example["predicted"] = response

  1%|          | 9/867 [00:09<11:34,  1.23it/s]

  2%|‚ñè         | 15/867 [00:11<05:51,  2.42it/s]

  2%|‚ñè         | 17/867 [00:11<04:46,  2.97it/s]

  3%|‚ñé         | 23/867 [00:13<04:05,  3.43it/s]

 17%|‚ñà‚ñã        | 147/867 [07:24<12:10,  1.02s/it]  

 24%|‚ñà‚ñà‚ñç       | 211/867 [09:35<14:06,  1.29s/it]

 48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 412/867 [17:14<17:26,  2.30s/it]  

 48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 414/867 [17:14<10:01,  1.33s/it]

 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 566/867 [25:34<06:49,  1.36s/it]  

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 867/867 [37:21<00:00,  2.59s/it]


In [12]:
test_data = data # [70:100]

In [13]:
ent_pattern = re.compile(r"\{\w+\s?\w+\}")

for ex in sorted(test_data, key=lambda x: len(x["text"])):

    ex["pred_entities"] = []
    ents = list(ent_pattern.finditer(ex["predicted"]))
    for ent in ents:

        start = ent.start()
        end = ent.end()
        ent = ent.group()

        next_chars = ex["predicted"][end:end+3]
        if not next_chars:
            true_end = len(ex["text"])
        else:
            true_end = ex["text"][start:].find(next_chars) + start

        ex["pred_entities"].append(
            {
                "label": ent,
                "start": start,
                "end": true_end,
            }
        )
    # if input("Continue?") == "n":
    #     break


In [14]:
test_data

[{'text': 'Jeg har f√•et ondt i maven der derfor at jeg har pr√∏ve uddybe √•ben om det  med at skrive',
  'entities': [],
  'predicted': 'Jeg har f√•et ondt i maven derfor har jeg pr√∏vet at uddybe √•ben om det med at skrive',
  'pred_entities': []},
 {'text': 'De l√¶gger ikke s√• meget mere kun h√•ber at jeg f√•r en god job med h√∏j l√∏n hvilket jeg ogs√• selv √∏nske med jeg ville helst v√¶re dyrel√¶ge hvilket de ikke er s√• glade fordi de ikke tror man tjener s√• meget',
  'entities': [],
  'predicted': 'De l√¶gger ikke s√• meget mere kun h√•ber at jeg f√•r en god job med h√∏j l√∏n hvilket jeg ogs√• selv √∏nske med jeg ville helst v√¶re dyrel√¶ge hvilket de ikke er s√• glade fordi de ikke tror man tjener s√• meget',
  'pred_entities': []},
 {'text': 'Er det ikke der for af  ikke skal slikker p√• et Sted p√• kroppen hvis man ikke syns det er rar. Kan man s√• ikke sige det hvis det ikke er rar',
  'entities': [],
  'predicted': 'Er det ikke der for af  ikke skal slikker p√• et {LOCATIO

In [15]:
with Path("data/pred-text-davinci-003.json").open("w", encoding="utf8") as f:
    json.dump(test_data, f, ensure_ascii=False)

In [40]:
with Path("data/pred-text-davinci-003.json").open("r", encoding="utf8") as f:
    test_data = json.load(f)

In [21]:
from nervaluate import Evaluator

In [41]:
test = test_data

In [33]:
test_data[43]

{'text': 'Novellen jeg skulle fortolke er skrevet af forfatteren Helle helle. Hende noveller er kendetegnet ved en minimalistisk stil, hvilket betyder at l√¶seren selv skal tolke sig frem til novellens betydning. Min l√¶rer har bare sagt at jeg f√•r 02 fordi jeg ikke har tolket den anderledes (indirekte mener han at alt tolkning er forkert hvis den ikke tolkes som han vil have det)',
 'entities': [{'label': 'NAME', 'start': 55, 'end': 67}],
 'predicted': 'Novellen jeg skulle fortolke er skrevet af forfatteren {NAME}. Hendes noveller er kendetegnet ved en minimalistisk stil, hvilket betyder at l√¶seren selv skal tolke sig frem til novellens betydning. Min l√¶rer har bare sagt at jeg f√•r 02 fordi jeg ikke har tolket den anderledes (indirekte mener han at alt tolkning er forkert hvis den ikke tolkes som han vil have det)',
 'pred_entities': [{'label': '{NAME}', 'start': 55, 'end': 66}]}

In [None]:
p = re.compile(r"\{(\{\w+\s?\w+\}")

In [None]:
for example in test:
    for ent in example["entities"]:
        ent["label"] = "{" + ent["label"] + "}"

In [74]:
def build_entity_map() -> dict:
    """Map entities to their respective tags"""
    monty = {
        ("{PER}", "{NAME}"): "{NAME}",
        ("{LOCATION}", "{LOC}", "{STREET}", "{CITY}"): "{LOCATION}",
        ("{ORG}","{ORGANIZATION}","{SCHOOL}"): "{ORGANIZATION}",
        ("{CPR}",): "{CPR NUMBER}",
        ("{EMAIL}",): "{EMAIL}",
        ("{PHONE}",): "{PHONE NUMBER}",
        ("{LINK}",): "{LINK}",
        ("{DATE}",): "{DATE-OF-BIRTH}",
        ("{ZIP CODE}",): "{ZIP CODE}",
    }

    working_monty = {}
    for k, v in monty.items():
        for key in k:
            working_monty[key] = v

    return working_monty

In [75]:
entity_map = build_entity_map()

In [76]:
pred = [t["pred_entities"] for t in test]
true = [t["entities"] for t in test]

In [79]:
for entity in pred:
    for ent in entity:
        ent["label"] = entity_map.get(ent["label"], "{OTHER}")

for entity in true:
    for ent in entity:
        ent["label"] = entity_map.get(ent["label"], "{OTHER}")

In [63]:
entity_map

{'{PER}': '{NAME}',
 '{LOC}': '{LOCATION}',
 '{STREET}': '{LOCATION}',
 '{CITY}': '{LOCATION}',
 '{ORG}': '{ORGANIZATION}',
 '{SCHOOL}': '{ORGANIZATION}',
 '{CPR}': '{CPR NUMBER}',
 '{EMAIL}': '{EMAIL}',
 '{PHONE}': '{PHONE NUMBER}',
 '{LINK}': '{LINK}',
 '{DATE}': '{DATE-OF-BIRTH}',
 '{ZIP CODE}': '{ZIP CODE}'}

In [87]:
set(list(entity_map.values()))

{'{CPR NUMBER}',
 '{DATE-OF-BIRTH}',
 '{EMAIL}',
 '{LINK}',
 '{LOCATION}',
 '{NAME}',
 '{ORGANIZATION}',
 '{PHONE NUMBER}',
 '{ZIP CODE}'}

In [92]:


evaluator = Evaluator(
    true, pred,
    tags=set(entity_map.values())
)

# Returns overall metrics and metrics for each tag

results, results_per_tag = evaluator.evaluate()

print(results)

{'ent_type': {'correct': 636, 'incorrect': 33, 'partial': 0, 'missed': 155, 'spurious': 755, 'possible': 824, 'actual': 1424, 'precision': 0.44662921348314605, 'recall': 0.7718446601941747, 'f1': 0.5658362989323843}, 'partial': {'correct': 346, 'incorrect': 0, 'partial': 323, 'missed': 155, 'spurious': 755, 'possible': 824, 'actual': 1424, 'precision': 0.35639044943820225, 'recall': 0.6158980582524272, 'f1': 0.45151245551601427}, 'strict': {'correct': 335, 'incorrect': 334, 'partial': 0, 'missed': 155, 'spurious': 755, 'possible': 824, 'actual': 1424, 'precision': 0.23525280898876405, 'recall': 0.4065533980582524, 'f1': 0.2980427046263345}, 'exact': {'correct': 346, 'incorrect': 323, 'partial': 0, 'missed': 155, 'spurious': 755, 'possible': 824, 'actual': 1424, 'precision': 0.24297752808988765, 'recall': 0.4199029126213592, 'f1': 0.30782918149466193}}


In [50]:
import pandas as pd

In [93]:
results_per_tag

{'{PHONE NUMBER}': {'ent_type': {'correct': 0,
   'incorrect': 0,
   'partial': 0,
   'missed': 0,
   'spurious': 27,
   'possible': 0,
   'actual': 27,
   'precision': 0.0,
   'recall': 0,
   'f1': 0},
  'partial': {'correct': 0,
   'incorrect': 0,
   'partial': 0,
   'missed': 0,
   'spurious': 27,
   'possible': 0,
   'actual': 27,
   'precision': 0.0,
   'recall': 0,
   'f1': 0},
  'strict': {'correct': 0,
   'incorrect': 0,
   'partial': 0,
   'missed': 0,
   'spurious': 27,
   'possible': 0,
   'actual': 27,
   'precision': 0.0,
   'recall': 0,
   'f1': 0},
  'exact': {'correct': 0,
   'incorrect': 0,
   'partial': 0,
   'missed': 0,
   'spurious': 27,
   'possible': 0,
   'actual': 27,
   'precision': 0.0,
   'recall': 0,
   'f1': 0}},
 '{LINK}': {'ent_type': {'correct': 0,
   'incorrect': 4,
   'partial': 0,
   'missed': 2,
   'spurious': 11,
   'possible': 6,
   'actual': 15,
   'precision': 0.0,
   'recall': 0.0,
   'f1': 0},
  'partial': {'correct': 1,
   'incorrect': 0,
   

In [57]:
results_per_tag

{'{NAME}': {'ent_type': {'correct': 493,
   'incorrect': 1,
   'partial': 0,
   'missed': 83,
   'spurious': 543,
   'possible': 577,
   'actual': 1037,
   'precision': 0.47540983606557374,
   'recall': 0.854419410745234,
   'f1': 0.61090458488228},
  'partial': {'correct': 260,
   'incorrect': 0,
   'partial': 234,
   'missed': 83,
   'spurious': 543,
   'possible': 577,
   'actual': 1037,
   'precision': 0.36354869816779173,
   'recall': 0.6533795493934142,
   'f1': 0.46716232961586124},
  'strict': {'correct': 259,
   'incorrect': 235,
   'partial': 0,
   'missed': 83,
   'spurious': 543,
   'possible': 577,
   'actual': 1037,
   'precision': 0.24975891996142718,
   'recall': 0.4488734835355286,
   'f1': 0.32094175960346966},
  'exact': {'correct': 260,
   'incorrect': 234,
   'partial': 0,
   'missed': 83,
   'spurious': 543,
   'possible': 577,
   'actual': 1037,
   'precision': 0.2507232401157184,
   'recall': 0.4506065857885615,
   'f1': 0.32218091697645596}},
 '{LOCATION}': {'e

In [53]:
results_per_tag

{'{NAME}': {'ent_type': {'correct': 493,
   'incorrect': 0,
   'partial': 0,
   'missed': 84,
   'spurious': 551,
   'possible': 577,
   'actual': 1044,
   'precision': 0.4722222222222222,
   'recall': 0.854419410745234,
   'f1': 0.608266502159161},
  'partial': {'correct': 259,
   'incorrect': 0,
   'partial': 234,
   'missed': 84,
   'spurious': 551,
   'possible': 577,
   'actual': 1044,
   'precision': 0.36015325670498083,
   'recall': 0.6516464471403813,
   'f1': 0.4639111659469463},
  'strict': {'correct': 259,
   'incorrect': 234,
   'partial': 0,
   'missed': 84,
   'spurious': 551,
   'possible': 577,
   'actual': 1044,
   'precision': 0.24808429118773948,
   'recall': 0.4488734835355286,
   'f1': 0.3195558297347317},
  'exact': {'correct': 259,
   'incorrect': 234,
   'partial': 0,
   'missed': 84,
   'spurious': 551,
   'possible': 577,
   'actual': 1044,
   'precision': 0.24808429118773948,
   'recall': 0.4488734835355286,
   'f1': 0.3195558297347317}},
 '{LOCATION}", "{ORG