In [47]:
import spacy
import json
import os
from pathlib import Path
import random
from spacy.training import Example
from tqdm import tqdm
from sklearn.model_selection import train_test_split

In [43]:
DATA_DIR = os.path.join("..", "data", "annotated")
print(os.listdir(DATA_DIR))

['instruction.md', 'ML', 'Python', 'tags.json']


In [46]:
def load_annotated_data(base_dir):
    data = []
    folders = ["Python", "ML"]  # subfolders to load

    for folder in folders:
        folder_path = os.path.join(base_dir, folder)
        if not os.path.exists(folder_path):
            print(f"‚ö†Ô∏è Folder not found: {folder_path}")
            continue

        for root, _, files in os.walk(folder_path):
            for filename in files:
                if filename.endswith(".json"):
                    file_path = os.path.join(root, filename)
                    with open(file_path, "r", encoding="utf-8") as f:
                        item = json.load(f)

                        # Iterate through annotated texts
                        for text, ann in item["annotations"]:
                            entities = [
                                (start, end, label)
                                for start, end, label in ann.get("entities", [])
                            ]
                            if text.strip():
                                data.append((text, {"entities": entities}))

    print(f"Loaded {len(data)} annotated samples from {base_dir}")
    return data

data = load_annotated_data(DATA_DIR)

Loaded 74 annotated samples from ..\data\annotated


In [48]:
tags_path = os.path.join(DATA_DIR, "tags.json")
with open(tags_path, "r", encoding="utf-8") as f:
    tags = json.load(f)

labels = [t["name"] for t in tags]
print(f"Loaded {len(labels)} entity labels from tags.json:\n{labels}")

train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)
print(f"Train: {len(train_data)} | Test: {len(test_data)}")

nlp = spacy.blank("en") 
for pipe_name in nlp.pipe_names:
    nlp.remove_pipe(pipe_name)

ner = nlp.add_pipe("ner")

for label in labels:
    ner.add_label(label)

Loaded 10 entity labels from tags.json:
['SKILL_HARD', 'SKILL_SOFT', 'ENGLISH_LEVEL', 'DEGREE', 'EXPERIENCE_LEVEL', 'EXPERIENCE_YEARS', 'BENEFIT', 'LOCATION', 'COMPANY', 'ROLE']
Train: 59 | Test: 15


In [52]:
optimizer = nlp.initialize()
n_iter = 100

for i in range(n_iter):
    random.shuffle(train_data)
    losses = {}
    for text, annotations in tqdm(train_data, desc=f"Epoch {i+1}/{n_iter}"):
        doc = nlp.make_doc(text)
        example = Example.from_dict(doc, annotations)
        nlp.update([example], drop=0.2, sgd=optimizer, losses=losses)
    print(f"Losses at iteration {i+1}: {losses}")

correct, total = 0, 0
for text, ann in test_data:
    doc = nlp(text)
    pred = {(e.start_char, e.end_char, e.label_) for e in doc.ents}
    true = set(tuple(e) for e in ann["entities"])
    correct += len(pred & true)
    total += len(true)

Epoch 1/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.15it/s]


Losses at iteration 1: {'ner': 8189.255520219892}


Epoch 2/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.35it/s]


Losses at iteration 2: {'ner': 3402.0473010801834}


Epoch 3/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.09it/s]


Losses at iteration 3: {'ner': 2380.5714647768823}


Epoch 4/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.37it/s]


Losses at iteration 4: {'ner': 2133.1495500263795}


Epoch 5/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.35it/s]


Losses at iteration 5: {'ner': 1737.9883552034773}


Epoch 6/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.42it/s]


Losses at iteration 6: {'ner': 1732.2091213155745}


Epoch 7/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.52it/s]


Losses at iteration 7: {'ner': 2097.3187218769667}


Epoch 8/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.65it/s]


Losses at iteration 8: {'ner': 1762.4969708169756}


Epoch 9/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.35it/s]


Losses at iteration 9: {'ner': 1651.457532639859}


Epoch 10/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.34it/s]


Losses at iteration 10: {'ner': 1396.6416685110203}


Epoch 11/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.51it/s]


Losses at iteration 11: {'ner': 1326.6852242617147}


Epoch 12/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.43it/s]


Losses at iteration 12: {'ner': 1300.8497266876084}


Epoch 13/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.42it/s]


Losses at iteration 13: {'ner': 1184.2621134640194}


Epoch 14/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.49it/s]


Losses at iteration 14: {'ner': 1085.0099764738254}


Epoch 15/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.44it/s]


Losses at iteration 15: {'ner': 1035.2215345330383}


Epoch 16/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.51it/s]


Losses at iteration 16: {'ner': 1020.0406504169631}


Epoch 17/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.49it/s]


Losses at iteration 17: {'ner': 1002.0265995453595}


Epoch 18/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.58it/s]


Losses at iteration 18: {'ner': 951.1462631439853}


Epoch 19/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.77it/s]


Losses at iteration 19: {'ner': 949.6391968542389}


Epoch 20/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.31it/s]


Losses at iteration 20: {'ner': 861.7127685500427}


Epoch 21/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.46it/s]


Losses at iteration 21: {'ner': 920.2282473372019}


Epoch 22/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.61it/s]


Losses at iteration 22: {'ner': 873.2736654983618}


Epoch 23/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.40it/s]


Losses at iteration 23: {'ner': 824.3648464399347}


Epoch 24/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.52it/s]


Losses at iteration 24: {'ner': 824.6706763498221}


Epoch 25/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.45it/s]


Losses at iteration 25: {'ner': 726.9317719605243}


Epoch 26/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.55it/s]


Losses at iteration 26: {'ner': 788.0715890693598}


Epoch 27/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.60it/s]


Losses at iteration 27: {'ner': 777.4427718879951}


Epoch 28/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.59it/s]


Losses at iteration 28: {'ner': 728.2508650910908}


Epoch 29/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.27it/s]


Losses at iteration 29: {'ner': 715.2595723964847}


Epoch 30/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.70it/s]


Losses at iteration 30: {'ner': 710.7302162711746}


Epoch 31/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.53it/s]


Losses at iteration 31: {'ner': 680.3778547799928}


Epoch 32/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.50it/s]


Losses at iteration 32: {'ner': 675.7990020663821}


Epoch 33/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.42it/s]


Losses at iteration 33: {'ner': 615.3241275317213}


Epoch 34/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.44it/s]


Losses at iteration 34: {'ner': 632.8903257150353}


Epoch 35/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.59it/s]


Losses at iteration 35: {'ner': 701.8050871130508}


Epoch 36/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.63it/s]


Losses at iteration 36: {'ner': 648.7347777622817}


Epoch 37/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.45it/s]


Losses at iteration 37: {'ner': 594.0301093640117}


Epoch 38/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.62it/s]


Losses at iteration 38: {'ner': 585.0135418120246}


Epoch 39/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.77it/s]


Losses at iteration 39: {'ner': 604.0209510417044}


Epoch 40/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.29it/s]


Losses at iteration 40: {'ner': 561.0684273673809}


Epoch 41/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.26it/s]


Losses at iteration 41: {'ner': 572.2716991607514}


Epoch 42/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.74it/s]


Losses at iteration 42: {'ner': 553.1046346154362}


Epoch 43/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.40it/s]


Losses at iteration 43: {'ner': 585.0661528687168}


Epoch 44/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.67it/s]


Losses at iteration 44: {'ner': 573.9408224950101}


Epoch 45/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.44it/s]


Losses at iteration 45: {'ner': 562.1013577079467}


Epoch 46/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.47it/s]


Losses at iteration 46: {'ner': 511.45210655697883}


Epoch 47/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.21it/s]


Losses at iteration 47: {'ner': 517.4229929111277}


Epoch 48/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.41it/s]


Losses at iteration 48: {'ner': 535.1016926802455}


Epoch 49/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.55it/s]


Losses at iteration 49: {'ner': 455.97684586606016}


Epoch 50/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.20it/s]


Losses at iteration 50: {'ner': 536.4052928280278}


Epoch 51/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.45it/s]


Losses at iteration 51: {'ner': 486.8542444423397}


Epoch 52/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.52it/s]


Losses at iteration 52: {'ner': 496.86910501579376}


Epoch 53/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.33it/s]


Losses at iteration 53: {'ner': 489.0245158150512}


Epoch 54/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.48it/s]


Losses at iteration 54: {'ner': 479.9346684057271}


Epoch 55/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.48it/s]


Losses at iteration 55: {'ner': 437.14854579223515}


Epoch 56/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.54it/s]


Losses at iteration 56: {'ner': 470.4558224457894}


Epoch 57/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.24it/s]


Losses at iteration 57: {'ner': 442.7771358887137}


Epoch 58/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.23it/s]


Losses at iteration 58: {'ner': 418.3656904424388}


Epoch 59/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.12it/s]


Losses at iteration 59: {'ner': 466.19306099557093}


Epoch 60/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.31it/s]


Losses at iteration 60: {'ner': 485.548130278464}


Epoch 61/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.33it/s]


Losses at iteration 61: {'ner': 430.4567929772577}


Epoch 62/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.40it/s]


Losses at iteration 62: {'ner': 472.4799043585438}


Epoch 63/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.16it/s]


Losses at iteration 63: {'ner': 418.7188649480503}


Epoch 64/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.45it/s]


Losses at iteration 64: {'ner': 401.71520427528}


Epoch 65/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.14it/s]


Losses at iteration 65: {'ner': 429.39294983107374}


Epoch 66/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.30it/s]


Losses at iteration 66: {'ner': 446.6395646225307}


Epoch 67/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.29it/s]


Losses at iteration 67: {'ner': 394.35512313256345}


Epoch 68/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.30it/s]


Losses at iteration 68: {'ner': 379.8046131410174}


Epoch 69/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.22it/s]


Losses at iteration 69: {'ner': 452.1034354831338}


Epoch 70/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.21it/s]


Losses at iteration 70: {'ner': 426.5699966899464}


Epoch 71/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.24it/s]


Losses at iteration 71: {'ner': 439.82567333384077}


Epoch 72/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.39it/s]


Losses at iteration 72: {'ner': 388.5308286078206}


Epoch 73/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  7.97it/s]


Losses at iteration 73: {'ner': 390.96356281713173}


Epoch 74/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.24it/s]


Losses at iteration 74: {'ner': 377.4042324936142}


Epoch 75/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.41it/s]


Losses at iteration 75: {'ner': 414.02199923927304}


Epoch 76/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.32it/s]


Losses at iteration 76: {'ner': 403.0330686350362}


Epoch 77/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  7.79it/s]


Losses at iteration 77: {'ner': 362.0945489537054}


Epoch 78/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.40it/s]


Losses at iteration 78: {'ner': 399.7045049790223}


Epoch 79/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.63it/s]


Losses at iteration 79: {'ner': 383.64950958567965}


Epoch 80/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.49it/s]


Losses at iteration 80: {'ner': 382.06649260713294}


Epoch 81/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.58it/s]


Losses at iteration 81: {'ner': 385.2451934744285}


Epoch 82/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.55it/s]


Losses at iteration 82: {'ner': 393.1815336887946}


Epoch 83/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.33it/s]


Losses at iteration 83: {'ner': 410.36038847439454}


Epoch 84/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.42it/s]


Losses at iteration 84: {'ner': 395.31389200395574}


Epoch 85/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.84it/s]


Losses at iteration 85: {'ner': 370.90797491763595}


Epoch 86/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.36it/s]


Losses at iteration 86: {'ner': 368.1899958385145}


Epoch 87/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.49it/s]


Losses at iteration 87: {'ner': 362.04961075482964}


Epoch 88/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.39it/s]


Losses at iteration 88: {'ner': 342.8105238788495}


Epoch 89/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:07<00:00,  8.40it/s]


Losses at iteration 89: {'ner': 378.1687234802012}


Epoch 90/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.50it/s]


Losses at iteration 90: {'ner': 357.1976993380255}


Epoch 91/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.44it/s]


Losses at iteration 91: {'ner': 346.53015387176436}


Epoch 92/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.50it/s]


Losses at iteration 92: {'ner': 334.74971229176987}


Epoch 93/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.49it/s]


Losses at iteration 93: {'ner': 437.9549466774081}


Epoch 94/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.55it/s]


Losses at iteration 94: {'ner': 354.53501362959963}


Epoch 95/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.45it/s]


Losses at iteration 95: {'ner': 365.1813563246813}


Epoch 96/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.64it/s]


Losses at iteration 96: {'ner': 371.1603304050638}


Epoch 97/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.46it/s]


Losses at iteration 97: {'ner': 314.88151650906326}


Epoch 98/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.59it/s]


Losses at iteration 98: {'ner': 355.75479916283894}


Epoch 99/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.61it/s]


Losses at iteration 99: {'ner': 339.0287944233665}


Epoch 100/100: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 59/59 [00:06<00:00,  8.56it/s]


Losses at iteration 100: {'ner': 339.607340809433}


In [53]:
precision = correct / total if total > 0 else 0
print(f"Baseline precision: {precision:.3f}")

Baseline precision: 0.576


In [54]:
example_text = random.choice(test_data)[0]
doc = nlp(example_text)
print("\nüîç Example predictions:")
for ent in doc.ents:
    print(f"{ent.text:<30} ‚Üí {ent.label_}")


üîç Example predictions:
Full Stack Developer           ‚Üí ROLE
Python+Angular                 ‚Üí SKILL_HARD
4+ years of experience         ‚Üí EXPERIENCE_YEARS
Python                         ‚Üí SKILL_HARD
Django                         ‚Üí SKILL_HARD
3+ years of experience         ‚Üí EXPERIENCE_YEARS
PostgreSQL                     ‚Üí SKILL_HARD
RDBMS                          ‚Üí SKILL_HARD
SQL                            ‚Üí SKILL_HARD
AWS                            ‚Üí SKILL_HARD
Azure                          ‚Üí SKILL_HARD
REST API                       ‚Üí SKILL_HARD
Aiohttp                        ‚Üí SKILL_HARD
FastAPI                        ‚Üí SKILL_HARD
4+ years of experience         ‚Üí EXPERIENCE_YEARS
Angular.                       ‚Üí SKILL_HARD
HTML                           ‚Üí SKILL_HARD
CSS                            ‚Üí SKILL_HARD
SCSS                           ‚Üí SKILL_HARD
JavaScript                     ‚Üí SKILL_HARD
TypeScript.                    ‚Üí SKILL_

In [None]:
examples = []
for text, annotations in test_data:
    doc = nlp.make_doc(text)
    examples.append(Example.from_dict(doc, annotations))

scorer = nlp.evaluate(examples)

print("\nüìä Evaluation results:")
print(f"Precision: {scorer['ents_p']:.3f}")
print(f"Recall:    {scorer['ents_r']:.3f}")
print(f"F-score:   {scorer['ents_f']:.3f}")
print(f"Entities per type:\n{scorer['ents_per_type']}")


üìä Evaluation results:
Precision: 0.676
Recall:    0.630
F-score:   0.652
Entities per type:
{'ROLE': {'p': 0.48, 'r': 0.631578947368421, 'f': 0.5454545454545454}, 'SKILL_HARD': {'p': 0.7772020725388601, 'r': 0.6912442396313364, 'f': 0.7317073170731708}, 'EXPERIENCE_YEARS': {'p': 0.6923076923076923, 'r': 0.6428571428571429, 'f': 0.6666666666666666}, 'SKILL_SOFT': {'p': 0.3333333333333333, 'r': 0.3125, 'f': 0.3225806451612903}, 'BENEFIT': {'p': 0.5573770491803278, 'r': 0.576271186440678, 'f': 0.5666666666666667}, 'EXPERIENCE_LEVEL': {'p': 1.0, 'r': 0.7777777777777778, 'f': 0.8750000000000001}, 'ENGLISH_LEVEL': {'p': 0.6666666666666666, 'r': 0.5, 'f': 0.5714285714285715}, 'LOCATION': {'p': 0.2, 'r': 0.5, 'f': 0.28571428571428575}, 'COMPANY': {'p': 0.0, 'r': 0.0, 'f': 0.0}, 'DEGREE': {'p': 0.0, 'r': 0.0, 'f': 0.0}}
