## Updating our NER

1. Load the model
spacy.load('en')
2. Disable existing pipeline
spacy.blank('en')
3. Add entity recognizer to pipeline
4. Shuffle and loop over the examples
5. update the model(nlp.update)
6. Save the trained model(nlp.to_disk)
7. Test the model

In [1]:
# Load the packages
from __future__ import unicode_literals, print_function
import plac
import random
from pathlib import Path
import spacy
from tqdm import tqdm

In [2]:
nlp1 = spacy.load('en')

In [3]:
docx1 = nlp1(u"Who was Kofi Annan?")

In [4]:
for ent in docx1.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Kofi Annan 8 18 PERSON


In [5]:
docx2 = nlp1(u"Who is Steave Jobs?")

In [6]:
for ent1 in docx2.ents:
    print(ent1.text, ent1.start_char, ent1.end_char, ent1.label_)

Steave Jobs 7 18 PERSON


In [7]:
docx3 = nlp1(u"Who is Shaka Khan?")

In [8]:
for ent1 in docx3.ents:
    print(ent1.text, ent1.start_char, ent1.end_char, ent1.label_)

Shaka Khan 7 17 PERSON


In [9]:
TRAIN_DATA = [
    ("Who is Kofi Annan?",{
        "entities":[(8,18,'PERSON')]
    }),
    ("Who is Steve Jobs?",{
        "entities":[(7,17,'PERSON')]
    }),
    ("I like London and Berlin",{
        "entities":[(7,13,'LOC'),(18,24,'LOC')]
    })
]

In [10]:
#Define variables
model = None
output_dir = "F:\Practice"
n_iter = 100

### Load the model

In [11]:
if model is not None:
    nlp = spacy.load(model) #Load existing spacy model
    print("Loaded model '%s'" % model)
else:
    nlp = spacy.blank('en') #Create blank Language class
    print("Created blank 'en' model")

Created blank 'en' model


### Set Up the Pipeline

In [12]:
# Create a built-in pipeline components and add them to the pipeline
    # nlp.create_pipe works for built-ins that are registered with spacy
if 'ner' not in nlp.pipe_names:
    ner = nlp.create_pipe('ner')
    nlp.add_pipe(ner, last=True)
else:
    ner = nlp.get_pipe('ner')

### Train the recognizer

1. Add Lables, Annotate them
2. Pipes
3. Begin_training()

In [13]:
for _, annotations in TRAIN_DATA:
    for ent in annotations.get('entities'):
        ner.add_label(ent[2])
        
# get names of other pipes to disable them during the training
other_pipes = [pipe for pipe in nlp.pipe_names if pipe != 'ner']
with nlp.disable_pipes(*other_pipes):
    optimizer  = nlp.begin_training()
    for itn in range(n_iter):
        random.shuffle(TRAIN_DATA)
        losses = {}
        for text, annotations in tqdm(TRAIN_DATA):
            nlp.update(
                [text],
                [annotations],
                drop=0.5,
                sgd = optimizer,
                losses=losses
            )
            print(losses)

  **kwargs
  gold = GoldParse(doc, **gold)
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 18.68it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 2.233333185315132}
{'ner': 6.644745662808418}
{'ner': 11.10265327990055}
{'ner': 4.1645538210868835}
{'ner': 6.163050480186939}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.14it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.07it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 10.247451968491077}
{'ner': 3.770753860473633}
{'ner': 5.493203289806843}
{'ner': 8.845895953476429}
{'ner': 3.835399806499481}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.07it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.46it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 5.378190614283085}
{'ner': 8.276243932545185}
{'ner': 3.0292221009731293}
{'ner': 4.245723919942975}
{'ner': 6.575709806755185}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.93it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 1.9472825974225998}
{'ner': 2.083846049150452}
{'ner': 5.408363947411999}
{'ner': 2.0990892723202705}
{'ner': 2.2834670967422426}
{'ner': 5.128944538999349}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.71it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 26.86it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 1.2658481351099908}
{'ner': 1.3236489596311003}
{'ner': 3.7360399230383337}
{'ner': 0.026213613571599126}
{'ner': 1.4797004403080791}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 22.96it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 22.96it/s]


{'ner': 4.787667702650651}
{'ner': 0.0010734115276136436}
{'ner': 1.670704225616646}
{'ner': 3.908980363587034}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 22.79it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.66it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 3.4570490014739335}
{'ner': 3.545347497019975}
{'ner': 5.238963470947056}
{'ner': 3.0647193025797606}
{'ner': 4.858257639178191}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.26it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.07it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 4.875990493613273}
{'ner': 0.00011011223067152603}
{'ner': 2.301122992632357}
{'ner': 4.23553502081448}
{'ner': 1.8060306321422104}
{'ner': 3.8124012352491263}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.28it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.69it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 3.8200345456281184}
{'ner': 0.0002849904817026072}
{'ner': 2.2899802478027027}
{'ner': 3.7531985812728976}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.66it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 7.698144713685906e-05}
{'ner': 1.4387778744096522}
{'ner': 3.0563482784484677}
{'ner': 2.344652862288058}
{'ner': 3.215100412227912}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.28it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 21.18it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 3.217050392811263}
{'ner': 1.6807841358523063}
{'ner': 1.6810942118504946}
{'ner': 3.0958506514185036}
{'ner': 0.004246457886416977}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.14it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 0.7537855541658942}
{'ner': 2.098290269778751}
{'ner': 2.2504976273185093}
{'ner': 3.0496756782076773}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 20.88it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 27.35it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 3.0502864731520845}
{'ner': 0.00711280276406967}
{'ner': 3.4573806060408714}
{'ner': 5.121985572686}
{'ner': 0.6492663715216622}
{'ner': 0.6494419429010492}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 22.28it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 27.10it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 3.2176199803153764}
{'ner': 0.8022564889324713}
{'ner': 0.8022616674808929}
{'ner': 3.5154180525066336}
{'ner': 2.777770186379591e-05}
{'ner': 0.6574268497047953}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.87it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.26it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 1.606145376042211}
{'ner': 0.00010498105056013364}
{'ner': 0.1441081402079244}
{'ner': 0.9660146484906201}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 26.62it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 0.2283573957392946}
{'ner': 0.22845547567769753}
{'ner': 2.4836282963787104}
{'ner': 0.9470515840828284}
{'ner': 0.9971929285945862}
{'ner': 0.9972211067034108}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.93it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 27.85it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 0.06090162678094657}
{'ner': 2.2011661916733942}
{'ner': 2.201168126794798}
{'ner': 2.3439284831808536}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 22.28it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.93it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 2.3439497510811202}
{'ner': 2.3790471226569503}
{'ner': 0.29198082558895067}
{'ner': 2.9070723036140294}
{'ner': 2.9071136964886928}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 21.04it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 0.00010255344010801082}
{'ner': 0.00010652816261325082}
{'ner': 1.317172651665468}
{'ner': 2.9023996107512997}
{'ner': 2.9653317412291473}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.07it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 27.85it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 2.965465270044944}
{'ner': 4.199382730510348e-07}
{'ner': 0.0005106446538421031}
{'ner': 1.9649604759120494}
{'ner': 0.0018831294129162401}
{'ner': 0.0019565422598813243}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.69it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 2.0953970879547628}
{'ner': 1.6976462105114365}
{'ner': 1.697646667102013}
{'ner': 1.6991950966344667}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 22.96it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 27.35it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 1.3775196420476274}
{'ner': 1.3781953434551648}
{'ner': 1.3782074766491446}
{'ner': 0.002692656898830137}
{'ner': 0.002698187241118255}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 21.96it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.07it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 0.9426900141930606}
{'ner': 0.7468161964821598}
{'ner': 0.7468198021138553}
{'ner': 0.749514351908839}
{'ner': 3.1398388305951093}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.50it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 27.10it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 3.1398388514970925}
{'ner': 3.1398396318522956}
{'ner': 0.15473957141034378}
{'ner': 0.15479339501720252}
{'ner': 0.15479499030933208}
{'ner': 6.163748117848922e-06}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.86it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 6.4218057750169664e-06}
{'ner': 1.3379427270075481}
{'ner': 2.994548927995816}
{'ner': 2.9947361512708843}
{'ner': 2.995735895860734}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 26.62it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.06it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 0.11102694681640615}
{'ner': 0.1120503071375249}
{'ner': 0.44615644233329727}
{'ner': 0.23188290986864046}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.49it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 22.12it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 0.23188673903486992}
{'ner': 0.23188734246250584}
{'ner': 1.4228235040532854e-05}
{'ner': 0.05035392830070937}
{'ner': 0.05521736087182255}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.93it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 0.09043875928084391}
{'ner': 0.09043875978564599}
{'ner': 0.09044271207633581}
{'ner': 3.483270481287223e-11}
{'ner': 0.0004443537610964835}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.87it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 27.60it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 0.3831243168801215}
{'ner': 6.371359744239413e-05}
{'ner': 0.05429403659212723}
{'ner': 0.055970672597483846}
{'ner': 1.191284811256785e-05}
{'ner': 0.00011500283651496749}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.46it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 26.86it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 0.00031278112409815833}
{'ner': 0.009847016232696227}
{'ner': 0.009847168786974477}
{'ner': 0.009847286076295958}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.50it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 1.8796066268782554}
{'ner': 1.8796080563619373}
{'ner': 1.879620558419504}
{'ner': 0.18205595613769282}
{'ner': 0.18263496351535588}
{'ner': 0.18431113206775385}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.23it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.06it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 0.00011584616168081041}
{'ner': 0.00011872036811969022}
{'ner': 0.00011941410164578951}
{'ner': 1.2471220286070644e-08}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.26it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.87it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 1.9159740743533302}
{'ner': 1.9182851691698635}
{'ner': 2.6979016817337094e-05}
{'ner': 2.812490210386437e-05}
{'ner': 3.0303232981606065e-05}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.32it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 0.015563323676600408}
{'ner': 0.01556332379588713}
{'ner': 0.015564655248060302}
{'ner': 1.0581955105791752}
{'ner': 1.0760057928127957}
{'ner': 1.0760887583288654}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 26.39it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 26.86it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 3.895684957643375e-06}
{'ner': 1.9708348139931093}
{'ner': 1.9708379638206268}
{'ner': 0.00010411949994977068}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.14it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 27.10it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 0.00010422814937761713}
{'ner': 0.00010602767969052346}
{'ner': 1.356491967940851e-07}
{'ner': 0.005290072701388033}
{'ner': 0.005303232959093361}
{'ner': 4.03411440378525e-09}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 26.86it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 2.1715550787477687e-05}
{'ner': 0.005315065373398754}
{'ner': 2.6193795911159013e-06}
{'ner': 2.9658831835675713e-06}
{'ner': 1.9945086529966527}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 26.62it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.07it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 2.861128967561596e-05}
{'ner': 2.8878575942762713e-05}
{'ner': 0.0005932703483225945}
{'ner': 0.000821728186568824}
{'ner': 0.016501053953662578}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 26.16it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.26it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 0.016501062244370323}
{'ner': 0.015481602172932651}
{'ner': 0.015547480437030506}
{'ner': 0.015547481500364274}
{'ner': 0.00013707812437949724}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 27.35it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.71it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 0.0001637047720091434}
{'ner': 0.00016370559639748917}
{'ner': 0.0004132857721710067}
{'ner': 0.0004145720477278607}
{'ner': 0.0004146423862589881}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.86it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 2.533883287418717e-07}
{'ner': 4.936818409409636e-07}
{'ner': 2.9203435794152795e-06}
{'ner': 1.0420207040649387}
{'ner': 1.0427236627693013}
{'ner': 1.0427236691181088}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.26it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.46it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 3.246216482857237e-09}
{'ner': 9.685025010301745e-08}
{'ner': 1.4677455098634893e-07}
{'ner': 4.671798526783037e-11}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.49it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 5.939011625695396e-10}
{'ner': 5.955114435618465e-10}
{'ner': 0.050024183430302974}
{'ner': 0.05355623104542389}
{'ner': 0.0535562312227175}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 21.80it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.66it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 0.00045241447068699225}
{'ner': 0.00045351003291935427}
{'ner': 0.8792256476613405}
{'ner': 2.678614443086e-07}
{'ner': 2.726149107866263e-07}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 26.62it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 27.35it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 0.00015354966717516427}
{'ner': 1.5191135040911905e-13}
{'ner': 0.3228254185720489}
{'ner': 0.3416340386705275}
{'ner': 1.1820020643160931}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 26.62it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 1.1820022049427492}
{'ner': 1.1820196948243775}
{'ner': 7.077768068296833e-10}
{'ner': 0.001540309483379974}
{'ner': 0.0015475740544418132}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.26it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.87it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 2.7036349489025532e-05}
{'ner': 7.005026949027579e-05}
{'ner': 8.768450624219454e-05}
{'ner': 1.7265330327094887e-11}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 22.62it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.49it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 1.4247999107020596e-05}
{'ner': 1.424802146363186e-05}
{'ner': 3.1346102953349738e-09}
{'ner': 2.1034632483959868e-05}
{'ner': 2.103490110753565e-05}
{'ner': 7.19120648114889e-07}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 26.39it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 0.00015786283971555134}
{'ner': 0.00015786289586078536}
{'ner': 6.089850943354063e-08}
{'ner': 0.8881851760015939}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 21.18it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.87it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 0.8881851846741732}
{'ner': 6.929964694522856e-10}
{'ner': 5.17094670927761e-07}
{'ner': 1.4559733688436527}
{'ner': 3.356107742126587e-08}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.86it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 27.85it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 3.356141589086198e-08}
{'ner': 0.006854918398828352}
{'ner': 9.943388864836372e-09}
{'ner': 0.0005543225710027383}
{'ner': 0.8600532462219433}
{'ner': 0.16498068862294754}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.87it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 0.16507537305846237}
{'ner': 0.8530733554028684}
{'ner': 0.04342428853045384}
{'ner': 0.04342767004617869}
{'ner': 0.1935536378406344}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 27.85it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 21.96it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 1.0500293934928867e-10}
{'ner': 1.9756630160146582e-10}
{'ner': 0.00016193514618682706}
{'ner': 0.025280200366434677}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.46it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 0.02528020036645581}
{'ner': 0.025321675866897965}
{'ner': 3.715992420554005e-14}
{'ner': 4.343235099561846e-05}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.68it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.46it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 4.35837969200221e-05}
{'ner': 1.8372885743852443e-11}
{'ner': 0.011478576827636337}
{'ner': 0.011478589103479311}
{'ner': 3.278554073970651e-06}
{'ner': 3.4554466190946714e-06}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.06it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 26.86it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 3.4891638239313e-06}
{'ner': 1.3398651135013546e-06}
{'ner': 1.7250755889213675e-05}
{'ner': 0.00012197505968356596}
{'ner': 0.005387448422350276}
{'ner': 0.005388112714437117}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.26it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.14it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 0.005390102657164876}
{'ner': 8.539411180337594e-09}
{'ner': 2.0924914143376323e-08}
{'ner': 2.0924946935471783e-08}
{'ner': 9.413010267235255e-10}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.06it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 3.0352563153343603e-05}
{'ner': 3.0353484023947786e-05}
{'ner': 9.052883734912892e-14}
{'ner': 6.038578806781103e-08}
{'ner': 6.046117045886386e-08}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 24.26it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 25.71it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]


{'ner': 1.88099904979728e-09}
{'ner': 1.903530307846217e-09}
{'ner': 0.0018577277623803028}
{'ner': 0.004157325069933894}
{'ner': 0.004157349347276583}

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.69it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 23.32it/s]


{'ner': 0.0041573526415310535}
{'ner': 4.564819029361795e-08}
{'ner': 4.5648329345113326e-08}
{'ner': 4.570592439388631e-08}





### Test the trained model

In [14]:
for text, _ in TRAIN_DATA:
    doc = nlp(text)
    print("Entities", [(ent.text, ent.label_) for ent in doc.ents])
    print("tokens", [(t.text, t.ent_type_, t.ent_iob) for t in doc])

Entities [('Kofi Annan', 'PERSON')]
tokens [('Who', '', 2), ('is', '', 2), ('Kofi', 'PERSON', 3), ('Annan', 'PERSON', 1), ('?', '', 2)]
Entities [('London', 'LOC'), ('Berlin', 'LOC')]
tokens [('I', '', 2), ('like', '', 2), ('London', 'LOC', 3), ('and', '', 2), ('Berlin', 'LOC', 3)]
Entities [('Steve Jobs', 'PERSON')]
tokens [('Who', '', 2), ('is', '', 2), ('Steve', 'PERSON', 3), ('Jobs', 'PERSON', 1), ('?', '', 2)]


### Save the model

In [15]:
if output_dir is not None:
    output_dir = Path("F:\Practice\spacy_model")
    if not output_dir.exists():
        output_dir.mkdir()
    nlp.to_disk(output_dir)
    print("Saved model to ", output_dir)

Saved model to  F:\Practice\spacy_model


### Test the saved model

In [16]:
print("Loading from ", output_dir)
nlp2 = spacy.load(output_dir)
for text, _ in TRAIN_DATA:
    doc = nlp2(text)
    print("Entities", [(ent.text, ent.label_) for ent in doc.ents])
    print("tokens", [(t.text, t.ent_type_, t.ent_iob) for t in doc])
    

Loading from  F:\Practice\spacy_model
Entities [('Kofi Annan', 'PERSON')]
tokens [('Who', '', 2), ('is', '', 2), ('Kofi', 'PERSON', 3), ('Annan', 'PERSON', 1), ('?', '', 2)]
Entities [('London', 'LOC'), ('Berlin', 'LOC')]
tokens [('I', '', 2), ('like', '', 2), ('London', 'LOC', 3), ('and', '', 2), ('Berlin', 'LOC', 3)]
Entities [('Steve Jobs', 'PERSON')]
tokens [('Who', '', 2), ('is', '', 2), ('Steve', 'PERSON', 3), ('Jobs', 'PERSON', 1), ('?', '', 2)]
