## Load Packages

In [46]:
from __future__ import unicode_literals, print_function
import plac
import random
from pathlib import Path
import spacy
from tqdm import tqdm 

In [47]:
nlp1 = spacy.load('en_core_web_sm')

## Working of NER

In [48]:
docx1 = nlp1(u"Who is Nishanth?")

In [49]:
for token in docx1.ents:
    print(token.text,token.start_char, token.end_char,token.label_)

In [50]:
docx2 = nlp1(u"Who is Kamal Khumar?")

In [51]:
for token in docx2.ents:
    print(token.text,token.start_char, token.end_char,token.label_)

Kamal Khumar 7 19 PERSON


## Train Data

In [52]:
TRAIN_DATA = [
    ('I am taking COSC 301', {
        'entities': [(12, 20, 'COR')]
    }),
    ('I am taking PHIL 331', {
        'entities': [(12, 20, 'COR')]
    }),
    ('I am taking DATA 301', {
        'entities': [(12, 20, 'COR')]
    })
]

TEST_DATA = [
     ('How is APSC 178?', {
        'entities': [(7, 15, 'PER')]
    }),
     ('Who is COSC 554?', {
        'entities': [(7, 19, 'PER')]
    }),
    ('I like London and Berlin.', {
        'entities': [(7, 13, 'LOC'), (18, 24, 'LOC')]
    }),
    ('I am taking PHIL 331', {
        'entities': [(12, 20, 'COR')]
    })
]

## Define our variables

In [53]:
model = None
# output_dir=Path("C:\\Users\\nithi\\Documents\\ner")
output_dir=Path("NerModels")
n_iter=100

## Load the model

In [54]:
if model is not None:
    nlp = spacy.load(model)  
    print("Loaded model '%s'" % model)
else:
    nlp = spacy.blank('en')  
    print("Created blank 'en' model")

Created blank 'en' model


## Set up the pipeline

In [55]:
if 'ner' not in nlp.pipe_names:
    ner = nlp.create_pipe('ner')
    nlp.add_pipe('ner')
else:
    ner = nlp.get_pipe('ner')

## Train the Recognizer

In [56]:
from spacy.training import Example

for _, annotations in TRAIN_DATA:
    for ent in annotations.get('entities'):
        ner.add_label(ent[2])

other_pipes = [pipe for pipe in nlp.pipe_names if pipe != 'ner']
with nlp.disable_pipes(*other_pipes):  # only train NER
    optimizer = nlp.begin_training()
    for itn in range(n_iter):
        random.shuffle(TRAIN_DATA)
        losses = {}
        for text, annotations in tqdm(TRAIN_DATA):
            example = Example.from_dict(nlp.make_doc(text), annotations)
            nlp.update(
                [example],  
                drop=0.5,  
                sgd=optimizer,
                losses=losses)
        print(losses)

100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 43.79it/s]


{'ner': 4.166666865348816}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 68.77it/s]


{'ner': 3.9944300055503845}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 66.37it/s]


{'ner': 3.915928840637207}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 57.60it/s]


{'ner': 3.6728473901748657}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 70.18it/s]


{'ner': 3.428156614303589}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 62.57it/s]


{'ner': 3.2382309436798096}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 72.40it/s]


{'ner': 3.1738733053207397}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 67.67it/s]


{'ner': 3.1329787373542786}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 68.76it/s]


{'ner': 2.688926547765732}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 57.80it/s]


{'ner': 2.647943437099457}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 69.83it/s]


{'ner': 2.298266112804413}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 60.08it/s]


{'ner': 2.23814594745636}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 71.36it/s]


{'ner': 2.4646068811416626}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 57.40it/s]


{'ner': 2.0268581062555313}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 68.96it/s]


{'ner': 1.5732269883155823}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 64.79it/s]


{'ner': 1.9605977088212967}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 60.96it/s]


{'ner': 1.621009685099125}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 40.04it/s]


{'ner': 1.5713754836469889}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 58.08it/s]


{'ner': 1.339429683983326}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 65.79it/s]


{'ner': 1.4859864739701152}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 52.11it/s]


{'ner': 1.18057481944561}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 71.57it/s]


{'ner': 0.974651463329792}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 61.42it/s]


{'ner': 1.4578102119266987}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 73.75it/s]


{'ner': 1.1534835619386286}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 63.91it/s]


{'ner': 1.2478820802643895}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 68.04it/s]


{'ner': 0.7813186245039105}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 60.47it/s]


{'ner': 0.8013015426695347}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 59.79it/s]


{'ner': 0.7687129239784554}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 40.47it/s]


{'ner': 1.3323974308295874}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 60.05it/s]


{'ner': 0.6631700199868646}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 65.60it/s]


{'ner': 2.3198561390745454}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 56.77it/s]


{'ner': 2.3436418445926392}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 61.51it/s]


{'ner': 0.6402876449283212}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 60.04it/s]


{'ner': 0.7201148266904056}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 45.79it/s]


{'ner': 2.3841018605744466}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 50.79it/s]


{'ner': 2.035046835197136}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 48.01it/s]


{'ner': 2.4396185722289374}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 42.27it/s]


{'ner': 1.0278631546534598}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 39.78it/s]


{'ner': 1.789480411709519}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 38.29it/s]


{'ner': 1.6492533824639395}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 36.64it/s]


{'ner': 0.9289405936697221}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 33.00it/s]


{'ner': 1.3955099156009965}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 34.13it/s]


{'ner': 1.0771950849884888}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 34.71it/s]


{'ner': 0.3871387318940833}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 43.93it/s]


{'ner': 0.34621195341605926}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 40.21it/s]


{'ner': 0.3859894487832207}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 38.52it/s]


{'ner': 0.6522058093396481}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 42.20it/s]


{'ner': 0.6728753570641857}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 48.60it/s]


{'ner': 0.2940036207655794}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 48.38it/s]


{'ner': 0.18874847935512662}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 43.83it/s]


{'ner': 0.026316111314372392}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 43.77it/s]


{'ner': 0.006225076358532533}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 49.33it/s]


{'ner': 0.042634668410755694}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 51.57it/s]


{'ner': 0.07989732107671443}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 48.09it/s]


{'ner': 0.0021323831169866025}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 50.76it/s]


{'ner': 0.0016329141581081785}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 54.00it/s]


{'ner': 0.005780318409961183}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 50.36it/s]


{'ner': 0.0060197333004907705}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 50.09it/s]


{'ner': 0.006611428295343558}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 54.11it/s]


{'ner': 0.0004114090160696193}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 51.78it/s]


{'ner': 0.001969255230305309}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 52.46it/s]


{'ner': 0.0005580245898810787}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 56.07it/s]


{'ner': 7.004676904090744e-06}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 50.21it/s]


{'ner': 2.5033761043855935e-05}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 55.23it/s]


{'ner': 9.695623233873381e-06}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 50.20it/s]


{'ner': 3.2709642972597597e-06}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 50.50it/s]


{'ner': 3.951374549370182e-08}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 51.65it/s]


{'ner': 2.4189676382575545e-07}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 50.90it/s]


{'ner': 1.3939844795160115e-08}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 51.36it/s]


{'ner': 1.209710466693792e-07}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 49.80it/s]


{'ner': 2.664947526298837e-10}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 49.78it/s]


{'ner': 2.797058447530955e-07}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 49.77it/s]


{'ner': 5.2759582799767526e-08}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 49.59it/s]


{'ner': 1.0267986715807796e-08}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 50.37it/s]


{'ner': 4.457458767837492e-08}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 47.22it/s]


{'ner': 4.5995538733755665e-09}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 52.32it/s]


{'ner': 2.1788188422103917e-08}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 49.50it/s]


{'ner': 1.0063955286165893e-11}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 52.68it/s]


{'ner': 2.5325024982095664e-09}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 54.43it/s]


{'ner': 3.692300349798436e-09}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 48.22it/s]


{'ner': 7.051943738347166e-11}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 51.52it/s]


{'ner': 7.248474962267278e-07}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 53.95it/s]


{'ner': 8.00222718197772e-09}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 52.71it/s]


{'ner': 4.81662299463152e-10}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 51.53it/s]


{'ner': 6.748451340323392e-11}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 51.12it/s]


{'ner': 4.95176293830677e-09}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 49.18it/s]


{'ner': 8.472937580782471e-07}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 50.04it/s]


{'ner': 3.15344197226017e-08}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 46.90it/s]


{'ner': 3.4296038462491105e-11}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 49.99it/s]


{'ner': 3.411994698254081e-09}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 47.52it/s]


{'ner': 2.377279402530837e-09}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 49.69it/s]


{'ner': 1.7476393902926006e-12}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 46.93it/s]


{'ner': 9.550208285188889e-11}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 47.97it/s]


{'ner': 4.056363015288456e-09}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 51.64it/s]


{'ner': 5.720370256392525e-10}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 49.81it/s]


{'ner': 4.531830548723817e-10}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 48.94it/s]


{'ner': 1.1407140488314843e-09}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 52.43it/s]


{'ner': 1.375946801540422e-09}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 49.22it/s]


{'ner': 1.8166052551224249e-10}


100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 48.86it/s]

{'ner': 1.4412927726642419e-10}





## Test the trained model

In [57]:
for text, _ in TRAIN_DATA:
    doc = nlp(text)
    print('Entities', [(ent.text, ent.label_) for ent in doc.ents])
    print('Tokens', [(t.text, t.ent_type_, t.ent_iob) for t in doc])

Entities [('COSC 301', 'COR')]
Tokens [('I', '', 2), ('am', '', 2), ('taking', '', 2), ('COSC', 'COR', 3), ('301', 'COR', 1)]


## Save the model

In [58]:
if output_dir is not None:
    output_dir = Path(output_dir)
    if not output_dir.exists():
        output_dir.mkdir()
    nlp.to_disk(output_dir)
    print("Saved model to", output_dir)        

Saved model to NerModels


## Test the saved model

In [59]:
print("Loading from", output_dir)
nlp2 = spacy.load(output_dir)
for text, _ in TEST_DATA:
    doc = nlp2(text)
    print('Entities', [(ent.text, ent.label_) for ent in doc.ents])
    print('Tokens', [(t.text, t.ent_type_, t.ent_iob) for t in doc])

Loading from NerModels
Entities [('Nishanth?', 'COR')]
Tokens [('Who', '', 2), ('is', '', 2), ('Nishanth', 'COR', 3), ('?', 'COR', 1)]
Entities [('is Kamal', 'COR')]
Tokens [('Who', '', 2), ('is', 'COR', 3), ('Kamal', 'COR', 1), ('Khumar', '', 2), ('?', '', 2)]
Entities [('.', 'COR')]
Tokens [('I', '', 2), ('like', '', 2), ('London', '', 2), ('and', '', 2), ('Berlin', '', 2), ('.', 'COR', 3)]
Entities [('PHIL 331', 'COR')]
Tokens [('I', '', 2), ('am', '', 2), ('taking', '', 2), ('PHIL', 'COR', 3), ('331', 'COR', 1)]
