## Load Packages

In [19]:
from __future__ import unicode_literals, print_function
import plac
import random
from pathlib import Path
import spacy
from tqdm import tqdm 

In [20]:
nlp1 = spacy.load('en_core_web_sm')

## Working of NER

In [21]:
docx1 = nlp1(u"Who is Nishanth?")

In [22]:
for token in docx1.ents:
    print(token.text,token.start_char, token.end_char,token.label_)

In [23]:
docx2 = nlp1(u"Who is Kamal Khumar?")

In [24]:
for token in docx2.ents:
    print(token.text,token.start_char, token.end_char,token.label_)

Kamal Khumar 7 19 PERSON


## Train Data

In [25]:
TRAIN_DATA = [
    ('Who is Nishanth?', {
        'entities': [(7, 15, 'PERSON')]
    }),
     ('Who is Kamal Khumar?', {
        'entities': [(7, 19, 'PERSON')]
    }),
    ('I like London and Berlin.', {
        'entities': [(7, 13, 'LOC'), (18, 24, 'LOC')]
    })
]

## Define our variables

In [26]:
model = None
output_dir=Path("C:\\Users\\Programmer\\Documents\\ner")
n_iter=100

## Load the model

In [27]:
if model is not None:
    nlp = spacy.load(model)  
    print("Loaded model '%s'" % model)
else:
    nlp = spacy.blank('en')  
    print("Created blank 'en' model")

Created blank 'en' model


## Set up the pipeline

In [28]:
if 'ner' not in nlp.pipe_names:
    ner = nlp.create_pipe('ner')
    nlp.add_pipe(ner, last=True)
else:
    ner = nlp.get_pipe('ner')

## Train the Recognizer

In [29]:
for _, annotations in TRAIN_DATA:
    for ent in annotations.get('entities'):
        ner.add_label(ent[2])

other_pipes = [pipe for pipe in nlp.pipe_names if pipe != 'ner']
with nlp.disable_pipes(*other_pipes):  # only train NER
    optimizer = nlp.begin_training()
    for itn in range(n_iter):
        random.shuffle(TRAIN_DATA)
        losses = {}
        for text, annotations in tqdm(TRAIN_DATA):
            nlp.update(
                [text],  
                [annotations],  
                drop=0.5,  
                sgd=optimizer,
                losses=losses)
        print(losses)

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  6.86it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  9.34it/s]

{'ner': 13.246070086956024}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.83it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  7.87it/s]

{'ner': 12.338525474071503}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.85it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  7.35it/s]

{'ner': 11.371423423290253}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  8.38it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  9.54it/s]

{'ner': 9.650845468044281}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  8.80it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  9.26it/s]

{'ner': 7.659150645136833}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.58it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.53it/s]

{'ner': 6.8383303405717015}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.01it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  9.18it/s]

{'ner': 5.651480805128813}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.31it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.23it/s]

{'ner': 6.304899924201891}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.19it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.43it/s]

{'ner': 5.894526727031916}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.07it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.29it/s]

{'ner': 6.119291210081428}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.63it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.39it/s]

{'ner': 4.68204109078215}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.10it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 6.311248958751094}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.41it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.59it/s]

{'ner': 5.31666930555366}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.13it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  9.52it/s]

{'ner': 4.075900070252828}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.31it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  8.40it/s]

{'ner': 3.7525295799132437}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  8.33it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.37it/s]

{'ner': 4.091709232652647}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.12it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.11it/s]

{'ner': 3.333464126539184}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.99it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.56it/s]

{'ner': 4.8671432316768914}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.19it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 10.68it/s]

{'ner': 5.3895191681804135}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.37it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.34it/s]

{'ner': 4.520034280296386}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.19it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.43it/s]

{'ner': 4.296114563396259}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.03it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.91it/s]

{'ner': 2.2451689983272445}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.87it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.49it/s]

{'ner': 2.92824139837694}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.28it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.83it/s]

{'ner': 2.7124892498214592}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.99it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.97it/s]

{'ner': 2.639348518619556}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.58it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 10.93it/s]

{'ner': 2.0956768333292644}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.85it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.89it/s]

{'ner': 1.9302276971279788}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.40it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  9.80it/s]

{'ner': 1.2902385647078916}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.74it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.83it/s]

{'ner': 0.9308090949353511}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.49it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 10.99it/s]

{'ner': 1.857958670956082}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.91it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.43it/s]

{'ner': 1.3331016635328086}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.11it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.63it/s]

{'ner': 2.2791704026200996}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.36it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.50it/s]

{'ner': 1.9218972679239745}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.79it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 10.81it/s]

{'ner': 1.2849566714554133}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.79it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 10.93it/s]

{'ner': 0.6230365356043236}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.95it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.83it/s]

{'ner': 0.8774218196651556}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.63it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 10.92it/s]

{'ner': 0.42571586903705655}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.91it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.63it/s]

{'ner': 3.1631224332991374}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.19it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.24it/s]

{'ner': 0.24816481613223768}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.19it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 0.10428695586608888}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  8.36it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  5.41it/s]

{'ner': 0.31319419587569786}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.18it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  8.55it/s]

{'ner': 0.061259914358394306}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.43it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 10.53it/s]

{'ner': 0.04273721069530632}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.68it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  7.58it/s]

{'ner': 0.009270230789651925}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.53it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.05it/s]

{'ner': 0.0009668078357229464}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.83it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.49it/s]

{'ner': 0.0005020842593284265}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.19it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.11it/s]

{'ner': 0.004823284865234127}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.99it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.63it/s]

{'ner': 0.0008136297461110416}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.53it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00, 10.00it/s]

{'ner': 2.0440648898764464}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.38it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.36it/s]

{'ner': 0.04609791573414706}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.07it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.83it/s]

{'ner': 0.0004975195469227892}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.54it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.05it/s]

{'ner': 2.4644867089218978e-05}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.98it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.97it/s]

{'ner': 0.010485276094503386}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 11.42it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  8.99it/s]

{'ner': 0.005762177829970146}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.35it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  6.45it/s]

{'ner': 0.0011905033839243052}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  6.85it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  7.94it/s]

{'ner': 1.8687938075964386e-05}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.26it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  9.63it/s]

{'ner': 4.200891546470994e-05}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.53it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  6.79it/s]

{'ner': 0.0007386382532644704}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  6.87it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  6.85it/s]

{'ner': 3.843005002035189e-05}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  6.99it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  8.55it/s]

{'ner': 4.630229332178722e-06}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.81it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 0.00024497357869742006}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  5.77it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  6.41it/s]

{'ner': 4.219666765996911e-05}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  6.60it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  8.27it/s]

{'ner': 8.289027631609596e-06}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.98it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 10.64it/s]

{'ner': 0.0030349359085334606}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.24it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  8.85it/s]

{'ner': 2.712740102292264e-05}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.00it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00, 10.00it/s]

{'ner': 1.8509576558449928e-06}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.12it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 1.88796924876476e-06}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.76it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  8.85it/s]

{'ner': 4.0971872616944245e-06}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.43it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  5.77it/s]

{'ner': 0.0002721178921018591}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  6.52it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  9.43it/s]

{'ner': 5.381032103162495e-07}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  8.80it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  7.52it/s]

{'ner': 0.000309555050686121}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  8.96it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  8.93it/s]

{'ner': 0.0004247612149913292}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  8.83it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  9.62it/s]

{'ner': 1.6241684836400007e-06}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  8.60it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  9.01it/s]

{'ner': 0.00013204919418514726}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.08it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  6.76it/s]

{'ner': 3.5262302230391314e-07}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.85it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  8.34it/s]

{'ner': 9.427783269357821e-07}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.52it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  9.22it/s]

{'ner': 7.921061441553961e-07}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  8.89it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  9.90it/s]

{'ner': 0.0018666210317262607}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.55it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  9.90it/s]

{'ner': 4.828745900977631e-08}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.03it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 9.966303420081812e-06}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.00it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.36it/s]

{'ner': 6.394122960631532e-07}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.71it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  9.80it/s]

{'ner': 5.541941252699933e-06}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.26it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  9.62it/s]

{'ner': 1.1168963554483285e-06}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.46it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  7.50it/s]

{'ner': 0.00017045312990689906}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.21it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  6.93it/s]

{'ner': 2.9058902082333323e-07}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.21it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 6.503744152831627e-06}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.39it/s]
 67%|████████████████████████████████████████████████████████                            | 2/3 [00:00<00:00, 11.17it/s]

{'ner': 1.943271734080378e-06}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 10.99it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 1.4841058262904985e-07}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.04it/s]
  0%|                                                                                            | 0/3 [00:00<?, ?it/s]

{'ner': 9.449418153570699e-05}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.33it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  8.47it/s]

{'ner': 1.3808474703237743e-07}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  8.90it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  8.63it/s]

{'ner': 4.499198263097995e-07}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.43it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  9.52it/s]

{'ner': 1.6271948873168706e-06}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  9.84it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  8.85it/s]

{'ner': 1.5499965878241762e-07}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.44it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  8.88it/s]

{'ner': 1.3850693449207667e-08}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.45it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  8.02it/s]

{'ner': 6.494436109491277e-06}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.56it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  7.52it/s]

{'ner': 5.038298274927189e-08}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.98it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  8.28it/s]

{'ner': 1.4221928988554778e-05}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  8.55it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  7.14it/s]

{'ner': 7.083554931570159e-05}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  7.81it/s]
 33%|████████████████████████████                                                        | 1/3 [00:00<00:00,  9.52it/s]

{'ner': 2.633597165721623e-06}


100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  8.88it/s]

{'ner': 0.0002623536052217848}





## Test the trained model

In [30]:
for text, _ in TRAIN_DATA:
    doc = nlp(text)
    print('Entities', [(ent.text, ent.label_) for ent in doc.ents])
    print('Tokens', [(t.text, t.ent_type_, t.ent_iob) for t in doc])

Entities [('Nishanth', 'PERSON')]
Tokens [('Who', '', 2), ('is', '', 2), ('Nishanth', 'PERSON', 3), ('?', '', 2)]
Entities [('London', 'LOC'), ('Berlin', 'LOC')]
Tokens [('I', '', 2), ('like', '', 2), ('London', 'LOC', 3), ('and', '', 2), ('Berlin', 'LOC', 3), ('.', '', 2)]
Entities [('Kamal Khumar', 'PERSON')]
Tokens [('Who', '', 2), ('is', '', 2), ('Kamal', 'PERSON', 3), ('Khumar', 'PERSON', 1), ('?', '', 2)]


## Save the model

In [31]:
if output_dir is not None:
    output_dir = Path(output_dir)
    if not output_dir.exists():
        output_dir.mkdir()
    nlp.to_disk(output_dir)
    print("Saved model to", output_dir)        

Saved model to C:\Users\Programmer\Documents\ner


## Test the saved model

In [32]:
print("Loading from", output_dir)
nlp2 = spacy.load(output_dir)
for text, _ in TRAIN_DATA:
    doc = nlp2(text)
    print('Entities', [(ent.text, ent.label_) for ent in doc.ents])
    print('Tokens', [(t.text, t.ent_type_, t.ent_iob) for t in doc])

Loading from C:\Users\Programmer\Documents\ner
Entities [('Nishanth', 'PERSON')]
Tokens [('Who', '', 2), ('is', '', 2), ('Nishanth', 'PERSON', 3), ('?', '', 2)]
Entities [('London', 'LOC'), ('Berlin', 'LOC')]
Tokens [('I', '', 2), ('like', '', 2), ('London', 'LOC', 3), ('and', '', 2), ('Berlin', 'LOC', 3), ('.', '', 2)]
Entities [('Kamal Khumar', 'PERSON')]
Tokens [('Who', '', 2), ('is', '', 2), ('Kamal', 'PERSON', 3), ('Khumar', 'PERSON', 1), ('?', '', 2)]
