# Custom Entity Recognition - Resumes Parsing using Spacy

we’re gonna focus on building a CV screening system using the spaCy library. The idea of a CV screening system is to highlight the important keywords in the CV which helps the process of the person reviewing it, or else we can further develop it to grade CVs by weighing it using the highlighted words in it. To implement this, we need to build a Named Entity Recognition model (NER).

Before starting to code, let me briefly describe the NER model and the spaCy library.


NER models are used to locate and name entities in a sequence which is helpful for our instance to locate the name, experience, skills, technologies etc. mentioned in a CV. Some people referred to the NER model as token classification (probably when it is a single component of a pipeline) because of its nature of assigning a class to each token in a sequence.

spaCy library provides pre trained pipelines which support many languages. For the NER model spaCy used a framework known as “Embed. Encode. Attend. Predict”. For the people who are interested in learning in depth on this, you can refer these resources.

Article — https://explosion.ai/blog/deep-learning-formula-nlp
    
Video — https://www.youtube.com/watch?v=sqDHBH9IjRU&t=1254s

Slides — https://github.com/explosion/talks/blob/master/2018-04-12_Embed-Encode-Attend-Predict.pdf

Please remember from the newest version onwards they have utilized transformer architecture, which is one of the hottest topics in natural language processing and deep learning research areas.

Our dataset contains labels of:

* Name
* Hometown
* Jobs — Job titles
* Experience
* Companies — Companies worked with
* School/Institute
* Skills
* LinkedIn

In the annotation process what we actually do is identify the word’s start and end position in the CV text.

In [1]:
import spacy
spacy.__version__

'3.0.0'

In [11]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
import json
import random
import logging
import spacy
import re
from tqdm import tqdm
from spacy.training import Example

read the dataset

In [None]:
lines2=[]
with open("all.jsonl", 'r',encoding="utf8") as f:
    lines2 = f.readlines()

Then split the contents into training and testing sets.

In [3]:
train = lines2[2:50]
test = lines2[0:2]

In [4]:
train[0]

'{"id": 3, "data": "Hartej Kathuria~Data Analyst Intern - Oracle Retail~~Bengaluru, Karnataka - Email me on Indeed: indeed.com/r/Hartej-Kathuria/04181c5962a4af19~~Willing to relocate to: Delhi - Bangalore, Karnataka - Gurgaon, Haryana~~WORK EXPERIENCE~~Data Analyst Intern~~Oracle Retail -  Bengaluru, Karnataka -~~June 2017 to Present~~Job Responsibilities:~o As an intern part of the Global Retail Insights team at Oracle Retail,~work involved creating a data oriented buisness case based using high~level trends for various retailers using Excel and SQL.~o Forecasting Sales with use of various statistical Modelling Methods~using SQL and R~o Market Basket Analysis using transactional data of retailers using SQL and R~~EDUCATION~~Statistics and Probability~~Manipal University~~May 2018~~B. Tech in Electrical and Electronics in Embedded Systems~~MIT, Manipal University~~May 2016~~SKILLS~~Python (2 years), SQL. (1 year), NOSQL (1 year), R (2 years), Machine Learning (2 years)~~PUBLICATIONS~~P

As we are using new labels which spaCy won’t have in their pre-trained models, we need to make a list of tuples containing the text part and its labeled entities. We can simply do this by iterating over the training set.

In [5]:
training_data=[]
for line in lines2:
    data = json.loads(line)
    text = data['data'].lower()
    entities = []
    for annotation in data['label']:
        labels = annotation[2]
        entities.append((annotation[0],annotation[1],labels))
    training_data.append((text, {"entities" : entities}))

In [14]:
training_data[0]

('vishwanath p~senior executive (mis & audit) - job profile in labournet services india~pvt ltd~~bengaluru, karnataka - email me on indeed: indeed.com/r/vishwanath-p/06a16ac2d087d3c9~~i look forward to a career that provides me an opportunity to improve my knowledge and~personality in a challenging work atmosphere. in the long run, i would like to grow leadership~position in the organization and make a meaningful contribution to the organization.~~overview:~➢ total experience of 7.3years.~➢ have maintained superior\'s and peer\'s confidence in efficiency and accuracy of my work.~~work experience~~senior executive (mis & audit)~~job profile in labournet services india pvt ltd -~~june 2016 to present~~from june 2016.~~operating system: windows 7~tools used: ms office (excel, word, powerpoint, outlook)~➢ provide weekly targets to placement officers and follow-up on the targets v/s achieved and~more importantly all the placement related activities are documented.~➢ working on projection ag

In [None]:
len(training_data)

Then we are creating an empty spaCy model in English due to the following reasons. It is empty because the labels we are using are new to the spaCy trained models and it is English because the annotated CVs are in English. Note that we only need the NER model for the training.

In [6]:
# Create a blank "en" model
from spacy.lang.en import English
nlp1 = spacy.blank('en')

# Create a new entity recognizer and add it to the pipeline
ner = nlp1.add_pipe("ner")

nlp1.pipe_names

['ner']

Next we will add the extracted entities to the NER model created and then we should start training as follows.

In [8]:
for _, entities in training_data:
    for ent in entities.get('entities'):
        ner.add_label(ent[2])

In [12]:
n_iter = 100
optimizer = nlp1.begin_training()

for itn in range(n_iter):
    random.shuffle(training_data)
    losses = {}
    
    for text, annotations in tqdm(training_data):
        example = Example.from_dict(nlp1.make_doc(text), annotations)
        nlp1.update(
            [example],  # batch of examples
            drop=0.2,  # dropout - make it harder to memorise data
            sgd=optimizer,  # callable to update weights
            losses=losses)
    print(losses)

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:27<00:00,  7.38it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 3230.2179901574186}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:28<00:00,  7.03it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 1191.6554969934198}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:27<00:00,  7.25it/s]
  0%|▌                                                                                                                    | 1/200 [00:00<00:34,  5.77it/s]

{'ner': 1034.185564619736}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:28<00:00,  6.96it/s]
  2%|█▊                                                                                                                   | 3/200 [00:00<00:09, 20.94it/s]

{'ner': 923.8908803296804}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:26<00:00,  7.61it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 868.9511008529022}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:26<00:00,  7.53it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 621.5500967857126}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:30<00:00,  6.56it/s]
  2%|██▎                                                                                                                  | 4/200 [00:00<00:06, 31.68it/s]

{'ner': 785.9904914405372}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:26<00:00,  7.58it/s]
  0%|▌                                                                                                                    | 1/200 [00:00<00:39,  5.02it/s]

{'ner': 691.5975678212283}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:30<00:00,  6.54it/s]
  2%|█▊                                                                                                                   | 3/200 [00:00<00:10, 17.91it/s]

{'ner': 682.7825884478398}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:26<00:00,  7.58it/s]
  2%|█▊                                                                                                                   | 3/200 [00:00<00:07, 25.72it/s]

{'ner': 676.1369788411257}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:26<00:00,  7.46it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:10, 18.73it/s]

{'ner': 424.78292295362286}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:27<00:00,  7.29it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:12, 15.53it/s]

{'ner': 530.9299875100046}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:26<00:00,  7.61it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 349.50413242852045}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:28<00:00,  7.08it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:12, 15.93it/s]

{'ner': 378.95268997788025}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:28<00:00,  7.07it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 383.10858791309096}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:30<00:00,  6.64it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 347.5349110725264}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:34<00:00,  5.88it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:14, 13.77it/s]

{'ner': 389.9605380017121}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:25<00:00,  7.99it/s]
  2%|██▎                                                                                                                  | 4/200 [00:00<00:06, 29.67it/s]

{'ner': 230.11858667469164}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:30<00:00,  6.55it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 260.96007741221797}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:31<00:00,  6.45it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:12, 15.87it/s]

{'ner': 284.38204400311713}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:31<00:00,  6.25it/s]
  2%|█▊                                                                                                                   | 3/200 [00:00<00:10, 18.08it/s]

{'ner': 252.54620195315727}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:30<00:00,  6.65it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:12, 16.01it/s]

{'ner': 257.66916816443427}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:27<00:00,  7.38it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:13, 14.54it/s]

{'ner': 225.99178818458734}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:30<00:00,  6.58it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:11, 17.55it/s]

{'ner': 161.21377385548902}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:29<00:00,  6.73it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 204.48263448423407}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:29<00:00,  6.69it/s]
  2%|█▊                                                                                                                   | 3/200 [00:00<00:09, 21.78it/s]

{'ner': 186.9956976072013}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:27<00:00,  7.31it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 176.21457726736242}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:30<00:00,  6.51it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:12, 16.40it/s]

{'ner': 179.05686786939268}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:28<00:00,  7.13it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:13, 14.63it/s]

{'ner': 140.2395826126442}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:26<00:00,  7.49it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:11, 16.83it/s]

{'ner': 154.86636115597238}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:30<00:00,  6.61it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 144.97266921182177}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:26<00:00,  7.56it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 139.81901030039293}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:26<00:00,  7.59it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:12, 15.45it/s]

{'ner': 128.89952605463395}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:28<00:00,  6.96it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 115.4676335660686}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:25<00:00,  7.80it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:13, 14.47it/s]

{'ner': 161.54734660818866}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:31<00:00,  6.45it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 162.1574564669431}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:28<00:00,  6.97it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 118.33293129455419}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:28<00:00,  6.95it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:14, 13.65it/s]

{'ner': 125.3174971781262}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:28<00:00,  6.97it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 109.53724892886298}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:22<00:00,  8.75it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:10, 18.51it/s]

{'ner': 197.73654852058667}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:28<00:00,  6.96it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 120.95291296384289}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:27<00:00,  7.28it/s]
  2%|█▊                                                                                                                   | 3/200 [00:00<00:10, 18.36it/s]

{'ner': 151.091501753765}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:28<00:00,  7.01it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 122.44139570482186}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:26<00:00,  7.60it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 125.08273217141205}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:26<00:00,  7.50it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:16, 12.23it/s]

{'ner': 107.7653913031163}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:30<00:00,  6.53it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:11, 16.85it/s]

{'ner': 114.40429974108636}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:23<00:00,  8.35it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 100.93839185579355}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:28<00:00,  7.13it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 122.33813458493917}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:25<00:00,  7.82it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 107.43304759747811}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:25<00:00,  7.70it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:12, 15.97it/s]

{'ner': 117.57241213488501}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:30<00:00,  6.63it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:14, 13.69it/s]

{'ner': 123.1103336019962}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:23<00:00,  8.66it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 126.99743831169783}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:20<00:00,  9.84it/s]
  2%|█▊                                                                                                                   | 3/200 [00:00<00:07, 26.94it/s]

{'ner': 120.09796722803985}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:22<00:00,  8.84it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 79.78485797881059}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:20<00:00,  9.65it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 77.559984649908}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:20<00:00,  9.76it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 106.70888778531408}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:23<00:00,  8.57it/s]
  2%|█▊                                                                                                                   | 3/200 [00:00<00:09, 19.93it/s]

{'ner': 68.25805864809303}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:24<00:00,  8.17it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 101.92627368936635}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:29<00:00,  6.79it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:12, 15.69it/s]

{'ner': 74.12261831824186}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:19<00:00, 10.33it/s]
  2%|██▉                                                                                                                  | 5/200 [00:00<00:04, 41.06it/s]

{'ner': 51.279532390158565}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:11<00:00, 17.06it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:09, 19.94it/s]

{'ner': 92.38949745279471}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:10<00:00, 19.75it/s]
  2%|██▉                                                                                                                  | 5/200 [00:00<00:04, 48.09it/s]

{'ner': 74.54507431473534}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.87it/s]
  2%|██▉                                                                                                                  | 5/200 [00:00<00:03, 49.91it/s]

{'ner': 103.95053093686074}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.96it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:15, 12.82it/s]

{'ner': 63.431215435692785}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.33it/s]
  0%|▌                                                                                                                    | 1/200 [00:00<00:26,  7.60it/s]

{'ner': 111.59401473993726}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.84it/s]
  2%|██▉                                                                                                                  | 5/200 [00:00<00:07, 24.66it/s]

{'ner': 81.05874250928922}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:10<00:00, 20.00it/s]
  2%|██▉                                                                                                                  | 5/200 [00:00<00:04, 45.10it/s]

{'ner': 67.16515115734784}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:12<00:00, 16.43it/s]
  0%|▌                                                                                                                    | 1/200 [00:00<00:22,  8.81it/s]

{'ner': 100.55986223190916}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 21.28it/s]
  3%|███▌                                                                                                                 | 6/200 [00:00<00:03, 53.80it/s]

{'ner': 62.05510580224169}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:10<00:00, 19.38it/s]
  0%|▌                                                                                                                    | 1/200 [00:00<00:24,  8.14it/s]

{'ner': 84.7227444165322}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:10<00:00, 18.51it/s]
  2%|██▉                                                                                                                  | 5/200 [00:00<00:04, 39.58it/s]

{'ner': 108.07662531918476}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.84it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 72.99649177970676}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.66it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:14, 13.32it/s]

{'ner': 66.73260190994775}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.24it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 78.86720982014431}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.40it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:12, 15.93it/s]

{'ner': 73.37483995938268}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.89it/s]
  2%|██▉                                                                                                                  | 5/200 [00:00<00:03, 49.92it/s]

{'ner': 90.88585153681124}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.83it/s]
  2%|██▎                                                                                                                  | 4/200 [00:00<00:07, 24.62it/s]

{'ner': 96.64441005953678}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.69it/s]
  3%|███▌                                                                                                                 | 6/200 [00:00<00:03, 51.88it/s]

{'ner': 68.69831507002583}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.89it/s]
  2%|█▊                                                                                                                   | 3/200 [00:00<00:07, 25.42it/s]

{'ner': 64.2463734937178}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 21.09it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:11, 16.99it/s]

{'ner': 53.60762139080841}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.59it/s]
  2%|█▊                                                                                                                   | 3/200 [00:00<00:10, 19.54it/s]

{'ner': 78.89502281712825}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.82it/s]
  3%|███▌                                                                                                                 | 6/200 [00:00<00:03, 59.94it/s]

{'ner': 66.40192349737625}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.31it/s]
  2%|██▎                                                                                                                  | 4/200 [00:00<00:06, 28.18it/s]

{'ner': 46.362035751376055}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 21.14it/s]
  0%|▌                                                                                                                    | 1/200 [00:00<00:28,  6.91it/s]

{'ner': 45.749232193511496}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.24it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:17, 11.08it/s]

{'ner': 47.86193280391182}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.31it/s]
  2%|█▊                                                                                                                   | 3/200 [00:00<00:12, 16.11it/s]

{'ner': 78.12238520995247}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.47it/s]
  2%|█▊                                                                                                                   | 3/200 [00:00<00:13, 14.98it/s]

{'ner': 64.12105994191946}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.50it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:14, 14.01it/s]

{'ner': 147.53778968539285}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.61it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 59.989313121390225}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.65it/s]
  2%|█▊                                                                                                                   | 3/200 [00:00<00:09, 21.16it/s]

{'ner': 34.16743885723608}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.55it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:10, 18.35it/s]

{'ner': 58.35624298802872}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.96it/s]
  3%|███▌                                                                                                                 | 6/200 [00:00<00:04, 47.60it/s]

{'ner': 52.22067190654677}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 21.00it/s]
  1%|█▏                                                                                                                   | 2/200 [00:00<00:17, 11.33it/s]

{'ner': 63.96956399889418}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.88it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 58.38416035753534}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.58it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 65.81804861511327}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 21.03it/s]
  2%|██▉                                                                                                                  | 5/200 [00:00<00:04, 45.05it/s]

{'ner': 52.87053969391749}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.97it/s]
  2%|██▎                                                                                                                  | 4/200 [00:00<00:06, 28.71it/s]

{'ner': 50.848697283243546}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.93it/s]
  0%|                                                                                                                             | 0/200 [00:00<?, ?it/s]

{'ner': 43.699392392170935}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.43it/s]
  2%|██▉                                                                                                                  | 5/200 [00:00<00:03, 48.90it/s]

{'ner': 45.7807339430223}


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:09<00:00, 20.80it/s]

{'ner': 74.35562164482766}





The training process will take about twenty minutes or less. 

Then you can check the results using the spaCy ‘ent’ visualizer.

In [13]:
test1 = json.loads(test[0])['data'].lower()
doc = nlp1(test1)
spacy.displacy.serve(doc, style="ent")


Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.
