In [1]:
import pandas as pd
import itertools
final_df = pd.read_csv("train.csv")
for i in final_df.columns:
    final_df[i] = final_df[i].astype('str')

In [2]:
final_df = final_df.drop(['Unnamed: 0'],axis=1)
final_df

Unnamed: 0,Title,Client,SSN,Address,Ext_text
0,ACCOUNT TRANSFER FORM,Alexis W Figueroa,555455545,"1376 Brentwood Drive, Austin, Texas, 78701",Reset Form TD Ameritrade ACCOUNT TRANSFER FORM...
1,ACCOUNT TRANSFER FORM,Claudia M McMullen,44190820,"2966 Bedford Street, New York, Connecticut, 10011",['Reset Form TD Ameritrade ACCOUNT TRANSFER FO...
2,ACCOUNT TRANSFER FORM,David T Jarvis,372525158,"4572 Haven Lane, Lansing, Michigan,48933",['Reset Form TD Ameritrade ACCOUNT TRANSFER FO...
3,ACCOUNT TRANSFER FORM,Kelly D Ellis,153472012,"4819 Jadewood Farms,Newton, New Jersey, 07860",['Reset Form TD Ameritrade ACCOUNT TRANSFER FO...
4,ACCOUNT TRANSFER FORM,Marco S Ng,621729927,"2957 Patterson Road, Bronx,New York, 10461",['Reset Form TD Ameritrade ACCOUNT TRANSFER FO...


In [3]:
from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split
import spacy
from spacy.util import decaying
from spacy.matcher import PhraseMatcher
from spacy.lang.en import English
from spacy.util import minibatch, compounding
from spacy.training import Example
#from spacy.gold import GoldParse 
from spacy.scorer import Scorer
import random

In [4]:
nlp = English()
#nlp = spacy.load("en_trf_bertbaseuncased_lg")
#nlp.vocab, attr='lemma', validate=True

In [5]:
#TITLE_matcher = PhraseMatcher(nlp.vocab, attr='LOWER')
TITLE_matcher = PhraseMatcher(nlp.vocab, attr='LOWER')
TITLE_patterns = [nlp(i) for i in final_df['Title'].tolist()]
TITLE_matcher.add("Title", None,*TITLE_patterns)

In [6]:
CLIENT_matcher = PhraseMatcher(nlp.vocab, attr='LOWER')
CLIENT_patterns = [nlp(i) for i in final_df['Client'].tolist()]
CLIENT_matcher.add("Client", None,*CLIENT_patterns)

In [7]:
SOCIAL_SECURITY_NO_matcher = PhraseMatcher(nlp.vocab, attr='LOWER')
SOCIAL_SECURITY_NO_patterns = [nlp(i) for i in final_df['SSN'].tolist()]
SOCIAL_SECURITY_NO_matcher.add("SSN", None,*SOCIAL_SECURITY_NO_patterns)

In [8]:
ADDRESS_matcher = PhraseMatcher(nlp.vocab, attr='LOWER')
ADDRESS_patterns = [nlp(i) for i in final_df['Address'].tolist()]
ADDRESS_matcher.add("Address", None,*ADDRESS_patterns)

In [9]:
TRAIN_TEXTS = final_df['Ext_text'].tolist()
#TEST_TEXTS = test['extracted_text'].tolist()

In [10]:
from tqdm import tqdm
TRAINING_DATA = []

# Create a Doc object for each text in TEXTS
for doc in tqdm(nlp.pipe(TRAIN_TEXTS)):
    # Match on the doc and create a list of matched spans
    TITLE_spans = [doc[start:end] for match_id, start, end in TITLE_matcher(doc)]
    CLIENT_spans = [doc[start:end] for match_id, start, end in CLIENT_matcher(doc)]
    ADDRESS_spans = [doc[start:end] for match_id, start, end in ADDRESS_matcher(doc)]
    SOCIAL_SECURITY_NO_spans = [doc[start:end] for match_id, start, end in SOCIAL_SECURITY_NO_matcher(doc)]
    
    # Get (start character, end character, label) tuples of matches
    entities = [(span.start_char, span.end_char, "TITLE") for span in TITLE_spans]
    entities.extend([(span.start_char, span.end_char, "CLIENT") for span in CLIENT_spans])
    entities.extend([(span.start_char, span.end_char, "ADDRESS") for span in ADDRESS_spans])
    entities.extend([(span.start_char, span.end_char, "SOCIAL_SECURITY_NO") for span in SOCIAL_SECURITY_NO_spans])

    # Format the matches as a (doc.text, entities) tuple
    training_example = (doc.text, {"entities": entities})
    # Append the example to the training data
    TRAINING_DATA.append(training_example)

5it [00:00, 331.06it/s]


In [11]:
# Remove repetated of same type entity
for i,_ in enumerate(TRAINING_DATA):
    TRAINING_DATA[i][1]['entities'] = ([next(b) for a, b in itertools.groupby( 
                         TRAINING_DATA[i][1]['entities'], lambda y: y[2])])

In [12]:
TRAINING_DATA[0]

('Reset Form TD Ameritrade ACCOUNT TRANSFER FORM TO TRANSFER YOUR EXISTING Institutional ACCOUNT TO TD AMERITRADE Account # 896542008 Advisor Code 806542008 Case # PLEASE ATTACH A COPY OF YOUR LATEST STATEMENT. 1 TD AMERITRADE ACCOUNT INFORMATION Account Title/Registration Alexis W Figueroa Social Security Number/Tax ID: 555455545 Clearing Number: 0188 Individual Personal Trust Limited Liability Company [] Roth IRA Qualified Retirement Plan (Non-Qualified) Employer Plan Type: Joint Estate Partnership/Investment Club SEP IRA Simple IRA UTMA/UGMA Corporate Traditional IRA/Rollover IRA Coverdell ESA Beneficiary IRA Other: 2 INFORMATION ON THE ACCOUNT YOU ARE TRANSFERRING FROM Account Title/Registration as shown on your statement: Account Number: Alexis W Figueroa 78965478 Name of Delivering Firm: Employee Fiduciary Physical Address of Firm (no PO BOX) 1376 Brentwood Drive, Austin, Texas, 78701 Telephone Number (required): (541) 754-3008 Individua Personal Trust Limited Liability Company R

In [13]:
model = None

n_iter=100
#load the model

if model is not None:
    nlp = spacy.load(model)  
    print("Loaded model '%s'" % model)
else:
    nlp = spacy.blank('en')  
    print("Created blank 'en' model")

#set up the pipeline

if 'ner' not in nlp.pipe_names:
    ner = nlp.create_pipe('ner')
    nlp.add_pipe('ner', last=True)
else:
    ner = nlp.get_pipe('ner')

for _, annotations in TRAINING_DATA:
    for ent in annotations.get('entities'):
        ner.add_label(ent[2])

other_pipes = [pipe for pipe in nlp.pipe_names if pipe != 'ner']
with nlp.disable_pipes(*other_pipes):  # only train NER
    optimizer = nlp.begin_training()
    for itn in range(n_iter):
        random.shuffle(TRAINING_DATA)
        losses = {}
        for text, annotations in tqdm(TRAINING_DATA):
            example = Example.from_dict(nlp.make_doc(text), annotations)
            nlp.update(
                [example], 
                drop=0.5,  
                sgd=optimizer,
                losses=losses)
        print(losses)

  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

Created blank 'en' model


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  7.53it/s]
 20%|████████████████▊                                                                   | 1/5 [00:00<00:00,  8.77it/s]

{'ner': 2176.3723727464676}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  8.67it/s]
 20%|████████████████▊                                                                   | 1/5 [00:00<00:00,  5.97it/s]

{'ner': 1597.9696056842804}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.37it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 511.0114178582444}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.23it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 39.98960589392225}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.37it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 279.335496496637}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.26it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 35.75831744684706}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  2.94it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 35.61009003201616}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.82it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 34.899619986729704}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.13it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 33.22332870500176}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.17it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 30.361859538403564}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.43it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 27.478150138550458}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.16it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 246.92446361078925}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.61it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 25.497769909274712}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.29it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 24.534793345301033}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.27it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 22.278264252918433}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  4.50it/s]
 20%|████████████████▊                                                                   | 1/5 [00:00<00:00,  6.01it/s]

{'ner': 125.62931230667147}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.63it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 405.0134929219397}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.29it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 575.7139400369073}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.43it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 233.51921639355695}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.61it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 130.57238644841345}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.05it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 30.22082544289151}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.28it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 220.79317719968515}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.45it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 46.597126437226365}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.23it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 253.65530602260378}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.45it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 250.3129156324615}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  5.39it/s]
 20%|████████████████▊                                                                   | 1/5 [00:00<00:00,  8.44it/s]

{'ner': 25.688278284875047}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  7.26it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 120.81892458022091}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.79it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 35.468640361494906}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.32it/s]
 20%|████████████████▊                                                                   | 1/5 [00:00<00:00,  5.93it/s]

{'ner': 30.450763055823945}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  6.28it/s]
 20%|████████████████▊                                                                   | 1/5 [00:00<00:00,  8.51it/s]

{'ner': 18.937322742387966}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  7.40it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 21.463702543119364}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.41it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 28.7516562336968}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.42it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 16.37206000614033}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.49it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 24.403902932739207}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.38it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 25.629082043519936}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.45it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 21.508426984432138}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.45it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 23.9811031228867}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.26it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 18.106906787832106}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.35it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 15.751243863558576}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.65it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 13.968342389833204}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.67it/s]
 20%|████████████████▊                                                                   | 1/5 [00:00<00:00,  6.73it/s]

{'ner': 16.65215718408287}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  4.17it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 10.90646665948211}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  5.74it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 6.26125369483757}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.38it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 5.235996809144103}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.37it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 21.214809211705045}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.45it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 8.403601787006526}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.61it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 13.792271060723817}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.47it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 8.342682049964706}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.24it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 9.821050407690858}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.25it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 7.665003725364993}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.48it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 5.9517295605208105}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.40it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 4.983945845895394}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.42it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 6.9736518770229505}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.33it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 4.244924771758664}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.52it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 5.361882866831655}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  4.15it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 7.2713417933826054}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.65it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 3.615939475771454}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.55it/s]
 20%|████████████████▊                                                                   | 1/5 [00:00<00:00,  6.36it/s]

{'ner': 8.889791300491284}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  4.12it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 4.3937629929388295}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  4.02it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 5.799553007267505}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.38it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 2.872311857028062}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.52it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 106.61159390232172}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.24it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 3.789543189955182}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.23it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 2.7230224069663973}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.23it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 6.687096326099462}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.53it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 2.4051391038775822}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.20it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 5.8325797660631835}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.14it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 4.210066075518824}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  2.94it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 2.065028946286366}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.41it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 1.2537639596432437}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.37it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 0.17583601809900723}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.16it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 5.599250802327026}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.55it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 5.501298529499194}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.34it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 2.795910219948166}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.33it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 0.08063792352355234}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.05it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 5.0905550591885795}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.20it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 3.05915996464199}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  4.49it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 0.9626312583478082}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.07it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 0.7063824625228265}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.37it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 1.9920734045188606}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.19it/s]
 20%|████████████████▊                                                                   | 1/5 [00:00<00:00,  9.09it/s]

{'ner': 0.7496420997969115}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  4.22it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 3.6213149661873323}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.20it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 0.13683491471043313}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.08it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 1.9902101806399752}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.07it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 1.1114596858448254}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.69it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 9.532582793492516}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.48it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 0.720411357030977}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.06it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 0.21999487315290459}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.63it/s]
 20%|████████████████▊                                                                   | 1/5 [00:00<00:00,  6.70it/s]

{'ner': 0.04292500666900462}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.98it/s]
 20%|████████████████▊                                                                   | 1/5 [00:00<00:00,  5.29it/s]

{'ner': 0.3730220740307898}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.51it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 0.73945235523154}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.58it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 0.005419062872744325}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.08it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 0.012345677746991501}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.20it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 1.7744477069454356}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.40it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 0.005055245274096779}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.32it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 0.6283046613644495}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.25it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 0.4266721256523858}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.25it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 0.00017779062747903555}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.40it/s]
  0%|                                                                                            | 0/5 [00:00<?, ?it/s]

{'ner': 0.033638700670338036}


100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.44it/s]

{'ner': 0.10176258565216728}





In [18]:
output_dir='finnermodel'
print(output_dir)
from pathlib import Path
# save model to output directory
if output_dir is not None:
    output_dir = Path(output_dir)
if not output_dir.exists():
    output_dir.mkdir()
nlp.to_disk(output_dir)
print("Saved model to", output_dir)
TEST_TEXTS = TRAIN_TEXTS

finnermodel
Saved model to finnermodel


In [19]:
# test the saved model
directory_of_saved_model = 'finnermodel'
output_dir = directory_of_saved_model
print("Loading from", output_dir)
nlp2 = spacy.load(output_dir)

def predict_entities(text, nlp2):
    # test the trained model
    doc = nlp2(text)
    entities = []
    for ent in doc.ents:
        entities.append((ent.text, ent.label_))
    return entities

Loading from finnermodel


In [20]:
out = predict_entities(TEST_TEXTS[2], nlp2)
out

[('ACCOUNT TRANSFER FORM', 'TITLE'),
 ('David T Jarvis', 'CLIENT'),
 ('372525158', 'SOCIAL_SECURITY_NO'),
 ('4572 Haven Lane, Lansing, Michigan,48933', 'ADDRESS')]

In [21]:
out = predict_entities(TEST_TEXTS[0], nlp2)
out

[('ACCOUNT TRANSFER FORM', 'TITLE'),
 ('Alexis W Figueroa', 'CLIENT'),
 ('555455545', 'SOCIAL_SECURITY_NO'),
 ('1376 Brentwood Drive, Austin, Texas, 78701', 'ADDRESS')]