In [3]:
import os
import json
import torch
import numpy as np

from collections import namedtuple
from model import BertNer
from seqeval.metrics.sequence_labeling import get_entities
from transformers import BertTokenizer

  from .autonotebook import tqdm as notebook_tqdm


In [4]:
def get_args(args_path, args_name=None):
    with open(args_path, "r", encoding="utf-8") as fp:
        args_dict = json.load(fp)
    # 注意args不可被修改了
    args = namedtuple(args_name, args_dict.keys())(*args_dict.values())
    return args

In [5]:
ner_args = get_args(os.path.join("./checkpoint/{}/".format("fyp"), "ner_args.json"), "ner_args")
ner_id2label = {int(k): v for k, v in ner_args.id2label.items()}
tokenizer = BertTokenizer.from_pretrained(ner_args.bert_dir)
max_seq_len = ner_args.max_seq_len
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
ner_model = BertNer(ner_args)
ner_model.load_state_dict(torch.load(os.path.join(ner_args.output_dir, "pytorch_model_ner.bin"), map_location="cpu"))
ner_model.to(device)

KeyboardInterrupt: 

In [None]:
text = "Job Description: At Bank of America, we are guided by a common purpose to help make financial lives better through the power of every connection. Responsible Growth is how we run our company and how we deliver for our clients, teammates, communities and shareholders every day. One of the keys to driving Responsible Growth is being a great place to work for our teammates around the world. We’re devoted to being a diverse and inclusive workplace for everyone. We hire individuals with a broad range of backgrounds and experiences and invest heavily in our teammates and their families by offering competitive benefits to support their physical, emotional, and financial well-being. Bank of America believes both in the importance of working together and offering flexibility to our employees. We use a multi-faceted approach for flexibility, depending on the various roles in our organization. Working at Bank of America will give you a great career with opportunities to learn, grow and make an impact, along with the power to make a difference. Join us! Job Description: This job is responsible for developing and delivering complex requirements to accomplish business goals. Key responsibilities of the job include ensuring that software is developed to meet functional/non-functional requirements, coding solutions, and unit testing. Job expectations include an awareness of the development practices in the industry. The SME will leverage Mortgages securities risk subject matter expertise and Python/Quartz skills to onboard the Repo Mortgage securities in the strategic SFRC end of day framework. Responsibilities: - Codes solutions and unit test to deliver a requirement/story per the defined acceptance criteria - Executes automated test suites (integration, regression, performance); collect results and flag issues - Documents and communicates required information for deployment, maintenance, support, and business functionality - Adheres to team delivery/release process and cadence pertaining to code deployment and release - Contributes to story refinement and definition of requirements Required Skills: Senior Resource with Good Experience with Java Desired Skills: SQL Skills: - Application Development - Automation - Collaboration - DevOps Practices - Solution Design - Agile Practices - Architecture - Result Orientation - Solution Delivery Process - User Experience Design - Analytical Thinking - Data Management - Risk Management - Technical Strategy Development - Test Engineering Minimum Education Requirement: Bachelors degree or equivalent work experience Shift: 1st shift (United States of America) Hours Per Week: 40 "
        

In [None]:
len(text.split(" "))

391

: 

In [None]:
text = text[:max_seq_len - 2]
text

'Job Description: At Bank of America, we are guided by a common purpose to help make financial lives better through the power of every connection. Responsible Growth is how we run our company and how we deliver for our clients, teammates, communities and shareholders every day. One of the keys to driving Responsible Growth is being a great place to work for our teammates around the world. We’re devoted to being a diverse and inclusive workplace for everyone. We hire individuals with a broad range of backgr'

In [None]:
text = ["[CLS]"] + [i for i in text.split(" ")] + ["[SEP]"]
text

['[CLS]',
 'Job',
 'Description:',
 'At',
 'Bank',
 'of',
 'America,',
 'we',
 'are',
 'guided',
 'by',
 'a',
 'common',
 'purpose',
 'to',
 'help',
 'make',
 'financial',
 'lives',
 'better',
 'through',
 'the',
 'power',
 'of',
 'every',
 'connection.',
 'Responsible',
 'Growth',
 'is',
 'how',
 'we',
 'run',
 'our',
 'company',
 'and',
 'how',
 'we',
 'deliver',
 'for',
 'our',
 'clients,',
 'teammates,',
 'communities',
 'and',
 'shareholders',
 'every',
 'day.',
 'One',
 'of',
 'the',
 'keys',
 'to',
 'driving',
 'Responsible',
 'Growth',
 'is',
 'being',
 'a',
 'great',
 'place',
 'to',
 'work',
 'for',
 'our',
 'teammates',
 'around',
 'the',
 'world.',
 'We’re',
 'devoted',
 'to',
 'being',
 'a',
 'diverse',
 'and',
 'inclusive',
 'workplace',
 'for',
 'everyone.',
 'We',
 'hire',
 'individuals',
 'with',
 'a',
 'broad',
 'range',
 'of',
 'backgr',
 '[SEP]']

In [None]:
tmp_input_ids = tokenizer.convert_tokens_to_ids(text)
tmp_input_ids

[101,
 147,
 184,
 171,
 100,
 141,
 174,
 188,
 172,
 187,
 178,
 185,
 189,
 178,
 184,
 183,
 131,
 100,
 138,
 189,
 100,
 139,
 170,
 183,
 180,
 100,
 184,
 175,
 100,
 138,
 182,
 174,
 187,
 178,
 172,
 170,
 117,
 100,
 192,
 174,
 100,
 170,
 187,
 174,
 100,
 176,
 190,
 178,
 173,
 174,
 173,
 100,
 171,
 194,
 100,
 170,
 100,
 172,
 184,
 182,
 182,
 184,
 183,
 100,
 185,
 190,
 187,
 185,
 184,
 188,
 174,
 100,
 189,
 184,
 100,
 177,
 174,
 181,
 185,
 100,
 182,
 170,
 180,
 174,
 100,
 175,
 178,
 183,
 170,
 183,
 172,
 178,
 170,
 181,
 100,
 181,
 178,
 191,
 174,
 188,
 100,
 171,
 174,
 189,
 189,
 174,
 187,
 100,
 189,
 177,
 187,
 184,
 190,
 176,
 177,
 100,
 189,
 177,
 174,
 100,
 185,
 184,
 192,
 174,
 187,
 100,
 184,
 175,
 100,
 174,
 191,
 174,
 187,
 194,
 100,
 172,
 184,
 183,
 183,
 174,
 172,
 189,
 178,
 184,
 183,
 119,
 100,
 155,
 174,
 188,
 185,
 184,
 183,
 188,
 178,
 171,
 181,
 174,
 100,
 144,
 187,
 184,
 192,
 189,
 177,
 100,
 178

In [None]:
input_ids = tmp_input_ids + [0] * (max_seq_len - len(tmp_input_ids))
input_ids

[101,
 147,
 184,
 171,
 100,
 141,
 174,
 188,
 172,
 187,
 178,
 185,
 189,
 178,
 184,
 183,
 131,
 100,
 138,
 189,
 100,
 139,
 170,
 183,
 180,
 100,
 184,
 175,
 100,
 138,
 182,
 174,
 187,
 178,
 172,
 170,
 117,
 100,
 192,
 174,
 100,
 170,
 187,
 174,
 100,
 176,
 190,
 178,
 173,
 174,
 173,
 100,
 171,
 194,
 100,
 170,
 100,
 172,
 184,
 182,
 182,
 184,
 183,
 100,
 185,
 190,
 187,
 185,
 184,
 188,
 174,
 100,
 189,
 184,
 100,
 177,
 174,
 181,
 185,
 100,
 182,
 170,
 180,
 174,
 100,
 175,
 178,
 183,
 170,
 183,
 172,
 178,
 170,
 181,
 100,
 181,
 178,
 191,
 174,
 188,
 100,
 171,
 174,
 189,
 189,
 174,
 187,
 100,
 189,
 177,
 187,
 184,
 190,
 176,
 177,
 100,
 189,
 177,
 174,
 100,
 185,
 184,
 192,
 174,
 187,
 100,
 184,
 175,
 100,
 174,
 191,
 174,
 187,
 194,
 100,
 172,
 184,
 183,
 183,
 174,
 172,
 189,
 178,
 184,
 183,
 119,
 100,
 155,
 174,
 188,
 185,
 184,
 183,
 188,
 178,
 171,
 181,
 174,
 100,
 144,
 187,
 184,
 192,
 189,
 177,
 100,
 178

In [None]:
attention_mask = [1] * len(tmp_input_ids) + [0] * (max_seq_len - len(tmp_input_ids))
attention_mask

[1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,


In [None]:
input_ids = torch.tensor(np.array([input_ids]))

In [None]:
input_ids

tensor([[101, 147, 184, 171, 100, 141, 174, 188, 172, 187, 178, 185, 189, 178,
         184, 183, 131, 100, 138, 189, 100, 139, 170, 183, 180, 100, 184, 175,
         100, 138, 182, 174, 187, 178, 172, 170, 117, 100, 192, 174, 100, 170,
         187, 174, 100, 176, 190, 178, 173, 174, 173, 100, 171, 194, 100, 170,
         100, 172, 184, 182, 182, 184, 183, 100, 185, 190, 187, 185, 184, 188,
         174, 100, 189, 184, 100, 177, 174, 181, 185, 100, 182, 170, 180, 174,
         100, 175, 178, 183, 170, 183, 172, 178, 170, 181, 100, 181, 178, 191,
         174, 188, 100, 171, 174, 189, 189, 174, 187, 100, 189, 177, 187, 184,
         190, 176, 177, 100, 189, 177, 174, 100, 185, 184, 192, 174, 187, 100,
         184, 175, 100, 174, 191, 174, 187, 194, 100, 172, 184, 183, 183, 174,
         172, 189, 178, 184, 183, 119, 100, 155, 174, 188, 185, 184, 183, 188,
         178, 171, 181, 174, 100, 144, 187, 184, 192, 189, 177, 100, 178, 188,
         100, 177, 184, 192, 100, 192, 174, 100, 187

In [None]:
attention_mask = torch.tensor(np.array([attention_mask]))
attention_mask

tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1

In [None]:
input_ids = input_ids.to(device)

In [None]:
attention_mask = attention_mask.to(device)

In [None]:
output = ner_model(input_ids, attention_mask)
output

  attn_output = torch.nn.functional.scaled_dot_product_attention(


<model.ModelOutput at 0x1cba0582590>

In [None]:
attention_mask = attention_mask.detach().cpu().numpy()

In [None]:
length = sum(attention_mask[0])
length

512

In [None]:
logits = output.logits
logits

[[0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,


In [None]:
logits = logits[0][1:length - 1]
logits

[0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,


In [None]:





input_ids = torch.tensor(np.array([input_ids]))
attention_mask = torch.tensor(np.array([attention_mask]))

NameError: name 'self' is not defined

In [None]:
input_ids, attention_mask = ner_tokenizer(text)





NameError: name 'ner_tokenizer' is not defined

In [None]:




logits = [self.ner_id2label[i] for i in logits]
print(logits)
entities = get_entities(logits)
result = {}
for ent in entities:
ent_name = ent[0]
ent_start = ent[1]
ent_end = ent[2]
if ent_name not in result:
    result[ent_name] = [("".join(text[ent_start:ent_end + 1]), ent_start, ent_end)]
else:
    result[ent_name].append(("".join(text[ent_start:ent_end + 1]), ent_start, ent_end))
return result

In [6]:
jds = ["Position", "Description", "\n", "The", "manager", "is", "looking", "for", "a", "Software", "Engineer", "to", "work", "with", "the", "team", "’s", "Infrastructure", "Engineers", "to", "find", "\n", "innovative", "ways", "to", "focus", "on", "automation", "for", "manual", "processes", "and", "improve", "existing", "self", "-", "service", "tools", ".", "\n", "Works", "on", "a", "product", "team", "and", "supports", "product", "design", "by", "planning", "its", "work", ",", "coordinating", "with", "others", ",", "\n", "and", "writing", "and", "testing", "code", "to", "deliver", "moderately", "complex", "functionality", "on", "a", "complete", "product", "or", "\n", "significant", "portion", "of", "a", "product", "it", "supports", ".", "\n", "Duties", "Include", "\n", "-", " ", "Develops", ",", "codes", ",", "configures", ",", "and", "tests", "programs", "and", "systems", ".", "\n", "-", " ", "Evaluates", "and", "implements", "enhancement", "design", "solutions", "to", "improve", "cost", ",", "quality", ",", "and", "performance", "of", "\n", "software", "applications", ".", "\n", "-", " ", "Analyzes", "assignments", "and", "determines", "software", "specifications", "that", "must", "be", "fulfilled", "to", "achieve", "\n", "objectives", ".", "\n", "-", " ", "Executes", "necessary", "documentation", ",", "as", "directed", ",", "or", "needed", ".", "\n", "-", " ", "Collaborates", "with", "other", "relevant", "stakeholders", "and", "team", "members", "to", "ensure", "that", "features", "meet", "\n", "business", "needs", ".", "\n", "-", " ", "Follows", "industry", "-", "standard", "agile", "software", "design", "methodology", "for", "development", "and", "documentation", ".", "\n", "Desired", "Skills", "And", "Experience", "\n", "-", " ", "Experience", "in", "the", "design", ",", "development", ",", "testing", "and", "integration", "and", "deployment", "of", "software", "solutions", "\n", "leveraging", "change", "management", "processes", "(", "1", "-", "3", "years", ")", ".", "\n", "-", " ", "Experience", "with", "cloud", "(", "AWS", ")", "(", "1", "-", "3", "years", ")", ".", "\n", "-", " ", "Experience", "with", "REACT", "(", "1", "-", "3", "years", ")", ".", "\n", "-", " ", "Experience", "with", "Rest", "APIs", "(", "1", "-", "3", "years", ")", ".", "\n", "-", " ", "Good", "understanding", "of", "databases", "(", "i.e.", "SQL", ",", "DB2", ",", "etc", ")", "(", "1", "-", "3", "years", ")", ".", "\n", "-", " ", "Experience", "with", "GitHub", "(", "1", "-", "3", "years", ")", ".", "\n", "-", " ", "Experience", "using", "scripting", "tools", "–", "Ruby", ",", "Javascript", ",", "Python", ",", "Bast", ",", "etc", "(", "1", "-", "3", "years", ")", ".", "\n", "-", " ", "Experience", "using", "Node.js", ",", "React", "Angular", "(", "1", "-", "3", "years", ")", ".", "\n", "-", " ", "Proficient", "in", "interpersonal", "communication", ",", "collaboration", "and", "building", "working", "\n", "Relationships", ".", "\n", "-", " ", "Strong", "understanding", "of", "Agile", "practices", ".", "\n", "-", " ", "Previous", "experience", "in", "programming", "and", "software", "development", "(", "1", "-", "3", "years", ")", ".", "\n", "-", " ", "Software", "development", "processes", "experience", "(", "1", "-", "3", "years", ")", ".", "\n", "-", " ", "Participating", "in", "Agile", "Development", "(", "1", "-", "3", "years", ")", ".", "\n", "-", " ", "Experience", "working", "in", "an", "Agile", "Environment", "(", "1", "-", "3", "years", ")", ".", "\n", "Education", "\n", "-", " ", "Degree", "in", "an", "Engineering", "/", "Technology", "discipline", "or", "equivalent", "experience", "-", "University", "Degree", "(", "4", "years", "\n", "or", "equivalent", ")", ".", "\n", "-", " ", "Degree", "in", "an", "Information", "Technology", "discipline", "or", "equivalent", "experience", "-", "University", "Degree", "(", "4", "years", "       \n            \n                            \n            "] 
labels =  ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-EXP", "I-EXP", "I-EXP", "I-EXP", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-REQUIRED-S", "O", "O", "B-EXP", "I-EXP", "I-EXP", "I-EXP", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-EXP", "I-EXP", "I-EXP", "I-EXP", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-EXP", "I-EXP", "I-EXP", "I-EXP", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-REQUIRED-S", "O", "B-REQUIRED-S", "O", "O", "O", "O", "B-EXP", "I-EXP", "I-EXP", "I-EXP", "O", "O", "O", "O", "O", "O", "O", "B-REQUIRED-S", "O", "B-EXP", "I-EXP", "I-EXP", "I-EXP", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-REQUIRED-S", "O", "B-REQUIRED-S", "O", "B-REQUIRED-S", "O", "B-REQUIRED-S", "O", "O", "O", "B-EXP", "I-EXP", "I-EXP", "I-EXP", "O", "O", "O", "O", "O", "O", "O", "B-REQUIRED-S", "O", "B-REQUIRED-S", "I-REQUIRED-S", "O", "B-EXP", "I-EXP", "I-EXP", "I-EXP", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-EXP", "I-EXP", "I-EXP", "I-EXP", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-EXP", "I-EXP", "I-EXP", "I-EXP", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-EXP", "I-EXP", "I-EXP", "I-EXP", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-EXP", "I-EXP", "I-EXP", "I-EXP", "O", "O", "O", "O", "O", "O", "O", "B-EDU", "O", "O", "B-EDU", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-EDU", "I-EDU", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"]

In [7]:
len(jds) - len(labels)

0

In [34]:
from transformers import AutoTokenizer

In [35]:
tokenizer = AutoTokenizer.from_pretrained("google-bert/bert-base-cased")

In [8]:
text = "Who You Are You are one who uses web and mobile technologies and application development tools to create, test and implement in-house applications. You enjoy working with internal partners to research problem requests, find, and correct production problems, develop application features, perform quality reviews of project deliverables and maintenance work in advance of being implemented into production. Who We Are Trellis Company is a nonprofit 501(c)3 corporation with the dual mission of helping student borrowers repay their education loans and promoting access in higher education. Our strong philanthropic heritage of giving through grants to colleges, universities, and research groups remains focused on improving student outcomes, especially to underserved students, families, and institutions. As we move into the future, we're drawing on our history, branching into new sectors beyond student loans, and delivering the same level of exceptional care and service that our customers have come to depend on. We remain invested in the success of students and higher education institutions. This combination of stability and vision creates a unique intersection: a startup environment at a company that also has a stable foundation, resulting in an opportunity for the right candidate to help shape our company's future. This is an exciting time to join the Trellis team! Location: The position is hybrid, two days in office (Round Rock, Texas). Essential Duties And Responsibilities The position incumbent is expected to perform the following essential duties and responsibilities of the position with reasonable accommodation. - Participate in the design, implementation, and testing of features for various products. - Work in a team-oriented environment with flexibility to work independently. - Consult with application development team on software products and development methodologies. - Assist the application design team with accomplishing tasks related to the development of new software to streamline business processes. - Assist with new and alternate solutions to improve existing processes and procedures. - Conduct research on new products and tools that may assist customer's business needs. - Test software applications for efficiency and identify if any bugs and proposed fixes. - Participate in training and other learning opportunities to ensure compliance and expand knowledge of company, position, and process. - Follow all corporate policies and procedures and perform all work functions in a safe and efficient manner. - Participate in team meetings using productivity tools like O365, Teams etc. Non-Essential Duties And Responsibilities - All other duties and responsibilities as assigned. Knowledge, Skills, And Abilities To be eligible for this internship, you should: - Understand Object-Oriented Design, Unified Modeling Language (UML) Notation, Relational and Non-Relational Standard Query Language (NoSQL) databases. - Strong working knowledge of programming languages Java, Spring, SQL, Angular. - Demonstrated experience in requirements analysis, software design, applications development, software testing and implementing in production. - Excellent communication and collaboration skills. Qualifications: Education Required - Currently enrolled in a bachelor's, master's or doctorate degree program in Computer Science, Computer Engineering, or a related field. Experience Required: - Ability to assist with applications development and maintenance using Java and web technologies, and open-source libraries. - Able to follow through software development life cycle and apply security and application standards. - Working knowledge of JSON, RESTful services, SVN/Git, one or more UX frameworks like Spring Boot, Angular, JavaScript etc. Preferred - Knowledge of SQL queries and DML operations - Knowledge of Application servers, Tomcat, Maven, Jenkins, Nexus, VS Code/IntelliJ, Reporting tools. - Knowledge of Android and iOS development, testing and publishing to app stores Physical And Mental Demands - Occasionally must move about inside the office. - Occasionally may provide presentations and services to internal and external contacts in a variety of business and work settings. - Repetitive motion. Regularly operates a computer, phone, and general office equipment. - Regularly required to handle, feel, grasp objects and reach across a work area. - Regularly communicates with other employees and on the phone, virtually, or in person with clients. Regularly converses with internal and external contacts. - Visual acuity. Regularly must have close visual acuity to view and enter information into computer and software systems, analyze data, develop presentations and reports, and other materials. - Mental focus. Requires worker to maintain focus and exchange detailed and accurate information through oral and written communication. Work Environment: - Work may be conducted remotely or in an office with a small cubicle environment. - Office work environment is climate controlled with no substantial exposure to adverse environmental conditions. All qualified applicants will receive consideration for employment without regard to race, color, religion, sex, national origin, gender identity or sexual orientation. We are also an equal opportunity employer of individuals with disabilities and protected veterans. Please view Equal Employment Opportunity Posters provided by OFCCP. "
tags = ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-REQUIRED-S", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-REQUIRED-S", "O", "B-REQUIRED-S", "O", "B-REQUIRED-S", "O", "B-REQUIRED-S", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-EDU", "I-EDU", "O", "B-EDU", "I-EDU", "O", "B-EDU", "I-EDU", "O", "O", "B-EDU", "I-EDU", "O", "B-EDU", "I-EDU", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-REQUIRED-S", "O", "O", "O", "O", "B-REQUIRED-S", "O", "B-REQUIRED-S", "O", "O", "O", "O", "O", "O", "O", "B-REQUIRED-S", "I-REQUIRED-S", "O", "B-REQUIRED-S", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-PREFER-S", "O", "B-PREFER-S", "O", "B-PREFER-S", "O", "B-PREFER-S", "O", "B-PREFER-S", "I-PREFER-S", "O", "B-PREFER-S", "O", "O", "O", "O", "O", "O", "O", "O", "B-PREFER-S", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"]

In [10]:
len(text.split(" ")) - len(tags)

-193

In [13]:
text = ["Who", "You", "Are", "\n", "You", "are", "one", "who", "uses", "web", "and", "mobile", "technologies", "and", "application", "development", "tools", "to", "create", ",", "test", "and", "implement", "in", "-", "house", "applications", ".", "You", "enjoy", "working", "with", "internal", "partners", "to", "research", "problem", "requests", ",", "find", ",", "and", "correct", "production", "problems", ",", "develop", "application", "features", ",", "perform", "quality", "reviews", "of", "project", "deliverables", "and", "maintenance", "work", "in", "advance", "of", "being", "implemented", "into", "production", ".", "\n", "Who", "We", "Are", "\n", "Trellis", "Company", "is", "a", "nonprofit", "501(c)3", "corporation", "with", "the", "dual", "mission", "of", "helping", "student", "borrowers", "repay", "their", "education", "loans", "and", "promoting", "access", "in", "higher", "education", ".", "Our", "strong", "philanthropic", "heritage", "of", "giving", "through", "grants", "to", "colleges", ",", "universities", ",", "and", "research", "groups", "remains", "focused", "on", "improving", "student", "outcomes", ",", "especially", "to", "underserved", "students", ",", "families", ",", "and", "institutions", ".", "\n", "As", "we", "move", "into", "the", "future", ",", "we", "'re", "drawing", "on", "our", "history", ",", "branching", "into", "new", "sectors", "beyond", "student", "loans", ",", "and", "delivering", "the", "same", "level", "of", "exceptional", "care", "and", "service", "that", "our", "customers", "have", "come", "to", "depend", "on", ".", "We", "remain", "invested", "in", "the", "success", "of", "students", "and", "higher", "education", "institutions", ".", "This", "combination", "of", "stability", "and", "vision", "creates", "a", "unique", "intersection", ":", "a", "startup", "environment", "at", "a", "company", "that", "also", "has", "a", "stable", "foundation", ",", "resulting", "in", "an", "opportunity", "for", "the", "right", "candidate", "to", "help", "shape", "our", "company", "'s", "future", ".", "This", "is", "an", "exciting", "time", "to", "join", "the", "Trellis", "team", "!", "\n", "Location", ":", "\n", "The", "position", "is", "hybrid", ",", "two", "days", "in", "office", "(", "Round", "Rock", ",", "Texas", ")", ".", "\n", "Essential", "Duties", "And", "Responsibilities", "\n", "The", "position", "incumbent", "is", "expected", "to", "perform", "the", "following", "essential", "duties", "and", "responsibilities", "of", "the", "position", "with", "reasonable", "accommodation", ".", "\n", "-", "Participate", "in", "the", "design", ",", "implementation", ",", "and", "testing", "of", "features", "for", "various", "products", ".", "\n", "-", "Work", "in", "a", "team", "-", "oriented", "environment", "with", "flexibility", "to", "work", "independently", ".", "\n", "-", "Consult", "with", "application", "development", "team", "on", "software", "products", "and", "development", "methodologies", ".", "\n", "-", "Assist", "the", "application", "design", "team", "with", "accomplishing", "tasks", "related", "to", "the", "development", "of", "new", "software", "to", "streamline", "business", "processes", ".", "\n", "-", "Assist", "with", "new", "and", "alternate", "solutions", "to", "improve", "existing", "processes", "and", "procedures", ".", "\n", "-", "Conduct", "research", "on", "new", "products", "and", "tools", "that", "may", "assist", "customer", "'s", "business", "needs", ".", "\n", "-", "Test", "software", "applications", "for", "efficiency", "and", "identify", "if", "any", "bugs", "and", "proposed", "fixes", ".", "\n", "-", "Participate", "in", "training", "and", "other", "learning", "opportunities", "to", "ensure", "compliance", "and", "expand", "knowledge", "of", "company", ",", "position", ",", "and", "process", ".", "\n", "-", "Follow", "all", "corporate", "policies", "and", "procedures", "and", "perform", "all", "work", "functions", "in", "a", "safe", "and", "efficient", "manner", ".", "\n", "-", "Participate", "in", "team", "meetings", "using", "productivity", "tools", "like", "O365", ",", "Teams", "etc", ".", "\n", "Non", "-", "Essential", "Duties", "And", "Responsibilities", "\n", "-", "All", "other", "duties", "and", "responsibilities", "as", "assigned", ".", "\n", "Knowledge", ",", "Skills", ",", "And", "Abilities", "\n", "To", "be", "eligible", "for", "this", "internship", ",", "you", "should", ":", "\n", "-", "Understand", "Object", "-", "Oriented", "Design", ",", "Unified", "Modeling", "Language", "(", "UML", ")", "Notation", ",", "Relational", "and", "Non", "-", "Relational", "Standard", "Query", "Language", "(", "NoSQL", ")", "databases", ".", "\n", "-", "Strong", "working", "knowledge", "of", "programming", "languages", "Java", ",", "Spring", ",", "SQL", ",", "Angular", ".", "\n", "-", "Demonstrated", "experience", "in", "requirements", "analysis", ",", "software", "design", ",", "applications", "development", ",", "software", "testing", "and", "implementing", "in", "production", ".", "\n", "-", "Excellent", "communication", "and", "collaboration", "skills", ".", "\n", "Qualifications", ":", "\n", "Education", "\n", "Required", "\n", "-", "Currently", "enrolled", "in", "a", "bachelor", "'s", ",", "master", "'s", "or", "doctorate", "degree", "program", "in", "Computer", "Science", ",", "Computer", "Engineering", ",", "or", "a", "related", "field", ".", "\n", "Experience", "\n", "Required", ":", "\n", "-", "Ability", "to", "assist", "with", "applications", "development", "and", "maintenance", "using", "Java", "and", "web", "technologies", ",", "and", "open", "-", "source", "libraries", ".", "\n", "-", "Able", "to", "follow", "through", "software", "development", "life", "cycle", "and", "apply", "security", "and", "application", "standards", ".", "\n", "-", "Working", "knowledge", "of", "JSON", ",", "RESTful", "services", ",", "SVN", "/", "Git", ",", "one", "or", "more", "UX", "frameworks", "like", "Spring", "Boot", ",", "Angular", ",", "JavaScript", "etc", ".", "\n", "Preferred", "\n", "-", "Knowledge", "of", "SQL", "queries", "and", "DML", "operations", "\n", "-", "Knowledge", "of", "Application", "servers", ",", "Tomcat", ",", "Maven", ",", "Jenkins", ",", "Nexus", ",", "VS", "Code", "/", "IntelliJ", ",", "Reporting", "tools", ".", "\n", "-", "Knowledge", "of", "Android", "and", "iOS", "development", ",", "testing", "and", "publishing", "to", "app", "stores", "\n", "Physical", "And", "Mental", "Demands", "\n", "-", "Occasionally", "must", "move", "about", "inside", "the", "office", ".", "\n", "-", "Occasionally", "may", "provide", "presentations", "and", "services", "to", "internal", "and", "external", "contacts", "in", "a", "variety", "of", "business", "and", "work", "settings", ".", "\n", "-", "Repetitive", "motion", ".", "Regularly", "operates", "a", "computer", ",", "phone", ",", "and", "general", "office", "equipment", ".", "\n", "-", "Regularly", "required", "to", "handle", ",", "feel", ",", "grasp", "objects", "and", "reach", "across", "a", "work", "area", ".", "\n", "-", "Regularly", "communicates", "with", "other", "employees", "and", "on", "the", "phone", ",", "virtually", ",", "or", "in", "person", "with", "clients", ".", "Regularly", "converses", "with", "internal", "and", "external", "contacts", ".", "\n", "-", "Visual", "acuity", ".", "Regularly", "must", "have", "close", "visual", "acuity", "to", "view", "and", "enter", "information", "into", "computer", "and", "software", "systems", ",", "analyze", "data", ",", "develop", "presentations", "and", "reports", ",", "and", "other", "materials", ".", "\n", "-", "Mental", "focus", ".", "Requires", "worker", "to", "maintain", "focus", "and", "exchange", "detailed", "and", "accurate", "information", "through", "oral", "and", "written", "communication", ".", "\n", "Work", "Environment", ":", "\n", "-", "Work", "may", "be", "conducted", "remotely", "or", "in", "an", "office", "with", "a", "small", "cubicle", "environment", ".", "\n", "-", "Office", "work", "environment", "is", "climate", "controlled", "with", "no", "substantial", "exposure", "to", "adverse", "environmental", "conditions", ".", "\n", "All", "qualified", "applicants", "will", "receive", "consideration", "for", "employment", "without", "regard", "to", "race", ",", "color", ",", "religion", ",", "sex", ",", "national", "origin", ",", "gender", "identity", "or", "sexual", "orientation", ".", "We", "are", "also", "an", "equal", "opportunity", "employer", "of", "individuals", "with", "disabilities", "and", "protected", "veterans", ".", "\n", "Please", "view", "Equal", "Employment", "Opportunity", "Posters", "provided", "by", "OFCCP", ".", "\n                \n            \n                            \n            "] 
labels =  ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-REQUIRED-S", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-REQUIRED-S", "O", "B-REQUIRED-S", "O", "B-REQUIRED-S", "O", "B-REQUIRED-S", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-EDU", "I-EDU", "O", "B-EDU", "I-EDU", "O", "B-EDU", "I-EDU", "O", "O", "B-EDU", "I-EDU", "O", "B-EDU", "I-EDU", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-REQUIRED-S", "O", "O", "O", "O", "B-REQUIRED-S", "O", "B-REQUIRED-S", "O", "O", "O", "O", "O", "O", "O", "B-REQUIRED-S", "I-REQUIRED-S", "O", "B-REQUIRED-S", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-PREFER-S", "O", "B-PREFER-S", "O", "B-PREFER-S", "O", "B-PREFER-S", "O", "B-PREFER-S", "I-PREFER-S", "O", "B-PREFER-S", "O", "O", "O", "O", "O", "O", "O", "O", "B-PREFER-S", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"]

len (text)- len(labels)

0

In [38]:
for i, token in enumerate(text):
    print(token, labels[i])

Who O
You O
Are O

 O
You O
are O
one O
who O
uses O
web O
and O
mobile O
technologies O
and O
application O
development O
tools O
to O
create O
, O
test O
and O
implement O
in O
- O
house O
applications O
. O
You O
enjoy O
working O
with O
internal O
partners O
to O
research O
problem O
requests O
, O
find O
, O
and O
correct O
production O
problems O
, O
develop O
application O
features O
, O
perform O
quality O
reviews O
of O
project O
deliverables O
and O
maintenance O
work O
in O
advance O
of O
being O
implemented O
into O
production O
. O

 O
Who O
We O
Are O

 O
Trellis O
Company O
is O
a O
nonprofit O
501(c)3 O
corporation O
with O
the O
dual O
mission O
of O
helping O
student O
borrowers O
repay O
their O
education O
loans O
and O
promoting O
access O
in O
higher O
education O
. O
Our O
strong O
philanthropic O
heritage O
of O
giving O
through O
grants O
to O
colleges O
, O
universities O
, O
and O
research O
groups O
remains O
focused O
on O
improving O
student O
outcomes O
,

In [16]:
label_list =  [
    "EXP",
    "EDU",
    "REQUIRED-S",
    "PREFER-S"
]

In [17]:
bio_labels = [
    "O",
    "B-EXP",
    "I-EXP",
    "B-EDU",
    "I-EDU",
    "B-REQUIRED-S",
    "I-REQUIRED-S",
    "B-PREFER-S",
    "I-PREFER-S"
  ]

In [18]:
id2label = {i: label for i, label in enumerate(bio_labels)}
label2id = {label: i for i, label in enumerate(bio_labels)}

In [19]:
b_to_i_label = []
for idx, label in enumerate(bio_labels):
    if label.startswith("B-") and label.replace("B-", "I-") in bio_labels:
        b_to_i_label.append(bio_labels.index(label.replace("B-", "I-")))
    else:
        b_to_i_label.append(idx)
b_to_i_label

[0, 2, 2, 4, 4, 6, 6, 8, 8]

In [None]:
wnut = {'id': '0',
 'ner_tags': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 7, 8, 8, 0, 7, 0, 0, 0, 0, 0, 0, 0, 0],
 'tokens': ['@paulwalk', 'It', "'s", 'the', 'view', 'from', 'where', 'I', "'m", 'living', 'for', 'two', 'weeks', '.', 'Empire', 'State', 'Building', '=', 'ESB', '.', 'Pretty', 'bad', 'storm', 'here', 'last', 'evening', '.']
}

In [None]:
def tokenize_and_align_labels(text, tags):
        tokenized_inputs = tokenizer(
            text,
            max_length=510,
            padding="max_length",
            truncation=True,
            # We use this argument because the texts in our dataset are lists of words (with a label for each word).
            is_split_into_words=True,
        )

        labels = []
        for i, label in enumerate(tags):
            word_ids = tokenized_inputs.word_ids(batch_index=i)
            previous_word_idx = None
            label_ids = []
            for word_idx in word_ids:
                # Special tokens have a word id that is None. We set the label to -100 so they are automatically
                # ignored in the loss function.
                if word_idx is None:
                    label_ids.append('O')
                # We set the label for the first token of each word.
                elif word_idx != previous_word_idx:
                    label_ids.append(label[word_idx])
                # For the other tokens in a word, we set the label to either the current label or -100, depending on
                # the label_all_tokens flag.
                else:
                    # if args.label_all_tokens:
                    #     label_ids.append(b_to_i_label[label_to_id[label[word_idx]]])
                    # else:
                    label_ids.append('O')
                previous_word_idx = word_idx
            labels.append(label_ids)

        tokenized_inputs["labels"] = labels
        return tokenized_inputs

In [None]:
token_ids = tokenize_and_align_labels(wnut)

TypeError: 'int' object is not subscriptable

In [None]:
token_ids["labels"]

[]

In [25]:
tokenized_inputs = tokenizer(
            text,
            truncation=False,
            # We use this argument because the texts in our dataset are lists of words (with a label for each word).
            is_split_into_words=True,
        )
tokenized_inputs
tokens = tokenizer.convert_ids_to_tokens(tokenized_inputs["input_ids"])

tokens

['[CLS]',
 'who',
 'you',
 'are',
 'you',
 'are',
 'one',
 'who',
 'uses',
 'web',
 'and',
 'mobile',
 'technologies',
 'and',
 'application',
 'development',
 'tools',
 'to',
 'create',
 ',',
 'test',
 'and',
 'implement',
 'in',
 '-',
 'house',
 'applications',
 '.',
 'you',
 'enjoy',
 'working',
 'with',
 'internal',
 'partners',
 'to',
 'research',
 'problem',
 'requests',
 ',',
 'find',
 ',',
 'and',
 'correct',
 'production',
 'problems',
 ',',
 'develop',
 'application',
 'features',
 ',',
 'perform',
 'quality',
 'reviews',
 'of',
 'project',
 'deliver',
 '##ables',
 'and',
 'maintenance',
 'work',
 'in',
 'advance',
 'of',
 'being',
 'implemented',
 'into',
 'production',
 '.',
 'who',
 'we',
 'are',
 't',
 '##relli',
 '##s',
 'company',
 'is',
 'a',
 'nonprofit',
 '501',
 '(',
 'c',
 ')',
 '3',
 'corporation',
 'with',
 'the',
 'dual',
 'mission',
 'of',
 'helping',
 'student',
 'borrow',
 '##ers',
 'repay',
 'their',
 'education',
 'loans',
 'and',
 'promoting',
 'access',
 

In [27]:
for i, token in enumerate(tokens):
    print(token, tokenized_inputs.word_ids(0)[i])

ValueError: word_ids() is not available when using non-fast tokenizers (e.g. instance of a `XxxTokenizerFast` class).

In [32]:
word_ids = tokenized_inputs.word_ids

In [33]:
word_ids

<bound method BatchEncoding.word_ids of {'input_ids': [101, 1150, 1128, 1132, 1128, 1132, 1141, 1150, 2745, 5127, 1105, 5093, 7951, 1105, 4048, 1718, 5537, 1106, 2561, 117, 2774, 1105, 10407, 1107, 118, 1402, 4683, 119, 1128, 5548, 1684, 1114, 4422, 6449, 1106, 1844, 2463, 11458, 117, 1525, 117, 1105, 5663, 1707, 2645, 117, 3689, 4048, 1956, 117, 3870, 3068, 3761, 1104, 1933, 7852, 15759, 1105, 5972, 1250, 1107, 4657, 1104, 1217, 7042, 1154, 1707, 119, 1150, 1195, 1132, 189, 25294, 1116, 1419, 1110, 170, 15773, 17196, 113, 172, 114, 124, 9715, 1114, 1103, 7058, 2862, 1104, 4395, 2377, 20055, 1468, 27842, 1147, 1972, 11453, 1105, 7495, 2469, 1107, 2299, 1972, 119, 1412, 2012, 185, 20473, 2861, 27544, 5900, 1104, 2368, 1194, 9295, 1106, 7632, 117, 5659, 117, 1105, 1844, 2114, 2606, 3378, 1113, 9248, 2377, 13950, 117, 2108, 1106, 1223, 17886, 1181, 1651, 117, 2073, 117, 1105, 4300, 119, 1112, 1195, 1815, 1154, 1103, 2174, 117, 1195, 112, 1231, 4619, 1113, 1412, 1607, 117, 27021, 1154, 120

In [42]:
tokenized_input = tokenizer(
            text,
            truncation=False,
            # We use this argument because the texts in our dataset are lists of words (with a label for each word).
            is_split_into_words=True,
        )
tokenized_input
tokens = tokenizer.convert_ids_to_tokens(tokenized_input["input_ids"])

word_ids = tokenized_inputs.word_ids() 
previous_word_idx = None
label_ids = []
for i, token in enumerate(tokens):
    if word_ids[i] is None:
        print(token, word_ids[i], "-100")
    elif word_ids[i] != previous_word_idx:
        print(token, word_ids[i], tags[word_ids[i]])
    else: 
        print(token, word_ids[i], "-100")

    previous_word_idx = word_ids[i] 

[CLS] None -100
Who 0 O
You 1 O
Are 2 O
You 4 O
are 5 O
one 6 O
who 7 O
uses 8 O
web 9 O
and 10 O
mobile 11 O
technologies 12 O
and 13 O
application 14 O
development 15 O
tools 16 O
to 17 O
create 18 O
, 19 O
test 20 O
and 21 O
implement 22 O
in 23 O
- 24 O
house 25 O
applications 26 O
. 27 O
You 28 O
enjoy 29 O
working 30 O
with 31 O
internal 32 O
partners 33 O
to 34 O
research 35 O
problem 36 O
requests 37 O
, 38 O
find 39 O
, 40 O
and 41 O
correct 42 O
production 43 O
problems 44 O
, 45 O
develop 46 O
application 47 O
features 48 O
, 49 O
perform 50 O
quality 51 O
reviews 52 O
of 53 O
project 54 O
deliver 55 O
##ables 55 -100
and 56 O
maintenance 57 O
work 58 O
in 59 O
advance 60 O
of 61 O
being 62 O
implemented 63 O
into 64 O
production 65 O
. 66 O
Who 68 O
We 69 O
Are 70 O
T 72 O
##relli 72 -100
##s 72 -100
Company 73 O
is 74 O
a 75 O
nonprofit 76 O
501 77 O
( 77 -100
c 77 -100
) 77 -100
3 77 -100
corporation 78 O
with 79 O
the 80 O
dual 81 O
mission 82 O
of 83 O
helping 84 O
stud

In [None]:
word_ids = tokenized_inputs.word_ids(batch_index=0)
word_ids

In [43]:
tokenized_input

{'input_ids': [101, 2627, 1192, 2372, 1192, 1132, 1141, 1150, 2745, 5127, 1105, 5093, 7951, 1105, 4048, 1718, 5537, 1106, 2561, 117, 2774, 1105, 10407, 1107, 118, 1402, 4683, 119, 1192, 5548, 1684, 1114, 4422, 6449, 1106, 1844, 2463, 11458, 117, 1525, 117, 1105, 5663, 1707, 2645, 117, 3689, 4048, 1956, 117, 3870, 3068, 3761, 1104, 1933, 7852, 15759, 1105, 5972, 1250, 1107, 4657, 1104, 1217, 7042, 1154, 1707, 119, 2627, 1284, 2372, 157, 25294, 1116, 1881, 1110, 170, 15773, 17196, 113, 172, 114, 124, 9715, 1114, 1103, 7058, 2862, 1104, 4395, 2377, 20055, 1468, 27842, 1147, 1972, 11453, 1105, 7495, 2469, 1107, 2299, 1972, 119, 3458, 2012, 185, 20473, 2861, 27544, 5900, 1104, 2368, 1194, 9295, 1106, 7632, 117, 5659, 117, 1105, 1844, 2114, 2606, 3378, 1113, 9248, 2377, 13950, 117, 2108, 1106, 1223, 17886, 1181, 1651, 117, 2073, 117, 1105, 4300, 119, 1249, 1195, 1815, 1154, 1103, 2174, 117, 1195, 112, 1231, 4619, 1113, 1412, 1607, 117, 27021, 1154, 1207, 11346, 2894, 2377, 11453, 117, 1105, 

In [None]:
tags[0]

'O'

In [None]:
tokens = tokenizer.tokenize(text)
crop = int(((len(tokens) - 510 )/ 2))
cropped = tokens[crop:len(tokens) - crop]

In [None]:
cropped_labels = labels[crop:len(tokens) - crop]

In [None]:
for i, token in enumerate(cropped):
    print(token, cropped_labels[i])

Rock O
, O
Texas O
) O
. O
Essential O
Du O
##ties O
And O
Re O
##sp O
##ons O
##ibi O
##lities O
The O
position O
incumbent O
is O
expected O
to O
perform O
the O
following O
essential O
duties O
and O
responsibilities O
of O
the O
position O
with O
reasonable O
accommodation O
. O
- O
Part O
##ici O
##pate O
in O
the O
design O
, O
implementation O
, O
and O
testing O
of O
features O
for O
various O
products O
. O
- O
Work O
in O
a O
team O
- O
oriented O
environment O
with O
flexibility O
to O
work O
independently O
. O
- O
Consul O
##t O
with O
application O
development O
team O
on O
software O
products O
and O
development O
method O
##ologies O
. O
- O
As O
##sist O
the O
application O
design O
team O
with O
accomplish O
##ing O
tasks O
related O
to O
the O
development O
of O
new O
software O
to O
stream O
##line O
business O
processes O
. O
- O
As O
##sist O
with O
new O
and O
alternate O
solutions O
to O
improve O
existing O
processes O
and O
procedures O
. O
- O
Con O
##duct O
