In [1]:
!pip install transformers
import transformers as trf
import torch as pt
import numpy as np
import pandas as pd
import random as rnd



Intel(R) Data Analytics Acceleration Library (Intel(R) DAAL) solvers for sklearn enabled: https://intelpython.github.io/daal4py/sklearn.html


In [2]:
bert = trf.BertModel.from_pretrained('bert-base-uncased')
tokenizer = trf.BertTokenizer.from_pretrained('bert-base-uncased')

In [3]:
def reconstruct(tk_ids, model=bert, tokenizer=tokenizer):
  print(f'input tokens: {tk_ids}')
  print(f'input sentence: {tokenizer.decode(tk_ids)}')
  with pt.no_grad():
    outs, _ = model(pt.tensor(tk_ids).unsqueeze(0))
  outs.detach()
  dots = pt.matmul(outs, model.embeddings.word_embeddings.weight.T)
  softmaxes = dots.softmax(dim=-1)
  predictions = softmaxes.argmax(dim=-1).squeeze()
  print(f'predicted tokens: {tokenizer.convert_ids_to_tokens(predictions)}')
  decoded = tokenizer.decode(predictions)
  print(f'decoded sentence: {decoded}')
  return predictions


In [4]:
sentence = 'london is the capital of the united kingdom.'
tks = tokenizer.encode(sentence)
for _ in range(10):
  tks = reconstruct(tks)

input tokens: [101, 2414, 2003, 1996, 3007, 1997, 1996, 2142, 2983, 1012, 102]
input sentence: [CLS] london is the capital of the united kingdom. [SEP]
predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', 'capital', '[CLS]', '[CLS]', 'uk', 'uk', '##ann', '##urn']
decoded sentence: [CLS] [CLS] [CLS] [CLS] capital [CLS] [CLS] uk ukannurn
input tokens: tensor([  101,   101,   101,   101,  3007,   101,   101,  2866,  2866, 11639,
        14287])
input sentence: [CLS] [CLS] [CLS] [CLS] capital [CLS] [CLS] uk ukannurn
predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]']
decoded sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
input tokens: tensor([101, 101, 101, 101, 101, 101, 101, 101, 101, 101, 101])
input sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]']


  """


predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]']
decoded sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
input tokens: tensor([101, 101, 101, 101, 101, 101, 101, 101, 101, 101, 101])
input sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]']
decoded sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
input tokens: tensor([101, 101, 101, 101, 101, 101, 101, 101, 101, 101, 101])
input sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]']
decoded sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
input tokens: tensor([101, 101, 101, 101, 101, 101, 101, 101, 101, 101, 10

In [5]:
sentence = 'water consists of hydrogen and oxygen.'
tks = tokenizer.encode(sentence)
for _ in range(10):
  tks = reconstruct(tks)

input tokens: [101, 2300, 3774, 1997, 9732, 1998, 7722, 1012, 102]
input sentence: [CLS] water consists of hydrogen and oxygen. [SEP]
predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '##rona', 'hydrogen', '[CLS]', 'oxygen', '##ther', '##ther']
decoded sentence: [CLS] [CLS] [CLS]rona hydrogen [CLS] oxygentherther
input tokens: tensor([  101,   101,   101, 26788,  9732,   101,  7722, 12399, 12399])
input sentence: [CLS] [CLS] [CLS]rona hydrogen [CLS] oxygentherther
predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]']
decoded sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
input tokens: tensor([101, 101, 101, 101, 101, 101, 101, 101, 101])
input sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]


  """


predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]']
decoded sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
input tokens: tensor([101, 101, 101, 101, 101, 101, 101, 101, 101])
input sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]']
decoded sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
input tokens: tensor([101, 101, 101, 101, 101, 101, 101, 101, 101])
input sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]']
decoded sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
input tokens: tensor([101, 101, 101, 101, 101, 101, 101, 101, 101])
input sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]

In [6]:
sentence = 'washington is the capital of united states.'
tks = tokenizer.encode(sentence)
for _ in range(10):
  tks = reconstruct(tks)

input tokens: [101, 2899, 2003, 1996, 3007, 1997, 2142, 2163, 1012, 102]
input sentence: [CLS] washington is the capital of united states. [SEP]
predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', 'capitals', '[CLS]', '[CLS]', '[CLS]', '##vey', '##vna']
decoded sentence: [CLS] [CLS] [CLS] [CLS] capitals [CLS] [CLS] [CLS]veyvna
input tokens: tensor([  101,   101,   101,   101, 15433,   101,   101,   101, 12417, 29207])
input sentence: [CLS] [CLS] [CLS] [CLS] capitals [CLS] [CLS] [CLS]veyvna
predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]']
decoded sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
input tokens: tensor([101, 101, 101, 101, 101, 101, 101, 101, 101, 101])
input sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]


  """


predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]']
decoded sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
input tokens: tensor([101, 101, 101, 101, 101, 101, 101, 101, 101, 101])
input sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]']
decoded sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
input tokens: tensor([101, 101, 101, 101, 101, 101, 101, 101, 101, 101])
input sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]']
decoded sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
input tokens: tensor([101, 101, 101, 101, 101, 101, 101, 101, 101, 101])
input sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS

In [7]:
sentence = 'the currency of canada is the canadian dollar.'
tks = tokenizer.encode(sentence)
for _ in range(10):
  tks = reconstruct(tks)

input tokens: [101, 1996, 9598, 1997, 2710, 2003, 1996, 3010, 7922, 1012, 102]
input sentence: [CLS] the currency of canada is the canadian dollar. [SEP]
predicted tokens: ['[CLS]', '##ider', 'currency', 'exercised', 'canada', '[CLS]', '##nated', 'canadian', 'dollar', '##ann', '##ust']
decoded sentence: [CLS]ider currency exercised canada [CLS]nated canadian dollarannust
input tokens: tensor([  101, 18688,  9598, 17747,  2710,   101, 23854,  3010,  7922, 11639,
        19966])
input sentence: [CLS]ider currency exercised canada [CLS]nated canadian dollarannust
predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]']
decoded sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
input tokens: tensor([101, 101, 101, 101, 101, 101, 101, 101, 101, 101, 101])
input sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]


  """


predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]']
decoded sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
input tokens: tensor([101, 101, 101, 101, 101, 101, 101, 101, 101, 101, 101])
input sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]']
decoded sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
input tokens: tensor([101, 101, 101, 101, 101, 101, 101, 101, 101, 101, 101])
input sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
predicted tokens: ['[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]', '[CLS]']
decoded sentence: [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS] [CLS]
input tokens: tensor([101, 101, 101, 101, 101, 101, 101, 101, 101, 101, 10