In [1]:
import torch
import torch.optim as optim
import torch.nn as nn
from torch.utils.data import DataLoader
from transformers import logging
from transformers import pipeline
from transformers import BertTokenizer, BertModel
from tqdm import tqdm

In [2]:
from LamaTRExData import LamaTRExData
from SentenceTypologyQueryResults import SentenceTypologyQueryResults
from relation_templates.templates import relations

In [3]:
from TypologyQuerier import TypologyQuerier 
from PipelineCacheWrapper.PipelineCacheWrapper import PipelineCacheWrapper

In [4]:
logging.set_verbosity_error()

In [5]:
MASK = "[MASK]"

In [6]:
#relations = ["P19", "P36", "P101", "P103","P106","P108", "P178", "P1001"]
relations = ["P36", "P1376"]

In [7]:
TOP_K = 1

In [8]:
#unmasker = pipeline('fill-mask', model='bert-large-uncased-whole-word-masking', top_k=100)
unmasker = PipelineCacheWrapper('fill-mask', model='bert-base-cased', top_k=TOP_K)

In [9]:
TREx = LamaTRExData(relations = relations)
TREx.load()

In [10]:
querier = TypologyQuerier(unmasker, relations, TOP_K, MASK)

In [11]:
querier.query(TREx.data)

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 703/703 [00:00<00:00, 33121.36it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 234/234 [00:00<00:00, 27203.28it/s]


In [12]:
%%time
unmasker.save_to_cache()

CPU times: user 79.5 ms, sys: 20.7 ms, total: 100 ms
Wall time: 99.9 ms


In [13]:
querier.print_result()

P36: capital 1:1
| type             |   correct |   total |   accuracy |
|------------------+-----------+---------+------------|
| simple           |       437 |     703 |    62.1622 |
| compound         |       434 |     703 |    61.7354 |
| complex          |       422 |     703 |    60.0284 |
| compound-complex |       279 |     703 |    39.6871 |
P1376: capital of 1:1
| type             |   correct |   total |   accuracy |
|------------------+-----------+---------+------------|
| simple           |       173 |     234 |    73.9316 |
| compound         |       170 |     234 |    72.6496 |
| complex          |       173 |     234 |    73.9316 |
| compound-complex |       172 |     234 |    73.5043 |


In [14]:
querier.print_for_latex()

P1376 & capital of & 1:1 & 73.93 & 72.65 & 73.93 & 73.50 \\
P36 & capital & 1:1 & 62.16 & 61.74 & 60.03 & 39.69 \\


In [15]:
TOP_K = 10

In [16]:
unmasker = PipelineCacheWrapper('fill-mask', model='bert-base-cased', top_k=TOP_K)

In [17]:
querier.reset()
querier.set_top_k(TOP_K)
querier.set_model(unmasker)


In [18]:
querier.query(TREx.data)

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 703/703 [00:00<00:00, 34134.77it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 234/234 [00:00<00:00, 28179.60it/s]


In [19]:
%%time
unmasker.save_to_cache()

CPU times: user 815 ms, sys: 86.8 ms, total: 901 ms
Wall time: 922 ms


In [20]:
querier.print_result()

P36: capital 1:1
| type             |   correct |   total |   accuracy |
|------------------+-----------+---------+------------|
| simple           |       553 |     703 |    78.6629 |
| compound         |       548 |     703 |    77.9516 |
| complex          |       544 |     703 |    77.3826 |
| compound-complex |       514 |     703 |    73.1152 |
P1376: capital of 1:1
| type             |   correct |   total |   accuracy |
|------------------+-----------+---------+------------|
| simple           |       214 |     234 |    91.453  |
| compound         |       214 |     234 |    91.453  |
| complex          |       213 |     234 |    91.0256 |
| compound-complex |       213 |     234 |    91.0256 |


In [21]:
querier.print_for_latex()

P1376 & capital of & 1:1 & 91.45 & 91.45 & 91.03 & 91.03 \\
P36 & capital & 1:1 & 78.66 & 77.95 & 77.38 & 73.12 \\


In [22]:
TOP_K = 100

In [23]:
unmasker = PipelineCacheWrapper('fill-mask', model='bert-base-cased', top_k=TOP_K)

In [24]:
querier.reset()
querier.set_top_k(TOP_K)
querier.set_model(unmasker)


In [25]:
querier.query(TREx.data)

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 703/703 [00:00<00:00, 17501.99it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 234/234 [00:00<00:00, 16835.64it/s]


In [26]:
%%time
unmasker.save_to_cache()

CPU times: user 187 ms, sys: 19.8 ms, total: 207 ms
Wall time: 206 ms


In [27]:
querier.print_result()

P36: capital 1:1
| type             |   correct |   total |   accuracy |
|------------------+-----------+---------+------------|
| simple           |       617 |     703 |    87.7667 |
| compound         |       621 |     703 |    88.3357 |
| complex          |       613 |     703 |    87.1977 |
| compound-complex |       605 |     703 |    86.0597 |
P1376: capital of 1:1
| type             |   correct |   total |   accuracy |
|------------------+-----------+---------+------------|
| simple           |       226 |     234 |    96.5812 |
| compound         |       226 |     234 |    96.5812 |
| complex          |       227 |     234 |    97.0085 |
| compound-complex |       226 |     234 |    96.5812 |


In [28]:
querier.print_for_latex()

P1376 & capital of & 1:1 & 96.58 & 96.58 & 97.01 & 96.58 \\
P36 & capital & 1:1 & 87.77 & 88.34 & 87.20 & 86.06 \\
