In [1]:
import torch
import torch.optim as optim
import torch.nn as nn
from torch.utils.data import DataLoader
from transformers import logging
from transformers import pipeline
from transformers import BertTokenizer, BertModel
from tqdm import tqdm

In [2]:
from LamaTRExData import LamaTRExData#
from SentenceTypologyQueryResults import SentenceTypologyQueryResults

In [3]:
from relation_templates.templater import templater 

In [4]:
logging.set_verbosity_error()

In [5]:
MASK = "[MASK]"

In [6]:
relations = ["P19", "P36", "P101", "P178"]
#relations = ["P178"]

In [7]:
TOP_K = 1

In [8]:
#unmasker = pipeline('fill-mask', model='bert-large-uncased-whole-word-masking', top_k=100)
unmasker = pipeline('fill-mask', model='bert-base-cased', top_k=10)

In [9]:
TREx = LamaTRExData(relations = relations)
TREx.load()

In [10]:
results = SentenceTypologyQueryResults(relations, TOP_K)

In [11]:
qrs = {"P19": [], "P36": [], "P101": [], "P178": []}

In [12]:
for relation in relations:
    for sub, obj  in tqdm(TREx.data[relation]):
        query_simple, query_compound, query_complex, query_complex_compound  = templater(relation, sub, MASK)
        qrs[relation].append((sub, obj, query_simple))
        res_simple = unmasker(query_simple)
        res_compound = unmasker(query_compound)
        res_complex = unmasker(query_complex)
        res_complex_compound = unmasker(query_complex_compound)
        results.process_answers(obj, relation, [res_simple, res_compound, res_complex, res_complex_compound])

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 944/944 [02:31<00:00,  6.22it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 703/703 [01:51<00:00,  6.30it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 696/696 [01:55<00:00,  6.05it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 592/592 [01:34<00:00,  6.27it/s]


In [13]:
results.print_result()

P19:
| type             |   correct |   total |   accuracy |
|------------------+-----------+---------+------------|
| simple           |       199 |     944 |  21.0805   |
| compound         |         2 |     944 |   0.211864 |
| complex          |         2 |     944 |   0.211864 |
| compound-complex |         0 |     944 |   0        |
P36:
| type             |   correct |   total |   accuracy |
|------------------+-----------+---------+------------|
| simple           |       288 |     703 |    40.9673 |
| compound         |       422 |     703 |    60.0284 |
| complex          |       277 |     703 |    39.4026 |
| compound-complex |       399 |     703 |    56.7568 |
P101:
| type             |   correct |   total |   accuracy |
|------------------+-----------+---------+------------|
| simple           |         0 |     696 |          0 |
| compound         |         0 |     696 |          0 |
| complex          |         0 |     696 |          0 |
| compound-complex |         0 |

In [14]:
TOP_K = 10

In [15]:
results = SentenceTypologyQueryResults(relations, TOP_K)
for relation in relations:
    for obj, sub in tqdm(TREx.data[relation]):
        query_simple, query_compound, query_complex, query_complex_compound  = templater(relation, sub, MASK)
        res_simple = unmasker(query_simple)
        res_compound = unmasker(query_compound)
        res_complex = unmasker(query_complex)
        res_complex_compound = unmasker(query_complex_compound)
        results.process_answers(obj, relation, [res_simple, res_compound, res_complex, res_complex_compound])

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 944/944 [02:24<00:00,  6.52it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 703/703 [01:42<00:00,  6.85it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 696/696 [01:49<00:00,  6.34it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 592/592 [01:30<00:00,  6.55it/s]


In [16]:
results.print_result()

P19:
| type             |   correct |   total |   accuracy |
|------------------+-----------+---------+------------|
| simple           |         0 |     944 |          0 |
| compound         |         0 |     944 |          0 |
| complex          |         0 |     944 |          0 |
| compound-complex |         0 |     944 |          0 |
P36:
| type             |   correct |   total |   accuracy |
|------------------+-----------+---------+------------|
| simple           |       113 |     703 |    16.074  |
| compound         |       117 |     703 |    16.643  |
| complex          |         0 |     703 |     0      |
| compound-complex |       129 |     703 |    18.3499 |
P101:
| type             |   correct |   total |   accuracy |
|------------------+-----------+---------+------------|
| simple           |         0 |     696 |          0 |
| compound         |         0 |     696 |          0 |
| complex          |         0 |     696 |          0 |
| compound-complex |         0 |

In [17]:
unmasker = pipeline('fill-mask', model='bert-base-cased', top_k=100)

In [18]:
TOP_K = 100

In [19]:
results = SentenceTypologyQueryResults(relations, TOP_K)
for relation in relations:
    for obj, sub  in tqdm(TREx.data[relation]):
        query_simple, query_compound, query_complex, query_complex_compound  = templater(relation, sub, MASK)
        res_simple = unmasker(query_simple)
        res_compound = unmasker(query_compound)
        res_complex = unmasker(query_complex)
        res_complex_compound = unmasker(query_complex_compound)
        results.process_answers(obj, relation, [res_simple, res_compound, res_complex, res_complex_compound])

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 944/944 [02:29<00:00,  6.29it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 703/703 [01:48<00:00,  6.49it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 696/696 [01:50<00:00,  6.30it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 592/592 [01:30<00:00,  6.52it/s]


In [20]:
results.print_result()

P19:
| type             |   correct |   total |   accuracy |
|------------------+-----------+---------+------------|
| simple           |         0 |     944 |          0 |
| compound         |         0 |     944 |          0 |
| complex          |         0 |     944 |          0 |
| compound-complex |         0 |     944 |          0 |
P36:
| type             |   correct |   total |   accuracy |
|------------------+-----------+---------+------------|
| simple           |       137 |     703 |   19.4879  |
| compound         |       137 |     703 |   19.4879  |
| complex          |        28 |     703 |    3.98293 |
| compound-complex |       138 |     703 |   19.6302  |
P101:
| type             |   correct |   total |   accuracy |
|------------------+-----------+---------+------------|
| simple           |         1 |     696 |   0.143678 |
| compound         |         0 |     696 |   0        |
| complex          |         0 |     696 |   0        |
| compound-complex |         0 |