In [1]:
import torch
import torch.optim as optim
import torch.nn as nn
import torch.nn.functional as F
from torch import linalg as LA
from torch.utils.data import DataLoader
from transformers import logging
from transformers import pipeline
from tqdm import tqdm

In [2]:
from transformers import BertTokenizer, BertModel
from transformers import AutoTokenizer, AutoModel

In [3]:
from relation_templates.templates import relations, nominalized_relations, get_templates, get_relation_meta, relations, relation_names, get_relation_cardinality, get_relations_with_last_digit

In [4]:
from TRExData.LamaTRExData import LamaTRExData
from TRExData.AbstractTRExData import AbstractTRExData
from TRExData.HardTRExData import HardKnownTRExData

In [5]:
from FeatureExtractor.FeatureComparison import FeatureComparison
from ResultData.ComparisonPersistor import ComparisonPersistor

In [6]:
#MASK = "[MASK]"
MASK = "<mask>"

In [7]:
logging.set_verbosity_error()

In [8]:
#model='bert-base-cased'
#model='bert-large-cased'
#model='bert-base-uncased'
#model='bert-large-uncased'
#model='bert-base-multilingual-cased'
#model='bert-base-multilingual-uncased'
#model='roberta-base'
model='roberta-large'

In [9]:
metric_name = "cosine similarity"

In [10]:
tokenizer = AutoTokenizer.from_pretrained(model)

In [11]:
feature_extractor = pipeline("feature-extraction", model=model)

In [12]:
#relations = get_relations_with_last_digit(3)[2:]+get_relations_with_last_digit(4)+get_relations_with_last_digit(5)+get_relations_with_last_digit(6)+get_relations_with_last_digit(7)+get_relations_with_last_digit(8)+get_relations_with_last_digit(9)
#relations = relations[18:]

In [13]:
list(enumerate(relations)), len(relations)

([(0, 'P159'),
  (1, 'P37'),
  (2, 'P1412'),
  (3, 'P138'),
  (4, 'P495'),
  (5, 'P17'),
  (6, 'P178'),
  (7, 'P103'),
  (8, 'P20'),
  (9, 'P36'),
  (10, 'P407'),
  (11, 'P190'),
  (12, 'P276'),
  (13, 'P108'),
  (14, 'P31'),
  (15, 'P364'),
  (16, 'P27'),
  (17, 'P30'),
  (18, 'P47'),
  (19, 'P1376'),
  (20, 'P106'),
  (21, 'P413'),
  (22, 'P937'),
  (23, 'P449'),
  (24, 'P131'),
  (25, 'P1303'),
  (26, 'P127'),
  (27, 'P279'),
  (28, 'P740'),
  (29, 'P19'),
  (30, 'P527'),
  (31, 'P136'),
  (32, 'P264'),
  (33, 'P1001'),
  (34, 'P39'),
  (35, 'P101'),
  (36, 'P140'),
  (37, 'P361'),
  (38, 'P530'),
  (39, 'P463'),
  (40, 'P176')],
 41)

In [14]:
TREx = LamaTRExData(relations = relations)
#TREx = AbstractTRExData(relations=relations)
#TREx = HardKnownTRExData(get_hard_filter, get_known_filter, relations = relations

In [15]:
TREx.load()

In [16]:
persistor = ComparisonPersistor(model, metric_name)

In [17]:
def metric(left, right):
    result = torch.dot(left, right)/(LA.norm(left)*LA.norm(right))
    return result.item()

In [18]:
comparer = FeatureComparison(feature_extractor, tokenizer, metric, relations, get_templates, get_relation_meta, persistor.persist_row_fast, mask=MASK)

In [19]:
comparer.get_key_pairs()

[('simple', 'simple'),
 ('simple', 'compound'),
 ('simple', 'complex'),
 ('simple', 'compound-complex'),
 ('compound', 'compound'),
 ('compound', 'complex'),
 ('compound', 'compound-complex'),
 ('complex', 'complex'),
 ('complex', 'compound-complex'),
 ('compound-complex', 'compound-complex')]

In [20]:
comparer.compare(TREx.data)

P159 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 967/967 [08:27<00:00,  1.90it/s]


P37 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 966/966 [08:37<00:00,  1.87it/s]


P1412 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 969/969 [08:33<00:00,  1.89it/s]


P138 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 645/645 [05:36<00:00,  1.92it/s]


P495 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 909/909 [08:17<00:00,  1.83it/s]


P17 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 930/930 [08:23<00:00,  1.85it/s]


P178 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 592/592 [05:28<00:00,  1.80it/s]


P103 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 977/977 [08:48<00:00,  1.85it/s]


P20 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 953/953 [08:21<00:00,  1.90it/s]


P36 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 703/703 [06:24<00:00,  1.83it/s]


P407 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 877/877 [07:45<00:00,  1.88it/s]


P190 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 995/995 [08:41<00:00,  1.91it/s]


P276 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 959/959 [08:42<00:00,  1.84it/s]


P108 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 383/383 [03:32<00:00,  1.81it/s]


P31 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 922/922 [08:14<00:00,  1.86it/s]


P364 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 856/856 [07:32<00:00,  1.89it/s]


P27 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 966/966 [08:39<00:00,  1.86it/s]


P30 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 975/975 [09:09<00:00,  1.77it/s]


P47 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 922/922 [08:22<00:00,  1.83it/s]


P1376 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 234/234 [02:07<00:00,  1.84it/s]


P106 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 958/958 [08:35<00:00,  1.86it/s]


P413 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 952/952 [08:47<00:00,  1.80it/s]


P937 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 954/954 [08:37<00:00,  1.84it/s]


P449 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 881/881 [08:06<00:00,  1.81it/s]


P131 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 881/881 [08:08<00:00,  1.80it/s]


P1303 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [08:42<00:00,  1.82it/s]


P127 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 687/687 [06:19<00:00,  1.81it/s]


P279 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 964/964 [08:49<00:00,  1.82it/s]


P740 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [08:41<00:00,  1.79it/s]


P19 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 944/944 [08:39<00:00,  1.82it/s]


P527 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 976/976 [09:02<00:00,  1.80it/s]


P136 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 931/931 [08:25<00:00,  1.84it/s]


P264 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 429/429 [04:01<00:00,  1.78it/s]


P1001 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 701/701 [06:25<00:00,  1.82it/s]


P39 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 892/892 [08:18<00:00,  1.79it/s]


P101 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 696/696 [06:13<00:00,  1.86it/s]


P140 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 473/473 [04:12<00:00,  1.87it/s]


P361 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 932/932 [08:42<00:00,  1.78it/s]


P530 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 996/996 [09:09<00:00,  1.81it/s]


P463 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [02:04<00:00,  1.80it/s]


P176 :


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 982/982 [09:08<00:00,  1.79it/s]


In [21]:
persistor.close()

In [22]:
persistor.connection.close()