In [1]:
from pykeen.pipeline import pipeline
from pykeen.triples import TriplesFactory
import pandas as pd
import torch
import numpy as np

In [2]:
# Nota sobre la seguridad cargando modelos serializados
model = torch.load('models/inmuebles_grupo_01.v2/trained_model.pkl', weights_only=False, map_location=torch.device('cpu'))

In [3]:
triples_file = 'dataset/dataset_train.tsv.gz'
triples_factory = TriplesFactory.from_path(triples_file,create_inverse_triples=True)
triples_factory

TriplesFactory(num_entities=418172, num_relations=48, create_inverse_triples=True, num_triples=2008458, path="/home/emanuel/MaestriaIS/Topicos2-TPfinal-2024/dataset/dataset_train.tsv.gz")

In [4]:
triples_factory.relation_to_id['http://www.w3.org/2002/07/owl#sameAs']

5

In [5]:
# para extraer las entidades, con tripletas donde me interesa que el nodo head sea nodo principal de un inmueble
df = pd.read_csv(triples_file, sep='\t', header=None, names=['head', 'relation', 'tail'])
# Extraigo solo los nodos que son principales, es decir solo los inmuebles unicos
heads = df[list(map(lambda x: True if ('pronto.owl#space_site' in x) and (len(x.split('#')[1].split('_')) == 3) else False, df['head'].values))]['head'].values
# Extrago las relaciones (Tiene el mismo tamaño que head)
relations = ['http://www.w3.org/2002/07/owl#sameAs'] * len(heads)
# heads = df['head'].tolist()
# relations = df['relation'].tolist()

# Estraigo solo los ids
heads_idx = [triples_factory.entity_to_id[head] for head in heads]
relations_idx = [triples_factory.relation_to_id[relation] for relation in relations]

In [6]:
hr_batch = torch.tensor(list(zip(heads_idx, relations_idx)))
hr_batch.shape

torch.Size([1420663, 2])

In [14]:
# tenemos una lista de listas donde tenemos el id de un inmieble y el id de la relacion SameAss
hr_batch

tensor([[334785,      5],
        [252582,      5],
        [301978,      5],
        ...,
        [279291,      5],
        [268183,      5],
        [344434,      5]])

In [None]:
# Inferencia 
# Para todas las entidades que representan un inmieble (el nodo rais de un inmuble), le pregunto al modelo si cual es el score de la relacion SameAsç
# OJO con el uso de memoria
# Para este ejemplo, el modelo responderia de 44372*418172 = 18555127984 numero en punto flotante de 32 bits

In [7]:
# score_t recibe una lista de listas .. si sample = hr_batch[:0], la llamada a score_t falla
# usar slicing (hr_batch[0:1])
# Generamos un sample, si quiero los primeros 20 elementos pongo en vez de 1, pongo 20
sample = hr_batch[:1]
sample

tensor([[334785,      5]])

In [8]:
# si usan placa de video, CUDA puede lanzar excepciones de outomemory al cabo de un par de iteraciones 
# esta funcion es util para sacar cosas de la CRAM cada tanto 
torch.cuda.empty_cache()

In [10]:
# score_t donde la t es tail, donde doy uno o varios head x relation, y le pido el score a todos los tails posibles
# devuelve un arreglo de cosas bastantes grandes, devuelve la misma cantidad de entidades en el grafo 
# devuelve score_t un valor que en base al model transH cuando mas chico (negativo, x eso no es probabilidad) es mucho mejor
# podemos ordenar de menor a mayor y devolver los primeros 6 o 7 valores de 1 elemento (para API)
scores = model.score_t(sample)
scores

tensor([[-5.4302, -5.0816, -6.7288,  ..., -6.6870, -8.9306, -8.5871]],
       grad_fn=<NegBackward0>)

In [11]:
# devuelve la misma cantidad de entidades (no importa si son baños, departamentos, superficies, entidades etc)
scores.shape

torch.Size([1, 418172])

In [20]:
scores[2].min()

tensor(-15.8717, device='cuda:1', grad_fn=<MinBackward1>)

In [14]:
# scores.topk(10)
scores.topk(10, largest=False)


torch.return_types.topk(
values=tensor([[-14.4324, -14.3714, -14.3603, -14.2858, -14.1999, -14.1873, -14.1745,
         -14.0437, -14.0382, -14.0321]], grad_fn=<TopkBackward0>),
indices=tensor([[162569, 119965, 126441, 160233, 149206,  56461, 136246, 139504, 157410,
         131788]]))

In [21]:
scores = scores[1].to('cpu').detach().numpy()

In [65]:
# no funciona
T = 0.208 # Ajusta según la dispersión de los scores
probabilities = np.exp(-scores / T) / np.sum(np.exp(-scores / T))
#probabilities = np.exp(-scores) / np.sum(np.exp(-scores))

In [66]:
probabilities.max()

np.float32(0.14154623)

In [68]:
[(triples_factory.entity_id_to_label[int(l)],probabilities[int(l)]) for l in hr_batch[probabilities[hr_batch[:,0]]>0.005][:,0]]

[]

In [30]:
def get_prob(s):
    return 1 / (1 + np.exp(-s))

In [40]:
get_prob(-1.8)

np.float64(0.14185106490048777)