# Analyzing sentences from the user

This notebook aims to test custom sentences

In [7]:
# Library imports
import os

import pandas as pd
from sentence_transformers import util, SentenceTransformer

In [2]:
# Global variables
MODEL = 'multi-qa-mpnet-base-dot-v1'
DATA_PATH = '../data'
DATA_EMBEDDINGS_PATH = f'../data_embeddings/{MODEL}'

# Other Variables
filename = 'ley-organica-de-la-universidad-de-guanajuato'
#filename = 'estatuto-organico-de-la-universidad-de-guanajuato'
#filename = 'reglamento-de-mecanismos-alternos-de-solucion-de-controversias-ug-ugto'

In [3]:
# Loading the data
data = pd.read_csv(os.path.join(DATA_PATH, f"{filename}.csv"), sep=',')
embeddings = pd.read_csv(os.path.join(DATA_EMBEDDINGS_PATH, f"{filename}.csv"), sep=',', index_col=0)

In [4]:
# Loading the model
model = SentenceTransformer(MODEL)

  return torch._C._cuda_getDeviceCount() > 0


# Analyzing Question

In [16]:
# Select question
question = "Qué tipos de profesores hay en la Universidad?"
q_embedding = model.encode(question)

print("Sentence:", question)
print("Embedding:", q_embedding)

Sentence: Qué tipos de profesores hay en la Universidad?
Embedding: [ 5.32236882e-02 -3.22784752e-01 -4.70954210e-01  1.91692963e-01
  1.29071316e-02 -3.38214487e-01  2.15846211e-01 -8.67367536e-02
  1.29446268e-01  3.23889643e-01 -1.62149798e-02  1.10059030e-01
  1.37082189e-01  9.01084840e-02 -2.04387873e-01 -1.22784689e-01
  8.09166208e-02 -8.06994885e-02 -1.59420460e-01 -3.18510294e-01
 -3.67542714e-01  2.49746189e-01 -1.77291065e-01  1.12278806e-02
  1.02655657e-01  1.27273232e-01  3.44550833e-02 -2.54758745e-01
  3.80944200e-02  1.68967396e-01  1.60094753e-01  2.56053805e-01
 -1.57842219e-01  2.28927866e-01 -9.17799262e-05 -9.46277231e-02
  9.61554796e-02  2.24411815e-01  9.00282636e-02  1.22068696e-01
 -1.03134423e-01  1.62560474e-02  7.40911216e-02 -2.66160756e-01
 -1.35867491e-01  2.77205668e-02 -3.03991083e-02 -1.33491352e-01
  1.41022056e-01  9.30700749e-02  4.77207333e-01 -2.03588545e-01
  8.64418745e-02 -3.41987491e-01  1.25363514e-01 -1.77479222e-01
 -8.40984583e-02 -6.26

In [18]:
# Get nearest neighbors
k = 5
scores = util.dot_score(q_embedding.astype('double'), embeddings.values)
doc_score_pairs = list(zip(data.index.tolist(), scores[0]))

doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)

context_in_chunks = False
for pair in doc_score_pairs[:k]:
    chunk = data.loc[pair[0]]
    print("Distance:", pair[1])
    print("Chunk text:", chunk['sentences'])
    print("Parent:", chunk['parent'])
    print()


Distance: tensor(24.2141, dtype=torch.float64)
Chunk text: La comunidad universitaria se integra por el personal académico, los alumnos, los miembros de los órganos de gobierno y el personal administrativo de la Universidad.
Los derechos y obligaciones de los integrantes de la comunidad universitaria se regularán en las disposiciones reglamentarias correspondientes.
Se considera personal académico al que desempeña funciones de docencia, investigación o extensión en la Universidad, según el nombramiento o la vinculación académica que tenga con ella y conforme a los planes y programas establecidos por la Universidad. Para su incorporación no se establecerán limitaciones relacionadas con la posición ideológica, política o religiosa de los aspirantes, ni aquéllas serán causa de su remoción.
La reglamentación respectiva regulará las categorías de profesores de carrera y de tiempo parcial, además de las otras modalidades del personal académico.
Los profesores de carrera son aquellos cuya ded