# Búsqueda semántica de texto
En este notebook vamos a implementar un buscador semántico de textos similares mediante un modelo *Sentence Transformer* (https://github.com/UKPLab/sentence-transformers). \
Vamos a usar el conjunto de noticias del dataset Lee utilizado en el NLP_07.\
Hay que instalar la librería `sentence-transformers` con:\
```pip install -U sentence-transformers```

In [None]:
import os
import re
import numpy as np
import pandas as pd
import gensim
from sentence_transformers import SentenceTransformer


In [None]:
lee_data_file = 'lee_background.cor'

In [None]:
#Leemos todas las noticias
#Al usar transformers podemos obviar el pre-procesado del texto
with open(lee_data_file) as f:
    corpus = f.readlines()

In [None]:
len(corpus)

In [None]:
display(corpus[0])

In [None]:
#Con esta librería el tokenizado y la codificación se hace a la vez

model = SentenceTransformer('all-MiniLM-L6-v2')
#Llamamos a model.encode() para crear los embeddings de cada documento
doc_embeddings = model.encode(corpus)

In [None]:
type(corpus)

In [None]:
doc_embeddings.shape

Los embeddings generados para cada documento son los que usaremos para calcular la similitud entre documentos (con la distancia coseno). Es lo que se conoce como técnica *Bi-encoder*:\
>A Bi-Encoder Sentence Transformer model takes in one text at a time as input and outputs a fixed dimension embedding vector as the output. We can then compare any two documents by computing the cosine similarity between the embeddings of those two documents.

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

#Vemos la similitud de todos los documentos con todos
sims = cosine_similarity(doc_embeddings, doc_embeddings)
sims.shape

Vemos la similitud del primer documento al resto

In [None]:
sims[0, :]

In [None]:
sims[0, :].shape

In [None]:
#Ordenamos de mayor a menor
sims_sorted = sorted(enumerate(sims[0,:]), key=lambda item: -item[1])
print(sims_sorted[:10])

In [None]:
#Noticia más cercana
display(corpus[sims_sorted[1][0]])

In [None]:
#5 noticias más similares
for idx, score in sims_sorted[1:6]:
        print(corpus[idx], f"(Score: {score})" )

In [None]:
#Creamos un texto nuevo y buscamos la noticia más similar
texto = """the new Pakistan government falled in the terrorist attack by the islamic group Hamas"""
texto_embedding = model.encode(texto)

In [None]:
texto_embedding.shape

In [None]:
texto_embedding

In [None]:
texto_embedding.reshape(1, -1)

In [None]:
texto_embedding.reshape(1, -1).shape

In [None]:
#Comparamos con el resto
sims = cosine_similarity(texto_embedding.reshape(1, -1), doc_embeddings)[0]
sims_sorted = sorted(enumerate(sims), key=lambda item: -item[1])
sims.shape

In [None]:
print(sims_sorted[:10])

In [None]:
#5 noticias más similares
for idx, score in sims_sorted[0:5]:
        print(corpus[idx], f"(Score: {score})" )