# Comparar frases con un modelo de embeddings

##Embeddings definiciones

Los embeddings son representaciones numéricas de palabras, frases o textos en forma de vectores. Estos vectores capturan información semántica y sintáctica sobre el texto y se utilizan en una variedad de tareas de procesamiento de lenguaje natural (NLP).

La biblioteca "sentence-transformers" está diseñada para generar embeddings de oraciones. En lugar de generar embeddings de palabras individuales, esta biblioteca toma una oración como entrada y la transforma en un vector de alta dimensionalidad que representa el significado semántico de la oración.

La generación de embeddings de oraciones es útil en muchas aplicaciones de NLP, como la búsqueda semántica, la clasificación de textos, la recuperación de información, la agrupación de documentos y la traducción automática. Al utilizar embeddings de oraciones en lugar de representaciones basadas en palabras, se puede capturar el significado completo de una oración y compararla con otras oraciones de manera más precisa.

La biblioteca "sentence-transformers" proporciona una amplia gama de modelos pre-entrenados que pueden generar embeddings de oraciones. Estos modelos se basan en técnicas avanzadas de aprendizaje automático, como el uso de redes neuronales y el aprendizaje por transferencia, para capturar la información semántica de las oraciones.



## Instalación de librería de embeddings

El comando "!pip install" se utiliza para instalar paquetes o bibliotecas de Python a través del administrador de paquetes pip.

 La opción "-U" se utiliza para actualizar una biblioteca ya instalada a la última versión disponible.

In [1]:
!pip install -U sentence-transformers

Collecting sentence-transformers
  Downloading sentence_transformers-2.5.1-py3-none-any.whl (156 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/156.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m [32m153.6/156.5 kB[0m [31m5.0 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m156.5/156.5 kB[0m [31m3.5 MB/s[0m eta [36m0:00:00[0m
Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (23.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m23.7/23.7 MB[0m [31m39.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting nvidia-cuda-runtime-cu12==12.1.105 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (823 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Carga de modelo y procesamiento de embeddings



In [2]:
from sentence_transformers import SentenceTransformer, util     #importa dos módulos de la biblioteca "sentence-transformers" en Python: "SentenceTransformer" y "util".
                                                                #La biblioteca "util" en la biblioteca "sentence-transformers" proporciona varias funciones adicionales y utilidades que son útiles
                                                                #para trabajar con embeddings de oraciones

model = SentenceTransformer('all-MiniLM-L6-v2')                 #Podemos crear un objeto "SentenceTransformer" pasándole el nombre o la ruta del modelo pre-entrenado que deseas utilizar.
                                                                #En este caso una instancia del modelo pre-entrenado llamado "all-MiniLM-L6-v2" de la biblioteca "sentence-transformers".
                                                                #En "sentence-transformers" podemos utilizar modelos espesificos para ciertas tareas.
                                                                #el modelo "all-MiniLM-L6-v2" en la biblioteca "sentence-transformers" es útil para generar embeddings de oraciones y
                                                                #utilizarlos en una variedad de tareas de procesamiento de lenguaje natural, incluyendo búsqueda semántica, clasificación de textos,
                                                                #generación de paráfrasis y transferencia de aprendizaje.

#Lista de frases
sentences = ['el gato juega afuera',
             'me gusta tocar guitarra',
             'me encanta la pasta',
             'esta pelicula estuvo asombrosa',
             'el perro esta afuera',
             'te gusta la musica?',
             'estuvo muy buena la pelicula',
             'te gustaria una pizza?']

#Cómputo de embeddings
embeddings = model.encode(sentences)                            #Enviamos las sentencias (oraciones a pasar a un espacio vectorial) al modelo con el metodo encode.

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.7k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [3]:
embeddings              #en embeddings tenemos una representacion numerica en un espacio vectorial de n dimensiones dependiendo del modelo utilizado de cada una de las sentencia que definimos previamente.

array([[-0.03232961,  0.11775173, -0.04929116, ..., -0.00081667,
        -0.03978717, -0.02792935],
       [-0.03385798,  0.00732808, -0.04184824, ...,  0.04272257,
        -0.0227952 , -0.06084862],
       [-0.05483963, -0.03731454, -0.01410466, ...,  0.11729009,
         0.07456189, -0.09744939],
       ...,
       [ 0.02240627,  0.00977139,  0.0161697 , ...,  0.02968125,
         0.01667443, -0.05944227],
       [ 0.0229008 ,  0.00147283,  0.0013893 , ...,  0.08682206,
         0.08835246, -0.13047363],
       [-0.06596524,  0.03551986, -0.0408737 , ...,  0.09201567,
         0.00076539, -0.08679894]], dtype=float32)

## Comparar frases con modelo de embeddings
similitud cosenno, funcion sorted

https://www.youtube.com/watch?v=e9U0QAFbfLI similitud coseno entre vectores

In [4]:
cosine_scores = util.cos_sim(embeddings,embeddings)                           #Se utiliza la función "cos_sim" del módulo "util" para calcular la similitud del coseno entre cada par de embeddings
                                                                              #de las frases en la variable embeddings (sentencias).Es decir evalua la cercania de los vectores.
                                                                              #La variable cosine_scores almacena una matriz de similitudes coseno, donde cosine_scores[i][j] representa
                                                                              #la similitud del coseno entre la frase i y la frase j.


#Encuentra las parejas con los puntajes de similitud del coseno más altos
pairs = []

for i in range(len(cosine_scores)-1):                                         #se recorre la matriz de similitudes coseno y se almacenan las parejas de índices de frases junto con sus puntajes de similitud
    for j in range(i+1, len(cosine_scores)):                                  #en la lista pairs. El bucle externo itera desde el índice 0 hasta el penúltimo índice, y el bucle interno itera desde el índice
                                                                              #siguiente al índice externo hasta el último índice, asegurando que cada par de frases se considere una vez sin duplicados.
        pairs.append({'index': [i, j], 'score': cosine_scores[i][j]})           # En esta linea dentro del doble bucle for agregamos un diccionario a la lista pairs. Este diccionario contiene información sobre
                                                                              #una pareja de frases, incluyendo los índices de las frases en la matriz de similitud del coseno y su puntaje de similitud.
                                                                              #'index': Es la clave que se utiliza para almacenar los índices de las frases en la matriz de similitud del coseno.
                                                                              #'score': Es la clave que se utiliza para almacenar el puntaje de similitud del coseno entre las dos frases representadas por
                                                                              #los índices i y j.
                                                                              #Es decir tendriamos en index la sentecia 1 comparada con la dos y en score el valor de la similitud del coseno y
                                                                              #asi con 1 y 3, 1 y 4 ,...., 2 y 3 etc


#Ordena los puntajes en orden descendente.
pairs = sorted(pairs, key=lambda x : x['score'],reverse=True)                 #La función sorted() devuelve una nueva lista que contiene los elementos de pairs ordenados según el valor del puntaje de
                                                                              #similitud del coseno en orden descendente.
                                                                              #Esto significa que los primeros elementos de la lista pairs ahora tendrán los puntajes de similitud del coseno más altos,
                                                                              #mientras que los últimos elementos tendrán los puntajes más bajos.

for pair in pairs[0:5]:
    i, j = pair['index']
    print("{} ----> {}".format(sentences[i], sentences[j]))


esta pelicula estuvo asombrosa ----> estuvo muy buena la pelicula
te gusta la musica? ----> te gustaria una pizza?
el gato juega afuera ----> el perro esta afuera
me gusta tocar guitarra ----> te gusta la musica?
me encanta la pasta ----> te gustaria una pizza?


In [5]:
cosine_scores  #La variable cosine_scores almacena una matriz de similitudes coseno, donde cosine_scores[i][j] representa la similitud del coseno entre la frase i y la frase j.



tensor([[1.0000, 0.4441, 0.4348, 0.4453, 0.6610, 0.5136, 0.4515, 0.4513],
        [0.4441, 1.0000, 0.4452, 0.3903, 0.4293, 0.6582, 0.3939, 0.5471],
        [0.4348, 0.4452, 1.0000, 0.5131, 0.4545, 0.5705, 0.5273, 0.6540],
        [0.4453, 0.3903, 0.5131, 1.0000, 0.6188, 0.4869, 0.7083, 0.5322],
        [0.6610, 0.4293, 0.4545, 0.6188, 1.0000, 0.4857, 0.5354, 0.4627],
        [0.5136, 0.6582, 0.5705, 0.4869, 0.4857, 1.0000, 0.5080, 0.6938],
        [0.4515, 0.3939, 0.5273, 0.7083, 0.5354, 0.5080, 1.0000, 0.5305],
        [0.4513, 0.5471, 0.6540, 0.5322, 0.4627, 0.6938, 0.5305, 1.0000]])

In [6]:
pairs   #Lista de diccionario ordenada por mayor similitud

[{'index': [3, 6], 'score': tensor(0.7083)},
 {'index': [5, 7], 'score': tensor(0.6938)},
 {'index': [0, 4], 'score': tensor(0.6610)},
 {'index': [1, 5], 'score': tensor(0.6582)},
 {'index': [2, 7], 'score': tensor(0.6540)},
 {'index': [3, 4], 'score': tensor(0.6188)},
 {'index': [2, 5], 'score': tensor(0.5705)},
 {'index': [1, 7], 'score': tensor(0.5471)},
 {'index': [4, 6], 'score': tensor(0.5354)},
 {'index': [3, 7], 'score': tensor(0.5322)},
 {'index': [6, 7], 'score': tensor(0.5305)},
 {'index': [2, 6], 'score': tensor(0.5273)},
 {'index': [0, 5], 'score': tensor(0.5136)},
 {'index': [2, 3], 'score': tensor(0.5131)},
 {'index': [5, 6], 'score': tensor(0.5080)},
 {'index': [3, 5], 'score': tensor(0.4869)},
 {'index': [4, 5], 'score': tensor(0.4857)},
 {'index': [4, 7], 'score': tensor(0.4627)},
 {'index': [2, 4], 'score': tensor(0.4545)},
 {'index': [0, 6], 'score': tensor(0.4515)},
 {'index': [0, 7], 'score': tensor(0.4513)},
 {'index': [0, 3], 'score': tensor(0.4453)},
 {'index':

#Notas

La línea de código` pairs = sorted(pairs, key=lambda x: x['score'], reverse=True)` se utiliza para ordenar la lista pairs en orden descendente según el valor del puntaje de similitud almacenado en la clave 'score' de cada diccionario en la lista.

Aquí está la explicación de esta línea de código:



*   sorted(): Es una función incorporada de Python que se utiliza para ordenar  
    una lista en un nuevo orden.
*   pairs: Es la lista que se va a ordenar.
*   key=lambda x: x['score']: Es un argumento de la función sorted() que especifica una función de clave para determinar el valor utilizado para comparar y ordenar los elementos de la lista. En este caso, se utiliza una función lambda para especificar que se utilice el valor correspondiente a la clave 'score' de cada diccionario como criterio de ordenamiento.
*   reverse=True: Es un argumento opcional de la función sorted() que especifica si el ordenamiento debe ser ascendente (False) o descendente (True). En este caso, se establece como True para obtener la lista ordenada en orden descendente.













###Que es una funcion Lambda

Una función lambda es una función anónima en Python, lo que significa que no se le asigna un nombre como ocurre con las funciones regulares definidas con la declaración def. En su lugar, se crea una función lambda utilizando la palabra clave lambda, seguida de los parámetros de la función y una expresión que define el cuerpo de la función.

La sintaxis básica de una función lambda es la siguiente:



```
lambda parámetros: expresión
```

por ejemplo:


```
suma = lambda a, b: a + b
```

***********************************************************************************



```
for pair in pairs[0:5]:
    i, j = pair['index']
    print("{} ----> {}".format(sentences[i], sentences[j]))
```

En este fragmento de código se recorre una porción de los primeros 5 elementos de la lista pairs y se imprime en pantalla las frases correspondientes a esos índices.

Aquí está la explicación de las líneas de código:



*  for pair in pairs[0:5]: : Este bucle for itera sobre una porción de los primeros 5 elementos de la lista pairs. La porción se selecciona utilizando la sintaxis [0:5], que indica desde el primer elemento (índice 0) hasta el quinto elemento (índice 4) de la lista pairs. En cada iteración, el elemento actual se asigna a la variable pair.

*   i, j = pair['index'] : En esta línea, se extraen los valores de 'index' del diccionario actual pair (recordar que index son pares de sentencias) y se asignan a las variables i y j respectivamente. Estos valores corresponden a los índices de las frases en la lista original de frases.
*   print("{} ----> {}".format(sentences[i], sentences[j])) : Esta línea imprime en pantalla las frases correspondientes a los índices i y j utilizando el formato de cadena {} ----> {}. Las frases se obtienen de la lista sentences, asumiendo que esa lista está definida y contiene las frases originales.




