<a href="https://colab.research.google.com/github/rodrigoprieto/openai-semantic-search/blob/main/OpenAI_Semantic_Search_Embeddings.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Incrustaciones de palabras de OpenAI, búsqueda semántica

Las incrustaciones de palabras son una forma de representar palabras y frases como vectores. Se pueden utilizar para una variedad de tareas, incluyendo la búsqueda semántica, la detección de anomalías y la clasificación.  

En este tutorial, aprenderemos cómo implementar la búsqueda semántica utilizando las incrustaciones de OpenAI. 


In [None]:
!pip install openai -q

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m70.3/70.3 kB[0m [31m2.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/1.0 MB[0m [31m17.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m269.3/269.3 kB[0m [31m20.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m114.2/114.2 kB[0m [31m11.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m158.8/158.8 kB[0m [31m14.6 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
import openai
import pandas as pd
import numpy as np
from getpass import getpass

openai.api_key = getpass()

··········


# Leer archivo de datos que contiene palabras
Ahora que hemos configurado OpenAI, comencemos con un archivo CSV simple con palabras familiares. 

In [None]:
df = pd.read_csv('words.csv')
print(df)

                    texto
0                    rojo
1                   papas
2                 gaseosa
3                   queso
4                    agua
5                    azul
6               crujiente
7             hamburguesa
8                    café
9                   verde
10                  leche
11              medialuna
12               amarillo
13              chocolate
14           papas fritas
15         café con leche
16                 pastel
17                 marrón
18  hamburguesa con queso
19               espresso
20        pastel de queso
21                  negro
22           efervescente
23              carbonato
24                 banana


In [None]:
from openai.embeddings_utils import get_embedding

df['embedding'] = df['texto'].apply(lambda x: get_embedding(x, engine='text-embedding-ada-002'))
df.to_csv('word_embeddings.csv')

# Búsqueda semántica

Ahora que tenemos nuestras incrustaciones de palabras almacenadas, carguemoslas en un nuevo dataframe y utilicémoslas para la búsqueda semántica. Como la "incrustación" en el CSV se almacena como una cadena, usaremos apply() para interpretar esta cadena como código de Python y convertirla en un array de numpy para poder realizar cálculos sobre ella.

In [None]:
df = pd.read_csv('word_embeddings.csv')
df['embedding'] = df['embedding'].apply(eval).apply(np.array)
df

Unnamed: 0.1,Unnamed: 0,texto,embedding
0,0,rojo,"[-0.00825595110654831, -0.020036915317177773, ..."
1,1,papas,"[0.014665703289210796, -0.009138461202383041, ..."
2,2,gaseosa,"[-0.008838117122650146, 0.006368149071931839, ..."
3,3,queso,"[-0.006237938068807125, -0.007689959369599819,..."
4,4,agua,"[0.0070021492429077625, -0.011482452042400837,..."
5,5,azul,"[-0.010242876596748829, -0.010774284601211548,..."
6,6,crujiente,"[-0.022419488057494164, -0.0037925182841718197..."
7,7,hamburguesa,"[-0.01841752789914608, -0.004099969286471605, ..."
8,8,café,"[-0.024081707000732422, -0.02313094213604927, ..."
9,9,verde,"[-0.013723647221922874, 0.0014768337132409215,..."


# Búsqueda por similitud
Ahora pidamos un término de búsqueda que no esté en el dataframe. Usaremos incrustaciones de palabras para realizar una búsqueda semántica de las palabras que sean más similares a la palabra que ingresamos. 


In [None]:
search_term = input('Ingrese un término de búsqueda: ')


Ingrese un término de búsqueda: quiero hacer un licuado de banana


Ahora que tenemos un término de búsqueda, calculemos el vector para ese término de búsqueda utilizando la función get_embedding de OpenAI.

In [None]:
# semantic search
search_term_vector = get_embedding(search_term, engine="text-embedding-ada-002")
search_term_vector

[-0.03575626760721207,
 -0.008524334989488125,
 0.0007497076294384897,
 -0.0010655418736860156,
 0.022357238456606865,
 -0.007152529899030924,
 -0.017291128635406494,
 0.007618305739015341,
 -0.011197760701179504,
 -0.030115915462374687,
 0.007809720002114773,
 0.017801567912101746,
 -0.018962817266583443,
 0.009341037832200527,
 -0.010081174783408642,
 0.012518522329628468,
 0.026721494272351265,
 -0.020889725536108017,
 0.016614796593785286,
 -0.006922832224518061,
 -0.01353940088301897,
 0.010604375042021275,
 0.03631775081157684,
 -0.024666976183652878,
 -0.013807381503283978,
 0.001484261592850089,
 0.011102053336799145,
 -0.005554216913878918,
 0.010425721295177937,
 0.013679771684110165,
 0.03835950791835785,
 -0.0019556202460080385,
 0.012952395714819431,
 -0.009500550106167793,
 -0.019868846982717514,
 -0.018567226827144623,
 -0.010483145713806152,
 0.005359611939638853,
 0.012295205146074295,
 -0.010668179951608181,
 0.008154266513884068,
 -0.007254617754369974,
 0.0140243181

# Encontrando la similitud con nuestro diccionario de palabras
Una vez que tenemos un vector que representa esa palabra, podemos ver qué tan similar es a otras palabras en nuestro dataframe calculando la similitud coseno del vector de palabra de nuestro término de búsqueda con el embeddings de las palabras en nuestro dataframe.

In [None]:
from openai.embeddings_utils import cosine_similarity

df["similarities"] = df['embedding'].apply(lambda x: cosine_similarity(x, search_term_vector))

df

Unnamed: 0.1,Unnamed: 0,texto,embedding,similarities
0,0,rojo,"[-0.00825595110654831, -0.020036915317177773, ...",0.786708
1,1,papas,"[0.014665703289210796, -0.009138461202383041, ...",0.768289
2,2,gaseosa,"[-0.008838117122650146, 0.006368149071931839, ...",0.784348
3,3,queso,"[-0.006237938068807125, -0.007689959369599819,...",0.78968
4,4,agua,"[0.0070021492429077625, -0.011482452042400837,...",0.774537
5,5,azul,"[-0.010242876596748829, -0.010774284601211548,...",0.781585
6,6,crujiente,"[-0.022419488057494164, -0.0037925182841718197...",0.809524
7,7,hamburguesa,"[-0.01841752789914608, -0.004099969286471605, ...",0.812533
8,8,café,"[-0.024081707000732422, -0.02313094213604927, ...",0.76962
9,9,verde,"[-0.013723647221922874, 0.0014768337132409215,...",0.788589


# Ordenando por similitud
Ahora que hemos calculado las similitudes para cada término en nuestro dataframe, simplemente ordenamos los valores de similitud para encontrar los términos que son más similares al término que buscamos. 

In [None]:
df.sort_values("similarities", ascending=False).head(20)

Unnamed: 0.1,Unnamed: 0,texto,embedding,similarities
24,24,banana,"[-0.013975119218230247, -0.03290277719497681, ...",0.829629
10,10,leche,"[-0.006822008639574051, 0.004758767317980528, ...",0.828324
15,15,café con leche,"[-0.011370548978447914, 0.004442431963980198, ...",0.826272
7,7,hamburguesa,"[-0.01841752789914608, -0.004099969286471605, ...",0.812533
6,6,crujiente,"[-0.022419488057494164, -0.0037925182841718197...",0.809524
18,18,hamburguesa con queso,"[-0.004712946712970734, 0.005816323217004538, ...",0.807063
3,3,queso,"[-0.006237938068807125, -0.007689959369599819,...",0.78968
14,14,papas fritas,"[0.016551895067095757, -0.006924640852957964, ...",0.789667
9,9,verde,"[-0.013723647221922874, 0.0014768337132409215,...",0.788589
0,0,rojo,"[-0.00825595110654831, -0.020036915317177773, ...",0.786708


# Sumando palabras
Lo que es aún más interesante es que podemos sumar vectores de palabras. ¿Qué sucede cuando sumamos los vectores de "hamburguesa" y "queso", y luego buscamos el vector de palabras más similar a "hamburguesa + queso"? Haremos una copia del dataframe original y lo llamaremos food_df. Trabajaremos con esta copia. Intentemos sumar las palabras. Sumemos "hamburguesa" y "queso" y guardemos los resultados en hamburger_cheese_vector.

In [None]:
food_df = df.copy()

hamburguer_vector = food_df['embedding'][7]
cheese_vector = food_df['embedding'][3]

hamburger_cheese_vector = hamburguer_vector + cheese_vector
hamburger_cheese_vector

array([-0.02465547, -0.01178993,  0.01182726, ...,  0.00276016,
        0.03109807, -0.01253029])

Ahora encontremos las palabras más similares a "hamburguesa + queso". Si nunca ha hecho esto antes, es bastante sorprendente que se puedan sumar palabras de esta manera y encontrar palabras similares utilizando números.

In [None]:
food_df["similarities"] = food_df['embedding'].apply(lambda x: cosine_similarity(x, hamburger_cheese_vector))
food_df.sort_values("similarities", ascending=False)

Unnamed: 0.1,Unnamed: 0,texto,embedding,similarities
7,7,hamburguesa,"[-0.01841752789914608, -0.004099969286471605, ...",0.955733
3,3,queso,"[-0.006237938068807125, -0.007689959369599819,...",0.955733
18,18,hamburguesa con queso,"[-0.004712946712970734, 0.005816323217004538, ...",0.949004
20,20,pastel de queso,"[0.0006732486071996391, -0.0023420194629579782...",0.891752
10,10,leche,"[-0.006822008639574051, 0.004758767317980528, ...",0.88997
14,14,papas fritas,"[0.016551895067095757, -0.006924640852957964, ...",0.884525
0,0,rojo,"[-0.00825595110654831, -0.020036915317177773, ...",0.863373
2,2,gaseosa,"[-0.008838117122650146, 0.006368149071931839, ...",0.861929
15,15,café con leche,"[-0.011370548978447914, 0.004442431963980198, ...",0.860943
9,9,verde,"[-0.013723647221922874, 0.0014768337132409215,...",0.857358


# 🤓 PARA NERDS: Calculando la similitud coseno

Utilizamos la función de similitud coseno, pero ¿cómo funciona realmente? La similitud coseno es simplemente el cálculo de la similitud entre dos vectores. Existe una ecuación matemática para calcular el ángulo entre dos vectores.

![](https://drive.google.com/uc?export=view&id=1cehvtx7LKuFeq_LqfnLi-gzIz1D1wSf9)

In [None]:
v1 = np.array([1,2,3])
v2 = np.array([4,5,6])

# (1 * 4) + (2 * 5) + (3 * 6)
dot_product = np.dot(v1, v2)
dot_product

32

In [None]:
# square root of (1^2 + 2^2 + 3^2) = square root of (1+4+9) = square root of 14
np.linalg.norm(v1)

3.7416573867739413

In [None]:
# square root of (4^2 + 5^2 + 6^2) = square root of (16+25+36) = square root of 14
np.linalg.norm(v2)

8.774964387392123

In [None]:
magnitude = np.linalg.norm(v1) * np.linalg.norm(v2)
magnitude

32.83291031876401

In [None]:
dot_product / magnitude

0.9746318461970762

In [None]:
from scipy import spatial

result = 1 - spatial.distance.cosine(v1, v2)

result

0.9746318461970761