# Embeddings

Os Embeddings criam uma representação vetorial de um pedaço de texto. Isso é útil porque significa que podemos pensar sobre o texto no espaço vetorial e fazer coisas como busca semântica, onde procuramos por pedaços de texto que são mais semelhantes no espaço vetorial, ou seja, que estão a uma distância menor.

A classe Embeddings do Langchain é uma classe projetada para interagir com modelos de embedding de texto. Existem muitos modelos diferentes (OpenAI, Cohere, Hugging Face, etc) - esta classe é projetada para fornecer uma interface padrão para todos eles.

A classe de Embeddings base em LangChain fornece dois métodos: um para realizar o emedding de documentos e outro para embedding de uma chamada. O primeiro recebe como entrada vários textos, enquanto o último recebe um único texto.

https://python.langchain.com/docs/integrations/text_embedding/

https://platform.openai.com/docs/guides/embeddings

## Embeddings com OpenAI

In [3]:
from langchain_openai import OpenAIEmbeddings

# text-embedding-ada-002 (padrão do LangChain)
embedding_model = OpenAIEmbeddings(model="text-embedding-ada-002")

## Embedding documents

In [4]:
embeddings = embedding_model.embed_documents(
  [
    "Eu gosto de cachorros",
    "Eu gosto de animais",
    "O tempo está ruim lá fora",
  ]
)

In [6]:
len(embeddings)

3

In [9]:
embeddings[0][:10] # mostra os primeiros 10 valores do vetor de embedding do primeiro texto

[-0.01189151406288147,
 0.003109192941337824,
 -0.008564830757677555,
 -0.02842690609395504,
 -0.021332433447241783,
 0.0040618618950247765,
 0.007443683221936226,
 -0.014335982501506805,
 0.0038933833129704,
 -0.007805146276950836]

In [10]:
len(embeddings[0])  # mostra a dimensão do vetor de embedding do primeiro texto

1536

In [11]:
len(embeddings[1])  # mostra a dimensão do vetor de embedding do segundo texto

1536

In [12]:
len(embeddings[2]) # mostra a dimensão do vetor de embedding do terceiro texto

1536

In [13]:
for emb in embeddings:
  print(len(emb), max(emb), min(emb))

1536 0.24662791192531586 -0.6614646911621094
1536 0.23287081718444824 -0.654877245426178
1536 0.23204080760478973 -0.6500335335731506


In [None]:
import numpy as np

# similarity entre os dois primeiros textos
# np.dot calcula o produto escalar entre os dois vetores
np.dot(embeddings[0], embeddings[1])

0.929192296639189

In [15]:
import numpy as np

np.dot(embeddings[0], embeddings[2])

0.8083655728309139

In [16]:
import numpy as np

np.dot(embeddings[1], embeddings[2])

0.7974288660556964

In [17]:
for i in range(len(embeddings)):
  for j in range(len(embeddings)):
    print(round(np.dot(embeddings[i], embeddings[j]), 2), end=" | ")
  print()

1.0 | 0.93 | 0.81 | 
0.93 | 1.0 | 0.8 | 
0.81 | 0.8 | 1.0 | 


## Embedding query

In [18]:
pergunta = "O que é um cachorro"
emb_query = embedding_model.embed_query(pergunta)
emb_query[:10]  # mostra os primeiros 10 valores do vetor de embedding da query

[0.0029943918343633413,
 -0.0013274765806272626,
 -0.010084359906613827,
 -0.0027218847535550594,
 -0.010670808143913746,
 0.014406228438019753,
 0.0025800534058362246,
 -0.005635002627968788,
 -0.005035805515944958,
 -0.002124281134456396]

## Embedding com HuggingFace

https://huggingface.co/models?pipeline_tag=sentence-similarity&sort=trending

In [3]:
from langchain_community.embeddings.huggingface import HuggingFaceEmbeddings

embedding_model = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")

In [4]:
embeddings = embedding_model.embed_documents(
  [
    "Eu gosto de cachorros",
    "Eu gosto de animais",
    "O tempo está ruim lá fora",
  ]
)

In [5]:
import numpy as np

for i in range(len(embeddings)):
  for j in range(len(embeddings)):
    print(round(np.dot(embeddings[i], embeddings[j]), 2), end=" | ")
  print()

1.0 | 0.68 | 0.4 | 
0.68 | 1.0 | 0.49 | 
0.4 | 0.49 | 1.0 | 


In [6]:
for emb in embeddings:
  print(len(emb), max(emb), min(emb))

384 0.1526719629764557 -0.1365347057580948
384 0.12528780102729797 -0.1534135788679123
384 0.1250586211681366 -0.13441649079322815
