# Embeddings

Os Embeddings criam uma representação vetorial de um pedaço de texto. Isso é útil porque significa que podemos pensar sobre o texto no espaço vetorial e fazer coisas como busca semântica, onde procuramos por pedaços de texto que são mais semelhantes no espaço vetorial, ou seja, que estão a uma distância menor.

A classe Embeddings do Langchain é uma classe projetada para interagir com modelos de embedding de texto. Existem muitos modelos diferentes (OpenAI, Cohere, Hugging Face, etc) - esta classe é projetada para fornecer uma interface padrão para todos eles.

A classe de Embeddings base em LangChain fornece dois métodos: um para realizar o emedding de documentos e outro para embedding de uma chamada. O primeiro recebe como entrada vários textos, enquanto o último recebe um único texto.

https://python.langchain.com/docs/integrations/text_embedding/

https://platform.openai.com/docs/guides/embeddings

## Embeddings com OpenAI

In [None]:
from langchain_openai import OpenAIEmbeddings

# text-embedding-ada-002 (padrão do LangChain)
embedding_model = OpenAIEmbeddings(model="text-embedding-ada-002")

## Embedding documents

In [None]:
embeddings = embedding_model.embed_documents(
  [
    "Eu gosto de cachorros",
    "Eu gosto de animais",
    "O tempo está ruim lá fora",
  ]
)

In [None]:
len(embeddings)

In [None]:
embeddings[0][:10] # mostra os primeiros 10 valores do vetor de embedding do primeiro texto

In [None]:
len(embeddings[0])  # mostra a dimensão do vetor de embedding do primeiro texto

In [None]:
len(embeddings[1])  # mostra a dimensão do vetor de embedding do segundo texto

In [None]:
len(embeddings[2]) # mostra a dimensão do vetor de embedding do terceiro texto

In [None]:
for emb in embeddings:
  print(len(emb), max(emb), min(emb))

In [None]:
import numpy as np

# similarity entre os dois primeiros textos
# np.dot calcula o produto escalar entre os dois vetores
np.dot(embeddings[0], embeddings[1])

In [None]:
import numpy as np

np.dot(embeddings[0], embeddings[2])

In [None]:
import numpy as np

np.dot(embeddings[1], embeddings[2])

In [None]:
for i in range(len(embeddings)):
  for j in range(len(embeddings)):
    print(round(np.dot(embeddings[i], embeddings[j]), 2), end=" | ")
  print()

## Embedding query

In [None]:
pergunta = "O que é um cachorro"
emb_query = embedding_model.embed_query(pergunta)
emb_query[:10]  # mostra os primeiros 10 valores do vetor de embedding da query

## Embedding com HuggingFace

https://huggingface.co/models?pipeline_tag=sentence-similarity&sort=trending

In [None]:
from langchain_community.embeddings.huggingface import HuggingFaceEmbeddings

embedding_model = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")

In [None]:
embeddings = embedding_model.embed_documents(
  [
    "Eu gosto de cachorros",
    "Eu gosto de animais",
    "O tempo está ruim lá fora",
  ]
)

In [None]:
import numpy as np

for i in range(len(embeddings)):
  for j in range(len(embeddings)):
    print(round(np.dot(embeddings[i], embeddings[j]), 2), end=" | ")
  print()

In [None]:
for emb in embeddings:
  print(len(emb), max(emb), min(emb))