# Embeddings

Os Embeddings criam uma representação vetorial de um pedaço de texto. Isso é útil porque podemos pensar sobre o texto no espaço vetorial e fazer coisas como busca semântica, onde procuramos por pedaços de texto que são mais semelhantes no espaço vetorial, ou seja, que estão a uma distância menor.

A classe Embeddings do LangChain é projetada para interagir com modelos de embedding de texto. Existem muitos modelos diferentes (OpenAI, Cohere, Hugging Face, etc) - esta classe é projetada para fornecer uma interface padrão para todos eles.

A classe de Embeddings base em LangChain fornece dois métodos: um para realizar o embedding de documentos e outro para embedding de uma chamada. O primeiro recebe como entrada vários textos, enquanto o último recebe um único texto.

## Embedding com OpenAI

In [1]:
from dotenv import load_dotenv
load_dotenv()

from langchain.llms import OpenAI

llm = OpenAI(model='gpt-3.5-turbo-instruct')

  llm = OpenAI(model='gpt-3.5-turbo-instruct')


In [3]:
from langchain_openai import OpenAIEmbeddings

embedding_model = OpenAIEmbeddings()

### Embedding Documents

In [4]:
embeddings = embedding_model.embed_documents(
    [
        'Eu gosto de cachorros',
        'Eu gosto de animais',
        'O tempo está ruim lá fora'
    ]
)

In [6]:
embeddings[0][:10]

[-0.01189151406288147,
 0.003109192941337824,
 -0.008564830757677555,
 -0.02842690609395504,
 -0.021332433447241783,
 0.0040618618950247765,
 0.007443683221936226,
 -0.014335982501506805,
 0.0038933833129704,
 -0.007805146276950836]

In [7]:
len(embeddings[0])

1536

In [9]:
for emb in embeddings:
    print(len(emb), max(emb), min(emb))

1536 0.24662791192531586 -0.6614646911621094
1536 0.23287081718444824 -0.654877245426178
1536 0.23204080760478973 -0.6500335335731506


In [13]:
import numpy as np

np.dot(embeddings[0], embeddings[1])

np.float64(0.929192296639189)

In [15]:
for i in range(len(embeddings)):
    for j in range(len(embeddings)):
        print(round(np.dot(embeddings[i], embeddings[j]), 2), end=' | ')
    print()

1.0 | 0.93 | 0.81 | 
0.93 | 1.0 | 0.8 | 
0.81 | 0.8 | 1.0 | 


### Embedding Query

In [16]:
pergunta = 'O que é um cachorro?'
emb_query = embedding_model.embed_query(pergunta)

emb_query[:10]

[0.005100993439555168,
 0.003876505186781287,
 -0.0046824184246361256,
 -0.006441058591008186,
 -0.017842544242739677,
 0.013619309291243553,
 0.0015954270493239164,
 -0.002005412010475993,
 -0.002075695199891925,
 0.005591413471847773]