In [2]:
from dotenv import load_dotenv
load_dotenv()

True

# Embeddings

Os Embeddings criam uma representação vetorial de um pedaço de texto. Isso é útil porque significa que podemos pensar sobre o texto no espaço vetorial e fazer coisas como busca semântica, onde procuramos por pedaços de texto que são mais semelhantes no espaço vetorial, ou seja, que estão a uma distância menor.

A classe Embeddings do Langchain é uma classe projetada para interagir com modelos de embedding de texto. Existem muitos modelos diferentes (OpenAI, Cohere, Hugging Face, etc) - esta classe é projetada para fornecer uma interface padrão para todos eles.

A classe de Embeddings base em LangChain fornece dois métodos: um para realizar o emedding de documentos e outro para embedding de uma chamada. O primeiro recebe como entrada vários textos, enquanto o último recebe um único texto.

https://python.langchain.com/docs/integrations/text_embedding/

https://platform.openai.com/docs/guides/embeddings

## Embeddings com OpenAI

In [3]:
from langchain_openai import OpenAIEmbeddings

embedding_model = OpenAIEmbeddings(model='text-embedding-ada-002')

### Embedding documents

In [4]:
embeddings = embedding_model.embed_documents(
    [
        'Eu gosto de cachorros',
        'Eu gosto de animais',
        'O tempo esta ruim lá fora'
    ]
)

In [5]:
len(embeddings)

3

In [6]:
embeddings[0][:10]

[-0.01189151406288147,
 0.003109192941337824,
 -0.008564830757677555,
 -0.02842690609395504,
 -0.021332433447241783,
 0.0040618618950247765,
 0.007443683221936226,
 -0.014335982501506805,
 0.0038933833129704,
 -0.007805146276950836]

In [7]:
len(embeddings[0])

1536

In [8]:
len(embeddings[1])

1536

In [9]:
len(embeddings[2])

1536

In [None]:
for emb in embeddings:
    print(len(emb), max(emb), min(emb))

1536 0.24662791192531586 -0.6614646911621094
1536 0.23287081718444824 -0.654877245426178
1536 0.2336682230234146 -0.6505195498466492


In [13]:
import numpy as np

np.dot(embeddings[0], embeddings[1])

0.929192296639189

In [14]:
np.dot(embeddings[1], embeddings[2])

0.7983246984344478

In [15]:
np.dot(embeddings[2], embeddings[0])

0.8104247627189738

In [17]:
for i in range(len(embeddings)):
    for j in range(len(embeddings)):
        print(round(np.dot(embeddings[i], embeddings[j]), 2), end=' | ')
    print()

1.0 | 0.93 | 0.81 | 
0.93 | 1.0 | 0.8 | 
0.81 | 0.8 | 1.0 | 


### Embedding query

In [18]:
pergunta = 'O que é um cachorro?'
emb_query = embedding_model.embed_query(pergunta)
emb_query[:10]

[0.005100993439555168,
 0.003876505186781287,
 -0.0046824184246361256,
 -0.006441058591008186,
 -0.017842544242739677,
 0.013619309291243553,
 0.0015954270493239164,
 -0.002005412010475993,
 -0.002075695199891925,
 0.005591413471847773]

## Embedding com HuggingFace

https://huggingface.co/models?pipeline_tag=sentence-similarity&sort=trending

In [20]:
from langchain_community.embeddings.huggingface import HuggingFaceBgeEmbeddings

model = 'all-MiniLM-L6-v2'
embedding_model = HuggingFaceBgeEmbeddings(model_name=model)

  from .autonotebook import tqdm as notebook_tqdm
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


In [25]:
embeddings = embedding_model.embed_documents(
    [
        'Eu gosto de cachorros',
        'Eu gosto de animais',
        'O tempo esta ruim lá fora'
    ]
)

In [27]:
for i in range(len(embeddings)):
    for j in range(len(embeddings)):
        print(round(np.dot(embeddings[i], embeddings[j]), 2), end=' | ')
    print()

1.0 | 0.68 | 0.4 | 
0.68 | 1.0 | 0.49 | 
0.4 | 0.49 | 1.0 | 


In [28]:
for emb in embeddings:
    print(len(emb), max(emb), min(emb))

384 0.1526719629764557 -0.13653476536273956
384 0.12528783082962036 -0.1534135341644287
384 0.12505868077278137 -0.13441646099090576
