# Embeddings

Os Embeddings criam uma representação vetorial de um pedaço de texto. Isso é útil porque significa que podemos pensar sobre o texto no espaço vetorial e fazer coisas como busca semântica, onde procuramos por pedaços de texto que são mais semelhantes no espaço vetorial, ou seja, que estão a uma distância menor.

A classe Embeddings do Langchain é uma classe projetada para interagir com modelos de embedding de texto. Existem muitos modelos diferentes (OpenAI, Cohere, Hugging Face, etc) - esta classe é projetada para fornecer uma interface padrão para todos eles.

A classe de Embeddings base em LangChain fornece dois métodos: um para realizar o emedding de documentos e outro para embedding de uma chamada. O primeiro recebe como entrada vários textos, enquanto o último recebe um único texto.

https://python.langchain.com/docs/integrations/text_embedding/

https://platform.openai.com/docs/guides/embeddings

## Embeddings com OpenAI

In [2]:
from langchain_openai import OpenAIEmbeddings

embedding_model = OpenAIEmbeddings(model='text-embedding-ada-002')

### Embedding documents

In [3]:
embedings = embedding_model.embed_documents(
    [
        'Eu gosto de cochorros',
        'Eu gosto de animais',
        'O tempo está ruim lá fora'
    ]
)

In [4]:
len(embedings)

3

In [5]:
embedings[0][:10]

[-0.014998122015851342,
 0.00375574335681561,
 0.010847854353812091,
 -0.018589220813947517,
 -0.004513726538845811,
 0.0025690651788715085,
 0.005094639456451029,
 -0.026019939974831388,
 0.00459449502291573,
 -0.023186823194612204]

In [6]:
len(embedings[0])

1536

In [7]:
len(embedings[1])

1536

In [8]:
len(embedings[2])

1536

In [9]:
for emb in embedings:
    print(len(emb), max(emb), min(emb))

1536 0.23440313178940803 -0.6517162278431541
1536 0.23281259520841985 -0.6547135445437406
1536 0.2319114644897428 -0.6502302856011555


In [10]:
import numpy as np

np.dot(embedings[0], embedings[1])


0.8763941288538092

In [11]:
import numpy as np

np.dot(embedings[0], embedings[2])

0.8029946247703756

In [12]:
import numpy as np

np.dot(embedings[1], embedings[2])

0.7974026032183019

In [14]:
for i in range(len(embedings)):
    for j in range(len(embedings)):
        print(round(np.dot(embedings[i], embedings[j]), 2), end=' | ')
    print()

1.0 | 0.88 | 0.8 | 
0.88 | 1.0 | 0.8 | 
0.8 | 0.8 | 1.0 | 


### Embedding query

In [15]:
pergunta = 'O que é um cachorro'
emb_query = embedding_model.embed_query(pergunta)
emb_query[:10]

[0.003055812964516579,
 -0.0013031441232609043,
 -0.010017073518842389,
 -0.00260947616363285,
 -0.010680202187453984,
 0.014384797495090555,
 0.002634981130335652,
 -0.005569645561221578,
 -0.005126497143110168,
 -0.0021216938791685552]

## Embedding com HuggingFace

https://huggingface.co/models?pipeline_tag=sentence-similarity&sort=trending

In [1]:
from langchain_community.embeddings.huggingface import HuggingFaceBgeEmbeddings

model = 'all-MiniLM-L6-v2'
embedding_model = HuggingFaceBgeEmbeddings(model_name = model)

  from .autonotebook import tqdm as notebook_tqdm
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


In [2]:
embedings = embedding_model.embed_documents(
    [
        'Eu gosto de cochorros',
        'Eu gosto de animais',
        'O tempo está ruim lá fora'
    ]
)

In [4]:
import numpy as np

for i in range(len(embedings)):
    for j in range(len(embedings)):
        print(round(np.dot(embedings[i], embedings[j]), 2), end=' | ')
    print()

1.0 | 0.69 | 0.38 | 
0.69 | 1.0 | 0.49 | 
0.38 | 0.49 | 1.0 | 


In [5]:
for emb in embedings:
    print(len(emb), max(emb), min(emb))

384 0.13705159723758698 -0.13979804515838623
384 0.12528780102729797 -0.1534135490655899
384 0.12505857646465302 -0.13441652059555054
