# Embeddings

Os Embeddings criam uma representação vetorial de um pedaço de texto. Isso é útil porque significa que podemos pensar sobre o texto no espaço vetorial e fazer coisas como busca semântica, onde procuramos por pedaços de texto que são mais semelhantes no espaço vetorial, ou seja, que estão a uma distância menor.

A classe Embeddings do Langchain é uma classe projetada para interagir com modelos de embedding de texto. Existem muitos modelos diferentes (OpenAI, Cohere, Hugging Face, etc) - esta classe é projetada para fornecer uma interface padrão para todos eles.

A classe de Embeddings base em LangChain fornece dois métodos: um para realizar o emedding de documentos e outro para embedding de uma chamada. O primeiro recebe como entrada vários textos, enquanto o último recebe um único texto.

https://python.langchain.com/docs/integrations/text_embedding/

https://platform.openai.com/docs/guides/embeddings

## Embeddings com OpenAI

In [1]:
from langchain_openai import OpenAIEmbeddings

embedding_model = OpenAIEmbeddings(model='text-embedding-ada-002')

### Embedding documents

In [2]:
embedings = embedding_model.embed_documents(
    [
        'Eu gosto de cochorros',
        'Eu gosto de animais',
        'O tempo está ruim lá fora'
    ]
)

In [3]:
len(embedings)

3

In [4]:
embedings[0][:10]

[-0.01501031219959259,
 0.0037556844763457775,
 0.010804194025695324,
 -0.018588928505778313,
 -0.00455403933301568,
 0.0025472796987742186,
 0.0050790272653102875,
 -0.02596982754766941,
 0.004637912847101688,
 -0.023248586803674698]

In [5]:
len(embedings[0])

1536

In [6]:
len(embedings[1])

1536

In [7]:
len(embedings[2])

1536

In [8]:
for emb in embedings:
    print(len(emb), max(emb), min(emb))

1536 0.2342006266117096 -0.6517059803009033
1536 0.23287081718444824 -0.654877245426178
1536 0.23204080760478973 -0.6500335335731506


In [9]:
import numpy as np

np.dot(embedings[0], embedings[1])


0.8764503254046829

In [10]:
import numpy as np

np.dot(embedings[0], embedings[2])

0.8028401878395041

In [11]:
import numpy as np

np.dot(embedings[1], embedings[2])

0.7974288660556949

In [12]:
for i in range(len(embedings)):
    for j in range(len(embedings)):
        print(round(np.dot(embedings[i], embedings[j]), 2), end=' | ')
    print()

1.0 | 0.88 | 0.8 | 
0.88 | 1.0 | 0.8 | 
0.8 | 0.8 | 1.0 | 


### Embedding query

In [13]:
pergunta = 'O que é um cachorro'
emb_query = embedding_model.embed_query(pergunta)
emb_query[:10]

[0.0029943918343633413,
 -0.0013274765806272626,
 -0.010084359906613827,
 -0.0027218847535550594,
 -0.010670808143913746,
 0.014406228438019753,
 0.0025800534058362246,
 -0.005635002627968788,
 -0.005035805515944958,
 -0.002124281134456396]

## Embedding com HuggingFace

https://huggingface.co/models?pipeline_tag=sentence-similarity&sort=trending

In [1]:
from langchain_huggingface.embeddings.huggingface import HuggingFaceEmbeddings  # Atualizando importação!

model = 'all-MiniLM-L6-v2'
embedding_model = HuggingFaceEmbeddings(model_name = model)  # Atualizando classe importada!

  from .autonotebook import tqdm as notebook_tqdm
  return torch._C._cuda_getDeviceCount() > 0


In [2]:
embedings = embedding_model.embed_documents(
    [
        'Eu gosto de cochorros',
        'Eu gosto de animais',
        'O tempo está ruim lá fora'
    ]
)

In [3]:
import numpy as np

for i in range(len(embedings)):
    for j in range(len(embedings)):
        print(round(np.dot(embedings[i], embedings[j]), 2), end=' | ')
    print()

1.0 | 0.69 | 0.38 | 
0.69 | 1.0 | 0.49 | 
0.38 | 0.49 | 1.0 | 


In [4]:
for emb in embedings:
    print(len(emb), max(emb), min(emb))

384 0.1370515525341034 -0.13979804515838623
384 0.12528777122497559 -0.1534135490655899
384 0.12505868077278137 -0.13441646099090576
