# Embeddings

Os Embeddings criam uma representação vetorial de um pedaço de texto. Isso é útil porque significa que podemos pensar sobre o texto no espaço vetorial e fazer coisas como busca semântica, onde procuramos por pedaços de texto que são mais semelhantes no espaço vetorial, ou seja, que estão a uma distância menor.

A classe Embeddings do Langchain é uma classe projetada para interagir com modelos de embedding de texto. Existem muitos modelos diferentes (OpenAI, Cohere, Hugging Face, etc) - esta classe é projetada para fornecer uma interface padrão para todos eles.

A classe de Embeddings base em LangChain fornece dois métodos: um para realizar o emedding de documentos e outro para embedding de uma chamada. O primeiro recebe como entrada vários textos, enquanto o último recebe um único texto.

https://python.langchain.com/docs/integrations/text_embedding/

https://platform.openai.com/docs/guides/embeddings

## Embeddings com OpenAI

In [None]:
from langchain_openai import OpenAIEmbeddings

embedding_model = OpenAIEmbeddings(model='text-embedding-ada-002')

### Embedding documents

In [None]:
embedings = embedding_model.embed_documents(
    [
        'Eu gosto de cochorros',
        'Eu gosto de animais',
        'O tempo está ruim lá fora'
    ]
)

In [None]:
len(embedings)

In [None]:
embedings[0][:10]

In [None]:
len(embedings[0])

In [None]:
len(embedings[1])

In [None]:
len(embedings[2])

In [None]:
for emb in embedings:
    print(len(emb), max(emb), min(emb))

In [None]:
import numpy as np

np.dot(embedings[0], embedings[1])


In [None]:
import numpy as np

np.dot(embedings[0], embedings[2])

In [None]:
import numpy as np

np.dot(embedings[1], embedings[2])

In [None]:
for i in range(len(embedings)):
    for j in range(len(embedings)):
        print(round(np.dot(embedings[i], embedings[j]), 2), end=' | ')
    print()

### Embedding query

In [None]:
pergunta = 'O que é um cachorro'
emb_query = embedding_model.embed_query(pergunta)
emb_query[:10]

## Embedding com HuggingFace

https://huggingface.co/models?pipeline_tag=sentence-similarity&sort=trending

In [None]:
from langchain_huggingface.embeddings.huggingface import HuggingFaceEmbeddings  # Atualizando importação!

model = 'all-MiniLM-L6-v2'
embedding_model = HuggingFaceEmbeddings(model_name = model)  # Atualizando classe importada!

In [None]:
embedings = embedding_model.embed_documents(
    [
        'Eu gosto de cochorros',
        'Eu gosto de animais',
        'O tempo está ruim lá fora'
    ]
)

In [None]:
import numpy as np

for i in range(len(embedings)):
    for j in range(len(embedings)):
        print(round(np.dot(embedings[i], embedings[j]), 2), end=' | ')
    print()

In [None]:
for emb in embedings:
    print(len(emb), max(emb), min(emb))