### Open Source Embeddings (Huggingface)

In [9]:
from dotenv import load_dotenv
import os

load_dotenv(dotenv_path='.env')
openai_api_key = os.getenv("OPENAI_API_KEY")

with open("./dados/restaurant.txt", encoding="utf-8") as f:
    raw_data = f.read()
print(raw_data)

Nas charmosas ruas de Palermo, escondido em um beco pitoresco, ficava o Chef Amico, um restaurante que era mais do que um mero restaurante — era um pedaço do paraíso siciliano. Fundado por Amico, um chef cujo nome era sinônimo de paixão e criatividade, o restaurante era um mosaico da jornada de sua vida pelos sabores da Itália.

As portas do Chef Amico se abriram para um mundo onde os aromas de alho e azeite eram tão acolhedores quanto um abraço caloroso. As paredes, adornadas com fotos das viagens de Amico e receitas de família, falavam de uma rica herança culinária. A conversa e o riso dos clientes enchiam o ar, criando uma sinfonia tão deliciosa quanto os pratos servidos.

Uma noite, enquanto o sol lançava um brilho dourado sobre a cidade, uma renomada crítica gastronômica, Elena Rossi, entrou no Chef Amico. Sua missão era descobrir o segredo por trás da crescente fama do restaurante. Ela foi recebida pelo próprio Amico, cujos olhos brilhavam com a alegria de um homem que amava seu 

In [2]:
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    separator="\n",
    chunk_size=410,
    chunk_overlap=20,
    length_function=len,
    is_separator_regex=False,
)
texts = text_splitter.split_text(raw_data)
texts

['Nas charmosas ruas de Palermo, escondido em um beco pitoresco, ficava o Chef Amico, um restaurante que era mais do que um mero restaurante — era um pedaço do paraíso siciliano. Fundado por Amico, um chef cujo nome era sinônimo de paixão e criatividade, o restaurante era um mosaico da jornada de sua vida pelos sabores da Itália.',
 'As portas do Chef Amico se abriram para um mundo onde os aromas de alho e azeite eram tão acolhedores quanto um abraço caloroso. As paredes, adornadas com fotos das viagens de Amico e receitas de família, falavam de uma rica herança culinária. A conversa e o riso dos clientes enchiam o ar, criando uma sinfonia tão deliciosa quanto os pratos servidos.',
 'Uma noite, enquanto o sol lançava um brilho dourado sobre a cidade, uma renomada crítica gastronômica, Elena Rossi, entrou no Chef Amico. Sua missão era descobrir o segredo por trás da crescente fama do restaurante. Ela foi recebida pelo próprio Amico, cujos olhos brilhavam com a alegria de um homem que am

In [3]:
#  pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("paraphrase-MiniLM-L6-v2")

embeddings_huggingface = model.encode(texts)

  from tqdm.autonotebook import tqdm, trange


In [5]:
len(embeddings_huggingface[0]) # note que no opeain soa cerca de 1500 dimensões, aqui é bem menor no Hugging Faces mas é gratuito

384

In [4]:
embeddings_huggingface[0]

array([-5.31546026e-02,  4.35014844e-01, -4.26439481e-04, -1.54418414e-02,
       -3.81627053e-01, -3.31499934e-01,  3.38712543e-01, -7.17732981e-02,
        1.72219768e-01, -1.45388126e-01,  3.67353112e-01, -1.24508083e-01,
       -3.44042689e-01,  1.96913570e-01,  1.10570878e-01, -3.78550768e-01,
        4.88632023e-01,  4.40489411e-01,  5.07413149e-01, -1.88836709e-01,
        9.76309717e-01, -3.20470333e-01, -3.98977160e-01,  1.92189142e-01,
        1.10372014e-01,  3.12985718e-01, -3.66632342e-02,  1.33817852e-01,
       -7.60844424e-02, -3.28199156e-02, -1.74189620e-02,  2.30508640e-01,
        2.48642161e-01,  6.93193153e-02,  1.04471680e-03,  2.71971583e-01,
       -1.82125241e-01, -3.45693350e-01,  1.73985168e-01,  3.26359212e-01,
       -1.64509282e-01, -4.66453619e-02, -3.06019932e-01, -2.51214802e-01,
        2.18716830e-01, -4.33051884e-01,  1.42235056e-01,  1.00203328e-01,
       -1.51934832e-01, -2.56527290e-02, -5.54712653e-01, -7.13454112e-02,
       -3.41989729e-03, -

### OpenAI Embeddings

In [10]:
from langchain_openai import OpenAIEmbeddings

# embeddings = OpenAIEmbeddings()
embeddings = OpenAIEmbeddings(model="text-embedding-3-small", dimensions=1536, openai_api_key=openai_api_key)

In [11]:
vectors = [embeddings.embed_query(text) for text in texts]

In [None]:
vectors

In [13]:
len(vectors[0])

1536

In [14]:
from langchain.embeddings import SentenceTransformerEmbeddings 
from langchain_huggingface import HuggingFaceEmbeddings
embeddings = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
vectors = [embeddings.embed_query(text) for text in texts]
vectors


  embeddings = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")


[[0.02297602966427803,
  0.007535523734986782,
  -0.03670944646000862,
  -0.0020548105239868164,
  -0.08151809871196747,
  -0.03862132877111435,
  0.008462995290756226,
  -0.06645691394805908,
  -0.022932017222046852,
  -0.011238550767302513,
  0.11615346372127533,
  -0.01753835566341877,
  -0.045856211334466934,
  0.021244509145617485,
  -0.00022042749333195388,
  -0.10376738011837006,
  0.023883191868662834,
  0.044857222586870193,
  0.04983203113079071,
  0.017057029530405998,
  0.053857557475566864,
  -0.04173942655324936,
  -0.07795732468366623,
  0.11241194605827332,
  -0.056818488985300064,
  -0.0065690334886312485,
  0.08557919412851334,
  0.01691298745572567,
  -0.10367058962583542,
  -0.029723750427365303,
  -0.004940068814903498,
  0.011335857212543488,
  0.12211962789297104,
  -0.01939206011593342,
  0.033714983612298965,
  -0.005841993261128664,
  0.046819254755973816,
  -0.10463037341833115,
  0.016879217699170113,
  -0.01960674114525318,
  -0.08646981418132782,
  0.01734

In [15]:
# vectorstores como PGvector tem um limite de 1536 dimensões, logo não adiantaria ter mais que isso, porque ao armazenar há limite
# https://www.youtube.com/watch?v=ySus5ZS0b94&t=107s
# OpenAI Embeddings and Vector Databases Crash Course

# acesse aplicativo Postman
# POST https://api.openai.com/v1/embeddings
# Body raw 
#{
#    "model": "text-embedding-ada-002",
#    "input": "Hello World"
#}
# Authorization Bearer Toke, token = sk-....
import requests, os

def create_embedding(text_to_embed):
    # Define os cabeçalhos
    headers = {
        'Content-Type': 'application/json',
        'Authorization': f'Bearer {openai_api_key}'
    }

    # Define o corpo da requisição
    data = {
        #'model': 'text-embedding-ada-002',
        'model' : 'text-embedding-3-small',
        'input': text_to_embed
    }

    # Faz a requisição POST para a API da OpenAI
    response = requests.post('https://api.openai.com/v1/embeddings', headers=headers, json=data)

    # Verifica se a requisição foi bem-sucedida
    if response.status_code == 200:
        data = response.json()
        print(data)
        return data
    else:
        print(f'Erro: {response.status_code}, {response.text}')
        return None

# Exemplo de uso
embedding = create_embedding("Texto para gerar embedding")



{'object': 'list', 'data': [{'object': 'embedding', 'index': 0, 'embedding': [-0.003486126, 0.030276682, 8.8701214e-05, -0.0047015008, -0.009858383, -0.021292137, 0.039113533, -0.0059907213, -0.023052124, -0.028430542, 0.02148906, -0.00097229995, -0.0067753308, 0.0026430557, 0.020750603, 0.004159967, -0.0012984512, -0.009938383, 0.002815362, 0.03953199, -0.016602945, -0.01918754, -0.020024456, 0.024529034, 0.022621358, -0.020122916, -0.0139937345, 0.024221346, 0.037021242, -0.013316817, -0.02092291, -0.04369196, 0.040590446, -0.005710724, -0.016516792, 0.015470645, 0.014806036, 0.009236849, -0.003729201, 0.0066030244, 0.04996883, 0.012055288, 0.0045630406, 0.04157505, 0.035470486, 0.05033806, -0.037365854, -0.009058389, 0.034387417, 0.046030402, -0.011532215, 0.025156721, -0.023470582, 0.0045938096, -0.041008905, -0.018793697, -0.040713523, 0.02445519, -0.01127991, -0.0042891963, 0.04726116, 0.009353772, -0.0023553658, 0.037168935, 0.0027799779, 0.027052091, -0.046227325, 0.02239982, -