<a href="https://colab.research.google.com/github/TalyLisboa/SamurAI_Consultor_De_Documentos_LLM/blob/main/SamurAI_Embedding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **SamurAI** **Embedding**

In [9]:
!pip install -U -q google-generativeai

Configurando a API key

In [46]:
# Importações e configurações iniciais
import numpy as np
import pandas as pd
import google.generativeai as genai
from google.colab import userdata
userdata.get('secretName')

genai.configure(api_key=GOOGLE_API_KEY)

Configurando o modelo

In [47]:
for m in genai.list_models():
  if 'embedContent' in m.supported_generation_methods:
    print(m.name)

models/embedding-001
models/text-embedding-004


In [13]:
#Exemplos de embeddings
title="A próxima geração de IA para desenvolvedores e Google Workspace"
sample_text=("Título: A Próxima geração de IA para desenvolvedores e Google Workspace"
  "/n"
  "Artigo completo:/n"
  "/n"
  "Gemini API & Google AI Studio: Uma maneira acessível de explorar e criar protótipos com aplicações de IA generativa")

embeddings = genai.embed_content(model="models/embedding-001",
                                 content=sample_text,
                                 title=title,
                                 task_type="RETRIEVAL_DOCUMENT")

print(embeddings)

{'embedding': [0.044247184, -0.035919838, -0.01783288, 0.02199581, 0.07384249, -0.014829901, -0.020759856, -0.023901429, 0.05653366, 0.06298002, 0.011477733, 0.017186148, -0.055195514, -0.023031924, 0.0013951192, -0.020091616, 0.014861757, -0.01890373, -0.0342331, -0.0003071119, 0.008288839, 0.008793865, -0.025446426, -0.06790739, -0.025555309, 0.013054317, 0.021168273, -0.034458715, -0.034841415, 0.022302315, -0.05242322, 0.058601994, -0.037543494, 0.009653752, -0.04141451, -0.04183157, -0.028972084, -0.05261127, -0.006308077, 0.004092348, 0.004864218, -0.08390539, -0.012846926, 0.02722705, -0.0027547828, -0.020951172, 0.03733261, 0.038174935, 0.01822569, -0.060933683, 0.028636478, 0.024849711, 0.06862672, -0.03965786, -0.0019701929, -0.0102676395, 0.0189276, -0.037216976, 0.02325963, -0.0022997234, 0.0065623815, 0.023182767, -0.015780397, 0.04904094, 0.019326739, -0.05931093, -0.03971334, 0.001483869, 0.016184218, 0.045013335, 0.0057031508, 0.009475842, 0.057729825, -0.06125552, -0.0

Listando os documentos

In [14]:
#Listagem de documentos que serão buscados
DOCUMENT1 = {
    "Título":"Operação do sistema de controle climático",
    "Conteúdo": "O Googlecar tem um sistema de controle climático que perimite ajustar a temperatura e o fluxo de ar no carro."
}

DOCUMENT2 = {
    "Título": "Touchscreen",
    "Conteúdo": "O seu Googlecar tem uma grande tela sensível ao toque que fornece acesso a uma variedade de recursos, incluindo navegação."
}

DOCUMENT3 = {
    "Título": "Mudança de marchas",
    "Conteúdo": "Seu Googlecar tem uma transmição automática. Para trocar as marchas, basta mover a alavanca de câmbio para a posição desejada."
}

documents = [DOCUMENT1, DOCUMENT2, DOCUMENT3]

In [15]:
df = pd.DataFrame(documents)
df.columns = ["Titulo", "Conteudo"]
df

Unnamed: 0,Título,Conteúdo
0,Operação do sistema de controle climático,O Googlecar tem um sistema de controle climáti...
1,Touchscreen,O seu Googlecar tem uma grande tela sensível a...
2,Mudança de marchas,Seu Googlecar tem uma transmição automática. P...


Selecionando o modelo

In [16]:
#Seleção de modelo
model = "models/embedding-001"

Funções em Python

In [18]:
#Dando um nome
def samurAI_fn(title, text):
  return genai.embed_content(model=model,
                                 content=text,
                                 title=title,
                                 task_type="RETRIEVAL_DOCUMENT")["embedding"]

Acessando o DataFrame

In [21]:
#Aplicando nas estruturas do DataFrame
df["Embeddings"] = df.apply(lambda row: samurAI_fn(row["Título"], row["Conteúdo"]), axis=1)
df

Unnamed: 0,Título,Conteúdo,Embeddings
0,Operação do sistema de controle climático,O Googlecar tem um sistema de controle climáti...,"[-0.009723708, -0.018445168, -0.060782507, 0.0..."
1,Touchscreen,O seu Googlecar tem uma grande tela sensível a...,"[0.011367341, -0.048442047, -0.023845239, -0.0..."
2,Mudança de marchas,Seu Googlecar tem uma transmição automática. P...,"[0.009928003, -0.037345175, -0.0074674822, 0.0..."


Consultando os documentos no DataFrame

In [38]:
#Álgebra linear e vetores
def gerar_e_buscar_consulta(consulta, base, model):
  embedding_da_consulta = genai.embed_content(model=model,
                                              content=consulta,
                                            task_type="RETRIEVAL_QUERY")["embedding"]

  # Converte a coluna Embeddings para um array numpy
  produtos_escalares = np.dot(np.stack(df["Embeddings"]), embedding_da_consulta)

  indice = np.argmax(produtos_escalares)
  return df.iloc[indice]["Conteúdo"]

Consulta e pergunta acessando as variáveis

In [39]:
#Sem risco de alucinações pois já criei o documento processual. 'TradeOFF' menos criatividade mais exatidão
consulta = "Como faço para trocar as marchas em um carro do Google?"

#Maior segurança e precisão na geração de embeddings

trecho = gerar_e_buscar_consulta(consulta, df, model)
print(trecho)

Seu Googlecar tem uma transmição automática. Para trocar as marchas, basta mover a alavanca de câmbio para a posição desejada.


Configurações do Modelo

In [44]:
generation_config = {
    "temperature": 0,
    "candidate_count": 1,
    }

Brincando com o conteúdo e testando as funções

In [45]:
prompt = f"Reescreva esse texto de uma forma mais descontraída, sem adicionar informações que não façam parte do texto: {trecho}"

model_2 = genai.GenerativeModel("gemini-1.0-pro",
                                generation_config=generation_config)
response = model_2.generate_content(prompt)
print(response.text)

Seu Googlecar é tipo um carro automático maneiro. Pra trocar as marchas, é só dar um toque na alavanca e escolher a que você quer. Fácil, né?


Fim.