<a href="https://colab.research.google.com/github/rob-ec/busca-em-documentos-embeddings-gemini/blob/main/busca_em_documentos_embeddings_gemini.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Busca em documentos usando Embeddings e Gemini API

## Instalações e Importações

In [72]:
!pip install -U -q google-generativeai

In [73]:
import json
import numpy as np
import pandas as pd
import google.generativeai as genai
from IPython.display import Markdown, display

## Funções auxiliares

In [74]:
def displayObjectsAsTable(objects):
  keys = objects[0].__dict__.keys()
  rows = []

  for obj in objects:
    row = f"| {'|'.join(str(getattr(obj, key)) for key in keys)} |"
    rows.append(row)

  header = ' | '.join(keys)
  tableRows = "\n".join(rows)
  table = f"|{header}|\n|{'--|'*len(keys)}\n{tableRows}"

  display(Markdown(table))


In [75]:
def getModelsThatSupport(method, modelList):
  return [model for model in modelList if method in model.supported_generation_methods]

In [76]:
def displayAsJSON(dict):
  display(Markdown("```JSON\n" + json.dumps(dict, indent=4) + "\n```"))

## Configurações

### Chave da API

In [77]:
# @title Definir chave {display-mode: "form", run: "auto"}

API_KEY = "AIzaSyBc_ouVVH0LVu1K3U4KxieSOXOsyLbWl6g" # @param {type: "string"}

genai.configure(api_key = API_KEY)

In [78]:
# @title Modelos disponíveis que suportam _embedding_ {display-mode: "form"}
modelList = getModelsThatSupport("embedContent", genai.list_models());

display(Markdown("`modelList:`"))
displayObjectsAsTable(modelList)

`modelList:`

|name | base_model_id | version | display_name | description | input_token_limit | output_token_limit | supported_generation_methods | temperature | top_p | top_k|
|--|--|--|--|--|--|--|--|--|--|--|
| models/embedding-001||001|Embedding 001|Obtain a distributed representation of a text.|2048|1|['embedContent']|None|None|None |
| models/text-embedding-004||004|Text Embedding 004|Obtain a distributed representation of a text.|2048|1|['embedContent']|None|None|None |

In [79]:
# @title Configuração de IA Generativa { display-mode: "form", run: "auto" }
# @markdown `generation_config`:

candidate_count = 1 #@param {type:"slider", min:1, max:10, step:1}
temperature = 0.5 #@param {type:"slider", min:0, max:1, step:0.1}
top_k = 32 #@param {type:"slider", min:1, max:32, step:1}
top_p = 0.9 #@param {type:"slider", min:0, max:1, step:0.1}

generation_config = {
    "candidate_count": candidate_count,
    "temperature": temperature,
    "top_k": top_k,
    "top_p": top_p,
}


In [80]:


# @title Segurança { display-mode: "form", run: "auto" }
# @markdown `safety_config`:

harassment_content_policy = "BLOCK_MEDIUM_AND_ABOVE" # @param ["BLOCK_NONE", "BLOCK_ONLY_HIGH", "BLOCK_MEDIUM_AND_ABOVE", "BLOCK_LOW_AND_ABOVE"]
hate_speech_content_policy = "BLOCK_MEDIUM_AND_ABOVE" # @param ["BLOCK_NONE", "BLOCK_ONLY_HIGH", "BLOCK_MEDIUM_AND_ABOVE", "BLOCK_LOW_AND_ABOVE"]
sexually_explicit_content_policy = "BLOCK_MEDIUM_AND_ABOVE" # @param ["BLOCK_NONE", "BLOCK_ONLY_HIGH", "BLOCK_MEDIUM_AND_ABOVE", "BLOCK_LOW_AND_ABOVE"]
dangerous_content_policy = "BLOCK_MEDIUM_AND_ABOVE" # @param ["BLOCK_NONE", "BLOCK_ONLY_HIGH", "BLOCK_MEDIUM_AND_ABOVE", "BLOCK_LOW_AND_ABOVE"]

safety_config = {
    "HARASSMENT": harassment_content_policy,
    "HATE": hate_speech_content_policy,
    "SEXUAL": sexually_explicit_content_policy,
    "DANGEROUS": dangerous_content_policy,
}

In [100]:
# @title Definir modelo de embedding {display-mode: "form", run: "auto"}

model_name = "models/embedding-001" # @param ['models/embedding-001', 'models/text-embedding-004']


In [99]:
# @title Definir modelo generativo {display-mode: "form", run: "auto"}

generative_model_name = "gemini-1.0-pro" # @param ['gemini-1.0-pro','gemini-1.0-pro-001','gemini-1.0-pro-latest','gemini-1.0-pro-vision-latest','gemini-1.5-pro-latest','gemini-pro','gemini-pro-vision']


In [82]:
# @title {display-mode: "form", run: "auto"}
# @markdown O parâmetro "task_type" é definido como o aplicativo downstream pretendido para ajudar o modelo a produzir embeddings de melhor qualidade. É uma string que pode assumir um dos seguintes valores.

task_type = 'RETRIEVAL_DOCUMENT' # @param ['RETRIEVAL_QUERY', 'RETRIEVAL_DOCUMENT', 'SEMANTIC_SIMILARITY', 'CLASSIFICATION', 'CLUSTERING', 'QUESTION_ANSWERING', 'FACT_VERIFICATION']

In [101]:

# @title Implementação do modelo {display-mode: "form"}
# @markdown `model`:

model = genai.GenerativeModel(
    model_name = generative_model_name,
    safety_settings = safety_config,
    generation_config = generation_config
)

displayAsJSON({
    'task_type': task_type,
    'model_name': model_name,
    'safety_settings': safety_config,
    'generation_config': generation_config
})

```JSON
{
    "task_type": "RETRIEVAL_DOCUMENT",
    "model_name": "models/embedding-001",
    "safety_settings": {
        "HARASSMENT": "BLOCK_MEDIUM_AND_ABOVE",
        "HATE": "BLOCK_MEDIUM_AND_ABOVE",
        "SEXUAL": "BLOCK_MEDIUM_AND_ABOVE",
        "DANGEROUS": "BLOCK_MEDIUM_AND_ABOVE"
    },
    "generation_config": {
        "candidate_count": 1,
        "temperature": 0.5,
        "top_k": 32,
        "top_p": 0.9
    }
}
```

## Implementação

In [84]:
title = "A próxima geração de IA para desenvolvedores e Google Workspace"
sample_text = (
  "Título: A próxima geração de IA para desenvolvedores e Google Workspace"
  "\n"
  "Artigo completo:\n"
  "\n"
  "Gemini API & Google AI Studio: Uma maneira acessível de explorar e criar protótipos com aplicações de. IA generativa"
)

embedings = genai.embed_content(
    model = model_name,
    content = sample_text,
    title = title,
    task_type = task_type
)

print(embedings)

{'embedding': [0.04964673, -0.03659246, -0.018231966, 0.018731495, 0.06807748, -0.005401567, -0.026559161, -0.018037878, 0.062389225, 0.06030843, 0.01124463, 0.0146426195, -0.045009017, -0.020855078, 0.010038027, -0.025577836, 0.022415128, -0.011704101, -0.03352377, 0.00058693555, 0.007687218, 0.00648607, -0.027744906, -0.0660078, -0.02027028, 0.020234695, 0.0154524585, -0.036674153, -0.03303789, 0.027047291, -0.05203962, 0.05074386, -0.034078225, 0.009578358, -0.035920907, -0.040564466, -0.025485413, -0.04427487, -0.0025132732, -0.0042644837, 0.008608991, -0.082593784, -0.008036638, 0.027164854, -0.002437508, -0.020449243, 0.04421446, 0.042663362, 0.0152693195, -0.061654676, 0.028010258, 0.024011217, 0.061765324, -0.045113154, -0.0058119595, -0.008239107, 0.023727983, -0.03179742, 0.024677102, 0.0018656055, -0.0035786992, 0.022764774, -0.017110532, 0.053879347, 0.018956328, -0.058372352, -0.042518415, 0.0019700942, 0.01354732, 0.047534045, 0.010617015, 0.009337916, 0.06166039, -0.0634

In [85]:
#Listagem de documentos que serão buscados
DOCUMENT1 = {
    "Título": "Operação do sistema de controle climático",
    "Conteúdo": "O Googlecar tem um sistema de controle climático que permite ajustar a temperatura e o fluxo de ar no carro. Para operar o sistema de controle climático, use os botões e botões localizados no console central.  Temperatura: O botão de temperatura controla a temperatura dentro do carro. Gire o botão no sentido horário para aumentar a temperatura ou no sentido anti-horário para diminuir a temperatura. Fluxo de ar: O botão de fluxo de ar controla a quantidade de fluxo de ar dentro do carro. Gire o botão no sentido horário para aumentar o fluxo de ar ou no sentido anti-horário para diminuir o fluxo de ar. Velocidade do ventilador: O botão de velocidade do ventilador controla a velocidade do ventilador. Gire o botão no sentido horário para aumentar a velocidade do ventilador ou no sentido anti-horário para diminuir a velocidade do ventilador. Modo: O botão de modo permite que você selecione o modo desejado. Os modos disponíveis são: Auto: O carro ajustará automaticamente a temperatura e o fluxo de ar para manter um nível confortável. Cool (Frio): O carro soprará ar frio para dentro do carro. Heat: O carro soprará ar quente para dentro do carro. Defrost (Descongelamento): O carro soprará ar quente no para-brisa para descongelá-lo."}

DOCUMENT2 = {
    "Título": "Touchscreen",
    "Conteúdo": "O seu Googlecar tem uma grande tela sensível ao toque que fornece acesso a uma variedade de recursos, incluindo navegação, entretenimento e controle climático. Para usar a tela sensível ao toque, basta tocar no ícone desejado.  Por exemplo, você pode tocar no ícone \"Navigation\" (Navegação) para obter direções para o seu destino ou tocar no ícone \"Music\" (Música) para reproduzir suas músicas favoritas."}

DOCUMENT3 = {
    "Título": "Mudança de marchas",
    "Conteúdo": "Seu Googlecar tem uma transmissão automática. Para trocar as marchas, basta mover a alavanca de câmbio para a posição desejada.  Park (Estacionar): Essa posição é usada quando você está estacionado. As rodas são travadas e o carro não pode se mover. Marcha à ré: Essa posição é usada para dar ré. Neutro: Essa posição é usada quando você está parado em um semáforo ou no trânsito. O carro não está em marcha e não se moverá a menos que você pressione o pedal do acelerador. Drive (Dirigir): Essa posição é usada para dirigir para frente. Low: essa posição é usada para dirigir na neve ou em outras condições escorregadias."}

documents = [DOCUMENT1, DOCUMENT2, DOCUMENT3]

In [86]:
df = pd.DataFrame(documents)
df.columns = ["Titulo", "Conteudo"]
df

Unnamed: 0,Titulo,Conteudo
0,Operação do sistema de controle climático,O Googlecar tem um sistema de controle climáti...
1,Touchscreen,O seu Googlecar tem uma grande tela sensível a...
2,Mudança de marchas,Seu Googlecar tem uma transmissão automática. ...


### Funções auxiliares para embedings

In [87]:
def get_embeddings(
    title,
    text,
    task_type = "RETRIEVAL_DOCUMENT",
    model_name = "models/embedding-001"
):
  return genai.embed_content(
    model = model_name,
    content = text,
    title = title,
    task_type = task_type
  )[ "embedding" ]

In [88]:
df["Embeddings"] = df.apply(lambda row: get_embeddings(text = row["Titulo"], title = row["Conteudo"]), axis=1)
df

Unnamed: 0,Titulo,Conteudo,Embeddings
0,Operação do sistema de controle climático,O Googlecar tem um sistema de controle climáti...,"[-0.0075295665, -0.025926437, -0.03926133, 0.0..."
1,Touchscreen,O seu Googlecar tem uma grande tela sensível a...,"[0.024666537, -0.044510216, 0.005737344, -0.00..."
2,Mudança de marchas,Seu Googlecar tem uma transmissão automática. ...,"[-0.007448858, -0.027016517, -0.008200784, 0.0..."


In [93]:
def generate_and_research(research, base, model_name = "models/embedding-001", task_type = "RETRIEVAL_QUERY"):
  research_embeddings = genai.embed_content(
    model = model_name,
    content = research,
    task_type = task_type
  )["embedding"]

  scalar_products = np.dot(np.stack(base["Embeddings"]), research_embeddings)

  index = np.argmax(scalar_products)

  excerpt = base.iloc[index]["Conteudo"]

  return excerpt

In [105]:
search = "meu carro tem tela?" # @param {type: "string"}

excerpt = generate_and_research(search, df)
response = model.generate_content(
    f"Reescreva o trecho a seguir de forma simplificada e descontraída\n {excerpt}"
)
display(Markdown(f"**Trecho:**\n>{excerpt}"))
display(Markdown(f"**Explicação:**\n{response.text}"))

**Trecho:**
>O seu Googlecar tem uma grande tela sensível ao toque que fornece acesso a uma variedade de recursos, incluindo navegação, entretenimento e controle climático. Para usar a tela sensível ao toque, basta tocar no ícone desejado.  Por exemplo, você pode tocar no ícone "Navigation" (Navegação) para obter direções para o seu destino ou tocar no ícone "Music" (Música) para reproduzir suas músicas favoritas.

**Explicação:**
Seu "carro do Google" tem uma telinha maneirinha que mostra tudo o que você precisa: como chegar onde quer, músicas pra curtir e até como deixar o carro quentinho ou fresquinho. É só tocar na telinha que você manda ver! Quer ir pra algum lugar? Toca no ícone "Navegação". Quer ouvir um som? Toca no ícone "Música". É fácil assim!