# Gemini API - Embedding

In [2]:
# Importar o Python SDK
import google.generativeai as genai
import pandas as pd
import numpy as np

GOOGLE_API_KEY = "<Sua chave API aqui>"
genai.configure(api_key = GOOGLE_API_KEY)

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
import pathlib
import textwrap

from IPython.display import display
from IPython.display import Markdown


def to_markdown(text):
  text = text.replace('•', '  *')
  return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))

In [4]:
for modelos in genai.list_models():
    if 'embedContent' in modelos.supported_generation_methods:
        print(modelos.name)

models/embedding-001
models/text-embedding-004


Documentação:

https://ai.google.dev/gemini-api/docs/embeddings?hl=pt-br

## Embed Content

Use o método `embed_content` com o modelo `"models/embedding-001"` para gerar "text embeddings".

In [5]:
text = "Hello World"
resultado = genai.embed_content(model = "models/embedding-001", content = text)

print(resultado['embedding'])

[0.046566796, -0.037675645, -0.027483625, -0.025192047, 0.023942288, -0.0026659463, 0.033149768, -0.011679272, 0.015756048, 0.01123199, 0.046426386, 0.052512858, -0.016256839, -0.07075573, 0.0070364047, -0.01692846, 0.012160805, -0.014925224, 0.004741532, -0.0061813244, 0.007728799, 0.0076145222, -0.027439272, -0.027118564, 0.009740605, 0.011229627, 0.0058514746, -0.07603289, 0.0037761237, 0.068422936, -0.042938843, 0.011240764, -0.06690559, 0.016373722, 0.047134735, -0.052542906, 0.03338529, 0.022396458, -0.0066276244, -0.0022224153, 0.006207036, -0.08901162, -0.03087202, -0.036972243, 0.050054453, -0.0060172463, 0.008251925, -0.0083412295, 0.023283549, -0.089357406, 0.047525145, 0.022444481, 0.043707557, -0.022486746, 0.016384136, -0.016212998, 0.06940867, 0.010211101, -0.073932774, -0.003212413, 0.016919063, 0.01806236, -0.0071006627, 0.06087064, -0.0016640569, -0.016794063, -0.071873076, 0.051156506, 0.043242697, -0.022834944, 0.008551773, -0.036529887, 0.039639305, -0.037539832, -

In [6]:
print(len(resultado['embedding'])) # O Embedding tem 768 dimensões

768


In [7]:
text_2 = "O serviço de embedding na API Gemini gera embeddings de última geração para palavras e frases"
resultado_2 = genai.embed_content(model = "models/embedding-001", content = text_2)

print(resultado_2['embedding'])
print(len(resultado_2['embedding'])) # O Embedding tem 768 dimensões

[0.049691558, -0.027208922, 0.005881126, 0.03931627, 0.04127142, 0.01162263, -0.015181744, -0.028652703, 0.0043753213, 0.05702566, 0.0054775807, -0.024610149, -0.023428977, -0.038725503, -0.018255794, -0.03786036, 0.014213733, -0.038528465, -0.0013809055, -0.01322627, -0.020729005, 0.0048178826, 0.003595692, -0.045039427, -0.0023404178, -0.015882038, -0.0035699927, -0.02748543, -0.037217595, 0.012607449, -0.06201654, 0.073809065, -0.042389113, 0.0007629368, -0.045777515, -0.040196706, -0.02497283, -0.034139514, 5.6969973e-05, 0.037176486, 0.022863738, -0.03327369, 0.0099094715, -0.033885192, -0.010099379, -0.04890904, -0.010128445, 0.0415405, 0.0066046044, -0.051029272, 0.030621199, -0.012561652, 0.057777163, -0.017045174, -0.010490073, -0.0641225, 0.05373654, -0.020287571, -0.022833584, 0.0022194576, 0.01119404, -0.037241984, -0.009588542, 0.040250905, -0.005363579, -0.05644933, -0.013849444, -0.023660708, 0.023639174, -0.020768186, 0.02355724, 0.019347478, 0.060423963, -0.016425204, 

## Batch embed content

In [10]:
resultado = genai.embed_content(model = "models/embedding-001",
                                
                                content = [ "Qual é o sentido da vida?",
                                            "Como o cérebro funciona?",
                                            "Quantas pessoas no Japão comem purê de batata?"])

for embedding in resultado['embedding']:
    print(str(embedding)[:50], '... TRIMMED]')

[-0.00811122, -0.049142882, -0.0076420554, 0.01619 ... TRIMMED]
[-0.0010711565, -0.056873053, -0.03770936, 0.01112 ... TRIMMED]
[-0.005854283, -0.06591935, -0.05565625, -0.011106 ... TRIMMED]


In [14]:
# Exemplo de embedding

title = "A próxima geração de IA para desenvolvedores e Google Workspace"
sample_text = ("Título: A próxima geração de IA para desenvolvedores e Google Workspace"
    "\n"
    "Artigo completo:\n"
    "\n"
    "API Gemini & Google AI Studio: uma maneira acessível de explorar e criar protótipos com aplicativos generativos de IA")

embedding = genai.embed_content(model = "models/embedding-001",
                                content = sample_text,
                                task_type = "RETRIEVAL_DOCUMENT",
                                title = title)

print(embedding)

# Tipos de Task Types para utilizar:

# RETRIEVAL_QUERY -	    Especifica que o texto é uma consulta em uma configuração de pesquisa/recuperação.
# RETRIEVAL_DOCUMENT -	Especifica que o texto é um documento em uma configuração de pesquisa/recuperação.
# SEMANTIC_SIMILARITY -	Especifica o texto a ser usado para similaridade textual semântica (STS).
# CLASSIFICAÇÃO -   	Especifica que os embeddings serão usados para classificação.
# CLUSTERING -          Especifica que os embeddings serão usados para clustering.

{'embedding': [0.05059833, -0.035287, -0.017742863, 0.021651063, 0.06921762, 0.00068971526, -0.03037279, -0.016721327, 0.06609066, 0.06055685, 0.016170561, 0.011297282, -0.039135866, -0.023062855, 0.0009003284, -0.023242055, 0.020408235, -0.011429697, -0.035894927, -0.004365302, 0.012407648, 0.013251721, -0.032327823, -0.07359983, -0.028251333, 0.02531818, 0.013611922, -0.037892792, -0.03450579, 0.024959857, -0.047656257, 0.05897719, -0.03350544, 0.015091942, -0.037846994, -0.03723333, -0.028007906, -0.046792477, 0.0030968965, -0.00036843237, 0.0039429255, -0.0836245, -0.011650228, 0.02942716, -0.005327576, -0.023923462, 0.041895468, 0.040801115, 0.013435208, -0.051656082, 0.020875178, 0.026395747, 0.07092505, -0.036602657, -0.0077409865, -0.005192102, 0.017945495, -0.029345328, 0.022260936, -0.0033104632, 0.0026006568, 0.019727748, -0.019555314, 0.059150577, 0.019488087, -0.06086572, -0.034562975, -0.004182293, 0.015715083, 0.04325131, 0.01209348, 0.01090417, 0.05401072, -0.0696516, -

In [25]:
# Listagem de documentos que serão buscados

DOCUMENTO1 = {
    "Título": "Operando o Sistema de Controle Climático",
    "Conteúdo": "Seu Googlecar possui um sistema de controle climático que permite ajustar a temperatura e o fluxo de ar no carro. Para operar o sistema de controle climático, use os botões e botões localizados no console central. Temperatura: O botão de temperatura controla o temperatura dentro do carro. Gire o botão no sentido horário para aumentar a temperatura ou no sentido anti-horário para diminuir o fluxo de ar: O botão de fluxo de ar controla a quantidade de fluxo de ar dentro do carro. velocidade: O botão de velocidade do ventilador controla a velocidade do ventilador. Gire o botão no sentido horário para aumentar a velocidade do ventilador ou no sentido anti-horário para diminuir a velocidade do ventilador. Modo: O botão de modo permite selecionar o modo desejado. O carro ajustará automaticamente a temperatura e o fluxo de ar para manter um nível confortável. Frio: O carro soprará ar frio para dentro do carro. Calor: O carro soprará ar quente para dentro do carro. para descongelar."}
DOCUMENTO2 = {
    "Título": "Touchscreen",
    "Conteúdo": "Seu Googlecar possui uma grande tela sensível ao toque que fornece acesso a uma variedade de recursos, incluindo navegação, entretenimento e controle de temperatura. Para usar a tela sensível ao toque, basta tocar no ícone desejado. Por exemplo, você pode tocar no  ícone \"Navegação\" para obter rotas até seu destino ou toque no ícone \"Música\" para reproduzir suas músicas favoritas."}
DOCUMENTO3 = {
    "Título": "Mudando de marchas",
    "Conteúdo": "Seu Googlecar tem uma transmissão automática. Para trocar as marchas, basta mover a alavanca de mudança para a posição desejada. Estacionar: Esta posição é usada quando você está estacionado. As rodas estão travadas e o carro não pode se mover. Marcha-atrás: Esta posição A posição é usada para dar ré: Esta posição é usada quando você está parado em um semáforo ou no trânsito. O carro não está engatado e não se moverá a menos que você pressione o pedal do acelerador. . Baixo: Esta posição é usada para dirigir em neve ou outras condições escorregadias."}

documentos = [DOCUMENTO1, DOCUMENTO2, DOCUMENTO3]

In [27]:
df = pd.DataFrame(documentos)
df

Unnamed: 0,Título,Conteúdo
0,Operando o Sistema de Controle Climático,Seu Googlecar possui um sistema de controle cl...
1,Touchscreen,Seu Googlecar possui uma grande tela sensível ...
2,Mudando de marchas,Seu Googlecar tem uma transmissão automática. ...


In [31]:
# Definindo o modelo
model = "models/embedding-001" 

# Função para criar os embeddings de um texto
def embed_fn(title, text):
    return genai.embed_content(model = model,
                                content = text,
                                task_type = "RETRIEVAL_DOCUMENT",
                                title = title)["embedding"]

In [34]:
# Aplicar a função embed_fn para cada linha do DataFrame,
# criando os embeddings para cada título e conteúdo de documento em uma nova coluna chamada "Embeddings".

df["Embeddings"] = df.apply(lambda row: embed_fn(row["Título"], row["Conteúdo"]), axis = 1)
df

Unnamed: 0,Título,Conteúdo,Embeddings
0,Operando o Sistema de Controle Climático,Seu Googlecar possui um sistema de controle cl...,"[-0.019136094, -0.029979248, -0.030025043, 0.0..."
1,Touchscreen,Seu Googlecar possui uma grande tela sensível ...,"[0.018032828, -0.041119404, 0.0028033066, 0.00..."
2,Mudando de marchas,Seu Googlecar tem uma transmissão automática. ...,"[-0.009039391, -0.025585646, -0.005225457, 0.0..."


In [38]:
# Função para gerar o embedding de uma consulta e buscar o documento
# mais semanticamente similar dentro de uma base de documentos

def gerar_e_buscar(consulta, base, model):
    embedding_da_consulta = genai.embed_content(model = model,
                                content = consulta,
                                task_type = "RETRIEVAL_QUERY")["embedding"]

    produtos_escalares = np.dot(np.stack(df["Embeddings"]), embedding_da_consulta)

    index = np.argmax(produtos_escalares)
    return df.iloc[index]["Conteúdo"]

In [41]:
consulta = "Como faço para trocar marchas em um carro do Google?"

trecho = gerar_e_buscar(consulta, df, model)
print(trecho)

Seu Googlecar tem uma transmissão automática. Para trocar as marchas, basta mover a alavanca de mudança para a posição desejada. Estacionar: Esta posição é usada quando você está estacionado. As rodas estão travadas e o carro não pode se mover. Marcha-atrás: Esta posição A posição é usada para dar ré: Esta posição é usada quando você está parado em um semáforo ou no trânsito. O carro não está engatado e não se moverá a menos que você pressione o pedal do acelerador. . Baixo: Esta posição é usada para dirigir em neve ou outras condições escorregadias.


In [45]:
generation_config = {
    "candidate_count": 1, 
    "temperature": 0.5,
    #"top_p":,
    #"top_k":
}

In [46]:
prompt = f'Reescreva esse texto de uma forma mais descontráida, sem adicionar informações que não façam parte do texto: {trecho}'

model_2 = genai.GenerativeModel("gemini-1.0-pro",
                                generation_config = generation_config)
response = model_2.generate_content(prompt)

print(response.text)

**Guia de marchas do seu Googlecar, sem enrolação:**

* **Estacionamento:** Tá parado? Puxa a alavanca pra essa posição e o carro fica firme no lugar.
* **Ré:** Quer dar ré? É só colocar a alavanca aqui.
* **Neutro:** Parou no farol ou no trânsito? Deixa a alavanca nessa posição, o carro não vai mexer até você pisar no acelerador.
* **Baixo:** Neve ou chão escorregadio? Essa é a marcha pra você!
