In [9]:
import sys
import os
script_dir = os.getcwd()
sys.path.append(script_dir)

# Utilizando a API do google Gemini

Já vimos aqui no blog como ocorre a interação com inteligências artificiais generativas como o **ChatGPT** e o **Google Gemini**. Porém, para que possamos integrá-los a aplicações ou automatizar o uso mesmo que para projetos menores, é necessário que utilizemos a sua **API** (Interface de Programação de Aplicações).

Limitações do uso comum de IAs generativas, sem uso de API:

- Incapacidade de acessar ou interagir com dados específicos do usuário, como calendários ou bases de dados privadas.
- Dificuldade em realizar tarefas específicas, como cálculos complexos ou ações baseadas em comandos.
- Falta de personalização e adaptação a contextos específicos de aplicações.
- Limitação em interagir com outras ferramentas e serviços externos.
- Impossibilidade de automação de processos específicos e repetitivos.



Neste documento, você saberá como acessar e utilizar o **Google Gemini** para esse fim.

## 1 - Debate comparativos sobre os modelos

Primeiramente pode-se realizar um debate demonstrando o quão proximos estaõ as capacidades do **Google Gemini** ao **ChatGPT**.

Para acessar essa demonstração vá até a área de [comparação de modelos](#6---comparação-de-modelos) (Último item desse artigo) e depois retorne, ou veja a explicação e por fim a comparação.


## 2 - Configurações Iniciais

### Pre requisitos

1 - Python 3.9 ou superior.

2 - Uma instalação de jupyter para executar o notebook.

### Obtendo uma chave para sua API

1 - Acesse o seguinte site: [Google API Key.](https://aistudio.google.com/app/apikey?hl=pt-br)

2 - Caso ainda não esteja logado, faça o login utilizando sua conta Google e aceite os termos de serviço.

3 - Clique no botão para criar uma chave para um novo projeto.

4 - Agora você pode copiar a chave.

OBS: A chave de API é um elemento crítico para acessar os serviços fornecidos pela Google API. Essa chave funciona como uma senha que autentica suas solicitações e garante que você tenha permissão para acessar os recursos.

Por esse motivo, deve-se prestar muita atenção para que a mesma não fique disponível publicamente.

### Armazenando uma chave de API

Por esse motivo você vai precisar salvar com o nome GOOGLE_API_KEY em um arquivo `.env` e carregar este arquivo com o módulo `dotenv`.

In [10]:
from dotenv import load_dotenv, set_key, find_dotenv
import google.generativeai as gemini
import google.generativeai.client as client

In [11]:
# Sua chave vai aqui para salva-la
GOOGLE_API_KEY = "AIzaSyCVzF6VoGIBSIQdpaMb4vnwdlP8oEVu0g0" 

# Explicação do Código

Este notebook explica o funcionamento de três funções escritas em Python para manipulação de uma chave API, utilizando a biblioteca `python-dotenv` para lidar com variáveis de ambiente em um arquivo `.env`.

## Função `salva_chave`

```python
def salva_chave(dotenv_path, chave): # Salva uma chave armazenada em GOOGLE_API_KEY
    # Especifica o caminho completo para o arquivo .env
    dotenv_file = os.path.join(dotenv_path, '.env')
    set_key(dotenv_file, "GOOGLE_API_KEY", chave)
    print(f"Chave API salva em {dotenv_file}")


### Explicação das seguintes funções:

**salva_chave:**
 Objetivo: Esta função salva uma chave API fornecida (chave) no arquivo .env localizado no caminho especificado (dotenv_path).

**carrega_chave:**
 Objetivo: Esta função carrega a chave API armazenada no arquivo .env e configura a biblioteca gemini com essa chave.

**verifica_chave:**
 Objetivo: Esta função verifica a existência do arquivo .env no sistema.


In [12]:
def salva_chave(dotenv_path, chave): # Salva uma chave armazenada em GOOGLE_API_KEY
    # Especifica o caminho completo para o arquivo .env
    dotenv_file = os.path.join(dotenv_path, '.env')
    set_key(dotenv_file, "GOOGLE_API_KEY", chave)
    print(f"Chave API salva em {dotenv_file}")

def carrega_chave(): # Carrega uma chave do arquivo .env
    _ = load_dotenv(find_dotenv())
    chave = os.getenv("GOOGLE_API_KEY")
    gemini.configure(api_key=os.getenv('GOOGLE_API_KEY'))

    print(f"Chave API carregada com sucesso!")
    return chave

def verifica_chave(): # Verifica a existência de um arquivo .env 
    return find_dotenv()


In [13]:
path = verifica_chave()
if not path:
    salva_chave(os.getcwd(), GOOGLE_API_KEY)
else:
    chave = carrega_chave()

Chave API carregada com sucesso!


Parabéns, agora sua chave já está carregada!

## 3 - Utilizando o serviço (Textual)

Primeiramente devemos verificar quais são todos os modelos disponíveis para utilização.


In [14]:
# Listar modelos 
modelos = client.get_default_model_client().list_models()

for m in modelos:
    if 'generateContent' in m.supported_generation_methods:
        print(m.name)


models/gemini-1.0-pro
models/gemini-1.0-pro-001
models/gemini-1.0-pro-latest
models/gemini-1.0-pro-vision-latest
models/gemini-1.5-flash
models/gemini-1.5-flash-001
models/gemini-1.5-flash-latest
models/gemini-1.5-pro
models/gemini-1.5-pro-001
models/gemini-1.5-pro-latest
models/gemini-pro
models/gemini-pro-vision


Tendo en vista que todos os modelos pro como o **gemini-1.5-pro**
Para o teste inicial utilizaremos o seguinte modelo **gemini-1.5-flash** tendo em vista que o esse modelo é **"Gratuito"** já que para que precisemos pagar é necessária uma utilização maior que os demais.


Ao final desta publicação existirá uma área própria para comparação entre alguns modelos listados nessa lista.


In [15]:
# Carregando o modelo
model = gemini.GenerativeModel('gemini-1.5-flash')

Nesse caso vou perguntar **"Se você pudesse ter qualquer superpoder por um dia, qual seria e como você o usaria?"**

In [16]:
# Recebendo nossa primeira mensagem via código
resposta = model.generate_content("Se você pudesse ter qualquer superpoder por um dia, qual seria e como você o usaria?")

Algumas informações da resposta


In [17]:
print(resposta.text) # Resposta textual
print(resposta.usage_metadata) # Informações como número de tokens usados

Se eu pudesse ter qualquer superpoder por um dia, eu escolheria a habilidade de **teletransporte**. 

Imaginem as possibilidades! Eu poderia visitar todos os lugares do mundo em um piscar de olhos. Imagino que seria fascinante poder explorar diferentes culturas, paisagens e monumentos históricos em um único dia. 

Além disso, com a teletransporte, eu poderia ajudar as pessoas de maneiras incríveis:

* **Socorrer pessoas em perigo:** Imagine conseguir chegar a um local de desastre em segundos e ajudar na evacuação ou no resgate. 
* **Entregar suprimentos essenciais:** Levar comida, água, medicamentos ou outros recursos vitais para pessoas que precisam com urgência.
* **Promover a paz e a compreensão:** Visitar diferentes países e culturas, conectando pessoas e espalhando mensagens de esperança e união.

Claro, usar esse poder com responsabilidade seria crucial. Mas, com a teletransporte, eu poderia ter um impacto positivo no mundo, ajudando as pessoas e explorando a beleza do nosso plan

Logo nesse podemos ja realizar a utilização desse modelo dentro de uma aplicação, exemplo:

Imagine que tenhamos um app que recomenda receitas para o usuário baseando-se nos ingredientes possuídos pelo usuário.

In [18]:
# Pegando o input do suario (simulando uma aplicação).
ingredientes = input("Liste os ingredientes que você possui? ")

Nesse exemplo deveremos utilizar um pouco da noção de prompt engineering.
(Atualizar com o link da post falando sobre prompt engineering)   

In [19]:
# Forma junto com a variavel ingredientes uma entrada adequada para a nossa proposta
texto_final = (f"Com os seguintes ingredientes: {ingredientes}, escreva uma receita completa que utilize esses e apenas esses ingredientes.")

In [20]:
# Gera a resposta que estamos buscando
resposta = model.generate_content(texto_final)

In [21]:
print(resposta.text) # Resposta textual
print(resposta.usage_metadata) # Informações como número de tokens usados

## Picanha com Arroz, Feijão e Queijo Prato

**Ingredientes:**

* 1 kg de Picanha
* 2 cebolas grandes picadas
* 2 tomates maduros picados
* 1 xícara de arroz branco
* 2 xícaras de feijão cozido
* 200g de queijo prato em fatias finas
* Sal e pimenta do reino a gosto
* Óleo para fritar

**Preparo:**

**1. Picanha:**
* Tempere a picanha com sal e pimenta do reino a gosto.
* Aqueça um fio de óleo em uma panela grande e doure a picanha de todos os lados.
* Reduza o fogo e cozinhe por aproximadamente 30 minutos, virando a picanha de vez em quando para garantir que fique cozida por igual. 
* Retire a picanha da panela e reserve.

**2. Arroz:**
* Na mesma panela que a picanha foi frita, adicione um fio de óleo.
* Acrescente a cebola picada e refogue até ficar transparente.
* Adicione o arroz e refogue por 2 minutos.
* Adicione 2 xícaras de água fervente, sal a gosto e cozinhe em fogo baixo por aproximadamente 15 minutos, ou até o arroz ficar cozido e macio.

**3. Feijão:**
* Aqueça o feijão co

Como fica perceptível a receita foi impressa de modo completamente geracional, parabéns!

## 4 - Utilizando imagens ou Áudio

Agora vamos utilizar o serviço utilizando como entrada uma imagem.

Primeiramente devemos carregar uma imagem em uma variável, para isso vou utilizar a biblioteca PLT a imagem está armazenada em "Imagens\animal.jpg"  a partir do diretório que esse script está escrito.

In [36]:
import PIL.Image
import numpy as np
import cv2

In [37]:
img = PIL.Image.open(r'Imagens\animal.jpg')
img2

array([[[ 55, 139, 111],
        [ 80, 154, 128],
        [108, 163, 138],
        ...,
        [ 43, 137, 106],
        [ 19, 113,  82],
        [ 44, 138, 107]],

       [[ 69, 150, 123],
        [ 98, 171, 145],
        [140, 196, 173],
        ...,
        [ 64, 155, 122],
        [ 69, 159, 129],
        [ 73, 164, 131]],

       [[ 68, 142, 118],
        [ 74, 142, 117],
        [115, 173, 149],
        ...,
        [ 80, 166, 132],
        [ 90, 175, 143],
        [ 75, 161, 127]],

       ...,

       [[ 89,  86,  71],
        [ 80,  95,  81],
        [ 83, 128, 119],
        ...,
        [ 95, 127, 110],
        [ 74, 104,  85],
        [106, 137, 116]],

       [[151, 151, 135],
        [143, 155, 143],
        [ 85, 126, 119],
        ...,
        [ 81, 122, 101],
        [ 77, 113,  91],
        [ 93, 126, 105]],

       [[117, 118, 102],
        [140, 150, 138],
        [ 72,  97,  93],
        ...,
        [118, 178, 154],
        [129, 177, 153],
        [ 92, 137, 111]]

In [34]:
img_array = np.array(img)

[[[111 139  55]
  [128 154  80]
  [138 163 108]
  ...
  [106 137  43]
  [ 82 113  19]
  [107 138  44]]

 [[123 150  69]
  [145 171  98]
  [173 196 140]
  ...
  [122 155  64]
  [129 159  69]
  [131 164  73]]

 [[118 142  68]
  [117 142  74]
  [149 173 115]
  ...
  [132 166  80]
  [143 175  90]
  [127 161  75]]

 ...

 [[ 71  86  89]
  [ 81  95  80]
  [119 128  83]
  ...
  [110 127  95]
  [ 85 104  74]
  [116 137 106]]

 [[135 151 151]
  [143 155 143]
  [119 126  85]
  ...
  [101 122  81]
  [ 91 113  77]
  [105 126  93]]

 [[102 118 117]
  [138 150 140]
  [ 93  97  72]
  ...
  [154 178 118]
  [153 177 129]
  [111 137  92]]]


A partir desse momento já é possível utilizar essa imagem como entrada para busca de resposta.

In [43]:
resposta = model.generate_content(img)

print(resposta.text)

This is a capybara.  It is the largest rodent in the world.  Capybaras are native to South America and are semi-aquatic. They are herbivores and live in groups called herds.  Capybaras are known for their friendly and docile nature.  They are often seen lounging in the water or grazing on grass.


Caso queira-mos enviar uma imagem e um texto para alguma finalidade específica, por exemplo: 

Identificar um animal em uma imagem. (uma capivara no exemplo da imagem citada)

Basta que enviemos uma lista **[A, B]** contendo:

A - Texto de entrada nesse caso "Identifique esse o animal nessa imagem".

B - Variável contendo a imagem.

In [40]:
resposta = model.generate_content(["Identifique esse o animal nessa imagem", img])

In [None]:
print(resposta.text)

É uma capivara. 



## 5 - Utilizando o conceito de chat

Quando se pensa em uma interação contínua com um usuário, vale a pena se utilizar da função chat (Que armazena e utiliza o histórico de mensagens trocadas).

In [None]:
chat = model.start_chat(history=[])
chat # agora o chat está armazenado nesta variável

ChatSession(
    model=genai.GenerativeModel(
        model_name='models/gemini-1.5-flash',
        generation_config={},
        safety_settings={},
        tools=None,
        system_instruction=None,
        cached_content=None
    ),
    history=[]
)

In [None]:
resposta = chat.send_message("Escreva uma linah de uma historia sobre o cachorro bernardo")
print(resposta.text)

Bernardo, um São Bernardo gigante com uma mancha branca em forma de coração no peito, sempre pareceu sentir o peso do mundo, especialmente após o desaparecimento da pequena Clara, sua melhor amiga. 



Agora é possível ver todo o histórico de mensagens usando o seguinte comando

In [None]:
chat.history

[parts {
   text: "Escreva uma linah de uma historia sobre o cachorro bernardo"
 }
 role: "user",
 parts {
   text: "Bernardo, um São Bernardo gigante com uma mancha branca em forma de coração no peito, sempre pareceu sentir o peso do mundo, especialmente após o desaparecimento da pequena Clara, sua melhor amiga. \n"
 }
 role: "model"]

In [None]:
response = chat.send_message("Troque o nome de bernardo para severino")
print(response.text)

Severino, um São Bernardo gigante com uma mancha branca em forma de coração no peito, sempre pareceu sentir o peso do mundo, especialmente após o desaparecimento da pequena Clara, sua melhor amiga. 




A metodologia acima garante com que haja uma continuidade no envio de mensagens para o modelo, permitindo com que alterações em determinadas partes sejam possíveis. (como demonstrado pela troca do nome do cachorro bernardo).

In [None]:
for mensagem in chat.history:
  print(f'{mensagem.role}: {mensagem.parts[0].text}')

user: Escreva uma linah de uma historia sobre o cachorro bernardo
model: Bernardo, um São Bernardo gigante com uma mancha branca em forma de coração no peito, sempre pareceu sentir o peso do mundo, especialmente após o desaparecimento da pequena Clara, sua melhor amiga. 

user: Troque o nome de bernardo para severino
model: Severino, um São Bernardo gigante com uma mancha branca em forma de coração no peito, sempre pareceu sentir o peso do mundo, especialmente após o desaparecimento da pequena Clara, sua melhor amiga. 



Parabéns, agora você compreende como o até mesmo o chat funciona, mas vamos é necessário realizar uma comparação entre alguns modelos existentes no **google Gemini**.

# 6 - Comparação de modelos

Primeiramente vamos rever a lista de modelos existentes no **Google Gemini**.

In [None]:
for m in modelos:
    if 'generateContent' in m.supported_generation_methods:
        print(m.name)

models/gemini-1.0-pro
models/gemini-1.0-pro-001
models/gemini-1.0-pro-latest
models/gemini-1.0-pro-vision-latest
models/gemini-1.5-flash
models/gemini-1.5-flash-001
models/gemini-1.5-flash-latest
models/gemini-1.5-pro
models/gemini-1.5-pro-001
models/gemini-1.5-pro-latest
models/gemini-pro
models/gemini-pro-vision


Como visto vou pegar modelos mais atualizados (No momento dessa publicação) os 1.5 em sua verção Pro e Flash.

### Modelo Gemini 1.5 Flash

O Gemini 1.5 Flash é um modelo multimodal rápido e versátil, projetado para escalonamento em diversas tarefas. Este modelo pode lidar com entradas em diferentes formatos, oferecendo saídas textuais eficientes.

#### Detalhes do Modelo

#### Propriedade e Descrição

- **Código do modelo**: `gemini-1.5-flash-latest`
- **Entradas**: Áudio, imagens, vídeo e texto
- **Saída**: Texto
- **Métodos de geração com suporte**: `generateContent`
- **Versão mais recente**: `gemini-1.5-flash-latest`
- **Versão estável mais recente**: `gemini-1.5-flash`

#### Limites e Capacidades

- **Limite de tokens de entrada**: 1.048.576
- **Limite de tokens de saída**: 8.192
- **Número máximo de imagens por comando**: 3.600
- **Duração máxima do vídeo**: 1 hora
- **Duração máxima do áudio**: Aproximadamente 9,5 horas
- **Número máximo de arquivos de áudio por comando**: 1

#### Limites de Taxa

- **Sem custo financeiro**:
  - **15 RPM**: Requisições por minuto
  - **1 milhão TPM**: Tokens por mês
  - **1.500 RPD**: Requisições por dia

- **Pay-as-you-go**:
  - **360 RPM**: Requisições por minuto
  - **10 milhões TPM**: Tokens por mês
  - **10.000 RPD**: Requisições por dia

#### Funcionalidades Adicionais

- **Instruções do sistema**: Compatível
- **Modo JSON**: Compatível


### Modelo Gemini 1.5 Pro

O Gemini 1.5 Pro é um modelo multimodal avançado, projetado para lidar com diversas entradas e fornecer saídas textuais eficientes. Este modelo oferece capacidades robustas para processamento de áudio, imagens, vídeo e texto.

#### Detalhes do Modelo

#### Propriedade e Descrição

- **Código do modelo**: `models/gemini-1.5-pro-latest`
- **Entradas**: Áudio, imagens, vídeo e texto
- **Saída**: Texto
- **Métodos de geração com suporte**: `generateContent`
- **Versão mais recente**: `gemini-1.5-pro-latest`
- **Versão estável mais recente**: `gemini-1.5-pro`
- **Atualização mais recente**: Abril de 2024

#### Limites e Capacidades

- **Limite de tokens de entrada**: 1.048.576
- **Limite de tokens de saída**: 8.192
- **Número máximo de imagens por comando**: 3.600
- **Duração máxima do vídeo**: 1 hora
- **Duração máxima do áudio**: Aproximadamente 9,5 horas
- **Número máximo de arquivos de áudio por comando**: 1

#### Limites de Taxa

- **Sem custo financeiro**:
  - **2 RPM**: Requisições por minuto
  - **32.000 TPM**: Tokens por mês
  - **50 RPD**: Requisições por dia
  - **46.080.000 TPD**: Tokens por dia

- **Pay-as-you-go**:
  - **360 RPM**: Requisições por minuto
  - **10 milhões TPM**: Tokens por mês
  - **10.000 RPD**: Requisições por dia
  - **14.400.000.000 TPD**: Tokens por dia

  - **Contexto de dois milhões**:
  - **1 RPM**: Requisições por minuto
  - **2 milhões TPM**: Tokens por mês
  - **50 RPD**: Requisições por dia

#### Funcionalidades Adicionais

- **Instruções do sistema**: Compatível
- **Modo JSON**: Compatível


Para mais informações acesse o seguinte site: [Google Gemini models.](https://ai.google.dev/gemini-api/docs/models/gemini?hl=pt-br)

**Restante Inserir a área de comparação com ChatGPT**

**Caso seja aprovado criar o requirements.txt**