<a href="https://colab.research.google.com/github/adalves-ufabc/2025.Q3-PLN/blob/main/2025_Q3_PLN_AULA_11_Notebook_14.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Processamento de Linguagem Natural [2025-Q3]**
Prof. Alexandre Donizeti Alves

## **Introdução à API Gemini do Google**
---



A API Gemini permite acessar os modelos generativos mais recentes do Google.

**Instalar o SDK da API Gemini**

O SDK do Python para a API Gemini está localizado `google-genai` . Instale a dependência usando `pip`:

In [None]:
!pip install google-genai



**Configurar sua chave de API**

Para usar a API Gemini, você precisa de uma chave de API. Se você ainda não tiver uma, criar uma chave no Google AI Studio.

No Colab, adicione a chave ao gerenciador de chaves secretas em "Secrets" 🔑 no painel esquerdo. Nomeie como `GOOGLE_API_KEY`.

In [None]:
import google.generativeai as genai
from google.colab import userdata

GEMINI_API_KEY = userdata.get('GEMINI_API_KEY')
genai.configure(api_key = GEMINI_API_KEY)

In [None]:
#@title Definindo a chave da API

from getpass import getpass

GEMINI_API_KEY = getpass()

··········


In [None]:
#@title Lista de Modelos

from google import genai

cliente = genai.Client( api_key= GEMINI_API_KEY)

print("Lista de modelos que suportam generateContent:\n")
for m in cliente.models.list():
    for action in m.supported_actions:
        if action == "generateContent":
            print(m.name)

Lista de modelos que suportam generateContent:

models/gemini-2.5-pro-preview-03-25
models/gemini-2.5-flash-preview-05-20
models/gemini-2.5-flash
models/gemini-2.5-flash-lite-preview-06-17
models/gemini-2.5-pro-preview-05-06
models/gemini-2.5-pro-preview-06-05
models/gemini-2.5-pro
models/gemini-2.0-flash-exp
models/gemini-2.0-flash
models/gemini-2.0-flash-001
models/gemini-2.0-flash-exp-image-generation
models/gemini-2.0-flash-lite-001
models/gemini-2.0-flash-lite
models/gemini-2.0-flash-preview-image-generation
models/gemini-2.0-flash-lite-preview-02-05
models/gemini-2.0-flash-lite-preview
models/gemini-2.0-pro-exp
models/gemini-2.0-pro-exp-02-05
models/gemini-exp-1206
models/gemini-2.0-flash-thinking-exp-01-21
models/gemini-2.0-flash-thinking-exp
models/gemini-2.0-flash-thinking-exp-1219
models/gemini-2.5-flash-preview-tts
models/gemini-2.5-pro-preview-tts
models/learnlm-2.0-flash-experimental
models/gemma-3-1b-it
models/gemma-3-4b-it
models/gemma-3-12b-it
models/gemma-3-27b-it
mode

In [None]:
print("Lista de modelos que suportam embedContent:\n")
for m in cliente.models.list():
    for action in m.supported_actions:
        if action == "embedContent":
            print(m.name)

Lista de modelos que suportam embedContent:

models/embedding-001
models/text-embedding-004
models/gemini-embedding-exp-03-07
models/gemini-embedding-exp
models/gemini-embedding-001


In [None]:
from google import genai

cliente = genai.Client( api_key= GEMINI_API_KEY)

model_info = cliente.models.get(model="gemini-2.5-flash")
print(model_info)

name='models/gemini-2.5-flash' display_name='Gemini 2.5 Flash' description='Stable version of Gemini 2.5 Flash, our mid-size multimodal model that supports up to 1 million tokens, released in June of 2025.' version='001' endpoints=None labels=None tuned_model_info=TunedModelInfo() input_token_limit=1048576 output_token_limit=65536 supported_actions=['generateContent', 'countTokens', 'createCachedContent', 'batchGenerateContent'] default_checkpoint_id=None checkpoints=None


### **Geração de Texto**

In [None]:
from google import genai

cliente = genai.Client( api_key= GEMINI_API_KEY)

resposta = cliente.models.generate_content(
    model = "gemini-2.5-flash",
    contents = "Qual a capital do Brasil?"
)

print(resposta.text)

A capital do Brasil é **Brasília**.


O método `generate_content` pode lidar com uma ampla variedade de casos de uso, incluindo chat com vários turnos e entrada multimodal, dependendo do suporte do modelo subjacente. Os modelos disponíveis aceitam apenas texto e imagens como entrada e texto como saída.

**Instruções do sistema e outras configurações**

É possível orientar o comportamento dos modelos do **Gemini** com instruções do sistema. Para fazer isso, transmita um objeto `GenerateContentConfig`.

In [None]:
from google import genai
from google.genai import types

cliente = genai.Client( api_key= GEMINI_API_KEY)

resposta = cliente.models.generate_content(
    model = "gemini-2.5-flash",
    config = types.GenerateContentConfig(
        system_instruction = "Você é um gato. Seu nome é Keno."),
    contents = "Olá"
)

print(resposta.text)

Miau! *Estico as patas da frente, espreguiçando-me preguiçosamente.*

Olá, humano. Você é novo por aqui? Sou Keno, e estou apenas... observando o mundo. *Ronrono suavemente.*


O objeto `GenerateContentConfig` também permite substituir parâmetros de geração padrão, como `temperature`.

In [None]:
from google import genai
from google.genai import types

cliente = genai.Client( api_key= GEMINI_API_KEY)

resposta = cliente.models.generate_content(
    model = "gemini-2.5-flash",
    contents = ["Explique de forma sucinta o que é PLN"],
    config = types.GenerateContentConfig(
        temperature=0.1
    )
)

print(resposta.text)

**PLN (Processamento de Linguagem Natural)** é a área da Inteligência Artificial que se dedica a **capacitar computadores a entender, interpretar e gerar a linguagem humana**.

Seu objetivo é permitir a comunicação eficaz entre humanos e máquinas, seja por texto ou voz.


### **Geração de Imagens**

O **Gemini** pode gerar e processar imagens de forma conversacional. Você pode pedir ao Gemini com texto, imagens ou uma combinação dos dois, permitindo criar, editar e iterar recursos visuais

In [None]:
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

cliente = genai.Client( api_key= GEMINI_API_KEY)

prompt = (
    "Crie uma imagem de prato de nano banana em um restaurante com tema do Gemini"
)

resposta = cliente.models.generate_content(
    model = "gemini-2.5-flash-image",
    contents = [prompt],
)

image_parts = [
    part.inline_data.data
    for part in resposta.candidates[0].content.parts
    if part.inline_data
]

if image_parts:
    image = Image.open(BytesIO(image_parts[0]))
    image.save('bananaGemini.png')

**Texto e Imagem**

In [None]:
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

cliente = genai.Client( api_key= GEMINI_API_KEY)

prompt = (
    "Create a picture of my cat eating a nano-banana in a "
    "fancy restaurant under the Gemini constellation",
)

imagem = Image.open("/content/gato.jpg")

resposta = cliente.models.generate_content(
    model="gemini-2.5-flash-image",
    contents=[prompt, imagem],
)

image_parts = [
    part.inline_data.data
    for part in resposta.candidates[0].content.parts
    if part.inline_data
]

if image_parts:
    image = Image.open(BytesIO(image_parts[0]))
    image.save('gatoGemini.png')

### **Geração de Voz**

Para converter texto em áudio de um único falante, defina a modalidade de resposta como "audio" e transmita um objeto `SpeechConfig` com `VoiceConfig` definido. Você precisa escolher um nome de voz nas vozes de saída predefinidas.

Este exemplo salva o áudio de saída do modelo em um arquivo wave:

In [None]:
from google import genai
from google.genai import types
import wave

# Set up the wave file to save the output:
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
   with wave.open(filename, "wb") as wf:
      wf.setnchannels(channels)
      wf.setsampwidth(sample_width)
      wf.setframerate(rate)
      wf.writeframes(pcm)

cliente = genai.Client( api_key= GEMINI_API_KEY)

resposta = cliente.models.generate_content(
   model = "gemini-2.5-flash-preview-tts",
   contents = "Diga alegremente: Tenha um dia maravilhoso!",
   config = types.GenerateContentConfig(
      response_modalities = ["AUDIO"],
      speech_config = types.SpeechConfig(
         voice_config = types.VoiceConfig(
            prebuilt_voice_config = types.PrebuiltVoiceConfig(
               voice_name = 'Kore',
            )
         )
      ),
   )
)

data = resposta.candidates[0].content.parts[0].inline_data.data

file_name='saida.wav'
wave_file(file_name, data)

In [None]:
blob = resposta.candidates[0].content.parts[0].inline_data
print(blob.mime_type)

audio/L16;codec=pcm;rate=24000


In [None]:
import contextlib
import wave
from IPython.display import Audio

file_index = 0

@contextlib.contextmanager
def wave_file(filename, channels=1, rate=24000, sample_width=2):
    with wave.open(filename, "wb") as wf:
        wf.setnchannels(channels)
        wf.setsampwidth(sample_width)
        wf.setframerate(rate)
        yield wf

def play_audio_blob(blob):
  global file_index
  file_index += 1

  fname = f'audio_{file_index}.wav'
  with wave_file(fname) as wav:
    wav.writeframes(blob.data)

  return Audio(fname, autoplay=True)

def play_audio(response):
    return play_audio_blob(response.candidates[0].content.parts[0].inline_data)

In [None]:
play_audio(resposta)

Para áudio com vários alto-falantes, você precisa de um objeto `MultiSpeakerVoiceConfig` com cada alto-falante (até dois) configurado como um `SpeakerVoiceConfig`.

In [None]:
from google import genai
from google.genai import types
import wave

# Set up the wave file to save the output:
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
   with wave.open(filename, "wb") as wf:
      wf.setnchannels(channels)
      wf.setsampwidth(sample_width)
      wf.setframerate(rate)
      wf.writeframes(pcm)

cliente = genai.Client( api_key= GEMINI_API_KEY)

prompt = """TTS a seguinte conversa entre Joao e Maria:
Joao: Como vai hoje, Jane?
Maria: Nada mal, e você?"""

resposta = cliente.models.generate_content(
   model = "gemini-2.5-flash-preview-tts",
   contents = prompt,
   config = types.GenerateContentConfig(
      response_modalities = ["AUDIO"],
      speech_config = types.SpeechConfig(
         multi_speaker_voice_config = types.MultiSpeakerVoiceConfig(
            speaker_voice_configs=[
               types.SpeakerVoiceConfig(
                  speaker='Joao',
                  voice_config=types.VoiceConfig(
                     prebuilt_voice_config=types.PrebuiltVoiceConfig(
                        voice_name='Kore',
                     )
                  )
               ),
               types.SpeakerVoiceConfig(
                  speaker='Maria',
                  voice_config=types.VoiceConfig(
                     prebuilt_voice_config=types.PrebuiltVoiceConfig(
                        voice_name='Puck',
                     )
                  )
               ),
            ]
         )
      )
   )
)

data = resposta.candidates[0].content.parts[0].inline_data.data

file_name='saidaDupla.wav'
wave_file(file_name, data)

In [None]:
play_audio(resposta)

A saída de áudio é suportada apenas pelos modelos "tts", `gemini-2.5-flash-preview-tts` e `gemini-2.5-pro-preview-tts`.

In [None]:
MODEL_ID = "gemini-2.5-flash-preview-tts" # @param ["gemini-2.5-flash-preview-tts","gemini-2.5-pro-preview-tts"] {"allow-input":true, isTemplate: true}

Escolha uma voz entre as 30 diferentes. Você pode encontrar as características delas na [documentação](https://ai.google.dev/gemini-api/docs/speech-generation?hl=pt-br#voices).

In [None]:
voice_name = "Sadaltager" # @param ["Zephyr", "Puck", "Charon", "Kore", "Fenrir", "Leda", "Orus", "Aoede", "Callirhoe", "Autonoe", "Enceladus", "Iapetus", "Umbriel", "Algieba", "Despina", "Erinome", "Algenib", "Rasalgethi", "Laomedeia", "Achernar", "Alnilam", "Schedar", "Gacrux", "Pulcherrima", "Achird", "Zubenelgenubi", "Vindemiatrix", "Sadachbia", "Sadaltager", "Sulafar"]

In [None]:
resposta = cliente.models.generate_content(
  model=MODEL_ID,
  contents="""Diga "Sou um modelo muito completo", espere 5 segundos e diga "Você não acha?"".""",
  config={
      "response_modalities": ['Audio'],
      "speech_config": {
          "voice_config": {
              "prebuilt_voice_config": {
                  "voice_name": voice_name
              }
          }
      }
  },
)

play_audio(resposta)

Basta dizer ao modelo para falar em um determinado idioma e ele irá:

In [None]:
resposta = cliente.models.generate_content(
  model=MODEL_ID,
  contents="""
    Read this in French:

    Les chaussettes de l'archiduchesse sont-elles sèches ? Archi-sèches ?
    Un chasseur sachant chasser doit savoir chasser sans son chien.
  """,
  config={"response_modalities": ['Audio']},
)

play_audio(resposta)

Você pode controlar o estilo, o tom, o sotaque e o ritmo usando instruções de linguagem natural, por exemplo:

In [None]:
resposta = cliente.models.generate_content(
  model=MODEL_ID,
  contents="""
    Diga num sussurro assustador:
    "Pelo toque dos meus polegares...
     Algo perverso está chegando!"
  """,
  config={"response_modalities": ['Audio']},
)

play_audio(resposta)

O modelo TTS também pode ler discussões entre dois falantes:

In [None]:
resposta = cliente.models.generate_content(
  model=MODEL_ID,
  contents="""
    Faça o Speaker1 parecer cansado e entediado, e o Speaker2 parecer animado e feliz:

    Speaker1: Então... o que está na agenda de hoje?
    Speaker2: Você nunca vai adivinhar!
  """,
  config={"response_modalities": ['Audio']},
)

play_audio(resposta)

Você também pode selecionar as vozes de cada participante e passar seus nomes para o modelo.

Mas primeiro vamos gerar uma discussão entre dois cientistas:

In [None]:
transcricao = cliente.models.generate_content(
    model='gemini-2.5-flash',
    contents="""
      Olá, por favor, gere uma transcrição curta (cerca de 100 palavras) que pareça ter sido retirada de um podcast
      de herpetologistas entusiasmados, Dra. Claire e sua assistente, a jovem Aurora.
    """
  ).text

print(transcricao)

**(Música de introdução otimista de podcast diminui gradualmente)**

**Dr. Claire:** Sejam bem-vindos de volta ao "Pulso da Herpetologia"! Hoje, o campo foi absolutamente espetacular, não foi, Aurora?

**Aurora:** Foi demais, Dra. Claire! Aquela *perereca* que encontramos perto do riacho tinha cores tão vibrantes! Parecia uma joia viva. Nunca vi um verde tão intenso!

**Dr. Claire:** Ah, a *Dendropsophus minutus* é uma maravilha da camuflagem e do mimetismo! Você notou como as pupilas dela eram horizontais, uma adaptação perfeita para a visão noturna? E a textura da pele...

**Aurora:** Sim! Tão lisinha! E o barulhinho que ela fazia... parecia um clique, sabe? Como um relógio minúsculo. É assim que elas se comunicam?

**Dr. Claire:** Exatamente, Aurora! Cada clique é uma mensagem. É fascinante como esses anfíbios, tão delicados e complexos, dominam seu nicho. A herpetologia nunca deixa de nos surpreender! Mal posso esperar para analisar os dados que coletamos hoje.

**(Música de encerr

Então vamos fazer com que o modelo TTS renderize a conversa usando as vozes que você deseja.

In [None]:
config = types.GenerateContentConfig(
    response_modalities=["AUDIO"],
    speech_config=types.SpeechConfig(
        multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
            speaker_voice_configs=[
                types.SpeakerVoiceConfig(
                    speaker='Dr. Claire',
                    voice_config=types.VoiceConfig(
                        prebuilt_voice_config=types.PrebuiltVoiceConfig(
                            voice_name='sulafat',
                        )
                    )
                ),
                types.SpeakerVoiceConfig(
                    speaker='Aurora',
                    voice_config=types.VoiceConfig(
                        prebuilt_voice_config=types.PrebuiltVoiceConfig(
                            voice_name='Leda',
                        )
                    )
                ),
            ]
        )
    )
)

resposta = cliente.models.generate_content(
  model=MODEL_ID,
  contents="TS a seguinte conversa entre uma Dra. Claire muito animada e sua assistente, a jovem Aurora: "+transcricao,
  config=config,
)

play_audio(resposta)

### **Saída Estruturada**

Você pode configurar o **Gemini** para gerar uma saída estruturada em vez de texto não estruturado, permitindo a extração e padronização precisas de informações para processamento posterior.

**Gerar JSON**

Para restringir o modelo a gerar JSON, configure um `responseSchema`. O modelo vai responder a qualquer comando com uma saída formatada em JSON.

In [None]:
from google import genai
from pydantic import BaseModel

class Receita(BaseModel):
    nome_receita: str
    ingredientes: list[str]

cliente = genai.Client( api_key= GEMINI_API_KEY)

resposta = cliente.models.generate_content(
    model="gemini-2.5-flash",
    contents="Liste algumas receitas populares de biscoitos e inclua as quantidades de ingredientes.",
    config={
        "response_mime_type": "application/json",
        "response_schema": list[Receita],
    },
)

print(resposta.text)

[
  {
    "nome_receita": "Biscoitos com Gotas de Chocolate",
    "ingredientes": [
      "2 1/4 xícaras de farinha de trigo",
      "1 colher de chá de bicarbonato de sódio",
      "1 colher de chá de sal",
      "1 xícara (226g) de manteiga sem sal, amolecida",
      "3/4 xícara de açúcar granulado",
      "3/4 xícara de açúcar mascavo compactado",
      "2 ovos grandes",
      "1 colher de chá de extrato de baunilha",
      "2 xícaras de gotas de chocolate"
    ]
  },
  {
    "nome_receita": "Biscoitos de Aveia com Uva Passa",
    "ingredientes": [
      "1 1/2 xícaras de farinha de trigo",
      "1 colher de chá de bicarbonato de sódio",
      "1 colher de chá de canela em pó",
      "1/2 colher de chá de sal",
      "1 xícara (226g) de manteiga sem sal, amolecida",
      "1 xícara de açúcar mascavo compactado",
      "1/2 xícara de açúcar granulado",
      "2 ovos grandes",
      "1 colher de chá de extrato de baunilha",
      "3 xícaras de aveia em flocos",
      "1 xícara de uva

In [None]:
receitas: list[Receita] = resposta.parsed

receitas

[Receita(nome_receita='Biscoitos com Gotas de Chocolate', ingredientes=['2 1/4 xícaras de farinha de trigo', '1 colher de chá de bicarbonato de sódio', '1 colher de chá de sal', '1 xícara (226g) de manteiga sem sal, amolecida', '3/4 xícara de açúcar granulado', '3/4 xícara de açúcar mascavo compactado', '2 ovos grandes', '1 colher de chá de extrato de baunilha', '2 xícaras de gotas de chocolate']),
 Receita(nome_receita='Biscoitos de Aveia com Uva Passa', ingredientes=['1 1/2 xícaras de farinha de trigo', '1 colher de chá de bicarbonato de sódio', '1 colher de chá de canela em pó', '1/2 colher de chá de sal', '1 xícara (226g) de manteiga sem sal, amolecida', '1 xícara de açúcar mascavo compactado', '1/2 xícara de açúcar granulado', '2 ovos grandes', '1 colher de chá de extrato de baunilha', '3 xícaras de aveia em flocos', '1 xícara de uvas passas']),
 Receita(nome_receita='Biscoitos de Manteiga de Amendoim', ingredientes=['1 1/4 xícaras de farinha de trigo', '1/2 colher de chá de bicar

**Gerar valores de tipo enumerado**

Em alguns casos, talvez você queira que o modelo escolha uma única opção em uma lista. Para implementar esse comportamento, transmita um `enum` no seu esquema. É possível usar uma opção de enumeração em qualquer lugar em que um string possa ser usado no `responseSchema`, porque uma enumeração é uma matriz de strings. Assim como um esquema JSON, uma enumeração permite restringir a saída do modelo para atender aos requisitos do seu aplicativo.

Por exemplo, suponha que você esteja desenvolvendo um aplicativo para classificar instrumentos musicais em uma de cinco categorias: `Percussão`, `Cordas`, `Sopro`, `Metal` ou `Teclado`. Você pode criar uma enumeração para ajudar nessa tarefa.

No exemplo a seguir, você transmite uma enumeração como `responseSchema`, restringindo o modelo a escolher a opção mais adequada.

In [None]:
from google import genai
import enum

class Instrumento(enum.Enum):
  PERCUSSION = "Percussão"
  STRING = "Cordas"
  WOODWIND = "Sopro"
  BRASS = "Metal"
  KEYBOARD = "Teclado"

cliente = genai.Client( api_key= GEMINI_API_KEY)

resposta = cliente.models.generate_content(
    model='gemini-2.5-flash',
    contents='Que tipo de instrumento é um oboé?',
    config={
        'response_mime_type': 'text/x.enum',
        'response_schema': Instrumento,
    },
)

print(resposta.text)

Sopro


Também é possível transmitir o esquema como JSON:

In [None]:
from google import genai

cliente = genai.Client( api_key= GEMINI_API_KEY)

resposta = cliente.models.generate_content(
    model='gemini-2.5-flash',
    contents='Que tipo de instrumento é um oboé?',
    config={
        'response_mime_type': 'text/x.enum',
        'response_schema': {
            "type": "STRING",
            "enum": ["Percussão", "Cordas", "Sopro", "Metal", "Teclado"],
        },
    },
)

print(resposta.text)

Sopro


**Referências**:

> https://ai.google.dev/gemini-api/docs/text-generation?hl=pt-br

> https://ai.google.dev/gemini-api/docs/image-generation?hl=pt-br

> https://ai.google.dev/gemini-api/docs/speech-generation?hl=pt-br

> https://ai.google.dev/gemini-api/docs/structured-output?hl=pt-br
