# Criando um Agente


In [1]:
# Instalação das bibliotecas necessárias para o projeto

# pydantic-ai-slim[tavily]: versão otimizada do Pydantic para integração com IA
# e suporte à Tavily (mecanismo de busca externa).
!pip install pydantic-ai-slim[tavily]

# docling: biblioteca usada para extração, leitura e processamento de documentos.
!pip install docling

# fastembed: responsável por gerar embeddings de forma rápida e eficiente.
!pip install fastembed

# qdrant-client: cliente oficial do Qdrant, banco de dados vetorial utilizado
# para armazenar e consultar embeddings de maneira escalável.
!pip install qdrant-client

Collecting pydantic-ai-slim[tavily]
  Downloading pydantic_ai_slim-1.0.2-py3-none-any.whl.metadata (4.6 kB)
Collecting genai-prices>=0.0.23 (from pydantic-ai-slim[tavily])
  Downloading genai_prices-0.0.25-py3-none-any.whl.metadata (6.5 kB)
Collecting griffe>=1.3.2 (from pydantic-ai-slim[tavily])
  Downloading griffe-1.14.0-py3-none-any.whl.metadata (5.1 kB)
Collecting pydantic-graph==1.0.2 (from pydantic-ai-slim[tavily])
  Downloading pydantic_graph-1.0.2-py3-none-any.whl.metadata (3.9 kB)
Collecting tavily-python>=0.5.0 (from pydantic-ai-slim[tavily])
  Downloading tavily_python-0.7.11-py3-none-any.whl.metadata (7.5 kB)
Collecting logfire-api>=3.14.1 (from pydantic-graph==1.0.2->pydantic-ai-slim[tavily])
  Downloading logfire_api-4.4.0-py3-none-any.whl.metadata (971 bytes)
Collecting colorama>=0.4 (from griffe>=1.3.2->pydantic-ai-slim[tavily])
  Downloading colorama-0.4.6-py2.py3-none-any.whl.metadata (17 kB)
Downloading pydantic_graph-1.0.2-py3-none-any.whl (27 kB)
Downloading genai

In [2]:
# Importa o módulo 'userdata' do Google Colab, que permite acessar
# variáveis salvas de forma segura no ambiente do Colab.
from google.colab import userdata

# Recupera a chave da API do Gemini armazenada no Colab.
# Isso evita expor a chave diretamente no código.
GEMINI_API_KEY = userdata.get('GEMINI_API_KEY')

In [3]:
# Importa o módulo 'os' para manipulação de variáveis de ambiente
import os

# Define a variável de ambiente 'GEMINI_API_KEY' com o valor recuperado anteriormente.
# Dessa forma, outras bibliotecas podem acessar a chave de API diretamente do ambiente.
os.environ['GEMINI_API_KEY'] = GEMINI_API_KEY

In [4]:
# Importa a classe 'Agent' da biblioteca pydantic_ai.
# Essa classe é utilizada para criar agentes de IA capazes de processar
# prompts e retornar respostas estruturadas.
from pydantic_ai import Agent

# Importa a biblioteca 'nest_asyncio', que permite aplicar um patch em loops assíncronos.
# Isso é necessário em ambientes como Google Colab e Jupyter, que já possuem um loop ativo.
import nest_asyncio

# Aplica o patch do nest_asyncio para evitar erros de "loop já em execução"
# ao trabalhar com funções assíncronas.
nest_asyncio.apply()

In [5]:
# Cria uma instância de 'Agent' que utilizará o modelo Gemini para gerar apresentações.
agent = Agent(
    # Define o modelo a ser utilizado. Aqui usamos o 'gemini-2.0-flash'
    # através do provedor 'google-gla'.
    'google-gla:gemini-2.0-flash',

    # Define o 'system_prompt', ou seja, as instruções que determinam
    # como o agente deve se comportar e qual formato de saída deve gerar.
    system_prompt='''
    Você é um criador de apresentações que cria apresentações neste formato:
    ---
title:"Habits"
author: "John Doe"
format: revealjs
---

## Getting up

- Turn off alarm
- Get out of bed

## Going to sleep

- Get in bed
- Count sheep

Ao receber um tema crie a apresentação.
    '''
)

In [6]:
# Executa o agente de forma síncrona, passando como entrada o tema "Industria de petshops".
# O agente utilizará o modelo configurado e o system_prompt definido anteriormente
# para gerar uma apresentação no formato especificado.
result = agent.run_sync('Industria de petshops')

In [7]:
print(result.output)

Ok, aqui está uma apresentação sobre a indústria de pet shops:

---
title: "A Indústria de Pet Shops"
author: "AI Presentation Creator"
format: revealjs
---

## Introdução

- A indústria de pet shops é um mercado em crescimento.
- Os animais de estimação são membros importantes da família para muitas pessoas.
- As pet shops oferecem uma variedade de produtos e serviços para atender às necessidades dos animais de estimação e seus donos.

## Produtos e Serviços Oferecidos

- Alimentos para animais de estimação
- Acessórios para animais de estimação (coleiras, brinquedos, camas)
- Produtos de higiene e beleza
- Medicamentos e suplementos
- Serviços de banho e tosa
- Serviços veterinários (em algumas lojas)
- Adoção de animais de estimação

## Tendências Atuais

- Crescimento do mercado de alimentos premium e naturais
- Aumento da demanda por produtos e serviços personalizados
- Ênfase no bem-estar animal e sustentabilidade
- Expansão do comércio eletrônico e vendas online
- Adoção de tecn

# Formatando resultado

In [8]:
# Importa a classe BaseModel da biblioteca Pydantic,
# usada para definir modelos de dados com validação automática de tipos.
from pydantic import BaseModel

# Importa a biblioteca PyYAML, utilizada para carregar e salvar arquivos
# no formato YAML, que será o padrão da apresentação gerada.
import yaml

In [9]:
# Define a classe 'Formatacao' que herda de BaseModel (Pydantic).
# Essa classe serve como modelo para validar e estruturar os dados
# da apresentação que o agente irá gerar.
class Formatacao(BaseModel):
  # Título da apresentação
  title: str
  # Autor da apresentação
  author: str
  # Formato da apresentação (ex: revealjs)
  format: str
  # Tema visual da apresentação (ex: dark, black, white)
  theme: str
  # Define se os elementos aparecerão de forma incremental (True/False)
  incremental: bool

In [11]:
agente_formatador = Agent(
    'google-gla:gemini-2.0-flash',  # Modelo Gemini utilizado

    # Prompt de sistema que instrui o agente a gerar a formatação correta
    # incluindo title, author, format, theme e incremental.
    system_prompt='''
    Você é um criador de apresentações que retorna a formatação
    necessária para apresentações no formato YAML.

    O modelo esperado de saída é:

    ---
    title:"Presentation"
    author: "John Doe"
    format:
      revealjs:
        theme: dark
        incremental: True
    ---

    As opções de tema disponíveis são:
    beige
    blood
    dark
    default
    league
    moon
    night
    serif
    simple
    sky
    solarized

    Você deve inferir corretamente title, author, format, theme e incremental a partir do prompt do usuário.
    '''
)


In [12]:
# Executa o agente de forma síncrona, passando o prompt com tema, autor e título desejados.
result = agente_formatador.run_sync(
    'Quero uma apresentação com o tema escuro, o autor é a Gatito Petshop, e o titulo é Ganhos em vendas de arranhadores'
)

# Exibe a saída gerada pelo agente no console.
# A saída é uma string contendo o YAML com a formatação da apresentação.
print(result.output)

```yaml
---
title: "Ganhos em vendas de arranhadores"
author: "Gatito Petshop"
format:
  revealjs:
    theme: dark
    incremental: True
---
```


In [14]:
# ===============================================
# Função para converter um objeto Pydantic Formatacao em YAML
# ===============================================

def formatar_para_yaml(result_data):
    """
    Recebe um objeto Formatacao e retorna uma string YAML formatada.

    Parâmetros:
    - result_data: objeto Pydantic Formatacao contendo title, author, format, theme e incremental.

    Retorno:
    - String YAML com a estrutura da apresentação.
    """
    # Cria um dicionário no formato esperado pelo YAML
    yaml_data = {
        "title": result_data.title,      # Título da apresentação
        "author": result_data.author,    # Autor da apresentação
        "format": {
            "revealjs": {                # Formato da apresentação
                "theme": result_data.theme,        # Tema visual
                "incremental": result_data.incremental  # Elementos aparecem incrementalmente
            }
        }
    }

    # Importa a biblioteca PyYAML
    import yaml

    # Converte o dicionário em string YAML
    return yaml.dump(
        yaml_data,
        sort_keys=False,         # Mantém a ordem dos campos conforme definido
        default_flow_style=False # Gera YAML em estilo "bloco" (mais legível)
    )

In [16]:
import yaml

# Extrai o YAML da saída do agente
yaml_dict = yaml.safe_load(result.output.split('---')[1])

# Cria o objeto Pydantic Formatacao
result_data = Formatacao(
    title=yaml_dict['title'],
    author=yaml_dict['author'],
    format=list(yaml_dict['format'].keys())[0],
    theme=list(yaml_dict['format'].values())[0]['theme'],
    incremental=list(yaml_dict['format'].values())[0]['incremental']
)

# Agora sim, gera o YAML final formatado
yaml_formatado = formatar_para_yaml(result_data)
print(yaml_formatado)

title: Ganhos em vendas de arranhadores
author: Gatito Petshop
format:
  revealjs:
    theme: dark
    incremental: true



# Avaliando resultado

In [17]:
from pydantic_ai import ModelRetry

In [None]:
# Função para validar manualmente a saída do agente
def valida_resultado_manual(result_data: Formatacao):
    """
    Valida se o título não é o padrão 'Presentation'.
    Caso seja, levanta um erro para indicar que precisa gerar outro.
    """
    if result_data.title == 'Presentation':
        raise ValueError(
            "Você precisa passar um título que tenha relação com gatos "
            "e a apresentação de resultados semestrais da Gatito Petshop."
        )
    return result_data

# Exemplo de uso após criar o objeto Pydantic
result_data = Formatacao(
    title="Presentation",  # exemplo
    author="Gatito Petshop",
    format="revealjs",
    theme="dark",
    incremental=True
)

# Valida manualmente
valida_resultado_manual(result_data)


# Aplicando Agentic RAG

In [21]:
from docling.document_converter import DocumentConverter

In [24]:
url = 'https://raw.githubusercontent.com/allanspadini/curso-pydanticai/main/dados/Relatrio_Mensal_-_Gatito_Petshop.pdf'

In [25]:
converter = DocumentConverter()
result = converter.convert(url)



In [27]:
# Exporta o documento convertido para Markdown
# Usando parênteses para chamar o método corretamente
print(result.document.export_to_markdown())

## Relatório Mensal - Gatito Petshop

Período: Março/2025

## 1. Resumo Executivo

Em março de 2025, a Gatito Petshop registrou um faturamento total de R$ 127.845,00, representando um crescimento de 8,3% em relação ao mesmo período do ano anterior. A categoria de rações continua sendo nosso principal segmento de vendas 62% do faturamento), seguida pelos acessórios como arranhadores 15% e brinquedos 12%. O ticket médio foi de R$ 98,35, com um aumento de 3,7% em relação ao mês anterior.

## 2. Análise de Vendas por Categoria

## 2.1 Rações

Faturamento total: R$ 79.263,90

| Tipo de Ração   |   Unidades Vendidas | Faturamento R$   | %do Total   | Variação Mensal   |
|-----------------|---------------------|--------------------|-------------|-------------------|
| Premium Seca    |                 683 | 38.248,00          | 48,3%       | 5,2%             |
| Super Premium   |                 312 | 26.520,00          | 33,5%       | 7,8%             |
| Úmida           |          

In [29]:
# Define a URL de um arquivo CSV externo que será utilizado no notebook.
# Neste caso, é um CSV com dados de comportamento de gatos em relação a produtos,
# hospedado no GitHub.
url_csv = 'https://raw.githubusercontent.com/allanspadini/curso-pydanticai/refs/heads/main/dados/comportamento_gatos_produtos.csv'

In [31]:
# Utiliza o mesmo 'DocumentConverter' para processar o CSV localizado na URL.
# O resultado será uma estrutura que permite acessar os dados do CSV como texto ou blocos
# que podem ser processados pelo agente ou por outras funções do notebook.

result_csv = converter.convert(url_csv)

In [32]:
# Chama o método `export_to_markdown()` do documento convertido para gerar
# uma representação em Markdown do conteúdo do CSV.
print(result_csv.document.export_to_markdown())

| Produto                   | Reação Mais Comum do Gato     |   Nota Média do Tutor (1 a 5) |   Chance de Recompra (%) | Comentários Frequentes     |
|---------------------------|-------------------------------|-------------------------------|--------------------------|----------------------------|
| Ração Premium Seca        | Come tudo em minutos          |                           4.8 |                       85 | Gato adorou e pede mais    |
| Ração Super Premium       | Cheira e come devagar         |                           4.6 |                       78 | Muito boa, mas cara        |
| Brinquedo Interativo      | Brinca por 20 minutos direto  |                           4.9 |                       92 | Diversão garantida         |
| Brinquedo com Catnip      | Rola no chão e mia            |                           4.7 |                       88 | Impressionado com a reação |
| Arranhador Torre Luxo     | Sobe e arranha por horas      |                           4.5 |       

# Gerando Embedddings

In [33]:
from fastembed import TextEmbedding

In [34]:
# Obtém o conteúdo do PDF convertido em Markdown
texto = result.document.export_to_markdown()

# Define o tamanho máximo de cada "página" ou bloco de texto
tamanho_pagina = 1800

# Cria um dicionário para armazenar os chunks
chunks = {}

# Itera pelo texto, cortando em blocos de 'tamanho_pagina' caracteres
for i in range(0, len(texto), tamanho_pagina):
    chave = f"page_{(i // tamanho_pagina) + 1}"  # Nome da página
    chunk = texto[i:i + tamanho_pagina]          # Extrai o bloco de texto
    chunks[chave] = chunk.strip()                # Remove espaços extras e armazena

# Exibe os primeiros 200 caracteres de cada chunk para conferência
for k, v in chunks.items():
    print(f"\n=={k} ==\n{v[:200]}...\n")


==page_1 ==
## Relatório Mensal - Gatito Petshop

Período: Março/2025

## 1. Resumo Executivo

Em março de 2025, a Gatito Petshop registrou um faturamento total de R$ 127.845,00, representando um crescimento de 8...


==page_2 ==
-------------|---------------------|--------------------|-------------|-------------------|
| Torre Luxo      |                  18 | 7.290,00           | 38,0%       | 12,5%            |
| Parede Co...


==page_3 ==
Previsão de Reposição   |
|----------------------|--------------------|-------------------------|---------------|-------------------------|
| Rações Premium       |                420 | 23.520,00     ...


==page_4 ==
cupom "GATITO10" foi utilizado em 87 compras online
- A amostra grátis de ração úmida na compra de ração seca converteu 35% para compra do produto completo

## 6. Vendas Online vs. Loja Física

| Cana...


==page_5 ==
Concorrência

| Concorrente    | Participação de Mercado   | Variação   | Principais Diferenciais                  

In [35]:
len(chunks)

7

In [36]:
# Cria uma lista 'document' contendo:
# 1. Todos os chunks do PDF convertidos para Markdown
# 2. O conteúdo do CSV convertido para Markdown como um único bloco
document = list(chunks.values()) + [result_csv.document.export_to_markdown()]

In [38]:
# Cria uma instância do modelo de embeddings (provavelmente da biblioteca 'fastembed')
# que será utilizada para gerar vetores representativos dos textos do documento.
embedding_model = TextEmbedding()

In [39]:
# Passa cada item da lista 'document' pelo modelo de embeddings,
# que retorna um gerador de vetores representativos.
embeddings_generator = embedding_model.embed(document)

# Converte o gerador em uma lista de embeddings pronta para uso
embeddings_list = list(embeddings_generator)

In [40]:
len(embeddings_list)

8

In [41]:
embeddings_list

[array([-1.04808304e-02, -2.34818608e-02,  1.77480727e-02,  2.25751232e-02,
         5.07040182e-03, -4.01365161e-02, -9.48741846e-03,  4.83504981e-02,
        -1.35610746e-02, -2.60420647e-02, -2.94956714e-02, -8.24065357e-02,
         9.44741536e-03,  4.89105433e-02,  4.36567925e-02, -5.56310751e-02,
         1.99482478e-02, -5.96847311e-02,  1.45878233e-02, -1.43878069e-02,
         7.36591741e-02, -5.57910874e-02, -4.63503413e-02,  8.55067803e-04,
         3.01890597e-02,  1.87881552e-02, -5.00573032e-02,  5.71711967e-03,
        -1.91481840e-02, -1.60652742e-01, -9.95412283e-03, -5.39776124e-02,
        -2.38418896e-02, -4.16833051e-02,  3.72562855e-02, -1.50545267e-02,
        -7.50992894e-02, -4.09365781e-02,  2.18150634e-02,  4.26700488e-02,
         4.20033280e-03,  2.63354206e-03, -6.42717630e-02,  2.93356590e-02,
         8.81403219e-03, -6.99388795e-03, -1.79614238e-02,  4.57636267e-02,
        -1.68680046e-02,  5.26708402e-02, -4.23500240e-02,  1.71080232e-02,
         2.4

# Buscando em uma base vetorial

In [42]:
# Importa o cliente Qdrant e modelos auxiliares
from qdrant_client import QdrantClient, models

# Cria uma instância do QdrantClient apontando para um banco local
# chamado "qdrant_db". Esse banco armazenará os vetores de embeddings
# gerados para consulta semântica futura.
client = QdrantClient(path="qdrant_db")

In [43]:
list(chunks.keys())

['page_1', 'page_2', 'page_3', 'page_4', 'page_5', 'page_6', 'page_7']

In [44]:
chunks['page_1']

'## Relatório Mensal - Gatito Petshop\n\nPeríodo: Março/2025\n\n## 1. Resumo Executivo\n\nEm março de 2025, a Gatito Petshop registrou um faturamento total de R$ 127.845,00, representando um crescimento de 8,3% em relação ao mesmo período do ano anterior. A categoria de rações continua sendo nosso principal segmento de vendas \ue08162% do faturamento), seguida pelos acessórios como arranhadores \ue08115%\ue082 e brinquedos \ue08112%\ue082. O ticket médio foi de R$ 98,35, com um aumento de 3,7% em relação ao mês anterior.\n\n## 2. Análise de Vendas por Categoria\n\n## 2.1 Rações\n\nFaturamento total: R$ 79.263,90\n\n| Tipo de Ração   |   Unidades Vendidas | Faturamento \ue081R$\ue082   | %do Total   | Variação Mensal   |\n|-----------------|---------------------|--------------------|-------------|-------------------|\n| Premium Seca    |                 683 | 38.248,00          | 48,3%       | \ue09d5,2%             |\n| Super Premium   |                 312 | 26.520,00          | 33,5%

In [45]:
# Extrai o conteúdo do CSV convertido para Markdown
texto_csv = result_csv.document.export_to_markdown()

# Cria uma lista de dicionários contendo a origem de cada chunk de texto do PDF
metadata = [{"source": chunks[f'page_{i+1}']} for i in range(7)]

# Adiciona o CSV como um novo item de metadado
metadata.append({"source": texto_csv})

In [46]:
ids = list(range(8))

In [47]:
points = [
    models.PointStruct(id=id, vector=vector, payload=payload)
    for id, (vector, payload) in zip(ids, zip(embeddings_list, metadata))
]

In [48]:
# A coleção "relatorios" será usada para armazenar os vetores de embeddings
# gerados a partir dos textos do PDF e CSV.

client.create_collection(
    collection_name="relatorios",
    vectors_config={
        "size": 384,        # Dimensão dos vetores de embeddings
        "distance": "Cosine"  # Métrica de similaridade utilizada (cosseno)
    }
)

True

In [49]:
# Utiliza o método `upsert` para adicionar os vetores e seus metadados
# na coleção "relatorios". O parâmetro `wait=True` garante que a operação
# seja concluída antes de prosseguir.
client.upsert(
    collection_name="relatorios",
    wait=True,
    points=points
)

UpdateResult(operation_id=0, status=<UpdateStatus.COMPLETED: 'completed'>)

In [50]:
# O modelo de embeddings é utilizado para transformar a pergunta
# "Qual a reação mais comum do Gato?" em um vetor numérico
# que pode ser comparado com os embeddings armazenados no Qdrant.
query_embedding = embedding_model.embed("Qual a reação Mais comum do Gato?")

In [51]:
# A função `embed` retorna um gerador, então precisamos convertê-lo
# em lista para poder usá-lo na busca semântica no Qdrant.
query_embedding = list(query_embedding)

In [52]:
query_embedding[0]

array([-2.03037858e-02,  1.47073148e-02,  6.43992051e-02,  4.52491939e-02,
       -1.31755788e-02, -2.43088435e-02, -6.68725278e-03, -1.76116452e-02,
       -2.31020208e-02, -4.46921997e-02, -4.77158874e-02, -6.20651320e-02,
        2.03037858e-02,  6.73168004e-02,  3.25444080e-02, -3.71595100e-02,
        2.22300598e-03,  2.69611999e-02,  1.77442618e-02, -3.15365158e-02,
        5.30736446e-02,  2.55819745e-02, -4.21989858e-02, -1.98794082e-02,
       -8.00348446e-03, -2.64572520e-02, -4.02495032e-03, -2.06618533e-02,
       -3.01042423e-02, -1.06836900e-01, -2.95737702e-02,  6.07057987e-03,
        1.63119901e-02,  5.64421378e-02, -1.52643090e-02, -2.35529225e-02,
       -1.92163195e-02, -2.47730054e-02, -2.01711673e-02,  8.48223493e-02,
        2.46271268e-02, -1.91765353e-02, -7.23562762e-02, -1.66435353e-02,
        1.57815181e-02, -1.93887223e-02, -9.56837460e-03,  3.45336758e-02,
        8.26872047e-03, -5.92221390e-04, -6.86297147e-03, -7.89075904e-03,
       -8.30850564e-03,  

In [56]:
search_result = client.search(
    collection_name="relatorios",
    query_vector=query_embedding[0],  # vetor individual
    limit=1
)

print(search_result)

[ScoredPoint(id=7, version=0, score=0.7522109746932983, payload={'source': '| Produto                   | Reação Mais Comum do Gato     |   Nota Média do Tutor (1 a 5) |   Chance de Recompra (%) | Comentários Frequentes     |\n|---------------------------|-------------------------------|-------------------------------|--------------------------|----------------------------|\n| Ração Premium Seca        | Come tudo em minutos          |                           4.8 |                       85 | Gato adorou e pede mais    |\n| Ração Super Premium       | Cheira e come devagar         |                           4.6 |                       78 | Muito boa, mas cara        |\n| Brinquedo Interativo      | Brinca por 20 minutos direto  |                           4.9 |                       92 | Diversão garantida         |\n| Brinquedo com Catnip      | Rola no chão e mia            |                           4.7 |                       88 | Impressionado com a reação |\n| Arranhador Torre

  search_result = client.search(


In [58]:
search_result[0].payload['source']

'| Produto                   | Reação Mais Comum do Gato     |   Nota Média do Tutor (1 a 5) |   Chance de Recompra (%) | Comentários Frequentes     |\n|---------------------------|-------------------------------|-------------------------------|--------------------------|----------------------------|\n| Ração Premium Seca        | Come tudo em minutos          |                           4.8 |                       85 | Gato adorou e pede mais    |\n| Ração Super Premium       | Cheira e come devagar         |                           4.6 |                       78 | Muito boa, mas cara        |\n| Brinquedo Interativo      | Brinca por 20 minutos direto  |                           4.9 |                       92 | Diversão garantida         |\n| Brinquedo com Catnip      | Rola no chão e mia            |                           4.7 |                       88 | Impressionado com a reação |\n| Arranhador Torre Luxo     | Sobe e arranha por horas      |                           4.5 |