# Semana de Inovção 2025

![Imagem Topo](https://drive.google.com/uc?export=view&id=1Jh8mHlQEBU-GK_SQPLAWQgUDDsfrC0px)

**Oficina prática de 2 horas** que utiliza o **Google Colab**, dados abertos do PRONAF e a **API da OpenAI** para análises automatizadas.  

Os participantes aprenderão a aplicar técnicas de inteligência artificial na análise de dados de crédito rural familiar, identificando **insights de crédito verde** para orientar políticas públicas sustentáveis.

---

### Realizado por
- Marcelo Cabreira Bastos  
- Ernesto Galindo  

---

### Informações importantes
- A inscrição estará disponível **um dia antes da atividade**.  
- Lembre-se de **favoritar** suas atividades de preferência.  
- É necessário comparecer com pelo menos **10 minutos de antecedência**; após esse horário, a vaga poderá ser destinada à fila de espera.  
- Caso necessite de alguma assistência, solicite na **Estação Inclusiva**, localizada no térreo.  

---

⏰ **Início:** 01/10/2025 - 16h30  
⏰ **Término:** 01/10/2025 - 18h30  


# 1. Apresentação

## Quem é quem?


> Ernesto Galindo

> Marcelo Bastos

## Sobre o que vamos conversar hoje?



> Agricultura Familiar

> Pronaf

> Análise de Dados

## Ciaxa de Ferramentas

> Colab
>
> Google Drive - https://drive.google.com/drive/folders/1vUOhLetsh0MjPttf4rW4Tg9BCfRDr6Df?usp=sharing
>
> Sicor - Banco Central - https://www.bcb.gov.br/estabilidadefinanceira/creditorural
>
> Github - https://github.com/marcelo7bastos/semana_inovacao_enap_2025
>
> API da OpenAI - https://openai.com/
>
> WhatsAPP (apenas para compartilhar os links)


# 2. Conhecendo os dados


## Análise Exploratória dos Dados

In [2]:
# Solução para carregar arquivos grander (maior que 100MB) direto do google drive

# 1. Instale a biblioteca gdown (o '-q' é para uma instalação mais limpa)
#!pip install gdown -q

import pandas as pd
import gdown
import pyarrow.parquet as pq

# 2. Use o ID do seu arquivo para criar a URL de download
# Link do arquivo no google drive: https://drive.google.com/file/d/1tDeXhOOJAQY_cKjzggOEhff0rGRmZTHs/view?usp=drive_link
# O ID é: 1tDeXhOOJAQY_cKjzggOEhff0rGRmZTHs
file_id = '1tDeXhOOJAQY_cKjzggOEhff0rGRmZTHs'
url_gdown = f'https://drive.google.com/uc?id={file_id}'

# 3. Defina um nome para o arquivo que será salvo no ambiente do Colab
output_filename = 'pronaf_local.parquet'

# 4. Faça o download com gdown (ele vai lidar com a página de aviso)
print(f"Baixando o arquivo '{output_filename}' do Google Drive... Isso pode levar um momento.")
gdown.download(url_gdown, output_filename, quiet=False)
print("Download concluído com sucesso!")

# 5. Agora, carregue o arquivo LOCAL que acabou de ser baixado
try:
    df_pronaf_semana_inovacao = pd.read_parquet(output_filename)
    print("\nArquivo Parquet carregado com sucesso para o DataFrame!")
    display(df_pronaf_semana_inovacao.head(5))
except Exception as e:
    print(f"\nOcorreu um erro ao ler o arquivo Parquet local: {e}")

Baixando o arquivo 'pronaf_local.parquet' do Google Drive... Isso pode levar um momento.


Downloading...
From (original): https://drive.google.com/uc?id=1tDeXhOOJAQY_cKjzggOEhff0rGRmZTHs
From (redirected): https://drive.google.com/uc?id=1tDeXhOOJAQY_cKjzggOEhff0rGRmZTHs&confirm=t&uuid=f6ca15b1-3ec6-47d6-b7c2-388c5aee5756
To: /content/pronaf_local.parquet
100%|██████████| 142M/142M [00:01<00:00, 90.7MB/s]


Download concluído com sucesso!

Arquivo Parquet carregado com sucesso para o DataFrame!


Unnamed: 0,REF_BACEN,NU_ORDEM,CD_ESTADO,CD_EMPREENDIMENTO,CD_PROGRAMA,CD_TIPO_IRRIGACAO,CD_TIPO_AGRICULTURA,CD_TIPO_CULTIVO,CD_TIPO_INTGR_CONSOR,VL_PARC_CREDITO,...,VL_TAXA_JUROS,FLAG_VERDE_SUBPROGRAMA,DESCRICAO_TIPO_IRRIGACAO,FLAG_VERDE_TIPO_IRRIGACAO,DESCRICAO_PROGRAMA,FLAG_VERDE_PROGRAMA,DESCRICAO_TIPO_INTGR_CONSOR,FLAG_VERDE_TIPO_INTGR_CONSOR,DESCRICAO_TIPO_AGRICULTURA,FLAG_VERDE_TIPO_AGRICULTURA
1,515269303,1,RS,12017100000031,1,1,0,3,2,24845.33,...,8.0,Não,Não Irrigado,Sim,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Lavoura Solteira,Não,Não se aplica,Não
2,515269307,1,RS,22371300951408,1,0,0,0,0,53965.24,...,8.0,Não,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não
3,515269309,1,PE,22371300190408,1,0,0,0,0,40026.6,...,8.0,Não,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não
4,515269312,1,GO,22371300951408,1,0,0,0,0,49366.26,...,8.0,Não,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não
5,515269313,1,GO,22371300190408,1,0,0,0,0,30314.93,...,8.0,Não,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não


In [3]:
# imprimir as informações gerais
df_pronaf_semana_inovacao.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4630235 entries, 1 to 5941287
Data columns (total 42 columns):
 #   Column                        Dtype  
---  ------                        -----  
 0   REF_BACEN                     object 
 1   NU_ORDEM                      object 
 2   CD_ESTADO                     object 
 3   CD_EMPREENDIMENTO             int64  
 4   CD_PROGRAMA                   Int64  
 5   CD_TIPO_IRRIGACAO             Int64  
 6   CD_TIPO_AGRICULTURA           Int64  
 7   CD_TIPO_CULTIVO               object 
 8   CD_TIPO_INTGR_CONSOR          Int64  
 9   VL_PARC_CREDITO               object 
 10  CD_SUBPROGRAMA                Int64  
 11  ANO                           int32  
 12  SAFRA                         object 
 13  CD_IBGE_MUNICIPIO             object 
 14  CD_CPF_CNPJ                   object 
 15  SEXO_BIOLOGICO                object 
 16  CD_TIPO_BENEFICIARIO          Int64  
 17  FINALIDADE                    object 
 18  MODALIDADE                 

### Limpeza e Tratamento de dados

In [4]:
# Filtrar dataframe para considerar CD_PROGRAMA == 1
# Objetivo: garantir operações com Agricultores Familiares
df_pronaf_semana_inovacao = df_pronaf_semana_inovacao[df_pronaf_semana_inovacao['CD_PROGRAMA'] == 1]

# Criar chave composta contendo "REF_BACEN", "NU_ORDEM"
df_pronaf_semana_inovacao['chave_comp'] = df_pronaf_semana_inovacao['REF_BACEN'].astype(str) + '_' + df_pronaf_semana_inovacao['NU_ORDEM'].astype(str)

In [5]:
# Limpeza e declaração de tipo adequada
# Boa prática: fazer uma cópia do dataframe original antes da limpeza dos dados,
# mas podemos enfrentar problema de memória ram!

# seleção de variáveis - remover lista:
colunas_de_interesse = [
    #"REF_BACEN",
    #"NU_ORDEM",
    "CD_ESTADO",
    #"CD_EMPREENDIMENTO",
    #"CD_PROGRAMA",
    #"CD_TIPO_IRRIGACAO",
    #"CD_TIPO_AGRICULTURA",
    #"CD_TIPO_CULTIVO",
    #"CD_TIPO_INTGR_CONSOR",
    "VL_PARC_CREDITO",
    #"CD_SUBPROGRAMA",
    "ANO",
    "SAFRA",
    "CD_IBGE_MUNICIPIO",
    "CD_CPF_CNPJ",
    "SEXO_BIOLOGICO",
    #"CD_TIPO_BENEFICIARIO",
    "FINALIDADE",
    "MODALIDADE",
    "PRODUTO",
    "CESTA_SAFRA",
    "CONSORCIO",
    #"CD_TIPO_CULTURA",
    "DESCRICAO_TIPO_CULTURA",
    "FLAG_VERDE_TIPO_CULTURA",
    "FLAG_VERDE_CONSORCIO",
    "FLAG_VERDE_CESTA_SAFRA",
    "FLAG_VERDE_PRODUTO",
    "FLAG_VERDE_MODALIDADE",
    "DESCRICAO_TIPO_BENEFICIARIO",
    "FLAG_VERDE_TIPO_BENEFICIARIO",
    "DESCRICAO_SUBPROGRAMA",
    "VL_TAXA_JUROS",
    "FLAG_VERDE_SUBPROGRAMA",
    "DESCRICAO_TIPO_IRRIGACAO",
    "FLAG_VERDE_TIPO_IRRIGACAO",
    "DESCRICAO_PROGRAMA",
    "FLAG_VERDE_PROGRAMA",
    "DESCRICAO_TIPO_INTGR_CONSOR",
    "FLAG_VERDE_TIPO_INTGR_CONSOR",
    "DESCRICAO_TIPO_AGRICULTURA",
    "FLAG_VERDE_TIPO_AGRICULTURA",
    "chave_comp",
]


# seleciona apenas as colunas de interesse a partir do DataFrame base
df_pronaf_semana_inovacao = df_pronaf_semana_inovacao[colunas_de_interesse]

# imprimir as informações gerais
df_pronaf_semana_inovacao.info()



<class 'pandas.core.frame.DataFrame'>
Index: 4597102 entries, 1 to 5941287
Data columns (total 33 columns):
 #   Column                        Dtype  
---  ------                        -----  
 0   CD_ESTADO                     object 
 1   CD_TIPO_CULTIVO               object 
 2   VL_PARC_CREDITO               object 
 3   ANO                           int32  
 4   SAFRA                         object 
 5   CD_IBGE_MUNICIPIO             object 
 6   CD_CPF_CNPJ                   object 
 7   SEXO_BIOLOGICO                object 
 8   FINALIDADE                    object 
 9   MODALIDADE                    object 
 10  PRODUTO                       object 
 11  CESTA_SAFRA                   object 
 12  CONSORCIO                     object 
 13  DESCRICAO_TIPO_CULTURA        object 
 14  FLAG_VERDE_TIPO_CULTURA       object 
 15  FLAG_VERDE_CONSORCIO          object 
 16  FLAG_VERDE_CESTA_SAFRA        object 
 17  FLAG_VERDE_PRODUTO            object 
 18  FLAG_VERDE_MODALIDADE      

In [7]:
# em df_pronaf_semana_inovacao_limpo variável VL_PARC_CREDITO para o tipo float64
df_pronaf_semana_inovacao['VL_PARC_CREDITO'] = df_pronaf_semana_inovacao['VL_PARC_CREDITO'].astype('float64')

#Substituir NaN em Somente em colunas de texto/categóricas
cols_obj = df_pronaf_semana_inovacao.select_dtypes(include='object').columns
df_pronaf_semana_inovacao[cols_obj] = df_pronaf_semana_inovacao[cols_obj].fillna("não informado")

#Substituir NaN em Somente em colunas numéricas com valor: 0)
cols_num = df_pronaf_semana_inovacao.select_dtypes(include='number').columns
df_pronaf_semana_inovacao[cols_num] = df_pronaf_semana_inovacao[cols_num].fillna(0)

# imprimir as informações gerais
df_pronaf_semana_inovacao.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4597102 entries, 1 to 5941287
Data columns (total 33 columns):
 #   Column                        Dtype  
---  ------                        -----  
 0   ANO                           int32  
 1   SAFRA                         object 
 2   CD_ESTADO                     object 
 3   CD_IBGE_MUNICIPIO             object 
 4   CD_CPF_CNPJ                   object 
 5   chave_comp                    object 
 6   DESCRICAO_PROGRAMA            object 
 7   DESCRICAO_SUBPROGRAMA         object 
 8   SEXO_BIOLOGICO                object 
 9   DESCRICAO_TIPO_BENEFICIARIO   object 
 10  VL_PARC_CREDITO               float64
 11  VL_TAXA_JUROS                 float64
 12  CD_TIPO_CULTIVO               object 
 13  DESCRICAO_TIPO_CULTURA        object 
 14  PRODUTO                       object 
 15  CONSORCIO                     object 
 16  CESTA_SAFRA                   object 
 17  MODALIDADE                    object 
 18  FINALIDADE                 

In [9]:
# Vamos reordenar as colunas para facilitar a leitura?
nova_ordem = [
    # Identificação da Operação
    "chave_comp", "ANO", "SAFRA", "CD_ESTADO", "CD_IBGE_MUNICIPIO", "CD_CPF_CNPJ",

    # Programas
    "DESCRICAO_PROGRAMA", "DESCRICAO_SUBPROGRAMA",

    # Beneficiário - Agricult@e Familiar
    "SEXO_BIOLOGICO", "DESCRICAO_TIPO_BENEFICIARIO",

    # Crédito
    "VL_PARC_CREDITO", "VL_TAXA_JUROS",

    # Cultura / Produção
    "CD_TIPO_CULTIVO", "DESCRICAO_TIPO_CULTURA", "PRODUTO", "CONSORCIO",
    "CESTA_SAFRA", "MODALIDADE", "FINALIDADE", "DESCRICAO_TIPO_IRRIGACAO",
    "DESCRICAO_TIPO_INTGR_CONSOR", "DESCRICAO_TIPO_AGRICULTURA",

    # Flags verdes
    "FLAG_VERDE_TIPO_CULTURA", "FLAG_VERDE_CONSORCIO", "FLAG_VERDE_CESTA_SAFRA",
    "FLAG_VERDE_PRODUTO", "FLAG_VERDE_MODALIDADE", "FLAG_VERDE_TIPO_BENEFICIARIO",
    "FLAG_VERDE_SUBPROGRAMA", "FLAG_VERDE_TIPO_IRRIGACAO", "FLAG_VERDE_PROGRAMA",
    "FLAG_VERDE_TIPO_INTGR_CONSOR", "FLAG_VERDE_TIPO_AGRICULTURA",
]

# Reordenar
df_pronaf_semana_inovacao = df_pronaf_semana_inovacao.reindex(columns=nova_ordem)
df_pronaf_semana_inovacao.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4597102 entries, 1 to 5941287
Data columns (total 33 columns):
 #   Column                        Dtype  
---  ------                        -----  
 0   chave_comp                    object 
 1   ANO                           int32  
 2   SAFRA                         object 
 3   CD_ESTADO                     object 
 4   CD_IBGE_MUNICIPIO             object 
 5   CD_CPF_CNPJ                   object 
 6   DESCRICAO_PROGRAMA            object 
 7   DESCRICAO_SUBPROGRAMA         object 
 8   SEXO_BIOLOGICO                object 
 9   DESCRICAO_TIPO_BENEFICIARIO   object 
 10  VL_PARC_CREDITO               float64
 11  VL_TAXA_JUROS                 float64
 12  CD_TIPO_CULTIVO               object 
 13  DESCRICAO_TIPO_CULTURA        object 
 14  PRODUTO                       object 
 15  CONSORCIO                     object 
 16  CESTA_SAFRA                   object 
 17  MODALIDADE                    object 
 18  FINALIDADE                 

In [10]:
# Vamos criar uma flag composta?? Para cada registro, se tiver ao menos uma flag verde, marcamos como flag verde

lista_flags = [
    'FLAG_VERDE_TIPO_CULTURA',
    'FLAG_VERDE_CONSORCIO',
    'FLAG_VERDE_CESTA_SAFRA',
    'FLAG_VERDE_PRODUTO',
    'FLAG_VERDE_MODALIDADE',
    'FLAG_VERDE_TIPO_BENEFICIARIO',
    'FLAG_VERDE_SUBPROGRAMA',
    'FLAG_VERDE_TIPO_IRRIGACAO',
    #'FLAG_VERDE_PROGRAMA',
    'FLAG_VERDE_TIPO_INTGR_CONSOR',
    'FLAG_VERDE_TIPO_AGRICULTURA',
]

'''
Quero criar no meu dataframe df_pronaf_semana_inovacao uma nova coluna chamada FLAG_VERDE_AGREGADA.
A regra é a seguinte:
- Tenho uma lista de colunas chamada lista_flags.
- Para cada linha, preciso verificar se pelo menos uma dessas colunas tem o valor "Sim", mesmo que esteja escrito de formas diferentes (com letras maiúsculas, minúsculas ou com espaços).
- Se pelo menos uma coluna tiver "Sim", a nova coluna deve receber o valor "Sim".

Caso contrário, deve receber "Não".
'''

df_pronaf_semana_inovacao['FLAG_VERDE_AGREGADA'] = (
    df_pronaf_semana_inovacao[lista_flags]
      .apply(lambda c: c.astype('string').str.strip().str.casefold())
      .eq('sim').any(axis=1)
      .map({True: 'Sim', False: 'Não'})
)

In [11]:
# imprimir as informações gerais
df_pronaf_semana_inovacao.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4597102 entries, 1 to 5941287
Data columns (total 34 columns):
 #   Column                        Dtype  
---  ------                        -----  
 0   chave_comp                    object 
 1   ANO                           int32  
 2   SAFRA                         object 
 3   CD_ESTADO                     object 
 4   CD_IBGE_MUNICIPIO             object 
 5   CD_CPF_CNPJ                   object 
 6   DESCRICAO_PROGRAMA            object 
 7   DESCRICAO_SUBPROGRAMA         object 
 8   SEXO_BIOLOGICO                object 
 9   DESCRICAO_TIPO_BENEFICIARIO   object 
 10  VL_PARC_CREDITO               float64
 11  VL_TAXA_JUROS                 float64
 12  CD_TIPO_CULTIVO               object 
 13  DESCRICAO_TIPO_CULTURA        object 
 14  PRODUTO                       object 
 15  CONSORCIO                     object 
 16  CESTA_SAFRA                   object 
 17  MODALIDADE                    object 
 18  FINALIDADE                 

# 1° Desafio: consultar alguma variável de interesse

> no próximo chunk, clique sobre "generate" e faça sua própria consulta aos dados usando linguagem natural

Ex.: quantas operações únicas (chave_comp) no ano de 2024

# 3. Utilizando Funções de Consulta

## consulta_credito_verde

Crie uma função chamada 'consulta_credito_verde'.
A função deve receber 'um' argumento: um dataframe pandas 'df'
A função deve ter um type hint de retorno indicando que ela devolve uma string.

Passo 1: Agrupar e agregar
Se o dataframe filtrado não estiver vazio, agrupe os dados pelas colunas "ANO" e "FLAG_VERDE_AGREGADA".
Após agrupar, calcule as seguintes agregações:
- A SOMA da coluna "VL_PARC_CREDITO", e renomeie a coluna resultante para "Soma_VL_PARC_CREDITO".
- A CONTAGEM da coluna "chave_comp", e renomeie para "Quantidade_Operacoes".
- A CONTAGEM DE VALORES ÚNICOS da coluna "CD_CPF_CNPJ", e renomeie para "Quantidade_Beneficiarios".
Após a agregação, transforme o resultado de volta em um dataframe padrão.

Passo 2: Formatar a saída
Converta o dataframe agregado para uma string no formato Markdown.
Na conversão para Markdown, especifique que o índice não deve ser incluído e que números de ponto flutuante devem ser formatados com duas casas decimais.

Passo 3: Retornar o resultado final
Por fim, a função deve retornar uma string formatada contendo um título, como "Resumo dos dados do PRONAF com alguma indicação de que é uma operação verde:", seguido por duas quebras de linha e a tabela em Markdown.


> Obs.: podemos usar uma ferramenta para facilitar nossa visualização: https://dillinger.io/


## consulta_pronaf_por_estado

In [15]:
# Crie uma função chamada 'consulta_pronaf_por_estado'.
# A função deve receber dois argumentos: um dataframe pandas 'df' e uma string 'cd_estado'.
# A função deve ter um type hint de retorno indicando que ela devolve uma string.

# Passo 1: Filtrar os dados
# Dentro da função, primeiro filtre o dataframe 'df'.
# O critério do filtro é manter apenas as linhas onde a coluna "CD_ESTADO" seja igual ao argumento 'cd_estado' convertido para letras maiúsculas.

# Passo 2: Lidar com estado não encontrado
# Adicione uma verificação: se o dataframe filtrado estiver vazio, a função deve retornar uma string de aviso, informando que nenhum dado foi encontrado para o estado.

# Passo 3: Agrupar e agregar
# Se o dataframe filtrado não estiver vazio, agrupe os dados pelas colunas "ANO" e "SEXO_BIOLOGICO".
# Após agrupar, calcule as seguintes agregações:
# - A SOMA da coluna "VL_PARC_CREDITO", e renomeie a coluna resultante para "Soma_VL_PARC_CREDITO".
# - A CONTAGEM da coluna "CD_CPF_CNPJ", e renomeie para "Quantidade_Operacoes".
# - A CONTAGEM DE VALORES ÚNICOS da coluna "CD_CPF_CNPJ", e renomeie para "Quantidade_Beneficiarios".
# Após a agregação, transforme o resultado de volta em um dataframe padrão.

# Passo 4: Formatar a saída
# Converta o dataframe agregado para uma string no formato Markdown.
# Na conversão para Markdown, especifique que o índice não deve ser incluído e que números de ponto flutuante devem ser formatados com duas casas decimais.

# Passo 5: Retornar o resultado final
# Por fim, a função deve retornar uma string formatada contendo um título, como "Resumo dos dados do PRONAF para o estado [NOME DO ESTADO]:", seguido por duas quebras de linha e a tabela em Markdown.

def consulta_pronaf_por_estado(df: pd.DataFrame, cd_estado: str) -> str:
    """Resumo do PRONAF por UF em Markdown."""
    df_estado = df[df["CD_ESTADO"] == cd_estado.upper()]

    if df_estado.empty:
        return (
            f"Nenhum dado encontrado para o estado '{cd_estado}'. "
            "Verifique o código UF."
        )

    resumo = (
        df_estado
        .groupby(["ANO", "SEXO_BIOLOGICO", "FLAG_VERDE_AGREGADA"])
        .agg(
            Soma_VL_PARC_CREDITO=("VL_PARC_CREDITO", "sum"),
            Quantidade_Operacoes=("CD_CPF_CNPJ", "count"),
            Quantidade_Beneficiarios=("CD_CPF_CNPJ", "nunique"),
        )
        .reset_index()
    )

    tabela = resumo.to_markdown(index=False, floatfmt=".2f")
    return f"Resumo dos dados do PRONAF para o estado {cd_estado.upper()}:\n\n{tabela}"

In [17]:
# testar a função consulta_pronaf_por_estado utilizando o estado do Minas Gerais
consulta_pronaf_por_estado(df_pronaf_semana_inovacao, 'AL')

'Resumo dos dados do PRONAF para o estado AL:\n\n|   ANO | SEXO_BIOLOGICO   | FLAG_VERDE_AGREGADA   |   Soma_VL_PARC_CREDITO |   Quantidade_Operacoes |   Quantidade_Beneficiarios |\n|------:|:-----------------|:----------------------|-----------------------:|-----------------------:|---------------------------:|\n|  2023 | Feminino         | Não                   |           168865271.07 |                  16618 |                      13217 |\n|  2023 | Feminino         | Sim                   |            11174188.32 |                   1033 |                        922 |\n|  2023 | Masculino        | Não                   |           268490595.79 |                  17137 |                      13152 |\n|  2023 | Masculino        | Sim                   |            35900347.55 |                   1365 |                       1182 |\n|  2023 | não informado    | Não                   |            52521208.30 |                    522 |                          2 |\n|  2023 | não inform

## consulta_pronaf_subprograma_por_estado

In [16]:
# Crie uma função chamada 'consulta_pronaf_subprograma_por_estado'.
# A função deve receber dois argumentos: um dataframe pandas 'df' e uma string 'cd_estado'.
# A função deve ter um type hint de retorno indicando que ela devolve uma string.

# Passo 1: Filtrar os dados
# Dentro da função, primeiro filtre o dataframe 'df'.
# O critério do filtro é manter apenas as linhas onde a coluna "CD_ESTADO" seja igual ao argumento 'cd_estado' convertido para letras maiúsculas.

# Passo 2: Lidar com estado não encontrado
# Adicione uma verificação: se o dataframe filtrado estiver vazio, a função deve retornar uma string de aviso, informando que nenhum dado foi encontrado para o estado.

# Passo 3: Agrupar e agregar
# Se o dataframe filtrado não estiver vazio, agrupe os dados pelas colunas "ANO" e "DESCRICAO_SUBPROGRAMA".
# Após agrupar, calcule as seguintes agregações:
# - A SOMA da coluna "VL_PARC_CREDITO", e renomeie a coluna resultante para "Soma_VL_PARC_CREDITO".
# - A CONTAGEM da coluna "CD_CPF_CNPJ", e renomeie para "Quantidade_Operacoes".
# - A CONTAGEM DE VALORES ÚNICOS da coluna "CD_CPF_CNPJ", e renomeie para "Quantidade_Beneficiarios".
# Após a agregação, transforme o resultado de volta em um dataframe padrão.

# Passo 4: Formatar a saída
# Converta o dataframe agregado para uma string no formato Markdown.
# Na conversão para Markdown, especifique que o índice não deve ser incluído e que números de ponto flutuante devem ser formatados com duas casas decimais.

# Passo 5: Retornar o resultado final
# Por fim, a função deve retornar uma string formatada contendo um título, como "Resumo dos dados do PRONAF para o estado [NOME DO ESTADO]:", seguido por duas quebras de linha e a tabela em Markdown.

def consulta_pronaf_subprograma_por_estado(df: pd.DataFrame, cd_estado: str) -> str:
    """Resumo do PRONAF por UF em Markdown."""
    df_estado = df[df["CD_ESTADO"].astype(str).str.upper() == cd_estado.upper()]

    # Passo 2: Lidar com estado não encontrado
    if df_estado.empty:
        return f"Nenhum dado encontrado para o estado '{cd_estado}'. Verifique o código UF."

    # Passo 3: Agrupar e agregar
    resumo = (
        df_estado
        .groupby(["ANO", "DESCRICAO_SUBPROGRAMA", "FLAG_VERDE_AGREGADA"], dropna=False)
        .agg(
            Soma_VL_PARC_CREDITO=("VL_PARC_CREDITO", "sum"),
            Quantidade_Operacoes=("CD_CPF_CNPJ", "count"),
            Quantidade_Beneficiarios=("CD_CPF_CNPJ", "nunique"),
        )
        .reset_index()
    )

    # Passo 4: Formatar a saída
    tabela = resumo.to_markdown(index=False, floatfmt=".2f")

    # Passo 5: Retornar o resultado final
    return f"Resumo dos dados do PRONAF para o estado {cd_estado.upper()}:\n\n{tabela}"

In [18]:
# testar a função consulta_pronaf_subprograma_por_estado utilizando o estado do Minas Gerais
consulta_pronaf_subprograma_por_estado(df_pronaf_semana_inovacao, 'MG')

'Resumo dos dados do PRONAF para o estado MG:\n\n|   ANO | DESCRICAO_SUBPROGRAMA                                        | FLAG_VERDE_AGREGADA   |   Soma_VL_PARC_CREDITO |   Quantidade_Operacoes |   Quantidade_Beneficiarios |\n|------:|:-------------------------------------------------------------|:----------------------|-----------------------:|-----------------------:|---------------------------:|\n|  2023 | Agroindústria (investimento) (MCR 10-6)                      | Não                   |              768437.70 |                     10 |                          9 |\n|  2023 | Cotas Partes (MCR 10-12)                                     | Não                   |            81408000.00 |                      7 |                          1 |\n|  2023 | Credito de  Investimento - Pronaf Bioeconomia (MCR 10-16)    | Sim                   |            81230891.55 |                   1202 |                        976 |\n|  2023 | Créd Invest Agroecologia (Pronaf Agroecologia)MCR 10-14 

# 2° Desafio: crie sua própria função de consulta

*antes de realizar esse desafio, vamos ver como as consultas podem ser usadas!

# 4. IA na Análise de Dados

In [19]:
# Instalar as bibliotecas openai e openai-agents, garantindo que estejam na versão mais atual.
# Depois da instalação, importar as classes e funções principais: OpenAI da biblioteca openai, e Agent, Runner e function_tool da biblioteca agents.
# Importar o módulo os.

!pip install --quiet --upgrade openai openai-agents

from openai import OpenAI
from agents import Agent, Runner, function_tool
import os

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/948.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━[0m [32m860.2/948.6 kB[0m [31m26.1 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m948.6/948.6 kB[0m [31m17.2 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/194.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.2/194.2 kB[0m [31m12.2 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/144.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m144.4/144.4 kB[0m [31m9.7 MB/s[0m eta [36m0:00:00[0m
[?25h

## chave!

In [20]:
# Quero pegar a chave da API da OpenAI que está guardada no userdata do
# Google Colab e salvar essa chave como variável de ambiente OPENAI_API_KEY dentro
# do os.environ.

from google.colab import userdata
os.environ["OPENAI_API_KEY"] = userdata.get('OPENAI_API_KEY')

## Agentes de IA

### Criando o primeiro agende de IA

In [31]:
# Recebe o datafra,e
df = df_pronaf_semana_inovacao

# --- Wrappers que injetam df ---

# def _consulta_credito_verde(df: pd.DataFrame) -> str:
#     return consulta_credito_verde(df)

def _consulta_por_estado(cd_estado: str) -> str:
    return consulta_pronaf_por_estado(df, cd_estado)

def _consulta_subprograma(cd_estado: str) -> str:
    return consulta_pronaf_subprograma_por_estado(df, cd_estado)

# --- Ferramentas expostas ao LLM ---

# @function_tool(name_override="consulta_credito_verde")
# def tool_consulta_credito_verde() -> str:
#     """Resumo agregado do PRONAF com alguma indicação de que é uma operação verde."""
#     return _consulta_credito_verde(df)

@function_tool(name_override="consulta_pronaf_por_estado")
def tool_consulta_por_estado(cd_estado: str) -> str:
    """Resumo agregado do PRONAF por UF (ano x sexo X marcação de crédito verde)."""
    return _consulta_por_estado(cd_estado)

@function_tool(name_override="consulta_pronaf_subprograma_por_estado")
def tool_consulta_subprograma(cd_estado: str) -> str:
    """Resumo agregado do PRONAF por UF (ano x subprograma X marcação de crédito verde)."""
    return _consulta_subprograma(cd_estado)

# --- Definição do agente ---
agent = Agent(
    name="PRONAF Agent",
    instructions=(
    "Responda perguntas sobre PRONAF."
    "Use as ferramentas quando necessário."
    "⚠️ Sempre passe a SIGLA do estado (UF), como 'SP', 'BA', 'RS'. "
    "Nunca use códigos numéricos de IBGE."
    ),
    tools=[
        #tool_consulta_credito_verde,
        tool_consulta_por_estado,
        tool_consulta_subprograma],
)

In [34]:
pergunta = input("Digite sua pergunta: ")

#Exemplo de Perguntas:
#pergunta="Qual valor de crédito verde no pronaf em 2024, e como está o crédito verde em 2025? Compare os anos"
#pergunta="Mostre o PRONAF de SE por sexo e por subprograma. Faça uma análise do resultado." #Plantio direto, modo de produção, linhas próprias, usa agrotóxico
#pergunta="Como está o PRONAF de SP por sexo e por subprograma. Compare com o crédito verde em todo o Brasil. Faça uma análise do resultado"

result = await Runner.run(agent, pergunta)
print(result.final_output)

Digite sua pergunta: Como está o PRONAF de SP por sexo e por subprograma. Compare com o crédito verde em todo o Brasil. Faça uma análise do resultado
Aqui está a análise do PRONAF em São Paulo por sexo e por subprograma, comparando com o crédito verde em todo o Brasil:

### 1. PRONAF em São Paulo por sexo (2023-2025)
- **Os homens realizam a maior parte das operações** do PRONAF em SP, tanto em valor quanto em quantidade.
    - Em 2024, homens: R$ 540,8 milhões (não verde) e R$ 239,6 milhões (verde) vs. mulheres: R$ 102 milhões (não verde) e R$ 30,4 milhões (verde).
- **Mulheres participam menos**, mas vêm aumentando sua participação a cada ano, especialmente nas operações verdes (sustentáveis).
- O volume de operações com “sexo não informado” é relevante, mas o número de beneficiários é pequeno – provavelmente operações coletivas ou falha no cadastro.

### 2. PRONAF em SP por Subprograma (2023-2025)
- Os subprogramas de **“Custeio” e “Mais Alimentos”** lideram em valor financiado.
- A

### Criando o 2° agente

In [36]:
# ==========================
# Persona e Instruções (parametrizável)
# ==========================

descricao_do_agente = """
Você é **AgroEcoFinAgent**, um **Especialista em Agroecologia & Financiamento Sustentável**.
Sua missão é interpretar tabelas e responder perguntas sobre PRONAF/crédito rural brasileiro, conectando achados a agroecologia,
linhas “verdes” (ex.: Pronaf Agroecologia, ABC+), transição produtiva, risco climático e viabilidade econômica.
Mantenha tom técnico e didático.
"""

# Opcional: esquema de resposta padronizado (para consistência)
resposta_schema = """
FORMATO DE RESPOSTA (em Markdown):

1) Título / introdução breve: contexto do dado (ex: “Resumo PRONAF em UF X por sexo e subprograma”)
2) **Tabela(s) em Markdown** mostrando os dados principais (ex: por sexo, por subprograma ou ambos)
3) **Resumo executivo** — 2 a 4 frases com os achados mais relevantes
4) **Análise técnica** — citar colunas/valores usados (ex: `ano`, `sexo`, `valor_total`, `operacoes`, `beneficiarios`, `subprograma`)
5) **Recomendações / hipóteses** — próximos passos, cruzamentos sugeridos, limitações e vieses

Regras importantes:
- Sempre, se for possível, apresente **tabela em Markdown** com dados retornados.
- Nunca invente dados — quando algo for incerto, indique limitação ou incerteza.
- Se o pedido exigir um recorte que você não tem (ex: por município), sugira nova consulta indicando tabela, colunas e filtros.
- Use sempre sigla da UF (ex: “SP”, “BA”, “MG”) nas chamadas de ferramenta — nunca código IBGE.
"""

In [37]:
# ==========================
# Few-shot (exemplos de uso)
# ==========================
few_shot = r"""
### Exemplo 1
[Usuário]: “Mostre o PRONAF em SP por sexo para os últimos anos e me diga o que esses dados revelam.”
[Agente]:
- Chama: `consulta_pronaf_por_estado("SP")`
- Espera retorno com colunas como `ano`, `sexo`, `valor_total`, `operacoes`, `beneficiarios`
- Responde:

\`\`\`
Segue o resumo do PRONAF em São Paulo (SP) por sexo:

| Ano | Sexo     | Valor Total (R$) | Operações | Beneficiários |
|-----|----------|------------------|-----------|----------------|
| 2022| Feminino | 120.000.000      | 9.000     | 7.500          |
| 2022| Masculino| 300.000.000      | 12.000    | 9.800          |
| 2023| Feminino | 140.000.000      | 10.200    | 8.300          |
| 2023| Masculino| 330.000.000      | 13.500    | 10.200         |

1) **Resumo executivo**: em SP, o crédito para beneficiários masculinos é consistentemente maior, mas observa-se crescimento proporcional entre beneficiárias femininas.
2) **Análise técnica**: usei as colunas `valor_total` e `operacoes` para comparar crescimento; notei que o número de operações femininas cresceu X % de 2022 para 2023.
3) **Recomendações**: seria interessante cruzar por município, ou por subprograma, para ver se em algumas linhas a participação feminina é proporcionalmente maior.
\`\`\`

### Exemplo 2
[Usuário]: “Quero ver PRONAF em BA por subprograma nos últimos 3 anos e entender tendências.”
[Agente]:
- Chama: `consulta_pronaf_subprograma_por_estado("BA")`
- Espera retorno com colunas `ano`, `subprograma`, `valor_total`, `operacoes`
- Responde:

\`\`\`
Resumo PRONAF Bahia (BA) por subprograma:

| Ano | Subprograma           | Valor Total (R$) | Operações |
|-----|------------------------|------------------|-----------|
| 2021| Custeio (MCR 10-4)     | 200.000.000      | 5.000     |
| 2021| Microcrédito Grupo B    | 90.000.000       | 15.000    |
| 2022| Custeio (MCR 10-4)     | 220.000.000      | 5.500     |
| 2022| Microcrédito Grupo B    | 100.000.000      | 17.000    |
| 2023| Custeio (MCR 10-4)     | 240.000.000      | 6.000     |
| 2023| Microcrédito Grupo B    | 120.000.000      | 18.500    |

1) **Resumo executivo**: em BA, a linha de Custeio lidera em valor e operações, com crescimento constante; o microcrédito tem bom dinamismo.
2) **Análise técnica**: comparando `valor_total` ano a ano por `subprograma`, a taxa média de crescimento da linha Custeio foi de ~X % aa; notei queda relativa em outros subprogramas.
3) **Recomendações**: cruzar com número de produtores por município, verificar linhas verdes / agroecologia se presentes, sugerir recorte geográfico para identificar municípios com menor penetração.
\`\`\`
"""

In [38]:
# ==========================
# Instruções finais do agente (system prompt)
# ==========================
instructions = f"""
{descricao_do_agente}

Você tem acesso às ferramentas:
- consulta_pronaf_por_estado(UF)  -> agregados por ano x sexo.
- consulta_pronaf_subprograma_por_estado(UF) -> agregados por ano x subprograma.

Como agir:
1. Identifique quando chamar uma ferramenta e passe SEMPRE a UF como sigla (ex.: "MG", "BA").
2. Ao receber a tabela, interprete colunas/valores explicitamente (cite os nomes).
3. Explique implicações para sustentabilidade/agroecologia/risco/viabilidade.
4. Siga o formato de resposta padronizado.
5. Suas respostas devem estar em bloco de co

Guardrails:
- Não extrapole além dos dados. Apresente incertezas/limites quando aplicável.
- Se o pedido exigir novos cortes (ex.: por município), sugira claramente a consulta: tabela, colunas, filtros.
- Linguagem: técnica e didática.

{resposta_schema}

### EXEMPLOS (Few-shot)
{few_shot}
"""

In [40]:
# ==========================
# Wrappers que injetam df (exemplo do usuário)
# ==========================
df = df_pronaf_semana_inovacao

def _consulta_credito_verde(df: pd.DataFrame) -> str:
    return consulta_credito_verde(df)

def _consulta_por_estado(cd_estado: str) -> str:
    return consulta_pronaf_por_estado(df, cd_estado)

def _consulta_subprograma(cd_estado: str) -> str:
    return consulta_pronaf_subprograma_por_estado(df, cd_estado)

# ==========================
# Ferramentas expostas ao LLM
# ==========================

@function_tool(name_override="consulta_credito_verde")
def tool_consulta_credito_verde() -> str:
    """Resumo agregado do PRONAF com alguma indicação de que é uma operação verde."""
    return _consulta_credito_verde(df)

@function_tool(name_override="consulta_pronaf_por_estado")
def tool_consulta_por_estado(cd_estado: str) -> str:
    """Resumo agregado do PRONAF por UF (ano x sexo)."""
    return _consulta_por_estado(cd_estado)

@function_tool(name_override="consulta_pronaf_subprograma_por_estado")
def tool_consulta_subprograma(cd_estado: str) -> str:
    """Resumo agregado do PRONAF por UF (ano x subprograma)."""
    return _consulta_subprograma(cd_estado)

# ==========================
# Criação do agente
# ==========================
agent = Agent(
    name="PRONAF Agent",
    instructions=instructions,
    tools=[
        tool_consulta_credito_verde,
        tool_consulta_por_estado,
        tool_consulta_subprograma],
)


In [41]:
pergunta = input("Digite sua pergunta: ")

#Exemplo de Perguntas:
#pergunta="Qual valor de crédito verde no pronaf em 2024, e como está o crédito verde em 2025? Compare os anos"
#pergunta="Mostre o PRONAF de SE por sexo e por subprograma. Faça uma análise do resultado." #Plantio direto, modo de produção, linhas próprias, usa agrotóxico
#pergunta="Como está o PRONAF de SP por sexo e por subprograma. Compare com o crédito verde em todo o Brasil. Faça uma análise do resultado"

result = await Runner.run(agent, pergunta)
print(result.final_output)

Digite sua pergunta: Como está o PRONAF de SP por sexo e por subprograma. Compare com o crédito verde em todo o Brasil. Faça uma análise do resultado
Resumo do PRONAF em SP por sexo, subprograma e crédito verde, comparado ao Brasil

### 1. PRONAF em São Paulo (SP) — Recorte por sexo (2023-2025)

| Ano | Sexo         | Crédito Verde | Valor Total (R$)    | Operações | Beneficiários |
|-----|--------------|---------------|---------------------|-----------|--------------|
| 2023| Feminino     | Não           | 76.886.135,64       | 1.230     | 944          |
| 2023| Feminino     | Sim           | 24.655.386,57       | 466       | 390          |
| 2023| Masculino    | Não           | 434.397.863,21      | 5.464     | 4.005        |
| 2023| Masculino    | Sim           | 219.669.748,81      | 3.500     | 2.848        |
| ... | ...          | ...           | ...                 | ...       | ...          |
| 2025| Feminino     | Não           | 62.216.829,98       | 989       | 799          

# Bonus: Vincular com um bigquery

In [43]:
'''
Envie o dataframe df_pronaf_semana_inovacao para o BigQuery, no dataset
enapdatasets, sobrescrevendo a tabela se já existir, usando pandas_gbq e o
PROJECT_ID do userdata.'''

# Importe a biblioteca no início do seu script
import pandas_gbq


project_id = userdata.get('PROJECT_ID')
# # Use a função da nova biblioteca
pandas_gbq.to_gbq(df_pronaf_semana_inovacao,
                  'enapdatasets.df_pronaf_semana_inovacao',
                  project_id=project_id,
                  if_exists='replace')

100%|██████████| 1/1 [00:00<00:00, 9619.96it/s]
