# Análise Exploratório de Dados de financiamento com foco em sustentabilidade

## SICOR - PRONAF

## Preparando o ambiente de trabalho


In [1]:
import os
from google.colab import userdata

# 1) Montar o Drive
from google.colab import drive
drive.mount('/content/drive')

os.chdir("/content/drive/MyDrive/MDA/semana_inovacao_enap_2025")

Mounted at /content/drive


In [None]:
!pwd

/content/drive/MyDrive/MDA/semana_inovacao_enap_2025


## Análise Exploratória dos Dados

In [28]:
# Solução para carregar arquivos grander (maior que 100MB) dirto do google drive

# 1. Instale a biblioteca gdown (o '-q' é para uma instalação mais limpa)
#!pip install gdown -q

import pandas as pd
import gdown

# 2. Use o ID do seu arquivo para criar a URL de download
# Do seu link: https://drive.google.com/file/d/1nDdVu8vIB4HUIbFJ0Re2G_b6t6OcC9VQ/view?usp=sharing
#https://drive.google.com/file/d/1tDeXhOOJAQY_cKjzggOEhff0rGRmZTHs/view?usp=drive_link
# O ID é: 1nDdVu8vIB4HUIbFJ0Re2G_b6t6OcC9VQ
file_id = '1tDeXhOOJAQY_cKjzggOEhff0rGRmZTHs'
url_gdown = f'https://drive.google.com/uc?id={file_id}'



# 3. Defina um nome para o arquivo que será salvo no ambiente do Colab
output_filename = 'pronaf_local.parquet'

# 4. Faça o download com gdown (ele vai lidar com a página de aviso)
print(f"Baixando o arquivo '{output_filename}' do Google Drive... Isso pode levar um momento.")
gdown.download(url_gdown, output_filename, quiet=False)
print("Download concluído com sucesso!")

# 5. Agora, carregue o arquivo LOCAL que acabou de ser baixado
try:
    df_pronaf_semana_inovacao = pd.read_parquet(output_filename)
    print("\nArquivo Parquet carregado com sucesso para o DataFrame!")
    display(df_pronaf_semana_inovacao.head())
except Exception as e:
    print(f"\nOcorreu um erro ao ler o arquivo Parquet local: {e}")

Baixando o arquivo 'pronaf_local.parquet' do Google Drive... Isso pode levar um momento.


Downloading...
From (original): https://drive.google.com/uc?id=1tDeXhOOJAQY_cKjzggOEhff0rGRmZTHs
From (redirected): https://drive.google.com/uc?id=1tDeXhOOJAQY_cKjzggOEhff0rGRmZTHs&confirm=t&uuid=c7343ecd-e33f-419e-8b07-fe65eec97842
To: /content/drive/MyDrive/MDA/semana_inovacao_enap_2025/pronaf_local.parquet
100%|██████████| 142M/142M [00:01<00:00, 94.5MB/s]


Download concluído com sucesso!

Arquivo Parquet carregado com sucesso para o DataFrame!


Unnamed: 0,REF_BACEN,NU_ORDEM,CD_ESTADO,CD_EMPREENDIMENTO,CD_PROGRAMA,CD_TIPO_IRRIGACAO,CD_TIPO_AGRICULTURA,CD_TIPO_CULTIVO,CD_TIPO_INTGR_CONSOR,VL_PARC_CREDITO,...,VL_TAXA_JUROS,FLAG_VERDE_SUBPROGRAMA,DESCRICAO_TIPO_IRRIGACAO,FLAG_VERDE_TIPO_IRRIGACAO,DESCRICAO_PROGRAMA,FLAG_VERDE_PROGRAMA,DESCRICAO_TIPO_INTGR_CONSOR,FLAG_VERDE_TIPO_INTGR_CONSOR,DESCRICAO_TIPO_AGRICULTURA,FLAG_VERDE_TIPO_AGRICULTURA
1,515269303,1,RS,12017100000031,1,1,0,3,2,24845.33,...,8.0,Não,Não Irrigado,Sim,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Lavoura Solteira,Não,Não se aplica,Não
2,515269307,1,RS,22371300951408,1,0,0,0,0,53965.24,...,8.0,Não,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não
3,515269309,1,PE,22371300190408,1,0,0,0,0,40026.6,...,8.0,Não,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não
4,515269312,1,GO,22371300951408,1,0,0,0,0,49366.26,...,8.0,Não,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não
5,515269313,1,GO,22371300190408,1,0,0,0,0,30314.93,...,8.0,Não,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não


In [29]:
# imprimir as informações gerais
df_pronaf_semana_inovacao.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4630235 entries, 1 to 5941287
Data columns (total 42 columns):
 #   Column                        Dtype  
---  ------                        -----  
 0   REF_BACEN                     object 
 1   NU_ORDEM                      object 
 2   CD_ESTADO                     object 
 3   CD_EMPREENDIMENTO             int64  
 4   CD_PROGRAMA                   Int64  
 5   CD_TIPO_IRRIGACAO             Int64  
 6   CD_TIPO_AGRICULTURA           Int64  
 7   CD_TIPO_CULTIVO               object 
 8   CD_TIPO_INTGR_CONSOR          Int64  
 9   VL_PARC_CREDITO               object 
 10  CD_SUBPROGRAMA                Int64  
 11  ANO                           int32  
 12  SAFRA                         object 
 13  CD_IBGE_MUNICIPIO             object 
 14  CD_CPF_CNPJ                   object 
 15  SEXO_BIOLOGICO                object 
 16  CD_TIPO_BENEFICIARIO          Int64  
 17  FINALIDADE                    object 
 18  MODALIDADE                 

In [78]:
# Limpeza e declaração de tipo adequada
# Boa prática: fazer uma cópia do dataframe original antes da limpeza dos dados

# seleção de variáveis - remover lista:
colunas_de_interesse = [
    "REF_BACEN",#
    "NU_ORDEM",#
    "CD_ESTADO",
    "CD_EMPREENDIMENTO",#
    "CD_PROGRAMA",#
    "CD_TIPO_IRRIGACAO",#
    "CD_TIPO_AGRICULTURA",#
    "CD_TIPO_CULTIVO",
    "CD_TIPO_INTGR_CONSOR",#
    "VL_PARC_CREDITO",
    "CD_SUBPROGRAMA",#
    "ANO",
    "SAFRA",
    "CD_IBGE_MUNICIPIO",
    "CD_CPF_CNPJ",
    "SEXO_BIOLOGICO",
    "CD_TIPO_BENEFICIARIO",#
    "FINALIDADE",
    "MODALIDADE",
    "PRODUTO",
    "CESTA_SAFRA",
    "CONSORCIO",
    "CD_TIPO_CULTURA",#
    "DESCRICAO_TIPO_CULTURA",
    "FLAG_VERDE_TIPO_CULTURA",
    "FLAG_VERDE_CONSORCIO",
    "FLAG_VERDE_CESTA_SAFRA",
    "FLAG_VERDE_PRODUTO",
    "FLAG_VERDE_MODALIDADE",
    "DESCRICAO_TIPO_BENEFICIARIO",
    "FLAG_VERDE_TIPO_BENEFICIARIO",
    "DESCRICAO_SUBPROGRAMA",
    "VL_TAXA_JUROS",
    "FLAG_VERDE_SUBPROGRAMA",
    "DESCRICAO_TIPO_IRRIGACAO",
    "FLAG_VERDE_TIPO_IRRIGACAO",
    "DESCRICAO_PROGRAMA",
    "FLAG_VERDE_PROGRAMA",
    "DESCRICAO_TIPO_INTGR_CONSOR",
    "FLAG_VERDE_TIPO_INTGR_CONSOR",
    "DESCRICAO_TIPO_AGRICULTURA",
    "FLAG_VERDE_TIPO_AGRICULTURA",
]


# seleciona apenas as colunas de interesse a partir do DataFrame base
df_pronaf_semana_inovacao = df_pronaf_semana_inovacao[colunas_de_interesse]

# em df_pronaf_semana_inovacao_limpo variável VL_PARC_CREDITO para o tipo float64
df_pronaf_semana_inovacao['VL_PARC_CREDITO'] = df_pronaf_semana_inovacao['VL_PARC_CREDITO'].astype('float64')

df_pronaf_semana_inovacao['FLAG_VERDE_TIPO_BENEFICIARIO'] = (
    df_pronaf_semana_inovacao['FLAG_VERDE_TIPO_BENEFICIARIO'].fillna('Não')
)

df_pronaf_semana_inovacao['FLAG_VERDE_TIPO_CULTURA'] = (
    df_pronaf_semana_inovacao['FLAG_VERDE_TIPO_CULTURA'].fillna('Não')
)

# imprimir as informações gerais
df_pronaf_semana_inovacao.info()



<class 'pandas.core.frame.DataFrame'>
Index: 4630235 entries, 1 to 5941287
Data columns (total 42 columns):
 #   Column                        Dtype  
---  ------                        -----  
 0   REF_BACEN                     object 
 1   NU_ORDEM                      object 
 2   CD_ESTADO                     object 
 3   CD_EMPREENDIMENTO             int64  
 4   CD_PROGRAMA                   Int64  
 5   CD_TIPO_IRRIGACAO             Int64  
 6   CD_TIPO_AGRICULTURA           Int64  
 7   CD_TIPO_CULTIVO               object 
 8   CD_TIPO_INTGR_CONSOR          Int64  
 9   VL_PARC_CREDITO               float64
 10  CD_SUBPROGRAMA                Int64  
 11  ANO                           int32  
 12  SAFRA                         object 
 13  CD_IBGE_MUNICIPIO             object 
 14  CD_CPF_CNPJ                   object 
 15  SEXO_BIOLOGICO                object 
 16  CD_TIPO_BENEFICIARIO          Int64  
 17  FINALIDADE                    object 
 18  MODALIDADE                 

In [31]:
# imprimir as principais estatísticas descritivas do dataframe df com decribe
df_pronaf_semana_inovacao.describe(include='all')

Unnamed: 0,REF_BACEN,NU_ORDEM,CD_ESTADO,CD_EMPREENDIMENTO,CD_PROGRAMA,CD_TIPO_IRRIGACAO,CD_TIPO_AGRICULTURA,CD_TIPO_CULTIVO,CD_TIPO_INTGR_CONSOR,VL_PARC_CREDITO,...,VL_TAXA_JUROS,FLAG_VERDE_SUBPROGRAMA,DESCRICAO_TIPO_IRRIGACAO,FLAG_VERDE_TIPO_IRRIGACAO,DESCRICAO_PROGRAMA,FLAG_VERDE_PROGRAMA,DESCRICAO_TIPO_INTGR_CONSOR,FLAG_VERDE_TIPO_INTGR_CONSOR,DESCRICAO_TIPO_AGRICULTURA,FLAG_VERDE_TIPO_AGRICULTURA
count,4630235.0,4630235.0,4630235,4630235.0,4630235.0,4630235.0,4630235.0,4630235.0,4630235.0,4630235.0,...,4630235.0,4630235,4630235,4630235,4630235,4630235,4630235,4630235,4630235,4630235
unique,3570721.0,22.0,27,,,,,19.0,,,...,,2,12,2,5,1,8,2,8,2
top,515945061.0,1.0,BA,,,,,0.0,,,...,,Não,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não
freq,72.0,3576020.0,682065,,,,,4527872.0,,,...,,4522958,3851360,3889678,4597102,4630235,3854075,4621829,3832980,4427514
mean,,,,19098472198225.8,2.27,0.22,0.82,,0.34,39963.94,...,3.86,,,,,,,,,
std,,,,5111197649760.17,15.23,0.71,1.93,,0.75,178111.64,...,3.71,,,,,,,,,
min,,,,12010020000042.0,1.0,0.0,0.0,,0.0,0.01,...,0.5,,,,,,,,,
25%,,,,13143330352042.0,1.0,0.0,0.0,,0.0,6000.0,...,0.5,,,,,,,,,
50%,,,,22371300190408.0,1.0,0.0,0.0,,0.0,12000.0,...,0.5,,,,,,,,,
75%,,,,23271300193002.0,1.0,0.0,0.0,,0.0,42773.74,...,8.0,,,,,,,,,


# Análise exploratória

In [32]:
# bibliotecas
import pandas as pd
pd.options.display.float_format = '{:,.2f}'.format

## Variáveis de controle



```
REF_BACEN
NU_ORDEM
CD_EMPREENDIMENTO
```



## Estado

In [33]:
df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index='CD_ESTADO',
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# ordena pelo ano de 2023 (coluna da pivot_table)
df_pivotado = df_pivotado.sort_values(by=2023, ascending=False)

display(df_pivotado)

ANO,2023,2024,2025
CD_ESTADO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
RS,16167553746.26,17816968762.9,11331376488.56
PR,9390425990.35,9628585623.22,5993399992.35
SC,8178231356.97,9035695787.37,6496767769.2
MG,7199711278.23,8080561909.91,4382326760.62
MT,3298786163.22,3053478754.74,1396052804.89
BA,3012091802.06,3988330190.93,2622261304.01
RO,2415991981.18,2541517317.63,1353878761.65
ES,1993192224.36,2552173137.53,1537370798.44
GO,1854643400.43,1919981924.04,940805016.38
SP,1461747181.11,1700646521.87,934194581.79


## Município

In [34]:
df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['CD_IBGE_MUNICIPIO', 'CD_ESTADO'],  # primeiro município, depois estado
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# ordena por 2023
df_pivotado = df_pivotado.sort_values(by=2023, ascending=False)

display(df_pivotado)


Unnamed: 0_level_0,ANO,2023,2024,2025
CD_IBGE_MUNICIPIO,CD_ESTADO,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1100205,RO,247216624.34,202058210.59,116829397.54
4208500,SC,187918461.19,215382060.20,174625571.54
4107207,PR,174126307.39,153596912.35,78179981.89
4200705,SC,172381522.92,195721931.85,160672072.05
4128609,PR,163137307.95,163391426.47,173107147.55
...,...,...,...,...
3300951,RJ,0.00,140000.00,0.00
1302207,AM,0.00,0.00,4000.00
1300607,AM,0.00,30000.00,0.00
1300805,AM,0.00,1311260.21,797143.02


## SEXO

In [35]:
df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['SEXO_BIOLOGICO'],  # primeiro município, depois estado
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# ordena por 2023
df_pivotado = df_pivotado.sort_values(by=2023, ascending=False)

display(df_pivotado)


ANO,2023,2024,2025
SEXO_BIOLOGICO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Masculino,42410616069.67,46799265173.62,25219839762.79
Feminino,11948036965.84,14447277011.4,9269481132.58


## Descrição do Beneficiário

In [51]:

# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_BENEFICIARIO', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_BENEFICIARIO', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)


df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_TIPO_BENEFICIARIO', 'CD_TIPO_BENEFICIARIO', 'DESCRICAO_TIPO_BENEFICIARIO'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)



                              % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_TIPO_BENEFICIARIO                                                
Não                                           99.62                    98.12
Sim                                            0.38                     1.88


Unnamed: 0_level_0,Unnamed: 1_level_0,ANO,2023,2024,2025
FLAG_VERDE_TIPO_BENEFICIARIO,CD_TIPO_BENEFICIARIO,DESCRICAO_TIPO_BENEFICIARIO,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Não,1,Produtor rural (pessoa física ou jurídica) - (MCR 1-4-1-a),"54.772.065.814,59","61.647.815.696,68","34.270.725.785,21"
Não,2,Cooperativa de produção agropecuária – na condição de sociedade prestadora de serviços de natureza agropecuária aos seus cooperados (MCR 5-1-2-b e c),"256.102.444,09","449.027.389,65","223.107.462,12"
Não,3,Cooperativa de produção agropecuária – na condição de produtor rural - (MCR 5-1-2-a),"156.110.348,97","6.105.601,00","611.023,10"
Não,5,Pessoa física ou jurídica da atividade de pesquisa agropecuária (MCR 1-4-2-a e b),"4.638.055,36","613.775,45","237.467,04"
Não,8,Beneficiador (MCR 1-4-2A-a),000,"1.469.619,96",000
Não,9,Agroindústria (MCR 1-4-2A-a),000,"17.668.151,51",000
Não,13,Aquicultor (MCR 2-1-20),"27.569.042,16","22.526.071,78","25.546.491,79"
Não,16,Silvicultor (MCR 10-2-2-a-III),"16.186.375,98","43.914.906,71","72.501.314,38"
Sim,6,"Pessoa física ou jurídica produtora de mudas, sementes, sêmen para inseminação artificial e embriões (MCR 1-4-2-a e b)","705.331,60","39.288,82",000
Sim,11,Silvícola/indígena (MCR 1-4-3),"28.379.506,63","56.567.889,22","67.558.139,62"


## Política Pública

### Programa

In [53]:
df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_PROGRAMA', 'CD_PROGRAMA', 'DESCRICAO_PROGRAMA'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

Unnamed: 0_level_0,Unnamed: 1_level_0,ANO,2023,2024,2025
FLAG_VERDE_PROGRAMA,CD_PROGRAMA,DESCRICAO_PROGRAMA,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Sim,1,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO DA AGRICULTURA FAMILIAR,"56.390.487.582,00","65.898.660.589,48","41.625.143.608,11"
Sim,153,MODERAGRO - PROGRAMA DE MODERNIZAÇÃO DA AGRICULTURA E CONSERVAÇÃO DE RECURSOS NATURAIS,"3.027.378.134,16","2.696.915.229,87","814.405.833,82"
Sim,156,"ABC + Programa para a Adaptação à Mudança do Clima e Baixa Emissão de Carbono""""","718.823.441,22",000,000
Sim,201,PROGRAMA NACIONAL DE CRÉDITO FUNDIÁRIO (FTRA),"236.967.912,61","285.712.743,41","201.600.965,13"
Sim,222,RenovAgro - Programa de Financiamento a Sistemas de Produção Agropecuária Sustentáveis,"4.747.331.920,22","5.339.686.668,87","3.059.302.270,55"


### Subprograma

In [55]:
# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_SUBPROGRAMA', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_SUBPROGRAMA', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_SUBPROGRAMA', 'CD_SUBPROGRAMA', 'DESCRICAO_SUBPROGRAMA'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

                        % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_SUBPROGRAMA                                                
Não                                     97.18                    96.56
Sim                                      2.82                     3.44


Unnamed: 0_level_0,Unnamed: 1_level_0,ANO,2023,2024,2025
FLAG_VERDE_SUBPROGRAMA,CD_SUBPROGRAMA,DESCRICAO_SUBPROGRAMA,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Não,1,Custeio (MCR 10-4),"31.625.684.272,88","31.356.413.262,72","21.878.926.848,80"
Não,2,Mais Alimentos (MCR 10-5),"15.482.202.758,19","21.951.254.427,20","10.596.099.292,96"
Não,3,Agroindústria (investimento) (MCR 10-6),"558.785.186,65","782.391.163,71","191.386.154,18"
Não,6,Jovem (MCR 10-10),"868.319,11","854.836,52","1.774.703,81"
Não,7,Cotas Partes (MCR 10-12),"476.281.000,00","447.729.000,00","214.350.000,00"
Não,27,"Recuperação de Solos (MCR 11-4-1-""a""-V)","33.608.859,67","120.814.123,28","7.999.546,78"
Não,28,"Fomentação Prod Benef Industr Acond Armaz (MCR 11-4-""a""-I)","2.689.183.643,02","1.964.455.017,31","625.185.690,87"
Não,29,"Fomentação de Ações de Defesa Animal (MCR 11-4-""a""-II)","233.876.862,61","550.191.446,53","151.486.819,72"
Não,32,"ABC + Recuperação - (MCR 11-7-1-""c""-I)","125.782.485,36",000,000
Não,34,"ABC + Plantio Direto (MCR 11-7-1-""c""-III)","170.272.184,90",000,000


## Caracterização da Operação

### Finalidade

In [58]:
df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FINALIDADE'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

ANO,2023,2024,2025
FINALIDADE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Custeio,"32.334.717.050,38","32.699.384.187,64","22.391.647.121,02"
Industrialização,"1.895.697.057,85","1.450.280.381,53","1.274.641.198,66"
Investimento,"30.890.574.881,98","40.071.310.662,46","22.034.164.357,93"


### Modalidade

In [61]:
# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_MODALIDADE', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_MODALIDADE', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_MODALIDADE', 'MODALIDADE'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

                       % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_MODALIDADE                                                
Não                                    99.30                    98.18
Sim                                     0.70                     1.82


Unnamed: 0_level_0,ANO,2023,2024,2025
FLAG_VERDE_MODALIDADE,MODALIDADE,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Não,AQUICULTURA,"210.967.635,40","255.044.845,17","236.875.092,75"
Não,AQUISIÇÃO DE ANIMAIS,"7.955.378.709,46","10.153.348.223,88","5.342.206.141,41"
Não,AQUISIÇÃO DE ANIMAIS DE SERVIÇO,"784.900,00","80.860,00","3.000,00"
Não,AQUISIÇÃO DE ANIMAIS DE SERVIÇO (USO AGRICULTURA),"25.030.373,04","22.063.275,60","18.378.756,70"
Não,AQUISIÇÃO DE ATIVOS OPERACIONAIS,"1.863.623.994,49","3.350.147.743,98","1.646.197.037,69"
Não,AQUISIÇÃO DE INSUMOS PARA INDÚSTRIA FAMILIAR,"74.850.140,01","95.652.368,40","76.788.032,56"
Não,AQUISIÇÃO DE PROPRIEDADES RURAIS,"236.967.912,61","285.712.743,41","201.600.965,13"
Não,AQUISIÇÃO DE VEÍCULOS,"348.231.279,61","685.038.269,08","325.211.298,36"
Não,AQUISIÇÃO E MANUTENÇÃO DE ANIMAIS,"5.278.402.411,91","5.637.260.813,00","3.393.767.291,75"
Não,ATENDIMENTO A COOPERADOS (MCR 5-2),"108.605.747,73","11.808.250,00","14.000.000,00"


### Produto

In [62]:
# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_PRODUTO', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_PRODUTO', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_PRODUTO', 'PRODUTO'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

                    % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_PRODUTO                                                
Não                                 96.83                    89.41
Sim                                  3.17                    10.59


Unnamed: 0_level_0,ANO,2023,2024,2025
FLAG_VERDE_PRODUTO,PRODUTO,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Não,ABACATE,"13.815.173,50","16.880.552,71","6.783.897,29"
Não,ABERTURA DE GLEBAS RURAIS,"106.947.556,55","107.116.795,51","55.357.882,56"
Não,ABOBRINHA,"1.132.675,30","1.924.718,41","1.016.619,74"
Não,ABÓBORA-MORANGA,"30.088.099,97","59.670.160,78","6.734.818,72"
Não,ACELGA,000,"10.200,00","15.000,00"
Não,ACEROLA,"2.783.137,32","3.064.205,98","3.231.305,13"
Não,ACÁCIA NEGRA,000,"1.128.738,33","344.401,25"
Não,ADUBAÇÃO INTENSIVA DO SOLO,"970.506.835,82","794.163.897,07","392.430.452,98"
Não,"ADUBAÇÃO ORGÂNICA/MINERAL, CALAGEM, SUBSTRATOS INERTES(PEDRA, AREIA, VERMICULITA, SILTE, ARGILA ETC)","111.409.873,31","39.558.076,02","12.713.936,37"
Não,AGAVE (SISAL),"3.053.199,18","2.107.587,99","1.080.888,38"


### Cesta Safra

In [63]:
# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_CESTA_SAFRA', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_CESTA_SAFRA', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_CESTA_SAFRA', 'CESTA_SAFRA'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

                        % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_CESTA_SAFRA                                                
Não                                     94.24                    93.91
Sim                                      5.76                     6.09


Unnamed: 0_level_0,ANO,2023,2024,2025
FLAG_VERDE_CESTA_SAFRA,CESTA_SAFRA,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Não,Ano Civil / Ano de Exploração,"46.818.270.227,78","57.316.502.174,82","34.175.464.695,55"
Não,Irrigadas,"1.599.339.530,99","456.974.832,71",000
Não,Safra de Inverno (3ª Safra),"2.580.575.710,65","1.898.426.113,45","1.324.520.175,93"
Não,Safra de Verão (1ª Safra),"9.569.835.408,40","9.081.288.427,38","6.549.690.769,21"
Não,Safrinha (2ª Safra),"1.290.133.493,77","1.277.474.375,58","441.531.000,45"
Sim,Fruticultura / Olericultura,"3.262.834.618,62","4.190.309.307,69","3.209.246.036,47"


### Consórcio

In [67]:
# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_CONSORCIO', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_CONSORCIO', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_CONSORCIO','CONSORCIO'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

                      % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_CONSORCIO                                                
Não                                   99.92                    99.92
Sim                                    0.08                     0.08


Unnamed: 0_level_0,ANO,2023,2024,2025
FLAG_VERDE_CONSORCIO,CONSORCIO,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Não,Não consorciado,"33.811.141.704,61","37.895.382.802,23","21.947.280.923,28"
Não,Valor inválido,"31.261.114.505,03","36.263.257.899,04","23.725.167.187,66"
Sim,Consorciado,"48.732.780,57","62.334.530,36","28.004.566,67"


### Irrigação

In [75]:
# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_IRRIGACAO', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_IRRIGACAO', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_TIPO_IRRIGACAO','CD_TIPO_IRRIGACAO', 'DESCRICAO_TIPO_IRRIGACAO'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

                           % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_TIPO_IRRIGACAO                                                
Não                                        76.63                    86.88
Sim                                        23.37                    13.12


Unnamed: 0_level_0,Unnamed: 1_level_0,ANO,2023,2024,2025
FLAG_VERDE_TIPO_IRRIGACAO,CD_TIPO_IRRIGACAO,DESCRICAO_TIPO_IRRIGACAO,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Não,0,Não se aplica,"45.887.087.894,94","57.183.578.794,71","35.343.568.842,20"
Não,4,Aspersão,"641.970.456,59","750.721.733,23","697.804.892,94"
Não,6,Pivô,"48.668.788,60","48.822.354,22","27.078.817,78"
Não,7,Canhão,"20.380.189,10","23.178.991,99","31.154.938,61"
Não,8,Auto-Propelido,"2.845.405,90","6.126.823,24","10.757.055,34"
Não,9,Sulcos,"37.198.456,45","32.989.716,37","17.260.659,84"
Não,10,Inundação,"311.728.619,40","346.419.862,61","291.661.445,11"
Não,11,"Irrigação com cobertura contra a seca MCR 12-2-3-c""""","16.094.780,70","8.520.819,95","4.796.769,43"
Sim,1,Não Irrigado,"17.170.696.892,76","14.715.251.153,48","8.494.563.693,56"
Sim,2,Gotejamento,"771.230.143,77","974.211.164,02","690.147.390,75"


### Agricultura

In [76]:
# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_AGRICULTURA', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_AGRICULTURA', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_TIPO_AGRICULTURA','CD_TIPO_AGRICULTURA', 'DESCRICAO_TIPO_AGRICULTURA'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

                             % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_TIPO_AGRICULTURA                                                
Não                                          93.77                    96.23
Sim                                           6.23                     3.77


Unnamed: 0_level_0,Unnamed: 1_level_0,ANO,2023,2024,2025
FLAG_VERDE_TIPO_AGRICULTURA,CD_TIPO_AGRICULTURA,DESCRICAO_TIPO_AGRICULTURA,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Não,0,Não se aplica,"47.448.981.323,26","58.028.532.876,82","34.873.164.065,63"
Não,3,Convencional,"7.270.079.863,36","6.846.690.254,70","4.739.512.076,85"
Não,6,Floresta Plantada,"1.446.381,95","1.292.314,99","19.700,00"
Não,7,Transgênica,"6.061.669.152,42","5.122.045.481,64","3.128.642.450,58"
Sim,4,Floresta Nativa,"1.232.224,05","754.767,18","432.346,12"
Sim,5,Plantio Direto,"4.307.907.827,64","4.178.989.932,32","2.935.628.538,99"
Sim,8,Agroecológica,"7.227.057,81","10.162.307,29","6.561.566,77"
Sim,9,Orgânica,"22.445.159,72","32.507.296,69","16.491.932,67"


### Cultura

In [79]:
# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_CULTURA', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_CULTURA', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_TIPO_CULTURA','CD_TIPO_CULTURA', 'DESCRICAO_TIPO_CULTURA'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

                         % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_TIPO_CULTURA                                                
Não                                      98.42                    99.03
Sim                                       1.58                     0.97


Unnamed: 0_level_0,Unnamed: 1_level_0,ANO,2023,2024,2025
FLAG_VERDE_TIPO_CULTURA,CD_TIPO_CULTURA,DESCRICAO_TIPO_CULTURA,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Não,2,Permanente,"4.953.716.813,24","5.581.366.411,32","3.547.809.821,14"
Não,3,Demais culturas,"28.150.547.706,41","31.542.366.731,05","17.664.734.740,51"
Sim,1,Olericultura,"961.982.064,04","1.025.734.745,39","940.913.114,29"


### Intgr Consor

In [80]:
# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_INTGR_CONSOR', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_INTGR_CONSOR', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_TIPO_INTGR_CONSOR','CD_TIPO_INTGR_CONSOR', 'DESCRICAO_TIPO_INTGR_CONSOR'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

                              % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_TIPO_INTGR_CONSOR                                                
Não                                           99.84                    99.65
Sim                                            0.16                     0.35


Unnamed: 0_level_0,Unnamed: 1_level_0,ANO,2023,2024,2025
FLAG_VERDE_TIPO_INTGR_CONSOR,CD_TIPO_INTGR_CONSOR,DESCRICAO_TIPO_INTGR_CONSOR,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Não,0,Não se aplica,"47.585.700.468,29","58.096.627.103,83","34.928.286.533,02"
Não,2,Lavoura Solteira,"17.406.109.322,77","16.010.282.375,40","10.720.014.924,19"
Sim,1,Consórcio,"58.334.819,05","76.043.752,65","30.884.672,58"
Sim,3,Integração Lavoura Pecuária,"42.714.875,98","28.956.282,61","15.117.877,91"
Sim,4,Sistemas Agroflorestais,"21.049.206,37","6.466.134,59","3.978.729,14"
Sim,5,Integração Lavoura-Pecuária-Floresta/Sistema Agro-Silvo-Pastoril,"6.279.219,42","1.323.848,25","699.593,11"
Sim,6,Integração Lavoura-Floresta,"426.728,33","759.278,00","636.719,30"
Sim,7,Integração Pecuária-Floresta,"374.350,00","516.456,30","833.628,36"


# Utilizando Funções de Consulta

### consulta_pronaf_por_estado

In [None]:
# Crie uma função chamada 'consulta_pronaf_por_estado'.
# A função deve receber dois argumentos: um dataframe pandas 'df' e uma string 'cd_estado'.
# A função deve ter um type hint de retorno indicando que ela devolve uma string.

# Passo 1: Filtrar os dados
# Dentro da função, primeiro filtre o dataframe 'df'.
# O critério do filtro é manter apenas as linhas onde a coluna "CD_ESTADO" seja igual ao argumento 'cd_estado' convertido para letras maiúsculas.

# Passo 2: Lidar com estado não encontrado
# Adicione uma verificação: se o dataframe filtrado estiver vazio, a função deve retornar uma string de aviso, informando que nenhum dado foi encontrado para o estado.

# Passo 3: Agrupar e agregar
# Se o dataframe filtrado não estiver vazio, agrupe os dados pelas colunas "ANO" e "SEXO_BIOLOGICO".
# Após agrupar, calcule as seguintes agregações:
# - A SOMA da coluna "VL_PARC_CREDITO", e renomeie a coluna resultante para "Soma_VL_PARC_CREDITO".
# - A CONTAGEM da coluna "CD_CPF_CNPJ", e renomeie para "Quantidade_Operacoes".
# - A CONTAGEM DE VALORES ÚNICOS da coluna "CD_CPF_CNPJ", e renomeie para "Quantidade_Beneficiarios".
# Após a agregação, transforme o resultado de volta em um dataframe padrão.

# Passo 4: Formatar a saída
# Converta o dataframe agregado para uma string no formato Markdown.
# Na conversão para Markdown, especifique que o índice não deve ser incluído e que números de ponto flutuante devem ser formatados com duas casas decimais.

# Passo 5: Retornar o resultado final
# Por fim, a função deve retornar uma string formatada contendo um título, como "Resumo dos dados do PRONAF para o estado [NOME DO ESTADO]:", seguido por duas quebras de linha e a tabela em Markdown.

def consulta_pronaf_por_estado(df: pd.DataFrame, cd_estado: str) -> str:
    """Resumo do PRONAF por UF em Markdown."""
    df_estado = df[df["CD_ESTADO"] == cd_estado.upper()]

    if df_estado.empty:
        return (
            f"Nenhum dado encontrado para o estado '{cd_estado}'. "
            "Verifique o código UF."
        )

    resumo = (
        df_estado
        .groupby(["ANO", "SEXO_BIOLOGICO"])
        .agg(
            Soma_VL_PARC_CREDITO=("VL_PARC_CREDITO", "sum"),
            Quantidade_Operacoes=("CD_CPF_CNPJ", "count"),
            Quantidade_Beneficiarios=("CD_CPF_CNPJ", "nunique"),
        )
        .reset_index()
    )

    tabela = resumo.to_markdown(index=False, floatfmt=".2f")
    return f"Resumo dos dados do PRONAF para o estado {cd_estado.upper()}:\n\n{tabela}"

In [None]:
# testar a função consulta_pronaf_por_estado utilizando o estado do Minas Gerais
consulta_pronaf_por_estado(df_pronaf_semana_inovacao, 'AL')

'Resumo dos dados do PRONAF para o estado AL:\n\n|   ANO | SEXO_BIOLOGICO   |   Soma_VL_PARC_CREDITO |   Quantidade_Operacoes |   Quantidade_Beneficiarios |\n|------:|:-----------------|-----------------------:|-----------------------:|---------------------------:|\n|  2023 | Feminino         |           186858922.89 |                  17672 |                      13743 |\n|  2023 | Masculino        |           318719224.23 |                  18554 |                      13925 |\n|  2024 | Feminino         |           264089015.31 |                  25224 |                      15895 |\n|  2024 | Masculino        |           387572641.04 |                  24146 |                      15729 |\n|  2025 | Feminino         |           171546685.60 |                  18338 |                      10299 |\n|  2025 | Masculino        |           198156756.76 |                  14608 |                       9527 |'

> Obs.: podemos usar uma ferramenta para facilitar nossa visualização: https://dillinger.io/


### consulta_pronaf_subprograma_por_estado

In [None]:
# Crie uma função chamada 'consulta_pronaf_subprograma_por_estado'.
# A função deve receber dois argumentos: um dataframe pandas 'df' e uma string 'cd_estado'.
# A função deve ter um type hint de retorno indicando que ela devolve uma string.

# Passo 1: Filtrar os dados
# Dentro da função, primeiro filtre o dataframe 'df'.
# O critério do filtro é manter apenas as linhas onde a coluna "CD_ESTADO" seja igual ao argumento 'cd_estado' convertido para letras maiúsculas.

# Passo 2: Lidar com estado não encontrado
# Adicione uma verificação: se o dataframe filtrado estiver vazio, a função deve retornar uma string de aviso, informando que nenhum dado foi encontrado para o estado.

# Passo 3: Agrupar e agregar
# Se o dataframe filtrado não estiver vazio, agrupe os dados pelas colunas "ANO" e "DESCRICAO_SUBPROGRAMA".
# Após agrupar, calcule as seguintes agregações:
# - A SOMA da coluna "VL_PARC_CREDITO", e renomeie a coluna resultante para "Soma_VL_PARC_CREDITO".
# - A CONTAGEM da coluna "CD_CPF_CNPJ", e renomeie para "Quantidade_Operacoes".
# - A CONTAGEM DE VALORES ÚNICOS da coluna "CD_CPF_CNPJ", e renomeie para "Quantidade_Beneficiarios".
# Após a agregação, transforme o resultado de volta em um dataframe padrão.

# Passo 4: Formatar a saída
# Converta o dataframe agregado para uma string no formato Markdown.
# Na conversão para Markdown, especifique que o índice não deve ser incluído e que números de ponto flutuante devem ser formatados com duas casas decimais.

# Passo 5: Retornar o resultado final
# Por fim, a função deve retornar uma string formatada contendo um título, como "Resumo dos dados do PRONAF para o estado [NOME DO ESTADO]:", seguido por duas quebras de linha e a tabela em Markdown.

def consulta_pronaf_subprograma_por_estado(df: pd.DataFrame, cd_estado: str) -> str:
    """Resumo do PRONAF por UF em Markdown."""
    df_estado = df[df["CD_ESTADO"].astype(str).str.upper() == cd_estado.upper()]

    # Passo 2: Lidar com estado não encontrado
    if df_estado.empty:
        return f"Nenhum dado encontrado para o estado '{cd_estado}'. Verifique o código UF."

    # Passo 3: Agrupar e agregar
    resumo = (
        df_estado
        .groupby(["ANO", "DESCRICAO_SUBPROGRAMA"], dropna=False)
        .agg(
            Soma_VL_PARC_CREDITO=("VL_PARC_CREDITO", "sum"),
            Quantidade_Operacoes=("CD_CPF_CNPJ", "count"),
            Quantidade_Beneficiarios=("CD_CPF_CNPJ", "nunique"),
        )
        .reset_index()
    )

    # Passo 4: Formatar a saída
    tabela = resumo.to_markdown(index=False, floatfmt=".2f")

    # Passo 5: Retornar o resultado final
    return f"Resumo dos dados do PRONAF para o estado {cd_estado.upper()}:\n\n{tabela}"

In [None]:
# testar a função consulta_pronaf_subprograma_por_estado utilizando o estado do Minas Gerais
consulta_pronaf_subprograma_por_estado(df_pronaf_semana_inovacao, 'MG')

'Resumo dos dados do PRONAF para o estado MG:\n\n|   ANO | DESCRICAO_SUBPROGRAMA                                        |   Soma_VL_PARC_CREDITO |   Quantidade_Operacoes |   Quantidade_Beneficiarios |\n|------:|:-------------------------------------------------------------|-----------------------:|-----------------------:|---------------------------:|\n|  2023 | ABC + Ambiental - (MCR 11-7-1-"c"-VI)                        |             5000000.00 |                      1 |                          1 |\n|  2023 | ABC + Florestas - (MCR 11-7-1-"c"-V)                         |             3927680.00 |                      2 |                          2 |\n|  2023 | ABC + Integração - (MCR 11-7-1-"c"-IV)                       |              409600.00 |                      2 |                          2 |\n|  2023 | ABC + Manejo de Resíduos - (MCR 11-7-1-"c"-VII)              |             1499999.99 |                      1 |                          1 |\n|  2023 | ABC + Manejo dos Solos 

# IA na Análise de Dados

In [None]:
# -- Instalação (se necessário)
!pip install --quiet --upgrade openai openai-agents

from openai import OpenAI
from agents import Agent, Runner, function_tool
import os

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/948.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m948.6/948.6 kB[0m [31m46.5 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/194.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.2/194.2 kB[0m [31m14.9 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/144.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m144.4/144.4 kB[0m [31m11.1 MB/s[0m eta [36m0:00:00[0m
[?25h

## chave!

In [None]:
from google.colab import userdata

os.environ["OPENAI_API_KEY"] = userdata.get('OPENAI_API_KEY')

## Criando um agende de IA

In [None]:
# Recebe o datafra,e
df = df_pronaf_semana_inovacao

# --- Wrappers que injetam df ---
def _consulta_por_estado(cd_estado: str) -> str:
    return consulta_pronaf_por_estado(df, cd_estado)

def _consulta_subprograma(cd_estado: str) -> str:
    return consulta_pronaf_subprograma_por_estado(df, cd_estado)

# --- Ferramentas expostas ao LLM ---
@function_tool(name_override="consulta_pronaf_por_estado")
def tool_consulta_por_estado(cd_estado: str) -> str:
    """Resumo agregado do PRONAF por UF (ano x sexo)."""
    return _consulta_por_estado(cd_estado)

@function_tool(name_override="consulta_pronaf_subprograma_por_estado")
def tool_consulta_subprograma(cd_estado: str) -> str:
    """Resumo agregado do PRONAF por UF (ano x subprograma)."""
    return _consulta_subprograma(cd_estado)

# --- Definição do agente ---
agent = Agent(
    name="PRONAF Agent",
    instructions=(
    "Responda perguntas sobre PRONAF."
    "Use as ferramentas quando necessário."
    "⚠️ Sempre passe a SIGLA do estado (UF), como 'SP', 'BA', 'RS'. "
    "Nunca use códigos numéricos de IBGE."
    ),
    tools=[tool_consulta_por_estado, tool_consulta_subprograma],
)

In [None]:
#pergunta = input("Digite sua pergunta: ")
pergunta="Mostre o PRONAF de SE por sexo e por subprograma. Faça uma análise do resultado." #Plantio direto, modo de produção, linhas próprias, usa agrotóxico
# roda o agente com a pergunta digitada
# Exemplo de Pergunta: "Mostre o PRONAF de SP por sexo e por subprograma. Faça uma análise do resultado"
result = await Runner.run(agent, pergunta)
print(result.final_output)

Aqui está o panorama do PRONAF em Sergipe (SE), tanto por sexo quanto por subprograma, seguido de uma análise.

## PRONAF-SE POR SEXO (2023 a 2025):

| Ano | Feminino (R$)    | Masculino (R$)    | Feminino (Operações) | Masculino (Operações) | Feminino (Beneficiários) | Masculino (Beneficiários) |
|-----|------------------|-------------------|----------------------|-----------------------|--------------------------|---------------------------|
| 2023| 166,4 milhões    | 418,9 milhões     | 13.926               | 16.229                | 10.057                   | 12.157                    |
| 2024| 234,0 milhões    | 546,3 milhões     | 18.266               | 20.392                | 11.333                   | 13.608                    |
| 2025| 211,0 milhões    | 437,0 milhões     | 13.042               | 13.663                | 7.838                    | 9.496                     |

- O valor e o número de operações e beneficiários masculinos é sempre maior, mas a participação feminina

# Vincular com um bigquery

In [None]:
#pacote obsoleto
# project_id = '365846072239'
# df_pronaf_semana_inovacao.to_gbq("enapdatasets.df_pronaf_semana_inovacao",
#               project_id=project_id,
#               chunksize=40000,
#               if_exists='replace',
#               )


# Importe a biblioteca no início do seu script
import pandas_gbq
project_id = '365846072239'
# Use a função da nova biblioteca
pandas_gbq.to_gbq(df_pronaf_semana_inovacao,
                  'enapdatasets.df_pronaf_semana_inovacao',
                  project_id=project_id,
                  if_exists='replace')

100%|██████████| 1/1 [00:00<00:00, 9576.04it/s]
