# Análise Exploratório de Dados de financiamento com foco em sustentabilidade

## Agricultura Familiar e crédito - PRONAF

## Preparando o ambiente de trabalho


In [1]:
import os
from google.colab import userdata

# 1) Montar o Drive
from google.colab import drive
drive.mount('/content/drive')

os.chdir("/content/drive/MyDrive/MDA/semana_inovacao_enap_2025")

Mounted at /content/drive


In [2]:
!pwd

/content/drive/MyDrive/MDA/semana_inovacao_enap_2025


## Análise Exploratória dos Dados

In [3]:
# Solução para carregar arquivos grander (maior que 100MB) dirto do google drive

# 1. Instale a biblioteca gdown (o '-q' é para uma instalação mais limpa)
#!pip install gdown -q

import pandas as pd
import gdown

# 2. Use o ID do seu arquivo para criar a URL de download
# Do seu link: https://drive.google.com/file/d/1nDdVu8vIB4HUIbFJ0Re2G_b6t6OcC9VQ/view?usp=sharing
#https://drive.google.com/file/d/1tDeXhOOJAQY_cKjzggOEhff0rGRmZTHs/view?usp=drive_link
# O ID é: 1nDdVu8vIB4HUIbFJ0Re2G_b6t6OcC9VQ
file_id = '1tDeXhOOJAQY_cKjzggOEhff0rGRmZTHs'
url_gdown = f'https://drive.google.com/uc?id={file_id}'



# 3. Defina um nome para o arquivo que será salvo no ambiente do Colab
output_filename = 'pronaf_local.parquet'

# 4. Faça o download com gdown (ele vai lidar com a página de aviso)
print(f"Baixando o arquivo '{output_filename}' do Google Drive... Isso pode levar um momento.")
gdown.download(url_gdown, output_filename, quiet=False)
print("Download concluído com sucesso!")

# 5. Agora, carregue o arquivo LOCAL que acabou de ser baixado
try:
    df_pronaf_semana_inovacao = pd.read_parquet(output_filename)
    print("\nArquivo Parquet carregado com sucesso para o DataFrame!")
    display(df_pronaf_semana_inovacao.head())
except Exception as e:
    print(f"\nOcorreu um erro ao ler o arquivo Parquet local: {e}")

Baixando o arquivo 'pronaf_local.parquet' do Google Drive... Isso pode levar um momento.


Downloading...
From (original): https://drive.google.com/uc?id=1tDeXhOOJAQY_cKjzggOEhff0rGRmZTHs
From (redirected): https://drive.google.com/uc?id=1tDeXhOOJAQY_cKjzggOEhff0rGRmZTHs&confirm=t&uuid=cbd0c808-dd2c-42a2-abed-dc3d60d31f3d
To: /content/drive/MyDrive/MDA/semana_inovacao_enap_2025/pronaf_local.parquet
100%|██████████| 142M/142M [00:01<00:00, 109MB/s]


Download concluído com sucesso!

Arquivo Parquet carregado com sucesso para o DataFrame!


Unnamed: 0,REF_BACEN,NU_ORDEM,CD_ESTADO,CD_EMPREENDIMENTO,CD_PROGRAMA,CD_TIPO_IRRIGACAO,CD_TIPO_AGRICULTURA,CD_TIPO_CULTIVO,CD_TIPO_INTGR_CONSOR,VL_PARC_CREDITO,...,VL_TAXA_JUROS,FLAG_VERDE_SUBPROGRAMA,DESCRICAO_TIPO_IRRIGACAO,FLAG_VERDE_TIPO_IRRIGACAO,DESCRICAO_PROGRAMA,FLAG_VERDE_PROGRAMA,DESCRICAO_TIPO_INTGR_CONSOR,FLAG_VERDE_TIPO_INTGR_CONSOR,DESCRICAO_TIPO_AGRICULTURA,FLAG_VERDE_TIPO_AGRICULTURA
1,515269303,1,RS,12017100000031,1,1,0,3,2,24845.33,...,8.0,Não,Não Irrigado,Sim,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Lavoura Solteira,Não,Não se aplica,Não
2,515269307,1,RS,22371300951408,1,0,0,0,0,53965.24,...,8.0,Não,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não
3,515269309,1,PE,22371300190408,1,0,0,0,0,40026.6,...,8.0,Não,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não
4,515269312,1,GO,22371300951408,1,0,0,0,0,49366.26,...,8.0,Não,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não
5,515269313,1,GO,22371300190408,1,0,0,0,0,30314.93,...,8.0,Não,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não


In [4]:
# imprimir as informações gerais
df_pronaf_semana_inovacao.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4630235 entries, 1 to 5941287
Data columns (total 42 columns):
 #   Column                        Dtype  
---  ------                        -----  
 0   REF_BACEN                     object 
 1   NU_ORDEM                      object 
 2   CD_ESTADO                     object 
 3   CD_EMPREENDIMENTO             int64  
 4   CD_PROGRAMA                   Int64  
 5   CD_TIPO_IRRIGACAO             Int64  
 6   CD_TIPO_AGRICULTURA           Int64  
 7   CD_TIPO_CULTIVO               object 
 8   CD_TIPO_INTGR_CONSOR          Int64  
 9   VL_PARC_CREDITO               object 
 10  CD_SUBPROGRAMA                Int64  
 11  ANO                           int32  
 12  SAFRA                         object 
 13  CD_IBGE_MUNICIPIO             object 
 14  CD_CPF_CNPJ                   object 
 15  SEXO_BIOLOGICO                object 
 16  CD_TIPO_BENEFICIARIO          Int64  
 17  FINALIDADE                    object 
 18  MODALIDADE                 

In [5]:
# Limpeza e declaração de tipo adequada
# Boa prática: fazer uma cópia do dataframe original antes da limpeza dos dados

# seleção de variáveis - remover lista:
colunas_de_interesse = [
    "REF_BACEN",#
    "NU_ORDEM",#
    "CD_ESTADO",
    "CD_EMPREENDIMENTO",#
    "CD_PROGRAMA",#
    "CD_TIPO_IRRIGACAO",#
    "CD_TIPO_AGRICULTURA",#
    "CD_TIPO_CULTIVO",
    "CD_TIPO_INTGR_CONSOR",#
    "VL_PARC_CREDITO",
    "CD_SUBPROGRAMA",#
    "ANO",
    "SAFRA",
    "CD_IBGE_MUNICIPIO",
    "CD_CPF_CNPJ",
    "SEXO_BIOLOGICO",
    "CD_TIPO_BENEFICIARIO",#
    "FINALIDADE",
    "MODALIDADE",
    "PRODUTO",
    "CESTA_SAFRA",
    "CONSORCIO",
    "CD_TIPO_CULTURA",#
    "DESCRICAO_TIPO_CULTURA",
    "FLAG_VERDE_TIPO_CULTURA",
    "FLAG_VERDE_CONSORCIO",
    "FLAG_VERDE_CESTA_SAFRA",
    "FLAG_VERDE_PRODUTO",
    "FLAG_VERDE_MODALIDADE",
    "DESCRICAO_TIPO_BENEFICIARIO",
    "FLAG_VERDE_TIPO_BENEFICIARIO",
    "DESCRICAO_SUBPROGRAMA",
    "VL_TAXA_JUROS",
    "FLAG_VERDE_SUBPROGRAMA",
    "DESCRICAO_TIPO_IRRIGACAO",
    "FLAG_VERDE_TIPO_IRRIGACAO",
    "DESCRICAO_PROGRAMA",
    "FLAG_VERDE_PROGRAMA",
    "DESCRICAO_TIPO_INTGR_CONSOR",
    "FLAG_VERDE_TIPO_INTGR_CONSOR",
    "DESCRICAO_TIPO_AGRICULTURA",
    "FLAG_VERDE_TIPO_AGRICULTURA",
]


# seleciona apenas as colunas de interesse a partir do DataFrame base
df_pronaf_semana_inovacao = df_pronaf_semana_inovacao[colunas_de_interesse]

# em df_pronaf_semana_inovacao_limpo variável VL_PARC_CREDITO para o tipo float64
df_pronaf_semana_inovacao['VL_PARC_CREDITO'] = df_pronaf_semana_inovacao['VL_PARC_CREDITO'].astype('float64')

# df_pronaf_semana_inovacao['FLAG_VERDE_TIPO_BENEFICIARIO'] = (
#     df_pronaf_semana_inovacao['FLAG_VERDE_TIPO_BENEFICIARIO'].fillna('Não')
# )

# df_pronaf_semana_inovacao['FLAG_VERDE_TIPO_CULTURA'] = (
#     df_pronaf_semana_inovacao['FLAG_VERDE_TIPO_CULTURA'].fillna('Não')
# )

#Substituir NaN em Somente em colunas de texto/categóricas
cols_obj = df_pronaf_semana_inovacao.select_dtypes(include='object').columns
df_pronaf_semana_inovacao[cols_obj] = df_pronaf_semana_inovacao[cols_obj].fillna("não informado")

#Substituir NaN em Somente em colunas numéricas com valor: 0)
cols_num = df_pronaf_semana_inovacao.select_dtypes(include='number').columns
df_pronaf_semana_inovacao[cols_num] = df_pronaf_semana_inovacao[cols_num].fillna(0)


# Filtrar dataframe para considerar CD_PROGRAMA == 1
df_pronaf_semana_inovacao = df_pronaf_semana_inovacao[df_pronaf_semana_inovacao['CD_PROGRAMA'] == 1]

# Criar chave composta contendo "REF_BACEN", "NU_ORDEM"
df_pronaf_semana_inovacao['chave_comp'] = df_pronaf_semana_inovacao['REF_BACEN'].astype(str) + '_' + df_pronaf_semana_inovacao['NU_ORDEM'].astype(str)


# imprimir as informações gerais
df_pronaf_semana_inovacao.info()



<class 'pandas.core.frame.DataFrame'>
Index: 4597102 entries, 1 to 5941287
Data columns (total 43 columns):
 #   Column                        Dtype  
---  ------                        -----  
 0   REF_BACEN                     object 
 1   NU_ORDEM                      object 
 2   CD_ESTADO                     object 
 3   CD_EMPREENDIMENTO             int64  
 4   CD_PROGRAMA                   Int64  
 5   CD_TIPO_IRRIGACAO             Int64  
 6   CD_TIPO_AGRICULTURA           Int64  
 7   CD_TIPO_CULTIVO               object 
 8   CD_TIPO_INTGR_CONSOR          Int64  
 9   VL_PARC_CREDITO               float64
 10  CD_SUBPROGRAMA                Int64  
 11  ANO                           int32  
 12  SAFRA                         object 
 13  CD_IBGE_MUNICIPIO             object 
 14  CD_CPF_CNPJ                   object 
 15  SEXO_BIOLOGICO                object 
 16  CD_TIPO_BENEFICIARIO          Int64  
 17  FINALIDADE                    object 
 18  MODALIDADE                 

In [None]:
# imprimir as principais estatísticas descritivas do dataframe df com decribe
df_pronaf_semana_inovacao.describe(include='all')

Unnamed: 0,REF_BACEN,NU_ORDEM,CD_ESTADO,CD_EMPREENDIMENTO,CD_PROGRAMA,CD_TIPO_IRRIGACAO,CD_TIPO_AGRICULTURA,CD_TIPO_CULTIVO,CD_TIPO_INTGR_CONSOR,VL_PARC_CREDITO,...,FLAG_VERDE_SUBPROGRAMA,DESCRICAO_TIPO_IRRIGACAO,FLAG_VERDE_TIPO_IRRIGACAO,DESCRICAO_PROGRAMA,FLAG_VERDE_PROGRAMA,DESCRICAO_TIPO_INTGR_CONSOR,FLAG_VERDE_TIPO_INTGR_CONSOR,DESCRICAO_TIPO_AGRICULTURA,FLAG_VERDE_TIPO_AGRICULTURA,chave_comp
count,4597102.0,4597102.0,4597102,4597102.0,4597102.0,4597102.0,4597102.0,4597102.0,4597102.0,4597102.0,...,4597102,4597102,4597102,4597102,4597102,4597102,4597102,4597102,4597102,4597102
unique,3546293.0,12.0,27,,,,,19.0,,,...,2,12,2,1,1,8,2,8,2,4588348
top,519471320.0,1.0,BA,,,,,0.0,,,...,Não,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não,520133029_1
freq,20.0,3551101.0,680632,,,,,4494752.0,,,...,4489825,3819586,3857850,4597102,4597102,3820948,4588697,3799863,4394383,15
mean,,,,19099230000000.0,1.0,0.224472,0.82459,,0.338341,35656.0,...,,,,,,,,,,
std,,,,5112850000000.0,0.0,0.715661,1.940109,,0.753434,147493.1,...,,,,,,,,,,
min,,,,12010020000000.0,1.0,0.0,0.0,,0.0,0.01,...,,,,,,,,,,
25%,,,,13143330000000.0,1.0,0.0,0.0,,0.0,6000.0,...,,,,,,,,,,
50%,,,,22371300000000.0,1.0,0.0,0.0,,0.0,12000.0,...,,,,,,,,,,
75%,,,,23271300000000.0,1.0,0.0,0.0,,0.0,41500.0,...,,,,,,,,,,


# Análise exploratória

In [None]:
# bibliotecas
import pandas as pd
pd.options.display.float_format = '{:,.2f}'.format

## Variáveis de controle



```
REF_BACEN
NU_ORDEM
CD_EMPREENDIMENTO
```



In [None]:
# count distinct chave_comp
print(df_pronaf_semana_inovacao['chave_comp'].nunique())

# count CD_CPF_CNPJ
print(df_pronaf_semana_inovacao['CD_CPF_CNPJ'].count())

# count distinct CD_CPF_CNPJ
print(df_pronaf_semana_inovacao['CD_CPF_CNPJ'].nunique())

4588348
4597102
1946759


## Estado

In [None]:
df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index='CD_ESTADO',
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# ordena pelo ano de 2023 (coluna da pivot_table)
df_pivotado = df_pivotado.sort_values(by=2023, ascending=False)

display(df_pivotado)

ANO,2023,2024,2025
CD_ESTADO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
RS,15153792743.7,16740987412.18,10582349068.55
PR,8683603312.45,8948117994.71,5630150116.97
SC,7846736223.72,8796025720.44,6325348132.6
MG,5387167241.77,6448112076.66,3666212016.54
BA,2575407543.16,3558895484.57,2425449398.24
RO,2249938730.66,2436915886.9,1296993546.07
ES,1941370055.94,2488366157.43,1509496220.16
MT,1780018390.26,1638517002.17,808827861.83
PA,1200525388.4,1705531186.62,1081211919.02
MA,1108707724.96,1727746520.29,965228511.89


## Município

In [None]:
df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['CD_IBGE_MUNICIPIO', 'CD_ESTADO'],  # primeiro município, depois estado
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# ordena por 2023
df_pivotado = df_pivotado.sort_values(by=2023, ascending=False)

display(df_pivotado)


Unnamed: 0_level_0,ANO,2023,2024,2025
CD_IBGE_MUNICIPIO,CD_ESTADO,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1100205,RO,226569880.64,195826201.09,114343854.82
4208500,SC,187918461.19,215382060.20,174625571.54
4200705,SC,171121131.61,195257551.08,158993072.05
4107207,PR,159935271.39,150523374.21,74732950.87
4119806,PR,156130691.84,122425633.64,76321310.76
...,...,...,...,...
3520202,SP,0.00,108243.15,46901.40
2801504,SE,0.00,0.00,68000.00
3520905,SP,0.00,19682.73,202000.00
2603454,PE,0.00,33000.00,0.00


## SEXO

In [None]:
df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['SEXO_BIOLOGICO'],  # primeiro município, depois estado
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# ordena por 2023
df_pivotado = df_pivotado.sort_values(by=2023, ascending=False)

display(df_pivotado)


ANO,2023,2024,2025
SEXO_BIOLOGICO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Masculino,35746983427.24,40433104446.99,22696348802.51
Feminino,10163964078.66,12837313430.11,8657467276.84


## Descrição do Beneficiário

In [None]:

# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_BENEFICIARIO', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_BENEFICIARIO', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)


df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_TIPO_BENEFICIARIO', 'CD_TIPO_BENEFICIARIO', 'DESCRICAO_TIPO_BENEFICIARIO'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)



                              % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_TIPO_BENEFICIARIO                                                
Não                                           99.58                    98.10
Sim                                            0.42                     1.90


Unnamed: 0_level_0,Unnamed: 1_level_0,ANO,2023,2024,2025
FLAG_VERDE_TIPO_BENEFICIARIO,CD_TIPO_BENEFICIARIO,DESCRICAO_TIPO_BENEFICIARIO,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Não,0,não informado,"9.772.056.514,53","11.754.985.006,52","10.039.059.890,20"
Não,1,Produtor rural (pessoa física ou jurídica) - (MCR 1-4-1-a),"46.082.593.012,50","53.360.511.566,10","30.956.144.732,38"
Não,2,Cooperativa de produção agropecuária – na condição de sociedade prestadora de serviços de natureza agropecuária aos seus cooperados (MCR 5-1-2-b e c),"251.062.444,09","444.828.679,65","223.107.462,12"
Não,3,Cooperativa de produção agropecuária – na condição de produtor rural - (MCR 5-1-2-a),"151.110.348,97","2.139.450,00","611.023,10"
Não,5,Pessoa física ou jurídica da atividade de pesquisa agropecuária (MCR 1-4-2-a e b),"1.865.630,77","613.775,45","237.467,04"
Não,9,Agroindústria (MCR 1-4-2A-a),000,"6.968.349,86",000
Não,13,Aquicultor (MCR 2-1-20),"25.349.489,16","22.526.071,78","25.546.491,79"
Não,16,Silvicultor (MCR 10-2-2-a-III),"160.399,00","33.684.824,57","68.584.333,42"
Sim,6,"Pessoa física ou jurídica produtora de mudas, sementes, sêmen para inseminação artificial e embriões (MCR 1-4-2-a e b)","705.331,60","39.288,82",000
Sim,11,Silvícola/indígena (MCR 1-4-3),"28.379.506,63","56.567.889,22","67.558.139,62"


## Política Pública

### Programa

In [None]:
df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_PROGRAMA', 'CD_PROGRAMA', 'DESCRICAO_PROGRAMA'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

Unnamed: 0_level_0,Unnamed: 1_level_0,ANO,2023,2024,2025
FLAG_VERDE_PROGRAMA,CD_PROGRAMA,DESCRICAO_PROGRAMA,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Sim,1,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO DA AGRICULTURA FAMILIAR,"56.390.487.582,00","65.898.660.589,48","41.625.143.608,11"


### Subprograma

In [None]:
# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_SUBPROGRAMA', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_SUBPROGRAMA', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_SUBPROGRAMA', 'CD_SUBPROGRAMA', 'DESCRICAO_SUBPROGRAMA'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

                        % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_SUBPROGRAMA                                                
Não                                     96.81                    96.53
Sim                                      3.19                     3.47


Unnamed: 0_level_0,Unnamed: 1_level_0,ANO,2023,2024,2025
FLAG_VERDE_SUBPROGRAMA,CD_SUBPROGRAMA,DESCRICAO_SUBPROGRAMA,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Não,1,Custeio (MCR 10-4),"31.625.684.272,88","31.356.413.262,72","21.878.926.848,80"
Não,2,Mais Alimentos (MCR 10-5),"15.482.202.758,19","21.951.254.427,20","10.596.099.292,96"
Não,3,Agroindústria (investimento) (MCR 10-6),"558.785.186,65","782.391.163,71","191.386.154,18"
Não,6,Jovem (MCR 10-10),"868.319,11","854.836,52","1.774.703,81"
Não,7,Cotas Partes (MCR 10-12),"476.281.000,00","447.729.000,00","214.350.000,00"
Não,53,Pronaf Industrialização Agroind. Familiar (MCR10-11),"1.924.202.340,73","1.467.940.648,48","1.275.154.813,19"
Não,54,"Reforma Agrária Beneficiários PNCF, PNRA, PCRF (MCR10-3)","179.060.272,41","348.855.632,25","587.589.541,13"
Não,56,Microcrédito Produtivo Rural - Grupo B (MCR 10-13),"4.568.341.324,97","7.115.453.629,83","5.047.406.556,33"
Não,57,Mulher (MCR 10-9),"170.822.722,39","242.469.350,34","199.856.183,52"
Sim,4,Crédito Invest Sist Agroflorestais (Pronaf Floresta) MCR10-7,"54.091.045,12","73.972.242,48","61.666.387,82"


## Caracterização da Operação

### Finalidade

In [None]:
df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FINALIDADE'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

ANO,2023,2024,2025
FINALIDADE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Custeio,"32.334.717.050,38","32.699.384.187,64","22.391.647.121,02"
Industrialização,"1.895.697.057,85","1.450.280.381,53","1.274.641.198,66"
Investimento,"22.160.073.473,77","31.748.996.020,31","17.958.855.288,43"


### Modalidade

In [None]:
# contar FLAG_VERDE_MODALIDADE is na
print(df_pronaf_semana_inovacao['FLAG_VERDE_MODALIDADE'].isna().sum())

# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_MODALIDADE', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_MODALIDADE', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_MODALIDADE', 'MODALIDADE'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

0
                       % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_MODALIDADE                                                
Não                                    99.52                    98.18
Sim                                     0.48                     1.82


Unnamed: 0_level_0,ANO,2023,2024,2025
FLAG_VERDE_MODALIDADE,MODALIDADE,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Não,AQUICULTURA,"204.573.285,21","253.375.341,40","236.875.092,75"
Não,AQUISIÇÃO DE ANIMAIS,"6.900.189.115,09","9.487.797.355,30","5.188.704.996,12"
Não,AQUISIÇÃO DE ANIMAIS DE SERVIÇO,"84.900,00","80.860,00","3.000,00"
Não,AQUISIÇÃO DE ANIMAIS DE SERVIÇO (USO AGRICULTURA),"23.630.373,04","22.063.275,60","18.378.756,70"
Não,AQUISIÇÃO DE ATIVOS OPERACIONAIS,"1.543.996.181,78","3.080.575.722,50","1.541.804.961,20"
Não,AQUISIÇÃO DE INSUMOS PARA INDÚSTRIA FAMILIAR,"74.850.140,01","95.652.368,40","76.788.032,56"
Não,AQUISIÇÃO DE VEÍCULOS,"346.835.274,94","683.660.914,14","324.463.368,36"
Não,AQUISIÇÃO E MANUTENÇÃO DE ANIMAIS,"5.278.402.411,91","5.637.260.813,00","3.393.767.291,75"
Não,ATENDIMENTO A COOPERADOS (MCR 5-2),"108.605.747,73","11.808.250,00","14.000.000,00"
Não,AVICULTURA,"85.878.191,43","99.820.838,56","78.335.653,46"


### Produto

In [None]:
print(df_pronaf_semana_inovacao['FLAG_VERDE_PRODUTO'].isna().sum())
# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_PRODUTO', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_PRODUTO', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_PRODUTO', 'PRODUTO'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

0
                    % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_PRODUTO                                                
Não                                 96.52                    89.33
Sim                                  3.48                    10.67


Unnamed: 0_level_0,ANO,2023,2024,2025
FLAG_VERDE_PRODUTO,PRODUTO,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Não,ABACATE,"10.404.327,98","9.341.902,52","6.783.897,29"
Não,ABERTURA DE GLEBAS RURAIS,"106.947.556,55","107.116.795,51","55.357.882,56"
Não,ABOBRINHA,"1.132.675,30","1.924.718,41","1.016.619,74"
Não,ABÓBORA-MORANGA,"30.088.099,97","59.670.160,78","6.734.818,72"
Não,ACELGA,000,"10.200,00","15.000,00"
Não,ACEROLA,"2.783.137,32","3.064.205,98","3.231.305,13"
Não,ACÁCIA NEGRA,000,"565.695,13","118.000,00"
Não,ADUBAÇÃO INTENSIVA DO SOLO,"32.420.477,59","67.186.082,24","73.420.906,89"
Não,"ADUBAÇÃO ORGÂNICA/MINERAL, CALAGEM, SUBSTRATOS INERTES(PEDRA, AREIA, VERMICULITA, SILTE, ARGILA ETC)","9.669.491,37","17.649.897,22","11.713.936,37"
Não,AGAVE (SISAL),"3.053.199,18","2.107.587,99","1.080.888,38"


### Cesta Safra

In [None]:
print(df_pronaf_semana_inovacao['FLAG_VERDE_CESTA_SAFRA'].isna().sum())

# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_CESTA_SAFRA', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_CESTA_SAFRA', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_CESTA_SAFRA', 'CESTA_SAFRA'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

0
                        % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_CESTA_SAFRA                                                
Não                                     93.51                    93.85
Sim                                      6.49                     6.15


Unnamed: 0_level_0,ANO,2023,2024,2025
FLAG_VERDE_CESTA_SAFRA,CESTA_SAFRA,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Não,Ano Civil / Ano de Exploração,"38.095.045.080,49","49.018.794.056,73","30.100.555.626,05"
Não,Irrigadas,"1.599.339.530,99","456.974.832,71",000
Não,Safra de Inverno (3ª Safra),"2.580.575.710,65","1.898.426.113,45","1.324.520.175,93"
Não,Safra de Verão (1ª Safra),"9.569.835.408,40","9.081.288.427,38","6.549.690.769,21"
Não,Safrinha (2ª Safra),"1.290.133.493,77","1.277.474.375,58","441.531.000,45"
Sim,Fruticultura / Olericultura,"3.255.558.357,70","4.165.702.783,63","3.208.846.036,47"


### Consórcio

In [None]:
print(df_pronaf_semana_inovacao['FLAG_VERDE_CONSORCIO'].isna().sum())

# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_CONSORCIO', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_CONSORCIO', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_CONSORCIO','CONSORCIO'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

0
                      % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_CONSORCIO                                                
Não                                   99.92                    99.92
Sim                                    0.08                     0.08


Unnamed: 0_level_0,ANO,2023,2024,2025
FLAG_VERDE_CONSORCIO,CONSORCIO,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Não,Não consorciado,"32.207.826.972,74","36.576.587.083,78","21.617.442.741,02"
Não,Valor inválido,"24.133.927.828,69","29.259.738.975,34","19.979.696.300,42"
Sim,Consorciado,"48.732.780,57","62.334.530,36","28.004.566,67"


### Irrigação

In [None]:
print(df_pronaf_semana_inovacao['FLAG_VERDE_TIPO_IRRIGACAO'].isna().sum())

# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_IRRIGACAO', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_IRRIGACAO', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_TIPO_IRRIGACAO','CD_TIPO_IRRIGACAO', 'DESCRICAO_TIPO_IRRIGACAO'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

0
                           % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_TIPO_IRRIGACAO                                                
Não                                        74.93                    86.81
Sim                                        25.07                    13.19


Unnamed: 0_level_0,Unnamed: 1_level_0,ANO,2023,2024,2025
FLAG_VERDE_TIPO_IRRIGACAO,CD_TIPO_IRRIGACAO,DESCRICAO_TIPO_IRRIGACAO,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Não,0,Não se aplica,"38.465.637.281,59","49.637.342.937,07","31.447.686.076,70"
Não,4,Aspersão,"641.970.456,59","750.366.133,23","697.804.892,94"
Não,6,Pivô,"14.873.593,91","19.655.796,12","11.322.276,99"
Não,7,Canhão,"20.380.189,10","23.178.991,99","31.154.938,61"
Não,8,Auto-Propelido,"2.845.405,90","6.126.823,24","10.757.055,34"
Não,9,Sulcos,"37.198.456,45","32.989.716,37","17.260.659,84"
Não,10,Inundação,"301.843.619,51","338.599.862,73","290.661.445,11"
Não,11,"Irrigação com cobertura contra a seca MCR 12-2-3-c""""","16.094.780,70","8.520.819,95","4.796.769,43"
Sim,1,Não Irrigado,"15.911.042.142,05","13.977.731.608,92","8.331.893.930,35"
Sim,2,Gotejamento,"769.974.938,78","973.911.164,02","690.147.390,75"


### Agricultura

In [None]:
print(df_pronaf_semana_inovacao['FLAG_VERDE_TIPO_AGRICULTURA'].isna().sum())

# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_AGRICULTURA', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_AGRICULTURA', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_TIPO_AGRICULTURA','CD_TIPO_AGRICULTURA', 'DESCRICAO_TIPO_AGRICULTURA'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

0
                             % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_TIPO_AGRICULTURA                                                
Não                                          92.97                    96.20
Sim                                           7.03                     3.80


Unnamed: 0_level_0,Unnamed: 1_level_0,ANO,2023,2024,2025
FLAG_VERDE_TIPO_AGRICULTURA,CD_TIPO_AGRICULTURA,DESCRICAO_TIPO_AGRICULTURA,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Não,0,Não se aplica,"38.721.388.286,58","49.709.318.234,67","30.807.844.136,92"
Não,3,Convencional,"7.269.106.471,59","6.845.440.254,70","4.729.522.936,06"
Não,6,Floresta Plantada,"391.381,95","292.314,99","19.700,00"
Não,7,Transgênica,"6.060.789.172,66","5.121.945.481,64","3.128.642.450,58"
Sim,4,Floresta Nativa,"1.232.224,05","754.767,18","432.346,12"
Sim,5,Plantio Direto,"4.307.907.827,64","4.178.239.932,32","2.935.628.538,99"
Sim,8,Agroecológica,"7.227.057,81","10.162.307,29","6.561.566,77"
Sim,9,Orgânica,"22.445.159,72","32.507.296,69","16.491.932,67"


### Cultura

In [None]:
print(df_pronaf_semana_inovacao['VL_PARC_CREDITO'].count())
print(df_pronaf_semana_inovacao['FLAG_VERDE_TIPO_CULTURA'].count())
print(df_pronaf_semana_inovacao['FLAG_VERDE_TIPO_CULTURA'].isna().sum())

4597102
4597102
0


In [None]:
print(df_pronaf_semana_inovacao['FLAG_VERDE_TIPO_CULTURA'].isna().sum())

# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_CULTURA', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_CULTURA', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_TIPO_CULTURA','CD_TIPO_CULTURA', 'DESCRICAO_TIPO_CULTURA'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

0
                         % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_TIPO_CULTURA                                                
Não                                      98.21                    99.02
Sim                                       1.79                     0.98


Unnamed: 0_level_0,Unnamed: 1_level_0,ANO,2023,2024,2025
FLAG_VERDE_TIPO_CULTURA,CD_TIPO_CULTURA,DESCRICAO_TIPO_CULTURA,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Não,0,não informado,"23.655.459.394,69","28.797.855.232,88","19.615.829.718,96"
Não,2,Permanente,"4.411.019.372,25","4.803.202.661,37","3.286.802.096,43"
Não,3,Demais culturas,"26.959.686.568,18","30.713.658.981,66","17.454.985.533,80"
Não,4,não informado,"402.340.182,84","558.208.968,18","326.613.144,63"
Sim,1,Olericultura,"961.982.064,04","1.025.734.745,39","940.913.114,29"


### Intgr Consor

In [None]:
# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_INTGR_CONSOR', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_TIPO_INTGR_CONSOR', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

df_pivotado = df_pronaf_semana_inovacao.pivot_table(
    index=['FLAG_VERDE_TIPO_INTGR_CONSOR','CD_TIPO_INTGR_CONSOR', 'DESCRICAO_TIPO_INTGR_CONSOR'],
    columns='ANO',
    values='VL_PARC_CREDITO',
    aggfunc='sum',
    fill_value=0
)

# Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
sty = (
    df_pivotado
      .style
      .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
      .set_table_styles([
          {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
          {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
      ])
)
display(sty)

                              % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_TIPO_INTGR_CONSOR                                                
Não                                           99.82                    99.64
Sim                                            0.18                     0.36


Unnamed: 0_level_0,Unnamed: 1_level_0,ANO,2023,2024,2025
FLAG_VERDE_TIPO_INTGR_CONSOR,CD_TIPO_INTGR_CONSOR,DESCRICAO_TIPO_INTGR_CONSOR,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Não,0,Não se aplica,"38.857.254.039,84","49.775.792.461,68","30.852.977.463,52"
Não,2,Lavoura Solteira,"17.404.054.343,01","16.009.682.375,40","10.720.014.924,19"
Sim,1,Consórcio,"58.334.819,05","76.043.752,65","30.884.672,58"
Sim,3,Integração Lavoura Pecuária,"42.714.875,98","28.076.282,61","15.117.877,91"
Sim,4,Sistemas Agroflorestais,"21.049.206,37","6.466.134,59","3.978.729,14"
Sim,5,Integração Lavoura-Pecuária-Floresta/Sistema Agro-Silvo-Pastoril,"6.279.219,42","1.323.848,25","699.593,11"
Sim,6,Integração Lavoura-Floresta,"426.728,33","759.278,00","636.719,30"
Sim,7,Integração Pecuária-Floresta,"374.350,00","516.456,30","833.628,36"


## Análise - operação que tenha pelo menos uma flag verde

In [None]:
df_pronaf_semana_inovacao.columns

Index(['REF_BACEN', 'NU_ORDEM', 'CD_ESTADO', 'CD_EMPREENDIMENTO',
       'CD_PROGRAMA', 'CD_TIPO_IRRIGACAO', 'CD_TIPO_AGRICULTURA',
       'CD_TIPO_CULTIVO', 'CD_TIPO_INTGR_CONSOR', 'VL_PARC_CREDITO',
       'CD_SUBPROGRAMA', 'ANO', 'SAFRA', 'CD_IBGE_MUNICIPIO', 'CD_CPF_CNPJ',
       'SEXO_BIOLOGICO', 'CD_TIPO_BENEFICIARIO', 'FINALIDADE', 'MODALIDADE',
       'PRODUTO', 'CESTA_SAFRA', 'CONSORCIO', 'CD_TIPO_CULTURA',
       'DESCRICAO_TIPO_CULTURA', 'FLAG_VERDE_TIPO_CULTURA',
       'FLAG_VERDE_CONSORCIO', 'FLAG_VERDE_CESTA_SAFRA', 'FLAG_VERDE_PRODUTO',
       'FLAG_VERDE_MODALIDADE', 'DESCRICAO_TIPO_BENEFICIARIO',
       'FLAG_VERDE_TIPO_BENEFICIARIO', 'DESCRICAO_SUBPROGRAMA',
       'VL_TAXA_JUROS', 'FLAG_VERDE_SUBPROGRAMA', 'DESCRICAO_TIPO_IRRIGACAO',
       'FLAG_VERDE_TIPO_IRRIGACAO', 'DESCRICAO_PROGRAMA',
       'FLAG_VERDE_PROGRAMA', 'DESCRICAO_TIPO_INTGR_CONSOR',
       'FLAG_VERDE_TIPO_INTGR_CONSOR', 'DESCRICAO_TIPO_AGRICULTURA',
       'FLAG_VERDE_TIPO_AGRICULTURA', 'chave_com

In [None]:
# recebe a lista de flags (colunas com “Sim/Não/NaN”)
# cria uma nova coluna com o nome FLAG_VERDE_AGREGADA: aplica a regra “pelo menos uma flag verde” (qualquer coluna == “Sim”);
# trata NaN como “Não” por padrão (ou seja, não contam como verde);
# Retorna Sim para ao menos uma flag e  Não para nehuma flag

In [None]:
lista_flags = [
    'FLAG_VERDE_TIPO_CULTURA',
    'FLAG_VERDE_CONSORCIO',
    'FLAG_VERDE_CESTA_SAFRA',
    'FLAG_VERDE_PRODUTO',
    'FLAG_VERDE_MODALIDADE',
    'FLAG_VERDE_TIPO_BENEFICIARIO',
    'FLAG_VERDE_SUBPROGRAMA',
    'FLAG_VERDE_TIPO_IRRIGACAO',
    #'FLAG_VERDE_PROGRAMA',
    'FLAG_VERDE_TIPO_INTGR_CONSOR',
    'FLAG_VERDE_TIPO_AGRICULTURA',
]

In [None]:
df_pronaf_semana_inovacao['FLAG_VERDE_AGREGADA'] = (
    df_pronaf_semana_inovacao[lista_flags]
      .apply(lambda c: c.astype('string').str.strip().str.casefold())
      .eq('sim').any(axis=1)
      .map({True: 'Sim', False: 'Não'})
)


In [None]:
df_pronaf_semana_inovacao.head(10)

Unnamed: 0,REF_BACEN,NU_ORDEM,CD_ESTADO,CD_EMPREENDIMENTO,CD_PROGRAMA,CD_TIPO_IRRIGACAO,CD_TIPO_AGRICULTURA,CD_TIPO_CULTIVO,CD_TIPO_INTGR_CONSOR,VL_PARC_CREDITO,...,DESCRICAO_TIPO_IRRIGACAO,FLAG_VERDE_TIPO_IRRIGACAO,DESCRICAO_PROGRAMA,FLAG_VERDE_PROGRAMA,DESCRICAO_TIPO_INTGR_CONSOR,FLAG_VERDE_TIPO_INTGR_CONSOR,DESCRICAO_TIPO_AGRICULTURA,FLAG_VERDE_TIPO_AGRICULTURA,chave_comp,FLAG_VERDE_AGREGADA
1,515269303,1,RS,12017100000031,1,1,0,3,2,24845.33,...,Não Irrigado,Sim,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Lavoura Solteira,Não,Não se aplica,Não,515269303_1,Sim
2,515269307,1,RS,22371300951408,1,0,0,0,0,53965.24,...,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não,515269307_1,Não
3,515269309,1,PE,22371300190408,1,0,0,0,0,40026.6,...,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não,515269309_1,Não
4,515269312,1,GO,22371300951408,1,0,0,0,0,49366.26,...,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não,515269312_1,Não
5,515269313,1,GO,22371300190408,1,0,0,0,0,30314.93,...,Não se aplica,Não,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Não se aplica,Não,Não se aplica,Não,515269313_1,Não
7,515269317,1,RS,12016720000011,1,1,7,0,2,19200.0,...,Não Irrigado,Sim,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Lavoura Solteira,Não,Transgênica,Não,515269317_1,Sim
8,515269318,1,SC,12015080000011,1,1,3,0,2,66751.2,...,Não Irrigado,Sim,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Lavoura Solteira,Não,Convencional,Não,515269318_1,Sim
9,515269319,1,SC,12011260000043,1,1,3,0,2,34451.25,...,Não Irrigado,Sim,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Lavoura Solteira,Não,Convencional,Não,515269319_1,Sim
10,515269320,1,PR,12013560000021,1,1,3,0,2,106327.47,...,Não Irrigado,Sim,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Lavoura Solteira,Não,Convencional,Não,515269320_1,Sim
12,515269323,1,RS,12016720000011,1,1,7,0,2,160000.0,...,Não Irrigado,Sim,PRONAF - PROGRAMA NACIONAL DE FORTALECIMENTO D...,Sim,Lavoura Solteira,Não,Transgênica,Não,515269323_1,Sim


In [None]:
# 1) % por volume de crédito
pct_por_credito = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_AGREGADA', dropna=False)['VL_PARC_CREDITO']
      .sum()
      .pipe(lambda s: s / s.sum() * 100)
)

# 2) % por CPFs/CNPJs únicos
pct_por_uniq = (
    df_pronaf_semana_inovacao
      .groupby('FLAG_VERDE_AGREGADA', dropna=False)['CD_CPF_CNPJ']
      .nunique()
      .pipe(lambda s: s / s.sum() * 100)
)

# Junta e imprime arredondado
resultado = pd.DataFrame({
    '% por VL_PARC_CREDITO': pct_por_credito,
    '% por CPFs/CNPJs únicos': pct_por_uniq
}).round(2)

print(resultado)

# df_pivotado = df_pronaf_semana_inovacao.pivot_table(
#     index=['FLAG_VERDE_TIPO_INTGR_CONSOR','CD_TIPO_INTGR_CONSOR', 'DESCRICAO_TIPO_INTGR_CONSOR'],
#     columns='ANO',
#     values='VL_PARC_CREDITO',
#     aggfunc='sum',
#     fill_value=0
# )

# # Estilo: números pt-BR e descrição à esquerda (sem criar outro DF)
# sty = (
#     df_pivotado
#       .style
#       .format(lambda v: f'{v:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.'))
#       .set_table_styles([
#           {'selector': 'th.row_heading', 'props': [('text-align', 'left')]},   # índice à esquerda
#           {'selector': 'th.col_heading', 'props': [('text-align', 'center')]} # cabeçalhos ao centro
#       ])
# )
# display(sty)

                     % por VL_PARC_CREDITO  % por CPFs/CNPJs únicos
FLAG_VERDE_AGREGADA                                                
Não                                  67.71                    74.46
Sim                                  32.29                    25.54


# Utilizando Funções de Consulta

### consulta_pronaf_por_estado

In [None]:
# Crie uma função chamada 'consulta_pronaf_por_estado'.
# A função deve receber dois argumentos: um dataframe pandas 'df' e uma string 'cd_estado'.
# A função deve ter um type hint de retorno indicando que ela devolve uma string.

# Passo 1: Filtrar os dados
# Dentro da função, primeiro filtre o dataframe 'df'.
# O critério do filtro é manter apenas as linhas onde a coluna "CD_ESTADO" seja igual ao argumento 'cd_estado' convertido para letras maiúsculas.

# Passo 2: Lidar com estado não encontrado
# Adicione uma verificação: se o dataframe filtrado estiver vazio, a função deve retornar uma string de aviso, informando que nenhum dado foi encontrado para o estado.

# Passo 3: Agrupar e agregar
# Se o dataframe filtrado não estiver vazio, agrupe os dados pelas colunas "ANO" e "SEXO_BIOLOGICO".
# Após agrupar, calcule as seguintes agregações:
# - A SOMA da coluna "VL_PARC_CREDITO", e renomeie a coluna resultante para "Soma_VL_PARC_CREDITO".
# - A CONTAGEM da coluna "CD_CPF_CNPJ", e renomeie para "Quantidade_Operacoes".
# - A CONTAGEM DE VALORES ÚNICOS da coluna "CD_CPF_CNPJ", e renomeie para "Quantidade_Beneficiarios".
# Após a agregação, transforme o resultado de volta em um dataframe padrão.

# Passo 4: Formatar a saída
# Converta o dataframe agregado para uma string no formato Markdown.
# Na conversão para Markdown, especifique que o índice não deve ser incluído e que números de ponto flutuante devem ser formatados com duas casas decimais.

# Passo 5: Retornar o resultado final
# Por fim, a função deve retornar uma string formatada contendo um título, como "Resumo dos dados do PRONAF para o estado [NOME DO ESTADO]:", seguido por duas quebras de linha e a tabela em Markdown.

def consulta_pronaf_por_estado(df: pd.DataFrame, cd_estado: str) -> str:
    """Resumo do PRONAF por UF em Markdown."""
    df_estado = df[df["CD_ESTADO"] == cd_estado.upper()]

    if df_estado.empty:
        return (
            f"Nenhum dado encontrado para o estado '{cd_estado}'. "
            "Verifique o código UF."
        )

    resumo = (
        df_estado
        .groupby(["ANO", "SEXO_BIOLOGICO"])
        .agg(
            Soma_VL_PARC_CREDITO=("VL_PARC_CREDITO", "sum"),
            Quantidade_Operacoes=("CD_CPF_CNPJ", "count"),
            Quantidade_Beneficiarios=("CD_CPF_CNPJ", "nunique"),
        )
        .reset_index()
    )

    tabela = resumo.to_markdown(index=False, floatfmt=".2f")
    return f"Resumo dos dados do PRONAF para o estado {cd_estado.upper()}:\n\n{tabela}"

In [None]:
# testar a função consulta_pronaf_por_estado utilizando o estado do Minas Gerais
consulta_pronaf_por_estado(df_pronaf_semana_inovacao, 'AL')

'Resumo dos dados do PRONAF para o estado AL:\n\n|   ANO | SEXO_BIOLOGICO   |   Soma_VL_PARC_CREDITO |   Quantidade_Operacoes |   Quantidade_Beneficiarios |\n|------:|:-----------------|-----------------------:|-----------------------:|---------------------------:|\n|  2023 | Feminino         |           180039459.39 |                  17651 |                      13724 |\n|  2023 | Masculino        |           304390943.34 |                  18502 |                      13887 |\n|  2024 | Feminino         |           260921415.31 |                  25214 |                      15886 |\n|  2024 | Masculino        |           376586042.91 |                  24110 |                      15701 |\n|  2025 | Feminino         |           171546685.60 |                  18338 |                      10299 |\n|  2025 | Masculino        |           195038196.76 |                  14595 |                       9519 |'

> Obs.: podemos usar uma ferramenta para facilitar nossa visualização: https://dillinger.io/


### consulta_pronaf_subprograma_por_estado

In [None]:
# Crie uma função chamada 'consulta_pronaf_subprograma_por_estado'.
# A função deve receber dois argumentos: um dataframe pandas 'df' e uma string 'cd_estado'.
# A função deve ter um type hint de retorno indicando que ela devolve uma string.

# Passo 1: Filtrar os dados
# Dentro da função, primeiro filtre o dataframe 'df'.
# O critério do filtro é manter apenas as linhas onde a coluna "CD_ESTADO" seja igual ao argumento 'cd_estado' convertido para letras maiúsculas.

# Passo 2: Lidar com estado não encontrado
# Adicione uma verificação: se o dataframe filtrado estiver vazio, a função deve retornar uma string de aviso, informando que nenhum dado foi encontrado para o estado.

# Passo 3: Agrupar e agregar
# Se o dataframe filtrado não estiver vazio, agrupe os dados pelas colunas "ANO" e "DESCRICAO_SUBPROGRAMA".
# Após agrupar, calcule as seguintes agregações:
# - A SOMA da coluna "VL_PARC_CREDITO", e renomeie a coluna resultante para "Soma_VL_PARC_CREDITO".
# - A CONTAGEM da coluna "CD_CPF_CNPJ", e renomeie para "Quantidade_Operacoes".
# - A CONTAGEM DE VALORES ÚNICOS da coluna "CD_CPF_CNPJ", e renomeie para "Quantidade_Beneficiarios".
# Após a agregação, transforme o resultado de volta em um dataframe padrão.

# Passo 4: Formatar a saída
# Converta o dataframe agregado para uma string no formato Markdown.
# Na conversão para Markdown, especifique que o índice não deve ser incluído e que números de ponto flutuante devem ser formatados com duas casas decimais.

# Passo 5: Retornar o resultado final
# Por fim, a função deve retornar uma string formatada contendo um título, como "Resumo dos dados do PRONAF para o estado [NOME DO ESTADO]:", seguido por duas quebras de linha e a tabela em Markdown.

def consulta_pronaf_subprograma_por_estado(df: pd.DataFrame, cd_estado: str) -> str:
    """Resumo do PRONAF por UF em Markdown."""
    df_estado = df[df["CD_ESTADO"].astype(str).str.upper() == cd_estado.upper()]

    # Passo 2: Lidar com estado não encontrado
    if df_estado.empty:
        return f"Nenhum dado encontrado para o estado '{cd_estado}'. Verifique o código UF."

    # Passo 3: Agrupar e agregar
    resumo = (
        df_estado
        .groupby(["ANO", "DESCRICAO_SUBPROGRAMA"], dropna=False)
        .agg(
            Soma_VL_PARC_CREDITO=("VL_PARC_CREDITO", "sum"),
            Quantidade_Operacoes=("CD_CPF_CNPJ", "count"),
            Quantidade_Beneficiarios=("CD_CPF_CNPJ", "nunique"),
        )
        .reset_index()
    )

    # Passo 4: Formatar a saída
    tabela = resumo.to_markdown(index=False, floatfmt=".2f")

    # Passo 5: Retornar o resultado final
    return f"Resumo dos dados do PRONAF para o estado {cd_estado.upper()}:\n\n{tabela}"

In [None]:
# testar a função consulta_pronaf_subprograma_por_estado utilizando o estado do Minas Gerais
consulta_pronaf_subprograma_por_estado(df_pronaf_semana_inovacao, 'MG')

'Resumo dos dados do PRONAF para o estado MG:\n\n|   ANO | DESCRICAO_SUBPROGRAMA                                        |   Soma_VL_PARC_CREDITO |   Quantidade_Operacoes |   Quantidade_Beneficiarios |\n|------:|:-------------------------------------------------------------|-----------------------:|-----------------------:|---------------------------:|\n|  2023 | Agroindústria (investimento) (MCR 10-6)                      |              768437.70 |                     10 |                          9 |\n|  2023 | Cotas Partes (MCR 10-12)                                     |            81408000.00 |                      0 |                          0 |\n|  2023 | Credito de  Investimento - Pronaf Bioeconomia (MCR 10-16)    |            81230891.55 |                   1202 |                        976 |\n|  2023 | Créd Invest Agroecologia (Pronaf Agroecologia)MCR 10-14      |              248908.47 |                      3 |                          2 |\n|  2023 | Créd Invest Conviv Semi

# IA na Análise de Dados

In [None]:
# -- Instalação (se necessário)
!pip install --quiet --upgrade openai openai-agents

from openai import OpenAI
from agents import Agent, Runner, function_tool
import os

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/948.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m174.1/948.6 kB[0m [31m5.7 MB/s[0m eta [36m0:00:01[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━[0m [32m727.0/948.6 kB[0m [31m10.6 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m948.6/948.6 kB[0m [31m9.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.2/194.2 kB[0m [31m13.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m144.4/144.4 kB[0m [31m11.4 MB/s[0m eta [36m0:00:00[0m
[?25h

## chave!

In [None]:
from google.colab import userdata

os.environ["OPENAI_API_KEY"] = userdata.get('OPENAI_API_KEY')

TimeoutException: Requesting secret OPENAI_API_KEY timed out. Secrets can only be fetched when running from the Colab UI.

## Criando um agende de IA

In [None]:
# Recebe o datafra,e
df = df_pronaf_semana_inovacao

# --- Wrappers que injetam df ---
def _consulta_por_estado(cd_estado: str) -> str:
    return consulta_pronaf_por_estado(df, cd_estado)

def _consulta_subprograma(cd_estado: str) -> str:
    return consulta_pronaf_subprograma_por_estado(df, cd_estado)

# --- Ferramentas expostas ao LLM ---
@function_tool(name_override="consulta_pronaf_por_estado")
def tool_consulta_por_estado(cd_estado: str) -> str:
    """Resumo agregado do PRONAF por UF (ano x sexo)."""
    return _consulta_por_estado(cd_estado)

@function_tool(name_override="consulta_pronaf_subprograma_por_estado")
def tool_consulta_subprograma(cd_estado: str) -> str:
    """Resumo agregado do PRONAF por UF (ano x subprograma)."""
    return _consulta_subprograma(cd_estado)

# --- Definição do agente ---
agent = Agent(
    name="PRONAF Agent",
    instructions=(
    "Responda perguntas sobre PRONAF."
    "Use as ferramentas quando necessário."
    "⚠️ Sempre passe a SIGLA do estado (UF), como 'SP', 'BA', 'RS'. "
    "Nunca use códigos numéricos de IBGE."
    ),
    tools=[tool_consulta_por_estado, tool_consulta_subprograma],
)

In [None]:
#pergunta = input("Digite sua pergunta: ")
pergunta="Mostre o PRONAF de SE por sexo e por subprograma. Faça uma análise do resultado." #Plantio direto, modo de produção, linhas próprias, usa agrotóxico
# roda o agente com a pergunta digitada
# Exemplo de Pergunta: "Mostre o PRONAF de SP por sexo e por subprograma. Faça uma análise do resultado"
result = await Runner.run(agent, pergunta)
print(result.final_output)

# Vincular com um bigquery

In [None]:
#pacote obsoleto
# project_id = '365846072239'
# df_pronaf_semana_inovacao.to_gbq("enapdatasets.df_pronaf_semana_inovacao",
#               project_id=project_id,
#               chunksize=40000,
#               if_exists='replace',
#               )


# Importe a biblioteca no início do seu script
import pandas_gbq
project_id = '365846072239'
# Use a função da nova biblioteca
pandas_gbq.to_gbq(df_pronaf_semana_inovacao,
                  'enapdatasets.df_pronaf_semana_inovacao',
                  project_id=project_id,
                  if_exists='replace')