In [1]:
import pandas as pd

# Carregar os dados do arquivo pronaf.csv
#caminho_arquivo = 'data/pronaf.csv'
#dados_pronaf = pd.read_csv(caminho_arquivo)
dados_pronaf = pd.read_parquet("data/pronaf.parquet")

# Exibir as primeiras linhas do DataFrame
dados_pronaf.head()

Unnamed: 0,CD_ESTADO,VL_PARC_CREDITO,ANO,SAFRA,CD_CPF_CNPJ,SEXO_BIOLOGICO
0,SC,30302.46,2021,2020/2021,66837529072,Masculino
1,SP,84349.08,2021,2020/2021,3251808818,Masculino
2,MG,10687.82,2021,2020/2021,5194193831,Feminino
3,MG,36890.2,2021,2020/2021,4429997632,Masculino
4,MG,31582.32,2021,2020/2021,95235949668,Masculino


In [6]:
def filtrar_agregar_por_estado(dados, cd_estado):
    """
    Filtra os dados pelo código do estado (CD_ESTADO) e realiza agregações:
    - Soma do valor de crédito.
    - Contagem total de operações.
    - Número de beneficiários únicos.

    Parâmetros:
        dados (DataFrame): DataFrame com os dados do PRONAF.
        cd_estado (str): Código do estado (ex: 'MG', 'SP', etc.).

    Retorna:
        DataFrame: Resultados agregados por ano, sexo biológico e safra.
    """
    # Verifica se a coluna existe
    if 'CD_ESTADO' not in dados.columns:
        raise ValueError("A coluna 'CD_ESTADO' não foi encontrada no DataFrame.")

    # Filtra os dados
    dados_filtrados = dados[dados['CD_ESTADO'] == cd_estado]

    # Se nenhum dado for encontrado, retorna um DataFrame vazio com as colunas esperadas
    if dados_filtrados.empty:
        return pd.DataFrame(columns=['ANO', 'SEXO_BIOLOGICO', #'SAFRA', 
                                     'soma_vl_parc_credito', 
                                     'quantidade_operacoes', 
                                     'quantidade_beneficiarios'])

    # Agregação
    #resultado = dados_filtrados.groupby(['ANO', 'SEXO_BIOLOGICO', 'SAFRA']).agg(
    resultado = dados_filtrados.groupby(['ANO', 'SEXO_BIOLOGICO']).agg(
        soma_vl_parc_credito=('VL_PARC_CREDITO', 'sum'),
        quantidade_operacoes=('CD_CPF_CNPJ', 'count'),
        quantidade_beneficiarios=('CD_CPF_CNPJ', 'nunique')
    ).reset_index()

    return resultado

resultado_agregado = filtrar_agregar_por_estado(dados_pronaf, 'ES')
print(resultado_agregado.head())
resultado_agregado

    ANO SEXO_BIOLOGICO  soma_vl_parc_credito  quantidade_operacoes  \
0  2021       Feminino          1.067089e+08                  2524   
1  2021      Masculino          7.271704e+08                 14645   
2  2022       Feminino          1.407033e+08                  2534   
3  2022      Masculino          9.528852e+08                 14401   
4  2023       Feminino          2.244880e+08                  3461   

   quantidade_beneficiarios  
0                      1721  
1                      9476  
2                      1730  
3                      9467  
4                      2225  


Unnamed: 0,ANO,SEXO_BIOLOGICO,soma_vl_parc_credito,quantidade_operacoes,quantidade_beneficiarios
0,2021,Feminino,106708900.0,2524,1721
1,2021,Masculino,727170400.0,14645,9476
2,2022,Feminino,140703300.0,2534,1730
3,2022,Masculino,952885200.0,14401,9467
4,2023,Feminino,224488000.0,3461,2225
5,2023,Masculino,1449475000.0,19860,11784
6,2024,Feminino,324657500.0,4555,2789
7,2024,Masculino,1871697000.0,23773,13625
8,2025,Feminino,35748480.0,648,459
9,2025,Masculino,243614600.0,3178,2524
