In [1]:
import pandas as pd

# Carregar os dados do arquivo pronaf.csv
#caminho_arquivo = 'data/pronaf.csv'
#dados_pronaf = pd.read_csv(caminho_arquivo)
dados_pronaf = pd.read_parquet("data/pronaf.parquet")

# Exibir as primeiras linhas do DataFrame
dados_pronaf.head()

Unnamed: 0,CD_ESTADO,VL_PARC_CREDITO,ANO,SAFRA,CD_CPF_CNPJ,SEXO_BIOLOGICO
0,SC,30302.46,2021,2020/2021,66837529072,Masculino
1,SP,84349.08,2021,2020/2021,3251808818,Masculino
2,MG,10687.82,2021,2020/2021,5194193831,Feminino
3,MG,36890.2,2021,2020/2021,4429997632,Masculino
4,MG,31582.32,2021,2020/2021,95235949668,Masculino


In [4]:
def filtrar_agregar_por_estado(dados, cd_estado):
    """
    Filtra os dados pelo código do estado (CD_ESTADO) e realiza agregações:
    - Soma do valor de crédito.
    - Contagem total de operações.
    - Número de beneficiários únicos.

    Parâmetros:
        dados (DataFrame): DataFrame com os dados do PRONAF.
        cd_estado (str): Código do estado (ex: 'MG', 'SP', etc.).

    Retorna:
        DataFrame: Resultados agregados por ano, sexo biológico e safra.
    """
    # Verifica se a coluna existe
    if 'CD_ESTADO' not in dados.columns:
        raise ValueError("A coluna 'CD_ESTADO' não foi encontrada no DataFrame.")

    # Filtra os dados
    dados_filtrados = dados[dados['CD_ESTADO'] == cd_estado]

    # Se nenhum dado for encontrado, retorna um DataFrame vazio com as colunas esperadas
    if dados_filtrados.empty:
        return pd.DataFrame(columns=['ANO', 'SEXO_BIOLOGICO', #'SAFRA', 
                                     'soma_vl_parc_credito', 
                                     'quantidade_operacoes', 
                                     'quantidade_beneficiarios'])

    # Agregação
    #resultado = dados_filtrados.groupby(['ANO', 'SEXO_BIOLOGICO', 'SAFRA']).agg(
    resultado = dados_filtrados.groupby(['ANO', 'SEXO_BIOLOGICO']).agg(
        soma_vl_parc_credito=('VL_PARC_CREDITO', 'sum'),
        quantidade_operacoes=('CD_CPF_CNPJ', 'count'),
        quantidade_beneficiarios=('CD_CPF_CNPJ', 'nunique')
    ).reset_index()

    return resultado

resultado_agregado = filtrar_agregar_por_estado(dados_pronaf, 'SP')
print(resultado_agregado.head())
resultado_agregado

    ANO SEXO_BIOLOGICO  soma_vl_parc_credito  quantidade_operacoes  \
0  2021       Feminino          7.807843e+07                  1671   
1  2021      Masculino          5.362331e+08                  9531   
2  2022       Feminino          8.448478e+07                  1394   
3  2022      Masculino          5.585870e+08                  7605   
4  2023       Feminino          1.047064e+08                  1760   

   quantidade_beneficiarios  
0                      1179  
1                      6708  
2                      1047  
3                      5525  
4                      1259  


Unnamed: 0,ANO,SEXO_BIOLOGICO,soma_vl_parc_credito,quantidade_operacoes,quantidade_beneficiarios
0,2021,Feminino,78078430.0,1671,1179
1,2021,Masculino,536233100.0,9531,6708
2,2022,Feminino,84484780.0,1394,1047
3,2022,Masculino,558587000.0,7605,5525
4,2023,Feminino,104706400.0,1760,1259
5,2023,Masculino,667685800.0,9187,6288
6,2024,Feminino,132780500.0,2025,1421
7,2024,Masculino,781935500.0,9760,6534
8,2025,Feminino,16923560.0,245,226
9,2025,Masculino,115866700.0,1388,1267
