In [2]:
import pandas as pd

# Carregar os dados do arquivo pronaf.csv
caminho_arquivo = 'data/pronaf.csv'
dados_pronaf = pd.read_csv(caminho_arquivo)

# Exibir as primeiras linhas do DataFrame
dados_pronaf.head()

Unnamed: 0,CD_ESTADO,VL_PARC_CREDITO,ANO,SAFRA,CD_CPF_CNPJ,SEXO_BIOLOGICO
0,MG,127922.88,2024,2023/2024,8266524688,Masculino
1,GO,91619.92,2024,2023/2024,2074654103,Masculino
2,RO,12247.05,2024,2023/2024,746451296,Masculino
3,SP,34181.94,2024,2023/2024,20331387808,Masculino
4,MS,10406.23,2024,2023/2024,4596710147,Masculino


In [3]:
def filtrar_agregar_por_estado(dados, cd_estado):
    """
    Filtra os dados pelo código do estado (CD_ESTADO) e realiza agregações:
    - Soma do valor de crédito.
    - Contagem total de operações.
    - Número de beneficiários únicos.

    Parâmetros:
        dados (DataFrame): DataFrame com os dados do PRONAF.
        cd_estado (str): Código do estado (ex: 'MG', 'SP', etc.).

    Retorna:
        DataFrame: Resultados agregados por ano, sexo biológico e safra.
    """
    # Verifica se a coluna existe
    if 'CD_ESTADO' not in dados.columns:
        raise ValueError("A coluna 'CD_ESTADO' não foi encontrada no DataFrame.")

    # Filtra os dados
    dados_filtrados = dados[dados['CD_ESTADO'] == cd_estado]

    # Se nenhum dado for encontrado, retorna um DataFrame vazio com as colunas esperadas
    if dados_filtrados.empty:
        return pd.DataFrame(columns=['ANO', 'SEXO_BIOLOGICO', #'SAFRA', 
                                     'soma_vl_parc_credito', 
                                     'quantidade_operacoes', 
                                     'quantidade_beneficiarios'])

    # Agregação
    #resultado = dados_filtrados.groupby(['ANO', 'SEXO_BIOLOGICO', 'SAFRA']).agg(
    resultado = dados_filtrados.groupby(['ANO', 'SEXO_BIOLOGICO']).agg(
        soma_vl_parc_credito=('VL_PARC_CREDITO', 'sum'),
        quantidade_operacoes=('CD_CPF_CNPJ', 'count'),
        quantidade_beneficiarios=('CD_CPF_CNPJ', 'nunique')
    ).reset_index()

    return resultado

resultado_agregado = filtrar_agregar_por_estado(dados_pronaf, 'PA')
print(resultado_agregado.head())
resultado_agregado

    ANO SEXO_BIOLOGICO  soma_vl_parc_credito  quantidade_operacoes  \
0  2024       Feminino          3.614174e+08                  6384   
1  2024      Masculino          9.366317e+08                 12000   
2  2025       Feminino          2.878582e+07                   852   
3  2025      Masculino          7.596973e+07                  1445   

   quantidade_beneficiarios  
0                      4825  
1                      9077  
2                       804  
3                      1368  


Unnamed: 0,ANO,SEXO_BIOLOGICO,soma_vl_parc_credito,quantidade_operacoes,quantidade_beneficiarios
0,2024,Feminino,361417400.0,6384,4825
1,2024,Masculino,936631700.0,12000,9077
2,2025,Feminino,28785820.0,852,804
3,2025,Masculino,75969730.0,1445,1368
