In [4]:
import pandas as pd
import os

# Caminho do arquivo
caminho_arquivo = r"C:\Users\marce\OneDrive - Ministério da Agricultura e Pecuária\LAB_DATA_MDA\PRONAF_EXTRACT\dados_prontos\pronaf.parquet"

# Leitura do arquivo Parquet
df = pd.read_parquet(caminho_arquivo)

# Exibindo as primeiras linhas
print(df.head())


  REF_BACEN NU_ORDEM   CNPJ_IF DT_EMISSAO DT_VENCIMENTO CD_INST_CREDITO  \
0      1102        1  00000000 2013-01-02    2014-01-02               1   
1      1102        2  00000000 2013-01-02    2014-01-02               1   
2      1103        1  00000000 2013-01-02    2014-01-02               8   
3      1104        1  00000000 2013-01-02    2014-02-28               1   
4      1105        1  07237373 2013-01-02    2018-01-02               2   

  CD_CATEG_EMITENTE CD_FONTE_RECURSO CNPJ_AGENTE_INVEST CD_ESTADO  ...  \
0              3333             0300               None        GO  ...   
1              3333             0300               None        GO  ...   
2              2222             0300               None        SE  ...   
3              3333             0300               None        PR  ...   
4              5555             0502               None        SE  ...   

  PC_BONUS_CAR MES SEMESTRE   ANO      SAFRA  \
0         None   1        1  2013  2012/2013   
1       

In [8]:
def tratar_dataframe(df, ano_filtro, cd_programa):
    """
    Trata o dataframe filtrando por ano e programa, selecionando colunas específicas
    e removendo valores zero na coluna VL_PARC_CREDITO.

    Parâmetros:
        df (pd.DataFrame): DataFrame a ser tratado.
        ano_filtro (int): Ano mínimo para o filtro.

    Retorno:
        pd.DataFrame: DataFrame tratado.
    """
    # Filtrar por ANO > ano_filtro e CD_PROGRAMA = '0001'
    df_filtrado = df[(df['ANO'] > ano_filtro) & (df['CD_PROGRAMA'] == cd_programa)]

    # Selecionar colunas
    colunas_selecionadas = [
        'CD_ESTADO', 'VL_PARC_CREDITO', 'ANO', 'SAFRA', 'CD_CPF_CNPJ', 'SEXO_BIOLOGICO'
    ]
    df_filtrado = df_filtrado[colunas_selecionadas]

    # Remover valores zero em VL_PARC_CREDITO
    df_filtrado['VL_PARC_CREDITO'] = pd.to_numeric(df_filtrado['VL_PARC_CREDITO'], errors='coerce')
    df_filtrado = df_filtrado[df_filtrado['VL_PARC_CREDITO'] > 0]
    # Tratamento dos dados (exemplo: remover valores nulos)
    df_filtrado = df_filtrado.dropna()

    return df_filtrado

In [17]:
df_tratado = tratar_dataframe(df, 2023, "0001")
df_tratado

Unnamed: 0,CD_ESTADO,VL_PARC_CREDITO,ANO,SAFRA,CD_CPF_CNPJ,SEXO_BIOLOGICO
23362111,MG,127922.88,2024,2023/2024,08266524688,Masculino
23362112,GO,91619.92,2024,2023/2024,02074654103,Masculino
23362113,RO,12247.05,2024,2023/2024,00746451296,Masculino
23362114,SP,34181.94,2024,2023/2024,20331387808,Masculino
23362115,MS,10406.23,2024,2023/2024,04596710147,Masculino
...,...,...,...,...,...,...
25900339,PR,100800.00,2025,2024/2025,73509965949,Masculino
25900340,PR,100800.00,2025,2024/2025,05265986979,Feminino
25900341,RS,65000.00,2025,2024/2025,70043752004,Masculino
25900342,PR,226980.00,2025,2024/2025,11119433975,Masculino


In [18]:
# Salvar o arquivo tratado como CSV
output_path = "data/pronaf.csv"
df_tratado.to_csv(output_path, index=False)

print(f"Arquivo salvo em: {output_path}")

Arquivo salvo em: data/pronaf.csv


In [19]:
import os

# Verificar o tamanho do arquivo
file_size = os.path.getsize(output_path)

# Converter o tamanho para MB
file_size_mb = file_size / (1024 * 1024)

# Verificar se o tamanho ultrapassa 100 MB
if file_size_mb > 100:
    print(f"Alerta: O arquivo {output_path} ultrapassou 100 MB ({file_size_mb:.2f} MB).")
else:
    print(f"O arquivo {output_path} tem {file_size_mb:.2f} MB e está dentro do limite.")

O arquivo data/pronaf.csv tem 84.23 MB e está dentro do limite.
