In [1]:
import pandas as pd
import os

# Caminho do arquivo
caminho_arquivo = r"C:\Users\marce\OneDrive - Ministério da Agricultura e Pecuária\LAB_DATA_MDA\PRONAF_EXTRACT\dados_prontos\pronaf.parquet"

# Leitura do arquivo Parquet
df = pd.read_parquet(caminho_arquivo)

# Exibindo as primeiras linhas
print(df.head())


  REF_BACEN NU_ORDEM   CNPJ_IF DT_EMISSAO DT_VENCIMENTO CD_INST_CREDITO  \
0      1102        1  00000000 2013-01-02    2014-01-02               1   
1      1102        2  00000000 2013-01-02    2014-01-02               1   
2      1103        1  00000000 2013-01-02    2014-01-02               8   
3      1104        1  00000000 2013-01-02    2014-02-28               1   
4      1105        1  07237373 2013-01-02    2018-01-02               2   

  CD_CATEG_EMITENTE CD_FONTE_RECURSO CNPJ_AGENTE_INVEST CD_ESTADO  ...  \
0              3333             0300               None        GO  ...   
1              3333             0300               None        GO  ...   
2              2222             0300               None        SE  ...   
3              3333             0300               None        PR  ...   
4              5555             0502               None        SE  ...   

  PC_BONUS_CAR MES SEMESTRE   ANO      SAFRA  \
0         None   1        1  2013  2012/2013   
1       

In [2]:
def tratar_dataframe(df, ano_filtro, cd_programa):
    """
    Trata o dataframe filtrando por ano e programa, selecionando colunas específicas
    e removendo valores zero na coluna VL_PARC_CREDITO.

    Parâmetros:
        df (pd.DataFrame): DataFrame a ser tratado.
        ano_filtro (int): Ano mínimo para o filtro.

    Retorno:
        pd.DataFrame: DataFrame tratado.
    """
    # Filtrar por ANO > ano_filtro e CD_PROGRAMA = '0001'
    df_filtrado = df[(df['ANO'] > ano_filtro) & (df['CD_PROGRAMA'] == cd_programa)]

    # Selecionar colunas
    colunas_selecionadas = [
        'CD_ESTADO', 'VL_PARC_CREDITO', 'ANO', 'SAFRA', 'CD_CPF_CNPJ', 'SEXO_BIOLOGICO'
    ]
    df_filtrado = df_filtrado[colunas_selecionadas]

    # Remover valores zero em VL_PARC_CREDITO
    df_filtrado['VL_PARC_CREDITO'] = pd.to_numeric(df_filtrado['VL_PARC_CREDITO'], errors='coerce')
    df_filtrado = df_filtrado[df_filtrado['VL_PARC_CREDITO'] > 0]
    # Tratamento dos dados (exemplo: remover valores nulos)
    df_filtrado = df_filtrado.dropna()

    return df_filtrado

In [11]:
df_tratado = tratar_dataframe(df, 2020, "0001")
df_tratado

Unnamed: 0,CD_ESTADO,VL_PARC_CREDITO,ANO,SAFRA,CD_CPF_CNPJ,SEXO_BIOLOGICO
17240339,SC,30302.46,2021,2020/2021,66837529072,Masculino
17240340,SP,84349.08,2021,2020/2021,03251808818,Masculino
17240341,MG,10687.82,2021,2020/2021,05194193831,Feminino
17240342,MG,36890.20,2021,2020/2021,04429997632,Masculino
17240343,MG,31582.32,2021,2020/2021,95235949668,Masculino
...,...,...,...,...,...,...
25936651,PR,100800.00,2025,2024/2025,73509965949,Masculino
25936652,PR,100800.00,2025,2024/2025,05265986979,Feminino
25936653,RS,65000.00,2025,2024/2025,70043752004,Masculino
25936655,PR,226980.00,2025,2024/2025,11119433975,Masculino


In [12]:
# Salvar o arquivo tratado como CSV
output_path = "data/pronaf.csv"
df_tratado.to_csv(output_path, index=False)

print(f"Arquivo salvo em: {output_path}")

# Salvar o arquivo tratado como Parquet
parquet_output_path = "data/pronaf.parquet"
df_tratado.to_parquet(parquet_output_path, index=False)
print(f"Arquivo Parquet salvo em: {parquet_output_path}")

Arquivo salvo em: data/pronaf.csv
Arquivo Parquet salvo em: data/pronaf.parquet


In [None]:
import os
import pandas as pd

# Caminhos dos arquivos
#csv_output_path = "data/pronaf.csv"
parquet_output_path = "data/pronaf.parquet"

# Salvar como CSV
#df_tratado.to_csv(csv_output_path, index=False)
#print(f"Arquivo CSV salvo em: {csv_output_path}")

# Salvar como Parquet
df_tratado.to_parquet(parquet_output_path, index=False)
print(f"Arquivo Parquet salvo em: {parquet_output_path}")

# Função para verificar e exibir o tamanho do arquivo
def exibir_tamanho_arquivo(caminho_arquivo, limite_mb=100):
    file_size = os.path.getsize(caminho_arquivo)
    file_size_mb = file_size / (1024 * 1024)
    if file_size_mb > limite_mb:
        print(f"Alerta: O arquivo {caminho_arquivo} ultrapassou {limite_mb} MB ({file_size_mb:.2f} MB).")
    else:
        print(f"O arquivo {caminho_arquivo} tem {file_size_mb:.2f} MB e está dentro do limite.")

# Verificar tamanho dos arquivos
#exibir_tamanho_arquivo(csv_output_path)
exibir_tamanho_arquivo(parquet_output_path)


Arquivo CSV salvo em: data/pronaf.csv
Arquivo Parquet salvo em: data/pronaf.parquet
Alerta: O arquivo data/pronaf.csv ultrapassou 100 MB (277.01 MB).
O arquivo data/pronaf.parquet tem 73.30 MB e está dentro do limite.
