In [None]:
# LENDO ARQUIVO PARQUET
import polars as pl
import numpy as np
from datetime import datetime
from scipy.stats import kurtosis, skew
import matplotlib.pyplot as plt

# ENDERECO_DADOS = r'../bronze/'
ENDERECO_DADOS = r'./PARQUET/'

try:
    print('\nIniciando leitura do arquivo parquet...')
    inicio = datetime.now()  # Pega o tempo inicial

    # Gera o plano de execução para leitura do arquivo parquet
    df_plano_execucao = pl.scan_parquet(ENDERECO_DADOS + 'bolsa_familia.parquet')  # Polars - leitura direta
    
    # Executa o plano de execução para obter o DataFrame
    df_bolsa_familia = df_plano_execucao.collect()

    print(df_bolsa_familia.head(10))
    print('\nArquivo parquet lido com sucesso!')

    fim = datetime.now()  # Pega o tempo final
    print(f'Tempo de execução para leitura do parquet: {fim - inicio}')
except Exception as e:
    print(f'Erro ao ler os dados do parquet: {e}')

In [2]:
try:
    # PRÉPROCESSAMENTO - TRANSFORMAÇÃO
    # # POLARS
    # df_bolsa_familia = df_bolsa_familia.with_columns(
    #     pl.col('VALOR PARCELA').str.replace(',','.').cast(pl.Float64)
    # )

    # 
    # PRÉPROCESSAMENTO - TRANSFORMAÇÃO
    # delimitando as colunas para exibir: NOME MUNICÍPIO, VALOR PARCELA
    print('\nIniciando processamento dos dados do DataFrame...')    
    df_bolsa_familia = df_bolsa_familia[['NOME MUNICÍPIO', 'VALOR PARCELA']]

    # PROCESSAMENTO - TRANSFORMAÇÃO
    # POLARS
    df_bolsa_familia = (
        df_bolsa_familia.group_by('NOME MUNICÍPIO')
        .agg(pl.col('VALOR PARCELA')
        .sum())
        )

    # PROCESSAMENTO - TRANSFORMAÇÃO (Pensar no pré-processamento como o esforço necessário para deixar os dados "utilizáveis" e "limpos".)
    # POLARS 
    df_bolsa_familia = df_bolsa_familia.sort(by='VALOR PARCELA', descending=True)
    print(df_bolsa_familia.head(10))

except Exception as e:
    print("Erro ao Converter Valor da Parcela: ", e)


Iniciando processamento dos dados do DataFrame...
shape: (10, 2)
┌────────────────┬───────────────┐
│ NOME MUNICÍPIO ┆ VALOR PARCELA │
│ ---            ┆ ---           │
│ str            ┆ f64           │
╞════════════════╪═══════════════╡
│ SAO PAULO      ┆ 2.2183e9      │
│ RIO DE JANEIRO ┆ 1.6182e9      │
│ FORTALEZA      ┆ 1.0333e9      │
│ SALVADOR       ┆ 9.63887897e8  │
│ MANAUS         ┆ 8.89314754e8  │
│ BRASILIA       ┆ 5.69956704e8  │
│ BELEM          ┆ 5.58587046e8  │
│ RECIFE         ┆ 4.81529203e8  │
│ SAO LUIS       ┆ 4.25868281e8  │
│ NOVA IGUACU    ┆ 4.23144236e8  │
└────────────────┴───────────────┘
