**LAZY EVALUATION:**

Otimiza o processamento dos dados volumosos, adiando operações
para etapas posteriores. Estratégia de processamento que adianta
a execução até o momento estritamente necessário.

In [7]:
import polars as pl

parquet1=pl.read_parquet('202501_NovoBolsaFamilia_polars.parquet')

display(parquet1.head())
#Carregando o arquivo .parquet através de Lazy Evaluation:
df_lazy=pl.scan_parquet('202501_NovoBolsaFamilia_polars.parquet')

MÊS COMPETÊNCIA,MÊS REFERÊNCIA,UF,CÓDIGO MUNICÍPIO SIAFI,NOME MUNICÍPIO,CPF FAVORECIDO,NIS FAVORECIDO,NOME FAVORECIDO,VALOR PARCELA
i64,i64,str,i64,str,str,i64,str,str
202501,202308,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202309,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202310,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202311,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202312,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""


In [8]:
# LAZY:
df_lazy = pl.DataFrame(parquet1).lazy()  # Transforma em LazyFrame: um plano de execução adiado (não executa imediatamente).
                                         # Usado para construir consultas complexas antes de materializá-las.

In [9]:
# EXPLAIN:
df_lazy.filter(pl.col("NOME MUNICÍPIO")=="RIO DE JANEIRO").explain() # Mostra o plano de execução otimizado da consulta (sem rodá-la).
                                                                     # Útil para depuração e entendimento de como o Polars processará os dados.

'FILTER [(col("NOME MUNICÍPIO")) == ("RIO DE JANEIRO")]\nFROM\n  DF ["MÊS COMPETÊNCIA", "MÊS REFERÊNCIA", "UF", "CÓDIGO MUNICÍPIO SIAFI", ...]; PROJECT */9 COLUMNS'

In [11]:
# COLLECT:
resultado=(df_lazy.filter(pl.col("NOME MUNICÍPIO")=="RIO DE JANEIRO").collect()) # Força a execução do LazyFrame e retorna um DataFrame tradicional.
                                                                                 # Todas as otimizações são aplicadas neste momento.
display(resultado)

MÊS COMPETÊNCIA,MÊS REFERÊNCIA,UF,CÓDIGO MUNICÍPIO SIAFI,NOME MUNICÍPIO,CPF FAVORECIDO,NIS FAVORECIDO,NOME FAVORECIDO,VALOR PARCELA
i64,i64,str,i64,str,str,i64,str,str
202501,202407,"""RJ""",6001,"""RIO DE JANEIRO""","""***.876.487-**""",12333384281,"""ADILSON FERREIRA MAGALHAES""","""600,00"""
202501,202407,"""RJ""",6001,"""RIO DE JANEIRO""","""***.369.454-**""",12811387449,"""ADRIANO PEREIRA DA SILVA""","""600,00"""
202501,202407,"""RJ""",6001,"""RIO DE JANEIRO""","""***.157.816-**""",12430302812,"""AGILSON GERALDO FERREIRA""","""700,00"""
202501,202407,"""RJ""",6001,"""RIO DE JANEIRO""","""***.077.817-**""",13094201120,"""ALESSANDRA FERREIRA DE JESUS""","""700,00"""
202501,202407,"""RJ""",6001,"""RIO DE JANEIRO""","""***.728.677-**""",12481440473,"""ALEXANDRE LUIS LEMOS VAZQUEZ""","""600,00"""
…,…,…,…,…,…,…,…,…
202502,202502,"""RJ""",6001,"""RIO DE JANEIRO""","""***.675.377-**""",16632293450,"""ZULNARA XAVIER""","""600,00"""
202502,202502,"""RJ""",6001,"""RIO DE JANEIRO""","""***.890.187-**""",12164939451,"""ZULZIMAR DOS SANTOS PIRES""","""600,00"""
202502,202502,"""RJ""",6001,"""RIO DE JANEIRO""","""***.963.237-**""",12288562597,"""ZUMILDO BATISTA DOS SANTOS""","""650,00"""
202502,202502,"""RJ""",6001,"""RIO DE JANEIRO""","""""",13699562815,"""ZUREMA PATRICIA DE SOUSA GASPA…","""700,00"""


**Comparando Comandos para Análise Exploratória: Pandas vs Polars**

In [2]:
import pandas as pd
import polars as pl

In [4]:
#Carregamento dos dados:

df_polars=pl.scan_parquet('202501_NovoBolsaFamilia_polars.parquet')

df_polars=pl.read_parquet('202501_NovoBolsaFamilia_polars.parquet')

In [5]:
# #Visualização:

# display(df_pandas.head())

print('*********************************')

display(df_polars.head())

*********************************


MÊS COMPETÊNCIA,MÊS REFERÊNCIA,UF,CÓDIGO MUNICÍPIO SIAFI,NOME MUNICÍPIO,CPF FAVORECIDO,NIS FAVORECIDO,NOME FAVORECIDO,VALOR PARCELA
i64,i64,str,i64,str,str,i64,str,str
202501,202308,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202309,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202310,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202311,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202312,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""


In [6]:
# #Seleção de Colunas:

# display(df_pandas["CÓDIGO MUNICÍPIO SIAFI"])

# print('*********************************')

display(df_polars.select("CÓDIGO MUNICÍPIO SIAFI"))

CÓDIGO MUNICÍPIO SIAFI
i64
7071
7071
7071
7071
7071
…
9643
9643
9643
9643


In [7]:
# #Filtros e Condições:

# display(df_pandas[df_pandas["MÊS COMPETÊNCIA"]==202401])

# print('*********************************')

display(df_polars.filter(pl.col("MÊS COMPETÊNCIA")==202501))

MÊS COMPETÊNCIA,MÊS REFERÊNCIA,UF,CÓDIGO MUNICÍPIO SIAFI,NOME MUNICÍPIO,CPF FAVORECIDO,NIS FAVORECIDO,NOME FAVORECIDO,VALOR PARCELA
i64,i64,str,i64,str,str,i64,str,str
202501,202308,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202309,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202310,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202311,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202312,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
…,…,…,…,…,…,…,…,…
202501,202501,"""TO""",9643,"""XAMBIOA""","""""",16640890691,"""ZEIA DE SOUZA LUCIO""","""750,00"""
202501,202501,"""TO""",9643,"""XAMBIOA""","""***.273.191-**""",20644881997,"""ZENILDE ALVES DOS SANTOS""","""600,00"""
202501,202501,"""TO""",9643,"""XAMBIOA""","""""",19058661973,"""ZENOLIA RAMOS DA SILVA CARVALH…","""600,00"""
202501,202501,"""TO""",9643,"""XAMBIOA""","""***.822.651-**""",20919263822,"""ZILMA ALVES DE BARROS""","""600,00"""


In [8]:
# #Estatísticas Descritivas:

# display(df_pandas["UF"].describe())

# print('*********************************')

display(df_polars.select(pl.col("UF")).describe())

statistic,UF
str,str
"""count""","""40810993"""
"""null_count""","""0"""
"""mean""",
"""std""",
"""min""","""AC"""
"""25%""",
"""50%""",
"""75%""",
"""max""","""TO"""


In [9]:
# #Ordenação dos Dados:

# display(df_pandas.sort_values(by="NOME MUNICÍPIO"))

# print('*********************************')

display(df_polars.sort("NOME MUNICÍPIO"))

MÊS COMPETÊNCIA,MÊS REFERÊNCIA,UF,CÓDIGO MUNICÍPIO SIAFI,NOME MUNICÍPIO,CPF FAVORECIDO,NIS FAVORECIDO,NOME FAVORECIDO,VALOR PARCELA
i64,i64,str,i64,str,str,i64,str,str
202501,202409,"""GO""",1050,"""ABADIA DE GOIAS""","""***.747.191-**""",13492486311,"""LORRANE DE JESUS MARTINS""","""1102,00"""
202501,202410,"""GO""",1050,"""ABADIA DE GOIAS""","""***.747.191-**""",13492486311,"""LORRANE DE JESUS MARTINS""","""1102,00"""
202501,202410,"""GO""",1050,"""ABADIA DE GOIAS""","""***.796.923-**""",16403332083,"""MARIA ANTONIA DUTRA DA SILVA""","""700,00"""
202501,202411,"""GO""",1050,"""ABADIA DE GOIAS""","""***.901.053-**""",20435347513,"""EVANILDE DA SILVA DE SOUSA""","""1202,00"""
202501,202411,"""GO""",1050,"""ABADIA DE GOIAS""","""***.548.031-**""",23847604690,"""LAZARA MADALENA CAMARGO""","""700,00"""
…,…,…,…,…,…,…,…,…
202502,202502,"""SC""",950,"""ZORTEA""","""***.952.429-**""",12276300851,"""WERA ADILES DA COSTA SILVA""","""325,00"""
202502,202502,"""SC""",950,"""ZORTEA""","""""",21444631421,"""YANNIMAR ALVAREZ CASTILLO""","""455,00"""
202502,202502,"""SC""",950,"""ZORTEA""","""""",12587481920,"""YUGERKIS CAROLINA MARCANO CACH…","""722,00"""
202502,202502,"""SC""",950,"""ZORTEA""","""""",21435138513,"""YUSMERIS JOSEFINA URBINA BRITO""","""375,00"""


In [10]:
#Agregação e Agrupamento:

#exemplo: agrupando por colunas e e contando em cima do que foi selecionado

# display(df_pandas.groupby('UF')['NOME MUNICÍPIO'].value_counts())

# print('*********************************')

display(df_polars.group_by('UF').agg(pl.col('NOME MUNICÍPIO').value_counts()))


UF,NOME MUNICÍPIO
str,list[struct[2]]
"""ES""","[{""BARRA DE SAO FRANCISCO"",6881}, {""IBITIRAMA"",3621}, … {""RIO BANANAL"",2949}]"
"""RJ""","[{""SAO JOAO DE MERITI"",82386}, {""GUAPIMIRIM"",15795}, … {""ITAOCARA"",4075}]"
"""DF""","[{""BRASILIA"",346346}]"
"""AC""","[{""RIO BRANCO"",89137}, {""SENA MADUREIRA"",18421}, … {""MANCIO LIMA"",8872}]"
"""CE""","[{""CEDRO"",8364}, {""COREAU"",9297}, … {""URUBURETAMA"",10107}]"
…,…
"""PA""","[{""NOVO REPARTIMENTO"",24314}, {""JACUNDA"",14231}, … {""SANTA CRUZ DO ARARI"",3644}]"
"""MS""","[{""FATIMA DO SUL"",2156}, {""CHAPADAO DO SUL"",3123}, … {""BONITO"",3626}]"
"""SE""","[{""ILHA DAS FLORES"",4421}, {""NEOPOLIS"",6723}, … {""NOSSA SENHORA DO SOCORRO"",65723}]"
"""RS""","[{""SANTA CRUZ DO SUL"",11260}, {""BUTIA"",3989}, … {""RIO GRANDE"",23845}]"


**Manipulação de Linhas e Colunas:**

In [11]:
#Remoção de Linhas:

#pandas
# df_pandas=df_pandas.drop(1)
# display(df_pandas.head())

#polars
df_polars=df_polars.slice(1)
display(df_polars.head())

MÊS COMPETÊNCIA,MÊS REFERÊNCIA,UF,CÓDIGO MUNICÍPIO SIAFI,NOME MUNICÍPIO,CPF FAVORECIDO,NIS FAVORECIDO,NOME FAVORECIDO,VALOR PARCELA
i64,i64,str,i64,str,str,i64,str,str
202501,202309,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202310,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202311,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202312,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202401,"""CE""",1389,"""FORTALEZA""","""***.854.493-**""",13024055192,"""IRENICE CAMELO VALETE""","""750,00"""


In [12]:
#Adição de Colunas:

#pandas
# df_pandas["DK"]=0
# display(df_pandas.head())

#polars
df_polars=df_polars.with_columns(pl.lit(0).alias('DK'))
display(df_polars.head())

MÊS COMPETÊNCIA,MÊS REFERÊNCIA,UF,CÓDIGO MUNICÍPIO SIAFI,NOME MUNICÍPIO,CPF FAVORECIDO,NIS FAVORECIDO,NOME FAVORECIDO,VALOR PARCELA,DK
i64,i64,str,i64,str,str,i64,str,str,i32
202501,202309,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00""",0
202501,202310,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00""",0
202501,202311,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00""",0
202501,202312,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00""",0
202501,202401,"""CE""",1389,"""FORTALEZA""","""***.854.493-**""",13024055192,"""IRENICE CAMELO VALETE""","""750,00""",0


In [13]:
#Remoção de Colunas:

# #pandas
# df_pandas=df_pandas.drop(columns=['DK'])
# display(df_pandas.head())

#polars
df_polars=df_polars.drop(['DK'])
display(df_polars.head())

MÊS COMPETÊNCIA,MÊS REFERÊNCIA,UF,CÓDIGO MUNICÍPIO SIAFI,NOME MUNICÍPIO,CPF FAVORECIDO,NIS FAVORECIDO,NOME FAVORECIDO,VALOR PARCELA
i64,i64,str,i64,str,str,i64,str,str
202501,202309,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202310,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202311,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202312,"""SP""",7071,"""SANTOS""","""***.085.106-**""",20643890445,"""FERNANDA RAMOS TEIXEIRA""","""650,00"""
202501,202401,"""CE""",1389,"""FORTALEZA""","""***.854.493-**""",13024055192,"""IRENICE CAMELO VALETE""","""750,00"""


In [26]:
# Exemplo de Aplicação para Atividades futuras:

# Passo 1: Carregar dados (lazy)
dados_lazy = pl.scan_parquet('202501_NovoBolsaFamilia_polars.parquet')

# Passo 2: Construir consulta (NA ORDEM, temos filtro, agrupamento e agregação)
consulta = (
    dados_lazy.filter(pl.col("NOME MUNICÍPIO") == "RIO DE JANEIRO")
    .group_by("NOME FAVORECIDO")
    .agg(pl.col("VALOR PARCELA").count())             
)

# Passo 3: Verificar plano (opcional)
print(consulta.explain())

# Passo 4: Executar e obter resultado
resultado = consulta.collect()

AGGREGATE[maintain_order: false]
  [col("VALOR PARCELA").count()] BY [col("NOME FAVORECIDO")]
  FROM
  Parquet SCAN [202501_NovoBolsaFamilia_polars.parquet] [id: 5018013419888]
  PROJECT 3/9 COLUMNS
  SELECTION: [(col("NOME MUNICÍPIO")) == ("RIO DE JANEIRO")]


In [33]:
# Análise Estatística com LazyEvaluation:
consulta = (
    dados_lazy
    .filter(pl.col("NOME MUNICÍPIO") == "RIO DE JANEIRO")
    .group_by("NOME FAVORECIDO")
    .agg(pl.col("VALOR PARCELA").mean().alias("MÉDIA VALOR PARCELA"),
         pl.col("VALOR PARCELA").sum().alias("SOMA VALOR PARCELA"))
)
# Passo 5: Verificar plano (opcional)
print(consulta.explain())
# Passo 6: Executar e obter resultado
resultado_estatisticas = consulta.collect()
# Exibir resultados
display(resultado_estatisticas)

AGGREGATE[maintain_order: false]
  [col("VALOR PARCELA").mean().alias("MÉDIA VALOR PARCELA"), col("VALOR PARCELA").sum().alias("SOMA VALOR PARCELA")] BY [col("NOME FAVORECIDO")]
  FROM
  Parquet SCAN [202501_NovoBolsaFamilia_polars.parquet] [id: 5018013420784]
  PROJECT 3/9 COLUMNS
  SELECTION: [(col("NOME MUNICÍPIO")) == ("RIO DE JANEIRO")]


NOME FAVORECIDO,MÉDIA VALOR PARCELA,SOMA VALOR PARCELA
str,str,str
"""DENISE GAYOSO DE MAGALHAES QUE…",,
"""LUCIA ANITA ROCHA CUSTODIO VIE…",,
"""DRYELLE RODRIGUES DE OLIVEIRA …",,
"""BRENDA RAFAELA SILVA SANTANA""",,
"""JESSICA SOUZA DO NASCIMENTO""",,
…,…,…
"""DANIELE GOMES ALVES""",,
"""VALERIA LUCIA ALMEIDA""",,
"""ERICA MARIA DA CONCEICAO""",,
"""CRISLLAINE FRANCA DO ROSARIO""",,


In [34]:
# Análise Estatística com conversão prévia de tipo
consulta = (
    dados_lazy
    .filter(pl.col("NOME MUNICÍPIO") == "RIO DE JANEIRO")
    # Primeiro fazemos a conversão da coluna VALOR PARCELA para float
    .with_columns(
        pl.col("VALOR PARCELA")
        .str.replace(",", ".")  # Substitui vírgula por ponto (formato brasileiro)
        .cast(pl.Float64)       # Converte para float
        .alias("VALOR PARCELA") # Mantém o mesmo nome da coluna
    )
    # Agora podemos fazer as agregações
    .group_by("NOME FAVORECIDO")
    .agg(
        pl.col("VALOR PARCELA").mean().alias("MÉDIA VALOR PARCELA"),
        pl.col("VALOR PARCELA").sum().alias("SOMA VALOR PARCELA"),
        pl.col("VALOR PARCELA").count().alias("QTD PARCELAS")
    )
)

# Verificar plano de execução (opcional)
print(consulta.explain())

# Executar e obter resultado
resultado_estatisticas = consulta.collect()

# Exibir resultados
display(resultado_estatisticas)

AGGREGATE[maintain_order: false]
  [col("VALOR PARCELA").mean().alias("MÉDIA VALOR PARCELA"), col("VALOR PARCELA").sum().alias("SOMA VALOR PARCELA"), col("VALOR PARCELA").count().alias("QTD PARCELAS")] BY [col("NOME FAVORECIDO")]
  FROM
   WITH_COLUMNS:
   [col("VALOR PARCELA").str.replace([",", "."]).strict_cast(Float64).alias("VALOR PARCELA")] 
    Parquet SCAN [202501_NovoBolsaFamilia_polars.parquet] [id: 5018013419968]
    PROJECT 3/9 COLUMNS
    SELECTION: [(col("NOME MUNICÍPIO")) == ("RIO DE JANEIRO")]


NOME FAVORECIDO,MÉDIA VALOR PARCELA,SOMA VALOR PARCELA,QTD PARCELAS
str,f64,f64,u32
"""STELLA ARAUJO VELOSO""",750.0,1500.0,2
"""ALDENORA MENDES DE SOUZA""",910.0,1820.0,2
"""FABIANA DAS CHAGAS DE CARVALHO…",650.0,1300.0,2
"""LUZIA PAIXAO BORGES""",600.0,1200.0,2
"""TATIANA DE AZEVEDO DE SA""",650.0,1300.0,2
…,…,…,…
"""JORGE STOCCO DA SILVA""",600.0,1200.0,2
"""CAMILLA CARVALHO DE OLIVEIRA""",850.0,1700.0,2
"""PAULO CESAR DE SOUZA ARAUJO""",650.0,1300.0,2
"""ANA LUCIA GOMES PRUDENCIO""",600.0,1200.0,2
