O Polars é uma biblioteca moderna para análise de dados que surgiu em 2020, criada por Ritchie Vink como resposta às limitações de desempenho do Pandas, especialmente em grandes volumes de dados. O conceito central do Polars é oferecer uma engine de consulta analítica extremamente rápida, escrita em Rust e baseada no formato de memória columnar Apache Arrow, permitindo processamento paralelo e otimizações de memória.[1][2][3]

### Surgimento e Conceito

O Polars nasceu como um projeto pessoal para resolver gargalos de desempenho e uso de memória em bibliotecas tradicionais como o Pandas. Ele foi projetado para ser rápido, eficiente e escalável, especialmente para datasets grandes, utilizando técnicas de processamento paralelo e uma arquitetura close-to-the-metal, ou seja, próxima ao hardware. O Polars pode ser usado tanto de forma “eager” (execução imediata) quanto “lazy” (execução otimizada e diferida), permitindo que o usuário defina pipelines de transformação de dados que são otimizados antes da execução.[2][3][4][1]

### Vantagens do Polars

- **Desempenho**: O Polars é frequentemente 5 a 10 vezes mais rápido que o Pandas em operações comuns, podendo chegar a 30x em benchmarks específicos.[5][3][6]
- **Eficiência de memória**: Utiliza o formato columnar Apache Arrow, reduzindo o uso de memória e permitindo processar datasets maiores do que a RAM disponível, graças ao streaming e ao suporte a dados fora da memória.[3][2]
- **Paralelismo**: O Polars aproveita todos os núcleos do processador automaticamente, sem necessidade de configuração adicional.[2][3]
- **Sintaxe expressiva**: Oferece uma API intuitiva e encadeável, facilitando a leitura e manutenção do código.[7][4]
- **Integração com o ecossistema Python**: Permite fácil integração com outras bibliotecas populares, como Scikit-learn, Matplotlib e frameworks de machine learning.[7][3]
- **Open source e ativo**: O Polars é open source, possui uma comunidade crescente e está em constante evolução.[1][2]

### Exemplo concreto

Imagine que você está analisando dados de tráfego de uma cidade, com milhões de registros de veículos. Com o Pandas, operações como agrupamento, filtragem e agregação podem ser lentas e exigir muita memória. Já com o Polars, essas mesmas operações são executadas rapidamente, permitindo que você explore diferentes cenários e faça ajustes em tempo real, sem precisar esperar minutos ou horas para ver o resultado.[3][2]

### Conexão com o que já foi aprendido

Se você já usou o Pandas, perceberá que o Polars segue uma lógica semelhante, mas com ganhos de desempenho e eficiência que fazem toda a diferença em projetos reais de engenharia de transporte, onde dados são grandes e decisões precisam ser rápidas.[7][3]

### Estimulando a curiosidade

E se você pudesse processar um dataset de 10 GB em segundos, sem precisar de um cluster de computadores? O Polars está tornando isso possível. Que outros desafios de análise de dados poderiam ser resolvidos com uma ferramenta tão eficiente?

***

O Polars é uma excelente opção para quem busca desempenho, eficiência e escalabilidade em análise de dados, especialmente em projetos de engenharia e ciência de dados aplicada.[2][3][7]

[1](https://en.wikipedia.org/wiki/Polars_(software))
[2](https://pola.rs)
[3](https://deepnote.com/blog/ultimate-guide-to-the-polars-library-in-python)
[4](https://www.datacamp.com/blog/an-introduction-to-polars-python-s-tool-for-large-scale-data-analysis)
[5](https://www.stratascratch.com/blog/polars-vs-pandas/)
[6](https://blog.jetbrains.com/pycharm/2024/07/polars-vs-pandas/)
[7](https://www.geeksforgeeks.org/data-analysis/mastering-polars-high-efficiency-data-analysis-and-manipulation/)
[8](https://dl.acm.org/doi/10.1145/3661167.3661203)
[9](https://www.mdpi.com/2073-431X/14/8/319)
[10](https://www.sciendo.com/article/10.2478/amns.2023.2.01212)
[11](https://proceedings.gpntbsib.ru/jour/article/view/942)
[12](https://joss.theoj.org/papers/10.21105/joss.06943)
[13](https://www.tandfonline.com/doi/full/10.1080/01616846.2023.2296179)
[14](http://dspace.ada.edu.az/xmlui/handle/20.500.12181/1180)
[15](http://librinfosciences.knukim.edu.ua/article/view/318289)
[16](https://onlinelibrary.wiley.com/doi/10.1111/1750-0206.12725)
[17](https://alhayat.or.id/index.php/alhayat/article/view/440)
[18](https://arxiv.org/pdf/0805.1165.pdf)
[19](https://www.atmos-chem-phys.net/18/13547/2018/acp-18-13547-2018.pdf)
[20](http://arxiv.org/pdf/2409.01363.pdf)
[21](https://acp.copernicus.org/articles/15/3873/2015/acp-15-3873-2015.pdf)
[22](https://arxiv.org/pdf/0805.4389.pdf)
[23](https://arxiv.org/abs/0804.3593)
[24](https://arxiv.org/pdf/1003.4682.pdf)
[25](https://arxiv.org/pdf/1205.6276.pdf)
[26](https://data-ai.theodo.com/en/technical-blog/polars-vs-pandas)
[27](https://github.com/pola-rs/polars)
[28](https://towardsdatascience.com/rust-polars-unlocking-high-performance-data-analysis-part-1-ce42af370ece/)
[29](https://www.reddit.com/r/Python/comments/1jg402b/polars_vs_pandas/)
[30](https://dskrzypiec.dev/polars/)
[31](https://towardsdatascience.com/polars-vs-pandas-an-independent-speed-comparison/)
[32](https://pola.rs/about-us/)
[33](https://realpython.com/polars-vs-pandas/)
[34](https://docs.pola.rs/user-guide/migration/pandas/)
[35](https://pypi.org/project/polars/)
[36](https://www.factspan.com/blogs/choosing-polars-over-pandas-for-high-performance-data-analysis/)
[37](https://labs.quansight.org/blog/dataframe-group-by)
[38](https://coditation.com/blog/high-performance-data-analysis-with-polars-a-comprehensive-guide)

In [None]:
# Conversão de .tab para Polars (.parquet) e comparação de tempo e espaço com análise descritiva

# Instala Polars caso não esteja disponível
try:
    import polars as pl
except ImportError:
    import sys, subprocess
    subprocess.check_call([sys.executable, "-m", "pip", "install", "polars>=1.0.0"])
    import polars as pl

import os
import time

# Caminhos de arquivo - tem que descomprimir o arquivo antes - gunzip "nome-arq"
tab_path = "/workspaces/Stats-In-Codespace/Aula1/julio/RJMA_ordinary_mobility_given_by_two_calls.tab"
parquet_path = os.path.splitext(tab_path)[0] + ".parquet"

def human_bytes(n: int) -> str:
    for unit in ["B","KB","MB","GB","TB"]:
        if n < 1024:
            return f"{n:.2f} {unit}"
        n /= 1024
    return f"{n:.2f} PB"

# 1) Ler .tab com Polars e análise descritiva (medir tempo e memória)
t0 = time.perf_counter()
df_tab = pl.read_csv(
    tab_path,
    separator="\t",
    infer_schema_length=10000,
    low_memory=True,
    null_values=["", "NA", "NaN", "null", "NULL"]
)
t_read_tab = time.perf_counter() - t0

mem_tab = df_tab.estimated_size()  # bytes

t0 = time.perf_counter()
desc_tab = df_tab.describe()
t_desc_tab = time.perf_counter() - t0

# 2) Converter para Parquet (formato coluna eficiente) e medir espaço/tempo
t0 = time.perf_counter()
df_tab.write_parquet(parquet_path, compression="zstd", statistics=True)
t_write_parquet = time.perf_counter() - t0

size_tab = os.path.getsize(tab_path)
size_parquet = os.path.getsize(parquet_path)

# 3) Ler Parquet e fazer a mesma análise (medir tempo e memória)
t0 = time.perf_counter()
df_parquet = pl.read_parquet(parquet_path)
t_read_parquet = time.perf_counter() - t0

mem_parquet = df_parquet.estimated_size()

t0 = time.perf_counter()
desc_parquet = df_parquet.describe()
t_desc_parquet = time.perf_counter() - t0

# 4) Resultados
print("Resumo de Tamanhos em Disco:")
print(f"- .tab:      {human_bytes(size_tab)}")
print(f"- .parquet:  {human_bytes(size_parquet)}")
if size_tab > 0:
    print(f"- Fator de redução: {size_tab/size_parquet:.2f}x (tab/parquet)")

print("\nTempos (segundos):")
print(f"- Leitura .tab:          {t_read_tab:.4f}s")
print(f"- Escrita .parquet:      {t_write_parquet:.4f}s")
print(f"- Leitura .parquet:      {t_read_parquet:.4f}s")
print(f"- Describe .tab:         {t_desc_tab:.4f}s")
print(f"- Describe .parquet:     {t_desc_parquet:.4f}s")

print("\nMemória estimada dos DataFrames:")
print(f"- DF (.tab):      {human_bytes(mem_tab)}")
print(f"- DF (.parquet):  {human_bytes(mem_parquet)}")

print("\nEsquema (dtypes) detectado:")
print(df_tab.schema)


Resumo de Tamanhos em Disco:
- .tab:      40.26 MB
- .parquet:  4.22 MB
- Fator de redução: 9.53x (tab/parquet)

Tempos (segundos):
- Leitura .tab:          0.2584s
- Escrita .parquet:      0.1240s
- Leitura .parquet:      0.0352s
- Describe .tab:         0.1097s
- Describe .parquet:     0.0694s

Memória estimada dos DataFrames:
- DF (.tab):      43.73 MB
- DF (.parquet):  43.73 MB

Esquema (dtypes) detectado:
Schema({'day': String, 'origin': String, 'destination': String, 'travel_count_no_factor': Int64, 'travel_count_fix_factor': Int64, 'travell_count_adap_factor': Int64})


In [1]:
# Usando Polars SQL para ler as primeiras 20 linhas
import polars as pl

parquet_path = "/workspaces/Stats-In-Codespace/Aula1/julio/RJMA_ordinary_mobility_given_by_two_calls.parquet"
df_parquet = pl.read_parquet(parquet_path)


# Use pl.SQLContext para registrar o dataframe corretamente
ctx = pl.SQLContext()
ctx.register("df_parquet", df_parquet)  # Registra o DataFrame para uso no SQL

# Realiza a consulta SQL (resultado normalmente é LazyFrame ou DataFrame)
result = ctx.execute("SELECT * FROM df_parquet LIMIT 20")

# Para notebooks Jupyter, retorne o DataFrame como último objeto da célula:
result.collect() # Exibe as linhas como tabela

day,origin,destination,travel_count_no_factor,travel_count_fix_factor,travell_count_adap_factor
str,str,str,i64,i64,i64
"""01/01/2014""","""ANCHIETA""","""ANCHIETA""",173,901,16497
"""01/01/2014""","""ANCHIETA""","""BANGU""",50,245,4332
"""01/01/2014""","""ANCHIETA""","""BARRA DA TIJUCA""",16,77,1341
"""01/01/2014""","""ANCHIETA""","""BELFORD ROXO""",14,97,1542
"""01/01/2014""","""ANCHIETA""","""BOTAFOGO""",11,52,903
…,…,…,…,…,…
"""01/01/2014""","""ANCHIETA""","""ITABORAI""",1,5,68
"""01/01/2014""","""ANCHIETA""","""ITAGUAI""",14,85,1557
"""01/01/2014""","""ANCHIETA""","""JACAREPAGUA""",34,188,3039
"""01/01/2014""","""ANCHIETA""","""JACAREZINHO""",3,15,311


In [8]:
# Contagem da quantidade de registros total, que nesse caso significa o total de combinações únicas de (day, origin, destination)

# Use pl.SQLContext para registrar o dataframe corretamente
ctx = pl.SQLContext()
ctx.register("df_parquet", df_parquet)  # Registra o DataFrame para uso no SQL

# Realiza a consulta SQL (resultado normalmente é LazyFrame ou DataFrame)
result = ctx.execute("SELECT count(*) FROM df_parquet")

# Para notebooks Jupyter, retorne o DataFrame como último objeto da célula:
result.collect() # Exibe as linhas como tabela

len
u32
867975


In [12]:
# Contagem de valores distintos em (day, origin, destination)

# Use pl.SQLContext para registrar o dataframe corretamente
ctx = pl.SQLContext()
ctx.register("df_parquet", df_parquet)  # Registra o DataFrame para uso no SQL

# Realiza a consulta SQL (resultado normalmente é LazyFrame ou DataFrame)
result = ctx.execute("SELECT count(DISTINCT day) FROM df_parquet")

# Para notebooks Jupyter, retorne o DataFrame como último objeto da célula:
result.collect() # Exibe as linhas como tabela

day
u32
363


In [None]:
import polars as pl

# Converter a coluna 'day' de string para date, usando o formato dd/mm/yyyy
df_parquet = df_parquet.with_columns(
    pl.col('day').str.strptime(pl.Date, format='%d/%m/%Y').alias('day')
)

# Opcional: Se quiser manter o nome original e sobrescrever
# df_parquet = df_parquet.with_columns(
#     pl.col('day').str.strptime(pl.Date, format='%d/%m/%Y')
# )

# Verificar o resultado
print(df_parquet['day'].head())
print(df_parquet.schema)

shape: (10,)
Series: 'day' [date]
[
	2014-01-01
	2014-01-01
	2014-01-01
	2014-01-01
	2014-01-01
	2014-01-01
	2014-01-01
	2014-01-01
	2014-01-01
	2014-01-01
]
Schema({'day': Date, 'origin': String, 'destination': String, 'travel_count_no_factor': Int64, 'travel_count_fix_factor': Int64, 'travell_count_adap_factor': Int64})


In [4]:

# Gravar o DataFrame modificado de volta no arquivo Parquet original
df_parquet.write_parquet("/workspaces/Stats-In-Codespace/Aula1/julio/RJMA_ordinary_mobility_given_by_two_calls.parquet")

# Opcional: Verificar se foi salvo corretamente lendo de volta
df_check = pl.read_parquet("/workspaces/Stats-In-Codespace/Aula1/julio/RJMA_ordinary_mobility_given_by_two_calls.parquet")
print(df_check.schema)
print(df_check['day'].head())

Schema({'day': Date, 'origin': String, 'destination': String, 'travel_count_no_factor': Int64, 'travel_count_fix_factor': Int64, 'travell_count_adap_factor': Int64})
shape: (10,)
Series: 'day' [date]
[
	2014-01-01
	2014-01-01
	2014-01-01
	2014-01-01
	2014-01-01
	2014-01-01
	2014-01-01
	2014-01-01
	2014-01-01
	2014-01-01
]


In [5]:
# Exibe informações do DataFrame Polars (similar ao df.info() do pandas)
print(df_parquet.describe())
print("\nEsquema (dtypes):")
print(df_parquet.schema)
print(f"\nShape: {df_parquet.shape}")

# Escala de mensuração das variáveis:
# - day: categórica ordinal (datas ordenáveis)
# - origin: categórica nominal
# - destination: categórica nominal
# - travel_count_no_factor: quantitativa discreta
# - travel_count_fix_factor: quantitativa discreta
# - travel_count_adap_factor: quantitativa discreta

shape: (9, 7)
┌────────────┬──────────────┬─────────────┬─────────────┬──────────────┬─────────────┬─────────────┐
│ statistic  ┆ day          ┆ origin      ┆ destination ┆ travel_count ┆ travel_coun ┆ travell_cou │
│ ---        ┆ ---          ┆ ---         ┆ ---         ┆ _no_factor   ┆ t_fix_facto ┆ nt_adap_fac │
│ str        ┆ str          ┆ str         ┆ str         ┆ ---          ┆ r           ┆ tor         │
│            ┆              ┆             ┆             ┆ f64          ┆ ---         ┆ ---         │
│            ┆              ┆             ┆             ┆              ┆ f64         ┆ f64         │
╞════════════╪══════════════╪═════════════╪═════════════╪══════════════╪═════════════╪═════════════╡
│ count      ┆ 867975       ┆ 867975      ┆ 867975      ┆ 867975.0     ┆ 867975.0    ┆ 867975.0    │
│ null_count ┆ 0            ┆ 0           ┆ 0           ┆ 0.0          ┆ 0.0         ┆ 0.0         │
│ mean       ┆ 2014-07-01   ┆ null        ┆ null        ┆ 167.592712   ┆ 771.

In [6]:
# Tabela de frequências absolutas (contagem) e relativas (%) da variável 'travel_count_fix_factor'

contagem = df_parquet['travel_count_fix_factor'].value_counts().sort('travel_count_fix_factor')
percent = (contagem['count'] / contagem['count'].sum() * 100).alias('%')

tabela_freq = contagem.with_columns(percent)
print(tabela_freq)

shape: (16_772, 3)
┌─────────────────────────┬───────┬──────────┐
│ travel_count_fix_factor ┆ count ┆ %        │
│ ---                     ┆ ---   ┆ ---      │
│ i64                     ┆ u32   ┆ f64      │
╞═════════════════════════╪═══════╪══════════╡
│ 1                       ┆ 2755  ┆ 0.317405 │
│ 2                       ┆ 4847  ┆ 0.558426 │
│ 3                       ┆ 14444 ┆ 1.664103 │
│ 4                       ┆ 19660 ┆ 2.265042 │
│ 5                       ┆ 20156 ┆ 2.322187 │
│ …                       ┆ …     ┆ …        │
│ 141153                  ┆ 1     ┆ 0.000115 │
│ 142956                  ┆ 1     ┆ 0.000115 │
│ 143139                  ┆ 1     ┆ 0.000115 │
│ 144616                  ┆ 1     ┆ 0.000115 │
│ 150287                  ┆ 1     ┆ 0.000115 │
└─────────────────────────┴───────┴──────────┘


In [7]:
# Tabela de frequências absolutas (contagem) e relativas (%) da variável 'origin'

contagem_origin = df_parquet['origin'].value_counts().sort('origin')
percent_origin = (contagem_origin['count'] / contagem_origin['count'].sum() * 100).alias('%')

tabela_freq_origin = contagem_origin.with_columns(percent_origin)
print(tabela_freq_origin)

shape: (54, 3)
┌─────────────────┬───────┬──────────┐
│ origin          ┆ count ┆ %        │
│ ---             ┆ ---   ┆ ---      │
│ str             ┆ u32   ┆ f64      │
╞═════════════════╪═══════╪══════════╡
│ ANCHIETA        ┆ 17096 ┆ 1.969642 │
│ BANGU           ┆ 17339 ┆ 1.997638 │
│ BARRA DA TIJUCA ┆ 18363 ┆ 2.115614 │
│ BELFORD ROXO    ┆ 16997 ┆ 1.958236 │
│ BOTAFOGO        ┆ 18733 ┆ 2.158242 │
│ …               ┆ …     ┆ …        │
│ TANGUA          ┆ 8501  ┆ 0.979406 │
│ TERESOPOLIS     ┆ 11954 ┆ 1.377229 │
│ TIJUCA          ┆ 18550 ┆ 2.137158 │
│ VIGARIO GERAL   ┆ 18033 ┆ 2.077594 │
│ VILA ISABEL     ┆ 18137 ┆ 2.089576 │
└─────────────────┴───────┴──────────┘


In [None]:
# adaptar para a base de mobilidade do RJ

##############################################################################
#                     MANUAL DE ANÁLISE DE DADOS                             #
#                Luiz Paulo Fávero e Patrícia Belfiore                       #
#                            Capítulo 02                                     #
##############################################################################

##############################################################################
#                     IMPORTAÇÃO DOS PACOTES NECESSÁRIOS                     #
##############################################################################

import pandas as pd #manipulação de dados em formato de dataframe
import numpy as np #biblioteca para operações matemáticas multidimensionais
from scipy.stats import skew #cálculo da assimetria
from scipy.stats import kurtosis #cálculo da curtose
import seaborn as sns #biblioteca de visualização de informações estatísticas
import matplotlib.pyplot as plt #biblioteca de visualização de dados
import stemgraphic #biblioteca para elaboração do gráfico de ramo-e-folhas
from scipy.stats import norm #para plotagem da distribuição normal no histograma

[1;31merror[0m: [1mexternally-managed-environment[0m

[31m×[0m This environment is externally managed
[31m╰─>[0m To install Python packages system-wide, try apt install
[31m   [0m python3-xyz, where xyz is the package you are trying to
[31m   [0m install.
[31m   [0m 
[31m   [0m If you wish to install a non-Debian-packaged Python package,
[31m   [0m create a virtual environment using python3 -m venv path/to/venv.
[31m   [0m Then use path/to/venv/bin/python and path/to/venv/bin/pip. Make
[31m   [0m sure you have python3-full installed.
[31m   [0m 
[31m   [0m If you wish to install a non-Debian packaged Python application,
[31m   [0m it may be easiest to use pipx install xyz, which will manage a
[31m   [0m virtual environment for you. Make sure you have pipx installed.
[31m   [0m 
[31m   [0m See /usr/share/doc/python3.12/README.venv for more information.

[1;35mnote[0m: If you believe this is a mistake, please contact your Python installation or OS dist

ModuleNotFoundError: No module named 'stemgraphic'

In [None]:
# Tabela de frequências absolutas (contagem) e relativas (%) da variável 'preco'

contagem = df_cotacoes['preco'].value_counts()
percent = df_cotacoes['preco'].value_counts(normalize=True)
pd.concat([contagem, percent], axis=1, keys=['contagem', '%'], sort=True)

# Estatísticas descritivas univariadas da variável 'preco'
df_cotacoes['preco'].describe()

In [None]:
# Medidas de assimetria e curtose para a variável 'preco'
skew(df_cotacoes, axis=0, bias=True) # igual ao Stata
skew(df_cotacoes, axis=0, bias=False) # igual ao SPSS
kurtosis(df_cotacoes, axis=0, bias=False) # igual ao SPSS

In [None]:
##############################################################################
#   GRÁFICOS: HISTOGRAMA, RAMO-E-FOLHAS E BOXPLOT PARA A VARIÁVEL 'preco'    #
##############################################################################

In [None]:
# Histograma
plt.figure(figsize=(15,10))
sns.histplot(data=df_cotacoes, x='preco', bins=7, color='darkorchid')
plt.xlabel('Preço', fontsize=20)
plt.ylabel('Frequência', fontsize=20)
plt.show()

In [None]:
# Histograma com Kernel density estimation (KDE)
plt.figure(figsize=(15,10))
sns.histplot(data=df_cotacoes, x='preco', kde=True, bins=7, color='darkorchid')
plt.xlabel('Preço', fontsize=20)
plt.ylabel('Frequência', fontsize=20)
plt.legend(['Kernel density estimation (KDE)'], fontsize=17)
plt.show()

In [None]:
# Histograma com curva normal
plt.figure(figsize=(15,10))
mu, std = norm.fit(df_cotacoes['preco'])
plt.hist(df_cotacoes['preco'], bins=7, density=True, alpha=0.6, color='silver')
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
p = norm.pdf(x, mu, std)
plt.plot(x, p, 'k', linewidth=2, color='darkorchid')
plt.xlabel('Preço', fontsize=20)
plt.ylabel('Densidade', fontsize=20)
plt.legend(['Curva Normal'], fontsize=17)
plt.show()

In [None]:
# Gráfico de ramo-e-folhas para a variável 'preco'
stemgraphic.stem_graphic(df_cotacoes['preco'], scale = 0)

In [None]:
# Boxplot da variável 'preco' - pacote 'matplotlib'
plt.figure(figsize=(15,10))
plt.boxplot(df_cotacoes['preco'])
plt.title('Preço', fontsize=17)
plt.ylabel('Preço', fontsize=16)
plt.show()

In [None]:
# Boxplot da variável 'preco' - pacote 'seaborn'
plt.figure(figsize=(15,10))
sns.boxplot(df_cotacoes['preco'], linewidth=2, orient='v', color='purple')
sns.stripplot(df_cotacoes['preco'], color="orange", jitter=0.1, size=7)
plt.title('Preço', fontsize=17)
plt.xlabel('Preço', fontsize=16)
plt.show()