<a href="https://colab.research.google.com/github/EnzoGolfetti/praticas_python/blob/main/Notebook_Comparacoes_Pandas_Vs_Polars.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

####Instalando o Polars e Importando bibliotecas

In [1]:
!pip install -U polars
import pandas as pd
import polars as pl

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting polars
  Downloading polars-0.17.3-cp37-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (17.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m17.5/17.5 MB[0m [31m52.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: polars
Successfully installed polars-0.17.3


###Realizaremos as principais comparações entre a biblioteca Pandas e a biblioteca Polars.

- Criação de arrays de dados (conhecido popularmente como 'Series');
- Criação de DataFrames;
- Abertura de arquivos (nesse exemplo abriremos alguns arquivos em '.csv' e '.parquet');
- Filtros;
- Agregações.

###Criando arrays

In [2]:
lista_exemplo = [1,2,3,4,5,6]

#Pandas
pandas_series_ex = pd.Series(lista_exemplo, name = 'pandas_series')

#Polars
polars_series_ex = pl.Series('polars_series', lista_exemplo)

print(f'Series em Pandas:\n \n{pandas_series_ex}')
print('\n')
print(f'Series em Polars:\n \n{polars_series_ex}')

Series em Pandas:
 
0    1
1    2
2    3
3    4
4    5
5    6
Name: pandas_series, dtype: int64


Series em Polars:
 
shape: (6,)
Series: 'polars_series' [i64]
[
	1
	2
	3
	4
	5
	6
]


As principais diferenças que podemos identificar nas bibliotecas com Series, são a identificação do nome e _dtype_ do objeto que em Polars são transferidos para cima.

Polars é conhecida por sua falta de índices, uma identificação que pode ser notada no Pandas em seus principais objetos.

Polars tem uma adição frente à Pandas. Apresenta o _shape_ do objeto quando este é 'printado'.

###Criando DataFrames

In [3]:
dict_exemplo = {'column1' : [1,2,3,4],
                'column2' : ['W', 'X', 'Y', 'Z'],
                'column3' : [0.1, 0.2, 0.3, 0.4]
                }

#Pandas DataFrame
df_pd = pd.DataFrame(dict_exemplo)

#Polars DataFrame
df_pl = pl.DataFrame(dict_exemplo)

print('DataFrame em Pandas:\n')
display(df_pd)
print('\n')
print('DataFrame em Polars:\n')
display(df_pl)

DataFrame em Pandas:



Unnamed: 0,column1,column2,column3
0,1,W,0.1
1,2,X,0.2
2,3,Y,0.3
3,4,Z,0.4




DataFrame em Polars:



column1,column2,column3
i64,str,f64
1,"""W""",0.1
2,"""X""",0.2
3,"""Y""",0.3
4,"""Z""",0.4


Em relação ao objeto DataFrame, Pandas e Polars diferem principalmente novamente na falta de Index no Polars (o que atrapalha em partes a depender das necessidades da análise).

Além disso, nota-se que Polars tem forte orientação aos tipos de dados do Objeto, explicitando também no print de um DataFrame quais os dtypes das colunas (Series, dado que um DataFrame é uma coleção de Series). A demonstração do shape continua presente no objeto DataFrame assim como nas Series.

###Abrindo arquivos CSV

In [4]:
#Arquivos CSV

#Pandas
df_diamonds_pd = pd.read_csv('https://raw.githubusercontent.com/EnzoGolfetti/praticas_python/main/Pandas_Polars_Comparacoes_Basicas_Python/largest_diamond_dataset_kaggle_1604.csv', sep=',')
#print primeiras 5 linhas
print('Diamonds dataset (.CSV) em Pandas:\n')
display(df_diamonds_pd.head())
print('\n')

#Polars
df_diamons_pl = pl.read_csv('https://raw.githubusercontent.com/EnzoGolfetti/praticas_python/main/Pandas_Polars_Comparacoes_Basicas_Python/largest_diamond_dataset_kaggle_1604.csv', separator=',')
#print primeiras 5 linhas
print('Diamonds dataset (.CSV) em Polars:\n')
display(df_diamons_pl.head())

Diamonds dataset (.CSV) em Pandas:



Unnamed: 0.1,Unnamed: 0,cut,color,clarity,carat_weight,cut_quality,lab,symmetry,polish,eye_clean,...,meas_depth,girdle_min,girdle_max,fluor_color,fluor_intensity,fancy_color_dominant_color,fancy_color_secondary_color,fancy_color_overtone,fancy_color_intensity,total_sales_price
0,0,Round,E,VVS2,0.09,Excellent,IGI,Very Good,Very Good,unknown,...,1.79,M,M,unknown,,unknown,unknown,unknown,unknown,200
1,1,Round,E,VVS2,0.09,Very Good,IGI,Very Good,Very Good,unknown,...,1.78,STK,STK,unknown,,unknown,unknown,unknown,unknown,200
2,2,Round,E,VVS2,0.09,Excellent,IGI,Very Good,Very Good,unknown,...,1.77,TN,M,unknown,,unknown,unknown,unknown,unknown,200
3,3,Round,E,VVS2,0.09,Excellent,IGI,Very Good,Very Good,unknown,...,1.78,M,STK,unknown,,unknown,unknown,unknown,unknown,200
4,4,Round,E,VVS2,0.09,Very Good,IGI,Very Good,Excellent,unknown,...,1.82,STK,STK,unknown,,unknown,unknown,unknown,unknown,200


Diamonds dataset (.CSV) em Polars:



Unnamed: 0_level_0,cut,color,clarity,carat_weight,cut_quality,lab,symmetry,polish,eye_clean,culet_size,culet_condition,depth_percent,table_percent,meas_length,meas_width,meas_depth,girdle_min,girdle_max,fluor_color,fluor_intensity,fancy_color_dominant_color,fancy_color_secondary_color,fancy_color_overtone,fancy_color_intensity,total_sales_price
i64,str,str,str,f64,str,str,str,str,str,str,str,f64,f64,f64,f64,f64,str,str,str,str,str,str,str,str,i64
0,"""Round""","""E""","""VVS2""",0.09,"""Excellent""","""IGI""","""Very Good""","""Very Good""","""unknown""","""N""","""unknown""",62.7,59.0,2.85,2.87,1.79,"""M""","""M""","""unknown""","""None""","""unknown""","""unknown""","""unknown""","""unknown""",200
1,"""Round""","""E""","""VVS2""",0.09,"""Very Good""","""IGI""","""Very Good""","""Very Good""","""unknown""","""N""","""unknown""",61.9,59.0,2.84,2.89,1.78,"""STK""","""STK""","""unknown""","""None""","""unknown""","""unknown""","""unknown""","""unknown""",200
2,"""Round""","""E""","""VVS2""",0.09,"""Excellent""","""IGI""","""Very Good""","""Very Good""","""unknown""","""unknown""","""unknown""",61.1,59.0,2.88,2.9,1.77,"""TN""","""M""","""unknown""","""None""","""unknown""","""unknown""","""unknown""","""unknown""",200
3,"""Round""","""E""","""VVS2""",0.09,"""Excellent""","""IGI""","""Very Good""","""Very Good""","""unknown""","""unknown""","""unknown""",62.0,59.0,2.86,2.88,1.78,"""M""","""STK""","""unknown""","""None""","""unknown""","""unknown""","""unknown""","""unknown""",200
4,"""Round""","""E""","""VVS2""",0.09,"""Very Good""","""IGI""","""Very Good""","""Excellent""","""unknown""","""N""","""unknown""",64.9,58.5,2.79,2.83,1.82,"""STK""","""STK""","""unknown""","""None""","""unknown""","""unknown""","""unknown""","""unknown""",200


Na parte de abrir e ler arquivos as duas bibliotecas são muito semelhantes nos métodos.

A diferença fica na hora do print de um dataset maior que o Polars não trunca as colunas centrais como o Pandas faz por padrão.

Um outro ponto de percepção é que a ausência de Index no Polars faz com que a biblioteca interprete a primeira coluna como sem cabeçalho e a considere normalmente.

Por outro lado o Pandas por inserir automaticamente um Index, declara a coluna de Index como 'Unnamed: 0'.

###Filtros

In [11]:
#Filtros em Pandas
#Usa-se .loc para que Pandas entenda que se está realizando filtros dentro de sua estrutura nas colunas especificadas
print('Filtro aplicado em Pandas:\n')
display( df_diamonds_pd.loc[ df_diamonds_pd['color'] == 'E' ].head() )
print('\n')

#Filtros em Polars
#Usa-se o método filter e declara-se explicitamente com o .col as colunas desejadas, o formato de comparação booleana é padrão
print('Filtro aplicado em Polars:\n')
display( df_diamons_pl.filter( (pl.col('color') == 'E') ).head() )

Filtro aplicado em Pandas:



Unnamed: 0.1,Unnamed: 0,cut,color,clarity,carat_weight,cut_quality,lab,symmetry,polish,eye_clean,...,meas_depth,girdle_min,girdle_max,fluor_color,fluor_intensity,fancy_color_dominant_color,fancy_color_secondary_color,fancy_color_overtone,fancy_color_intensity,total_sales_price
0,0,Round,E,VVS2,0.09,Excellent,IGI,Very Good,Very Good,unknown,...,1.79,M,M,unknown,,unknown,unknown,unknown,unknown,200
1,1,Round,E,VVS2,0.09,Very Good,IGI,Very Good,Very Good,unknown,...,1.78,STK,STK,unknown,,unknown,unknown,unknown,unknown,200
2,2,Round,E,VVS2,0.09,Excellent,IGI,Very Good,Very Good,unknown,...,1.77,TN,M,unknown,,unknown,unknown,unknown,unknown,200
3,3,Round,E,VVS2,0.09,Excellent,IGI,Very Good,Very Good,unknown,...,1.78,M,STK,unknown,,unknown,unknown,unknown,unknown,200
4,4,Round,E,VVS2,0.09,Very Good,IGI,Very Good,Excellent,unknown,...,1.82,STK,STK,unknown,,unknown,unknown,unknown,unknown,200




Filtro aplicado em Polars:



Unnamed: 0_level_0,cut,color,clarity,carat_weight,cut_quality,lab,symmetry,polish,eye_clean,culet_size,culet_condition,depth_percent,table_percent,meas_length,meas_width,meas_depth,girdle_min,girdle_max,fluor_color,fluor_intensity,fancy_color_dominant_color,fancy_color_secondary_color,fancy_color_overtone,fancy_color_intensity,total_sales_price
i64,str,str,str,f64,str,str,str,str,str,str,str,f64,f64,f64,f64,f64,str,str,str,str,str,str,str,str,i64
0,"""Round""","""E""","""VVS2""",0.09,"""Excellent""","""IGI""","""Very Good""","""Very Good""","""unknown""","""N""","""unknown""",62.7,59.0,2.85,2.87,1.79,"""M""","""M""","""unknown""","""None""","""unknown""","""unknown""","""unknown""","""unknown""",200
1,"""Round""","""E""","""VVS2""",0.09,"""Very Good""","""IGI""","""Very Good""","""Very Good""","""unknown""","""N""","""unknown""",61.9,59.0,2.84,2.89,1.78,"""STK""","""STK""","""unknown""","""None""","""unknown""","""unknown""","""unknown""","""unknown""",200
2,"""Round""","""E""","""VVS2""",0.09,"""Excellent""","""IGI""","""Very Good""","""Very Good""","""unknown""","""unknown""","""unknown""",61.1,59.0,2.88,2.9,1.77,"""TN""","""M""","""unknown""","""None""","""unknown""","""unknown""","""unknown""","""unknown""",200
3,"""Round""","""E""","""VVS2""",0.09,"""Excellent""","""IGI""","""Very Good""","""Very Good""","""unknown""","""unknown""","""unknown""",62.0,59.0,2.86,2.88,1.78,"""M""","""STK""","""unknown""","""None""","""unknown""","""unknown""","""unknown""","""unknown""",200
4,"""Round""","""E""","""VVS2""",0.09,"""Very Good""","""IGI""","""Very Good""","""Excellent""","""unknown""","""N""","""unknown""",64.9,58.5,2.79,2.83,1.82,"""STK""","""STK""","""unknown""","""None""","""unknown""","""unknown""","""unknown""","""unknown""",200


Na realização de Filtros, Polars segue um caminho mais explícito e legível do que o Pandas.

Enquanto em Pandas utiliza-se o versátil e muito conhecido '.loc' para filtrar (uma alternativa menos popular é o '.query', mas decidi mostrar apenas a mais conhecida), Polars utiliza um método explícito no nome 'filter' e explícito na chamada das colunas 'pl.col()' que melhora a legibilidade do código e pode ajudar em filtros complexos que exigem muitos parâmetros. 

###Agregações

In [10]:
#GroupBy em Pandas
print('GroupBy em Pandas somando o valor de venda agrupado pela cor dos diamantes:\n')
display( df_diamonds_pd.groupby(by=['color'])['total_sales_price'].sum() )
print('\n')

#GroupBy em Polars
print('GroupBy em Polars somando o valor de venda agrupado pela cor dos diamantes:\n')
display( df_diamons_pl.groupby('color', maintain_order=True).agg([pl.col('total_sales_price').sum().alias('Soma das vendas')]) )

GroupBy em Pandas somando o valor de venda agrupado pela cor dos diamantes:



color
D          193331883
E          176157297
F          176876733
G          208867843
H          198105869
I          153268502
J          109653533
K           73801718
L           33808678
M           18243074
unknown    175606861
Name: total_sales_price, dtype: int64

GroupBy em Polars somando o valor de venda agrupado pela cor dos diamantes:



color,Soma das vendas
str,i64
"""J""",109653533
"""D""",193331883
"""F""",176876733
"""I""",153268502
"""H""",198105869
"""L""",33808678
"""E""",176157297
"""unknown""",175606861
"""G""",208867843
"""K""",73801718


Para agrupamentos as duas bibliotecas tem o método chamado 'groupby'. 

Por um lado em Pandas se explicita apenas com uma _string_ do nome da coluna qual(is) colunas deseja-se agrupar e em seguida utiliza-se o colchetes para realizar o cálculo nas colunas apenas declarando seu nome e depois o nome do cálculo (no exemplo .sum()). **Importante: Os resultados são apresentados na ordem da coluna que foi agrupada.**

Já em Polars o método se torna um pouco mais longo pelo foco no explícito do método. Assim como no Pandas, declara-se a coluna que se quer agrupar como uma _string_ do nome da coluna. Em seguida, utiliza-se o método '.agg' e novamente com o 'pl.col()' coloca-se agora qual coluna se quer performar os cálculos e em seguida declara-se o método do cálculo desejado (no exemplo .sum()). Uma diferença para o Pandas é por dar um nome para a coluna calculada (assim como em SQL) com o método '.alias()'.
**Importante: Em Polars a ordem do retorno do dataframe agrupado é aleatória, caso queira-se manter a ordem deve-se declarar 'maintain_order = True'.**

###Conclusão

Em suma, as duas bibliotecas tem a mesma intenção, te permitir analisar dados com rapidez e de forma simples orientada a obter resultados rápidos. No entanto, Polars surge como uma alternativa para a já consolidada Pandas com mudanças para a orientação aos Dados dando mais detalhamento e permitindo obter estatísticas simples sobre os dados de forma rápida, além disso bebe fortemente em SQL para definir seus métodos e sintaxe.

Um outro ponto aqui não tão explorado, é a inovação da biblioteca Polars ao utilizar Pyarrow para o processamento de dados o que o deixa mais rápido e diminui em muito o consumo de memória, um calcanhar de aquiles bem conhecido em Pandas (que tenta ser resolvido com o recente lançamento do Pandas 2.0).

Para mais detalhes sobre o Polars acesse a documentação completa em:

https://pola-rs.github.io/polars-book/user-guide/introduction.html