# **Polars: um simples mas prático tutorial**

## **0. Setup e considerações iniciais** <a class="anchor" id="header0"></a>


- Este "tutorial" não têm o objetivo de te transformar em um hard-user do Polars e sim mostrar algumas das funções e manuseio de dados mais comuns que existem no Polars
- Se você quiser estudar um pouco da teoria do Polars, existem algumas referências na [última seção](https://nbviewer.org/github/barbosarafael/polars_python_test/blob/main/01-notebook/01-polars_notebook.ipynb#header20) deste notebook
- A API/funções do Polars é bem parecido com a do PySpark. Eu optei por fazer esse tutorial parecido com o que já trabalhei anteriormente.
    - Em termos práticos, enquanto em algum tutorial você deva ver `pl.col()`, aqui você verá apenas `col()`
    - Fora que eu escrevo com as identações com as "/"s e alguns Enters a cada comando

In [1]:
from polars import *
from datetime import date
import json

## **1. Como carregar os dados <a class="anchor" id="header1"></a>**

Nada muito longe do que já é feito no Pandas ou no próprio R. Inclusive, usa exatamente a mesma síntaxe que a do Pandas :) 

### **1.1. CSV**

In [2]:
dados = read_csv(file = '../02-data/titanic.csv')

dados

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO"""
1,1,"""Allison, Maste...","""male""",0.92,1,2,"""113781""",151.55,"""C22 C26""","""S""","""11""",,"""Montreal, PQ /..."
1,0,"""Allison, Miss....","""female""",2.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /..."
1,0,"""Allison, Mr. H...","""male""",30.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,135,"""Montreal, PQ /..."
1,0,"""Allison, Mrs. ...","""female""",25.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /..."
1,1,"""Anderson, Mr. ...","""male""",48.0,0,0,"""19952""",26.55,"""E12""","""S""","""3""",,"""New York, NY"""
1,1,"""Andrews, Miss....","""female""",63.0,1,0,"""13502""",77.9583,"""D7""","""S""","""10""",,"""Hudson, NY"""
1,0,"""Andrews, Mr. T...","""male""",39.0,0,0,"""112050""",0.0,"""A36""","""S""",,,"""Belfast, NI"""
1,1,"""Appleton, Mrs....","""female""",53.0,2,0,"""11769""",51.4792,"""C101""","""S""","""D""",,"""Bayside, Queen..."
1,0,"""Artagaveytia, ...","""male""",71.0,0,0,"""PC 17609""",49.5042,,"""C""",,22,"""Montevideo, Ur..."


### **1.2. Excel (xlsx)**

In [3]:
dados = read_excel(file = '../02-data/titanic.xlsx')

dados.head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO"""
1,1,"""Allison, Maste...","""male""",0.92,1,2,"""113781""",151.55,"""C22 C26""","""S""","""11""",,"""Montreal, PQ /..."
1,0,"""Allison, Miss....","""female""",2.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /..."


## **2. Informações iniciais do dataframe <a class="anchor" id="header2"></a>**

Esse tópico também não foge muito se você já trabalhou com o Pandas. Apenas a inclusão de um novo método do dataframe que é bem parecido com o que têm no Pyspark: o `.limit()`

In [4]:
dados.head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO"""
1,1,"""Allison, Maste...","""male""",0.92,1,2,"""113781""",151.55,"""C22 C26""","""S""","""11""",,"""Montreal, PQ /..."
1,0,"""Allison, Miss....","""female""",2.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /..."


In [5]:
dados.limit(3) #---- alô usuários do PySpark

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO"""
1,1,"""Allison, Maste...","""male""",0.92,1,2,"""113781""",151.55,"""C22 C26""","""S""","""11""",,"""Montreal, PQ /..."
1,0,"""Allison, Miss....","""female""",2.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /..."


In [6]:
dados.tail(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
3,0,"""Zakarian, Mr. ...","""male""",26.5,0,0,"""2656""",7.225,,"""C""",,304.0,
3,0,"""Zakarian, Mr. ...","""male""",27.0,0,0,"""2670""",7.225,,"""C""",,,
3,0,"""Zimmerman, Mr....","""male""",29.0,0,0,"""315082""",7.875,,"""S""",,,


In [7]:
dados.shape

(1309, 14)

In [8]:
dados.describe()

describe,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
str,f64,f64,str,str,f64,f64,f64,str,f64,str,str,str,f64,str
"""count""",1309.0,1309.0,"""1309""","""1309""",1309.0,1309.0,1309.0,"""1309""",1309.0,"""1309""","""1309""","""1309""",1309.0,"""1309"""
"""null_count""",0.0,0.0,"""0""","""0""",263.0,0.0,0.0,"""0""",1.0,"""1014""","""2""","""823""",1188.0,"""564"""
"""mean""",2.294882,0.381971,,,29.881138,0.498854,0.385027,,33.295479,,,,160.809917,
"""std""",0.837836,0.486055,,,14.413493,1.041658,0.86556,,51.758668,,,,97.696922,
"""min""",1.0,0.0,"""Abbing, Mr. An...","""female""",0.17,0.0,0.0,"""110152""",0.0,"""A10""","""C""","""1""",1.0,"""?Havana, Cuba"""
"""max""",3.0,1.0,"""van Melkebeke,...","""male""",80.0,8.0,9.0,"""WE/P 5735""",512.3292,"""T""","""S""","""D""",328.0,"""Zurich, Switze..."
"""median""",3.0,0.0,,,28.0,0.0,0.0,,14.4542,,,,155.0,


## **3. Selecionando colunas específicas <a class="anchor" id="header3"></a>**

Aqui temos algumas particularidades do **Polars**, que também são bem parecidas com o que já existe no Pandas e no PySpark.

### **3.1. Por nome**

In [9]:
dados\
    .select(col('age'))\
    .head(3)

age
f64
29.0
0.92
2.0


In [10]:
dados\
    .select(col(['pclass', 'survived', 'name']))\
    .head(3)

pclass,survived,name
i64,i64,str
1,1,"""Allen, Miss. E..."
1,1,"""Allison, Maste..."
1,0,"""Allison, Miss...."


### **3.2. Por index/posição**

In [11]:
dados[:, 0]\
    .head(3)

pclass
i64
1
1
1


In [12]:
dados[:, 0:3]\
    .head(3)

pclass,survived,name
i64,i64,str
1,1,"""Allen, Miss. E..."
1,1,"""Allison, Maste..."
1,0,"""Allison, Miss...."


### **3.3. Bônus (1): Selecionando todas as colunas**

In [13]:
dados\
    .select(\
           col('*')
           )\
    .head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO"""
1,1,"""Allison, Maste...","""male""",0.92,1,2,"""113781""",151.55,"""C22 C26""","""S""","""11""",,"""Montreal, PQ /..."
1,0,"""Allison, Miss....","""female""",2.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /..."


### **3.4. Bônus (2): Excluindo colunas**

In [14]:
dados\
    .select(\
           exclude('PassengerId')
           )\
    .head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO"""
1,1,"""Allison, Maste...","""male""",0.92,1,2,"""113781""",151.55,"""C22 C26""","""S""","""11""",,"""Montreal, PQ /..."
1,0,"""Allison, Miss....","""female""",2.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /..."


In [15]:
dados\
    .select(\
           exclude(['PassengerId', 'Survived'])
           )\
    .head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO"""
1,1,"""Allison, Maste...","""male""",0.92,1,2,"""113781""",151.55,"""C22 C26""","""S""","""11""",,"""Montreal, PQ /..."
1,0,"""Allison, Miss....","""female""",2.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /..."


## **4. Operações entre colunas <a class="anchor" id="header4"></a>**


Existem duas funções específicas para este fim: a `with_column` e a `with_columns`. 

Qual a melhor usar? Vai na `with_columns`, pois ela permite criar várias colunas de uma vez só, bem parecido com o que `dplyr::mutate()` faz no R.

- **Notem que para adicionar mais de uma coluna, precisa estar dentro de uma lista.**
- **No método 2:**
    - Tem uma mudança do tipo da variável explicitamente na mesma linha da criação da coluna
    - Preenchimento de valores nulos (NAs) diretamente também

### **4.1. Criando apenas 1 coluna**

In [16]:
dados\
    .with_columns(\
                  (col('age') * col('parch')).alias('nova_coluna'),
                 )\
    .head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,nova_coluna
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str,f64
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO""",0.0
1,1,"""Allison, Maste...","""male""",0.92,1,2,"""113781""",151.55,"""C22 C26""","""S""","""11""",,"""Montreal, PQ /...",1.84
1,0,"""Allison, Miss....","""female""",2.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /...",4.0


### **4.2. Criando várias colunas (bem parecido com o dplyr::mutate)**

In [17]:
#---- Método 1:

dados\
    .with_columns(\
                 nova_coluna = col('age') * col('parch'),
                 nova_coluna1 = col('age') * col('sibsp'),
                 nova_coluna2 = col('age') * col('fare')
                 )\
    .head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,nova_coluna,nova_coluna1,nova_coluna2
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str,f64,f64,f64
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO""",0.0,0.0,6128.7875
1,1,"""Allison, Maste...","""male""",0.92,1,2,"""113781""",151.55,"""C22 C26""","""S""","""11""",,"""Montreal, PQ /...",1.84,0.92,139.426
1,0,"""Allison, Miss....","""female""",2.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /...",4.0,2.0,303.1


In [79]:
#---- Método 2:

dados\
    .with_columns([\
                  (col('age') * col('parch')).alias('nova_coluna'),
                  (col('age') * col('sibsp')).cast(Int64).alias('nova_coluna1'),
                  (col('age') * col('fare')).cast(Float32).fill_nan(0).alias('nova_coluna2')
                  ])\
    .head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,nova_coluna,nova_coluna1,nova_coluna2
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str,f64,i64,f32
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO""",0.0,0,6128.787598
1,1,"""Allison, Maste...","""male""",0.92,1,2,"""113781""",151.55,"""C22 C26""","""S""","""11""",,"""Montreal, PQ /...",1.84,0,139.425995
1,0,"""Allison, Miss....","""female""",2.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /...",4.0,2,303.100006


### **4.3. Bônus:**

- `nova_coluna_constante`: Coluna com um valor único
- `nova_coluna_soma`: Coluna com um valor único, que é a soma da variável Age
- `nova_coluna_42`: Coluna com um valor somado (42) constante para a variável Age
- `nova_coluna_case_when`: Coluna com uma ideia de case when
- `nova_coluna_lista`: Coluna que concatena todas as variáveis em uma lista

In [19]:
dados\
    .select(col('age'))\
    .with_columns(\
                 nova_coluna_constante = lit(1),
                 nova_coluna_soma = col('age').sum(),
                 nova_coluna_42 = col('age') + 42,
                 nova_coluna_case_when = when(col('age') > 10).then(lit('novo')).otherwise(lit('idoso')) # ^.^
                 )\
    .with_columns(\
                  nova_coluna_lista = concat_list(all()) # Problema aqui: tive que adicionar um novo with_columns, pois ele estava criando a lista com um único elemento, que era da coluna PassengerId quando adicionava no primeiro
                 )\
    .head(3)

age,nova_coluna_constante,nova_coluna_soma,nova_coluna_42,nova_coluna_case_when,nova_coluna_lista
f64,i32,f64,f64,str,list[str]
29.0,1,31255.67,71.0,"""novo""","[""29.0"", ""1"", ... ""novo""]"
0.92,1,31255.67,42.92,"""idoso""","[""0.92"", ""1"", ... ""idoso""]"
2.0,1,31255.67,44.0,"""idoso""","[""2.0"", ""1"", ... ""idoso""]"


## **5. Renomeando colunas e printando as colunas <a class="anchor" id="header5"></a>**

Segue a mesma ideia do rename do Pandas. Irei trocar age -> Age.

In [20]:
dados\
    .rename(mapping = {'age': 'Age'})\
    .columns

['pclass',
 'survived',
 'name',
 'sex',
 'Age',
 'sibsp',
 'parch',
 'ticket',
 'fare',
 'cabin',
 'embarked',
 'boat',
 'body',
 'home.dest']

## **6. Filtros**

Obviamente, alguns filtros podem ser aplicados tanto à variáveis quantitativas quanto qualitativas!

### **6.1. Variáveis quantitativas <a class="anchor" id="header6"></a>**

In [21]:
dados\
    .filter(col('age') > 10)\
    .head(3)

# age maior que 10

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO"""
1,0,"""Allison, Mr. H...","""male""",30.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,135.0,"""Montreal, PQ /..."
1,0,"""Allison, Mrs. ...","""female""",25.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /..."


In [22]:
dados\
    .filter(col('age') <= 10)\
    .head(3)

# age menor ou igual a 10

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Allison, Maste...","""male""",0.92,1,2,"""113781""",151.55,"""C22 C26""","""S""","""11""",,"""Montreal, PQ /..."
1,0,"""Allison, Miss....","""female""",2.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /..."
1,1,"""Dodge, Master....","""male""",4.0,0,2,"""33638""",81.8583,"""A34""","""S""","""5""",,"""San Francisco,..."


In [23]:
dados\
    .filter(col('age').is_between(10, 20))\
    .head(3)

# age entre 10 e 20

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Astor, Mrs. Jo...","""female""",18.0,1,0,"""PC 17757""",227.525,"""C62 C64""","""C""","""4""",,"""New York, NY"""
1,1,"""Bishop, Mrs. D...","""female""",19.0,1,0,"""11967""",91.0792,"""B49""","""C""","""7""",,"""Dowagiac, MI"""
1,0,"""Carrau, Mr. Jo...","""male""",17.0,0,0,"""113059""",47.1,,"""S""",,,"""Montevideo, Ur..."


In [24]:
dados\
    .filter((col('age') > 10) & (col('survived') == 1))\
    .head(3)

# ge maior que 10 E survided igual a 1

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO"""
1,1,"""Anderson, Mr. ...","""male""",48.0,0,0,"""19952""",26.55,"""E12""","""S""","""3""",,"""New York, NY"""
1,1,"""Andrews, Miss....","""female""",63.0,1,0,"""13502""",77.9583,"""D7""","""S""","""10""",,"""Hudson, NY"""


In [25]:
dados\
    .filter((col('age') > 10) | (col('survived') == 1))\
    .head(3)

# age maior que 10 OU survided igual a 1

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO"""
1,1,"""Allison, Maste...","""male""",0.92,1,2,"""113781""",151.55,"""C22 C26""","""S""","""11""",,"""Montreal, PQ /..."
1,0,"""Allison, Mr. H...","""male""",30.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,135.0,"""Montreal, PQ /..."


### **6.2. Variáveis qualitativas**

In [26]:
dados\
    .filter(col('embarked') == 'S')\
    .head(3)

# age maior que 10 OU survided igual a 1

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO"""
1,1,"""Allison, Maste...","""male""",0.92,1,2,"""113781""",151.55,"""C22 C26""","""S""","""11""",,"""Montreal, PQ /..."
1,0,"""Allison, Miss....","""female""",2.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /..."


In [27]:
dados\
    .filter(col('embarked') != 'S')\
    .head(3)

# Embarked diferente de 'S'

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,0,"""Artagaveytia, ...","""male""",71.0,0,0,"""PC 17609""",49.5042,,"""C""",,22.0,"""Montevideo, Ur..."
1,0,"""Astor, Col. Jo...","""male""",47.0,1,0,"""PC 17757""",227.525,"""C62 C64""","""C""",,124.0,"""New York, NY"""
1,1,"""Astor, Mrs. Jo...","""female""",18.0,1,0,"""PC 17757""",227.525,"""C62 C64""","""C""","""4""",,"""New York, NY"""


In [28]:
dados\
    .filter(col('embarked').is_in(['C', 'S']))\
    .head(3)

# Embarked está na lista C ou S

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO"""
1,1,"""Allison, Maste...","""male""",0.92,1,2,"""113781""",151.55,"""C22 C26""","""S""","""11""",,"""Montreal, PQ /..."
1,0,"""Allison, Miss....","""female""",2.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /..."


In [29]:
#---- Contém uma palavra

dados\
    .filter(col('name').str.contains('Mr'))\
    .head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,0,"""Allison, Mr. H...","""male""",30.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,135.0,"""Montreal, PQ /..."
1,0,"""Allison, Mrs. ...","""female""",25.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /..."
1,1,"""Anderson, Mr. ...","""male""",48.0,0,0,"""19952""",26.55,"""E12""","""S""","""3""",,"""New York, NY"""


In [30]:
#---- Começa com uma palavra

dados\
    .filter(col('name').str.starts_with('Allison'))

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Allison, Maste...","""male""",0.92,1,2,"""113781""",151.55,"""C22 C26""","""S""","""11""",,"""Montreal, PQ /..."
1,0,"""Allison, Miss....","""female""",2.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /..."
1,0,"""Allison, Mr. H...","""male""",30.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,135.0,"""Montreal, PQ /..."
1,0,"""Allison, Mrs. ...","""female""",25.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /..."


In [31]:
#---- Finaliza com uma palavra

dados\
    .filter(col('name').str.ends_with('Walton'))

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO"""


### **6.3. Variáveis de data**

In [32]:
dates = DataFrame(date_range(date(2022, 1, 1), date(2022, 3, 1), '1d', name = 'drange'))

dates.head()

drange
date
2022-01-01
2022-01-02
2022-01-03
2022-01-04
2022-01-05


In [33]:
dates\
    .filter(col('drange') <= datetime(2022, 1, 2))

# drange menor ou igual à 02/01/2022

drange
date
2022-01-01
2022-01-02


In [34]:
dates\
    .filter(col('drange').is_between(datetime(2022, 1, 1), datetime(2022, 1, 3)))

# drange entre 01/01/2022 e 03/01/2022

drange
date
2022-01-01
2022-01-02
2022-01-03


## **7. Funções de agregação, sem agupamento <a class="anchor" id="header7"></a>**

Aqui temos algumas particularidades do **Polars**. Pelo **Polars** ser relativamente novo, em comparação com um Pandas da vida, por exemplo, algumas das funções não são criadas tão facilmente (e.g. `value_counts()` ou `dplyr::count()`). 

In [35]:
#---- value counts da variável survived

dados\
    .select([\
             col('survived').value_counts()
            ])\
    .to_series().struct.unnest()

survived,counts
i64,u32
0,809
1,500


In [36]:
#---- agregação de uma única variável: máximo da var age

dados\
    .select(col('age'))\
    .max()

age
f64
80.0


In [37]:
#---- Para acessar a primeira linha e trazer o valor

dados\
    .select(col('age'))\
    .max()\
    .row(0)[0]

80.0

## **8. Funções de agregação, COM agupamento <a class="anchor" id="header8"></a>**

Lembrem de usar colchete "[]", caso queiram adicionar mais de uma função de agregação. Atualmente, temos as seguintes funções de agregação, segundo a documentação do **Polars**.

- mean
- median
- quantile
- first
- last
- min
- max
- sum
- n_unique
- agg to series
- return group indexes

In [38]:
dados\
    .groupby('survived')\
    .agg([\
          col('age').count().alias('n'), # tanto faz a variável, common kids
          col('age').mean().alias('mean_age'),
          col('age').median().alias('median_age'),
          col('age').max().alias('max_age'),
          col('age').min().alias('min_age'),
          col('fare').sum().cast(Int64).alias('sum_fare'), # trocando o tipo da variável
          col('fare').quantile(0.1).alias('q10_fare'),
          col('fare').quantile(0.9).alias('q90_fare'),
          col('name').first().alias('first_name'),
          col('name').last().alias('last_name'),
          col('name').n_unique().alias('unique_names')
         ])

# nunique

survived,n,mean_age,median_age,max_age,min_age,sum_fare,q10_fare,q90_fare,first_name,last_name,unique_names
i64,u32,f64,f64,f64,f64,i64,f64,f64,str,str,u32
0,809,30.545363,28.0,74.0,0.33,18869,7.25,50.4958,"""Allison, Miss....","""Zimmerman, Mr....",808
1,500,28.918244,28.0,80.0,0.17,24680,7.75,120.0,"""Allen, Miss. E...","""Yasbeck, Mrs. ...",500


### **8.1. Bônus: Funções de agregações + agrupamentos + filtros (ao mesmo tempo)**

Vamos considerar que você quer fazer saber somente a média da idade de quem sobreviveu ou não para os passageiros das classes 1 e 2. Podemos fazer o seguinte códiguin:

**PS: Esse tipo de agregação é possível no PySpark, SQL e R, mas no Pandas não :/**

In [39]:
dados\
    .groupby('survived', maintain_order = True)\
    .agg([\
        col('age').filter(col('pclass').is_in([1, 2])).mean().alias('idade_media_classe_1_2'),
        col('age').filter(col('pclass').is_in([2, 3])).mean().alias('idade_media_classe_2_3')
        ])

survived,idade_media_classe_1_2,idade_media_classe_2_3
i64,f64,f64
1,32.181318,23.094187
0,37.337349,28.009845


In [40]:
#---- Mesma coisa que o código acima

dados\
    .filter(col('pclass').is_in([1, 2]))\
    .groupby('survived', maintain_order = True)\
    .agg(\
        col('age').mean().alias('mean_age')
        )

survived,mean_age
i64,f64
1,32.181318
0,37.337349


## **9. Ordenando as linhas <a class="anchor" id="header9"></a>**

Aos mais chegados, é a mesma lógica de:

- **Pandas**: sort_values
- **R (dplyr)**: arrange
- **SQL**: Order By

In [41]:
#---- Ordem crescente da variável age

dados\
    .sort(by = 'age', reverse = False)\
    .head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,0,"""Baumann, Mr. J...","""male""",,0,0,"""PC 17318""",25.925,,"""S""",,,"""New York, NY"""
1,1,"""Bradley, Mr. G...","""male""",,0,0,"""111427""",26.55,,"""S""","""9""",,"""Los Angeles, C..."
1,0,"""Brewe, Dr. Art...","""male""",,0,0,"""112379""",39.6,,"""C""",,,"""Philadelphia, ..."


In [42]:
#---- Ordem decrescente da variável age

dados\
    .sort(by = 'age', reverse = True)\
    .head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Barkworth, Mr....","""male""",80.0,0,0,"""27042""",30.0,"""A23""","""S""","""B""",,"""Hessle, Yorks"""
1,1,"""Cavendish, Mrs...","""female""",76.0,1,0,"""19877""",78.85,"""C46""","""S""","""6""",,"""Little Onn Hal..."
3,0,"""Svensson, Mr. ...","""male""",74.0,0,0,"""347060""",7.775,,"""S""",,,


In [43]:
#---- Ordem decrescente da variável age e crescente da variável fare

dados\
    .sort(by = ['age', 'fare'], reverse = [True, False])\
    .head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Barkworth, Mr....","""male""",80.0,0,0,"""27042""",30.0,"""A23""","""S""","""B""",,"""Hessle, Yorks"""
1,1,"""Cavendish, Mrs...","""female""",76.0,1,0,"""19877""",78.85,"""C46""","""S""","""6""",,"""Little Onn Hal..."
3,0,"""Svensson, Mr. ...","""male""",74.0,0,0,"""347060""",7.775,,"""S""",,,


## **10. Trabalhando com duplicatas <a class="anchor" id="header10"></a>**

Funciona bem parecido com o `drop_duplicates` do Pandas.

In [44]:
dados\
    .unique(subset = 'embarked', keep = 'first')

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO"""
1,0,"""Artagaveytia, ...","""male""",71.0,0,0,"""PC 17609""",49.5042,,"""C""",,22.0,"""Montevideo, Ur..."
1,1,"""Icard, Miss. A...","""female""",38.0,0,0,"""113572""",80.0,"""B28""",,"""6""",,
1,0,"""Minahan, Dr. W...","""male""",44.0,2,0,"""19928""",90.0,"""C78""","""Q""",,230.0,"""Fond du Lac, W..."


In [45]:
dados\
    .unique(subset = ['embarked', 'pclass'], maintain_order = True, keep = 'last')

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Minahan, Mrs. ...","""female""",37.0,1,0,"""19928""",90.0,"""C78""","""Q""","""14""",,"""Fond du Lac, W..."
1,1,"""Stone, Mrs. Ge...","""female""",62.0,0,0,"""113572""",80.0,"""B28""",,"""6""",,"""Cincinatti, OH..."
1,0,"""Wright, Mr. Ge...","""male""",62.0,0,0,"""113807""",26.55,,"""S""",,,"""Halifax, NS"""
1,1,"""Young, Miss. M...","""female""",36.0,0,0,"""PC 17760""",135.6333,"""C32""","""C""","""8""",,"""New York, NY /..."
2,1,"""Slayter, Miss....","""female""",30.0,0,0,"""234818""",12.35,,"""Q""","""13""",,"""Halifax, NS"""
2,0,"""Stanton, Mr. S...","""male""",41.0,0,0,"""237734""",15.0458,,"""C""",,,"""New York, NY"""
2,0,"""Yrois, Miss. H...","""female""",24.0,0,0,"""248747""",13.0,,"""S""",,,"""Paris"""
3,0,"""Tobin, Mr. Rog...","""male""",,0,0,"""383121""",7.75,"""F38""","""Q""",,,
3,0,"""Zakarian, Mr. ...","""male""",27.0,0,0,"""2670""",7.225,,"""C""",,,
3,0,"""Zimmerman, Mr....","""male""",29.0,0,0,"""315082""",7.875,,"""S""",,,


## **11. Lidando com valores nulos<a class="anchor" id="header11"></a>**

### **11.1. Identificando as variáveis com valores nulos**

In [46]:
dados.null_count()

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32
0,0,0,0,263,0,0,0,1,1014,2,823,1188,564


### **11.2. Filtrando os nulos**

In [47]:
#---- Selecionando as linhas nulas da variável age

dados\
    .filter(col('age').is_null())\
    .head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,0,"""Baumann, Mr. J...","""male""",,0,0,"""PC 17318""",25.925,,"""S""",,,"""New York, NY"""
1,1,"""Bradley, Mr. G...","""male""",,0,0,"""111427""",26.55,,"""S""","""9""",,"""Los Angeles, C..."
1,0,"""Brewe, Dr. Art...","""male""",,0,0,"""112379""",39.6,,"""C""",,,"""Philadelphia, ..."


In [48]:
#---- Excluindo as linhas nulas da variável age

dados\
    .filter(~ col('age').is_null())\
    .head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO"""
1,1,"""Allison, Maste...","""male""",0.92,1,2,"""113781""",151.55,"""C22 C26""","""S""","""11""",,"""Montreal, PQ /..."
1,0,"""Allison, Miss....","""female""",2.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /..."


### **11.3. Substituindo os valores nulos por algum outro**

In [49]:
dados\
    .with_columns(\
                  (col('age').fill_null(lit(0))).alias('age_fill_null')
                  )\
    .filter(col('age').is_null())\
    .head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,age_fill_null
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str,f64
1,0,"""Baumann, Mr. J...","""male""",,0,0,"""PC 17318""",25.925,,"""S""",,,"""New York, NY""",0.0
1,1,"""Bradley, Mr. G...","""male""",,0,0,"""111427""",26.55,,"""S""","""9""",,"""Los Angeles, C...",0.0
1,0,"""Brewe, Dr. Art...","""male""",,0,0,"""112379""",39.6,,"""C""",,,"""Philadelphia, ...",0.0


### **11.4. Substituindo pela mediana**

In [50]:
dados\
    .with_columns(\
                  (col('age').fill_null(col('age').median())).alias('age_fill_null')
                  )\
    .filter(col('age').is_null())\
    .head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,age_fill_null
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str,f64
1,0,"""Baumann, Mr. J...","""male""",,0,0,"""PC 17318""",25.925,,"""S""",,,"""New York, NY""",28.0
1,1,"""Bradley, Mr. G...","""male""",,0,0,"""111427""",26.55,,"""S""","""9""",,"""Los Angeles, C...",28.0
1,0,"""Brewe, Dr. Art...","""male""",,0,0,"""112379""",39.6,,"""C""",,,"""Philadelphia, ...",28.0


### **11.5. Substituindo baseado na interpolação**

In [51]:
dados\
    .with_columns(\
                  (col('age').interpolate()).alias('age_fill_null')
                  )\
    .filter(col('age').is_null())\
    .head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,age_fill_null
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str,f64
1,0,"""Baumann, Mr. J...","""male""",,0,0,"""PC 17318""",25.925,,"""S""",,,"""New York, NY""",52.0
1,1,"""Bradley, Mr. G...","""male""",,0,0,"""111427""",26.55,,"""S""","""9""",,"""Los Angeles, C...",31.5
1,0,"""Brewe, Dr. Art...","""male""",,0,0,"""112379""",39.6,,"""C""",,,"""Philadelphia, ...",46.0


### **11.6. Substituindo baseado na moda**

In [52]:
dados\
    .with_columns(\
                  (col('embarked').fill_null(col('embarked').mode())).alias('embarked_fill_null')
                  )\
    .filter(col('embarked').is_null())\
    .head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,embarked_fill_null
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str,str
1,1,"""Icard, Miss. A...","""female""",38.0,0,0,"""113572""",80.0,"""B28""",,"""6""",,,"""S"""
1,1,"""Stone, Mrs. Ge...","""female""",62.0,0,0,"""113572""",80.0,"""B28""",,"""6""",,"""Cincinatti, OH...","""S"""


### **11.7. Dropando todos os nulos de uma vez**

In [53]:
#---- A variável body tem basicamente só nulos

dados\
    .drop_nulls()

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str


### **11.8. Criando uma varaiável/flag que identifica nulos de uma variável**

In [54]:
dados\
    .with_columns(\
                 col('age').is_null().alias('flag_age_null')
                 )\
    .filter(col('age').is_null())\
    .head(3)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,flag_age_null
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str,bool
1,0,"""Baumann, Mr. J...","""male""",,0,0,"""PC 17318""",25.925,,"""S""",,,"""New York, NY""",True
1,1,"""Bradley, Mr. G...","""male""",,0,0,"""111427""",26.55,,"""S""","""9""",,"""Los Angeles, C...",True
1,0,"""Brewe, Dr. Art...","""male""",,0,0,"""112379""",39.6,,"""C""",,,"""Philadelphia, ...",True


## **12. Joins <a class="anchor" id="header12"></a>**

Atualmente, segundo a documentação, existem os seguintes joins:

- inner
- left
- outer
- cross
- asof
- semi
- anti

**Exemplo copiado descaradamente da documentação, por motivos de não ter um dataset para fazer joins. No fim, basta trocar qual tipo de join você deseja utilizar, dentro da própria função.**

In [55]:
df_customers = DataFrame(
    {
        "customer_id": [1, 2, 3],
        "name": ["Alice", "Bob", "Charlie"],
    }
)

df_customers

customer_id,name
i64,str
1,"""Alice"""
2,"""Bob"""
3,"""Charlie"""


In [56]:
df_orders = DataFrame(
    {
        "order_id": ["a", "b", "c"],
        "customer_id": [1, 2, 2],
        "amount": [100, 200, 300],
    }
)
df_orders

order_id,customer_id,amount
str,i64,i64
"""a""",1,100
"""b""",2,200
"""c""",2,300


In [57]:
df_customers\
    .join(df_orders, on = 'customer_id', how = 'inner') # mudar o parâmetro do how para o join desejado

customer_id,name,order_id,amount
i64,str,str,i64
1,"""Alice""","""a""",100
2,"""Bob""","""b""",200
2,"""Bob""","""c""",300


## **13. Pivot e melt <a class="anchor" id="header13"></a>**

Também temos no Polars essas funções, vou criar um exemplo somente com o pivot, pois os dados estão num formato que faz sentido. 

Você pode encontrar um exemplo do melt na [documentação](https://pola-rs.github.io/polars/py-polars/html/reference/dataframe/api/polars.DataFrame.melt.html#polars.DataFrame.melt) ou nesse [exemplo do Stack Overflow](https://stackoverflow.com/questions/71775175/convert-pandas-pivot-table-function-into-polars-pivot-function).

In [58]:
dados\
    .select([col('name'), col('cabin'), col('age')])\
    .pivot(values = 'age', index = 'cabin', columns = 'name')\
    .head(3)

cabin,"Allen, Miss. Elisabeth Walton","Allison, Master. Hudson Trevor","Allison, Miss. Helen Loraine","Allison, Mr. Hudson Joshua Creighton","Allison, Mrs. Hudson J C (Bessie Waldo Daniels)","Anderson, Mr. Harry","Andrews, Miss. Kornelia Theodosia","Andrews, Mr. Thomas Jr","Appleton, Mrs. Edward Dale (Charlotte Lamson)","Artagaveytia, Mr. Ramon","Astor, Col. John Jacob","Astor, Mrs. John Jacob (Madeleine Talmadge Force)","Aubart, Mme. Leontine Pauline","Barber, Miss. Ellen ""Nellie""","Barkworth, Mr. Algernon Henry Wilson","Baumann, Mr. John D","Baxter, Mr. Quigg Edmond","Baxter, Mrs. James (Helene DeLaudeniere Chaput)","Bazzani, Miss. Albina","Beattie, Mr. Thomson","Beckwith, Mr. Richard Leonard","Beckwith, Mrs. Richard Leonard (Sallie Monypeny)","Behr, Mr. Karl Howell","Bidois, Miss. Rosalie","Bird, Miss. Ellen","Birnbaum, Mr. Jakob","Bishop, Mr. Dickinson H","Bishop, Mrs. Dickinson H (Helen Walton)","Bissette, Miss. Amelia","Bjornstrom-Steffansson, Mr. Mauritz Hakan","Blackwell, Mr. Stephen Weart","Blank, Mr. Henry","Bonnell, Miss. Caroline","Bonnell, Miss. Elizabeth","Borebank, Mr. John James","Bowen, Miss. Grace Scott",...,"Vander Cruyssen, Mr. Victor","Vander Planke, Miss. Augusta Maria","Vander Planke, Mr. Julius","Vander Planke, Mr. Leo Edmondus","Vander Planke, Mrs. Julius (Emelia Maria Vandemoortele)","Vartanian, Mr. David","Vendel, Mr. Olof Edvin","Vestrom, Miss. Hulda Amanda Adolfina","Vovk, Mr. Janko","Waelens, Mr. Achille","Ware, Mr. Frederick","Warren, Mr. Charles William","Webber, Mr. James","Wenzel, Mr. Linhart","Whabee, Mrs. George Joseph (Shawneene Abi-Saab)","Widegren, Mr. Carl/Charles Peter","Wiklund, Mr. Jakob Alfred","Wiklund, Mr. Karl Johan","Wilkes, Mrs. James (Ellen Needs)","Willer, Mr. Aaron (""Abi Weller"")","Willey, Mr. Edward","Williams, Mr. Howard Hugh ""Harry""","Williams, Mr. Leslie","Windelov, Mr. Einar","Wirz, Mr. Albert","Wiseman, Mr. Phillippe","Wittevrongel, Mr. Camille","Yasbeck, Mr. Antoni","Yasbeck, Mrs. Antoni (Selini Alexander)","Youseff, Mr. Gerious","Yousif, Mr. Wazli","Yousseff, Mr. Gerious","Zabour, Miss. Hileni","Zabour, Miss. Thamine","Zakarian, Mr. Mapriededer","Zakarian, Mr. Ortin","Zimmerman, Mr. Leo"
str,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,...,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64
"""B5""",29.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
"""C22 C26""",,0.92,2.0,30.0,25.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
"""E12""",,,,,,48.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


## **14. Operações com datas <a class="anchor" id="header14"></a>**

In [59]:
dates.head(3)

drange
date
2022-01-01
2022-01-02
2022-01-03


### **14.1. Agregações**

In [60]:
dates\
    .select(col('drange'))\
    .max()

drange
date
2022-03-01


### **14.2. Transformando para string e fazendo o inverso também**

In [61]:
dates\
    .with_columns([\
                   (col('drange').cast(str)).alias('drange_string')
                  ])\
    .with_columns((col('drange_string').str.strptime(Date, fmt = '%Y-%m-%d', strict = False).cast(Date)).alias('drange_new'))\
    .head(3)

drange,drange_string,drange_new
date,str,date
2022-01-01,"""2022-01-01""",2022-01-01
2022-01-02,"""2022-01-02""",2022-01-02
2022-01-03,"""2022-01-03""",2022-01-03


### **14.3. Criando novas colunas de datas**

**Para outras funções/métodos, ver esse [link](https://pola-rs.github.io/polars/py-polars/html/reference/series/timeseries.html).**

In [62]:
dates\
    .with_columns([\
                   col('drange').dt.day().alias('day'),                   
                   col('drange').dt.month().alias('month'),
                   col('drange').dt.year().alias('year'),
                   col('drange').dt.quarter().alias('quarter'),
                   col('drange').dt.week().alias('week'),
                   col('drange').dt.weekday().alias('weekday')
                  ])\
    .tail(3)

drange,day,month,year,quarter,week,weekday
date,u32,u32,i32,u32,u32,u32
2022-02-27,27,2,2022,1,8,7
2022-02-28,28,2,2022,1,9,1
2022-03-01,1,3,2022,1,9,2


## **15. Exportando seus dados <a class="anchor" id="header15"></a>**

Não foge muito do que temos no Pandas também.

### **15.1. CSV**

In [63]:
dados.write_csv('../02-data/output_csv.csv')

### **15.2. XLSX**

**Ainda** não existe uma função nativa para exportar para o formato xlsx. Então, o melhor jeito é transformar o dataframe Polars para Pandas e só aí fazer a exportação.

In [64]:
dados.to_pandas().to_excel('../02-data/output_xlsx.xlsx')

### **15.3. Parquet**

In [65]:
dados.write_parquet('../02-data/output_parquet.parquet')

## **16. Criando e aplicando funções personalizadas <a class="anchor" id="header16"></a>**

Vamos criar uma função personalizada que traz **somente a primeira palavra da variável name**. Assim como no `Pandas`, o nosso combo `.apply()` + `lambda(x)` irá nos salvar, só que de um jeito diferente.

In [66]:
def get_first_word(x):
    
    result = x.split(',', 1)[0]
    
    return result

In [67]:
dados\
    .with_columns([\
                   (col('name').apply(lambda x: get_first_word(x))).alias('first_name'),
                   (col('home.dest').apply(lambda x: get_first_word(x))).alias('first_word_home.dest')
                 ])\
    .head(5)

pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,first_name,first_word_home.dest
i64,i64,str,str,f64,i64,i64,str,f64,str,str,str,i64,str,str,str
1,1,"""Allen, Miss. E...","""female""",29.0,0,0,"""24160""",211.3375,"""B5""","""S""","""2""",,"""St Louis, MO""","""Allen""","""St Louis"""
1,1,"""Allison, Maste...","""male""",0.92,1,2,"""113781""",151.55,"""C22 C26""","""S""","""11""",,"""Montreal, PQ /...","""Allison""","""Montreal"""
1,0,"""Allison, Miss....","""female""",2.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /...","""Allison""","""Montreal"""
1,0,"""Allison, Mr. H...","""male""",30.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,135.0,"""Montreal, PQ /...","""Allison""","""Montreal"""
1,0,"""Allison, Mrs. ...","""female""",25.0,1,2,"""113781""",151.55,"""C22 C26""","""S""",,,"""Montreal, PQ /...","""Allison""","""Montreal"""


## **17. Trabalhando com JSONs <a class="anchor" id="header17"></a>**

Exemplo retirado **descaradamente** do [Stack Overflow](https://stackoverflow.com/questions/73120642/in-python-polars-convert-a-json-string-column-to-dict-for-filtering). E também ainda não existe uma função parecida com a `json_normalize` do Pandas 😢

In [68]:
json_list = [
    """{"name": "Maria",
        "position": "developer",
        "office": "Seattle"}""",
    """{"name": "Josh",
        "position": "analyst",
        "termination_date": "2020-01-01"}""",
    """{"name": "Jorge",
        "position": "architect",
        "office": "",
        "manager_st_dt": "2020-01-01"}""",
]

df = DataFrame(
    {
        'tags': json_list,
    }
).with_row_count('id', 1)

In [69]:
#---- Abrindo o JSON em cada uma das chaves

df.with_columns([
    col('tags').str.json_path_match(r'$.name').alias('name'),
    col('tags').str.json_path_match(r'$.office').alias('location'),
    col('tags').str.json_path_match(r'$.manager_st_dt').alias('manager_start_date'),
])

id,tags,name,location,manager_start_date
u32,str,str,str,str
1,"""{""name"": ""Mari...","""Maria""","""Seattle""",
2,"""{""name"": ""Josh...","""Josh""",,
3,"""{""name"": ""Jorg...","""Jorge""","""""","""2020-01-01"""


In [70]:
#---- Abrindo todas as chaves do JSON de uma vez (não testado em JSON dentro de JSON)

df.select(col('tags').apply(json.loads)).unnest('tags')

manager_st_dt,name,office,position,termination_date
str,str,str,str,str
,"""Maria""","""Seattle""","""developer""",
,"""Josh""",,"""analyst""","""2020-01-01"""
"""2020-01-01""","""Jorge""","""""","""architect""",


## **18. Window functions <a class="anchor" id="header18"></a>**

Conheci essa ideia de Window Function dentro do SQL, com as funções mais básicas de `row_number` e `rank`. Se eu pudesse traduzi-la para quem não conhece, seria um `groupby` com mais funcionalidades. Como teoria, recomendo ler esse [link de como usar window functions em SQL](https://portosql.wordpress.com/2018/10/14/funcoes-de-janela-window-functions/).

Vou utilizar como exemplo o dataset que está na [documentação do Polars](https://pola-rs.github.io/polars-book/user-guide/dsl/window_functions.html). Esse dataset está no contexto do desenho Pokémon e está na granularidade de cada um dos bichinhos (pokémons) junto às suas características, como velocidade, ataque e etc.

In [71]:
df = read_csv(
    "https://gist.githubusercontent.com/ritchie46/cac6b337ea52281aa23c049250a4ff03/raw/89a957ff3919d90e6ef2d34235e6bf22304f3366/pokemon.csv"
)

df.head(5)

#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
i64,str,str,str,i64,i64,i64,i64,i64,i64,i64,i64,bool
1,"""Bulbasaur""","""Grass""","""Poison""",318,45,49,49,65,65,45,1,False
2,"""Ivysaur""","""Grass""","""Poison""",405,60,62,63,80,80,60,1,False
3,"""Venusaur""","""Grass""","""Poison""",525,80,82,83,100,100,80,1,False
3,"""VenusaurMega V...","""Grass""","""Poison""",625,80,100,123,122,120,80,1,False
4,"""Charmander""","""Fire""",,309,39,52,43,60,50,65,1,False


### **18.1. Row number <a class="anchor" id="header18_1"></a>**

Vamos criar uma coluna que conta a quantidade de cada um dos **Type 1** disponíveis.

Abaixo filtrei somente os pokémons onde o Type 1 é Fire. Notem que a coluna "#", que representa um ID da linha, mostra que a contagem das linhas continuou mesmo após um longo pulo das linhas. Em SQL, é equivalente a:

> ROW_NUMBER() OVER (PARTITION BY Type1)

In [72]:
df\
    .with_columns(\
                  lit(1).alias('constante')
                  )\
    .select([\
             col('#'),
             col('Name'),
             col('Type 1'),
             col('constante').cumsum().over('Type 1').alias('row_number_type1') # Criação efetiva do row_number
           ])\
    .filter(col('Type 1') == 'Fire')

#,Name,Type 1,row_number_type1
i64,str,str,i32
4,"""Charmander""","""Fire""",1
5,"""Charmeleon""","""Fire""",2
6,"""Charizard""","""Fire""",3
6,"""CharizardMega ...","""Fire""",4
6,"""CharizardMega ...","""Fire""",5
37,"""Vulpix""","""Fire""",6
38,"""Ninetales""","""Fire""",7
58,"""Growlithe""","""Fire""",8
59,"""Arcanine""","""Fire""",9
77,"""Ponyta""","""Fire""",10


### **18.2. Rank <a class="anchor" id="header18_2"></a>**

A ideia agora é **rankear** os tipos de Pokémons (Type 1) por seu ataque (Attack). Para isso, vamos criar uma coluna que faz essa indicação de qual a linha possui qual rank.

> RANK(Attack) OVER (PARTITION BY Type1 ORDER BY Attack ASC)

Notem que foi criado uma nova coluna chamada `rank_attack_by_type1` que mostra qual o rank daquela linha baseado no ataque e "agrupada" para cada um dos `Type 1`.

In [73]:
df\
    .with_columns(\
                 (col('Attack').rank('dense').over('Type 1')).alias('rank_attack_by_type1')
                 )\
    .filter(col('Type 1') == 'Fire')

#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,rank_attack_by_type1
i64,str,str,str,i64,i64,i64,i64,i64,i64,i64,i64,bool,u32
4,"""Charmander""","""Fire""",,309,39,52,43,60,50,65,1,False,2
5,"""Charmeleon""","""Fire""",,405,58,64,58,80,65,80,1,False,3
6,"""Charizard""","""Fire""","""Flying""",534,78,84,78,109,85,100,1,False,6
6,"""CharizardMega ...","""Fire""","""Dragon""",634,78,130,111,130,85,100,1,False,12
6,"""CharizardMega ...","""Fire""","""Flying""",634,78,104,78,159,115,100,1,False,10
37,"""Vulpix""","""Fire""",,299,38,41,40,50,65,65,1,False,1
38,"""Ninetales""","""Fire""",,505,73,76,75,81,100,100,1,False,5
58,"""Growlithe""","""Fire""",,350,55,70,45,70,50,60,1,False,4
59,"""Arcanine""","""Fire""",,555,90,110,80,100,80,95,1,False,11
77,"""Ponyta""","""Fire""",,410,50,85,55,65,65,90,1,False,7


## **19. Um pouco de teoria <a class="anchor" id="header19"></a>**

### **19.1. Alguns pontos importantes <a class="anchor" id="header19_1"></a>**

- **Polars** é escrito em Rust + Arrow para otimizar o código. Diferente do Pandas que é escrito em C. Pelos boatos que o pessoal comenta por aí, Rust poderá ser uma alternativa ao Python para Machine Learning no futuro
- Otimizar o código, utilizar todos cores do seu CPU (não tenho info sobre GPU) e fazer com você consiga trabalhar com aquele dataset que é maior que a sua memória RAM são os objetivos principais do **Polars**

### **19.2. Entendendo o Lazy Evaluation <a class="anchor" id="header19_2"></a>**

Usuários de Spark já conhecem.

- **Eager evaluation**: quando você salva na memória os dados e todas suas manipulações/modificações. Algo bem parecido com o que o Pandas faz atualmente
- **Lazy evaluation**: quando você aplica todas suas manipulações/modificações nos dados mas essa execução só é feita quando você desejar. Ex.: você cria novas colunas e aplica filtros, mas você só executa TUDO isso quando você desejar (no final). É bom e ruim ao mesmo tempo. E bem chatinho de explicar, portanto, sigam esse [link para mais detalhes](https://towardsdatascience.com/3-reasons-why-sparks-lazy-evaluation-is-useful-ed06e27360c4#:~:text=Lazy%20Evaluation%20is%20an%20evaluation,used%20in%20most%20programming%20languages.)

**Abaixo como podemos deixar o nosso dataframe como um objetivo **lazy** dentro do Polars, adicionando apenas uma linha de comando.**

In [74]:
iris = read_csv("https://j.mp/iriscsv")

iris.head(3)

sepal_length,sepal_width,petal_length,petal_width,species
f64,f64,f64,f64,str
5.1,3.5,1.4,0.2,"""setosa"""
4.9,3.0,1.4,0.2,"""setosa"""
4.7,3.2,1.3,0.2,"""setosa"""


In [75]:
#---- Notem que ele foi para um "Naive Plan"

iris\
    .lazy()

In [76]:
#---- Criei uma coluna nova e mesmo assim ele não me mostrou o output

iris\
    .lazy()\
    .with_columns(\
                 (col('sepal_length') * 5).alias('new_sepal_length')
                 )

**Para recuperar o seu dataframe após as manipulações/modificações nos dados, basta você utilizar um `.collect()`.**

In [77]:
#---- Utilizando o collect para recuperar o dataframe

iris\
    .lazy()\
    .with_columns(\
                 (col('sepal_length') * 5).alias('new_sepal_length')
                 )\
    .filter(col('new_sepal_length') > 25)\
    .collect()\
    .head()

sepal_length,sepal_width,petal_length,petal_width,species,new_sepal_length
f64,f64,f64,f64,str,f64
5.1,3.5,1.4,0.2,"""setosa""",25.5
5.4,3.9,1.7,0.4,"""setosa""",27.0
5.4,3.7,1.5,0.2,"""setosa""",27.0
5.8,4.0,1.2,0.2,"""setosa""",29.0
5.7,4.4,1.5,0.4,"""setosa""",28.5


## **20. Bônus e referências <a class="anchor" id="header20"></a>**

Dica da [Cenobita](https://twitter.com/Inferente3) que recentemente precisou testar o Polars para uma tarefa de tratar dados, segundo ela, enormes. 

Mesmo que seus dados não caibam na sua memória, você consegue aplicar toda sua manipulação, filtros e tudo mais nesses dados e salvar o resultado em um arquivo `parquet`. E tudo isso é possível graças a combinação do `lazy()` com o `sink_parquet()`.

Para mais detalhes, veja este link sobre ["Sinking larger-than-memory Parquet files"](https://www.rhosignal.com/posts/sink-parquet-files/).

Na prática, como ele funciona:

In [78]:
read_csv("https://j.mp/iriscsv")\
    .lazy()\
    .with_columns(\
                 (col('sepal_length') * 5).alias('new_sepal_length')
                 )\
    .filter(col('new_sepal_length') > 25)\
    .sink_parquet('../02-data/sink_parquet_output.parquet')

### **Referências**:

- **User guide (referência mais genérica e completa):** https://pola-rs.github.io/polars-book/user-guide/index.html
- **Data Cleansing in Polars:** https://towardsdatascience.com/data-cleansing-in-polars-f9314ea04a8e
- **Getting Started with the Polars DataFrame Library:** https://towardsdatascience.com/getting-started-with-the-polars-dataframe-library-6f9e1c014c5c
- **Using the Polars DataFrame Library:** https://www.codemag.com/Article/2212051/Using-the-Polars-DataFrame-Library
- **Calmcode - polars: introduction:** https://calmcode.io/polars/introduction.html
- **Pandas vs. Polars: A Syntax and Speed Comparison:** https://towardsdatascience.com/pandas-vs-polars-a-syntax-and-speed-comparison-5aa54e27497e#:~:text=The%20main%20advantage%20of%20Polars,switch%20from%20Pandas%20to%20Polars.
- **Sinking larger-than-memory Parquet files:** https://www.rhosignal.com/posts/sink-parquet-files/