# 1. - Introdução

<hr>

## 1.1 - Sobre o Polars

Este tutorial é destinado àqueles que desejam aprender mais sobre Polars. Ao invés de ter uma abordagem teórica massante, vamos fazer exemplos práticos para te apresentar as principais funcionalidades do Polars. Não vou colocar todas para não lotar o seu cérebro de informação. Se quiser saber todas as funções, leia a documentação oficial <a href="https://pola-rs.github.io/polars/py-polars/html/reference/index.html" target="_blank">clicando aqui</a>. 

Antes de iniciar, é muito importante você saber o que é o Polars e o porquê você está aprendendo ele. Sendo assim, vamos discutir mais sobre essa biblioteca que está sendo tão falada no meio de Data Science.

A seguir, algumas informações sobre o Polars:
<ul>
    <li> Utiliza todos os núcleos disponíveis da sua máquina;
    <li> Otimiza queries para reduzir alocações de memória/trabalho desnecessárias; 
    <li> Consegue lidar com datasets muito maiores que sua RAM disponível;
    <li> Tem uma API consistente e previsível;
    <li> Os datatypes devem ser conhecidos antes de executar a query. 
</ul>

<hr>

## 1.2 - Performance

O polars é extremamente rápido, e, atualmente, é uma das bibliotecas com a melhor performance disponível. Por ser desenvolvido em Rust, ele possui a performance de C/C++. Observe, a seguir, uma comparação da velocidade:


  <img src="https://i.ibb.co/bB5Kkw8/0-2n0-Wx-R2qvc1z5f-Mg.png">
<ul>
    <li><a href = "https://github.com/pola-rs/tpch" source = "_blank">Link da imagem original</a>
</ul>

No eixo y, temos o tempo em segundos para a execução de 5 bibliotecas diferentes: Polars, Pandas, Dask, Modin e Vaex. No gráfico, a barra roxa representa o Polars. No eixo x, temos 7 queries diferentes. Note que, em todas as queries, o Polars obteve um desempenho muito superior quando comparado às outras bibliotecas.

<br>

Agora que tivemos uma breve apresentação, vamos aos códigos!

<hr>

## 1.3 - Mais informações sobre o dataset

Esse dataset fornece informações de clientes de uma empresa automobilística. Em seu mercado existente, a equipe de vendas classificou todos os clientes em 4 segmentos (A, B, C, D). 

A seguir, um breve resumo sobre as variáveis do dataset:

<ul>
    <li> <strong>ID</strong>: ID único do cliente
    <li> <strong>Gender</strong>: Gênero (Male: Homem, Female: Mulher)
    <li> <strong>Ever_Married</strong>: Já casou? (True: Verdadeiro, False: Falso)
    <li> <strong>Age</strong>: Idade
    <li> <strong>Graduated</strong>: É graduado? (True: Verdadeiro, False: Falso)
    <li> <strong>Profession</strong>: Profissão
    <li> <strong>Work_Experience</strong>: Anos de experiência no trabalho
    <li> <strong>Spending_Score</strong>: Score dado ao cliente baseado em quanto ele gastou na loja e em seu comportamento (Low: Baixo, Average: Médio, High: Alto)
    <li> <strong>Family_Size</strong>: Tamanho da família 
    <li> <strong>Var_1</strong>: Variável anônima 
    <li> <strong>Segmentation</strong>: Segmento ao qual o cliente pertence
</ul>

# 2. - Configurações iniciais

## 2.1 - Fazendo a instalação

In [1]:
!pip install polars # Instalando Polars no ambiente

Collecting polars
  Downloading polars-0.16.9-cp37-abi3-win_amd64.whl (16.2 MB)
Installing collected packages: polars
Successfully installed polars-0.16.9


## 2.2 - Importando o Polars

In [2]:
import polars as pl # Importando o Polars como "pl"
from os import chdir # Importando uma função para definir o diretório onde irei trabalhar

chdir(r"C:\Users\Anwar Hermuche\Desktop\TutorialPolars") # Definindo o diretório

## 2.3 - Lendo um arquivo .csv

In [3]:
df = pl.read_csv(file = "InformacaoClientes.csv") # Lendo um arquivo .csv com o polars (Note que é a mesma sintaxe do Pandas!)

Temos também o método "scan_csv()" do Polars. Ele busca os dados apenas quando o .collect() é chamado. Ao contrário do .read_csv(), que lê todo o arquivo de uma vez. Observe o exemplo abaixo:

In [4]:
df_scan = pl.scan_csv(file = "InformacaoClientes.csv") # Lendo um arquivo .csv com o polars utilizando o .scan_csv()
df_scan # Mostrando o objeto df_scan

Note que não temos um dataframe. Isso se deve porque ele está executando em um plano de otimização onde coleta apenas as informações necessárias quando o .collect() é chamado.

In [5]:
df_scan = df_scan.collect() # Buscando as informações que quero
df_scan.head() # Mostrando o objeto df_scan

ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
i64,str,str,i64,str,str,f64,str,f64,str,str
462809,"""Male""","""No""",22,"""No""","""Healthcare""",1.0,"""Low""",4.0,"""Cat_4""","""D"""
462643,"""Female""","""Yes""",38,"""Yes""","""Engineer""",,"""Average""",3.0,"""Cat_4""","""A"""
466315,"""Female""","""Yes""",67,"""Yes""","""Engineer""",1.0,"""Low""",1.0,"""Cat_6""","""B"""
461735,"""Male""","""Yes""",67,"""Yes""","""Lawyer""",0.0,"""High""",2.0,"""Cat_6""","""B"""
462669,"""Female""","""Yes""",40,"""Yes""","""Entertainment""",,"""High""",6.0,"""Cat_6""","""A"""


Note que agora temos o dataframe! Porém, você pode estar pensando: "Ah, então quando utilizo o .scan_csv() ao invés do .read_csv()?".

De forma resumida, quando lidamos com dataframes muito grandes, utilizar o .scan_csv() pode ser bastante útil! Abaixo, farei uma comparação do tempo de execução com o .scan_csv() e do .read_csv():

In [6]:
import time # Importando a biblioteca time para mensurar o tempo de execução

### 2.3.1 - Tempo com .read_csv()

In [9]:
tempo_inicial = time.time() # Salvando o tempo inicial de execução

df = pl.read_csv(file = "InformacaoClientes.csv") # Lendo o arquivo com .read_csv()
df_temp = df.select(pl.col("Age")*6) # Fazendo uma transformação na coluna idade (multiplicando todas por 6)

print(f"Tempo gasto com .read_csv(): {(time.time() - tempo_inicial)*1000:.5f} milisegundos")

Tempo gasto com .read_csv(): 3.98946 milisegundos


Fazendo 7 experimentos, chegamos no seguinte resultado: 3.705 ms ± 0.454 ms

### 2.3.2 - Tempo com .scan_csv()

In [8]:
tempo_inicial = time.time() # Salvando o tempo inicial de execução

df = pl.scan_csv(file = "InformacaoClientes.csv") # Lendo o arquivo com .scan_csv()
df_temp = df.select(pl.col("Age")*6).collect() # Fazendo uma transformação na coluna idade (multiplicando todas por 6)

print(f"Tempo gasto com .scan_csv(): {(time.time() - tempo_inicial)*1000:.5f} milisegundos")

Tempo gasto com .scan_csv(): 2.99191 milisegundos


Fazendo 7 experimentos, chegamos no seguinte resultado: 2.560 ms ± 0.726 ms

Neste caso, a diferença não foi tão significativa porque o dataset é bem pequeno (apenas 8 mil linhas). Porém, quando falamos de datasets com milhões de linhas, a utilização do .scan_csv() chega a ser até 10x mais rápida que o .read_csv(). 

# 3. - Explorando o dataset

## 3.1 - Atributos

In [10]:
df.columns # Retorna uma lista com todas as colunas do dataset

['ID',
 'Gender',
 'Ever_Married',
 'Age',
 'Graduated',
 'Profession',
 'Work_Experience',
 'Spending_Score',
 'Family_Size',
 'Var_1',
 'Segmentation']

In [11]:
df.dtypes # Retorna uma lista com todos os datatypes das colunas (respectivamente)

[Int64, Utf8, Utf8, Int64, Utf8, Utf8, Float64, Utf8, Float64, Utf8, Utf8]

In [12]:
df.schema # Retorna um dicionário com as colunas do dataset sendo as chaves e o datatype sendo os valores

{'ID': Int64,
 'Gender': Utf8,
 'Ever_Married': Utf8,
 'Age': Int64,
 'Graduated': Utf8,
 'Profession': Utf8,
 'Work_Experience': Float64,
 'Spending_Score': Utf8,
 'Family_Size': Float64,
 'Var_1': Utf8,
 'Segmentation': Utf8}

In [13]:
df.shape # Retorna uma tupla com o primeiro valor sendo o número de linhas e o segundo, o número de colunas

(8068, 11)

## 3.2 - Análise Descritiva

In [14]:
df.describe() # Retorna um resumo estatístico do dataset

describe,ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
str,f64,str,str,f64,str,str,f64,str,f64,str,str
"""count""",8068.0,"""8068""","""8068""",8068.0,"""8068""","""8068""",8068.0,"""8068""",8068.0,"""8068""","""8068"""
"""null_count""",0.0,"""0""","""140""",0.0,"""78""","""124""",829.0,"""0""",335.0,"""76""","""0"""
"""mean""",463479.214551,,,43.466906,,,2.641663,,2.850123,,
"""std""",2595.381232,,,16.711696,,,3.406763,,1.531413,,
"""min""",458982.0,"""Female""","""No""",18.0,"""No""","""Artist""",0.0,"""Average""",1.0,"""Cat_1""","""A"""
"""max""",467974.0,"""Male""","""Yes""",89.0,"""Yes""","""Marketing""",14.0,"""Low""",9.0,"""Cat_7""","""D"""
"""median""",463472.5,,,40.0,,,1.0,,3.0,,


In [15]:
df.estimated_size('kb') # Retorna uma estimativa do tamanho do dataset (há um parâmetro para definir a unidade: 'kb', 'gb', etc)

920.8037109375

In [16]:
df.is_duplicated()[:5] # Retorna um booleano dizendo se a linha é duplicada (aplique .sum() para ter o total de linhas duplicadas )

false
False
False
False
False


In [17]:
df.null_count() # Retorna um dataframe que mostra a quantidade de valores nulos por coluna

ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32
0,0,140,0,78,124,829,0,335,76,0


## 3.3 - Funções de agregação

In [18]:
df.mean() # Retorna um dataframe com as colunas agregadas por sua média

ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
f64,str,str,f64,str,str,f64,str,f64,str,str
463479.214551,,,43.466906,,,2.641663,,2.850123,,


Podemos substituir o ".mean()" pelos seguintes comandos:

<ul>
    <li> <strong>.max()</strong>: Agregando pelo valor máximo de cada coluna; 
    <li> <strong>.min()</strong>: Agregando pelo valor mínimo de cada coluna;
    <li> <strong>.median()</strong>: Agregando pela mediana de cada coluna;
    <li> <strong>.std()</strong>: Agregando pelo desvio padrão de cada coluna;
    <li> <strong>.var()</strong>: Agregando pela variância de cada coluna;
    <li> <strong>.sum()</strong>: Agregando pela soma dos valores de cada coluna;  
</ul>

In [19]:
df.quantile(0.25) # Retorna um dataframe com as colunas agregadas pelo quantil indicado no argumento (0.25, primeiro quartil)

ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
f64,str,str,f64,str,str,f64,str,f64,str,str
461241.0,,,30.0,,,0.0,,2.0,,


## 3.4 - Transformação do Dataframe

In [37]:
df.to_dicts()[0] # Retorna uma lista com n dicionários, cada um deles representando uma linha do dataframe (selecionei o 1º)

{'ID': 462809,
 'Gender': 'Male',
 'Ever_Married': 'No',
 'Age': 22,
 'Graduated': 'No',
 'Profession': 'Healthcare',
 'Work_Experience': 1.0,
 'Spending_Score': 'Low',
 'Family_Size': 4.0,
 'Var_1': 'Cat_4',
 'Segmentation': 'D'}

In [21]:
df.to_numpy() # Retorna um 2D-array numpy com n linhas, cada uma delaS contem os valores de cada coluna das n linhas do dataset

array([[462809, 'Male', 'No', ..., 4.0, 'Cat_4', 'D'],
       [462643, 'Female', 'Yes', ..., 3.0, 'Cat_4', 'A'],
       [466315, 'Female', 'Yes', ..., 1.0, 'Cat_6', 'B'],
       ...,
       [465406, 'Female', 'No', ..., 1.0, 'Cat_6', 'D'],
       [467299, 'Female', 'No', ..., 4.0, 'Cat_6', 'B'],
       [461879, 'Male', 'Yes', ..., 3.0, 'Cat_4', 'B']], dtype=object)

## 3.5 - Agrupamento com .groupby()

In [22]:
for valor, dataframe in df.groupby('Gender'): # Utilizando o .groupby() você cria um objeto iterável
    print(valor) # Print do valor da coluna "Gender"
    print(dataframe) # Print do dataframe onde o valor da coluna "Gender" é igual ao valor printado acima

Female
shape: (3651, 11)
┌────────┬────────┬──────────────┬─────┬─────┬────────────────┬─────────────┬───────┬──────────────┐
│ ID     ┆ Gender ┆ Ever_Married ┆ Age ┆ ... ┆ Spending_Score ┆ Family_Size ┆ Var_1 ┆ Segmentation │
│ ---    ┆ ---    ┆ ---          ┆ --- ┆     ┆ ---            ┆ ---         ┆ ---   ┆ ---          │
│ i64    ┆ str    ┆ str          ┆ i64 ┆     ┆ str            ┆ f64         ┆ str   ┆ str          │
╞════════╪════════╪══════════════╪═════╪═════╪════════════════╪═════════════╪═══════╪══════════════╡
│ 462643 ┆ Female ┆ Yes          ┆ 38  ┆ ... ┆ Average        ┆ 3.0         ┆ Cat_4 ┆ A            │
│ 466315 ┆ Female ┆ Yes          ┆ 67  ┆ ... ┆ Low            ┆ 1.0         ┆ Cat_6 ┆ B            │
│ 462669 ┆ Female ┆ Yes          ┆ 40  ┆ ... ┆ High           ┆ 6.0         ┆ Cat_6 ┆ A            │
│ 464347 ┆ Female ┆ No           ┆ 33  ┆ ... ┆ Low            ┆ 3.0         ┆ Cat_6 ┆ D            │
│ ...    ┆ ...    ┆ ...          ┆ ... ┆ ... ┆ ...            ┆ ..

In [23]:
df.groupby('Gender').agg(pl.median('Family_Size'), pl.mean('Age')) # Agregando com funções diferentes para cada coluna

Gender,Family_Size,Age
str,f64,f64
"""Male""",3.0,43.925968
"""Female""",2.0,42.911531


In [24]:
df.groupby('Gender').max() # Agregando com a mesma função para todas as colunas

Gender,ID,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
str,i64,str,i64,str,str,f64,str,f64,str,str
"""Male""",467972,"""Yes""",89,"""Yes""","""Marketing""",14.0,"""Low""",9.0,"""Cat_7""","""D"""
"""Female""",467974,"""Yes""",89,"""Yes""","""Marketing""",14.0,"""Low""",9.0,"""Cat_7""","""D"""


Nos dois exemplos acima, utilizei apenas 3 de várias funções disponíveis para a agregação dos dados. Abaixo, segue uma tabela com as principais funções:
<ul>
    <li> <strong>.sum()</strong>: Retorna a soma;
    <li> <strong>.mean()</strong>: Retorna a média;
    <li> <strong>.count()</strong>: Retorna a quantidade;
    <li> <strong>.max()</strong>: Retorna o máximo;
    <li> <strong>.min()</strong>: Retorna o mínimo;
    <li> <strong>.quantile(coluna, n)</strong>: Retorna o nº quantil;
    <li> <strong>.std()</strong>: Retorna o desvio padrão;
    <li> <strong>.median()</strong>: Retorna a mediana;
</ul>

## 3.6 - Manipulação do dataframe

In [25]:
df.drop(columns = ['ID', 'Var_1']).head() # Exclui determinada(s) coluna(s) do dataframe

Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Segmentation
str,str,i64,str,str,f64,str,f64,str
"""Male""","""No""",22,"""No""","""Healthcare""",1.0,"""Low""",4.0,"""D"""
"""Female""","""Yes""",38,"""Yes""","""Engineer""",,"""Average""",3.0,"""A"""
"""Female""","""Yes""",67,"""Yes""","""Engineer""",1.0,"""Low""",1.0,"""B"""
"""Male""","""Yes""",67,"""Yes""","""Lawyer""",0.0,"""High""",2.0,"""B"""
"""Female""","""Yes""",40,"""Yes""","""Entertainment""",,"""High""",6.0,"""A"""


In [26]:
df.fill_null(value = -1).head() # Preenche valores faltantes com determinada estratégia ou valor (também há o .fill_nan())

ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
i64,str,str,i64,str,str,f64,str,f64,str,str
462809,"""Male""","""No""",22,"""No""","""Healthcare""",1.0,"""Low""",4.0,"""Cat_4""","""D"""
462643,"""Female""","""Yes""",38,"""Yes""","""Engineer""",-1.0,"""Average""",3.0,"""Cat_4""","""A"""
466315,"""Female""","""Yes""",67,"""Yes""","""Engineer""",1.0,"""Low""",1.0,"""Cat_6""","""B"""
461735,"""Male""","""Yes""",67,"""Yes""","""Lawyer""",0.0,"""High""",2.0,"""Cat_6""","""B"""
462669,"""Female""","""Yes""",40,"""Yes""","""Entertainment""",-1.0,"""High""",6.0,"""Cat_6""","""A"""


In [27]:
df.sort('Family_Size', descending = True).head() # Faz a ordenação do dataset por determinada(s) coluna(s)

ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
i64,str,str,i64,str,str,f64,str,f64,str,str
464972,"""Male""","""Yes""",67,"""No""","""Lawyer""",0.0,"""High""",9.0,"""Cat_4""","""A"""
466441,"""Male""","""No""",22,"""No""","""Healthcare""",0.0,"""Low""",9.0,"""Cat_6""","""D"""
466534,"""Male""","""No""",28,"""No""","""Healthcare""",0.0,"""Low""",9.0,"""Cat_6""","""D"""
464634,"""Female""","""No""",32,"""Yes""","""Engineer""",,"""Low""",9.0,"""Cat_4""","""D"""
467749,"""Male""","""No""",19,"""No""","""Healthcare""",1.0,"""Low""",9.0,"""Cat_7""","""D"""


In [28]:
df.filter((pl.col("Age") > 45) & (pl.col("Profession") == "Lawyer")).head() # Você filtra a tabela de forma personalizada

ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
i64,str,str,i64,str,str,f64,str,f64,str,str
461735,"""Male""","""Yes""",67,"""Yes""","""Lawyer""",0.0,"""High""",2.0,"""Cat_6""","""B"""
459573,"""Male""","""Yes""",70,"""No""","""Lawyer""",,"""Low""",1.0,"""Cat_6""","""A"""
459861,"""Female""","""Yes""",83,"""No""","""Lawyer""",1.0,"""High""",2.0,"""Cat_6""","""D"""
463156,"""Female""","""Yes""",79,"""No""","""Lawyer""",,"""High""",2.0,"""Cat_6""","""A"""
460881,"""Male""","""Yes""",72,"""Yes""","""Lawyer""",1.0,"""Low""",,"""Cat_4""","""D"""


In [29]:
df.with_columns([ # Criando novas colunas para o dataframe
    (pl.col("Age")/2).alias("Half Age"), # Coluna com a metade da idade
    (pl.col("ID")//1000).alias("First 3 ID Digits")]).head() # Coluna com os primeiros 3 digitos do ID

ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation,Half Age,First 3 ID Digits
i64,str,str,i64,str,str,f64,str,f64,str,str,f64,i64
462809,"""Male""","""No""",22,"""No""","""Healthcare""",1.0,"""Low""",4.0,"""Cat_4""","""D""",11.0,462
462643,"""Female""","""Yes""",38,"""Yes""","""Engineer""",,"""Average""",3.0,"""Cat_4""","""A""",19.0,462
466315,"""Female""","""Yes""",67,"""Yes""","""Engineer""",1.0,"""Low""",1.0,"""Cat_6""","""B""",33.5,466
461735,"""Male""","""Yes""",67,"""Yes""","""Lawyer""",0.0,"""High""",2.0,"""Cat_6""","""B""",33.5,461
462669,"""Female""","""Yes""",40,"""Yes""","""Entertainment""",,"""High""",6.0,"""Cat_6""","""A""",20.0,462


### 3.6.1 - Otimização do .apply()

In [30]:
indice_age = df.columns.index("Age") # Retornando o índice da coluna "Age" no dataframe
df.apply(lambda x: x[indice_age]/2 if x[indice_age] % 2 == 0 else (x[indice_age] - 1)/2).head() # Aplicando uma função 

apply
f64
11.0
19.0
33.0
33.0
20.0


Esta função retorna o valor da coluna idade dividido por 2 caso a idade seja par, caso contrário retorna a metade da idade subtraída uma unidade ((idade - 1)/2). 

#### Porém, podemos otimizar o código! 

A implementação da lógica da função utilizando uma função do Python com o .apply() (chamamos de UDF's: "User-Defined Function") é quase sempre significantemente mais lenta e consome mais memória caso implementássemos a mesma lógica, porém usando a API de expressão nativa do Polars porque:

<ul>
    <li> O mecanismo padrão de execução do polars é em Rust; a do .apply() é em Python;
    <li> O uso de UDFs Python força o dataframe a ser materializado na memória;
    <li> Expressões nativas do Polars podem ser paralelizadas (UDFs não podem);
    <li> Expressões nativas do Polars podem ser loficamente otimizadas (UDFs não podem).
</ul>

Sendo assim, sempre que possível, opte fortemente pela API de expressão nativa, cujo exemplo segue abaixo para a mesma lógica da função acima:

In [31]:
indice_age = df.columns.index("Age") # Retornando o índice da coluna "Age" no dataframe
df.select(pl.when(pl.col("Age") % 2 == 0).then(pl.col("Age")/2).otherwise((pl.col("Age") - 1)/2)).head() # Aplicando uma função 

Age
f64
11.0
19.0
33.0
33.0
20.0


Fazendo outro exemplo, porém um mais simples para o entendimento do .select():

In [32]:
df.select(pl.col("Age")*0.75, pl.col("Family_Size") + 1).head() # Aplicando outra função

Age,Family_Size
f64,f64
16.5,5.0
28.5,4.0
50.25,2.0
50.25,3.0
30.0,7.0


Nesta função, multiplicamos todas as idades por 0.75 e adicionamos uma unidade a todos os valores da coluna "Family_Size".

### 3.6.2 - Correlação de Pearson

In [33]:
from polars.datatypes import NUMERIC_DTYPES  # Importando objetos para selecionar valores numéricos

In [34]:
df_valores_numericos = df.select(pl.col(NUMERIC_DTYPES)) # Selecionando apenas as colunas com valores numéricos 
df_sem_missing = df_valores_numericos.fill_null(strategy = 'mean') # Preenchendo os missing values com a média de cada coluna
df_sem_missing.head()

ID,Age,Work_Experience,Family_Size
i64,i64,f64,f64
462809,22,1.0,4.0
462643,38,2.641663,3.0
466315,67,1.0,1.0
461735,67,0.0,2.0
462669,40,2.641663,6.0


In [35]:
df_sem_missing.pearson_corr() # Selecionando valores numéricos e, após isso, aplicando a correlação

ID,Age,Work_Experience,Family_Size
f64,f64,f64,f64
1.0,-0.005055,-0.028876,0.011514
-0.005055,1.0,-0.179361,-0.273291
-0.028876,-0.179361,1.0,-0.058702
0.011514,-0.273291,-0.058702,1.0


# 4. - Conclusão

Chegamos ao fim deste tutorial de Polars! Espero que tire muito proveito e que aplique o quanto antes em seus projetos. Tenho certeza de que poupará muito o seu tempo.

Se gostou, não se esqueça de me seguir no <a href="https://linkedin.com/in/anwarhermuche" target = "_blank">LinkedIn</a> para ter acesso a mais materiais como este.