# Prise en main de Polars

`Polars` est un package `Python` permettant de manipuler les données
tabulaires à partir de différents types de fichiers (CSV, Parquet,
etc.). Il est une alternative directe et moderne à `Pandas`, pensée pour
être très performante tout en offrant une syntaxe compréhensible à pour
des *data scientists* habitués à d’autres *frameworks* de manipulation
de données comme `dplyr`.

Ce notebook offre un complément à
l’[article](https://ssphub.netlify.app/post/polars/) publié sur le blog
du réseau des data scientists de la statistique publique. Les exemples
sont reproductibles dans de nombreux environnements, à condition
d’installer les packages comme indiqué ci-dessous. Les utilisateurs du
SSP Cloud ou de Colab pourront directement ouvrir ce notebook en
utilisant les boutons suivants:

<a href="https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&amp;onyxia.friendlyName=%C2%ABpython-datascience%C2%BB&amp;init.personalInit=%C2%ABhttps%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fpython-datascientist%2Fmaster%2Fsspcloud%2Finit-jupyter.sh%C2%BB&amp;init.personalInitArgs=%C2%ABmanipulation%2002b_pandas_TP%C2%BB&amp;security.allowlist.enabled=false" target="_blank" rel="noopener"><img src="https://img.shields.io/badge/SSPcloud-Tester%20via%20SSP--cloud-informational&amp;color=yellow?logo=Python" alt="Onyxia"></a>
<a href="http://colab.research.google.com/github/romaintailhurat/miscbooks/blob/main/polars-tuto.ipynb" target="_blank" rel="noopener"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"></a>

<div class="alert alert-danger" role="alert">
<i class="fa-solid fa-triangle-exclamation"></i> Warning</h3>

Pour bien débuter, on installe les packages nécessaires au
fonctionnement de ce notebook et on importe toutes les fonctions à
utiliser.

``` python
!pip install polars pynsee[full] s3fs
```

</div>

In [2]:
import os
import polars as pl
import s3fs
from pynsee.download import download_file

# Lecture de données

Les exemples fournis dans ce notebook utiliseront les données de la BPE
(à l’instar du [module de découverte du tidyverse dans
utilitr](https://www.book.utilitr.org/03_fiches_thematiques/fiche_tidyverse)).

On exploite ici deux possibilités : 1. charger les données via le module
Python `pynsee` 2. charger depuis le dossier `donnees-insee` du datalab
TODO

## Via Pynsee

In [3]:
pandas_df_bpe = download_file("BPE_ENS") # pynsee renvoie un dataframe pandas
df = pl.from_pandas(pandas_df_bpe)
df.head(5)


File in insee.fr modified or corrupted during download


Previously saved data has been used:
/home/onyxia/.cache/pynsee/pynsee/fb1b844aa0ba3f4ac2490c59f518b09b
Set update=True to get the most up-to-date data

Extracting:   0%|          | 0.00/74.6M [00:00<?, ?B/s]

Extracting:  24%|██▍       | 17.8M/74.6M [00:00<00:00, 186MB/s]

Extracting:  52%|█████▏    | 38.7M/74.6M [00:00<00:00, 205MB/s]

Extracting:  82%|████████▏ | 61.0M/74.6M [00:00<00:00, 218MB/s]

Extracting: 100%|██████████| 74.6M/74.6M [00:00<00:00, 200MB/s]



AAV2020,AN,BV2012,DEP,DEPCOM,DOM,EPCI,DCIRIS,REG,SDOM,TYPEQU,UU2020,NB_EQUIP
str,str,str,str,str,str,str,str,str,str,str,str,str
"""524""","""2021""","""01093""","""01""","""01001""","""A""","""200069193""","""010010000""","""84""","""A1""","""A129""","""CSZ""","""1"""
"""524""","""2021""","""01093""","""01""","""01001""","""A""","""200069193""","""010010000""","""84""","""A4""","""A401""","""CSZ""","""2"""
"""524""","""2021""","""01093""","""01""","""01001""","""A""","""200069193""","""010010000""","""84""","""A4""","""A402""","""CSZ""","""1"""
"""524""","""2021""","""01093""","""01""","""01001""","""A""","""200069193""","""010010000""","""84""","""A4""","""A404""","""CSZ""","""2"""
"""524""","""2021""","""01093""","""01""","""01001""","""A""","""200069193""","""010010000""","""84""","""A4""","""A405""","""CSZ""","""2"""


## Via le stockage public du datalab

In [4]:
# WIP need to deal with types for parquet
# Create filesystem object
S3_ENDPOINT_URL = "https://" + os.environ["AWS_S3_ENDPOINT"]
fs = s3fs.S3FileSystem(client_kwargs={'endpoint_url': S3_ENDPOINT_URL})
BUCKET = "donnees-insee/diffusion/BPE/2019"

with fs.open(f"{BUCKET}/BPE_ENS.csv") as bpe_csv:
    df_bpe = pl.read_csv(bpe_csv)
    print(df_bpe.head())
    #with fs.open(f"{BUCKET}/BPE_ENS.parquet", "w") as bpe_parquet:    
    df_bpe.write_parquet("bpe.parquet")

shape: (5, 1)
┌─────────────────────────────────────┐
│ REG";"DEP";"DEPCOM";"DCIRIS";"AN... │
│ ---                                 │
│ str                                 │
╞═════════════════════════════════════╡
│ 84;01;01001;01001;2019;A401;        │
│ 84;01;01001;01001;2019;A404;        │
│ 84;01;01001;01001;2019;A405;        │
│ 84;01;01001;01001;2019;A504;        │
│ 84;01;01001;01001;2019;A507;        │
└─────────────────────────────────────┘

In [5]:
df.write_parquet("bpe.parquet")
df_bpe = pl.read_parquet("bpe.parquet")

# Comment utiliser Polars ?

A l’instar d’autres outils modernes d’exploitation des données, Polars
expose un modèle de traitement basé sur des fonctions de haut niveau,
comme `select`, `filter` ou `groupby`, qui empruntent au langage SQL une
logique expressive du “quoi ?” plutôt que du “comment ?”.

Dans l’exemple qui suit, on commence par déclarer une exécution retardée
(via `lazy()`) qui va permettre au moteur sous-jacent d’optimiser le
traitement complet. Puis on exprime à l’aide des fonctions de haut
niveau ce que l’on veut faire : 1. filtrer le jeu de données pour ne
garder les lignes pour lesquelles la colonne `TYPEQU` vaut `B316` (les
stations-services) 2. on regroupe au niveau département 3. on compte le
nombre d’occurrences pour chaque département via `agg` 4. le dernier
appel - `collect()` - indique que le traitement peut être lancé (et donc
optimisé, parallelisé par Polars).

In [6]:
df_stations_service = df_bpe.lazy().filter( # 1.
    pl.col("TYPEQU") == "B316"
).groupby( # 2.
    "DEP"
).agg( # 3.
    pl.count().alias("NB_STATION_SERVICE")
).collect() # 4.

df_stations_service.head(5)

DEP,NB_STATION_SERVICE
str,u32
"""05""",29
"""2A""",32
"""38""",138
"""64""",94
"""01""",91


## Sélection de données

Deux types de sélections sont possibles : 1. une sélection de variables
(en colonne), avec `select` 2. une sélection d’observations (en ligne),
avec `filter`

La combinaison des deux se faisant en chaînant l’appel à ces deux
fonctions.

### Sélection de variables

Commençons par sélectionner des variables en utilisant leurs noms :

In [7]:
df_bpe.select(
    ["DEPCOM", "TYPEQU", "NB_EQUIP"]
).head(5)

DEPCOM,TYPEQU,NB_EQUIP
str,str,str
"""01001""","""A129""","""1"""
"""01001""","""A401""","""2"""
"""01001""","""A402""","""1"""
"""01001""","""A404""","""2"""
"""01001""","""A405""","""2"""


Puis en utilisant leurs positions :

In [8]:
df_bpe[:, 1:5].head(5)

AN,BV2012,DEP,DEPCOM
str,str,str,str
"""2021""","""01093""","""01""","""01001"""
"""2021""","""01093""","""01""","""01001"""
"""2021""","""01093""","""01""","""01001"""
"""2021""","""01093""","""01""","""01001"""
"""2021""","""01093""","""01""","""01001"""


On peut également s’appuyer sur des motifs de sélection des noms de
colonnes mobilisant des expressions régulières (ici `^DEP.*$` signifiant
“débute par DEP”):

In [9]:
df_bpe.select(
    pl.col("^DEP.*$")
).head(5)

DEP,DEPCOM
str,str
"""01""","""01001"""
"""01""","""01001"""
"""01""","""01001"""
"""01""","""01001"""
"""01""","""01001"""


La fonction `select` acceptant des `list` Python, on peut construire des
sélecteurs assez puissants :

In [10]:
dep_cols = [cols for cols in df_bpe.columns if cols.startswith("DEP")] 

df_bpe.select(dep_cols).head(5)

DEP,DEPCOM
str,str
"""01""","""01001"""
"""01""","""01001"""
"""01""","""01001"""
"""01""","""01001"""
"""01""","""01001"""


### Sélection d’observation

TODO

## Renommage de variables

La fonction `rename` permet de lister les colonnes à renommer via un
dictionnaire Python :

In [11]:
df_bpe.rename({
    "DEPCOM" : "code_commune"
}).head(5)

AAV2020,AN,BV2012,DEP,code_commune,DOM,EPCI,DCIRIS,REG,SDOM,TYPEQU,UU2020,NB_EQUIP
str,str,str,str,str,str,str,str,str,str,str,str,str
"""524""","""2021""","""01093""","""01""","""01001""","""A""","""200069193""","""010010000""","""84""","""A1""","""A129""","""CSZ""","""1"""
"""524""","""2021""","""01093""","""01""","""01001""","""A""","""200069193""","""010010000""","""84""","""A4""","""A401""","""CSZ""","""2"""
"""524""","""2021""","""01093""","""01""","""01001""","""A""","""200069193""","""010010000""","""84""","""A4""","""A402""","""CSZ""","""1"""
"""524""","""2021""","""01093""","""01""","""01001""","""A""","""200069193""","""010010000""","""84""","""A4""","""A404""","""CSZ""","""2"""
"""524""","""2021""","""01093""","""01""","""01001""","""A""","""200069193""","""010010000""","""84""","""A4""","""A405""","""CSZ""","""2"""


*Fun fact*, la logique est l’inverse de celle de dplyr. :)

Comme vu plus haut, construire des expressions de renommage plus
complexes pourra se faire en pur Python :

In [12]:
cols_minuscules = {cols:cols.lower() for cols in df_bpe.columns}

df_bpe.rename(cols_minuscules).head(5)

aav2020,an,bv2012,dep,depcom,dom,epci,dciris,reg,sdom,typequ,uu2020,nb_equip
str,str,str,str,str,str,str,str,str,str,str,str,str
"""524""","""2021""","""01093""","""01""","""01001""","""A""","""200069193""","""010010000""","""84""","""A1""","""A129""","""CSZ""","""1"""
"""524""","""2021""","""01093""","""01""","""01001""","""A""","""200069193""","""010010000""","""84""","""A4""","""A401""","""CSZ""","""2"""
"""524""","""2021""","""01093""","""01""","""01001""","""A""","""200069193""","""010010000""","""84""","""A4""","""A402""","""CSZ""","""1"""
"""524""","""2021""","""01093""","""01""","""01001""","""A""","""200069193""","""010010000""","""84""","""A4""","""A404""","""CSZ""","""2"""
"""524""","""2021""","""01093""","""01""","""01001""","""A""","""200069193""","""010010000""","""84""","""A4""","""A405""","""CSZ""","""2"""
