# Tutoriel polars

### Importation du module (par convention on le nomme pl)

In [134]:
import polars as pl

Polars est une bibliothèque de manipulation de données rapide et performante pour Python, conçue pour traiter des datasets volumineux et complexes en utilisant une approche basée sur les DataFrames, similaire à **pandas**, mais avec des performances et une scalabilité améliorées grâce à l'optimisation en mémoire et à la parallélisation du traitement.

Lien vers la documentation officielle : https://docs.pola.rs/

<small> A noter : Il est recommandé d'utiliser l'extension VSCode Data Wrangler pour afficher les df de manière plus agréable (https://marketplace.visualstudio.com/items?itemName=ms-toolsai.datawrangler). Vous pouvez la télécharger depuis ce lien ou directement depuis le store d'extensions VSCode

### Charger un DataFrame à partir d'un fichier CSV

In [135]:
dfTzc = pl.read_csv("../data/alm_detrn_central_2212/inputs/gse_ct_ref.csv")
dfTzc

cd_table,cd_trajectoire,dt_trajectoire,cd_ct_ref,maturite,cd_choc_s2_gse,tzc
str,str,str,str,i64,str,f64
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",0,"""CENTRAL""",0.0
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",1,"""CENTRAL""",0.03176
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",2,"""CENTRAL""",0.03295
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",3,"""CENTRAL""",0.03203
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",4,"""CENTRAL""",0.03152
…,…,…,…,…,…,…
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",146,"""RATES_UP""",0.0428
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",147,"""RATES_UP""",0.04281
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",148,"""RATES_UP""",0.04282
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",149,"""RATES_UP""",0.04283


### Ajout d'une colonne avec la fonction *with_colums*

Il suffit d'écrire l'expression de la colonne que vous souhaitez rajouter dans le *with_colums*. Pour utiliser une colonne déjà existante, vous devez utiliser la fonction *pl.col* afin d'indiquer sur quelle(s) colonne(s) vous travaillez. Enfin, pour lui donner un nom il faut utiliser la fonction *alias* sur l'ensemble de l'expression calculée. 

In [136]:
dfTzc = dfPzc.with_columns(
    (pl.col("tzc")*100).alias("tzc_pourcent")
    )
dfTzc

cd_table,cd_trajectoire,dt_trajectoire,cd_ct_ref,maturite,cd_choc_s2_gse,tzc,tzc_pourcent,pzc
str,str,str,str,i64,str,f64,f64,f64
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",0,"""CENTRAL""",0.0,0.0,1.0
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",1,"""CENTRAL""",0.03176,3.176,0.969218
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",2,"""CENTRAL""",0.03295,3.295,0.93722
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",3,"""CENTRAL""",0.03203,3.203,0.909752
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",4,"""CENTRAL""",0.03152,3.152,0.883262
…,…,…,…,…,…,…,…,…
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",146,"""RATES_UP""",0.0428,4.28,0.002201
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",147,"""RATES_UP""",0.04281,4.281,0.002108
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",148,"""RATES_UP""",0.04282,4.282,0.002018
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",149,"""RATES_UP""",0.04283,4.283,0.001933


### Définition d'une fonction qui calcule une colonne
Cette fonction à pour but de calculer une nouvelle colonne pour un Df et de lui appliquer le nom donné en alias. Elle retourne une expression polars de type pl.Expr qui contiendra les valeurs pour la colonne ainsi que son nom (ou *alias*)

Nous pouvons remarquer que nous définissons les types des inputs et des outputs ainsi que des valeurs par défaut pour les inputs. C'est une bonne pratique de code qu'il est important de respecter quel que soit le projet.

Ici, nous souhaitons avoir des str en Input car nous prenons en paramètres des noms de colonnes  

<small>  **ATTENTION** : Il faut faire attention aux types des variables utilisées à tout moment. Ici, colpzc est un str car c'est un nom de colonne mais les valeurs dans cette colonne sont bien des float64 

In [137]:
def getPzc(colpzc : str = 'tzc', colMaturite : str = 'maturite', alias : str = None) -> pl.Expr:
    
    expr = 1./(1.+pl.col("tzc"))**(pl.col("maturite"))
    
    if alias is not None:
        expr = expr.alias(alias)
    
    return expr

### Exemple quand la fonction fonctionne car on lui donne les **bons** inputs
Quand on ne donne pas la valeur des paramètres (exemple : colTzc) il va chercher la valeur définie par défaut (Ici 'tzc')

<small>Ce qui est renvoyé est un exemple de type **pl.Expr** et vous pouvez remarquer que l'expression dans la fonction *getPzc* a été automatiquement traduite en un code polars


In [138]:
getPzc(alias='pzc')

### Exemple quand la fonction ne fonctionne pas car on lui donne les **mauvais** inputs
Ici la fonction attend un alias de type *str* et non *int*   
<small> Enlevez le commentaire pour tester mais ça empêchera de faire des Run All


In [139]:
# getPzc(alias=5)

### Calcul et ajout de la colonne pzc (fonction *with_columns*) en utilisant une fonction


In [140]:
dfPzc = dfTzc.with_columns(
    getPzc(alias='pzc')
)

dfPzc

cd_table,cd_trajectoire,dt_trajectoire,cd_ct_ref,maturite,cd_choc_s2_gse,tzc,tzc_pourcent,pzc
str,str,str,str,i64,str,f64,f64,f64
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",0,"""CENTRAL""",0.0,0.0,1.0
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",1,"""CENTRAL""",0.03176,3.176,0.969218
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",2,"""CENTRAL""",0.03295,3.295,0.93722
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",3,"""CENTRAL""",0.03203,3.203,0.909752
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",4,"""CENTRAL""",0.03152,3.152,0.883262
…,…,…,…,…,…,…,…,…
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",146,"""RATES_UP""",0.0428,4.28,0.002201
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",147,"""RATES_UP""",0.04281,4.281,0.002108
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",148,"""RATES_UP""",0.04282,4.282,0.002018
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",149,"""RATES_UP""",0.04283,4.283,0.001933


### Calculs basiques et statistiques
Somme, moyenne et écart type

In [141]:
df_stats = dfPzc.select([
    pl.col("pzc").sum().alias("total_pzc"),
    pl.col("pzc").mean().alias("mean_pzc"),
    pl.col("pzc").std().alias("std_pzc")
])

df_stats


total_pzc,mean_pzc,std_pzc
f64,f64,f64
102.913248,0.227182,0.264567


### GroupBy et agrégations

In [142]:
df_grouped = dfPzc.groupby("cd_choc_s2_gse").agg([
    pl.col("tzc").mean().alias("mean_tzc"),
    pl.col("tzc").sum().alias("total_tzc")
])

df_grouped


  df_grouped = dfPzc.groupby("cd_choc_s2_gse").agg([


cd_choc_s2_gse,mean_tzc,total_tzc
str,f64,f64
"""RATES_UP""",0.04113,6.21058
"""CENTRAL""",0.030675,4.63193
"""RATES_DOWN""",0.023211,3.50479


### Selection de quelques colonnes (avec la fonction *select*)


In [143]:
dfPzc.select(['cd_choc_s2_gse', 'maturite', 'pzc'])

cd_choc_s2_gse,maturite,pzc
str,i64,f64
"""CENTRAL""",0,1.0
"""CENTRAL""",1,0.969218
"""CENTRAL""",2,0.93722
"""CENTRAL""",3,0.909752
"""CENTRAL""",4,0.883262
…,…,…
"""RATES_UP""",146,0.002201
"""RATES_UP""",147,0.002108
"""RATES_UP""",148,0.002018
"""RATES_UP""",149,0.001933


### Création d'un DataFrame dfCf (CashFlows)


In [144]:
dfCf = pl.DataFrame({
    "maturite": [1, 2, 3],
    "cf": [40, 50, 60]
})

dfCf

maturite,cf
i64,i64
1,40
2,50
3,60


### Exemple de  jointure (fonction *join*)



In [145]:
df_joined = dfCf.join(dfPzc,how="left", on="maturite")

df_joined 


  df_joined = dfCf.join(dfPzc,how="left", on="maturite")


maturite,cf,cd_table,cd_trajectoire,dt_trajectoire,cd_ct_ref,cd_choc_s2_gse,tzc,tzc_pourcent,pzc
i64,i64,str,str,str,str,str,f64,f64,f64
1,40,"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""","""CENTRAL""",0.03176,3.176,0.969218
1,40,"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""","""RATES_DOWN""",0.00794,0.794,0.992123
1,40,"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""","""RATES_UP""",0.05399,5.399,0.948776
2,50,"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""","""CENTRAL""",0.03295,3.295,0.93722
2,50,"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""","""RATES_DOWN""",0.01153,1.153,0.977333
2,50,"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""","""RATES_UP""",0.05602,5.602,0.896718
3,60,"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""","""CENTRAL""",0.03203,3.203,0.909752
3,60,"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""","""RATES_DOWN""",0.01409,1.409,0.958894
3,60,"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""","""RATES_UP""",0.05253,5.253,0.857623


### Jointure en appliquant un filtre (fonction *filter*)  
Ici on ne garde que les lignes contenant *cd_choc_s2_gse = "CENTRAL"*

In [146]:
df_joined = dfCf.join(dfPzc.filter(pl.col('cd_choc_s2_gse') == 'CENTRAL'), on="maturite", how="left")

df_joined

  df_joined = dfCf.join(dfPzc.filter(pl.col('cd_choc_s2_gse') == 'CENTRAL'), on="maturite", how="left")


maturite,cf,cd_table,cd_trajectoire,dt_trajectoire,cd_ct_ref,cd_choc_s2_gse,tzc,tzc_pourcent,pzc
i64,i64,str,str,str,str,str,f64,f64,f64
1,40,"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""","""CENTRAL""",0.03176,3.176,0.969218
2,50,"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""","""CENTRAL""",0.03295,3.295,0.93722
3,60,"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""","""CENTRAL""",0.03203,3.203,0.909752


### Exemple d'une jointure croisée  
L'utilisation d'un suffixe sert à renommer une colonne déjà existante lors d'un join  
Attention !!! Si une colonne ne porte pas déjà le nom initial, le suffixe ne sera pas appliqué  
Dans ce cas, il faudra renommer la colonne avec la fonction *rename* comme ce qui suit



In [147]:
dfCf1 = pl.DataFrame({
    "maturite": [4,5,6],
    "cf": [70, 80, 90],
    "tx": [0.01,0.02,0.015],
    "txPB": [0.06,0.06,0.06]
})

df_cross = dfCf.join(
    dfCf1, 
    how='cross',
    suffix="_UC"
    ).rename(
        {"txPB" : "txPB_UC"}
    )

df_cross


maturite,cf,maturite_UC,cf_UC,tx,txPB_UC
i64,i64,i64,i64,f64,f64
1,40,4,70,0.01,0.06
1,40,5,80,0.02,0.06
1,40,6,90,0.015,0.06
2,50,4,70,0.01,0.06
2,50,5,80,0.02,0.06
2,50,6,90,0.015,0.06
3,60,4,70,0.01,0.06
3,60,5,80,0.02,0.06
3,60,6,90,0.015,0.06


### Ajout de la colonne prix_actualisé et de la colonne tx_exemple  
La fonction *lit*  permet de créer une colonne contenant la valeur souhaitée.

<small> Ici, vous pouvez remarquer qu'avec un *with_colums*, nous sommes capable de créer plusieurs colonne en indiquant leurs expressions sous forme de liste.



In [148]:
df_joined = df_joined.with_columns([
    (pl.col("cf") * pl.col("pzc")).alias("prix_actualise"),
    pl.lit(0.02).alias('tx_exemple')
    ])

df_joined

maturite,cf,cd_table,cd_trajectoire,dt_trajectoire,cd_ct_ref,cd_choc_s2_gse,tzc,tzc_pourcent,pzc,prix_actualise,tx_exemple
i64,i64,str,str,str,str,str,f64,f64,f64,f64,f64
1,40,"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""","""CENTRAL""",0.03176,3.176,0.969218,38.768706,0.02
2,50,"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""","""CENTRAL""",0.03295,3.295,0.93722,46.860984,0.02
3,60,"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""","""CENTRAL""",0.03203,3.203,0.909752,54.585122,0.02


### Exemple de concaténation (fonction *concat*) de deux Df avec la méthode *vertical*  
Les noms et types de colonnes doivent être identiques


In [149]:
dfCf = pl.DataFrame({
    "maturite": [1, 2, 3],
    "cf": [40, 50, 60]
})
dfCf1 = pl.DataFrame({
    "maturite": [4,5,6],
    "cf": [70, 80, 90]
})

dfCfConcatVert = pl.concat([dfCf, dfCf1], how='vertical')
dfCfConcatVert

maturite,cf
i64,i64
1,40
2,50
3,60
4,70
5,80
6,90


### Exemple de concaténation (fonction *concat*) de deux Df avec la méthode *diagonal*  

Cette méthode peut impliquer la création de **null** dans votre Df


In [150]:
dfCf = pl.DataFrame({
    "maturite": [1, 2, 3],
    "cf": [40, 50, 60]
})
dfCf1 = pl.DataFrame({
    "maturite": [1, 2, 5],
    "dividendes": [3, 3, 4]
})

dfCfConcatDiag = pl.concat([dfCf, dfCf1], how='diagonal')
dfCfConcatDiag

maturite,cf,dividendes
i64,i64,i64
1,40.0,
2,50.0,
3,60.0,
1,,3.0
2,,3.0
5,,4.0


### Utilisation de conditions (*when*,*then*,*otherwise*)

L'utilisation de condiction peut être très utilise pour définir une nouvelle colonne. Vous pouvez aussi enchainer les when then dans le cas où vous avez plus de conditions.

In [151]:

df_conditional = dfTzc.with_columns([
    pl.when(pl.col("tzc") > 0.02).then(pl.lit("HIGH")).otherwise(pl.lit("LOW")).alias("tzc_level")
])

df_conditional


cd_table,cd_trajectoire,dt_trajectoire,cd_ct_ref,maturite,cd_choc_s2_gse,tzc,tzc_pourcent,pzc,tzc_level
str,str,str,str,i64,str,f64,f64,f64,str
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",0,"""CENTRAL""",0.0,0.0,1.0,"""LOW"""
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",1,"""CENTRAL""",0.03176,3.176,0.969218,"""HIGH"""
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",2,"""CENTRAL""",0.03295,3.295,0.93722,"""HIGH"""
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",3,"""CENTRAL""",0.03203,3.203,0.909752,"""HIGH"""
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",4,"""CENTRAL""",0.03152,3.152,0.883262,"""HIGH"""
…,…,…,…,…,…,…,…,…,…
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",146,"""RATES_UP""",0.0428,4.28,0.002201,"""HIGH"""
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",147,"""RATES_UP""",0.04281,4.281,0.002108,"""HIGH"""
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",148,"""RATES_UP""",0.04282,4.282,0.002018,"""HIGH"""
"""reel 2212 officielle""","""reel""","""2022-12-31""","""officielle""",149,"""RATES_UP""",0.04283,4.283,0.001933,"""HIGH"""


Des fonctions telles que *is_null* or *is_not_null* existent en polars également

<small> Ici, voici un exemple pour attribuer une valeur aux valeurs décrites comme null précédemment. Ici les deux méthodes font la même chose mais le when peut être utilisé de manière plus globale 

In [152]:
dfCfConcatDiag.with_columns([
    pl.when(pl.col("cf").is_null())
    .then(pl.col("dividendes"))
    .otherwise(pl.col("cf"))
    .alias("cf"),
    (pl.col("dividendes").fill_null(0))
    .alias("dividendes")
])


maturite,cf,dividendes
i64,i64,i64
1,40,0
2,50,0
3,60,0
1,3,3
2,3,3
5,4,4


### Exemple de la fonction *explode*
La fonction *explode* transforme chaque élément d'une liste dans une colonne en une nouvelle ligne, tout en dupliquant les autres colonnes, afin de normaliser les données.


In [153]:
df_explode = pl.DataFrame({
    "id": [1,1,2],
    "values": [[1, 2, 3], [4, 5],[6,7,8]]
})
print(df_explode)
df_explode = df_explode.explode("values")


df_explode


shape: (3, 2)
┌─────┬───────────┐
│ id  ┆ values    │
│ --- ┆ ---       │
│ i64 ┆ list[i64] │
╞═════╪═══════════╡
│ 1   ┆ [1, 2, 3] │
│ 1   ┆ [4, 5]    │
│ 2   ┆ [6, 7, 8] │
└─────┴───────────┘


id,values
i64,i64
1,1
1,2
1,3
1,4
1,5
2,6
2,7
2,8


### *Pivoting* ou *reshaping* d'un Df avec la fonction *melt*
La fonction *melt* convertit des colonnes en lignes, ce qui est particulièrement utile pour la visualisation des données ou pour les préparer à des analyses.

In [154]:
df = pl.DataFrame({
    "maturite": [1, 2, 3],
    "cf_a": [10, 20, 30],
    "cf_b": [40, 50, 60],
    "cf_c": [70, 80, 90]
})
print("Voici le DataFrame avant utilisation du melt :")
print(df)
# Application de pl.melt pour transformer en format long
melted_df = df.melt(id_vars="maturite", value_vars=["cf_a", "cf_b", "cf_c"], variable_name="type_cf", value_name="cf")

melted_df


Voici le DataFrame avant utilisation du melt :
shape: (3, 4)
┌──────────┬──────┬──────┬──────┐
│ maturite ┆ cf_a ┆ cf_b ┆ cf_c │
│ ---      ┆ ---  ┆ ---  ┆ ---  │
│ i64      ┆ i64  ┆ i64  ┆ i64  │
╞══════════╪══════╪══════╪══════╡
│ 1        ┆ 10   ┆ 40   ┆ 70   │
│ 2        ┆ 20   ┆ 50   ┆ 80   │
│ 3        ┆ 30   ┆ 60   ┆ 90   │
└──────────┴──────┴──────┴──────┘


maturite,type_cf,cf
i64,str,i64
1,"""cf_a""",10
2,"""cf_a""",20
3,"""cf_a""",30
1,"""cf_b""",40
2,"""cf_b""",50
3,"""cf_b""",60
1,"""cf_c""",70
2,"""cf_c""",80
3,"""cf_c""",90
