In [1]:
import functools
import itertools
from pathlib import Path
from typing import Iterable

import pandas as pd

# üêç Pipelines de donn√©es fonctionnels avec Python

> Impl√©menter des pipelines de traitement de donn√©es gr√¢ce aux concepts de programmation fonctionnelle inclus nativement avec Python

_Romain Clement - Meetup Python Grenoble - 23/11/2023_

## ü§∑‚Äç‚ôÇÔ∏è Contexte

- Essor du _Data Engineering_
- Paradigme de _graphes orient√©s acycliques_ (_DAGs_)
- Programmation fonctionnelle en Python
- Modularit√©, d√©terminisme, testabilit√©

Pourquoi parler de pipelines de donn√©es fonctionnels en Python ?

## ‚ö†Ô∏è Remarques

- Proposition de patterns
- Small / medium data
- Programmation fonctionnelle _light_

Quelques remarques avant de commencer :

Ce que je vais vous monter est simplement une proposition de patterns que je trouve int√©ressants et applicables dans divers contextes.

Ces patterns √©tant sur le calcul en m√©moire, il s'appliquent principalement sur du volume de donn√©es petit ou moyen, mais pas au big data (bien que certains concepts se recoupent).

Enfin, nous allons parler de programmation fonctionnelle mais √† un niveau relativement haut, donc pas d'inqui√©tude si vous n'√™tes pas expert !

## ‚öôÔ∏è DAG ?

_**D**irected **A**cyclic **G**raph_

- Graphe : noeuds + ar√™tes
- Orient√© : ~ar√™tes~ arcs
- Acyclique : pas de circuits

Qu'est-ce qu'un DAG ou graphe orient√© acyclique ?

### ‚öôÔ∏è DAG - Repr√©sentation

```mermaid
graph LR;
    A-->B;
    A-->C;
    B-->D;
    C-->D;
```

Voici un exemple de repr√©sentation de DAG. On remarque les propri√©t√©s √©nonc√©es pr√©c√©demment :

- Des t√¢ches √† effectuer repr√©sent√©es par des _noeuds_
- Les d√©pendances d'ex√©cution entre les t√¢ches sont mat√©rialis√©es par des arcs
- Il n'y a pas de d√©pendances cycliques entre les t√¢ches

### ‚öôÔ∏è DAG - Avantages

- D√©pendances et ordre d'ex√©cution
- Modularit√©, r√©utilisabilit√©, testabilit√©
- Pipelines et algorithmes

Alors pourquoi s'emb√™ter √† exprimer un probl√®me en le repr√©sentant sous la forme de graphe orient√© acyclique ?

### ‚öôÔ∏è DAG - Exemple 1

```mermaid
graph LR;
    A[Compute some stuff];
```

Le DAG le plus simple que l'on puisse repr√©senter !

Une seule t√¢che √† effectuer, sans d√©pendances. C'est un cas particulier mais il est quand m√™me bon de le noter.

### ‚öôÔ∏è DAG - Exemple 2 - Nettoyer un fichier CSV

```mermaid
graph LR;
    A[Load CSV] -- Dataframe --> B[Clean Dataframe];
    B -- Dataframe --> C[Save to CSV];
```

Un second exemple un peu plus repr√©sentatif :
- Une premi√®re t√¢che permet de charger un fichier CSV dans un Dataframe (Pandas)
- Puis une seconde t√¢che nettoie ce Dataframe (ex : formatage des dates)
- Enfin une troisi√®me t√¢che sauvegarde ce Dataframe dans un nouveau fichier CSV

Pour les personnes dans le domaine de la Data, c'est le sch√©ma typique de ce que l'on appelle un processus ETL (Extract Transform and Load).

### ‚öôÔ∏è DAG - Exemple 2bis - Nettoyer un fichier CSV

```mermaid
graph LR;
    subgraph F[Process]
        direction LR
            A[Load CSV] -- Dataframe --> B[Clean Dataframe];
            B -- Dataframe --> C[Save to CSV];
    end
    START[ ] -- Path --> A;
    C -- Path --> END[ ];
    style START fill:#FFFFFF00, stroke:#FFFFFF00;
    style END fill:#FFFFFF00, stroke:#FFFFFF00;
```

M√™me exemple que pr√©c√©demment mais avec une petite subtilit√© : le graphe devient param√©trable et devient par la m√™me occasion int√©grable comme une sous-t√¢che d'un plus grand syst√®me !

Cet exemple vous montre que la repr√©sentation en graphe peut s'appliquer √† diff√©rents niveaux d'une architecture logicielle :
- Algorithmique
- Applicatif
- Syst√®me
- etc.

### ‚öôÔ∏è DAG - Exemple 3 - Web-scraping ETL

```mermaid
graph LR;
    A[Extract data] -- Dataframe --> B[Transform data];
    A -- Dataframe --> C[Compute metadata];
    B -- Dataframe --> D[Load data];
    C -- Dict[str, Any] --> D;
```

Dans cet exemple, on mod√©lisation un processus de web-scraping.

Assez semblable au pr√©c√©dent, on remarque des chemins parall√®les cette fois-ci : la sortie d'une t√¢che peut √™tre utilis√©e par plusieurs t√¢ches. Gardez bien ce concept en t√™te pour la suite !

### ‚öôÔ∏è DAG - Exemple 4 - Traitement de fichiers (streaming)

```mermaid
graph LR;
    subgraph B[Per file process]
        direction LR
            B1[Read file] --> B2[Process file]
    end
    A[List files] -- files --> B1
```

Autre exemple un peu plus complexe : certains traitements n√©cessite un flux en streaming, c'est √† dire que l'on traite des donn√©es au fur et √† mesure, au lieu de charger toutes les donn√©es en m√©moire puis de tout traiter d'un bloc.

C'est g√©n√©ralement utile lorsque les donn√©es sont volumineuses ou bien qu'une source de donn√©es est _IO bound_.

Avec ce type de mod√©lisation en streaming, notre pipeline devient potentiellement compatible avec la mise en concurrence de t√¢ches (ex : asyncio ou Python Threads).

### ‚öôÔ∏è DAG - Exemple 5 - Machine Learning

```mermaid
graph LR;
    A[Load dataset] --> B[Train / test split];
    B -- train set --> C[Train model];
    C -- model --> D[Evaluate model] & E[Register];
    B -- test set --> D;
    D -- metrics --> F[Log];
```

Terminons avec un dernier exemple avec lequel les Data Scientists seront d√©j√† familiers : un entrainement de mod√®le par apprentissage automatique (machine learning).

On retrouve les structures √©nonc√©es pr√©c√©demment dans un exemple complet.

## ∆õ Programmation Fonctionnelle

Concepts utiles :

- Tout est fonction
- Immutabilit√©
- Composition
- R√©utilisabilit√© (_Curryfication_)
- Evaluation paresseuse

Passons rapidement en revue quelques concepts utiles de programmation fonctionnelle qui nous serons utiles pour la suite. Bien √©videmment, le monde de la PF est bien plus important.

### ∆õ Concepts fonctionnels en Python

Disponible nativement :

- Fonctions: `def`
- Fonctions d'ordre sup√©rieur: `map()`, `filter()`, `itertools.reduce()`, `lambda`
- R√©utilisabilit√©: `functools.partial()`
- Evaluation paresseuse: `yield`, `itertools.tee()`
- Typage (faible): `typing`

Le langage Python est multi-paradigme : imp√©rative, orient√©-objet mais aussi fonctionnel !

D'ailleurs, il suffit de voir ce que le langage et la biblioth√®que standard inclus nativement.

Egalement, contrairement aux croyances, le langage est typ√© ! Le typage dynamique bien connu est un effet de bord des r√©f√©rences nomm√©es mais derri√®re le rideau, les objets sont bel et bien fortement typ√©s !

Remarque pour le typage faible : les annotation de type en Python ne sont pas √©valu√©es √† l'ex√©cution ! La v√©rification de types doit s'effecteur en amont gr√¢ce √† un validateur tel que `mypy`. Le typage reste faible car non appliqu√© √† l'ex√©cution mais 

### ∆õ Concepts fonctionnels en Python

Non disponible nativement :

- Composition de fonctions
- Structures de donn√©es complexes immutables
- Typage fort (~)

N√©anmoins, certains concepts qui pourraient nous √™tre utiles ne sont pas inclus nativement et c'est bien dommage !

Immutabilit√© : coupl√© avec des annotations de type (Sequence, Mapping, frozenset, frozen dataclasses) on peut s'en rapprocher au moment de la validation !

## üë®‚Äçüíª Mise en pratique

Essayons de fusionner les concepts de DAGs et programmation fonctionnelle !

Examples and Code Walkthrough (5 minutes)

    Provide practical examples of writing DAGs using functional programming concepts.
    Walk through code snippets to illustrate the application of map, filter, reduce, functools.partial, generators, iterators, and lazy evaluation in building data pipelines.

Advantages and Drawbacks (2 minutes)

    Summarize the advantages of using functional data pipelines in Python:
        Readability and maintainability of code.
        Improved composability and reusability of functions.
        Efficient handling of large datasets through lazy evaluation.
    Discuss potential drawbacks or challenges:
        Learning curve for those unfamiliar with functional programming.
        Potential performance trade-offs in certain scenarios.

Conclusion (2 minutes)

    Recap the key points discussed in the talk.
    Emphasize the power and flexibility of functional programming in designing data pipelines.
    Encourage attendees to explore and experiment with functional programming concepts in their own data processing workflows.

### ‚ôª R√©utilisabilit√©

- Fonctions param√©trables
- _Curryfication_
- `functools.partial`

Commen√ßons avec la propri√©t√© de r√©utilisabilit√© car il sera r√©utilis√©e dans tous les autres exemples.

Le besoin g√©n√©ral est de pouvoir d√©finir des fonctions param√©trables utilisables dans plusieurs contextes : un bloc de traitement d'un graphe pourrait servir dans un autre graphe.

La PF permet ce genre de chose avec le concept de Curryfication (Currying) : d√©finir une fonction pr√©-param√©tr√©e pour quelle soit utilis√©e par la suite.

En Python, `functools.partial` permet ce type de construction.
Voyons comment s'en servir avec un exemple.

In [2]:
def load_csv(filename: str, separator: str = ",") -> pd.DataFrame:
    return pd.read_csv(filename, sep=separator)

In [3]:
def simple_process_csv() -> None:
    load_csv("data.csv")

In [4]:
load_tsv = functools.partial(load_csv, separator="\t")

In [5]:
def simple_process_tsv() -> None:
    load_tsv("data.tsv")

### ‚õì Composabilit√©

- Cha√Ænage de fonctions
- `functools.partial`
- `functools.reduce`

Peut √™tre l'aspect le plus connu de la programmation fonctionnelle : pouvoir chainer les fonctions les unes aux autres !

En Python, la composabilit√© n'est pas support√©e nativement mais voyons comment cela se pr√©sente :

In [6]:
def load_csv(filename: str, separator: str = ",") -> pd.DataFrame:
    return pd.read_csv(filename)

def clean_csv(data: pd.DataFrame) -> pd.DataFrame:
    return data.dropna()

def save_csv(filename: str, data: pd.DataFrame) -> None:
    data.to_csv(filename)

In [7]:
def pipeline_imperative(input_csv: Path, output_csv: Path) -> None:
    input_data = load_csv(input_csv)
    clean_data = clean_csv(input_data)
    save_csv(output_csv, clean_data)

In [8]:
def pipeline_functional(input_csv: Path, output_csv: Path) -> None:
    save_csv(output_csv, clean_csv(load_csv(input_csv)))

In [9]:
def compose(*functions):
    return functools.reduce(
        lambda f, g: lambda x: f(g(x)),
        functions,
        lambda x: x,
    )

def pipeline_compose(input_csv: Path, output_csv: Path) -> None:
    dag = compose(
        functools.partial(save_csv, output_csv),
        clean_csv,
        load_csv,
    )
    dag(input_csv)

### üí§ Evaluation paresseuse

- Streaming
- G√©n√©rateurs
- `map`
- `itertools.tee`
- `list`

Dernier concept permettant de faire le lien entre tous et surement le plus puissant pour les graphes : l'√©valuation paresseuse (lazy evaluation) ! Mais ce n'est pas sans probl√®me ...

Evaluer une entit√© uniquement lorsque l'on en a besoin permet de mettre en place un flux de donn√©es en streaming. En Python, cela passe par l'utilisation des _g√©n√©rateurs_.

Le probl√®me avec l'√©valuation paresseuse est que l'on ne peut plus forc√©ment chainer les fonctions entre elles telles quelles. Python fourni la fonction `map` qui permet d'appliquer une fonction √† un it√©rable (un g√©n√©rateur est un it√©rable, mais l'inverse n'est pas forc√©ment vrai).

Autre probl√®me : comment utiliser un it√©rable par deux ou plusieurs t√¢ches suivantes ? La fonction `itertools.tee` permet de dupliquer l'it√©rateur autant de fois que n√©cessaire.

Enfin, le probl√®me de l'√©valuation paresseuse est qu'il faut un d√©clencheur de sa mat√©rialisation : g√©n√©ralement en Python la construction d'une liste final permet de d√©clencher la chaine d'√©valuation.

In [10]:
def list_files() -> Iterable[Path]:
    return Path().glob("*.png")

def open_file(filepath: Path) -> bytes:
    return filepath.read_bytes()

def process_data(data: bytes) -> int:
    return len(data)

In [11]:
def streaming_imperative() -> None:
    files = list_files()
    files_bytes = map(open_file, files)
    files_len = map(process_data, files_bytes)
    print(list(files_len))

In [12]:
def streaming_functional() -> None:
    files_len = map(process_data, map(open_file, list_files()))
    print(list(files_len))

In [13]:
def streaming_multiple() -> None:
    files1, files2 = itertools.tee(list_files(), 2)
    list(map(process_data, map(open_file, files1)))
    list(map(print, files2))

## üëç Avantages

- Fonctions Python pures
- Graphes de traitement avec style fonctionnel
- Force une conception g√©n√©rique
- Unit√©s de traitement param√©trables et r√©utilisables
- Donn√©es volumineuses b√©n√©ficient du streaming avec les g√©n√©rateurs
- Traitement des g√©n√©rateurs par √©valuation paresseuse
- Test facilit√©
- Traitement concurrent / parall√®le possible (`concurrent.futures`)

## üëé Limitations

- Courbe d'apprentissage
- Balance de performance
- Composition de fonctions
- Mat√©rialisation des g√©n√©rateurs
- R√©sultats interm√©diaires
- Introspection

## üöÄ Pour aller plus loin

Orchestrateurs:
- Airflow
- Dagster
- Prefect
- Spark

Biblioth√®ques:
- [`toolz`](https://toolz.readthedocs.io)
- [`functional-pipeline`](https://functional-pipeline.readthedocs.io)

## üèÅ Conclusion

Exp√©rimentez avec vos propres workflows !

Questions ?

## üìö R√©f√©rences

- [Wikipedia - Directed Acyclic Graph](https://en.wikipedia.org/wiki/Directed_acyclic_graph)
- [Function composition in Python](https://mathieularose.com/function-composition-in-python)
- [Mimicking Immutability in Python with Type Hints](https://justincaustin.com/blog/mimicking-immutability-python-type-hints/)
- [`itertools`](https://docs.python.org/3/library/itertools.html)
- [`functools`](https://docs.python.org/3/library/functools.html)