# Exemple de notebook : Utilisation du package IBIS pour pré-filtrer, faire des jointures et aggréger avant de charger les données avec pandas

Avec la collecte de plusieurs années d’historique des données SISE, les volumes de données disponibles dans les tables edc_communes, edc_prelevements et edc_resultats vont significativement augmenter. Cette situationsituation pose des défis en termes de performances pour le chargement des données.

En particulier, une approche consistant à charger une table entière dans un DataFrame Pandas avec une commande comme :

```python
df = con.table("edc_resultats").df()
```

peut devenir lente et gourmande en mémoire.


Ibis permet de se connecter à la base de données et de la requêter via python.

On peut alors définir une suite d'opérations qui ne seront exécutées que lorsqu'on en fera la demande (via `.execute()` ou `.to_pandas()`). 
Une fois la requête exécuté, les données sont récupérées dans des DataFrames (ou Series) pandas.

```python
# Aucune donnée n'est chargée
table_filtree = table.filter(...)['colonnes']

# On execute la requête et on récupère les données dans un DataFrame pandas
df = table_filtree.execute()
```
    
Ce notebook a pour objectif de montrer :

- Comment utiliser [Ibis](https://ibis-project.org/tutorials/getting_started) pour interroger et filtrer efficacement les données avant de les charger dans Pandas.
- Des exemples concrets adaptés à vos besoins d'analyse, comme le filtrage par dates, jointures entre tables ou la sélection de paramètres spécifiques.

In [1]:
import pandas as pd

pd.set_option("display.max_columns", None)  # show all cols
pd.set_option("display.max_colwidth", None)  # show full width of showing cols
pd.set_option(
    "display.expand_frame_repr", False
)  # print cols side by side as it's supposed to be

In [2]:
# Connexion à la base de données via ibis
import ibis

ibis_con = ibis.connect("./../../database/data.duckdb", read_only=True)

Pour commencer, listons les tables disponibles dans la base de données :

In [3]:
ibis_con.list_tables()

['edc_communes', 'edc_prelevements', 'edc_resultats']

L'inspection des colonnes d'une table peut se faire directement avec Ibis.

In [4]:
# On peut définir des objets DatabaseTable pour chacunes des tables
# Pour le moment on ne récupère pas les enregistrements des tables.
communes_table = ibis_con.table("edc_communes")
prelevements_table = ibis_con.table("edc_prelevements")
resultats_table = ibis_con.table("edc_resultats")

display(communes_table)
display(prelevements_table)
display(resultats_table)

## Filtres

1. Filtrer sur les prélévements de 2024

In [5]:
# On prédéfinit une opération de filtre à effectuer sur la table
prelevements_2024 = prelevements_table.filter(
    prelevements_table.dateprel >= "2024-01-01"
)

# On peut mettre une limite avant d'éxecuter la requête.
df_prelevements_2024 = prelevements_2024.limit(50).execute()
print(type(df_prelevements_2024))
df_prelevements_2024.head(2)

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,cddept,cdreseau,inseecommuneprinc,nomcommuneprinc,cdreseauamont,nomreseauamont,pourcentdebit,referenceprel,dateprel,heureprel,conclusionprel,ugelib,distrlib,moalib,plvconformitebacterio,plvconformitechimique,plvconformitereferencebact,plvconformitereferencechim,de_partition
0,1,1000003,1007,AMBRONAY,,,,100139034,2024-01-23,11h27,Eau d'alimentation conforme aux limites de qualité et non conforme aux références de qualité.,SYND. EAUX REGION D'AMBERIEU-EN-B,SERA - SYNDICAT DES EAUX DE LA REGION D'AMBERIEU-EN-BUGEY,SERA - SYNDICAT DES EAUX DE LA REGION D'AMBERIEU-EN-BUGEY,C,C,N,C,2024
1,1,1000003,1007,AMBRONAY,,,,100139393,2024-02-13,12h49,Eau d'alimentation conforme aux exigences de qualité en vigueur pour l'ensemble des paramètres mesurés.,SYND. EAUX REGION D'AMBERIEU-EN-B,SERA - SYNDICAT DES EAUX DE LA REGION D'AMBERIEU-EN-BUGEY,SERA - SYNDICAT DES EAUX DE LA REGION D'AMBERIEU-EN-BUGEY,C,C,C,C,2024


2. Filtrer sur les prélévements non conformes en 2024



In [6]:
non_conforme_query = (
    (prelevements_table.plvconformitebacterio == "N")
    | (prelevements_table.plvconformitechimique == "N")
    | (prelevements_table.plvconformitereferencebact == "N")
    | (prelevements_table.plvconformitereferencechim == "N")
)

non_conformes_2024 = prelevements_2024.filter(non_conforme_query)
f"En 2024, il y a eu {non_conformes_2024.count().execute():,.0f} prélévements non conformes au sens d'au moins une des variables suivantes : plvconformitebacterio, plvconformitechimique, plvconformitereferencebact, plvconformitereferencechim ([voir documentation](https://www.data.gouv.fr/fr/datasets/r/36afc708-42dc-4a89-b039-7fde6bcc83d8))".replace(
    ",", " "
)

"En 2024  il y a eu 89 299 prélévements non conformes au sens d'au moins une des variables suivantes : plvconformitebacterio  plvconformitechimique  plvconformitereferencebact  plvconformitereferencechim ([voir documentation](https://www.data.gouv.fr/fr/datasets/r/36afc708-42dc-4a89-b039-7fde6bcc83d8))"

In [7]:
non_conformes_paris = non_conformes_2024.filter(
    (prelevements_table.nomcommuneprinc == "PARIS")
)
f"{non_conformes_paris.count().execute():,.0f} sur la ville de PARIS"

'32 sur la ville de PARIS'

## Selectionner des colonnes avant d'exécuter la requête

In [8]:
selected_columns = non_conformes_2024[
    ["referenceprel", "dateprel", "nomcommuneprinc", "plvconformitebacterio"]
]
selected_columns.execute()

Unnamed: 0,referenceprel,dateprel,nomcommuneprinc,plvconformitebacterio
0,00100142530,2024-10-18,AMBRONAY,N
1,00100141265,2024-07-10,MURS-ET-GELIGNIEUX,N
2,00100142451,2024-10-17,AMBUTRIX,N
3,00100143357,2024-11-22,ANGLEFORT,N
4,00100141194,2024-07-10,ARBOYS EN BUGEY,N
...,...,...,...,...
89294,97600032043,2024-08-12,BOUENI,C
89295,97600032044,2024-08-12,BOUENI,C
89296,97600031309,2024-01-11,PAMANDZI,C
89297,97600031337,2024-01-15,PAMANDZI,C


## Jointure
Joindre edc_prelevements et edc_resultats sur referenceprel pour obtenir les résultats associés à chaque prélèvement :

In [9]:
joined_data = non_conformes_2024.join(
    resultats_table, non_conformes_2024.referenceprel == resultats_table.referenceprel
)[
    [
        "referenceprel",
        "dateprel",
        "nomcommuneprinc",
        "libmajparametre",
        "insituana",
        "rqana",
        "cdunitereferencesiseeaux",
    ]
]

joined_data.execute()

Unnamed: 0,referenceprel,dateprel,nomcommuneprinc,libmajparametre,insituana,rqana,cdunitereferencesiseeaux
0,00100142961,2024-03-28,ANSE,"TÉTRACHLOROÉTHANE-1,1,1,2",L,"<0,20",µg/L
1,00100142961,2024-03-28,ANSE,"TRICHLOROÉTHANE-1,1,1",L,"<0,05",µg/L
2,00100142961,2024-03-28,ANSE,"TÉTRACHLOROÉTHANE-1,1,2,2",L,"<0,50",µg/L
3,00100142961,2024-03-28,ANSE,"TRICHLOROÉTHANE-1,1,2",L,"<0,20",µg/L
4,00100142961,2024-03-28,ANSE,"DICHLOROÉTHYLÈNE-1,1",L,"<0,20",µg/L
...,...,...,...,...,...,...,...
6024762,97400138800,2024-07-22,TAMPON (LE),ENTÉROCOQUES /100ML-MS,L,<1,n/(100mL)
6024763,97400138800,2024-07-22,TAMPON (LE),TITRE ALCALIMÉTRIQUE,L,"<2,0",°f
6024764,97400138800,2024-07-22,TAMPON (LE),TEMPÉRATURE DE L'EAU (DOM),T,180,°C
6024765,97400138800,2024-07-22,TAMPON (LE),TEMPÉRATURE DE MESURE DU PH,T,180,°C


## Groupby et aggregats
Nombre total de prélèvements non conforme par commune en 2024

In [10]:
agg_data = non_conformes_2024.group_by("nomcommuneprinc").aggregate(
    nb_prelevements_non_conformes=non_conformes_2024.referenceprel.count()
)
agg_data.execute().sort_values("nb_prelevements_non_conformes", ascending=False)

Unnamed: 0,nomcommuneprinc,nb_prelevements_non_conformes
4801,MARSEILLE,2016
8733,CAPESTERRE-BELLE-EAU,592
13750,AJACCIO,374
8743,SAINT-DENIS,344
5311,PREMESQUES,294
...,...,...
42,MORIZECOURT,1
47,LEGEVILLE-ET-BONFAYS,1
48,ABLEUVENETTES (LES),1
6,TOUR-D'AIGUES (LA),1
