# Notebook d'exploration de la table 'edc_prelevements'  

### Objectif  
L'objectif de ce notebook est d'explorer la table 'edc_prelevements' et de trouver les infos clés qui nous permetteront de créer une table intermédiaire pour faciliter la jointure avec 'edc_resultats'.  

En effet, la relation entre les deux tables est une relation N-N. La colonne 'referenceprel' de la table 'edc_prelevements' contient des doublons, car plusieurs UDI peuvent avoir la même reference de prelevement.  

--> Voir documentation sur le sujet : https://outline.services.dataforgood.fr/doc/notes-sur-la-table-edc_prelevements-N7BwMGDZcQ

### 1 - Démonstration du problème rencontré

In [1]:
import duckdb

con = duckdb.connect(database="./../../database/data.duckdb", read_only=True)

In [3]:
# Informations de base sur le tableau edc_prelevements, 2020 - 2024

query = """
SELECT COUNT(*) AS nb_prelevements,
         COUNT(DISTINCT referenceprel) AS nb_prelevements_uniques,
         COUNT(DISTINCT cdreseau) AS nb_reseaux,
         COUNT(DISTINCT cdreseauamont) AS nb_reseaux_amont
FROM edc_prelevements;
"""

informations_prelevements = con.execute(query).fetch_df()
informations_prelevements

Unnamed: 0,nb_prelevements,nb_prelevements_uniques,nb_reseaux,nb_reseaux_amont
0,2083345,1436114,23767,22897


### Exemple du problème de doublons de prélèvements  

On prend l'année 2024 comme exemple et nous allons regarder spécifiquement ce qu'il se passe sur une référence de prélèvement précise.  

In [7]:
# Exemple "classique" avec relation amont - aval des UDI. On utilise la referenceprel '00100138881' pour l'exemple

con.execute("""
SELECT *
FROM edc_prelevements
WHERE de_partition = 2024
AND referenceprel = '00100138881'
""").fetch_df()

Unnamed: 0,cddept,cdreseau,inseecommuneprinc,nomcommuneprinc,cdreseauamont,nomreseauamont,pourcentdebit,referenceprel,dateprel,heureprel,conclusionprel,ugelib,distrlib,moalib,plvconformitebacterio,plvconformitechimique,plvconformitereferencebact,plvconformitereferencechim,de_partition,de_ingestion_date
0,1,1000846,1189,INJOUX-GENISSIAT,1000849.0,INJOUX GENISSIAT,50 %,100138881,2024-01-29,11h33,Eau d'alimentation conforme aux exigences de q...,CC PAYS BELLEGARDIEN (CCPB),CC TERRE VALSERHONE - REGIE DES EAUX,CC TERRE VALSERHONE - REGIE DES EAUX,C,C,C,C,2024,2025-02-12
1,1,1000847,1189,INJOUX-GENISSIAT,1000849.0,INJOUX GENISSIAT,34 %,100138881,2024-01-29,11h33,Eau d'alimentation conforme aux exigences de q...,CC PAYS BELLEGARDIEN (CCPB),CC TERRE VALSERHONE - REGIE DES EAUX,CC TERRE VALSERHONE - REGIE DES EAUX,C,C,C,C,2024,2025-02-12
2,1,1000848,1189,INJOUX-GENISSIAT,1000849.0,INJOUX GENISSIAT,50 %,100138881,2024-01-29,11h33,Eau d'alimentation conforme aux exigences de q...,CC PAYS BELLEGARDIEN (CCPB),CC TERRE VALSERHONE - REGIE DES EAUX,CC TERRE VALSERHONE - REGIE DES EAUX,C,C,C,C,2024,2025-02-12
3,1,1000849,1189,INJOUX-GENISSIAT,,,,100138881,2024-01-29,11h33,Eau d'alimentation conforme aux exigences de q...,CC PAYS BELLEGARDIEN (CCPB),CC TERRE VALSERHONE - REGIE DES EAUX,CC TERRE VALSERHONE - REGIE DES EAUX,C,C,C,C,2024,2025-02-12


Ici, on voit qu'il existe 4 lignes pour 1 prélèvement unique. On remarque que 3 de ces lignes ont le même 'cdreseauamont'. La ligne qui n'a pas de 'cdreseauamont' renseigné est l'UDI en amont sur lequel le prélèvement a été réalisé. Les résultats sont ensuite extrapolés aux autres UDI.  

Maintenant, filtrons la table sur les lignes qui n'ont pas de 'cdreseauamont'. Nous devrions avoir uniquement les prélèvements réalisés sur l'UDI en question.

In [21]:
# On reste sur 2024. Combien de prélèvements sur UDI sans 'cdreseauamont' ?

prelevements_udi_source = con.execute("""
SELECT *
FROM edc_prelevements
WHERE de_partition = 2024
AND cdreseauamont IS NULL
""").fetch_df()

print(
    f"Nombre de lignes de prélèvements : {prelevements_udi_source['referenceprel'].count()}"
)
print(
    f"Nombre de lignes avec 'referenceprel' unique : {prelevements_udi_source['referenceprel'].nunique()}"
)


Nombre de lignes de prélèvements : 217541
Nombre de lignes avec 'referenceprel' unique : 217541


In [None]:
# Nombre de prélèvements uniques en 2024

con.execute(
    """SELECT COUNT(DISTINCT referenceprel) AS nb_referenceprel_unique_2024 FROM edc_prelevements WHERE de_partition = 2024"""
).fetch_df()

Unnamed: 0,nb_referenceprel_unique_2024
0,287961


Lorsque l'on filtre avec 'cdreseauamont' IS NULL, on obtient uniquement les réseaux sur lesquels les prélèvements sont effectués. Plus de problème de doublons.  

Or, on constate que le nombre de prélèvements uniques en 2024 ne concorde pas (70 420 referenceprel manquants)... Explorons alors les prélèvements uniques 'referenceprel' qui ne sont pas dans la query précédente.

In [23]:
# Trouver le nombre de prélèvements uniques qui ne sont pas dans la query précédente (liste des prélèvements sur UDI "source")

query = """
SELECT DISTINCT referenceprel
FROM edc_prelevements
WHERE referenceprel NOT IN (
    SELECT referenceprel
    FROM edc_prelevements
    WHERE cdreseauamont IS NULL AND de_partition = 2024
) AND de_partition = 2024;
"""

prelevements_udi_non_source = con.execute(query).fetch_df()
prelevements_udi_non_source

Unnamed: 0,referenceprel
0,00100143631
1,00100143603
2,00100139914
3,00100141771
4,00100139080
...,...
70415,08300289637
70416,08300281784
70417,08300282415
70418,08300284842


Nous retrouvons le nombre exact de lignes manquantes : 70 420.  

Explorons plus en détails ces lignes.

In [None]:
# Montrer un exemple de lignes en doublons qui ont un 'cdreseauamont' qui n'apparaît pas dans la table listant les UDI "source"
# On prend un échantillon

query = """
SELECT *
FROM edc_prelevements
WHERE referenceprel NOT IN (
    SELECT referenceprel
    FROM edc_prelevements
    WHERE cdreseauamont IS NULL AND de_partition = 2024) AND de_partition = 2024
ORDER BY referenceprel
LIMIT 30;
"""

test_query = con.execute(query).fetch_df()
test_query

# Ne garder que les lignes avec doublons sur "referenceprel" via pandas

duplicate_refs = test_query["referenceprel"][
    test_query["referenceprel"].duplicated(keep=False)
]
test_query_duplicates = test_query[test_query["referenceprel"].isin(duplicate_refs)]
test_query_duplicates = test_query_duplicates.sort_values(["referenceprel", "dateprel"])

test_query_duplicates

Unnamed: 0,cddept,cdreseau,inseecommuneprinc,nomcommuneprinc,cdreseauamont,nomreseauamont,pourcentdebit,referenceprel,dateprel,heureprel,conclusionprel,ugelib,distrlib,moalib,plvconformitebacterio,plvconformitechimique,plvconformitereferencebact,plvconformitereferencechim,de_partition,de_ingestion_date
16,1,1000459,1185,PLATEAU D'HAUTEVILLE,1000458,TTP (CLG) HBA PLAT.HAUTEVILLE LONGECOMBE,100 %,100139071,2024-01-25,13h26,Eau d'alimentation conforme aux exigences de q...,HT BUGEY AGGLOMERATION REG. HAUTEVI,CA HAUT - BUGEY AGGLOMÉRATION,CA HAUT - BUGEY AGGLOMÉRATION,C,C,C,C,2024,2025-02-12
17,1,1000457,1185,PLATEAU D'HAUTEVILLE,1000458,TTP (CLG) HBA PLAT.HAUTEVILLE LONGECOMBE,100 %,100139071,2024-01-25,13h26,Eau d'alimentation conforme aux exigences de q...,HT BUGEY AGGLOMERATION REG. HAUTEVI,CA HAUT - BUGEY AGGLOMÉRATION,CA HAUT - BUGEY AGGLOMÉRATION,C,C,C,C,2024,2025-02-12
21,1,1000783,1125,CORVEISSIAT,1000651,TTP (CLG) BSR CORVEISSIAT,100 %,100139075,2024-01-04,09h06,Eau d'alimentation conforme aux exigences de q...,SI BRESSE SURAN REVERMONT SUEZ,SUEZ EAU FRANCE - ARA,SIE BRESSE SURAN REVERMONT,C,C,C,C,2024,2025-02-12
22,1,1000829,1125,CORVEISSIAT,1000651,TTP (CLG) BSR CORVEISSIAT,,100139075,2024-01-04,09h06,Eau d'alimentation conforme aux exigences de q...,SI BRESSE SURAN REVERMONT SUEZ,SUEZ EAU FRANCE - ARA,SIE BRESSE SURAN REVERMONT,C,C,C,C,2024,2025-02-12
23,1,1001171,1125,CORVEISSIAT,1000651,TTP (CLG) BSR CORVEISSIAT,100 %,100139075,2024-01-04,09h06,Eau d'alimentation conforme aux exigences de q...,SI BRESSE SURAN REVERMONT SUEZ,SUEZ EAU FRANCE - ARA,SIE BRESSE SURAN REVERMONT,C,C,C,C,2024,2025-02-12
24,1,1000831,1125,CORVEISSIAT,1000651,TTP (CLG) BSR CORVEISSIAT,,100139075,2024-01-04,09h06,Eau d'alimentation conforme aux exigences de q...,SI BRESSE SURAN REVERMONT SUEZ,SUEZ EAU FRANCE - ARA,SIE BRESSE SURAN REVERMONT,C,C,C,C,2024,2025-02-12
27,1,1000829,1391,SALAVRE,1001721,TTP (L) BSR LIVRAISON ASR,50 %,100139078,2024-01-30,09h16,Eau d'alimentation conforme aux exigences de q...,SI BRESSE SURAN REVERMONT SOGEDO,SOGEDO LYON,SIE BRESSE SURAN REVERMONT,C,C,C,C,2024,2025-02-12
28,1,1000831,1391,SALAVRE,1001721,TTP (L) BSR LIVRAISON ASR,100 %,100139078,2024-01-30,09h16,Eau d'alimentation conforme aux exigences de q...,SI BRESSE SURAN REVERMONT SOGEDO,SOGEDO LYON,SIE BRESSE SURAN REVERMONT,C,C,C,C,2024,2025-02-12


Ici, on voit bien plusieurs doublons pour la même référence de prélèvement. Ces doublons ont le même 'cdreseauamont'.  

Ces 'cdreseauamont' ont-ils eux même des lignes si l'on joint edc_prelevements sur 'cdreseau' = 'cdreseauamont' ?

In [None]:
# Est-ce que les cdreseauamont des prélèvements hors UDI "source" sont retrouvables quelque part dans la table edc_prelevements ?

query = """
WITH cte AS (
SELECT cdreseau, cdreseauamont, referenceprel, nomreseauamont
FROM edc_prelevements
WHERE referenceprel NOT IN (
    SELECT referenceprel
    FROM edc_prelevements
    WHERE cdreseauamont IS NULL AND de_partition = 2024) AND de_partition = 2024
ORDER BY referenceprel
)

SELECT COUNT(*) AS nb_udi
FROM cte
JOIN (SELECT * FROM edc_prelevements WHERE de_partition = 2024) p ON cte.cdreseauamont = p.cdreseau
"""

cdreseauamont_cdreseau_2024 = con.execute(query).fetch_df()
cdreseauamont_cdreseau_2024

Unnamed: 0,nb_udi
0,0


Cela nous confirme bien qu'il existe des lignes qui ont un réseau en amont qui n'est pas retrouvable / qui n'a pas de ligne propre.  

La majorité des lignes n'est pas dans ce cas là, car le réseau en amont dispose bien d'une ligne propre dans la table, il est alors possible de faire le lien entre le "cdreseauamont" des UDI en aval et le "cdreseau" des UDI en amont.  

Nous devons désormais essayer de comprendre pourquoi nous avons ce cas de figure. Est-ce que ces lignes ont quelque chose de spécial ? Est-ce parce que ces prélèvements ont lieu en amont, sur des TTP ou CAP ? Est-ce possible de récupérer les infos des UDI en amont ?

### 2 - Reproduction de l'analyse sur les années 2020 - 2024

In [47]:
# Combien de prélèvements sur UDI sans 'cdreseauamont' ?

years = [2020, 2021, 2022, 2023, 2024]

for y in years:
    query = f"""
    SELECT *
    FROM edc_prelevements
    WHERE de_partition = {y}
    AND cdreseauamont IS NULL
    """
    prelevements_udi_source = con.execute(query).fetch_df()

    print(
        f"({y}) Nombre de lignes de prélèvements avec UDI sans cdreseauamont : {prelevements_udi_source['referenceprel'].count()}"
    )

    print(
        f"({y}) Nombre de lignes avec 'referenceprel' unique : {prelevements_udi_source['referenceprel'].nunique()}"
    )

    print("\n")

(2020) Nombre de lignes de prélèvements avec UDI sans cdreseauamont : 209941
(2020) Nombre de lignes avec 'referenceprel' unique : 209941


(2021) Nombre de lignes de prélèvements avec UDI sans cdreseauamont : 216141
(2021) Nombre de lignes avec 'referenceprel' unique : 216141


(2022) Nombre de lignes de prélèvements avec UDI sans cdreseauamont : 221316
(2022) Nombre de lignes avec 'referenceprel' unique : 221316


(2023) Nombre de lignes de prélèvements avec UDI sans cdreseauamont : 220896
(2023) Nombre de lignes avec 'referenceprel' unique : 220896


(2024) Nombre de lignes de prélèvements avec UDI sans cdreseauamont : 217541
(2024) Nombre de lignes avec 'referenceprel' unique : 217541




In [None]:
# Nombre de prélèvements uniques

for y in years:
    nbprel_unique = con.execute(
        f"""SELECT COUNT(DISTINCT referenceprel) AS nb_referenceprel_unique FROM edc_prelevements WHERE de_partition = {y}"""
    ).fetch_df()

    print(
        f"({y}) Nombre de prélèvements uniques : {nbprel_unique.iloc[0]['nb_referenceprel_unique']}"
    )

    print("\n")

(2020) Nombre de prélèvements uniques : 278588


(2021) Nombre de prélèvements uniques : 285159


(2022) Nombre de prélèvements uniques : 291882


(2023) Nombre de prélèvements uniques : 292525


(2024) Nombre de prélèvements uniques : 287961




In [None]:
# Trouver le nombre de prélèvements uniques qui ne sont pas dans la liste des prélèvements sur UDI "source"

for y in years:
    query = f"""
    SELECT COUNT(DISTINCT referenceprel)
    FROM edc_prelevements
    WHERE referenceprel NOT IN (
        SELECT referenceprel
        FROM edc_prelevements
        WHERE cdreseauamont IS NULL AND de_partition = {y}
    ) AND de_partition = {y};"""

    print(
        f"({y}) Nombre de prélèvements uniques hors UDI source : {con.execute(query).fetchone()[0]}"
    )

    print("\n")


(2020) Nombre de prélèvements uniques hors UDI source : 68647


(2021) Nombre de prélèvements uniques hors UDI source : 69018


(2022) Nombre de prélèvements uniques hors UDI source : 70566


(2023) Nombre de prélèvements uniques hors UDI source : 71629


(2024) Nombre de prélèvements uniques hors UDI source : 70420




In [None]:
# Est-ce que les cdreseauamont des prélèvements hors UDI "source" sont retrouvables quelque part dans la table edc_prelevements ?

for y in years:
    query = f"""
    WITH cte AS (
    SELECT cdreseau, cdreseauamont, referenceprel, nomreseauamont
    FROM edc_prelevements
    WHERE referenceprel NOT IN (
        SELECT referenceprel
        FROM edc_prelevements
        WHERE cdreseauamont IS NULL AND de_partition = {y}) AND de_partition = {y}
    ORDER BY referenceprel
    )

    SELECT COUNT(*) AS nb_udi
    FROM cte
    JOIN (SELECT * FROM edc_prelevements WHERE de_partition = {y}) p ON cte.cdreseauamont = p.cdreseau
    """

    print(
        f"({y}) Nb de cdreseauamont hors UDI source retrouvables dans la table edc_prelevements de la même année : {con.execute(query).fetchone()[0]}"
    )
    print("\n")

(2020) Nb de cdreseauamont hors UDI source retrouvables dans la table edc_prelevements de la même année : 0


(2021) Nb de cdreseauamont hors UDI source retrouvables dans la table edc_prelevements de la même année : 0


(2022) Nb de cdreseauamont hors UDI source retrouvables dans la table edc_prelevements de la même année : 0


(2023) Nb de cdreseauamont hors UDI source retrouvables dans la table edc_prelevements de la même année : 0


(2024) Nb de cdreseauamont hors UDI source retrouvables dans la table edc_prelevements de la même année : 0




### Conclusion de l'analyse sur les années précédentes  

On note les mêmes problèmes, avec plus ou moins les mêmes proportions d'années en années. Chercher l'explication...  

Nous pouvons aussi essayer de voir si les 'cdreseauamont' hors UDI source sur une année apparaissent en 'cdreseau' dans les prélèvements d'autres années. Si c'est le cas, nous pourrons alors résoudre le problème de doublons pour une partie des réseaux...