# METAUX LOURDS

Seuls l'Arsenic (As) et le Plomb (Pb) sont pris en compte dans la catégorie des métaux lourds.  
La catégorie "métaux lourds" n'est donc pas utilisée et on pourra choisir sur le site As ou Pb.  
Les requêtes sont donc créées en ce sens : une pour chaque substance.

In [15]:
%load_ext sql
%sql duckdb:///../../database/data.duckdb
%config SqlMagic.displaylimit = 25

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


# Test de requête

In [16]:
%%sql
select * from int__resultats_udi_communes where inseecommune = '07194' limit 5

referenceprel,cdparametresiseeaux,de_partition,valtraduite,categorie,categorie_2,categorie_3,limite_qualite,valeur_sanitaire_1,valeur_sanitaire_2,cdreseau,inseecommune,datetimeprel
700169098,24D,2020,0.0,pesticide,sub_active,,0.1,30.0,,7001388,7194,2020-06-17 10:36:00
700169098,24DB,2020,0.0,pesticide,sub_active,,0.1,,,7001388,7194,2020-06-17 10:36:00
700169098,3HXC,2020,0.0,pesticide,metabolite,pertinent_par_defaut,0.1,,,7001388,7194,2020-06-17 10:36:00
700169098,ACET,2020,0.0,pesticide,sub_active,,0.1,,,7001388,7194,2020-06-17 10:36:00
700169098,ACETOCH,2020,0.0,pesticide,sub_active,,0.1,10.0,,7001388,7194,2020-06-17 10:36:00


# Obtention du libellé exact pour les métaux lourds

In [17]:
%%sql
SELECT DISTINCT
    categorie
FROM
    int__resultats_udi_communes
;

categorie
pesticide
nitrate
cvm
substances_indus
pfas
metaux_lourds


# Sélection des résultats de prélèvements pour tous les métaux lourds

In [18]:
%%sql

SELECT
    *
FROM
    int__resultats_udi_communes
WHERE
    categorie = 'metaux_lourds'
LIMIT 5
;

referenceprel,cdparametresiseeaux,de_partition,valtraduite,categorie,categorie_2,categorie_3,limite_qualite,valeur_sanitaire_1,valeur_sanitaire_2,cdreseau,inseecommune,datetimeprel
100119085,AS,2020,2.0,metaux_lourds,,,10.0,13.0,,1001076,1333,2020-02-14 08:37:00
100119494,PB,2020,0.0,metaux_lourds,,,10.0,,,1001019,1033,2020-01-15 10:02:00
100119495,PB,2020,0.0,metaux_lourds,,,10.0,,,1000979,1247,2020-01-21 11:53:00
100119496,PB,2020,0.0,metaux_lourds,,,10.0,,,1000961,1153,2020-01-22 11:36:00
100119497,PB,2020,0.0,metaux_lourds,,,10.0,,,1000958,1173,2020-01-22 13:55:00


# Récupération des cdparametresiseeaux pour identifier Arsenic et Plomb

In [19]:
%%sql

SELECT DISTINCT
    cdparametresiseeaux
FROM
    int__resultats_udi_communes
WHERE
    categorie = 'metaux_lourds'
;

cdparametresiseeaux
AS
PB


--> AS et PB

# Requête Plomb

In [20]:
%%sql

SELECT
    *
FROM
    int__resultats_udi_communes
WHERE
    categorie = 'metaux_lourds'
    AND cdparametresiseeaux = 'PB'
LIMIT 5
;

referenceprel,cdparametresiseeaux,de_partition,valtraduite,categorie,categorie_2,categorie_3,limite_qualite,valeur_sanitaire_1,valeur_sanitaire_2,cdreseau,inseecommune,datetimeprel
8900132476,PB,2024,0.0,metaux_lourds,,,10.0,,,89000710,89037,2024-10-03 11:34:00
8900130815,PB,2024,3.0,metaux_lourds,,,10.0,,,89000722,89051,2024-06-10 10:05:00
8900132638,PB,2024,3.0,metaux_lourds,,,10.0,,,89000695,89053,2024-10-24 09:59:00
8900130867,PB,2024,0.0,metaux_lourds,,,10.0,,,89000476,89085,2024-06-18 08:31:00
8900131138,PB,2024,4.0,metaux_lourds,,,10.0,,,89000478,89091,2024-06-25 09:11:00


## Vérification unicité prélèvement (referenceprel)

In [21]:
%%sql

SELECT DISTINCT de_partition as annee, referenceprel, cdparametresiseeaux, cdreseau, inseecommune, COUNT(*) AS nb_analyses
FROM int__resultats_udi_communes
WHERE categorie = 'metaux_lourds' AND cdparametresiseeaux = 'PB'
GROUP BY annee, referenceprel, cdparametresiseeaux, cdreseau, inseecommune
HAVING COUNT(*) > 1
LIMIT 10

annee,referenceprel,cdparametresiseeaux,cdreseau,inseecommune,nb_analyses
2024,7200139547,PB,72003592,72360,2
2024,7200139547,PB,72003592,72003,2
2024,7200139547,PB,72003592,72257,2
2021,4400226978,PB,44000169,44176,2
2021,4400226978,PB,44000169,44184,2
2024,7200139547,PB,72003592,72095,2
2024,7200139547,PB,72003592,72065,2
2021,4400226978,PB,44000138,44172,2
2024,7200139547,PB,72000066,72381,2
2024,7200139547,PB,72003592,72008,2


--> Pas d'unicité sur certaines referenceprel pour PB.  
**Attention pour la création de la requête**

### Exemple de doublons
Pour un même prélèvement et une même commune.

In [22]:
%%sql

SELECT
    *
FROM
    int__resultats_udi_communes
WHERE
    de_partition = 2021
    AND categorie = 'metaux_lourds'
    AND cdparametresiseeaux = 'PB'
    AND referenceprel = '04400226978'
    AND cdreseau = '044000169'
    AND inseecommune = '44151'
;

referenceprel,cdparametresiseeaux,de_partition,valtraduite,categorie,categorie_2,categorie_3,limite_qualite,valeur_sanitaire_1,valeur_sanitaire_2,cdreseau,inseecommune,datetimeprel
4400226978,PB,2021,0.0,metaux_lourds,,,10.0,,,44000169,44151,2021-11-16 11:40:00
4400226978,PB,2021,0.0,metaux_lourds,,,10.0,,,44000169,44151,2021-11-16 11:40:00


## Nombre de résultats Plomb chaque année, doublons compris (UDI et communes)

In [23]:
%%sql

WITH pb_prels AS (
    SELECT
        de_partition
    FROM
        'int__resultats_udi_communes'
    WHERE
        cdparametresiseeaux = 'PB'
    )

SELECT de_partition, COUNT(*)
FROM pb_prels
GROUP BY de_partition
;

de_partition,count_star()
2020,52653
2021,50380
2022,48543
2023,52014
2024,53140
2025,8332


## Test de suppression des doublons sur le cas précédent
Un prélèvement peut être sur plusieurs communes puisqu'une UDI peut desservir plusieurs communes.  
Ici on essaye de conserver la liste du prélèvement sans doublons pour une même commune.

In [24]:
%%sql --save pb_results_udi_dernier

WITH pb_prels AS (
    SELECT 
        *
    FROM
        'int__resultats_udi_communes'
    WHERE
        cdparametresiseeaux = 'PB'
),

deduplicated AS (
    SELECT 
        *,
        ROW_NUMBER() OVER (
            PARTITION BY cdreseau, referenceprel, cdparametresiseeaux, datetimeprel, inseecommune
            ORDER BY cdreseau  -- arbitrary choice
        ) AS row_num
    FROM pb_prels
)

-- Obtention des résultats PB par UDI (cdreseau), avec suppression des doublons dus aux communes
SELECT *
FROM deduplicated
WHERE
    row_num = 1
    AND de_partition = 2021 
    AND categorie = 'metaux_lourds'
    AND cdparametresiseeaux = 'PB'
    AND referenceprel = '04400226978'
    AND cdreseau = '044000169'
    AND inseecommune = '44151'
;

referenceprel,cdparametresiseeaux,de_partition,valtraduite,categorie,categorie_2,categorie_3,limite_qualite,valeur_sanitaire_1,valeur_sanitaire_2,cdreseau,inseecommune,datetimeprel,row_num
4400226978,PB,2021,0.0,metaux_lourds,,,10.0,,,44000169,44151,2021-11-16 11:40:00,1


--> le champ calculé row_num permet bien de supprimer les doublons sur les communes.

## Recherche du dernier prélèvement datant de moins d'un an
**Les doublons sont supprimés** par construction de la requête (prise en compte uniquement du dernier prélèvement pour une UDI)

### Test de suppression des doublons
On vérifie que les doublons sont bien supprimés ici quand on cherche le dernier prélèvement pour le Pb pour chaque UDI.

In [25]:
%%sql

WITH pb_dernier_prel AS (
    SELECT
        cdreseau,
        categorie,
        cdparametresiseeaux,
        valtraduite,
        de_partition AS annee,
        limite_qualite,
        datetimeprel,
        valtraduite,
        ROW_NUMBER()
            OVER (
                PARTITION BY cdreseau
                ORDER BY datetimeprel DESC
            )
            AS row_number
    FROM
        int__resultats_udi_communes
    WHERE
        cdparametresiseeaux = 'PB'
        AND
        -- On garde les prélèvements de moins d'un an
        CURRENT_DATE - datetimeprel < INTERVAL 1 YEAR
),

pb_dernier_prel_check AS (
    SELECT
        cdreseau,
        COUNT(*) OVER (PARTITION BY cdreseau) AS nb_prel_udi
    FROM
        pb_dernier_prel
    WHERE
        row_number = 1
)

SELECT
    *
FROM
    pb_dernier_prel_check
WHERE
    nb_prel_udi > 1
;

cdreseau,nb_prel_udi


--> Aucune UDI avec plus d'un prélèvement de moins d'un an donc la CTE pb_dernier_prel est correcte

## Requête finale Pb

### Première version

In [26]:
%%sql

-- Ici on ne garde que le dernier prélèvement pour chaque UDI dans la dernière année
WITH pb_dernier_prel AS (
    SELECT
        int__resultats_udi_communes.*,
        ROW_NUMBER()
            OVER (
                PARTITION BY cdreseau
                ORDER BY datetimeprel DESC
            )
            AS row_number
    FROM
        int__resultats_udi_communes
    WHERE
        cdparametresiseeaux = 'PB'
        AND
        -- On garde les prélèvements de moins d'un an
        CURRENT_DATE - datetimeprel < INTERVAL 1 YEAR
),

-- Ici on reprend les résultats pour chaque dernier prélèvement pour chaque UDI
resultats_udi_pb_dernier_prel AS (
    SELECT
        pb_dernier_prel.referenceprel,
        pb_dernier_prel.cdparametresiseeaux,
        pb_dernier_prel.valtraduite,
        pb_dernier_prel.categorie,
        pb_dernier_prel.limite_qualite,
        pb_dernier_prel.valeur_sanitaire_1,
        pb_dernier_prel.cdreseau,
        pb_dernier_prel.datetimeprel
    FROM
        pb_dernier_prel
    WHERE
        -- On ne garde que le dernier prélèvement
        -- pour chaque UDI (cdreseau)
        pb_dernier_prel.row_number = 1
)

-- Puis on ajoute le résultat pour chaque cas
SELECT
    resultats_udi_pb_dernier_prel.categorie,
    resultats_udi_pb_dernier_prel.cdreseau,
    resultats_udi_pb_dernier_prel.datetimeprel AS dernier_prel_datetime,
    'dernier_prel' AS periode,
    resultats_udi_pb_dernier_prel.valtraduite AS dernier_prel_valeur,
    CASE
        WHEN
            resultats_udi_pb_dernier_prel.valtraduite IS NULL
            OR resultats_udi_pb_dernier_prel.valtraduite = 0
            THEN 'aucun_parametre_quantifie'
        WHEN
            resultats_udi_pb_dernier_prel.valtraduite >= 10
            THEN 'sup_limite_qualite'
        WHEN
            resultats_udi_pb_dernier_prel.valtraduite >= 5
            AND resultats_udi_pb_dernier_prel.valtraduite < 10
            THEN 'sup_5_inf_10_limite_2036'
        WHEN
            resultats_udi_pb_dernier_prel.valtraduite < 5
            THEN 'inf_5'           
        ELSE 'erreur'
    END AS resultat
FROM
    resultats_udi_pb_dernier_prel
ORDER BY
    cdreseau

categorie,cdreseau,dernier_prel_datetime,periode,dernier_prel_valeur,resultat
metaux_lourds,1000241,2025-02-06 09:21:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds,1000250,2025-02-12 08:19:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds,1000251,2025-02-12 08:19:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds,1000252,2024-10-18 11:12:00,dernier_prel,7.0,sup_5_inf_10_limite_2036
metaux_lourds,1000253,2024-10-18 11:12:00,dernier_prel,7.0,sup_5_inf_10_limite_2036
metaux_lourds,1000258,2025-01-21 09:45:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds,1000260,2024-08-22 10:46:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds,1000269,2024-07-10 10:56:00,dernier_prel,3.0,inf_5
metaux_lourds,1000272,2024-08-22 08:47:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds,1000275,2025-02-19 10:37:00,dernier_prel,0.0,aucun_parametre_quantifie


### Deuxième version (plus light)

In [27]:
%%sql

-- Ici on ne garde que le dernier prélèvement pour chaque UDI dans la dernière année
WITH pb_dernier_prel AS (
    SELECT
        int__resultats_udi_communes.*,
        ROW_NUMBER()
            OVER (
                PARTITION BY cdreseau
                ORDER BY datetimeprel DESC
            )
            AS row_number
    FROM
        int__resultats_udi_communes
    WHERE
        cdparametresiseeaux = 'PB'
        AND
        -- On garde les prélèvements de moins d'un an
        CURRENT_DATE - datetimeprel < INTERVAL 1 YEAR
)

-- Ici on ne prend que le prélèvement le plus récent avec row_number = 1
SELECT
    categorie,
    cdreseau,
    datetimeprel AS dernier_prel_datetime,
    'dernier_prel' AS periode,
    valtraduite AS dernier_prel_valeur,
    CASE
        WHEN
            valtraduite IS NULL
            OR valtraduite = 0
            THEN 'aucun_parametre_quantifie'
        WHEN
            valtraduite >= 10
            THEN 'sup_limite_qualite'
        WHEN
            valtraduite >= 5
            AND valtraduite < 10
            THEN 'sup_limite_qualite_2036'
        WHEN
            valtraduite < 5
            THEN 'inf_5'           
        ELSE 'erreur'
    END AS resultat
FROM
    pb_dernier_prel
WHERE
    row_number = 1
ORDER BY
    cdreseau

categorie,cdreseau,dernier_prel_datetime,periode,dernier_prel_valeur,resultat
metaux_lourds,1000241,2025-02-06 09:21:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds,1000250,2025-02-12 08:19:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds,1000251,2025-02-12 08:19:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds,1000252,2024-10-18 11:12:00,dernier_prel,7.0,sup_limite_qualite_2036
metaux_lourds,1000253,2024-10-18 11:12:00,dernier_prel,7.0,sup_limite_qualite_2036
metaux_lourds,1000258,2025-01-21 09:45:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds,1000260,2024-08-22 10:46:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds,1000269,2024-07-10 10:56:00,dernier_prel,3.0,inf_5
metaux_lourds,1000272,2024-08-22 08:47:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds,1000275,2025-02-19 10:37:00,dernier_prel,0.0,aucun_parametre_quantifie


### Vérif du changement de certaines valtraduite après avoir fait la V2 de la requête Pb dernier prél.

In [28]:
%%sql

select *
FROM
    int__resultats_udi_communes
WHERE
    cdreseau = '044000119'
    AND cdparametresiseeaux = 'PB'
    AND datetimeprel = '2024-11-06 10:10:00'
ORDER BY inseecommune

referenceprel,cdparametresiseeaux,de_partition,valtraduite,categorie,categorie_2,categorie_3,limite_qualite,valeur_sanitaire_1,valeur_sanitaire_2,cdreseau,inseecommune,datetimeprel
4400259700,PB,2024,0.2,metaux_lourds,,,10.0,,,44000119,44003,2024-11-06 10:10:00
4400259369,PB,2024,0.6,metaux_lourds,,,10.0,,,44000119,44003,2024-11-06 10:10:00
4400259700,PB,2024,0.2,metaux_lourds,,,10.0,,,44000119,44048,2024-11-06 10:10:00
4400259369,PB,2024,0.6,metaux_lourds,,,10.0,,,44000119,44048,2024-11-06 10:10:00
4400259700,PB,2024,0.2,metaux_lourds,,,10.0,,,44000119,44096,2024-11-06 10:10:00
4400259369,PB,2024,0.6,metaux_lourds,,,10.0,,,44000119,44096,2024-11-06 10:10:00
4400259700,PB,2024,0.2,metaux_lourds,,,10.0,,,44000119,44104,2024-11-06 10:10:00
4400259369,PB,2024,0.6,metaux_lourds,,,10.0,,,44000119,44104,2024-11-06 10:10:00
4400259700,PB,2024,0.2,metaux_lourds,,,10.0,,,44000119,44107,2024-11-06 10:10:00
4400259369,PB,2024,0.6,metaux_lourds,,,10.0,,,44000119,44107,2024-11-06 10:10:00


--> Il y a des relevés avec des referenceprel différentes mais qui ont lieu au même moment et qui ont des valtraduite différentes.  
Ca crée un **problème quand on filtre avec row_number pour obtenir le dernier prélèvement** : comme ils ont lieu au même moment pour une UDI (cdreseau), une valeur parmi les doublons est choisie au hasard.  

--> Pour l'instant on garde cette requête qu'on reproduit sur l'Arsenic. **Il faudra peut-être la modifier en fonction des retours**.

# Requête finale PB + AS - dernier prélèvement
Créée après ajout de AS : remplace la requête finale Pb ci-dessus

In [33]:
%%sql

-- Ici on ne garde que le dernier prélèvement pour chaque UDI dans la dernière année
WITH metaux_lourds_dernier_prel AS (
    SELECT
        int__resultats_udi_communes.*,
        ROW_NUMBER()
            OVER (
                PARTITION BY cdreseau, cdparametresiseeaux
                ORDER BY datetimeprel DESC
            )
            AS row_number
    FROM
        int__resultats_udi_communes
    WHERE
        cdparametresiseeaux in ('PB', 'AS')
        AND
        -- On garde les prélèvements de moins d'un an
        CURRENT_DATE - datetimeprel < INTERVAL 1 YEAR
)

-- Ici on ne prend que le prélèvement le plus récent (avec row_number = 1)
-- pour chaque type de métaux lourds
SELECT
    CASE
        WHEN
            cdparametresiseeaux = 'PB'
            THEN 'metaux_lourds_pb'
        WHEN
            cdparametresiseeaux = 'AS'
            THEN 'metaux_lourds_as'
    END AS categorie,
    cdreseau,
    datetimeprel AS dernier_prel_datetime,
    'dernier_prel' AS periode,
    valtraduite AS dernier_prel_valeur,
    CASE
        WHEN
            cdparametresiseeaux = 'PB'
            AND (valtraduite IS NULL
            OR valtraduite = 0)
            THEN 'aucun_parametre_quantifie'
        WHEN
            cdparametresiseeaux = 'PB'
            AND valtraduite >= 10
            THEN 'sup_limite_qualite'
        WHEN
            cdparametresiseeaux = 'PB'
            AND valtraduite >= 5
            AND valtraduite < 10
            THEN 'sup_limite_qualite_2036'
        WHEN
            cdparametresiseeaux = 'PB'
            AND valtraduite < 5
            THEN 'inf_5'
        WHEN
            cdparametresiseeaux = 'AS'
            AND (valtraduite IS NULL
            OR valtraduite = 0)
            THEN 'aucun_parametre_quantifie'
        WHEN
            cdparametresiseeaux = 'AS'
            AND valtraduite >= 13
            THEN 'sup_limite_qualite'
        WHEN
            cdparametresiseeaux = 'AS'
            AND valtraduite >= 10
            AND valtraduite < 13
            THEN 'as_sup_10_inf_13'
        WHEN
            cdparametresiseeaux = 'AS'
            AND valtraduite < 10
            THEN 'inf_10'
        ELSE 'erreur'
    END AS resultat
FROM
    metaux_lourds_dernier_prel
WHERE
    row_number = 1
ORDER BY
    cdreseau


categorie,cdreseau,dernier_prel_datetime,periode,dernier_prel_valeur,resultat
metaux_lourds_as,1000235,2024-12-13 09:36:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds_pb,1000241,2025-02-06 09:21:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds_as,1000241,2025-02-10 11:04:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds_as,1000248,2024-11-25 09:02:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds_as,1000249,2024-10-18 09:09:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds_pb,1000250,2025-02-12 08:19:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds_as,1000250,2025-01-21 10:40:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds_pb,1000251,2025-02-12 08:19:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds_as,1000252,2024-06-11 08:33:00,dernier_prel,0.0,aucun_parametre_quantifie
metaux_lourds_pb,1000252,2024-10-18 11:12:00,dernier_prel,7.0,sup_limite_qualite_2036
