# üî• Desafio - **M√©dia hist√≥rica - Monitoramento h√≠drico**

## Enunciado:

- As tabelas **`parameter_sample`** e **`parameter_result`** armazenam dados de amostras e resultados, respectivamente, de monitoramento de qualidade h√≠drica.
- As amostras s√£o derivadas dos pontos de monitoramento (tabela `station`) e os resultados s√£o derivados das amostras. O esquema a seguir ilustra os relacionamentos entre as tabelas.

![station_samples_results](../../img/desafios/aula03/station_samples_result.png)

Duas an√°lises comuns subsidiadas por estes dados s√£o a evolu√ß√£o temporal dos par√¢metros (avaliada normalmente por ferramentas estat√≠sticas); e a avalia√ß√£o de conformidade legal, atrav√©s da compara√ß√£o das medi√ß√µes a valores de refer√™ncia.

## Objetivo

O desafio √© escrever uma consulta SQL para identificar resultados de qualidade **acima da m√©dia hist√≥rica de cada par√¢metro em pelo menos 20%**, ou seja, cada resultado deve ser comparado √† m√©dia de todos os resultados do mesmo par√¢metro, no mesmo ponto, anteriormente observados.

Os seguintes campos devem ser retornados pela consulta SQL:
- Codigo HGA: Nome HGA do ponto de monitoramento (station.Name)
- Local: Localiza√ß√£o do ponto de monitoramento (station.zlocation)
- ID da amostra: Identificador da amostra de qualidade (parameter_sample.sample_id)
- Data da amostra: Data de amostragem (parameter_sample.sample_date)
- Parametro: Nome do parametro qu√≠mico analisado (parameter_result.chemical_name)
- Resultado: Valor num√©rico obtido na an√°lise do par√¢metro (parameter_result.result_value)
- Unidade: Unidade referente ao par√¢metro analisado (parameter_result.result_unit)
- **M√©dia Hist√≥rica: Valor da m√©dia do monitoramento do par√¢metro**
- **Flag: Identifica√ß√£o se o resultado obtido √©, no m√≠nimo, 20% superior √† m√©dia hist√≥rica**

****

In [None]:
-- Dica: Como comparar dinamicamente cada resultado apenas aos anteriores √† ele ??

-- Utilizando uma subquery:
SELECT
    s.Name                      AS [Codigo HGA]
    ,s.zlocation                AS [Local]
    ,a.sample_id                AS [ID Amostra]
    ,a.sample_date              AS [Data Amostra]
    ,r.chemical_name            AS [Parametro]
    ,r.result_value             AS [Resultado]
    ,r.result_unit              AS [Unidade]

    ,(
        SELECT AVG(res.result_value)
        FROM station st
            INNER JOIN parameter_sample ams
                ON st.ID = ams.Station
            INNER JOIN parameter_result res
                ON ams.sample_id = res.sample_id
        WHERE
            st.ID = s.ID AND
            res.chemical_name = r.chemical_name AND 
            ams.sample_date < a.sample_date
    )                           AS [Media Hist]

FROM station s
    INNER JOIN parameter_sample a
        ON s.ID = a.Station
    INNER JOIN parameter_result r
        ON a.sample_id = r.sample_id
WHERE s.Name = 'WST-22' AND r.chemical_name = 'Alcalinidade Total'

In [None]:
-- Utilizando a fun√ß√£o OVER em conjunto com AVG
SELECT
    s.Name                      AS [Codigo HGA]
    ,s.zlocation                AS [Local]
    ,a.sample_id                AS [ID Amostra]
    ,a.sample_date              AS [Data Amostra]
    ,r.chemical_name            AS [Parametro]
    ,r.result_value             AS [Resultado]
    ,r.result_unit              AS [Unidade]
    ,AVG(r.result_value) OVER (PARTITION BY s.Name, r.chemical_name ORDER BY a.sample_date)  AS [Media Hist]
FROM station s
    INNER JOIN parameter_sample a
        ON s.ID = a.Station
    INNER JOIN parameter_result r
        ON a.sample_id = r.sample_id
WHERE s.Name = 'WST-22' AND r.chemical_name = 'Alcalinidade Total'

In [None]:
WITH medias AS (
    SELECT
        s.Name                      AS [Codigo HGA]
        ,s.zlocation                AS [Local]
        ,a.sample_id                AS [ID Amostra]
        ,a.sample_date              AS [Data Amostra]
        ,r.chemical_name            AS [Parametro]
        ,r.result_value             AS [Resultado]
        ,r.result_unit              AS [Unidade]
        ,AVG(r.result_value) OVER (PARTITION BY s.Name, r.chemical_name ORDER BY a.sample_date)  AS [Media Hist]
    FROM station s
        INNER JOIN parameter_sample a
            ON s.ID = a.Station
        INNER JOIN parameter_result r
            ON a.sample_id = r.sample_id
    WHERE s.Name = 'WST-22' AND r.chemical_name = 'Alcalinidade Total'
)

SELECT
    *,
    Flag = IIF([Resultado] > 1.2 * [Media Hist], 'Acima', 'Abaixo')
FROM medias


# ü§Ø Desafio desafiador

Ainda no contexto dos dados de monitoramento de qualidade h√≠drica, normalmente s√£o utilizados relat√≥rios/gr√°ficos para melhor visualiza√ß√£o e an√°lise. Um exemplo de relat√≥rio, mostrado a seguir, considera a apresenta√ß√£o dos dados da amostragem em formato tabular e os par√¢metros em formato aberto (nas colunas da matriz).

![Report](../../img/desafios/aula03/report.png)

Uma importante an√°lise dos dados de qualidade h√≠drica se refere √† sa√∫de e consist√™ncia dos pr√≥prios dados (QAQC). Por exemplo, para alguns conjuntos de par√¢metros, √© esperada uma alta correla√ß√£o entre os resultados. Um exemplo de compara√ß√£o ocorre entre os par√¢metros **Solidos Dissolvidos Totais (SDT)** e **Condutividade Eletrica**, em que considera-se aceit√°vel uma raz√£o SDT / CE na faixa de 55% - 75%.

## Objetivo

Criar uma consulta SQL para retornar uma an√°lise de QAQC da raz√£o entre os par√¢metros **Solidos Dissolvidos Totais (SDT)** e **Condutividade Eletrica**.

O formato da tabela gerada deve ser o seguinte:
- Codigo HGA: Nome HGA do ponto de monitoramento (station.Name)
- ID da amostra: Identificador da amostra de qualidade (parameter_sample.sample_id)
- Solidos Dissolvidos Totais (SDT): Resultados m√©dios do monitoramento de [Solidos Dissolvidos Totais (SDT)] para o ano/m√™s 
- Condutividade: Resultados m√©dios do monitoramento de [Condutividade Eletrica] para o ano/m√™s
- SDT / CE: Raz√£o entre o resultado de [Solidos Dissolvidos Totais (SDT)] e o da [Condutividade Eletrica], para an√°lise do QAQC

PS.: O c√°lculo da raz√£o faz sentido apenas para amostras com resultados **dos dois par√¢metros**.

In [None]:
WITH cte AS (
    SELECT
        s.Name                      AS [Codigo HGA]
        ,a.sample_id                AS [ID Amostra]
        ,r.chemical_name            AS [Parametro]
        ,r.result_value             AS [Resultado]
    FROM station s
        INNER JOIN parameter_sample a
            ON s.ID = a.Station
        INNER JOIN parameter_result r
            ON a.sample_id = r.sample_id
    WHERE 
        r.chemical_name IN ('Solidos Dissolvidos Totais (SDT)', 'Condutividade Eletrica')
)

SELECT
    [Codigo HGA]
    ,[ID Amostra]
    ,[Solidos Dissolvidos Totais (SDT)]
    ,[Condutividade Eletrica]
    ,[Raz√£o %] = ROUND([Solidos Dissolvidos Totais (SDT)] / [Condutividade Eletrica] * 100, 2)
FROM cte
PIVOT (
    AVG([Resultado])
    FOR [Parametro] IN ([Solidos Dissolvidos Totais (SDT)] ,[Condutividade Eletrica])
) AS pivot_table
WHERE
    [Solidos Dissolvidos Totais (SDT)] IS NOT NULL
    AND [Condutividade Eletrica] IS NOT NULL