# Amostragem

## Autores

| Nome | nUSP |
| :--- | :--- |
| Guilherme de Abreu Barreto | 12543033 |
| Lucas Eduardo Gulka Pulcinelli | 12547336 |
| Vinicio Yusuke Hayashibara | 13642797 |

## Enunciado

O exercício se refere à geração de uma amostra de _Exames de Colesterol_ da tabela _Exam_Labs_ dos hospitais que têm desfecho (Esquema D2). Considere a tabela de exames de colesterol criada no notebook `3.1-PrepDadosWindFunc.ipynb` pelo pivotamento de relações,

1. Contabilize quantos exames estão com ao menos um analito _fora_ do seu correspondente valor de referência e quantos estão com todos os analitos _dentro_ dos valores de referência;

2. Gere uma amostragem que contenha 25% dos exames _fora_ e 10% dos exames _dentro_ dos valores de referência.

Considere também que, pra a Sociedade Brasileira de Cardiologia, os analitos estão _dentro_ dos valores de referência quando:

- LDL<130,
- HDL≥40,
- VLDL<30,
- Não HDL<160
- Total<190 mg/DL

## Instalação de dependências

In [9]:
!pip install matplotlib pandas psycopg2-binary sqlalchemy[postgres] ipython-sql ipywidgets 



## Carregamento de dependências e acesso ao BD

In [10]:
############## Importar os módulos necessários para o Notebook:
import matplotlib.pyplot as plt
import pandas.io.sql as psql
import timeit
from sqlalchemy import create_engine

############## Conectar com um servidor SQL na Base postgres ###################### --> Postgres.postgres
%load_ext sql
%config SqlMagic.style = '_DEPRECATED_DEFAULT'

# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:postgres@postgres:5432/postgres')
%sql postgresql://postgres:postgres@postgres:5432/postgres

%sql DB << SELECT Version();
print(DB)

The sql extension is already loaded. To reload it, use:
  %reload_ext sql
 * postgresql://postgres:***@postgres:5432/postgres
1 rows affected.
Returning data to local variable DB
+------------------------------------------------------------------------------------------+
|                                         version                                          |
+------------------------------------------------------------------------------------------+
| PostgreSQL 16.10 on x86_64-pc-linux-musl, compiled by gcc (Alpine 14.2.0) 14.2.0, 64-bit |
+------------------------------------------------------------------------------------------+


In [21]:
%%sql
SELECT * 
FROM information_schema.tables
WHERE table_schema = 'd2'

 * postgresql://postgres:***@postgres:5432/postgres
3 rows affected.


table_catalog,table_schema,table_name,table_type,self_referencing_column_name,reference_generation,user_defined_type_catalog,user_defined_type_schema,user_defined_type_name,is_insertable_into,is_typed,commit_action
postgres,d2,pacientes,BASE TABLE,,,,,,YES,NO,
postgres,d2,examlabs,BASE TABLE,,,,,,YES,NO,
postgres,d2,desfechos,BASE TABLE,,,,,,YES,NO,


## Geração da tabela a ser analizada

In [28]:
%%sql
DROP TABLE IF EXISTS "d2".ExamesPivotados;

 * postgresql://postgres:***@postgres:5432/postgres
Done.


[]

In [29]:
%%sql
CREATE TABLE "d2".ExamesPivotados AS
SELECT 
    E.id_paciente,
    E.dt_coleta, 
    E.id_atendimento,
    MAX(E.de_hospital) AS Hospital,
    AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'ldl' AND E.de_analito !~*'vldl') AS LDL,
    AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'hdl') AS HDL,
    AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'v.*coles') AS VLDL,
    AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'n[aã]o.hdl') AS NaoHDL,
    AVG(E.de_resultado::FLOAT) FILTER(WHERE LOWER(E.de_analito) IN ('colesterol total', 'colesterol')) AS Total,
    MAX(E.cd_unidade) AS Unidade
FROM "d2"."examlabs" E
WHERE E.de_exame ~* 'coleste'
  AND E.de_resultado !~ '[^\d.,+-]'
GROUP BY E.id_paciente, E.dt_coleta, E.id_atendimento;

 * postgresql://postgres:***@postgres:5432/postgres
219698 rows affected.


[]

## _Queries_

A seguir realizamos um par de queries: a primeira serve a contabilizar o número de exames em cada categoria (_dentro_ ou _fora_ dos valores de referência), a segunda seleciona amostras destas conforme proposto pelo enunciado.

In [30]:
%%sql
SELECT 
    COUNT(*) FILTER (
        WHERE (
            LDL<130 
            AND HDL>=40 
            AND VLDL<30 
            AND NaoHDL<160 
            AND Total<190
        )
    ) AS exames_dentro,
    COUNT(*) FILTER (
        WHERE NOT (
            LDL<130 
            AND HDL>=40 
            AND VLDL<30 
            AND NaoHDL<160 
            AND Total<190
        )
    ) AS exames_fora,
    COUNT(*) AS total
FROM D2.ExamesPivotados

 * postgresql://postgres:***@postgres:5432/postgres
1 rows affected.


exames_dentro,exames_fora,total
104374,103792,219698


In [33]:
%%sql
CREATE VIEW amostragem AS (
(
    SELECT *, 'dentro' AS tipo
    FROM D2.ExamesPivotados
    WHERE (
        LDL<130 
        AND HDL>=40 
        AND VLDL<30 
        AND NaoHDL<160 
        AND Total<190
    )
    ORDER BY RANDOM()
    LIMIT (
        SELECT 
        COUNT(*) FILTER (
            WHERE (
                LDL<130 
                AND HDL>=40 
                AND VLDL<30 
                AND NaoHDL<160 
                AND Total<190
            )
        ) * 0.1  AS count_exames_dentro_inclusos
        FROM D2.ExamesPivotados 
    )

) UNION ALL (
            
    SELECT *, 'fora' AS tipo
    FROM D2.ExamesPivotados
    WHERE NOT (
        LDL<130 
        AND HDL>=40 
        AND VLDL<30 
        AND NaoHDL<160 
        AND Total<190
    )
    ORDER BY RANDOM()
    LIMIT (
        SELECT 
        COUNT(*) FILTER (
            WHERE NOT (
                LDL<130 
                AND HDL>=40 
                AND VLDL<30 
                AND NaoHDL<160 
                AND Total<190
            )
        ) * 0.25 AS count_exames_fora_inclusos
        FROM D2.ExamesPivotados 
    )
)
)

 * postgresql://postgres:***@postgres:5432/postgres
Done.


[]

In [None]:
Por fim, da amostra selecionada, examinamos separadamente os valores de referência, e obtemos os seguintes resultados:

In [34]:
%%sql
SELECT
    COUNT(*) AS total_geral,
    COUNT(*) FILTER (WHERE tipo = 'dentro') AS total_dentro, 
    COUNT(*) FILTER (WHERE tipo = 'fora') AS total_fora,
    COUNT(*) FILTER (WHERE LDL >= 130) AS ldl_fora,
    COUNT(*) FILTER (WHERE HDL < 40) AS hdl_fora,
    COUNT(*) FILTER (WHERE VLDL >= 30) AS vldl_fora,
    COUNT(*) FILTER (WHERE NaoHDL >= 160) AS naohdl_fora,
    COUNT(*) FILTER (WHERE Total >= 190) AS mgDL_total
FROM amostragem

 * postgresql://postgres:***@postgres:5432/postgres
1 rows affected.


total_geral,total_dentro,total_fora,ldl_fora,hdl_fora,vldl_fora,naohdl_fora,total_fora_1
36385,10437,25948,13772,747,6795,11156,23474
