# Autores

| Nome | nUSP |
| :--- | :--- |
| Guilherme de Abreu Barreto | 12543033 |
| Lucas Eduardo Gulka Pulcinelli | 12547336 |
| Vinicio Yusuke Hayashibara | 13642797 |

# Configuração

É necessário o ao correto funcionamento deste projeto possuir uma instalação local de PostgreSQL e atribuir os valores correspondentes para acesso a este nas seguintes constantes:

- `DATABASE`: O nome do database onde serão carregadas as informações. Atente-se se este não corresponde ao nome de um database preexistente **ou que esteja sendo acessado**, pois este será então sobrescrito.

- `USER` e `PASSWORD`: Informações de autententicação válidas e com privilégios para a criação de bancos de dados no servidor.

- `HOST` e `PORT`: A URL e porta para realização do acesso ao servidor.

- `BATCH_SIZE`: O número máximo de operações sobre o BD a serem realizadas conjuntamente. Recomenda-se ser em um número o qual caiba na memória RAM que você dispõe. O número abaixo foi capaz de caber confortávelmente em 10 GiB de RAM **na minha máquina**. 

In [1]:
DATABASE = "postgres"
USER = "postgres"
PASSWORD = "postgres"
HOST = "postgres"
PORT = 5432

DATABASE_URI = f"postgresql+psycopg2://{USER}:{PASSWORD}@{HOST}/{DATABASE}"

## Carregamento das dependências deste projeto

In [2]:
!pip install psycopg2-binary sqlalchemy[postgres] tqdm pandas ipython-sql matplotlib ipywidgets

import matplotlib.pyplot as plt
from ipywidgets import interact
import ipywidgets as widgets

import enum
import pandas as pd
import pandas.io.sql as psql
import re
from datetime import datetime, date
from sqlalchemy import (
    CheckConstraint as constraint,
    Enum,
    Date,
    ForeignKey as fk,
    String,
    MetaData,
    Table,
    TypeDecorator,
    create_engine,
    column as sql_column,
    insert,
    text,
    PrimaryKeyConstraint as pkc
)
from sqlalchemy.orm import (
    Mapped,
    Session,
    declarative_base,
    relationship,
    sessionmaker,
    mapped_column as column,
    validates,
)
from pathlib import Path
from tqdm import tqdm
from typing import Any, Annotated, final

Collecting ipython-sql
  Downloading ipython_sql-0.5.0-py3-none-any.whl.metadata (17 kB)
Collecting matplotlib
  Downloading matplotlib-3.10.6-cp313-cp313-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (11 kB)
Collecting ipywidgets
  Downloading ipywidgets-8.1.7-py3-none-any.whl.metadata (2.4 kB)
Collecting prettytable (from ipython-sql)
  Downloading prettytable-3.16.0-py3-none-any.whl.metadata (33 kB)
Collecting sqlparse (from ipython-sql)
  Downloading sqlparse-0.5.3-py3-none-any.whl.metadata (3.9 kB)
Collecting contourpy>=1.0.1 (from matplotlib)
  Downloading contourpy-1.3.3-cp313-cp313-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (5.5 kB)
Collecting cycler>=0.10 (from matplotlib)
  Downloading cycler-0.12.1-py3-none-any.whl.metadata (3.8 kB)
Collecting fonttools>=4.22.0 (from matplotlib)
  Downloading fonttools-4.59.2-cp313-cp313-manylinux1_x86_64.manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_5_x86_64.whl.metadata (109 kB)
Collecting kiwisolver>=1.3.1

In [3]:
%load_ext sql

engine = create_engine(DATABASE_URI)
%sql postgresql://postgres:postgres@postgres
%config SqlMagic.displaylimit=None
%config SqlMagic.style = '_DEPRECATED_DEFAULT'

%sql SET Search_Path To bpsp;

 * postgresql://postgres:***@postgres
Done.


[]

# Criação da tabela de Colesterol


In [8]:
%%sql
SELECT DE_Exame, 'BPSP' AS DE_Hospital, Count(*) 
    FROM ExamLabs
    WHERE DE_Exame~*'coleste'
    GROUP BY DE_Exame, DE_Hospital

 * postgresql://postgres:***@postgres
4 rows affected.


de_exame,de_hospital,count
"Colesterol total, soro",BPSP,10361
"HDL Colesterol, soro",BPSP,10053
"LDL Colesterol (Colesterol, Fracao LDL), soro",BPSP,17773
"VLDL Colesterol, soro",BPSP,9923


In [10]:
%%sql
SELECT COUNT(*), E.DT_Coleta
FROM ExamLabs E
GROUP BY E.DT_Coleta
ORDER BY E.DT_Coleta

 * postgresql://postgres:***@postgres
465 rows affected.


count,dt_coleta
134,2019-01-11
282,2019-01-12
14,2019-02-11
318,2019-02-12
53,2019-03-11
269,2019-03-12
53,2019-04-11
639,2019-04-12
40,2019-05-11
838,2019-05-12


In [11]:
%%sql
WITH 
maximos AS (
SELECT 'maximos' AS type, P.ID_Paciente, E.DT_Coleta, COUNT(*)
FROM ExamLabs E
    JOIN Pacientes P
        ON P.ID_Paciente = E.ID_Paciente
GROUP BY P.ID_Paciente, E.DT_Coleta
ORDER BY COUNT(*) DESC
LIMIT 10
), 
minimos AS (
SELECT 'minimos' AS type, P.ID_Paciente, E.DT_Coleta, COUNT(*)
FROM ExamLabs E
    JOIN Pacientes P
        ON P.ID_Paciente = E.ID_Paciente
GROUP BY P.ID_Paciente, E.DT_Coleta
ORDER BY 1, COUNT(*)
LIMIT 10
)

SELECT * FROM MAXIMOS
UNION ALL 
SELECT * FROM MINIMOS


 * postgresql://postgres:***@postgres
20 rows affected.


type,id_paciente,dt_coleta,count
maximos,3716DF853C429959,2020-12-08,399
maximos,27AF7EF08529077E,2020-05-15,390
maximos,905E16380592ED14,2020-11-19,383
maximos,83CE49B05A980EF4,2020-09-17,373
maximos,B9A5DE65F282D269,2020-08-16,367
maximos,3716DF853C429959,2020-08-21,365
maximos,49D461E44B509721,2020-08-26,357
maximos,5CF673DFBA68456F,2021-01-15,357
maximos,E33B4956A34F3F64,2020-08-30,354
maximos,D19BC10BDA17D2D2,2020-07-11,350


In [12]:
%%sql
SELECT 
    P.id_paciente, E.dt_coleta
    AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'ldl' AND E.de_analito!~*'vldl') AS LDL,
    AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'hdl') AS HDL,
    AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'v.*coles')AS VLDL,
    AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'n[aã]o.hdl')AS NaoHDL,
    AVG(E.de_resultado::FLOAT) FILTER(WHERE Lower(E.de_analito) IN ('colesterol total', 'colesterol')) AS Total,
FROM D2.ExamLabs E JOIN D2.Pacientes P on E.id_paciente = P.ID_Paciente
WHERE  P.CD_Municipio IN('GUARULHOS', 'OSASCO') AND
    E.de_exame ~*'coleste' AND 
    E.de_resultado!~'[^\d.,+-]'
GROUP BY P.id_paciente, E.dt_coleta
LIMIT 10;

 * postgresql://postgres:***@postgres
(psycopg2.errors.SyntaxError) syntax error at or near "("
LINE 3:     AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'...
               ^

[SQL: SELECT 
    P.id_paciente, E.dt_coleta
    AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'ldl' AND E.de_analito!~*'vldl') AS LDL,
    AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'hdl') AS HDL,
    AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'v.*coles')AS VLDL,
    AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'n[aã]o.hdl')AS NaoHDL,
    AVG(E.de_resultado::FLOAT) FILTER(WHERE Lower(E.de_analito) IN ('colesterol total', 'colesterol')) AS Total,
FROM D2.ExamLabs E JOIN D2.Pacientes P on E.id_paciente = P.ID_Paciente
WHERE  P.CD_Municipio IN('GUARULHOS', 'OSASCO') AND
    E.de_exame ~*'coleste' AND 
    E.de_resultado!~'[^\d.,+-]'
GROUP BY P.id_paciente, E.dt_coleta
LIMIT 10;]
(Background on this error at: https://sqlalche.me/e/20/f405)
