# Autores

| Nome | nUSP |
| :--- | :--- |
| Guilherme de Abreu Barreto | 12543033 |
| Lucas Eduardo Gulka Pulcinelli | 12547336 |
| Vinicio Yusuke Hayashibara | 13642797 |

# Configuração

É necessário o ao correto funcionamento deste projeto possuir uma instalação local de PostgreSQL e atribuir os valores correspondentes para acesso a este nas seguintes constantes:

- `DATABASE`: O nome do database onde serão carregadas as informações. Atente-se se este não corresponde ao nome de um database preexistente **ou que esteja sendo acessado**, pois este será então sobrescrito.

- `USER` e `PASSWORD`: Informações de autententicação válidas e com privilégios para a criação de bancos de dados no servidor.

- `HOST` e `PORT`: A URL e porta para realização do acesso ao servidor.

- `BATCH_SIZE`: O número máximo de operações sobre o BD a serem realizadas conjuntamente. Recomenda-se ser em um número o qual caiba na memória RAM que você dispõe. O número abaixo foi capaz de caber confortávelmente em 10 GiB de RAM **na minha máquina**. 

In [1]:
DATABASE = "postgres"
USER = "postgres"
PASSWORD = "postgres"
HOST = "postgres"
PORT = 5432

DATABASE_URI = f"postgresql+psycopg2://{USER}:{PASSWORD}@{HOST}/{DATABASE}"

## Carregamento das dependências deste projeto

In [12]:
!pip install psycopg2-binary sqlalchemy[postgres] tqdm pandas ipython-sql matplotlib ipywidgets

import matplotlib.pyplot as plt
from ipywidgets import interact
import ipywidgets as widgets

import enum
import pandas as pd
import pandas.io.sql as psql
import re
from datetime import datetime, date
from sqlalchemy import (
    CheckConstraint as constraint,
    Enum,
    Date,
    ForeignKey as fk,
    String,
    MetaData,
    Table,
    TypeDecorator,
    create_engine,
    column as sql_column,
    insert,
    text,
    PrimaryKeyConstraint as pkc
)
from sqlalchemy.orm import (
    Mapped,
    Session,
    declarative_base,
    relationship,
    sessionmaker,
    mapped_column as column,
    validates,
)
from pathlib import Path
from tqdm import tqdm
from typing import Any, Annotated, final

Collecting matplotlib
  Downloading matplotlib-3.10.6-cp313-cp313-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (11 kB)
Collecting ipywidgets
  Downloading ipywidgets-8.1.7-py3-none-any.whl.metadata (2.4 kB)
Collecting contourpy>=1.0.1 (from matplotlib)
  Downloading contourpy-1.3.3-cp313-cp313-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (5.5 kB)
Collecting cycler>=0.10 (from matplotlib)
  Downloading cycler-0.12.1-py3-none-any.whl.metadata (3.8 kB)
Collecting fonttools>=4.22.0 (from matplotlib)
  Downloading fonttools-4.59.2-cp313-cp313-manylinux1_x86_64.manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_5_x86_64.whl.metadata (109 kB)
Collecting kiwisolver>=1.3.1 (from matplotlib)
  Downloading kiwisolver-1.4.9-cp313-cp313-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (6.3 kB)
Collecting pillow>=8 (from matplotlib)
  Downloading pillow-11.3.0-cp313-cp313-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (9.0 kB)
Collecting pyparsing>=2.3.1 (

In [27]:
%load_ext sql

engine = create_engine(DATABASE_URI)
%sql postgresql://postgres:postgres@postgres
%config SqlMagic.displaylimit=None
%config SqlMagic.style = '_DEPRECATED_DEFAULT'

%sql SET Search_Path To d2;

The sql extension is already loaded. To reload it, use:
  %reload_ext sql
 * postgresql://postgres:***@postgres
Done.


[]

# Criação da tabela de Colesterol


In [38]:
%%sql
SELECT ' ' " ", "DE_Exame", "DE_Hospital", Count(*) 
    FROM "ExamLabs"
    WHERE "DE_Exame"~*'coleste'
    GROUP BY "DE_Exame", "DE_Hospital"

UNION ALL

SELECT 'Total', '-----', '-----', Count(*) 
    FROM "ExamLabs"
    WHERE "DE_Exame"~*'coleste'
    ORDER BY 1, "DE_Exame";

 * postgresql://postgres:***@postgres
23 rows affected.


Unnamed: 0,DE_Exame,DE_Hospital,count
,COLESTEROL,HC,623
,"COLESTEROL TOTAL, soro",GrupoFleury,206450
,Colesterol - Fracao HDL,HSL,1109
,Colesterol - Fração HDL,HSL,912
,Colesterol - Fração LDL,HSL,1429
,Colesterol - Fração VLDL,HSL,1101
,Colesterol Total,HSL,917
,Colesterol Total - URG,HSL,1109
,Colesterol Total e Frações,HSL,1424
,"Colesterol não-HDL, soro",HSL,877


Vamos ter uma ideia desses exames.\
_Quais pacientes em que data de coleta, têm exame de colesterol, digamos exames de LDL?_

In [None]:
%%sql
SELECT P.id_paciente, E.dt_coleta, -- 1 secs 326 msec. 13 rows affected.
       MAX(E.de_hospital) AS Hospital,
       AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'ldl' AND E.de_analito!~*'vldl') AS LDL,              -- evitar contar vldl como ldl.
       AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'hdl') AS HDL, 
       AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'v.*coles')AS VLDL, 
       AVG(E.de_resultado::FLOAT) FILTER(WHERE E.de_analito ~*'n[aã]o.hdl')AS NaoHDL,                               -- aceita nao e não
       AVG(E.de_resultado::FLOAT) FILTER(WHERE Lower(E.de_analito) IN ('colesterol total', 'colesterol')) AS Total, -- alguns hospitais usam só colesterol para indicar total.
       MAX(E.cd_unidade) AS Unidade
    FROM D2.ExamLabs E JOIN D2.Pacientes P on E.id_paciente = P.ID_Paciente
    WHERE  P.CD_Municipio IN('GUARULHOS', 'OSASCO') AND
         E.de_exame ~*'coleste' AND 
         E.de_resultado!~'[^\d.,+-]'                -- pode haver texto ao invés de números em alguns registros.
    GROUP BY P.id_paciente, E.dt_coleta
    LIMIT 10;