<font size="6" face="verdana" color="green">
<img src="Figuras/MBAIABD-Logo.png" width=100/>
    <b>Exploração inicial das tabelas da Base de dados <u>FAPESP-Covid19</u></b>
</font>

<br><br>
**Objetivo:** Olhar rapidamente o conteúdo das tabelas que existem na base de Dados `FAPESP-Covid19`, armazenada na base: &nbsp; `FapCov-2103`.

<br>

## Conectar com a Base de Dados

Para começar, é necessário estabelecer a coneção com a base:

In [1]:
import matplotlib.pyplot as plt
import pandas.io.sql as psql
from sqlalchemy import create_engine

%load_ext sql
# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:pgadmin@localhost/FapCov-2103')
%sql postgresql://postgres:pgadmin@localhost/FapCov-2103

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


ModuleNotFoundError: No module named 'psycopg2'

## Explorar rapidamente o que tem na base de dados

* Para ter flexibilidade de análise, todas as __definições__ foram colocadas no esquema padrão do Postgres: o `Esquema PUBLIC`.
* Os __dados__ foram carregados em um esquema separado para cada hospital.
* Além disso, foram criados dois outros esquemas:
   * `Todos`: que integra os dados de todos os hospitais
   * `D2`: que integra os dados dos hospitais que têm desfecho: `HSL` e `HCSP`

Vamos verificar os esquemas existentes na base:

In [None]:
%%sql
SELECT S.*
    FROM PG_NameSpace S 
    WHERE NspName !~*'(pg_)|(Information_schema)';


Vamos verificar todas as tabelas que existem nos diversos esquemas dessa base de dados:

In [None]:
%%sql
SELECT S.NSpName, C.RelName, C.RelPages, TO_CHAR(C.RelTuples, '999G999G999') RelTuples, C.RelNAtts
    FROM PG_Class C JOIN PG_NameSpace S ON C.RelNameSpace = S.OId
    WHERE  NspName !~*'(pg_)|(Information_schema)' AND RelKind='r'
    ORDER BY 1,2;

Veja que todas as tabelas dos esquemas `Todos` e `D2` têm um atributo a mais do que as respectivas tabelas nos esquemas de hospitais individuais.\
Isso é porque foi incluido um atributo `DE_Hospital` que indica de qual hospital os dados de cada tupla são provenientes.

Agora devemos escolher em qual Hospital (ou união de hospitais) queremos trabalhar.\
Se não for feita a escolha,  será usado o `esquema PUBLIC`, que não contém dados.</br>

---

Vamos trabalhar com os hospitais que têm desfecho.\
Definimos então, para esta sessão, o esquema `D2`:

In [None]:
%%sql
SET Search_Path To D2; -- Usar dados dos hospitais com desfecho

---
</br>
Caso se esteja trabalhando o esquema `Todos` ou `D2` é possível verificar quais hospitais estão carregados.

In [None]:
%%sql
SELECT Distinct De_Hospital from Pacientes;

Vamos verificar exatamente quantos pacientes estão carregados nas Relações `PACIENTES`, `EXAMES` e `DESFECHOS` do esquema escolhido:\
(os dados armazenados nas tabelas do sistemas são estatísticas mantidas pelo otimizador de consultas do SGBD, e podem não estar atualizados)

In [None]:
%%sql
SELECT 'Pacientes', Count(*) from Pacientes UNION
SELECT 'Exames', Count(*) from ExamLabs UNION
SELECT 'Desfechos', Count(*) from Desfechos;

<br><br>

## Executar uma exploração superficial -- A tabela `pacientes`

<br>

Como é a tabela `Pacientes`?

In [None]:
%%sql
SELECT * FROM Pacientes LIMIT 5;

Qual a quantidade de pacientes, a idade dos pacientes mais novos e dos mais velhos em cada cidade?

In [None]:
PacientesStat = psql.read_sql("SELECT CD_Municipio, Min(2021-aa_nascimento), Max(2021-aa_nascimento), Count(*) Tot\
    FROM D2.pacientes\
    GROUP BY 1\
    ORDER BY 1 NULLS FIRST;", engine)
PacientesStat.plot(x="cd_municipio", y="tot", kind="barh")
PacientesStat.plot(x="cd_municipio",  y=["min", "max"], kind="barh")
PacientesStat.reindex(index=PacientesStat.index[::-1])

Qual é a distribuição de __<font color='blue'>idades</font>__ dos pacientes?

In [None]:
PacientesIdade = psql.read_sql("SELECT 2021-AA_Nascimento Idade, Count(*) Tot\
    FROM D2.pacientes\
    WHERE AA_Nascimento IS NOT NULL\
    GROUP BY 1 ORDER BY 1", engine)
PacientesIdade.plot(x="idade", y="tot", kind="bar", figsize=(20, 5))

Essa é a distribuição de todos os pacientes. \
Tem sido divulgado que pacientes mais velhos têm maior probabilidade de óbito.\
Será que a distribuição de óbitos de fato é mais intensa em pacientes mais velhos?

Para verificar isso, é necessário considerar o __desfecho__ dos pacientes, que está disponível na tabela __`Desfechos`__.<br><br>

<br>

## A tabela `Desfechos`



Vamos olhar essa tabela:

In [None]:
%%sql
SELECT * FROM Desfechos
    LIMIT 5

Essa tabela é identificada pelo `ID_Paciente` concatenado com o `ID_Atendimento`. <br>
Cada paciente pode ter diversos atendimentos, e cada um tem um `desfecho` e os respectivos `tipos de atendimento`, `data`, etc.<br>

Quais são os __<font color='blue'>tipos de desfechos</font>__, e qual é a __<font color='blue'>quantidade de registros</font>__ de cada um?

In [None]:
%%sql
SELECT DE_Desfecho, Count(*) 
    FROM Desfechos 
    GROUP BY DE_Desfecho
    ORDER BY DE_Desfecho;

Interessante!

Podemos ver que existem diversos valores para registrar `óbito`.

Quantos desfechos têm registro onde aparece a palavra 'óbito?'</br>
Vamos procurar considerando a palavra com e sem acento, em minusculas ou maiúsculas. <br>
Para isso pode-se usar expressões regulares:

In [None]:
%%sql
SELECT DE_Desfecho, Count (*)
    FROM Desfechos
    WHERE DE_Desfecho~*'[oó]bito'
    GROUP BY DE_Desfecho
    ORDER BY 2 DESC;

Como saber o desfecho de cada paciente?<br>
&#9758; Podemos considerar o atendimento com a data mais recente como sendo o estado _conhecido_ do paciente.<br><br><br>

 ## A tabela `Desfecho` permite tratar a evolução __histórica__.<br>

Vamos avaliar os vários atendimentos de cada paciente.<br>
Vamos escolher alguns poucos pacientes para _entender_ como isso é feito, usando por exemplo os pacientes de `Guarulhos` (porque tem poucos pacientes).<br>
Vamos listar cada atendimento, agregando:
 * um atributo com a `ordem` do atendimento de cada paciente,
 * um atributo com o `separação` em número de dias __entre esse antendimento e o atendimento anterior__,
 * um atributo com o `tempo de atendimento`, também em número de dias __entre esse atendimento e o primeiro atendimento registrado desse paciente__.

In [None]:
%%sql
SELECT P.id_paciente,
       '## '||RoW_Number(*)OVER(PARTITION BY P.id_paciente ORDER BY D.dt_atendimento)||' ##' Ordem, 
       D.dt_atendimento, D.de_clinica, D.de_desfecho,
       D.dt_atendimento -  lag(D.dt_atendimento) OVER (PARTITION BY P.id_paciente ORDER BY D.dt_atendimento) Separacao,
       D.dt_atendimento -  FIRST_Value(D.dt_atendimento) OVER (PARTITION BY P.id_paciente ORDER BY D.dt_atendimento) Tempo_Atend
    FROM Pacientes P JOIN Desfechos D ON P.ID_Paciente = D.ID_Paciente
    WHERE CD_Municipio ='GUARULHOS'
    ORDER by P.id_paciente, D.dt_atendimento
    LIMIT 20;

Sabendo disso, como podemos obter o desfecho de cada paciente?

Podemos considerar o atendimento com a data mais recente como sendo o estado _conhecido_ do paciente.<br>
Portanto, &#9758; para estabelecer se um paciente veio a óbito, é necessário:
 * fazer uma JUNÇÃO da tabela `Pacientes` 
 * com uma relação que indica __<font color='red'>qual é o desfechos mais recente</font>__ de cada paciente

In [None]:
%%sql
SELECT P.*, FD.De_FDesfecho, FD.Dt_FAtendimento
    FROM Pacientes P LEFT JOIN
        (SELECT  ID_Paciente, Dt_FAtendimento, De_FDesfecho
             FROM (SELECT ID_Paciente,
                       MAX(Dt_Atendimento) OVER(Partition BY ID_Paciente) AS Dt_FAtendimento, 
                       MAX(De_desfecho) OVER(Partition BY ID_Paciente) AS De_FDesfecho
                   FROM Desfechos
                   ) As temp
             GROUP BY ID_Paciente, Dt_FAtendimento, De_FDesfecho
        ) AS FD -- Desfecho Final 
            ON P.id_paciente=FD.ID_paciente
    LIMIT 10;

<br>Usando essa tabela de pacientes, podemos verificar como está a distribuição das idades, mas considerando agora apenas os __<font color='red'> pacientes com desfecho em óbito</font>__.

In [None]:
ObitosIdade = psql.read_sql("SELECT Bins.B AS Idade,\
          CASE WHEN Tab.Conta IS NULL THEN 0 ELSE Tab.Conta END Tot\
    FROM (WITH Lim AS (SELECT Max(2021-AA_Nascimento) Ma FROM D2.Pacientes)\
                       SELECT Generate_Series(1, Lim.Ma) AS B FROM Lim) AS Bins\
           LEFT OUTER JOIN\
       (SELECT 2021-P.AA_Nascimento AS Idade, Count(*) Conta\
           FROM D2.Pacientes P LEFT JOIN\
               (SELECT  ID_Paciente, Dt_FAtendimento, De_FDesfecho\
                    FROM (SELECT ID_Paciente,\
                                 MAX(Dt_Atendimento) OVER(Partition BY ID_Paciente) AS Dt_FAtendimento, \
                                 MAX(De_desfecho) OVER(Partition BY ID_Paciente) AS De_FDesfecho\
                              FROM D2.Desfechos\
                          )	 As temp\
                    GROUP BY ID_Paciente, Dt_FAtendimento, De_FDesfecho\
                ) AS FD\
                     ON P.id_paciente=FD.ID_paciente\
           WHERE FD.DE_FDesfecho~*'[oó]bito'\
           GROUP BY 1\
        ) AS Tab ON Bins.B=Tab.Idade\
    ORDER BY 1;", engine)

ObitosIdade.plot(x="idade", y="tot", kind="bar", figsize=(20, 5))

De fato, existe uma tendência de haver mais óbitos em pacientes com idades mais avançadas...
<br><br>

Qual a proporção de óbitos?

In [None]:
tt=psql.read_sql("SELECT Count(*) todos, Count (*) FILTER (WHERE FD.DE_FDesfecho~*'[oó]bito') obitos\
    FROM D2.Pacientes P LEFT JOIN\
        (SELECT  ID_Paciente, Dt_FAtendimento, De_FDesfecho\
            FROM (SELECT ID_Paciente,\
                                 MAX(Dt_Atendimento) OVER(Partition BY ID_Paciente) AS Dt_FAtendimento, \
                                 MAX(De_desfecho) OVER(Partition BY ID_Paciente) AS De_FDesfecho\
                              FROM D2.Desfechos\
                 ) As temp\
            GROUP BY ID_Paciente, Dt_FAtendimento, De_FDesfecho\
        ) AS FD  ON P.id_paciente=FD.ID_paciente", engine)

print('Total de pacientes: %d, Óbitos: %d Porcentagem de óbitos: %.4f' % (tt["todos"], tt["obitos"], (100.*tt["obitos"])/tt["todos"]))



<br><br>

## A tabela `ExamLabs`

A tabela `ExamLabs`  armazena os resultados dos `Exames Laboratoriais` a que os pacientes foram submetidos.

Vamos olhar essa tabela:

In [None]:
%%sql
SELECT *
    FROM ExamLabs
    ORDER BY Random()
    LIMIT 5;

 * Cada `Paciente` (identificado pelo seu `Id_Paciente`) é atendido dentro de um `Atendimento` (identificado pelo seu `Id_Atendimento`) que pode durar um ou mais dias.\
 * Cada  `Exame` é realizado numa data (`Dt_Coleta`) por solicitação de algum departamento onde o paciente foi atendido (`De_Origem`).
 * Cada  `Exame` tem um tipo (`DE_Exame`) e pode medir um ou mais analitos (`De_Analito`).
 * A medida tem um valor (`De-Resultado`) medido numa unidade (`CD_Unidade`), e pode ter um valor de referência (`CD_ValorReferencia`).
 * Para poder armazenar qualquer tipo valor, o tipo desse atributo é textual. O artibuto `DE_ResultNum` tem o valor como tipo numérico para dados que são numéricos.

<div class="alert alert-block alert-info">
    &#x26A0; Se assume que cada exame não se repete na base no mesmo dia.<br>
    Mas isso não é verdade, pois existem ocorrências de mais de um exame do mesmo paciente no mesmo dia e atendimento.<br>
    Quando isso ocorre, nos exames que avaliam mais de um analito, não é possível saber quais medidas compõem cada exame.
    Nesse caso, o melhor alternativa é fazer a média de todos os valores do mesmo atributo.
    </div>

Para obter todos os dados de um exame completo deve ser indicado os atributos:
   `Id_Paciente`, `Id_Atendimento`, `Dt_Coleta` e `De_Exame`.
Por exemplo:

In [None]:
%%sql
SELECT De_Analito, De_Resultado, Cd_Unidade, CD_ValorReferencia
    FROM ExamLabs
    WHERE Id_Paciente='96247AF637AED04C' AND
          Id_Atendimento='3A91B15598948DB8AB555831C9E79790' AND
          Dt_Coleta='2020-06-04' AND
          De_Exame='hemograma completo, sangue total'


</br></br>
As tabelas que usamos nesses exercícios exploratórios da base pode ser submetidas a processos exploratórios mais elaborados.<br>
No entanto, as tabelas originais, brutas, não são adequadas à maior parte dos processos de análise, e portanto devem ser __`preparadas`__.

Usualmente, é muito melhor executar o __<font color='green'> processo de preparação</font>__ onde os dados estão: __<font color='red'> no SGBD</font>__, 
 * integrando as diversas tabelas, 
 * gerando/escolhendo os atributos de interesse,
 * agregando os dados,
 * etc.
 
 Vamos estudar a neste terceiro curso do MBI.IABigD algumas tecnicas mais elaboradas para executar o <font color='teal'>__Processo de Preparação de Dados__ em SQL, no próprio SGBD</font>.

<br><br>
<font size="4" face="verdana" color="green">
     <b>Exploração inicial das tabelas da Base de dados FAPESP-Covid19</b>
    </font><br>

    
<font size="10" face="verdana" color="red">
        <b>FIM</b>&nbsp; <img src="Figuras/MBAIABD-Logo.png" width=100/>
    </font>