# Modelo Multidimensional: Cube

## Autores

| Nome | nUSP |
| :--- | :--- |
| Guilherme de Abreu Barreto | 12543033 |
| Lucas Eduardo Gulka Pulcinelli | 12547336 |
| Vinicio Yusuke Hayashibara | 13642797 |

## Introdução

O presente notebook demonstra a utilização da funcionalidade [Cube](https://www.postgresql.org/docs/current/cube.html) para exploração de um banco de dados construido com PostgreSQL sobre os dados do projeto [FAPESP COVID-19 DataSharing](https://repositoriodatasharingfapesp.uspdigital.usp.br/). Conforme enuncido para este exercício.

### Prérequisitos

Assume-se

- a instalação de todas as dependências do projeto;
- a existência de um banco de dados pré-configurado conforme explicitado em [notebook anterior](https://github.com/de-abreu/data-mining/blob/main/01-Prepara%C3%A7%C3%A3o%20de%20dados/Gera%C3%A7%C3%A3o%20de%20Databases%20com%20SQLalchemy%20e%20PostgreSQL.ipynb);
- A correta configuração do acesso ao banco de dados abaixo.

## Configuração

- DATABASE: O nome do database onde serão carregadas as informações. Atente-se se este não corresponde ao nome de um database preexistente ou que esteja sendo acessado, pois este será então sobrescrito.

- USER e PASSWORD: Informações de autententicação válidas e com privilégios para a criação de bancos de dados no servidor.

- HOST e PORT: A URL e porta para realização do acesso ao servidor.


In [1]:
DATABASE = "fapcov2103"
USER = "postgres"
PASSWORD = "password"
HOST = "localhost"
PORT = 5432

DATABASE_URI = f"postgresql+psycopg2://{USER}:{PASSWORD}@{HOST}/{DATABASE}"

## Importação das dependências

In [21]:
import pandas as pd
from sqlalchemy import create_engine, select, func, text, MetaData, Table
from sqlalchemy.orm import declarative_base

## Enunciado

Listar a contagem de quantos Exames de Coronavírus foram feitos (procurar por ’corona’ ou ’covid’ em qualquer caixa de letra) por:

- Tipo de Exame
- Hospital em que o exame foi realizado
- Cidade de origem do paciente
- Quaisquer combinações dos fatores anteriores.

## Resolução

Todos os exames relacionados ao diagnóstico de Covid já foram separados na tabela AnalisesCovid do schema D2 no exercício anterior, então selecionamos esta e realizados a contagem dos subtotais e total usando Cube, como visto abaixo.

In [24]:
engine = create_engine(
    DATABASE_URI,
    connect_args={'options': f'-c search_path=D2'},
)

with engine.connect() as conn:
    conn.execute(text("CREATE EXTENSION IF NOT EXISTS unaccent;"))
    conn.commit()

Base = declarative_base()
metadata = MetaData()

class ExamLab(Base):
    __table__ = Table("ExamLabs", metadata, autoload_with=engine)

class Paciente(Base):
    __table__ = Table("Pacientes", metadata, autoload_with=engine)

def normalize(column):
    return func.lower(func.trim(func.unaccent(column)))

exame=normalize(ExamLab.DE_Exame)

stmt = select(
    func.coalesce(exame, 'Todos').label("Tipo de Exame"),
    func.coalesce(func.trim(Paciente.CD_Municipio), 'Todos').label("Cidade do Paciente"),
    func.coalesce(func.trim(Paciente.DE_Hospital), 'Todos').label("Hospital"),
    func.count().label("Numero de Exames")
).select_from(
    ExamLab.__table__.join(Paciente.__table__, ExamLab.ID_Paciente == Paciente.ID_Paciente)
).where(
    # Use the .op() method for the database-specific regex operator (~* for PostgreSQL)
    exame.op('~*')(r'(covid)|(sars.cov.2)|(corona)')
).group_by(
    func.cube(
        exame,
        func.trim(Paciente.CD_Municipio),
        func.trim(Paciente.DE_Hospital)
    )
).order_by(
    "Tipo de Exame",
    "Cidade do Paciente",
    "Hospital"
)
df = pd.read_sql(stmt, engine)
with pd.option_context('display.max_rows', None):
    display(df.style.hide(axis="index"))

Tipo de Exame,Cidade do Paciente,Hospital,Numero de Exames
anticorpos iga e igg sars-cov-2/covid19,BARUERI,Einstein,28
anticorpos iga e igg sars-cov-2/covid19,BARUERI,Todos,28
anticorpos iga e igg sars-cov-2/covid19,COTIA,Einstein,14
anticorpos iga e igg sars-cov-2/covid19,COTIA,Todos,14
anticorpos iga e igg sars-cov-2/covid19,EMBU,Einstein,2
anticorpos iga e igg sars-cov-2/covid19,EMBU,Todos,2
anticorpos iga e igg sars-cov-2/covid19,GUARULHOS,Einstein,4
anticorpos iga e igg sars-cov-2/covid19,GUARULHOS,Todos,4
anticorpos iga e igg sars-cov-2/covid19,JUNDIAI,Einstein,6
anticorpos iga e igg sars-cov-2/covid19,JUNDIAI,Todos,6


In [27]:
# The SQL query is now just a simple SELECT and JOIN
raw_data_stmt = select(
    ExamLab.DE_Exame,
    Paciente.CD_Municipio,
    Paciente.DE_Hospital
).select_from(
    ExamLab.__table__.join(Paciente.__table__, ExamLab.ID_Paciente == Paciente.ID_Paciente)
).where(
    # You can still apply pre-filters
    func.unaccent(ExamLab.DE_Exame).op('~*')(r'(covid)|(sars.cov.2)|(corona)')
)

# Fetch the result into a DataFrame
df_raw = pd.read_sql(raw_data_stmt, engine)

# (Optional but recommended) Clean the data in Pandas
df_raw['DE_Exame'] = df_raw['DE_Exame'].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8').str.strip().str.lower()
df_raw['CD_Municipio'] = df_raw['CD_Municipio'].str.strip()
df_raw['DE_hospital'] = df_raw['DE_Hospital'].str.strip()

In [30]:
df_cube = pd.pivot_table(
    df_raw,
    index=['DE_Hospital', 'CD_Municipio'],
    columns='DE_Exame',
    aggfunc=len,
    margins=True,
    margins_name='Todos',
    fill_value=0
)
with pd.option_context('display.max_rows', None):
    display(df_cube)

Unnamed: 0_level_0,Unnamed: 1_level_0,DE_hospital,DE_hospital,DE_hospital,DE_hospital,DE_hospital,DE_hospital,DE_hospital,DE_hospital,DE_hospital,DE_hospital,DE_hospital,DE_hospital,DE_hospital,DE_hospital,DE_hospital,DE_hospital,DE_hospital,DE_hospital,DE_hospital,DE_hospital,DE_hospital
Unnamed: 0_level_1,DE_Exame,anticorpos iga e igg sars-cov-2/covid19,coronavirus 2019-ncov,coronavirus covid-19,coronavirus covid-19 - coalizao vi - inativo,coronavirus covid-19 - pre cirurgico,coronavirus humano 229e (cor229),coronavirus humano hku1 (hku),coronavirus humano nl63 (cor63),coronavirus humano oc43 (cor43),covid teste liquor,...,"sorologia - coronavirus, iga","sorologia - coronavirus, igg","sorologia para trial - coronavirus, iga","sorologia para trial - coronavirus, igg",sorologia sars-cov-2/covid19 igg/igm,teste molecular rapido para deteccao de sars-cov-2 (covid-19),teste rapido coronavirus covid19 igg/igm,teste rapido para covid-19 de ponta de dedo,teste rapido para sars-cov-2- pesquisa de anticorpos igg e igm (sorologia para covid-19),Todos
DE_Hospital,CD_Municipio,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2
BPSP,BARUERI,0,0,37,0,9,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,54
BPSP,CARAPICUIBA,0,0,13,0,3,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,16
BPSP,COTIA,0,0,41,0,10,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,63
BPSP,DIADEMA,0,0,29,0,12,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,41
BPSP,GUARULHOS,0,0,759,1,213,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1062
BPSP,MANAUS,0,0,6,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,6
BPSP,MOGI DAS CRUZES,0,0,100,0,26,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,156
BPSP,OSASCO,0,0,435,0,145,0,0,0,0,0,...,0,0,2,2,0,0,0,0,0,625
BPSP,SANTANA DE PARNAIBA,0,0,6,0,2,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,8
BPSP,SANTO ANDRE,0,0,31,0,14,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,60
