# üìä Sistema de Informa√ß√£o de Mortalidade - Banco de Dados Relacional

### Informa√ß√µes dos Alunos

- **Curso**: Programa de P√≥s-Gradua√ß√£o em Computa√ß√£o Aplicada - UnB
- **Disciplina**: Fundamentos de Banco de Dados
- **Data**: 21 de fevereiro de 2025


**Autores**
-  Ebenezer Andrade da Silva | **Matricula**: 241134715 
- Geison de Souza Oliveira | **Matricula**: 242105843
---

## Informa√ß√µes do Projeto  

Informa√ß√µes adicionais sobre este projeto podem ser encontradas no reposit√≥rio do GitHub:  

**[FDB - Reposit√≥rio Oficial](https://github.com/ebenezerandrade1/FDB)** 

##  Introdu√ß√£o

Este projeto tem como objetivo a cria√ß√£o de um **banco de dados relacional** para armazenar e analisar informa√ß√µes sobre √≥bitos, utilizando dados extra√≠dos do Sistema de Informa√ß√£o de Mortalidade (SIM). A implementa√ß√£o inclui **ETL**, **views**, **procedures**, **triggers** e diversas consultas SQL para explorar os dados.

## Modelo de Dados Relacional

O banco de dados foi estruturado seguindo os princ√≠pios da **modelagem relacional**, garantindo **integridade referencial** e **normaliza√ß√£o**. O esquema cont√©m as seguintes tabelas:

- **`obitos`** - Registros dos √≥bitos com detalhes como local, hora, causa da morte, entre outros.
- **`localizacoes`** - Munic√≠pios e estados onde os √≥bitos ocorreram.
- **`causas`** - C√≥digo CID e descri√ß√£o das causas de morte.


Diagrama do Modelo Relacional:

![image.png](attachment:855c9ee2-6cbc-436c-9c8f-a5a71ca191d1.png)

##  Script SQL - Cria√ß√£o do Banco de Dados

O banco de dados foi criado utilizando **PostgreSQL**.  
O script SQL para cria√ß√£o das tabelas est√° dispon√≠vel no arquivo:  

**[tabelas.sql - Clique aqui para acessar](https://github.com/ebenezerandrade1/FDB/blob/main/scripts/tabelas.sql)** 



# Processo ETL - Extra√ß√£o, Transforma√ß√£o e Carga dos Dados  

O processo **ETL (Extract, Transform, Load)** foi desenvolvido para garantir a ingest√£o eficiente e estruturada dos registros de √≥bitos no banco de dados **PostgreSQL**.  
A implementa√ß√£o foi realizada utilizando **Python**, empregando as bibliotecas **pandas** e **SQLAlchemy**, para manipula√ß√£o e inser√ß√£o dos dados de forma automatizada.  

![image.png](attachment:6c2b6883-9836-4c2a-8c8d-a457264278e4.png)


Os pipelines foram desenvolvidos utilizando **Jupyter Notebook** e **Python**, garantindo a automa√ß√£o do processo **ETL** para diferentes conjuntos de dados.  
Os arquivos podem ser acessados nos links abaixo:

- **[üìÇ Pipeline - Causas](https://github.com/ebenezerandrade1/FDB/blob/main/Pipeline/causas.ipynb)**
- **[üìÇ Pipeline - Localiza√ß√µes](https://github.com/ebenezerandrade1/FDB/blob/main/Pipeline/localizacoes.ipynb)**
- **[üìÇ Pipeline - √ìbitos](https://github.com/ebenezerandrade1/FDB/blob/main/Pipeline/obitos.ipynb)**  

Cada um desses pipelines realiza **extra√ß√£o, transforma√ß√£o e carga (ETL)** dos respectivos dados, garantindo qualidade e consist√™ncia para an√°lises posteriores.

---

## Fases do Processo ETL  

### Extra√ß√£o - Coleta de Dados  
Na primeira etapa do processo, os dados foram extra√≠dos de arquivos **CSV**, os quais continham informa√ß√µes sobre registros de √≥bitos, munic√≠pios e causas de morte. Essa extra√ß√£o foi realizada utilizando **pandas**, possibilitando a leitura e convers√£o dos arquivos para **DataFrames**, garantindo melhor manipula√ß√£o dos dados.  

#### **Principais a√ß√µes na extra√ß√£o:**  
- Importa√ß√£o dos dados a partir de arquivos **CSV**.  
- Leitura eficiente dos arquivos utilizando **pandas**.  
- Estrutura√ß√£o inicial dos dados para facilitar o tratamento.  


### Transforma√ß√£o - Tratamento e Padroniza√ß√£o  
Ap√≥s a extra√ß√£o, os dados passaram por uma s√©rie de transforma√ß√µes para garantir **qualidade e integridade** antes da carga no banco de dados.  

#### **Principais a√ß√µes na transforma√ß√£o:**  
- **Convers√£o de tipos de dados:** Ajuste de colunas de **datas, n√∫meros e categorias**.  
- **Tratamento de valores ausentes:** Aplica√ß√£o de regras para preenchimento ou remo√ß√£o de registros inconsistentes.  
- **Cria√ß√£o de um dicion√°rio de dados:** Vari√°veis num√©ricas que representavam valores categ√≥ricos foram convertidas em valores descritivos, aumentando a legibilidade dos dados.  
- **Normaliza√ß√£o de IDs:** Ajuste dos c√≥digos de munic√≠pios para garantir padroniza√ß√£o, incluindo **preenchimento de zeros √† esquerda**.  
- **Remo√ß√£o de registros inv√°lidos:** Exclus√£o de dados corrompidos ou inconsistentes.  

Essas transforma√ß√µes garantiram que os dados estivessem **limpos e estruturados corretamente** para serem inseridos no banco.


### Carga - Inser√ß√£o no Banco de Dados  
Por fim, os dados tratados foram **inseridos no banco de dados PostgreSQL**.  
A inser√ß√£o foi realizada utilizando a biblioteca **SQLAlchemy**, garantindo uma integra√ß√£o eficiente com o banco.  

#### **Principais a√ß√µes na carga:**  
- **Valida√ß√£o de integridade referencial:**  
  - Antes da inser√ß√£o, foi realizada uma verifica√ß√£o para garantir que **chaves estrangeiras** existissem na base de dados, prevenindo erros de integridade.  
- **Filtragem de registros inconsistentes:**  
  - Registros cujo `id_local` **n√£o existisse na tabela de munic√≠pios** foram descartados da inser√ß√£o, evitando erros de **Foreign Key Violation**.  
- **Execu√ß√£o otimizada:**  
  - Inser√ß√£o em lote para maior efici√™ncia na carga dos dados.  

**A cada erro encontrado, o script exibia o `id_local` inexistente** para fins de auditoria e corre√ß√£o posterior.  





##  View

### vw_obitos_detalhado

A VIEW __vw_obitos_detalhado__ traz informa√ß√µes detalhadas dos √≥bitos, juntando dados das tabelas relacionadas (__raca_cor__, __causas__, __localizacoes__ e __obitos__)

### Script
```sql
CREATE OR REPLACE VIEW vw_obitos_detalhado AS
SELECT 
    o.id_obito,
    o.data AS data_obito,
    o.data_nascimento,
    o.idade,
    o.sexo,
    rc.descricao AS raca_cor,
    c.codigo_cid,
    c.descricao AS causa_morte,
    l.municipio,
    l.estado,
    l.regiao,
    o.assist_med,
    o.necropsia
FROM public.obitos o
LEFT JOIN public.raca_cor rc ON o.id_raca_cor = rc.id_raca_cor
LEFT JOIN public.causas c ON o.id_causa_principal = c.id_causa
LEFT JOIN public.localizacoes l ON o.id_local = l.id_local;
```

### Consulta
```sql
SELECT * FROM vw_obitos_detalhado;
```

### Resutlado

![image.png](attachment:df1d246c-397e-4bad-89ad-27594b2a5b44.png)

##  Procedure
### atualizar_idade_obitos

A PROCEDURE __atualizar_idade_obitos__ atualiza a idade dos √≥bitos sem idade (NULL), considerando a data do √≥bito e data de nascimento como refer√™ncia para o c√°lculo da idade.

### Script de cria√ß√£o da procedure
```sql
CREATE OR REPLACE PROCEDURE atualizar_idade_obitos()
LANGUAGE plpgsql
AS $$
DECLARE
    rec RECORD;
    nova_idade INTEGER;
BEGIN
    -- Percorre todos os registros onde a idade est√° nula
    FOR rec IN 
        SELECT id_obito, data_nascimento, data
        FROM public.obitos 
        WHERE idade IS NULL
    LOOP
        -- Verifica se a data de nascimento e a data do √≥bito n√£o s√£o nulas
        IF rec.data_nascimento IS NOT NULL AND rec.data IS NOT NULL THEN
            -- Calcula a idade com base no ano do √≥bito
            nova_idade := EXTRACT(YEAR FROM AGE(rec.data, rec.data_nascimento));

            -- Verifica se a idade calculada √© v√°lida
            IF nova_idade >= 0 THEN
                UPDATE public.obitos
                SET idade = nova_idade
                WHERE id_obito = rec.id_obito;

                RAISE NOTICE 'Idade do √≥bito ID % atualizada para %', rec.id_obito, nova_idade;
            ELSE
                RAISE WARNING '√ìbito ID % tem uma data de nascimento inv√°lida!', rec.id_obito;
            END IF;
        ELSE
            RAISE WARNING '√ìbito ID % n√£o tem data de nascimento ou data de √≥bito, idade n√£o pode ser calculada!', rec.id_obito;
        END IF;
    END LOOP;

    RAISE NOTICE 'Atualiza√ß√£o de idades conclu√≠da!';
END;
$$;
```

### Execu√ß√£o

```sql
CALL atualizar_idade_obitos();
```

### Explica√ß√£o
 - Percorre todos os √≥bitos sem idade (idade IS NULL) usando FOR rec IN (...) LOOP.
 - Verifica se data_nascimento e data (data do √≥bito) n√£o s√£o nulas.
 - Calcula a idade usando EXTRACT(YEAR FROM AGE(data_obito, data_nascimento)).
 - Verifica se a idade calculada √© v√°lida (>= 0) antes de atualizar.
 - Atualiza a idade no banco de dados se for um valor correto.
 - Exibe mensagens para cada caso:
   - NOTICE se a idade for atualizada corretamente.
   - WARNING se a data de nascimento ou a data do √≥bito for NULL ou inv√°lida.

### Resultado

##  Trigger
### trg_auditoria_obitos
A TRIGGER __trg_auditoria_obitos__ audita as opera√ß√µes INSERT, UPDATE e DELETE na tabela public.obitos. Os dados da auditoria ser√£o salvos na nova tabela chamada __auditoria__, incluindo informa√ß√µes sobre a opera√ß√£o, os dados afetados e a data/hora da mudan√ßa.

### Fun√ß√£o: fn_auditar_obitos()
Fun√ß√£o que ser√° executada pela trigger
### Script:
```sql
CREATE OR REPLACE FUNCTION fn_auditar_obitos()
RETURNS TRIGGER 
LANGUAGE plpgsql
AS $$
BEGIN
    -- Auditoria de INSERT
    IF TG_OP = 'INSERT' THEN
        INSERT INTO public.auditoria (operacao, id_obito, data_nova, idade_nova, sexo_novo, data_modificacao)
        VALUES ('INSERT', NEW.id_obito, NEW.data, NEW.idade, NEW.sexo, now());

        RETURN NEW;
    END IF;

    -- Auditoria de UPDATE
    IF TG_OP = 'UPDATE' THEN
        INSERT INTO public.auditoria (operacao, id_obito, data_antiga, data_nova, idade_antiga, idade_nova, sexo_antigo, sexo_novo, data_modificacao)
        VALUES ('UPDATE', OLD.id_obito, OLD.data, NEW.data, OLD.idade, NEW.idade, OLD.sexo, NEW.sexo, now());

        RETURN NEW;
    END IF;

    -- Auditoria de DELETE
    IF TG_OP = 'DELETE' THEN
        INSERT INTO public.auditoria (operacao, id_obito, data_antiga, idade_antiga, sexo_antigo, data_modificacao)
        VALUES ('DELETE', OLD.id_obito, OLD.data, OLD.idade, OLD.sexo, now());

        RETURN OLD;
    END IF;
    
    RETURN NULL;
END;
$$;
```

### Trigger: trg_auditoria_obitos
### Script:
```sql
CREATE TRIGGER trg_auditoria_obitos
AFTER INSERT OR UPDATE OR DELETE
ON public.obitos
FOR EACH ROW
EXECUTE FUNCTION fn_auditar_obitos();
```

# Consultas SQL

Abaixo est√£o cinco consultas SQL explorando os dados do banco:

## 1. Munic√≠pios com mais √≥bitos por estado
### Script:
```sql
WITH obitos_por_municipio AS (
    SELECT 
        l.estado,
        l.municipio,
        COUNT(o.id_obito) AS total_obitos,
        RANK() OVER (PARTITION BY l.estado ORDER BY COUNT(o.id_obito) DESC) AS rank
    FROM public.obitos o
    JOIN public.localizacoes l ON o.id_local = l.id_local
    GROUP BY l.estado, l.municipio
)
SELECT estado, municipio, total_obitos
FROM obitos_por_municipio
WHERE rank = 1
ORDER BY total_obitos DESC;
```

### Explica√ß√£o:
1. Conta o total de √≥bitos por munic√≠pio e estado, agrupando os registros.
2. Usa a fun√ß√£o RANK() para classificar os munic√≠pios dentro de cada estado, ordenando do maior para o menor n√∫mero de √≥bitos.
3. Filtra apenas os munic√≠pios com maior n√∫mero de √≥bitos em cada estado (rank = 1), garantindo um √∫nico resultado por estado.

### Resultado:
![image.png](attachment:05d9b5a5-bbd3-456e-9891-ace2d57ddac9.png)

## 2. Principal causa de morte por faixa et√°ria
### Script:
```sql
WITH obitos_faixa_etaria AS (
    SELECT 
        CASE 
            WHEN o.idade BETWEEN 0 AND 10 THEN '0 a 10 anos'
            WHEN o.idade BETWEEN 11 AND 30 THEN '11 a 30 anos'
            WHEN o.idade BETWEEN 31 AND 50 THEN '31 a 50 anos'
            WHEN o.idade BETWEEN 51 AND 70 THEN '51 a 70 anos'
            WHEN o.idade > 71 THEN 'Maior que 71 anos'
        END AS faixa_etaria,
        o.id_causa_principal,
        c.codigo_cid,
        c.descricao,
        COUNT(o.id_obito) AS total_obitos
    FROM public.obitos o
    JOIN public.causas c ON o.id_causa_principal = c.id_causa
    WHERE o.idade IS NOT NULL
    GROUP BY faixa_etaria, o.id_causa_principal, c.codigo_cid, c.descricao
),
ranking_causas AS (
    SELECT *,
        RANK() OVER (PARTITION BY faixa_etaria ORDER BY total_obitos DESC) AS rank
    FROM obitos_faixa_etaria
)
SELECT id_causa_principal, codigo_cid, descricao, faixa_etaria, total_obitos
FROM ranking_causas
WHERE rank = 1
ORDER BY faixa_etaria;
```

### Explica√ß√£o:
1. Subconsulta __obitos_faixa_etaria__:
   - Classifica os √≥bitos em faixas et√°rias.
   - Conta o total de √≥bitos por faixa et√°ria e id_causa_principal.
   - Associa cada √≥bito √† tabela causas para obter o codigo_cid e a descricao.
   - Filtra apenas os registros com idade preenchida (WHERE o.idade IS NOT NULL).
2. Subconsulta __ranking_causas__:
   - Usa a fun√ß√£o RANK() para classificar as causas dentro de cada faixa et√°ria com base no total de √≥bitos.
3. Seleciona apenas a principal causa de √≥bitos para cada faixa et√°ria (WHERE rank = 1), garantindo que s√≥ apare√ßa a causa com mais ocorr√™ncias por faixa.
4. Ordena o resultado por faixa et√°ria, para facilitar a visualiza√ß√£o.

### Resultado:
![image.png](attachment:46bff230-2c73-4cf1-b261-8dc762f117b7.png)

## 3. As 10 principais causas de √≥bito, com a idade m√©dia das v√≠timas
### Script:
```sql
SELECT c.codigo_cid, c.descricao, ROUND(AVG(o.idade), 1) AS idade_media, COUNT(o.id_obito) AS total_obitos
FROM obitos o
JOIN causas c ON o.id_causa_principal = c.id_causa
WHERE o.idade > 0
GROUP BY c.codigo_cid, c.descricao
ORDER BY total_obitos DESC
LIMIT 10;
```

### Explica√ß√£o:
1. Calcula a idade m√©dia das v√≠timas (AVG(o.idade), arredondado com ROUND(,1)).
2. Conta o total de √≥bitos por causa (COUNT(o.id_obito)).
3. Relaciona os √≥bitos √†s causas (JOIN entre obitos e causas).
4. Agrupa os dados por causa de morte (GROUP BY c.codigo_cid, c.descricao).
5. Ordena pelos estados com mais √≥bitos (ORDER BY total_obitos DESC).
6. Mostra apenas as 10 principais causas (LIMIT 10).

### Resultado:
![image.png](attachment:2c7cd052-e613-4d7d-aff6-d4b7f0579d65.png)

## 4. Principal causa de morte para homens e mulheres por regi√£o

### Script:
```sql
WITH obitos_por_regiao_sexo AS (
    SELECT 
        l.regiao,
        o.sexo,
        o.id_causa_principal,
        c.codigo_cid,
        c.descricao,
        COUNT(o.id_obito) AS total_obitos
    FROM public.obitos o
    JOIN public.localizacoes l ON o.id_local = l.id_local
    JOIN public.causas c ON o.id_causa_principal = c.id_causa
    WHERE o.sexo IN ('M', 'F')  -- Filtra apenas √≥bitos de homens e mulheres
    GROUP BY l.regiao, o.sexo, o.id_causa_principal, c.codigo_cid, c.descricao
),
ranked_causas AS (
    SELECT *,
        RANK() OVER (PARTITION BY regiao, sexo ORDER BY total_obitos DESC) AS rank
    FROM obitos_por_regiao_sexo
)
SELECT regiao, sexo, codigo_cid, descricao, total_obitos
FROM ranked_causas
WHERE rank = 1
ORDER BY regiao, sexo;
```

### Explica√ß√£o:
1. Subconsulta (obitos_por_regiao_sexo):
   - Agrupa os √≥bitos por regi√£o, sexo (homem ou mulher) e causa principal.
   - Para cada grupo (por regi√£o e sexo), conta o total de √≥bitos e traz o c√≥digo CID e descri√ß√£o da causa.
   - Utiliza JOINs para associar as tabelas obitos, localizacoes e causas.
2. Subconsulta (ranked_causas):
   - A fun√ß√£o RANK() √© usada para ordenar as causas de √≥bito dentro de cada regi√£o e sexo, do maior para o menor n√∫mero de √≥bitos.
   - Isso garante que a principal causa de √≥bito (com maior n√∫mero de √≥bitos) receba o rank 1.
Filtragem:
3. Seleciona apenas os registros com rank = 1, ou seja, a principal causa de √≥bito em cada regi√£o para cada sexo.
Ordena√ß√£o:
4. Os resultados s√£o ordenados por regi√£o e sexo, para facilitar a leitura.

### Resultado:
![image.png](attachment:fc3746e2-262c-470a-9738-b434a38912d5.png)

## 5. Munic√≠pios com mais √≥bitos sem necropsia
### Script:
```sql
SELECT 
    l.municipio,
    l.estado,
    COUNT(o.id_obito) AS total_obitos_sem_necropsia
FROM public.obitos o
JOIN public.localizacoes l ON o.id_local = l.id_local
WHERE o.necropsia IS NULL OR o.necropsia = 'n√£o'
GROUP BY l.municipio, l.estado
ORDER BY total_obitos_sem_necropsia DESC
LIMIT 10;
```

### Explica√ß√£o
1. JOIN public.localizacoes l ON o.id_local = l.id_local:
   - Realiza o JOIN entre as tabelas obitos e localizacoes para relacionar o √≥bito com o munic√≠pio e estado.
2. WHERE o.necropsia IS NULL OR o.necropsia = '':
   - Filtra os √≥bitos onde n√£o h√° necropsia registrada (campo necropsia √© nulo ou vazio).
3. COUNT(o.id_obito) AS total_obitos_sem_necropsia:
   - Conta o n√∫mero total de √≥bitos sem necropsia para cada munic√≠pio.
4. GROUP BY l.municipio, l.estado:
   - Agrupa os resultados por munic√≠pio e estado, para contabilizar os √≥bitos de cada local.
5. ORDER BY total_obitos_sem_necropsia DESC:
   - Ordena os munic√≠pios de maior para menor n√∫mero de √≥bitos sem necropsia.

### Resultado:
![image.png](attachment:9b439a1a-7135-45b3-87aa-caec7acbb395.png)

# Consultas em √Ålgebra Relacional

##  Quantidade de √ìbitos por Munic√≠pio (TOP 10)

$$
\pi_{\text{municipio}, \text{total\_obitos}} \left( \sigma_{\text{total\_obitos} \geq 10} \left( \gamma_{\text{municipio}}^{\text{COUNT}(id\_obito) \rightarrow \text{total\_obitos}} \left( \text{Obitos} \bowtie_{\text{Obitos.id\_local} = \text{Localizacoes.id\_local}} \text{Localizacoes} \right) \right) \right)
$$

### **Explica√ß√£o**:
- **\(‚®ù\)** ‚Üí Jun√ß√£o entre **√ìbitos** e **Localiza√ß√µes** baseada no `id_local`.
- **\(Œ≥\)** ‚Üí Agrupa por munic√≠pio e conta o n√∫mero de √≥bitos.
- **\(œÉ\)** ‚Üí Filtra munic√≠pios com pelo menos **10 √≥bitos**.
- **\(œÄ\)** ‚Üí Retorna apenas as colunas **munic√≠pio** e **total_obitos**.

---

## CID com Maior N√∫mero de Mortes

$$
\pi_{\text{codigo\_cid}, \text{descricao}, \text{total\_obitos}} \left( \sigma_{\text{total\_obitos} = \max(\text{total\_obitos})} \left( \gamma_{\text{codigo\_cid}, \text{descricao}}^{\text{COUNT}(id\_obito) \rightarrow \text{total\_obitos}} \left( \text{Obitos} \bowtie_{\text{Obitos.id\_causa\_principal} = \text{Causas.id\_causa}} \text{Causas} \right) \right) \right)
$$

###  **Explica√ß√£o**:
- **\(‚®ù\)** ‚Üí Jun√ß√£o entre **√ìbitos** e **Causas** baseada no `id_causa`.
- **\(Œ≥\)** ‚Üí Agrupa por **CID** e conta o n√∫mero de √≥bitos.
- **\(œÉ\)** ‚Üí Filtra apenas o CID com **maior n√∫mero de mortes**.
- **\(œÄ\)** ‚Üí Retorna **c√≥digo CID**, **descri√ß√£o** e **total de √≥bitos**.

---

## M√©dia de Idade dos Falecidos por Regi√£o

$$
\pi_{\text{regiao}, \text{media\_idade}} \left( \gamma_{\text{regiao}}^{\text{AVG}(idade) \rightarrow \text{media\_idade}} \left( \text{Obitos} \bowtie_{\text{Obitos.id\_local} = \text{Localizacoes.id\_local}} \text{Localizacoes} \right) \right)
$$

### **Explica√ß√£o**:
- **\(‚®ù\)** ‚Üí Jun√ß√£o entre **√ìbitos** e **Localiza√ß√µes** baseada no `id_local`.
- **\(Œ≥\)** ‚Üí Agrupa por **regi√£o** e calcula a m√©dia da idade.
- **\(œÄ\)** ‚Üí Retorna apenas as colunas **regi√£o** e **m√©dia de idade**.

---

 Nota√ß√£o formal de **√Ålgebra Relacional**:
- **Sele√ß√£o** \(œÉ\)
- **Proje√ß√£o** \(œÄ\)
- **Jun√ß√£o** \(‚®ù\)
- **Agrega√ß√£o** \(Œ≥\)


