# Elementos da versão

Antes mesmo de falar do projeto, ao longo do desenvolvimento, vamos explicitando qual o objetivo de cada versão de trabalho do arquivo principal.

O objetivo desta AvoidMort_v5_BR_CID_UF é criar um dataset de mortalidades gerais para servir de comparação para a mortalidade evitável.

O dataset final deverá ter as seguintes características:

* setting: Brasil [poderemos encontrar um sufixo a Brasil que permita a sua subclassificação e carga deste dataset junto a outros]
* dimension: UF
* subgroup: sexo & raça
* estimate: mortalidade por CIDs evitáveis e município
* setting-average: mortalidade por CIDs evitáveis por Brasil

# Projeto de Análise de Desigualdade em Saúde no modelo HEAT/OMS
## Bloco 2025/1 = análise do sistema de mortalidade do SUS com agregação por unidades federativas




#### Aspectos gerais e participantes

Projeto Desenvolvido em parceria da MS/SECTICS/DESID com a Organização Mundial de Saúde

Elaborado em linguagem Python, utilizando a biblioteca pysus para acesso ao SIM (Sistema de Informações de Mortalidade do SUS)

Coordenador-geral:

Coordenadores: 

Cientista de dados: Marcos Mesquita

Outros participantes:

Data: 06/12/2024


#### Objetivos

O principal objetivo desse projeto é realizar a avaliação de desigualdade na saúde no Brasil com ênfase para a dimensão de unidades subnacionais, estados e municípios brasileiros, a partir da aplicação do modelo do HEAT, tendo como objetivos específicos:

- Apresentar indicadores de saúde no Brasil desagregados por subunidades nacionais em uma visualização interativa a partir do modelo do HEAT Plus;
- Oferecer um repositório comum e atualizado com dados de desigualdade da saúde no Brasil desagregados por estados e municípios em um modelo sob reconhecimento internacional;
- Permitir exploração e acesso dos dados e da metodologia para outros tipos de análises.

# Etapa 1 - Definição do Bloco

O projeto ocorrerá em blocos sucessivos, nos quais serão definidos o problema e os indicadores a serem analisados.

### Definição do problema do bloco



 H0 - as unidades federativa são variáveis determinantes para mortalidade no país

### Escopo do Bloco 1


* indicador: mortalidade (número de mortes por população, dados de morte do SIM/SUS e dados populacionais pelo Censos de 2010 e 2022)
* localização: todo o Brasil, com agregação de mortalidade por Estados e Municípios
* período: 2010 e 2022 
* doenças: “doenças evitáveis” conforme definido pelo OCDE
* outros critérios de filtro: até 74 anos de idade (em razão da aplicação do critério de "doenças evitáveis")

# Etapa 2 - Análise primária dos dados por bloco

## Aspectos teóricos e técnicos das fontes


#### Aspectos técnicos - ambiente, linguagem e ferramentas principais

A análise será feita utilizando a linguagem Python e a biblioteca Pysus que permite acesso às principais bases do SUS de forma direta.
O Pysus exige um ambiente linux para execução de alguns comandos o que foi possível, mesmo em uma máquina Windows, a partir do WSL do Windows.
Foi criado um ambiente em WSL e o conjunto da extração, tratamento e análise dos dados foi realizado no formato Notebook em um editor VSCode, dentro de um Dev Container: Default Linux Universal.


#### Morte e mortalidade no HEAT

Para entendermos como o HEAT trata a mortalidade, fizemos uma busca de indicadores de mortalidade no WHO Health Inequality Data Repository.

O repositório traz dados e metadados de todos os indicadores utilizados pelo HEAT.
Apresenta um total de 3915 indicadores, distribuídos entre 14 seções.

Foi feita uma revisão geral dos indicadores relacionados à mortalidade, que depois foi refinada pela busca das seguintes palavras : “death”, “mortality”, “fatal”, ‘fatality” ,“Probability of dying”, “suicide”. E foram encontrados 388 indicadores que trazem uma destas expressões na sua descrição.


#### SIM (Sistema de Informações de Mortalidade do SUS)

A mortalidade e os indicadores de morte serão buscados no SIM (Sistema de Informações de Mortalidade do SUS).
O SIM disponibiliza dados de mortes no Brasil desde 1996 por ocorrências, gerido pelo Departamento de Análise de Situação de Saúde, da Secretaria de Vigilância em Saúde do Ministério da Saúde, em conjunto com as Secretarias Estaduais e Municipais de Saúde. Estas últimas responsáveis efetivamente pela coleta dos dados.

O SIM traz informações do indivíduo, como sexo, idade, localidade e causas da morte, classificadas de acordo com o CID (Classificação Internacional de Doenças e Problemas Relacionadas à Saúde).


#### CID (Classificação Internacional de Doenças e Problemas Relacionadas à Saúde)

Com o intuito de padronizar a nomenclatura de patologias e com abrangência para todo o mundo, foi elaborado pela Organização Mundial da Saúde (OMS) uma  classificação internacional de doenças, a CID (Classificação Internacional de Doenças e Problemas Relacionadas à Saúde). 

A Classificação é atualizada periodicamente. A versão mais atual é a CID11, publicada em janeiro de 2022.

No entanto, por se tratar de revisão que traz impactos nos registros e que exige considerável atualização das ferramentas de captura das informações, o SIM utiliza versões anteriores da CID.
- CID9 - dados até 1995
- CID10 - a partir de 1996 até a data atual

Em razão do recorte temporal dos dados, de 1998 a 2022, iremos utilizar somente a CID10.
A CID10 é organizada em 22 capítulos e possui, além da classificação de doenças, descrição de códigos que permitem identificar sinais, sintomas, queixas, causas externas e circunstâncias sociais.


#### CID de doenças evitáveis

Como elemento do escopo deste trabalho iremos tratar de doenças evitáveis.

O Brasil, a partir da Secretaria de Vigilância em Saúde apresenta uma classificação de doenças evitáveis. 

Lista de causas evitáveis pode ser encontrada nos links: http://tabnet.datasus.gov.br/cgi/sim/Obitos_Evitaveis_0_a_4_anos.pdf




#### População (Censo)


Os dados de população são os do Censo, acessados pelo site do IBGE, https://sidra.ibge.gov.br/Tabela/9606






## Instalação e importação de bibliotecas

#### Instalação de bibliotecas

In [None]:
# Costuma ser exigida a instalação destas bibliotecas no primeiro acesso ao Pysus
!apt-get update  
!apt-get install libffi-dev  # Install libffi-dev
!pip install --upgrade pip  # Ensure pip is up to date
!pip install pysus # Exa
!pip install gdown
!pip install pylance
!pip install tabulate

#### Importação de bibliotecas

In [6]:
# importar biblioteca básicas para manipulação de dados
import pandas as pd
import numpy as np
import os
import sidrapy
import requests # para carga de endereços web - api
import gdown
import openpyxl
from tabulate import tabulate

In [2]:
# importar bibliotecas para carga dos dados
import pysus
# import pylance
from pysus import SIM
from pysus.online_data.SIM import download
from pysus.preprocessing.decoders import translate_variables_SIM
from pysus.preprocessing.SIM import group_and_count, redistribute_missing, redistribute_cid_chapter
from pysus.online_data.SIM import get_CID9_table, get_CID10_table, get_municipios, get_ocupations
from ftplib import FTP
from pathlib import Path  

In [7]:
# Para organizar resultados, gerar prints em amarelo

def print_y(text):
  """Imprime o texto fornecido na cor amarela.

  Args:
    text: O texto a ser impresso.
  """
  print(f"\033[33m ==> {text}\033[0m")

# Exemplo de uso:
print_y("Este texto será impresso em amarelo!")
print("Este em normal!")

[33m ==> Este texto será impresso em amarelo![0m
Este em normal!


#### Diretórios - configuração

In [None]:
# Definir diretório padrão para pysus
pysus.online_data.SIM.CACHEPATH="./files_in_sim"
# Definir pasta para download de arquivos csv e parquet
import os 

# Define diretório para armazenar arquivos do sim (carregados por pysus) quando o SIM.CACHEPATH não funcionar
os.makedirs('files_in_sim', exist_ok=True)  
downloads_sim = "downloads_sim_original"

# Define diretório para armazenar outros arquivos
os.makedirs('files_in', exist_ok=True)  

# Define diretório para armazenar arquivos temporários
os.makedirs('files_temp', exist_ok=True) 

# Define diretório para exportar arquivos finais ou de relatórios
os.makedirs('files_out', exist_ok=True) 

#### Acesso ao SIM

In [4]:
sim = SIM().load() # Loads the files from DATASUS

In [5]:
sim.paths

(/dissemin/publicos/SIM/CID10/DORES, /dissemin/publicos/SIM/CID9/DORES)

In [6]:
sim.groups

{'CID10': 'DO', 'CID9': 'DOR'}

## Arquivo principal - DO

DO - Declaração de Óbito, conforme acessado no SIM

#### Carga SIM principal

In [32]:
# Carrega os dados do SIM para o ano de 2010
# Definição de variáveis
grupo = "CID10" # Agrupamento por CID10
uf = "" # A sigla BR carrega dados de todos as unidades federativas
ano = [2010] # Anos do escopo, 2010 e 2022
local = downloads_sim # Local para armazenar os arquivos, definido nas etapas anteriores

# sim.get_files("CID10", uf="BR", year=2010)
dobr_2010 = download(grupo,uf,ano,downloads_sim) # Carrega os dados do SIM
# dobr2010 = download("CID10","BR",2010,'TESTE_EXCLUIR') # Carrega os dados do SIM
# dobr2010 

DOTO2010.parquet: 100%|██████████| 16.6k/16.6k [00:00<00:00, 51.3kB/s]


In [8]:
# Carrega os dados do SIM para os demais anos
# Definição de variáveis
grupo = "CID10" # Agrupamento por CID10
uf = "BR" # A sigla BR carrega dados de todos as unidades federativas
ano = [2019,2020,2021,2022] # Anos do escopo, 2010 e 2022
local = downloads_sim # Local para armazenar os arquivos, definido nas etapas anteriores

# sim.get_files("CID10", uf="BR", year=2010)
dobr2010 = download(grupo,uf,ano,downloads_sim) # Carrega os dados do SIM
# dobr2010 = download("CID10","BR",2010,'TESTE_EXCLUIR') # Carrega os dados do SIM
# dobr2010 

0it [00:00, ?it/s]


In [None]:
# dodf = dobr.to_dataframe()

### Tratamento do arquivo principal

O dicionário do SIM está em "./Estrutura_SIM_para_CD.pdf"

Trabalhamos o CID presente no campo CAUSABAS.

Em razão do escopo da População Estimada (que apresenta dados por Município, mas não de outras variáveis de desigualdade) a primeira versão será um recorte da base DOBR com os dados de CID ('CAUSABAS'), idade (a partir do tratamento de 'DTNASC'), e de Município (a partir do tratamento de 'CODMUNRES').

Por se tratar de doenças evitáveis, o primeiro filtro a ser feito é com base na idade de óbito, que deve ser abaixo de 75 anos.

A idade de óbito está presente no campo IDADE. Ela é composta de 3 dígitos, o primeiro identifica se a contagem é por dias(1), semanas(2), meses (3), ano (4), mais de 100 anos (5).

Em razão disto, vamos desconsiderar todos os valores de dígito 4 e mais de 75 (475).


Iremos tratar do arquivo de 2010 separado dos outros anos pela especificade daquele arquivo.



In [4]:
# Acessar os dados do SIM de 2010 como 1 dataframe

# Definir o diretório onde os arquivos estão localizados
directory = 'files___in_sim'

# Listar todos os arquivos na pasta
file_list = os.listdir(directory)

# Filtrar apenas os arquivos parquet
parquet_files = [file for file in file_list if file.endswith('2010.parquet')]

# Inicializar uma lista para armazenar os dataframes
dataframes = []

# Iterar sobre os arquivos parquet e ler cada um em um dataframe
for file in parquet_files:
    file_path = os.path.join(directory, file)
    df = pd.read_parquet(file_path)
    dataframes.append(df)

# Concatenar todos os dataframes em um único dataframe
dobr_10_temp = pd.concat(dataframes, ignore_index=True)

# Exibir informações do dataframe combinado
dobr_10_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1136947 entries, 0 to 1136946
Data columns (total 60 columns):
 #   Column      Non-Null Count    Dtype 
---  ------      --------------    ----- 
 0   CONTADOR    1133938 non-null  object
 1   ORIGEM      1136947 non-null  object
 2   TIPOBITO    1136947 non-null  object
 3   DTOBITO     1136947 non-null  object
 4   HORAOBITO   1136947 non-null  object
 5   NATURAL     1136947 non-null  object
 6   DTNASC      1136947 non-null  object
 7   IDADE       1136947 non-null  object
 8   SEXO        1136947 non-null  object
 9   RACACOR     1136947 non-null  object
 10  ESTCIV      1136947 non-null  object
 11  ESC         1136947 non-null  object
 12  OCUP        1136947 non-null  object
 13  CODMUNRES   1136947 non-null  object
 14  CODBAIRES   1136947 non-null  object
 15  LOCOCOR     1136947 non-null  object
 16  CODESTAB    1136947 non-null  object
 17  CODMUNOCOR  1136947 non-null  object
 18  CODBAIOCOR  1136947 non-null  object
 19  

In [5]:
# Excluir valores nulos da coluna CAUSABAS
dobr_10_temp01 = dobr_10_temp.dropna(subset=['CAUSABAS'])
dobr_10_temp01.shape[0]


1136947

In [6]:
# Reduzir as colunas
dobr_10_temp02 = dobr_10_temp01[['DTOBITO','CAUSABAS', 'CODMUNRES','IDADE','SEXO','RACACOR']]

# Exibir informações do dataframe após a exclusão
dobr_10_temp02.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1136947 entries, 0 to 1136946
Data columns (total 6 columns):
 #   Column     Non-Null Count    Dtype 
---  ------     --------------    ----- 
 0   DTOBITO    1136947 non-null  object
 1   CAUSABAS   1136947 non-null  object
 2   CODMUNRES  1136947 non-null  object
 3   IDADE      1136947 non-null  object
 4   SEXO       1136947 non-null  object
 5   RACACOR    1136947 non-null  object
dtypes: object(6)
memory usage: 52.0+ MB


In [7]:
# Arquivo para doenças evitáveis - excluir maiores de 74 anos
dobr_10_temp03 = dobr_10_temp02.copy()

# Substituir valores '     ' e '-' por '0' na coluna IDADE
dobr_10_temp03['IDADE'] = dobr_10_temp03['IDADE'].replace(['     '], '0')

# transformar IDADE em inteiro e excluir valores maiores que 474
dobr_10_temp03['IDADE'] = dobr_10_temp03['IDADE'].astype(int)

dobr_10_temp03.shape[0]


1136947

In [8]:
# Filtrar as idades menores de 75
dobr_10_temp04 = dobr_10_temp03[dobr_10_temp03['IDADE'] < 475].reset_index(drop=True)
dobr_10_temp04.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 722229 entries, 0 to 722228
Data columns (total 6 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   DTOBITO    722229 non-null  object
 1   CAUSABAS   722229 non-null  object
 2   CODMUNRES  722229 non-null  object
 3   IDADE      722229 non-null  int64 
 4   SEXO       722229 non-null  object
 5   RACACOR    722229 non-null  object
dtypes: int64(1), object(5)
memory usage: 33.1+ MB


In [9]:
# Carregar e tratar arquivos de DO de outros anos

# Read the parquet files
dobr2019 = pd.read_parquet('files___in_sim/DOBR2019.parquet')
dobr2020 = pd.read_parquet('files___in_sim/DOBR2020.parquet')
dobr2021 = pd.read_parquet('files___in_sim/DOBR2021.parquet')
dobr2022 = pd.read_parquet('files___in_sim/DOBR2022.parquet')

# Concatenate the dataframes
dobr_19a22_temp = pd.concat([dobr2019,dobr2020,dobr2021,dobr2022], ignore_index=True)

In [10]:
dobr_19a22_temp.shape[0]

6283540

In [11]:
# Filtrar campos
dobr_19a22_temp01 = dobr_19a22_temp[['DTOBITO','CAUSABAS', 'CODMUNRES','IDADE','SEXO','RACACOR']]
dobr_19a22_temp01.shape[0]

6283540

In [12]:
# transformar IDADE em inteiro 
dobr_19a22_temp02 = dobr_19a22_temp01.copy()
dobr_19a22_temp02['IDADE'] = dobr_19a22_temp02['IDADE'].astype(int)


In [13]:
# Excluir valores maiores que 474
dobr_19a22_temp03 = dobr_19a22_temp02[dobr_19a22_temp02['IDADE'] < 475]

# Display the combined dataframe
dobr_19a22_temp03.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3724693 entries, 1 to 6283539
Data columns (total 6 columns):
 #   Column     Dtype 
---  ------     ----- 
 0   DTOBITO    object
 1   CAUSABAS   object
 2   CODMUNRES  object
 3   IDADE      int64 
 4   SEXO       object
 5   RACACOR    object
dtypes: int64(1), object(5)
memory usage: 198.9+ MB


In [14]:
# Concatenate the dataframes
dobr_10_19a22_temp = pd.concat([dobr_19a22_temp03,dobr_10_temp04], ignore_index=True)
dobr_10_19a22_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4446922 entries, 0 to 4446921
Data columns (total 6 columns):
 #   Column     Dtype 
---  ------     ----- 
 0   DTOBITO    object
 1   CAUSABAS   object
 2   CODMUNRES  object
 3   IDADE      int64 
 4   SEXO       object
 5   RACACOR    object
dtypes: int64(1), object(5)
memory usage: 203.6+ MB


In [15]:
# Resultado

shape1 = dobr_10_19a22_temp.CAUSABAS.count()

print_y(f" O arquivo de declarações de óbito dos anos de 2010,2019,2020,2021 e 2022 tem o total de {shape1} registros ")


[33m ==>  O arquivo de declarações de óbito dos anos de 2010,2019,2020,2021 e 2022 tem o total de 4446922 registros [0m


In [16]:
# Ajustar os campos
dobr_10_19a22_temp01 = dobr_10_19a22_temp.copy()

# assegurar CODMUNRES como string
dobr_10_19a22_temp01['CODMUNRES'] = '_' + dobr_10_19a22_temp01['CODMUNRES'].astype(str).str[:6]

# campo ano_obito formado pelos 4 últimos caracteres de DTOBITO, como número
dobr_10_19a22_temp01['ANO_OBITO'] = '_' + dobr_10_19a22_temp01['DTOBITO'].str[-4:]

# excluir colunas DTOBITO e IDADE
dobr_10_19a22_temp02 = dobr_10_19a22_temp01.drop(['DTOBITO','IDADE'], axis=1)

# mostrar dados gerais da tabela após transformações
tab = dobr_10_19a22_temp02
print(f'Registro da tabela : {tab.shape[0]}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql'))

Registro da tabela : 4446922
+----+------------+-------------+--------+-----------+-------------+
|    | CAUSABAS   | CODMUNRES   |   SEXO |   RACACOR | ANO_OBITO   |
|----+------------+-------------+--------+-----------+-------------|
|  0 | I219       | _292740     |      1 |         2 | _2019       |
|  1 | I10        | _355100     |      2 |         1 | _2019       |
|  2 | X700       | _500630     |      1 |         1 | _2019       |
|  3 | C539       | _500500     |      2 |         4 | _2019       |
|  4 | V220       | _500627     |      1 |         1 | _2019       |
+----+------------+-------------+--------+-----------+-------------+


#### Resultados e geração de arquivo DOBR

##########       Etapa diferenciada da versão      ##########

Atenção na hora de salvar arquivo temporário com as variáveis de versão, formato e local.

In [17]:
# Salvar arquivo em parquet
dobr_10_19a22_temp02.to_parquet('files__temp/AvoidMort_v5_dobr_10_19a22.parquet')

In [18]:
# Contador

# apresentar valor da diferença entre os números de registros de dobr e dobr_filtered

shape_2010 = dobr_10_temp.shape[0]
shape_2019 = dobr2019.shape[0]
shape_2020 = dobr2020.shape[0]
shape_2021 = dobr2021.shape[0]
shape_2022 = dobr2022.shape[0]
shape_all = shape_2010 + shape_2019 + shape_2020 + shape_2021 + shape_2022

print_y(f"""O número de registros de óbitos originais por ano:
        * 2010: {shape_2010}
        * 2019: {shape_2019}
        * 2020: {shape_2020}
        * 2021: {shape_2021}
        * 2022: {shape_2022}
        """)


dif = shape_all - dobr_10_19a22_temp02.shape[0]
print(f"\033[33m ==> O número de registros excluídos por apresentar idade maior de 74 anos foi de {dif} registros\033[0m")
print(f"\033[33m ==> O número de registros de óbitos resultantes é de {dobr_10_19a22_temp02.shape[0]} registros\033[0m")

[33m ==> O número de registros de óbitos originais por ano:
        * 2010: 1136947
        * 2019: 1349801
        * 2020: 1556824
        * 2021: 1832649
        * 2022: 1544266
        [0m
[33m ==> O número de registros excluídos por apresentar idade maior de 74 anos foi de 2973565 registros[0m
[33m ==> O número de registros de óbitos resultantes é de 4446922 registros[0m


## Carga SIM auxiliar

O SIM traz algumas tabelas auxiliares de CID10 e municípios. 

Não iremos trazemos estas informações, no entanto, porque iremos utilizar dados de municípios concomitante à população do Censo do IBGE e sobre os CIDs iremos consultar a informações já da lista de doenças evitáveis, conforme OCDE.

In [None]:
# # Download de tabela auxiliar de CID10
# cid10 = get_CID10_table()
# cid10.head()

In [None]:
# # Download de tabela auxiliar de CID10
# munic = get_municipios()
# print(munic.head())

## Carga externa ao SIM

Iremos carregar informações de fontes externas sobre população e CIDs de doenças evitáveis.

##### Carga de CIDs doenças evitáveis - SVS

O arquivos de doenças evitáveis foi tratado a partir de documento da OCDE e da SVS e será dada carga neles pelo google drive.

In [19]:
# # Download de tabela tratada de CIDs evitáveis de acordo com documentos da SVS

# url = 'https://docs.google.com/spreadsheets/d/1YWurDqnBDMz4ACOEctY9uuQkEm7uSRAogzZETQrLCXk/edit?usp=drive_link'
# # Convert the Google Sheets URL to a CSV export URL
# csv_url = url.replace('/edit?usp=drive_link', '/export?format=csv')

# # Read the CSV data into a pandas DataFrame
# df = pd.read_csv(csv_url)

# # Now you can work with the DataFrame 'df'
# df.head()


In [20]:
# # Salvar arquivo csv
# df.to_csv('downloads_outros/cid10_evit_svs.csv', index=False)

##### Carga de CIDs doenças evitáveis - OCDE

In [None]:
# # Download de tabela tratada de CIDs evitáveis de acordo com documentos da OCDE
# url = 'https://docs.google.com/spreadsheets/d/1X8AH0zs4PNc_bUpZ3tBvFw2HGpgb9CjShOkwXQ0so_I/edit?usp=sharing'
# # Convert the Google Sheets URL to a CSV export URL
# csv_url = url.replace('/edit?usp=sharing', '/export?format=csv')

# # Read the CSV data into a pandas DataFrame
# ocde_evit = pd.read_csv(csv_url)

# # Now you can work with the DataFrame 'df'
# ocde_evit.head()

Unnamed: 0,avoid_flag,prevent_flag,treat_flag,Group,Causes of deaths,Rationale for inclusion,Range,cid_pai
0,Avoidable mortality,Preventable mortality,,Infectious diseases,Intestinal diseases,Most of these infections can be prevented thro...,(A00-A09),A0
1,Avoidable mortality,Preventable mortality,,Infectious diseases,"Diphtheria, Tetanus, Poliomyelitis",Most of these infections can be prevented thro...,"(A35, A36, A80)",A35
2,Avoidable mortality,Preventable mortality,,Infectious diseases,"Diphtheria, Tetanus, Poliomyelitis",Most of these infections can be prevented thro...,"(A35, A36, A80)",A36
3,Avoidable mortality,Preventable mortality,,Infectious diseases,"Diphtheria, Tetanus, Poliomyelitis",Most of these infections can be prevented thro...,"(A35, A36, A80)",A80
4,Avoidable mortality,Preventable mortality,,Infectious diseases,Whooping cough,Most of these infections can be prevented thro...,(A37),A37


In [23]:
ocde_evit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 346 entries, 0 to 345
Data columns (total 8 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   avoid_flag               346 non-null    object
 1   prevent_flag             189 non-null    object
 2   treat_flag               184 non-null    object
 3   Group                    346 non-null    object
 4   Causes of deaths         346 non-null    object
 5   Rationale for inclusion  346 non-null    object
 6   Range                    346 non-null    object
 7   cid_pai                  346 non-null    object
dtypes: object(8)
memory usage: 21.8+ KB


## População Censo

### Carga de População Censo 


Os dados populacionais são os dos Censos de 2010 e 2022.

A fonte de dados para gerar os arquivos ou o endereço do caminho SIDRA, é https://sidra.ibge.gov.br/Tabela/9606.

##########       Etapa diferenciada da versão      ##########


Nesta v5, iremos tratar com variáveis de sexo, raça e faixa etária (para calcular menores de 75 anos).
Mas não iremos utilizar ao final dados agregados por município.

In [None]:
# Definir a URL
# url = 'https://sidra.ibge.gov.br/geratabela?format=us.csv&name=tabela9606.csv&terr=NCS&rank=-&query=t/9606/n3/all/n6/all/v/allxp/p/all/c86/95251/c2/6794/c287/6653,49108,49109,60040,60041,93098,100362/l/,v%2Bc287,p%2Bt%2Bc86%2Bc2&verComplementos2=false&verComplementos1=false&omitirIndentacao=false&abreviarRotulos=false&exibirNotas=false&agruparNoCabecalho=false'
url = 'https://sidra.ibge.gov.br/geratabela?format=us.csv&name=tabela9606.csv&terr=NCS&rank=-&query=t/9606/n3/all/v/allxp/p/all/c86/allxt/c2/allxt/c287/6653,49108,49109,60040,60041,93098,100362/l/,v%2Bc287,p%2Bt%2Bc2%2Bc86'


# Ler os dados da URL em um DataFrame
# censo_pop = pd.read_json(url)
censo_temp = pd.read_csv(url, skiprows=3, dtype=str)

In [21]:
# mostrar dados gerais da tabela após transformações
tab = censo_temp
print(f'Registros da tabela : {tab.shape[0]}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql'))

Registros da tabela : 560
+----+-------+---------+--------+------------------------+--------+---------------+---------+----------------+----------------+----------------+----------------+----------------+--------------------+
|    |   Ano | Nível   |   Cód. | Unidade da Federação   | Sexo   | Cor ou raça   |   Total |   75 a 79 anos |   80 a 84 anos |   85 a 89 anos |   90 a 94 anos |   95 a 99 anos | 100 anos ou mais   |
|----+-------+---------+--------+------------------------+--------+---------------+---------+----------------+----------------+----------------+----------------+----------------+--------------------|
|  0 |  2010 | UF      |     11 | Rondônia               | Homens | Branca        |  274670 |           2808 |           1621 |            641 |            224 |             54 | 8                  |
|  1 |  2010 | UF      |     11 | Rondônia               | Homens | Preta         |   60563 |            672 |            365 |            181 |             68 |             

In [20]:
# Primeira linha de tratamento para salvar arquivo

# Excluir notas e comentários do arquivo
censo_temp01 = censo_temp.dropna(subset=['Total']).reset_index(drop=True)

# Renomear colunas
censo_temp01.rename(columns={'Unidade da Federação': 'unidade_no'}, inplace=True)

# Exibir as primeiras linhas do DataFrame
# censo_temp01.info()

# mostrar dados gerais da tabela após transformações
tab = censo_temp01
print(f'Registros da tabela : {tab.shape[0]}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql'))

Registros da tabela : 540
+----+-------+---------+--------+--------------+--------+---------------+---------+----------------+----------------+----------------+----------------+----------------+--------------------+
|    |   Ano | Nível   |   Cód. | unidade_no   | Sexo   | Cor ou raça   |   Total |   75 a 79 anos |   80 a 84 anos |   85 a 89 anos |   90 a 94 anos |   95 a 99 anos | 100 anos ou mais   |
|----+-------+---------+--------+--------------+--------+---------------+---------+----------------+----------------+----------------+----------------+----------------+--------------------|
|  0 |  2010 | UF      |     11 | Rondônia     | Homens | Branca        |  274670 |           2808 |           1621 |            641 |            224 |             54 | 8                  |
|  1 |  2010 | UF      |     11 | Rondônia     | Homens | Preta         |   60563 |            672 |            365 |            181 |             68 |             19 | 6                  |
|  2 |  2010 | UF      |

In [18]:
# Salvar arquivo de população do Censo
censo_temp01.to_parquet('files__in/censo_pop_raw.parquet')

### Tratamento de População Censo Municípios

In [19]:
# Carga de arquivo de População do Censo
censo_temp01 = pd.read_parquet('files__in/censo_pop_raw.parquet')

In [22]:
# mostrar dados gerais da tabela após transformações
tab = censo_temp01
print(f'Registros da tabela : {tab.shape[0]}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql'))

Registros da tabela : 540
+----+-------+---------+--------+--------------+--------+---------------+---------+----------------+----------------+----------------+----------------+----------------+--------------------+
|    |   Ano | Nível   |   Cód. | unidade_no   | Sexo   | Cor ou raça   |   Total |   75 a 79 anos |   80 a 84 anos |   85 a 89 anos |   90 a 94 anos |   95 a 99 anos | 100 anos ou mais   |
|----+-------+---------+--------+--------------+--------+---------------+---------+----------------+----------------+----------------+----------------+----------------+--------------------|
|  0 |  2010 | UF      |     11 | Rondônia     | Homens | Branca        |  274670 |           2808 |           1621 |            641 |            224 |             54 | 8                  |
|  1 |  2010 | UF      |     11 | Rondônia     | Homens | Preta         |   60563 |            672 |            365 |            181 |             68 |             19 | 6                  |
|  2 |  2010 | UF      |

In [24]:
# Identificar a classificação de unidades federativas
print(f'Unidades federativas do arquivo Censo_pop: {censo_temp01.Nível.unique()}')

# Apresentar os anos do Censo
print(f'Anos do arquivo Censo_pop: {censo_temp01.Ano.unique()}')

Unidades federativas do arquivo Censo_pop: ['UF']
Anos do arquivo Censo_pop: ['2010' '2022']


In [25]:
# Preparar colunas para conseguir valores da população até 74 anos

# Colunas para transformar em inteiro
cols_age = ['Total','75 a 79 anos', '80 a 84 anos', '85 a 89 anos','90 a 94 anos', '95 a 99 anos', '100 anos ou mais']

# para todas as colunas identificar substituir '-' por 0
censo_temp02 = censo_temp01.copy()
censo_temp02[cols_age] = censo_temp02[cols_age].replace('-',0)

# transformar todas as colunas definidas para formato integer
censo_temp02[cols_age] = censo_temp02[cols_age].apply(pd.to_numeric, errors='coerce').fillna(0).astype(int)

# mostrar dados gerais da tabela após transformações
tab = censo_temp02
print(f'Registros da tabela : {tab.shape[0]}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql'))

Registros da tabela : 540
+----+-------+---------+--------+--------------+--------+---------------+---------+----------------+----------------+----------------+----------------+----------------+--------------------+
|    |   Ano | Nível   |   Cód. | unidade_no   | Sexo   | Cor ou raça   |   Total |   75 a 79 anos |   80 a 84 anos |   85 a 89 anos |   90 a 94 anos |   95 a 99 anos |   100 anos ou mais |
|----+-------+---------+--------+--------------+--------+---------------+---------+----------------+----------------+----------------+----------------+----------------+--------------------|
|  0 |  2010 | UF      |     11 | Rondônia     | Homens | Branca        |  274670 |           2808 |           1621 |            641 |            224 |             54 |                  8 |
|  1 |  2010 | UF      |     11 | Rondônia     | Homens | Preta         |   60563 |            672 |            365 |            181 |             68 |             19 |                  6 |
|  2 |  2010 | UF      |

In [26]:
# Gerar coluna de população total até 74 anos
cols_age_over75 = ['75 a 79 anos', '80 a 84 anos', '85 a 89 anos','90 a 94 anos', '95 a 99 anos', '100 anos ou mais']

censo_temp03 = censo_temp02.copy()

# Subtrair a população de 75 anos ou mais da população total
censo_temp03['pop_under74'] = censo_temp03['Total'] - censo_temp03[cols_age_over75].sum(axis=1)

# Excluir colunar cols_age_over75 e 0 a 4 anos
censo_temp03.drop(columns=cols_age_over75, inplace=True)

# Renomear coluna Total para pop_total
censo_temp03.rename(columns={'Total': 'pop_total'}, inplace=True)

# mostrar dados gerais da tabela após transformações
tab = censo_temp03
print(f'Registros da tabela : {tab.shape[0]}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql'))

Registros da tabela : 540
+----+-------+---------+--------+--------------+--------+---------------+-------------+---------------+
|    |   Ano | Nível   |   Cód. | unidade_no   | Sexo   | Cor ou raça   |   pop_total |   pop_under74 |
|----+-------+---------+--------+--------------+--------+---------------+-------------+---------------|
|  0 |  2010 | UF      |     11 | Rondônia     | Homens | Branca        |      274670 |        269314 |
|  1 |  2010 | UF      |     11 | Rondônia     | Homens | Preta         |       60563 |         59252 |
|  2 |  2010 | UF      |     11 | Rondônia     | Homens | Amarela       |       10126 |          9986 |
|  3 |  2010 | UF      |     11 | Rondônia     | Homens | Parda         |      443524 |        437401 |
|  4 |  2010 | UF      |     11 | Rondônia     | Homens | Indígena      |        6143 |          6037 |
+----+-------+---------+--------+--------------+--------+---------------+-------------+---------------+


In [30]:
# Gerar informação de UF a partir do split de 'Município', com o dividor '('
censo_temp04 = censo_temp03.copy()
# censo_temp04['UF'] = censo_temp04['unidade_no'].str.split('(', expand=True)[1].str.replace(')','')
censo_temp04['Cód.'] = '_' + censo_temp04['Cód.'].astype(str).str[:2]
# censo_pop_temp03['unidade_no'] = censo_pop_temp03['unidade_no'].str.split('(', expand=True)[0] # Permancer o código de UF depois do nome do município

# excluir coluna Nível
censo_temp04.drop(columns='Nível', inplace=True)

# renomear coluna unidade_no para uf
censo_temp04.rename(columns={'unidade_no':'uf','Cód.':'uf_co'}, inplace=True)

# mostrar dados gerais da tabela após transformações
tab = censo_temp04
print(f'Registros da tabela : {tab.shape[0]}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql'))


Registros da tabela : 540
+----+-------+---------+----------+--------+---------------+-------------+---------------+
|    |   Ano | uf_co   | uf       | Sexo   | Cor ou raça   |   pop_total |   pop_under74 |
|----+-------+---------+----------+--------+---------------+-------------+---------------|
|  0 |  2010 | _11     | Rondônia | Homens | Branca        |      274670 |        269314 |
|  1 |  2010 | _11     | Rondônia | Homens | Preta         |       60563 |         59252 |
|  2 |  2010 | _11     | Rondônia | Homens | Amarela       |       10126 |          9986 |
|  3 |  2010 | _11     | Rondônia | Homens | Parda         |      443524 |        437401 |
|  4 |  2010 | _11     | Rondônia | Homens | Indígena      |        6143 |          6037 |
+----+-------+---------+----------+--------+---------------+-------------+---------------+


In [None]:
# # Dividir arquivos em UF e Municípios

# # Criar arquivo de UF
# censo_pop_uf_temp = censo_pop_temp03[censo_pop_temp03['Nível'] == 'UF'].reset_index(drop=True)

# # Criar arquivo de Municípios
# censo_pop_mun_temp = censo_pop_temp03[censo_pop_temp03['Nível'] == 'MU'].reset_index(drop=True)

# # mostrar dados gerais da tabela após transformações
# print(f'Registro da tabela censo_pop_uf_temp: {censo_pop_uf_temp.shape[0]}')
# print(tabulate(censo_pop_uf_temp.head(), headers='keys', tablefmt='psql'))

In [None]:
# # Preparar para salvar arquivo de UF
# censo_temp05 = censo_temp04.copy()

# # Excluir colunas desnecessárias
# censo_pop_uf_temp01.drop(columns=['Cód.','Nível','UF'], inplace=True)

# # Renomear coluna unidade_no para uf_no
# censo_pop_uf_temp01.rename(columns={'unidade_no': 'uf_no'}, inplace=True)

# # mostrar dados gerais da tabela após transformações
# print(f'Registro da tabela : {censo_pop_uf_temp01.shape[0]}')
# print(tabulate(censo_pop_uf_temp01.head(), headers='keys', tablefmt='psql'))

In [None]:
# # Preparar para salvar arquivo de Municipios
# censo_pop_mun_temp01 = censo_pop_mun_temp.copy()

# # Mudar o formato de mun_cod para string e extrair os primeiros 7 dígitos
# censo_pop_mun_temp01['mun_cod_sim'] = censo_pop_mun_temp01['Cód.'].astype(str).str[:6]

# # Acrescentar um '_' no início do valor da coluna mun_cod
# censo_pop_mun_temp01['mun_cod_sim'] = '_' + censo_pop_mun_temp01['mun_cod_sim'].astype(str)

# # Renomear coluna unidade_no para uf_no
# censo_pop_mun_temp01.rename(columns={'unidade_no': 'mun_no'}, inplace=True)

# # Excluir colunas desnecessárias
# censo_pop_mun_temp01.drop(columns=['Cód.','Nível'], inplace=True)

# # Ordenar as colunas
# censo_pop_mun_temp02 = censo_pop_mun_temp01[['Ano','uf_co','UF','mun_cod_sim','mun_no','pop_total','pop_under74']]

# # mostrar dados gerais da tabela após transformações
# print(f'Registro da tabela : {censo_pop_mun_temp02.shape[0]}')
# print(tabulate(censo_pop_mun_temp02.head(), headers='keys', tablefmt='psql'))

#### Arquivo pronto - censo por municípios e por UF

In [51]:
# # Arquivo de População Censo Tratado (pronto para merge)
# censo_pop_mun_temp02.to_parquet('files_clean/censo_pop_mun.parquet')

##########       Etapa diferenciada da versão      ##########

Atenção ao salvar arquivos com as variáveis de versão, formato e local

In [31]:
# Salvar arquivo de População do Censo uf
censo_temp04.to_parquet('files__temp/AvoidMort_v5_censo_uf.parquet')

## Merge de dados de CID e População no arquivo principal

### Merge de dados de CID

In [None]:
# # Download de tabela tratada de CIDs evitáveis de acordo com documentos da OCDE
# url = 'https://docs.google.com/spreadsheets/d/1X8AH0zs4PNc_bUpZ3tBvFw2HGpgb9CjShOkwXQ0so_I/edit?usp=sharing'
# # Convert the Google Sheets URL to a CSV export URL
# csv_url = url.replace('/edit?usp=sharing', '/export?format=csv')

# # Read the CSV data into a pandas DataFrame
# ocde_evit = pd.read_csv(csv_url)

# # Now you can work with the DataFrame 'df'
# ocde_evit.head()

In [8]:
ocde_evit_temp = pd.read_csv('files__in/cid10_evit_ocde.csv')

# mostrar dados gerais da tabela após transformações
tab = ocde_evit_temp
print(f'Registro da tabela : {tab.shape[0]}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql', maxcolwidths=50))

Registro da tabela : 346
+----+---------------------+-----------------------+--------------+---------------------+------------------------------------+---------------------------------------------------+-----------------+-----------+
|    | avoid_flag          | prevent_flag          |   treat_flag | Group               | Causes of deaths                   | Rationale for inclusion                           | Range           | cid_pai   |
|----+---------------------+-----------------------+--------------+---------------------+------------------------------------+---------------------------------------------------+-----------------+-----------|
|  0 | Avoidable mortality | Preventable mortality |          nan | Infectious diseases | Intestinal diseases                | Most of these infections can be prevented through | (A00-A09)       | A0        |
|    |                     |                       |              |                     |                                    | prevention m

In [9]:
# Gerar nova tabela com valores únicos de CAUSABAS
dobr_evit_merged_temp = pd.read_parquet('files__temp/AvoidMort_v5_dobr_10_19a22.parquet')
causas_unicas = dobr_evit_merged_temp['CAUSABAS'].unique()

# Converter para DataFrame
df_causas_unicas = pd.DataFrame(causas_unicas, columns=['CAUSABAS'])

# Exibir as primeiras linhas do DataFrame
df_causas_unicas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11895 entries, 0 to 11894
Data columns (total 1 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   CAUSABAS  11895 non-null  object
dtypes: object(1)
memory usage: 93.1+ KB


##########         Etapa diferenciada da versão          ##########

Utilizar 'Causes of deaths' de CID evitáveis e as demais como "Causa não evitável"

In [10]:
# Fazer merge da lista de causas_unicas com a lista de causas evitáveis

df_a = df_causas_unicas
column_a = 'CAUSABAS'
df_b = ocde_evit_temp
column_b = 'cid_pai'
column_return = 'Causes of deaths'



# Função para verificar a correspondência e retornar a classificação
def verificar_correspondencia(row):
    for index, row_b in df_b.iterrows():
        if row[column_a].startswith(row_b[column_b]):
            return row_b[column_return]
    return 'causa não evitável'

# Aplicando a função a cada linha do DataFrame A
df_a['causes_deaths'] = df_a.apply(verificar_correspondencia, axis=1)

print(tabulate(df_a.head()))

-  ----  ------------------------
0  I219  Ischaemic heart diseases
1  I10   Hypertensive diseases
2  X700  Intentional self-harm
3  C539  causa não evitável
4  V220  Transport Accidents
-  ----  ------------------------


In [11]:
# Merge dobr_merged_pop_clean and df_a by CAUSABAS
dobr_evit_merged_temp01 = pd.merge(dobr_evit_merged_temp, df_a, on='CAUSABAS', how='left')

# mostrar dados gerais da tabela após transformações
tab = dobr_evit_merged_temp01
print(f'Registro da tabela : {tab.shape[0]}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql'))

Registro da tabela : 4446922
+----+------------+-------------+--------+-----------+-------------+--------------------------+
|    | CAUSABAS   | CODMUNRES   |   SEXO |   RACACOR | ANO_OBITO   | causes_deaths            |
|----+------------+-------------+--------+-----------+-------------+--------------------------|
|  0 | I219       | _292740     |      1 |         2 | _2019       | Ischaemic heart diseases |
|  1 | I10        | _355100     |      2 |         1 | _2019       | Hypertensive diseases    |
|  2 | X700       | _500630     |      1 |         1 | _2019       | Intentional self-harm    |
|  3 | C539       | _500500     |      2 |         4 | _2019       | causa não evitável       |
|  4 | V220       | _500627     |      1 |         1 | _2019       | Transport Accidents      |
+----+------------+-------------+--------+-----------+-------------+--------------------------+


In [12]:
# Mostrar resultados de classificacao
dobr_evit_merged_temp01.groupby('causes_deaths').count()

Unnamed: 0_level_0,CAUSABAS,CODMUNRES,SEXO,RACACOR,ANO_OBITO
causes_deaths,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Abdominal hernia,5886,5886,5886,5886,5886
Abscess of lung and mediastinum pyothorax,2512,2512,2512,2512,2512
Accidental Injuries,101139,101139,101139,101139,101139
Acute lower respiratory infections,3261,3261,3261,3261,3261
Acute pancreatitis,11838,11838,11838,11838,11838
...,...,...,...,...,...
Varicella,270,270,270,270,270
Venous thromboembolism,24558,24558,24558,24558,24558
Viral Hepatitis,8692,8692,8692,8692,8692
Whooping cough,29,29,29,29,29


########## Etapa diferenciada da versão ##########

Não serão excluídos os registros com CID de doenças não evitáveis

In [None]:
# # Manter na base só dados de CID evitáveis
# dobr_evit_merged_temp02 = dobr_evit_merged_temp01[dobr_evit_merged_temp01['classificacao']=='Avoidable mortality']

# # mostrar dados gerais da tabela após transformações
# tab = dobr_evit_merged_temp02
# print(f'Registro da tabela : {tab.shape[0]}')
# print(tabulate(tab.head(), headers='keys', tablefmt='psql'))

#### Resultados do merge de cid_avoid e dobr

##########       Etapa diferenciada da versão      ##########

Atenção para etapa de salvar arquivo, para não sobrescrever outra versão

In [13]:
# Salvar arquivo final de DOBR

dobr_evit_merged_temp01.to_parquet('files__temp/AvoidMort_v5_dobr_evit_merged.parquet')

In [14]:
# Contador

shape_origin = dobr_evit_merged_temp.CAUSABAS.count()
shape_filt = dobr_evit_merged_temp01.CAUSABAS.count()
dif = shape_origin - shape_filt


print_y(f" O número de óbitos após a limpeza e que constituía a base de dados de DO era de {shape_origin} óbitos ")
print_y(f" O número de registros excluídos por apresentar CIDs NÃO EVITÁVEIS foi de {dif} óbitos ")
print_y(f" O número de óbitos por CID EVITÁVEIS é de {shape_filt} óbitos ")

[33m ==>  O número de óbitos após a limpeza e que constituía a base de dados de DO era de 4446922 óbitos [0m
[33m ==>  O número de registros excluídos por apresentar CIDs NÃO EVITÁVEIS foi de 0 óbitos [0m
[33m ==>  O número de óbitos por CID EVITÁVEIS é de 4446922 óbitos [0m


### Merge de dados de Municípios ao arquivo principal do SIM

Serão utilizados os arquivos:

* população: 'files_clean/censo_pop_clean.csv'

* sim: 'files_clean/dobr_clean.csv'

Como a população está clivada em Município, Idade (previamente, todos abaixo de 75 anos), Sexo e Raça, estes campos serão utilizados de maneira conjunta para realizar o merge.

In [15]:
# Verificar colunas de população no arquivo censo_pop_clean
censo_pop_mun_4merge_temp = pd.read_parquet('files__temp/AvoidMort_v5_censo_uf.parquet')

# mostrar dados gerais da tabela após transformações
tab = censo_pop_mun_4merge_temp
print(f'Registro da tabela : {tab.shape[0]}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql'))

Registro da tabela : 540
+----+-------+---------+----------+--------+---------------+-------------+---------------+
|    |   Ano | uf_co   | uf       | Sexo   | Cor ou raça   |   pop_total |   pop_under74 |
|----+-------+---------+----------+--------+---------------+-------------+---------------|
|  0 |  2010 | _11     | Rondônia | Homens | Branca        |      274670 |        269314 |
|  1 |  2010 | _11     | Rondônia | Homens | Preta         |       60563 |         59252 |
|  2 |  2010 | _11     | Rondônia | Homens | Amarela       |       10126 |          9986 |
|  3 |  2010 | _11     | Rondônia | Homens | Parda         |      443524 |        437401 |
|  4 |  2010 | _11     | Rondônia | Homens | Indígena      |        6143 |          6037 |
+----+-------+---------+----------+--------+---------------+-------------+---------------+


In [23]:
# Transformar campos de cor e sexo em código
censo_pop_mun_4merge_temp01 = censo_pop_mun_4merge_temp.copy()

# Transformar valores de sexo em código (utilizado pelo SIM)
censo_pop_mun_4merge_temp01['sexo_cod'] = censo_pop_mun_4merge_temp01['Sexo'].map({'Homens':'_1',
                                                                               'Mulheres':'_2'})
# Transformar valores nan em 0
censo_pop_mun_4merge_temp01['racacor_cod'] = censo_pop_mun_4merge_temp01['Cor ou raça'].fillna('_0')

# Transformar valores de racacor em código (utilizado pelo SIM)
censo_pop_mun_4merge_temp01['racacor_cod'] = censo_pop_mun_4merge_temp01['racacor_cod'].map({'Branca':'_1',
                                                                                      'Preta':'_2',
                                                                                      'Amarela':'_3',
                                                                                      'Parda':'_4',
                                                                                      'Indígena':'_5',
                                                                                      'Sem declaração':'_9'})


# Exibir resultados
print(f'Código de sexo: {censo_pop_mun_4merge_temp01['sexo_cod'].unique()}')
print(f'Código de racacor: {censo_pop_mun_4merge_temp01['racacor_cod'].unique()}')

Código de sexo: ['_1' '_2']
Código de racacor: ['_1' '_2' '_3' '_4' '_5']


In [24]:
# acrescentar campo de ano como string
censo_pop_mun_4merge_temp01['ano_cod'] = '_' + censo_pop_mun_4merge_temp02['Ano'].astype(str)

# mostrar dados gerais da tabela após transformações
tab = censo_pop_mun_4merge_temp01
print(f'Registro da tabela : {tab.shape[0]}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql'))

Registro da tabela : 540
+----+-------+---------+----------+--------+---------------+-------------+---------------+------------+---------------+-----------+
|    |   Ano | uf_co   | uf       | Sexo   | Cor ou raça   |   pop_total |   pop_under74 | sexo_cod   | racacor_cod   | ano_cod   |
|----+-------+---------+----------+--------+---------------+-------------+---------------+------------+---------------+-----------|
|  0 |  2010 | _11     | Rondônia | Homens | Branca        |      274670 |        269314 | _1         | _1            | _2010     |
|  1 |  2010 | _11     | Rondônia | Homens | Preta         |       60563 |         59252 | _1         | _2            | _2010     |
|  2 |  2010 | _11     | Rondônia | Homens | Amarela       |       10126 |          9986 | _1         | _3            | _2010     |
|  3 |  2010 | _11     | Rondônia | Homens | Parda         |      443524 |        437401 | _1         | _4            | _2010     |
|  4 |  2010 | _11     | Rondônia | Homens | Indíge

In [None]:
# # Criar um campo string que concatene ANO, CODMUN_SIM, Sexo e cor
# censo_pop_mun_4merge_temp02 = censo_pop_mun_4merge_temp01.copy()

# censo_pop_mun_4merge_temp02['POP_MERGE'] = '_' + censo_pop_mun_4merge_temp02['Ano'].astype(str) + censo_pop_mun_4merge_temp02['uf_co'] + censo_pop_mun_4merge_temp02['sexo'] + censo_pop_mun_4merge_temp02['racacor']


# # mostrar dados gerais da tabela após transformações
# tab = censo_pop_mun_4merge_temp02
# print(f'Registro da tabela : {tab.shape[0]}')
# print(tabulate(tab.head(), headers='keys', tablefmt='psql'))

In [None]:
# # Contar quantos valores são repetidos na coluna 'POP_MERGE'
# repeated_values = censo_pop_mun_4merge_temp01['POP_MERGE'].value_counts()

# # Filtrar os valores que aparecem mais de uma vez
# repeated_more_than_once = repeated_values[repeated_values > 1]

# # Exibir os valores repetidos
# print(repeated_more_than_once)

In [26]:
# Exibir arquivo dobr_clean
dobr_merged_temp = pd.read_parquet('files__temp/AvoidMort_v5_dobr_evit_merged.parquet')

# mostrar dados gerais da tabela após transformações
tab = dobr_merged_temp
print(f'Registro da tabela : {tab.shape[0]}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql'))

Registro da tabela : 4446922
+----+------------+-------------+--------+-----------+-------------+--------------------------+
|    | CAUSABAS   | CODMUNRES   |   SEXO |   RACACOR | ANO_OBITO   | causes_deaths            |
|----+------------+-------------+--------+-----------+-------------+--------------------------|
|  0 | I219       | _292740     |      1 |         2 | _2019       | Ischaemic heart diseases |
|  1 | I10        | _355100     |      2 |         1 | _2019       | Hypertensive diseases    |
|  2 | X700       | _500630     |      1 |         1 | _2019       | Intentional self-harm    |
|  3 | C539       | _500500     |      2 |         4 | _2019       | causa não evitável       |
|  4 | V220       | _500627     |      1 |         1 | _2019       | Transport Accidents      |
+----+------------+-------------+--------+-----------+-------------+--------------------------+


##########       Etapa diferenciada da versão      ##########

Como só temos dados de população de Censo de 2010 e 2022, esta etapa do código aplicamos a todos os anos que não são de 2010 um ano proxy de 2023 (serão carregados dados populacionais do Censo de 2010 para o ano de 2010 e para os demais anos, Censo de 2022).

In [29]:
# # Gerar um campo de ano para proxy de 2022 (para ser aplicados aos anos de 19 a 22)
dobr_merged_temp01 = dobr_merged_temp.copy()

dobr_merged_temp01['ANO_PROXY'] = dobr_merged_temp01['ANO_OBITO'].apply(lambda x: '_2010' if x == '_2010' else '_2022')

# # # Criar um campo string que concatene ANO, CODMUNRES
# dobr_merged_temp01['POP_MERGE'] = dobr_merged_temp01['ANO_PROXY'].astype(str) + dobr_merged_temp['CODMUNRES']

# # mostrar dados gerais da tabela após transformações
tab = dobr_merged_temp01
print(f'Registro da tabela : {tab.shape[0]}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql'))

Registro da tabela : 4446922
+----+------------+-------------+--------+-----------+-------------+--------------------------+-------------+
|    | CAUSABAS   | CODMUNRES   |   SEXO |   RACACOR | ANO_OBITO   | causes_deaths            | ANO_PROXY   |
|----+------------+-------------+--------+-----------+-------------+--------------------------+-------------|
|  0 | I219       | _292740     |      1 |         2 | _2019       | Ischaemic heart diseases | _2022       |
|  1 | I10        | _355100     |      2 |         1 | _2019       | Hypertensive diseases    | _2022       |
|  2 | X700       | _500630     |      1 |         1 | _2019       | Intentional self-harm    | _2022       |
|  3 | C539       | _500500     |      2 |         4 | _2019       | causa não evitável       | _2022       |
|  4 | V220       | _500627     |      1 |         1 | _2019       | Transport Accidents      | _2022       |
+----+------------+-------------+--------+-----------+-------------+-----------------------

In [30]:
# # Verificar operação acima
print(f'Anos de ANO_OBITO {dobr_merged_temp01['ANO_OBITO'].unique()}')
print(f'Anos de ANO_PROXY {dobr_merged_temp01['ANO_PROXY'].unique()}')
print(f'Anos de Censo {censo_pop_mun_4merge_temp01['Ano'].unique()}')

Anos de ANO_OBITO ['_2019' '_2020' '_2021' '_2022' '_2010']
Anos de ANO_PROXY ['_2022' '_2010']
Anos de Censo ['2010' '2022']


In [43]:
# # Contar o número de caracteres de cada valor na coluna 'POP_MERGE'
# lengths = dobr_merged_temp01['POP_MERGE'].str.len()
# num_records = lengths[lengths > 12].count()
# print(f"Número de registros de dobr com 'POP_MERGE' maior que 12 caracteres: {num_records}")
# lengths2 = censo_pop_mun_4merge_temp01['POP_MERGE'].str.len()
# num_records2 = lengths2[lengths2 > 12].count()
# print(f"Número de registros de censo_pop_mun com 'POP_MERGE' maior que 12 caracteres: {num_records2}")

Número de registros de dobr com 'POP_MERGE' maior que 12 caracteres: 0
Número de registros de censo_pop_mun com 'POP_MERGE' maior que 12 caracteres: 0


##########       Etapa diferenciada da versão      ##########

Iremos excluir o CAUSABAS, mas agrupar por UF, ano e cause_deaths.
O contador de mortes portanto está atrelado ao cause_deaths.

Atenção também porque, como nesta versão não trabalhamos com município, iremos agregar os dados por UF

In [31]:
dobr_merged_temp01.columns

Index(['CAUSABAS', 'CODMUNRES', 'SEXO', 'RACACOR', 'ANO_OBITO',
       'causes_deaths', 'ANO_PROXY'],
      dtype='object')

In [78]:
dobr_merged_temp01['uf_co'] = dobr_merged_temp01['CODMUNRES'].str[:3]
# # mostrar dados gerais da tabela após transformações
tab = dobr_merged_temp01
print(f'Registro da tabela : {tab.shape[0]}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql'))


Registro da tabela : 4446922
+----+------------+-------------+--------+-----------+-------------+--------------------------+-------------+---------+
|    | CAUSABAS   | CODMUNRES   |   SEXO |   RACACOR | ANO_OBITO   | causes_deaths            | ANO_PROXY   | uf_co   |
|----+------------+-------------+--------+-----------+-------------+--------------------------+-------------+---------|
|  0 | I219       | _292740     |      1 |         2 | _2019       | Ischaemic heart diseases | _2022       | _29     |
|  1 | I10        | _355100     |      2 |         1 | _2019       | Hypertensive diseases    | _2022       | _35     |
|  2 | X700       | _500630     |      1 |         1 | _2019       | Intentional self-harm    | _2022       | _50     |
|  3 | C539       | _500500     |      2 |         4 | _2019       | causa não evitável       | _2022       | _50     |
|  4 | V220       | _500627     |      1 |         1 | _2019       | Transport Accidents      | _2022       | _50     |
+----+-----

In [79]:
# Agrupar por POP_MERGE e somar os registros, não contabilizando mais por CAUSABAS

col_group= ['uf_co', 'SEXO', 'RACACOR', 'ANO_OBITO', 'causes_deaths', 'ANO_PROXY']
dobr_merged_temp02 = dobr_merged_temp01.groupby(col_group)['CAUSABAS'].count().reset_index()

# Renomear o campo CAUSABAS para CONTADOR
dobr_merged_temp02.rename(columns={'CAUSABAS':'CONTADOR'}, inplace=True)


# mostrar dados gerais da tabela após transformações
tab = dobr_merged_temp02
print(f'Registros da tabela : {tab.shape[0]}')

print(f'Total de óbitos : {tab.CONTADOR.sum()}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql', maxcolwidths=30))

Registros da tabela : 56415
Total de óbitos : 4446922
+----+---------+--------+-----------+-------------+--------------------------------+-------------+------------+
|    | uf_co   |   SEXO | RACACOR   | ANO_OBITO   | causes_deaths                  | ANO_PROXY   |   CONTADOR |
|----+---------+--------+-----------+-------------+--------------------------------+-------------+------------|
|  0 | _11     |      0 |           | _2019       | causa não evitável             | _2022       |          1 |
|  1 | _11     |      0 |           | _2020       | Certain conditions originating | _2022       |          1 |
|    |         |        |           |             | in the perinatal period        |             |            |
|  2 | _11     |      0 |           | _2021       | causa não evitável             | _2022       |          1 |
|  3 | _11     |      0 | 1         | _2019       | Cerebrovascular diseases       | _2022       |          1 |
|  4 | _11     |      0 | 1         | _2019       

In [80]:
# Tratamento de códigos de dobr para merge
print(f'Código de sexo: {dobr_merged_temp02['SEXO'].unique()}')
print(f'Código de racacor: {dobr_merged_temp02['RACACOR'].unique()}')

Código de sexo: ['0' '1' '1   ' '2' '2   ' '9   ']
Código de racacor: [' ' '1' '2' '4' '3' '5' '       ' '1      ' '2      ' '3      ' '4      '
 '5      ']


In [81]:
# Transformar valores RACACOR e SEXO
dobr_merged_temp03 = dobr_merged_temp02.copy()

# Transformar valores RACACOR
# dobr_merged_temp03['RACACOR'] = dobr_merged_temp03['RACACOR'].replace([' ', ''], '0')
# dobr_merged_temp03['RACACOR'] = dobr_merged_temp03['RACACOR'].fillna('0')
dobr_merged_temp03['RACACOR'] = dobr_merged_temp03['RACACOR'].astype(str)
dobr_merged_temp03['RACACOR'] = dobr_merged_temp03['RACACOR'].str[:1]
dobr_merged_temp03['RACACOR'] = dobr_merged_temp03['RACACOR'].replace(' ','9')
dobr_merged_temp03['RACACOR'] = '_' + dobr_merged_temp03['RACACOR'].astype(str)

# Transformar valores SEXO
dobr_merged_temp03['SEXO'] = dobr_merged_temp03['SEXO'].astype(str)
dobr_merged_temp03['SEXO'] = dobr_merged_temp03['SEXO'].str[:1]
dobr_merged_temp03['SEXO'] = dobr_merged_temp03['SEXO'].replace('0','9')
dobr_merged_temp03['SEXO'] = '_' + dobr_merged_temp03['SEXO'].astype(str)



print(f'Código de RACACOR: {dobr_merged_temp03["RACACOR"].unique()}')
print(f'Código de SEXO: {dobr_merged_temp03["SEXO"].unique()}')
print(f'Total de óbitos : {tab.CONTADOR.sum()}')


Código de RACACOR: ['_9' '_1' '_2' '_4' '_3' '_5']
Código de SEXO: ['_9' '_1' '_2']
Total de óbitos : 4446922


In [83]:
# Apresentar total de registros de DOBR sem identificação de SEXO e RACACOR
dobr_merged_temp03_fault = dobr_merged_temp03.loc[(dobr_merged_temp03['SEXO'] == '_9') | (dobr_merged_temp03['RACACOR'] == '_9')]
sexo_fault = dobr_merged_temp03.loc[(dobr_merged_temp03['SEXO']== '_9')]
racacor_fault = dobr_merged_temp03.loc[(dobr_merged_temp03['RACACOR']== '_9')]

# mostrar dados gerais da tabela após transformações
tab = dobr_merged_temp03_fault
print(f'Registros de RACACOR sem qualidade : {racacor_fault.CONTADOR.sum()}')
print(f'Registros de SEXO sem qualidade : {sexo_fault.CONTADOR.sum()}')
print(f'Registros total sem qualidade : {tab.CONTADOR.sum()}')

faults_perc = (tab.CONTADOR.sum()/dobr_merged_temp03.CONTADOR.sum())*100

print_y(f'Total de óbitos sem dados de qualidade em SEXO e RACACOR: {tab.CONTADOR.sum()}')
print_y(f'Percentual de óbitos sem dados de qualidade em SEXO e RACACOR: {faults_perc}')
# print(tabulate(tab.head(), headers='keys', tablefmt='psql', maxcolwidths=30))

Registros de RACACOR sem qualidade : 133599
Registros de SEXO sem qualidade : 1278
Registros total sem qualidade : 134575
[33m ==> Total de óbitos sem dados de qualidade em SEXO e RACACOR: 134575[0m
[33m ==> Percentual de óbitos sem dados de qualidade em SEXO e RACACOR: 3.026250516649494[0m


In [84]:
# Excluir valores sem qualidade da tabela
dobr_merged_temp04 = dobr_merged_temp03[(dobr_merged_temp03['RACACOR'] != '_9') & (dobr_merged_temp03['SEXO'] != '_9')]

# mostrar dados gerais da tabela após transformações
tab = dobr_merged_temp04
print(f'Registros da tabela : {tab.shape[0]}')

print(f'Total de óbitos : {tab.CONTADOR.sum()}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql', maxcolwidths=30))

Registros da tabela : 47498
Total de óbitos : 4312347
+----+---------+--------+-----------+-------------+--------------------------------+-------------+------------+
|    | uf_co   | SEXO   | RACACOR   | ANO_OBITO   | causes_deaths                  | ANO_PROXY   |   CONTADOR |
|----+---------+--------+-----------+-------------+--------------------------------+-------------+------------|
| 88 | _11     | _1     | _1        | _2019       | Abscess of lung and            | _2022       |          1 |
|    |         |        |           |             | mediastinum pyothorax          |             |            |
| 89 | _11     | _1     | _1        | _2019       | Accidental Injuries            | _2022       |         47 |
| 90 | _11     | _1     | _1        | _2019       | Acute lower respiratory        | _2022       |          1 |
|    |         |        |           |             | infections                     |             |            |
| 91 | _11     | _1     | _1        | _2019       

In [76]:
# mostrar dados gerais da tabela após transformações
tab = censo_pop_mun_4merge_temp01
print(f'Registros da tabela : {tab.shape[0]}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql', maxcolwidths=30))

Registros da tabela : 540
+----+-------+---------+----------+--------+---------------+-------------+---------------+------------+---------------+-----------+
|    |   Ano | uf_co   | uf       | Sexo   | Cor ou raça   |   pop_total |   pop_under74 | sexo_cod   | racacor_cod   | ano_cod   |
|----+-------+---------+----------+--------+---------------+-------------+---------------+------------+---------------+-----------|
|  0 |  2010 | _11     | Rondônia | Homens | Branca        |      274670 |        269314 | _1         | _1            | _2010     |
|  1 |  2010 | _11     | Rondônia | Homens | Preta         |       60563 |         59252 | _1         | _2            | _2010     |
|  2 |  2010 | _11     | Rondônia | Homens | Amarela       |       10126 |          9986 | _1         | _3            | _2010     |
|  3 |  2010 | _11     | Rondônia | Homens | Parda         |      443524 |        437401 | _1         | _4            | _2010     |
|  4 |  2010 | _11     | Rondônia | Homens | Indíg

In [87]:
# Definir campos de censo_pop para merge
# censo_pop_mun_4merge_temp02 = censo_pop_mun_4merge_temp01[['ano_cod',
#                                                            'uf_co',
#                                                            'sexo_cod',
#                                                            'Sexo',
#                                                            'racacor_cod',
#                                                            'Cor ou Raça',
#                                                            'pop_under74','UF','mun_no']]

# Realizar o merge dos dataframes
dobr_merged_temp05 = pd.merge(dobr_merged_temp04, censo_pop_mun_4merge_temp01, 
                              left_on=['ANO_PROXY','uf_co','SEXO','RACACOR'],
                              right_on=['ano_cod','uf_co','sexo_cod','racacor_cod'],
                              how='left')

# mostrar dados gerais da tabela após transformações
tab = dobr_merged_temp05
print(f'Registros da tabela : {tab.shape[0]}')
print(f'Total de óbitos : {tab.CONTADOR.sum()}')
tab.head()

Registros da tabela : 47498
Total de óbitos : 4312347


Unnamed: 0,uf_co,SEXO,RACACOR,ANO_OBITO,causes_deaths,ANO_PROXY,CONTADOR,Ano,uf,Sexo,Cor ou raça,pop_total,pop_under74,sexo_cod,racacor_cod,ano_cod
0,_11,_1,_1,_2019,Abscess of lung and mediastinum pyothorax,_2022,1,2022,Rondônia,Homens,Branca,236680,228640,_1,_1,_2022
1,_11,_1,_1,_2019,Accidental Injuries,_2022,47,2022,Rondônia,Homens,Branca,236680,228640,_1,_1,_2022
2,_11,_1,_1,_2019,Acute lower respiratory infections,_2022,1,2022,Rondônia,Homens,Branca,236680,228640,_1,_1,_2022
3,_11,_1,_1,_2019,Acute pancreatitis,_2022,3,2022,Rondônia,Homens,Branca,236680,228640,_1,_1,_2022
4,_11,_1,_1,_2019,Alcohol-specific disorders and poisonings,_2022,12,2022,Rondônia,Homens,Branca,236680,228640,_1,_1,_2022


In [92]:
# Contar quantos erros do merge
merged_faults = dobr_merged_temp05['pop_under74'].isna().sum()
merged_faults

0

In [98]:
# Filtra colunas
column_order = [
                #  'uf_co',
                #  'SEXO',
                #  'RACACOR',
                #  'ANO_OBITO',
                #  'ANO_PROXY',
                'Ano',
                'uf',
                'causes_deaths',
                'Sexo',
                'Cor ou raça',
                #  'pop_total',
                'pop_under74',
                'CONTADOR',
                #  'sexo_cod',
                #  'racacor_cod',
                #  'ano_cod'
                ]

# Reorder the columns in the DataFrame
dobr_merged_temp06 = dobr_merged_temp05[column_order]

# mostrar dados gerais da tabela após transformações
tab = dobr_merged_temp06
print(f'Registros da tabela : {tab.shape[0]}')
print(f'Total de óbitos : {tab.CONTADOR.sum()}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql', maxcolwidths=50))


Registros da tabela : 47498
Total de óbitos : 4312347
+----+-------+----------+-------------------------------------------+--------+---------------+---------------+------------+
|    |   Ano | uf       | causes_deaths                             | Sexo   | Cor ou raça   |   pop_under74 |   CONTADOR |
|----+-------+----------+-------------------------------------------+--------+---------------+---------------+------------|
|  0 |  2022 | Rondônia | Abscess of lung and mediastinum pyothorax | Homens | Branca        |        228640 |          1 |
|  1 |  2022 | Rondônia | Accidental Injuries                       | Homens | Branca        |        228640 |         47 |
|  2 |  2022 | Rondônia | Acute lower respiratory infections        | Homens | Branca        |        228640 |          1 |
|  3 |  2022 | Rondônia | Acute pancreatitis                        | Homens | Branca        |        228640 |          3 |
|  4 |  2022 | Rondônia | Alcohol-specific disorders and poisonings | Homens |

##### Arquivo tratado final

##########       Etapa diferenciada da versão      ##########

Atenção na hora de salvar o arquivo temporário com versão, formato e local

In [100]:
dobr_merged_temp06.to_parquet('files__temp/AvoidMort_v5_dobr_merged.parquet')

In [60]:
# Resultados

obito_origin = dobr_merged_temp.CAUSABAS.count()
obito_final = dobr_merged_temp06.CONTADOR.sum()
dif = obito_origin - obito_final


print_y(f" O número de óbitos após merge com tabela de CIDs evitáveis era de {obito_origin} óbitos ")
print_y(f" Foram excluídos, por apresentar problemas para carga de informações de município, {dif} óbitos ")
print_y(f" O número de óbitos total após filtro de CID evitáveis e inclusão de população do censo é de {obito_final} óbitos ")


# # Filtrar registros onde pop_under74 é null
# dobr_merged_pop_nulos = dobr_merged_pop[dobr_merged_pop['pop_under74'].isnull()]

# # Exibir os registros filtrados
# dobr_merged_pop_nulos['obito_count'].sum()

[33m ==>  O número de óbitos após merge com tabela de CIDs evitáveis era de 4446922 óbitos [0m
[33m ==>  Foram excluídos, por apresentar problemas para carga de informações de município, 6079 óbitos [0m
[33m ==>  O número de óbitos total após filtro de CID evitáveis e inclusão de população do censo é de 4440843 óbitos [0m


# Etapa 3 - Aplicação de Modelo do HEAT ao Bloco

O modelo HEAT apresenta um framework bem rígido e objetivo para carga de dados.

O dataset precisa estar organizado com os labels e de acordo com a definição presente no template.

E depois precisa ser validado em planilha excel disponibilizada pela organização.

Ajustes: com a identificação da população por sexo e raça, encontramos 37 registros com população 0. Tivemos que excluir estes registros (incluindo os óbitos) no momento da preparação do dataset do heat em razão do modelo não aceitar estes valores.

## Dataset 4 - BR/CIDs/uf/Mun


O primeiro dataset que iremos construir tem as seguintes características:

* set = Brasil
* indicador = causes_deaths
* dimen = UF
* subgroup = município
* estimate = mortalidade por ano, causa (indicador) e subgroup
* set-avg = mortalidade por ano e causa (indicador)

Estas escolhas implicam em podermos disponibilizar ao usuário do HEAT a possibilidade de ver os municípios (dimensões) de maneira agregada por UF. 


In [3]:
# Define the URL and the destination path
url = "https://srhdpeuwpubsa.blob.core.windows.net/whdh/HIDR/heat_plus_template_validation.xlsm"
destination_path = "downloads_outros/heat_plus_template_validation.xlsm"

# Download the file
response = requests.get(url)
with open(destination_path, 'wb') as file:
    file.write(response.content)

# Note: Enabling macros programmatically is not recommended due to security risks.
# Macros should be enabled manually in Excel settings.

In [101]:
# Abrir arquivo final de DO após tratamento
heatds_temp = pd.read_parquet('files__temp/AvoidMort_v5_dobr_merged.parquet')

# mostrar dados gerais da tabela após transformações
tab = heatds_temp
print(f'Registros da tabela : {tab.shape[0]}')
print(f'Total de óbitos : {tab.CONTADOR.sum()}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql'))

Registros da tabela : 47498
Total de óbitos : 4312347
+----+-------+----------+-------------------------------------------+--------+---------------+---------------+------------+
|    |   Ano | uf       | causes_deaths                             | Sexo   | Cor ou raça   |   pop_under74 |   CONTADOR |
|----+-------+----------+-------------------------------------------+--------+---------------+---------------+------------|
|  0 |  2022 | Rondônia | Abscess of lung and mediastinum pyothorax | Homens | Branca        |        228640 |          1 |
|  1 |  2022 | Rondônia | Accidental Injuries                       | Homens | Branca        |        228640 |         47 |
|  2 |  2022 | Rondônia | Acute lower respiratory infections        | Homens | Branca        |        228640 |          1 |
|  3 |  2022 | Rondônia | Acute pancreatitis                        | Homens | Branca        |        228640 |          3 |
|  4 |  2022 | Rondônia | Alcohol-specific disorders and poisonings | Homens |

In [38]:
# # Agregar os dados sem CID e gerar colunas de soma de obito_count e pop_under74
# heat_semCID = heat_.groupby(['UF', 'mun_nome', 'CODMUNRES', 'SEXO', 'RACACOR', 'ANO']).agg({
#     'obito_count': 'sum',
#     'pop_under74': 'sum'
# }).reset_index()

##########       Etapa diferenciada da versão      ##########

Para melhor registro, utilizamos o label mort_ind_uf para deixar claro que o indicador é relativo a UF e causa de morte

In [105]:
# Gerar o indicador de mortalidade (por 100 mil habitantes) e exibir as primeiras linhas do DataFrame
heatds_temp01 = heatds_temp.copy()

heatds_temp01['mort_ind_uf'] = (heatds_temp01['CONTADOR']/heatds_temp01['pop_under74'])*100000

# mostrar dados gerais da tabela após transformações
tab = heatds_temp01
print(f'Registros da tabela : {tab.shape[0]}')
print(f'Total de óbitos : {tab.CONTADOR.sum()}')
print(tabulate(tab.head(), headers='keys', tablefmt='psql',maxcolwidths=20))

Registros da tabela : 47498
Total de óbitos : 4312347
+----+-------+----------+---------------------+--------+---------------+---------------+------------+---------------+
|    |   Ano | uf       | causes_deaths       | Sexo   | Cor ou raça   |   pop_under74 |   CONTADOR |   mort_ind_uf |
|----+-------+----------+---------------------+--------+---------------+---------------+------------+---------------|
|  0 |  2022 | Rondônia | Abscess of lung and | Homens | Branca        |        228640 |          1 |      0.437369 |
|    |       |          | mediastinum         |        |               |               |            |               |
|    |       |          | pyothorax           |        |               |               |            |               |
|  1 |  2022 | Rondônia | Accidental Injuries | Homens | Branca        |        228640 |         47 |     20.5563   |
|  2 |  2022 | Rondônia | Acute lower         | Homens | Branca        |        228640 |          1 |      0.437369 |
| 

In [106]:
# Contar e gerar tabela de indicador de mortalidade infinitos [inf]
registros_inf = heatds_temp01[np.isinf(heatds_temp01['mort_ind_uf'])]
inf_count = np.isinf(heatds_temp01['mort_ind_uf']).sum()
nulos_mort_ind_mun = heatds_temp01['mort_ind_uf'].isnull().sum()


# Exibir os registros filtrados
print(f"Número de valores infinitos em mort_ind_mun: {inf_count}")
print(f"Valores nulos em 'mort_ind_mun': {nulos_mort_ind_mun}")



# Exportar registros de indicador de mortalidade infinitos [inf]
# registros_inf.to_csv('exportar/relatorio_reg_mort_ind_inf.csv')

Número de valores infinitos em mort_ind_mun: 0
Valores nulos em 'mort_ind_mun': 0


In [None]:
# # Limpar a base de registros de indicador de mortalidade infinitos [inf]
# heat_ds_treat2 = heat_ds_treat.copy()

# # Substituir valores infinitos por NaN
# heat_ds_treat2['mort_ind_mun'].replace([np.inf, -np.inf], np.nan, inplace=True)

In [None]:
# # Rodar se for necessário excluir valores nulos
# heatds_temp02 = heatds_temp01.copy()

# # Excluir registros com NaN na coluna mort_ind_mun
# heatds_temp02.dropna(subset=['mort_ind_mun'], inplace=True)

# # Mudar o nome da coluna mort_ind para mort_ind_mun
# # heat_ds_treat2.rename(columns={'mort_ind':'mort_ind_mun'}, inplace=True)


# # Verificar as primeiras linhas do DataFrame atualizado
# heat_ds_treat1.head()

In [107]:
# Verificar se existe valor infinito ou negativo na coluna mort_ind_mun
heatds_temp01.describe()

Unnamed: 0,pop_under74,CONTADOR,mort_ind_uf
count,47498.0,47498.0,47498.0
mean,1264342.0,90.790075,12.792256
std,1904628.0,683.547845,54.927299
min,339.0,1.0,0.007602
25%,169776.0,2.0,0.467549
50%,628961.0,6.0,1.694513
75%,1445480.0,27.0,7.913271
max,13154250.0,58981.0,4424.778761


##### Agrupar por UF para gerar setting e setting-average

De acordo com o template do HEAT, o setting average: "must be consistent for the same combinantion of: setting, year, source and indicator".

Isto implica que os valores para cada setting (UF) não traz interferência nem da dimensão (município) e nem do subgrupo (sexo-raça-cor).

In [None]:
# # Agrupar por 'UF', 'ANO', e calcular a média de 'mort_ind'
# dobr_grouped_uf = heat_ds_treat2.groupby(['UF',
#                                              'ANO_OBITO',
#                                             #  'SEXO',
#                                             #  'RACACOR'
#                                              ]).agg({'CONTADOR': 'sum',
#                                                     'pop_under74': 'sum',
#                                                     'mort_ind_mun': 'mean'
#                                                 }).reset_index()
# dobr_grouped_uf.rename(columns={'mort_ind_mun': 'mort_ind_uf',
#                                 'CONTADOR': 'obito_count_uf',
#                                 'pop_under74': 'pop_under74_uf',
#                                 }, inplace=True)


# # Exibir as primeiras linhas do DataFrame resultante
# dobr_grouped_uf.head()

In [None]:
# dobr_grouped_uf.describe()

In [None]:
# Salvar arquivo por UF para exportação
# dobr_grouped_uf.to_excel('exportar/dobr_grouped_uf_v2.xlsx', index=False)

In [None]:
# heat_ds_treat2.columns

In [None]:
# # Trazer dados por UF (setting e setting_average)

# # Realizar o merge entre heat_ e uf_sett
# heat_treat00 = pd.merge(heat_ds_treat2, dobr_grouped_uf, on=['UF',
#                                                                 'ANO_OBITO',
#                                                                 # 'SEXO',
#                                                                 # 'RACACOR'
#                                                                 ], how='left')

# # Exibir as primeiras linhas do dataframe resultante
# heat_treat00.head()

In [None]:
# # Teste de aplicação de setting_average (médias por UF)
# filtered_data = heat_treat00[   (heat_treat00['ANO_OBITO'] == '_2022') &
#                                 (heat_treat00['UF'] == 'AC') 
#                                 # & (heat_treat00['SEXO'] == '_1') &
#                                 #(heat_treat00['RACACOR'] == '_4')
#                               ]
# filtered_data.head()

In [None]:
# heat_treat00.columns

In [None]:
# heat_treat00.pop_under74_uf.sum()

In [None]:
# obito_num = heat_treat00.CONTADOR.sum()
# pop_under74 = heat_treat00.pop_under74.sum()

# print(f"\033[33m ==> Número de mortes: {obito_num} \033[0m")
# print(f"\033[33m ==> Número de população abaixo de 75 anos é de {pop_under74} \033[0m")  


In [None]:
# heat_template = row
# heat_template

##### Criar colunas do dataset

##########       Etapa diferenciada da versão      ##########

Esta etapa precisa bastante atenção.

Se considerarmos causes_deaths como dimensão, ela precisa ser ignorada na criação so set-avg.

Pelo contrário, se formos tratar causes_deaths como indicador, ele precisa ser considerado na criação do set-avg.

Vamos realizar abaixo causes_deaths como indicador.

In [108]:
heatds_temp01.columns

Index(['Ano', 'uf', 'causes_deaths', 'Sexo', 'Cor ou raça', 'pop_under74',
       'CONTADOR', 'mort_ind_uf'],
      dtype='object')

In [111]:
# Na média ponderada de mortalidade evitável, pegamos os valores de mortalidade para cada município e dividimos pela população, para conseguir o valor para o Brasil e por ano

# Função para calcular a média ponderada
def weighted_avg(group):
    return np.average(group['mort_ind_uf'], weights=group['pop_under74'])

# Agrupar os dados pelo ano e aplicar a função de média ponderada
weighted_avg_per_year = heatds_temp01.groupby(['Ano','causes_deaths']).apply(weighted_avg).reset_index()

# Renomear as colunas para melhor entendimento
weighted_avg_per_year.columns = ['Ano','causes_deaths','set_avg_BR']

# Exibir o resultado
print(weighted_avg_per_year)

      Ano                              causes_deaths  set_avg_BR
0    2010                           Abdominal hernia    0.435484
1    2010  Abscess of lung and mediastinum pyothorax    0.303694
2    2010                        Accidental Injuries    9.597709
3    2010         Acute lower respiratory infections    0.228161
4    2010                         Acute pancreatitis    1.178403
..    ...                                        ...         ...
156  2022                                  Varicella    0.054523
157  2022                     Venous thromboembolism    2.683577
158  2022                            Viral Hepatitis    0.801819
159  2022                             Whooping cough    0.043041
160  2022                         causa não evitável  208.607587

[161 rows x 3 columns]


  weighted_avg_per_year = heatds_temp01.groupby(['Ano','causes_deaths']).apply(weighted_avg).reset_index()


In [112]:
# Realizar o merge entre heat_ds_treat2 e grouped_data usando a coluna ANO_OBITO
heatds_temp02 = pd.merge(heatds_temp01, weighted_avg_per_year, on=['Ano','causes_deaths'], how='left')

# mostrar dados gerais da tabela após transformações
tab = heatds_temp02
print(f'Registros da tabela : {tab.shape[0]}')
print(f'Total de óbitos : {tab.CONTADOR.sum()}')
tab.head()
# print(tabulate(tab.head(), headers='keys', tablefmt='psql'))

Registros da tabela : 47498
Total de óbitos : 4312347


Unnamed: 0,Ano,uf,causes_deaths,Sexo,Cor ou raça,pop_under74,CONTADOR,mort_ind_uf,set_avg_BR
0,2022,Rondônia,Abscess of lung and mediastinum pyothorax,Homens,Branca,228640,1,0.437369,0.288533
1,2022,Rondônia,Accidental Injuries,Homens,Branca,228640,47,20.556333,10.465376
2,2022,Rondônia,Acute lower respiratory infections,Homens,Branca,228640,1,0.437369,0.387575
3,2022,Rondônia,Acute pancreatitis,Homens,Branca,228640,3,1.312106,1.223487
4,2022,Rondônia,Alcohol-specific disorders and poisonings,Homens,Branca,228640,12,5.248425,9.538315


##########       Etapa diferenciada da versão      ##########

Para esta versão
* set = Brasil
* indicador = causes_deaths
* dimen = UF
* subgroup = Sexo & Cor ou raça
* estimate = mortalidade por ano, causa (indicador) e subgroup
* set-avg = mortalidade por ano e causa (indicador)

In [113]:
# Etapas para gerar indicator_abbr exclusivos

# Etapa 1 - Gerar uma tabela apenas com valores exclusivos de heatds_temp02.causes_deaths, em ordem crescente
unique_causes_deaths = heatds_temp02[['causes_deaths']].drop_duplicates().sort_values(by='causes_deaths').reset_index(drop=True)

# Etapa 2 - Criar coluna indicator_abbr com os primeiros 5 caracteres de causes_deaths
unique_causes_deaths['indicator_abbr'] = unique_causes_deaths['causes_deaths'].str[:5]

# Etapa 3 - Para aqueles indicator_abbr que tiverem o mesmo nome, gerar sufixo incremental a partir de 1
unique_causes_deaths['indicator_abbr'] = unique_causes_deaths.groupby('indicator_abbr').cumcount().astype(str).radd(unique_causes_deaths['indicator_abbr'])

# Etapa 3.1 - excluir valores que terminam com 0
unique_causes_deaths['indicator_abbr'] = unique_causes_deaths['indicator_abbr'].str.replace('0', '')

# Exibir a tabela resultante
unique_causes_deaths

Unnamed: 0,causes_deaths,indicator_abbr
0,Abdominal hernia,Abdom
1,Abscess of lung and mediastinum pyothorax,Absce
2,Accidental Injuries,Accid
3,Acute lower respiratory infections,Acute
4,Acute pancreatitis,Acute1
...,...,...
76,Varicella,Varic
77,Venous thromboembolism,Venou
78,Viral Hepatitis,Viral
79,Whooping cough,Whoop


In [114]:
# Fazer merge com informações de indicator_abbr exclusivos
heatds_temp03 = pd.merge(heatds_temp02,unique_causes_deaths,on='causes_deaths', how='left')

# mostrar dados gerais da tabela após transformações
tab = heatds_temp03
print(f'Registros da tabela : {tab.shape[0]}')
print(f'Total de óbitos : {tab.CONTADOR.sum()}')
# print(tabulate(tab.head(), headers='keys', tablefmt='psql'))
tab.head()

Registros da tabela : 47498
Total de óbitos : 4312347


Unnamed: 0,Ano,uf,causes_deaths,Sexo,Cor ou raça,pop_under74,CONTADOR,mort_ind_uf,set_avg_BR,indicator_abbr
0,2022,Rondônia,Abscess of lung and mediastinum pyothorax,Homens,Branca,228640,1,0.437369,0.288533,Absce
1,2022,Rondônia,Accidental Injuries,Homens,Branca,228640,47,20.556333,10.465376,Accid
2,2022,Rondônia,Acute lower respiratory infections,Homens,Branca,228640,1,0.437369,0.387575,Acute
3,2022,Rondônia,Acute pancreatitis,Homens,Branca,228640,3,1.312106,1.223487,Acute1
4,2022,Rondônia,Alcohol-specific disorders and poisonings,Homens,Branca,228640,12,5.248425,9.538315,Alcoh


In [116]:
# Gerar colunas sem informação ou com informação padronizada

# heat_treat01 = heat_semCID_clean # caso não seja agrupado por UF anteriormente
heatds_temp04 = heatds_temp03.copy() # caso seja agrupado por UF anteriormente

heatds_temp04['setting'] = 'Brasil'
# heat_treat01['setting_average'] = set_avg_BR

# heatds_temp03['indicator_abbr'] = 'AVM'
# heatds_temp03['indicator_abbr'] = heatds_temp03['causes_deaths'].str.slice(0, 5)
# heatds_temp03['indicator_name'] = 'Avoidable mortality (deaths per 100 000 population)'
heatds_temp04['indicator_name'] = heatds_temp04['causes_deaths'] + '(deaths per 100 000 population)'

heatds_temp04['subgroup'] = heatds_temp04['Sexo'] + ' - cor/raça ' + heatds_temp04['Cor ou raça']
heatds_temp04['source'] = 'SIM/SUS & Censo/IBGE'
heatds_temp04['favourable_indicator'] = 0
heatds_temp04['indicator_scale'] = 100000
heatds_temp04['ordered_dimension'] = 0
heatds_temp04['subgroup_order'] = 0
heatds_temp04['reference_subgroup'] = 0
heatds_temp04['note'] = ''
heatds_temp04['se'] = ''
heatds_temp04['ci_lb'] = ''
heatds_temp04['ci_ub'] = ''
heatds_temp04['iso3'] = 'BRA'

# Renomear colunas de heat_treat01
heatds_temp04 = heatds_temp04.rename(columns={
    'Ano':'date',
    'pop_under74':'population',
    'uf':'dimension',
    # 'mun_no':'subgroup',
    # 'mort_ind_mun':'estimate',
    'mort_ind_uf':'estimate',
    'set_avg_BR':'setting_average',
    # 'mort_ind_uf':'setting_average'
})

# Ajustar coluna de ano
heatds_temp04['date'] = heatds_temp04['date'].str.replace('_','').astype(int)


# mostrar dados gerais da tabela após transformações
tab = heatds_temp04
print(f'Registros da tabela : {tab.shape[0]}')
print(f'Total de óbitos : {tab.CONTADOR.sum()}')
# print(tabulate(tab.head(), headers='keys', tablefmt='psql'))
tab.head()


Registros da tabela : 47498
Total de óbitos : 4312347


Unnamed: 0,date,dimension,causes_deaths,Sexo,Cor ou raça,population,CONTADOR,estimate,setting_average,indicator_abbr,...,favourable_indicator,indicator_scale,ordered_dimension,subgroup_order,reference_subgroup,note,se,ci_lb,ci_ub,iso3
0,2022,Rondônia,Abscess of lung and mediastinum pyothorax,Homens,Branca,228640,1,0.437369,0.288533,Absce,...,0,100000,0,0,0,,,,,BRA
1,2022,Rondônia,Accidental Injuries,Homens,Branca,228640,47,20.556333,10.465376,Accid,...,0,100000,0,0,0,,,,,BRA
2,2022,Rondônia,Acute lower respiratory infections,Homens,Branca,228640,1,0.437369,0.387575,Acute,...,0,100000,0,0,0,,,,,BRA
3,2022,Rondônia,Acute pancreatitis,Homens,Branca,228640,3,1.312106,1.223487,Acute1,...,0,100000,0,0,0,,,,,BRA
4,2022,Rondônia,Alcohol-specific disorders and poisonings,Homens,Branca,228640,12,5.248425,9.538315,Alcoh,...,0,100000,0,0,0,,,,,BRA


In [285]:
# # Trazer labels para sexo e raçacor
# heat_treat02 = heat_treat01.copy()

# heat_treat02['SEXO'] = heat_treat02['SEXO'].map({
#                                             '_1':'Homens',
#                                             '_2':'Mulheres'
#                                             })
# heat_treat02['RACACOR'] = heat_treat02['RACACOR'].map({
#                                             '_1':'Branca',
#                                             '_2':'Preta',
#                                             '_3':'Amarela',
#                                             '_4':'Parda',
#                                             '_5':'Indígena',
#                                             '_9':'Sem declaração'
#                                             })

# heat_treat02['subgroup'] = heat_treat02['SEXO'] + ' - raça/cor '  +  heat_treat02['RACACOR']


In [None]:
# heat_treat02['subgroup'].unique()

In [None]:
# heat_treat02.columns

In [117]:
# Define the order of columns
column_order = [
    'setting',
    'date',
    'source',
    'indicator_abbr',
    'indicator_name',
    'dimension',
    'subgroup',
    'estimate',
    'se',
    'ci_lb',
    'ci_ub',
    'population',
    'note',
    'setting_average',
    'iso3',
    'favourable_indicator',
    'indicator_scale',
    'ordered_dimension',
    'subgroup_order',
    'reference_subgroup'
    ]  


# Reorder the columns in the DataFrame
heatds_temp05 = heatds_temp04[column_order]


In [118]:
# Transformar estimate e setting_average em int
heatds_temp06 = heatds_temp05.copy()

heatds_temp06['estimate'] = heatds_temp06['estimate'].astype(int)
heatds_temp06['setting_average'] = heatds_temp06['setting_average'].astype(int)

# mostrar dados gerais da tabela após transformações
tab = heatds_temp06
print(f'Registros da tabela : {tab.shape[0]}')
# print(f'Total de óbitos : {tab.CONTADOR.sum()}')
# print(tabulate(tab.head(), headers='keys', tablefmt='psql'))
tab.head()

Registros da tabela : 47498


Unnamed: 0,setting,date,source,indicator_abbr,indicator_name,dimension,subgroup,estimate,se,ci_lb,ci_ub,population,note,setting_average,iso3,favourable_indicator,indicator_scale,ordered_dimension,subgroup_order,reference_subgroup
0,Brasil,2022,SIM/SUS & Censo/IBGE,Absce,Abscess of lung and mediastinum pyothorax(deat...,Rondônia,Homens - cor/raça Branca,0,,,,228640,,0,BRA,0,100000,0,0,0
1,Brasil,2022,SIM/SUS & Censo/IBGE,Accid,Accidental Injuries(deaths per 100 000 populat...,Rondônia,Homens - cor/raça Branca,20,,,,228640,,10,BRA,0,100000,0,0,0
2,Brasil,2022,SIM/SUS & Censo/IBGE,Acute,Acute lower respiratory infections(deaths per ...,Rondônia,Homens - cor/raça Branca,0,,,,228640,,0,BRA,0,100000,0,0,0
3,Brasil,2022,SIM/SUS & Censo/IBGE,Acute1,Acute pancreatitis(deaths per 100 000 population),Rondônia,Homens - cor/raça Branca,1,,,,228640,,1,BRA,0,100000,0,0,0
4,Brasil,2022,SIM/SUS & Censo/IBGE,Alcoh,Alcohol-specific disorders and poisonings(deat...,Rondônia,Homens - cor/raça Branca,5,,,,228640,,9,BRA,0,100000,0,0,0


##########       Etapa diferenciada da versão      ##########

Atenção da hora de salvar o arquivo, com as informações corretas de versão

In [119]:
### Arquivo pronto para exportação
heatds_temp06.to_excel('files_out/AvoidMort_v5_ds_4val.xlsx', index=False)

In [122]:
# Gerar arquivo dataset diretamente no arquivo de validação do HEAT

# Carregar o arquivo original
workbook = openpyxl.load_workbook('files__in/heat_plus_template_validation.xlsm', keep_vba=True)

# Apagar a aba 'template'
if 'template' in workbook.sheetnames:
    del workbook['template']

# Carregar o arquivo que será copiado como nova aba
workbook_to_copy = openpyxl.load_workbook('files_out/AvoidMort_v5_ds_4val.xlsx')
sheet_to_copy = workbook_to_copy.active

# Copiar a aba para o workbook original
new_sheet = workbook.create_sheet('template')

for row in sheet_to_copy.iter_rows(values_only=True):
    new_sheet.append(row)

# Salvar o arquivo com o novo nome
workbook.save('files_out/AvoidMort_v5_heat_plus_template_ds_4val.xlsm')

# Etapa 4 - Reunião de alinhamento - ajustes

# Etapa 5 - Preparação para publicação de resultados