# Elementos da versão

Antes mesmo de falar do projeto, ao longo do desenvolvimento, vamos explicitando qual o objetivo de cada versão de trabalho do arquivo principal.

Tendo em vista diferença dos dados de mortalidade por doenças evitáveis conforme publicado pelo IEPS, o objetivo desta v3 é recriar o dataset da v2, mas utilizar os dados do Censo de 2010.

O IEPS apresenta os seguintes valores de mortalidade de doenças evitáveis para o Brasil:

* 2010 - 99
* 2020 - 89

Ainda que na documentação para criação das variáveis o IEPS fale de dados ajustados por ano, não ficou claro que usem outros dados além dos do Censo 2010.

O dataset desta v.2 deverá ter as seguintes características:

* setting: Brasil [poderemos encontrar um sufixo a Brasil que permita a sua subclassificação e carga deste dataset junto a outros]
* dimension: UF
* subgroup: municípios
* estimate: mort-avoid por município
* setting-average: mort-avoid por Brasil

# Projeto de Análise de Desigualdade em Saúde no modelo HEAT/OMS
## Bloco 2025/1 = análise do sistema de mortalidade do SUS com agregação por unidades federativas




#### Aspectos gerais e participantes

Projeto Desenvolvido em parceria da MS/SECTICS/DESID com a Organização Mundial de Saúde

Elaborado em linguagem Python, utilizando a biblioteca pysus para acesso ao SIM (Sistema de Informações de Mortalidade do SUS)

Coordenador-geral:

Coordenadores: 

Cientista de dados: Marcos Mesquita

Outros participantes:

Data: primeiro trimestre de 2025

#### Objetivos

O principal objetivo desse projeto é realizar a avaliação de desigualdade na saúde no Brasil com ênfase para a dimensão de unidades subnacionais, estados e municípios brasileiros, a partir da aplicação do modelo do HEAT, tendo como objetivos específicos:

- Apresentar indicadores de saúde no Brasil desagregados por subunidades nacionais em uma visualização interativa a partir do modelo do HEAT Plus;
- Oferecer um repositório comum e atualizado com dados de desigualdade da saúde no Brasil desagregados por estados e municípios em um modelo sob reconhecimento internacional;
- Permitir exploração e acesso dos dados e da metodologia para outros tipos de análises.

# Etapa 1 - Definição do Bloco

O projeto ocorrerá em blocos sucessivos, nos quais serão definidos o problema e os indicadores a serem analisados.

### Definição do problema do bloco



 H0 - as unidades federativa são variáveis determinantes para mortalidade no país

### Escopo do Bloco 1


* indicador: mortalidade (número de mortes por população, dados de morte do SIM/SUS e dados populacionais pelo Censos de 2010 e 2022)
* localização: todo o Brasil, com agregação de mortalidade por Estados e Municípios
* período: 2010 e 2022 
* doenças: “doenças evitáveis” conforme definido pelo OCDE
* outros critérios de filtro: até 74 anos de idade (em razão da aplicação do critério de "doenças evitáveis")

# Etapa 2 - Análise primária dos dados por bloco

## Aspectos teóricos e técnicos das fontes


#### Aspectos técnicos - ambiente, linguagem e ferramentas principais

A análise será feita utilizando a linguagem Python e a biblioteca Pysus que permite acesso às principais bases do SUS de forma direta.
O Pysus exige um ambiente linux para execução de alguns comandos o que foi possível, mesmo em uma máquina Windows, a partir do WSL do Windows.
Foi criado um ambiente em WSL e o conjunto da extração, tratamento e análise dos dados foi realizado no formato Notebook em um editor VSCode, dentro de um Dev Container: Default Linux Universal.


#### Morte e mortalidade no HEAT

Para entendermos como o HEAT trata a mortalidade, fizemos uma busca de indicadores de mortalidade no WHO Health Inequality Data Repository.

O repositório traz dados e metadados de todos os indicadores utilizados pelo HEAT.
Apresenta um total de 3915 indicadores, distribuídos entre 14 seções.

Foi feita uma revisão geral dos indicadores relacionados à mortalidade, que depois foi refinada pela busca das seguintes palavras : “death”, “mortality”, “fatal”, ‘fatality” ,“Probability of dying”, “suicide”. E foram encontrados 388 indicadores que trazem uma destas expressões na sua descrição.


#### SIM (Sistema de Informações de Mortalidade do SUS)

A mortalidade e os indicadores de morte serão buscados no SIM (Sistema de Informações de Mortalidade do SUS).
O SIM disponibiliza dados de mortes no Brasil desde 1996 por ocorrências, gerido pelo Departamento de Análise de Situação de Saúde, da Secretaria de Vigilância em Saúde do Ministério da Saúde, em conjunto com as Secretarias Estaduais e Municipais de Saúde. Estas últimas responsáveis efetivamente pela coleta dos dados.

O SIM traz informações do indivíduo, como sexo, idade, localidade e causas da morte, classificadas de acordo com o CID (Classificação Internacional de Doenças e Problemas Relacionadas à Saúde).


#### CID (Classificação Internacional de Doenças e Problemas Relacionadas à Saúde)

Com o intuito de padronizar a nomenclatura de patologias e com abrangência para todo o mundo, foi elaborado pela Organização Mundial da Saúde (OMS) uma  classificação internacional de doenças, a CID (Classificação Internacional de Doenças e Problemas Relacionadas à Saúde). 

A Classificação é atualizada periodicamente. A versão mais atual é a CID11, publicada em janeiro de 2022.

No entanto, por se tratar de revisão que traz impactos nos registros e que exige considerável atualização das ferramentas de captura das informações, o SIM utiliza versões anteriores da CID.
- CID9 - dados até 1995
- CID10 - a partir de 1996 até a data atual

Em razão do recorte temporal dos dados, de 1998 a 2022, iremos utilizar somente a CID10.
A CID10 é organizada em 22 capítulos e possui, além da classificação de doenças, descrição de códigos que permitem identificar sinais, sintomas, queixas, causas externas e circunstâncias sociais.


#### CID de doenças evitáveis

Como elemento do escopo deste trabalho iremos tratar de doenças evitáveis.

O Brasil, a partir da Secretaria de Vigilância em Saúde apresenta uma classificação de doenças evitáveis. 

Lista de causas evitáveis pode ser encontrada nos links: http://tabnet.datasus.gov.br/cgi/sim/Obitos_Evitaveis_0_a_4_anos.pdf




#### População (Censo)


Os dados de população são os do Censo, acessados pelo site do IBGE, https://sidra.ibge.gov.br/Tabela/9606






### Instalação e importação de bibliotecas

#### Instalação de bibliotecas

In [1]:
# Costuma ser exigida a instalação destas bibliotecas no primeiro acesso ao Pysus
!apt-get update  
!apt-get install libffi-dev  # Install libffi-dev
!pip install --upgrade pip  # Ensure pip is up to date
!pip install pysus # Exa
!pip install gdown
!pip install pylance

Reading package lists... Done
E: List directory /var/lib/apt/lists/partial is missing. - Acquire (13: Permission denied)
E: Could not open lock file /var/lib/dpkg/lock-frontend - open (13: Permission denied)
E: Unable to acquire the dpkg frontend lock (/var/lib/dpkg/lock-frontend), are you root?


#### Importação de bibliotecas

In [1]:
# importar biblioteca básicas para manipulação de dados
import pandas as pd
import numpy as np
import os
import sidrapy
import requests # para carga de endereços web - api
import gdown
import openpyxl



In [27]:
# importar bibliotecas para carga dos dados
import pysus
# import pylance

from pysus import SIM
from pysus.online_data.SIM import download
from pysus.preprocessing.decoders import translate_variables_SIM
from pysus.preprocessing.SIM import group_and_count, redistribute_missing, redistribute_cid_chapter
from pysus.online_data.SIM import get_CID9_table, get_CID10_table, get_municipios, get_ocupations
from ftplib import FTP
from pathlib import Path  

In [3]:
# Para organizar resultados, gerar prints em amarelo

def print_y(text):
  """Imprime o texto fornecido na cor amarela.

  Args:
    text: O texto a ser impresso.
  """
  print(f"\033[33m ==> {text}\033[0m")

# Exemplo de uso:
print_y("Este texto será impresso em amarelo!")
print("Este em normal!")

[33m ==> Este texto será impresso em amarelo![0m
Este em normal!


#### Diretórios - configuração

In [None]:
# Definir diretório padrão para pysus
pysus.online_data.SIM.CACHEPATH="./downloads_sim_original"
# Definir pasta para download de arquivos csv e parquet
import os 

# Define diretório para armazenar arquivos do sim (carregados por pysus) quando o SIM.CACHEPATH não funcionar
os.makedirs('downloads_sim_original', exist_ok=True)  
downloads_sim = "downloads_sim_original"

# Define diretório para armazenar outros arquivos
os.makedirs('downloads_outros', exist_ok=True)  

# Define diretório para armazenar arquivos trabalhados
os.makedirs('files_clean', exist_ok=True) 


# Define diretório para exportar arquivos finais ou de relatórios
os.makedirs('exportar', exist_ok=True) 

#### Acesso ao SIM

In [4]:
sim = SIM().load() # Loads the files from DATASUS

In [5]:
sim.paths

(/dissemin/publicos/SIM/CID10/DORES, /dissemin/publicos/SIM/CID9/DORES)

In [6]:
sim.groups

{'CID10': 'DO', 'CID9': 'DOR'}

## Arquivo principal - DO

DO - Declaração de Óbito, conforme acessado no SIM

#### Carga SIM principal

In [32]:
# Carrega os dados do SIM para o ano de 2010
# Definição de variáveis
grupo = "CID10" # Agrupamento por CID10
uf = "" # A sigla BR carrega dados de todos as unidades federativas
ano = [2010] # Anos do escopo, 2010 e 2022
local = downloads_sim # Local para armazenar os arquivos, definido nas etapas anteriores

# sim.get_files("CID10", uf="BR", year=2010)
dobr_2010 = download(grupo,uf,ano,downloads_sim) # Carrega os dados do SIM
# dobr2010 = download("CID10","BR",2010,'TESTE_EXCLUIR') # Carrega os dados do SIM
# dobr2010 

DOTO2010.parquet: 100%|██████████| 16.6k/16.6k [00:00<00:00, 51.3kB/s]


In [8]:
# Carrega os dados do SIM para os demais anos
# Definição de variáveis
grupo = "CID10" # Agrupamento por CID10
uf = "BR" # A sigla BR carrega dados de todos as unidades federativas
ano = [2019,2020,2021,2022] # Anos do escopo, 2010 e 2022
local = downloads_sim # Local para armazenar os arquivos, definido nas etapas anteriores

# sim.get_files("CID10", uf="BR", year=2010)
dobr2010 = download(grupo,uf,ano,downloads_sim) # Carrega os dados do SIM
# dobr2010 = download("CID10","BR",2010,'TESTE_EXCLUIR') # Carrega os dados do SIM
# dobr2010 

0it [00:00, ?it/s]


In [None]:
# dodf = dobr.to_dataframe()

### Tratamento do arquivo principal

O dicionário do SIM está em "./Estrutura_SIM_para_CD.pdf"

Trabalhamos o CID presente no campo CAUSABAS.

Em razão do escopo da População Estimada (que apresenta dados por Município, mas não de outras variáveis de desigualdade) a primeira versão será um recorte da base DOBR com os dados de CID ('CAUSABAS'), idade (a partir do tratamento de 'DTNASC'), e de Município (a partir do tratamento de 'CODMUNRES').

Por se tratar de doenças evitáveis, o primeiro filtro a ser feito é com base na idade de óbito, que deve ser abaixo de 75 anos.

A idade de óbito está presente no campo IDADE. Ela é composta de 3 dígitos, o primeiro identifica se a contagem é por dias(1), semanas(2), meses (3), ano (4), mais de 100 anos (5).

Em razão disto, vamos desconsiderar todos os valores de dígito 4 e mais de 75 (475).


Iremos tratar do arquivo de 2010 separado dos outros anos pela especificade daquele arquivo.



In [3]:
# Acessar os dados do SIM de 2010 como 1 dataframe

# Definir o diretório onde os arquivos estão localizados
directory = 'downloads_sim_original'

# Listar todos os arquivos na pasta
file_list = os.listdir(directory)

# Filtrar apenas os arquivos parquet
parquet_files = [file for file in file_list if file.endswith('2010.parquet')]

# Inicializar uma lista para armazenar os dataframes
dataframes = []

# Iterar sobre os arquivos parquet e ler cada um em um dataframe
for file in parquet_files:
    file_path = os.path.join(directory, file)
    df = pd.read_parquet(file_path)
    dataframes.append(df)

# Concatenar todos os dataframes em um único dataframe
dobr2010 = pd.concat(dataframes, ignore_index=True)

# Exibir informações do dataframe combinado
dobr2010.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1136947 entries, 0 to 1136946
Data columns (total 60 columns):
 #   Column      Non-Null Count    Dtype 
---  ------      --------------    ----- 
 0   CONTADOR    1133938 non-null  object
 1   ORIGEM      1136947 non-null  object
 2   TIPOBITO    1136947 non-null  object
 3   DTOBITO     1136947 non-null  object
 4   HORAOBITO   1136947 non-null  object
 5   NATURAL     1136947 non-null  object
 6   DTNASC      1136947 non-null  object
 7   IDADE       1136947 non-null  object
 8   SEXO        1136947 non-null  object
 9   RACACOR     1136947 non-null  object
 10  ESTCIV      1136947 non-null  object
 11  ESC         1136947 non-null  object
 12  OCUP        1136947 non-null  object
 13  CODMUNRES   1136947 non-null  object
 14  CODBAIRES   1136947 non-null  object
 15  LOCOCOR     1136947 non-null  object
 16  CODESTAB    1136947 non-null  object
 17  CODMUNOCOR  1136947 non-null  object
 18  CODBAIOCOR  1136947 non-null  object
 19  

In [4]:
# Excluir valores nulos da coluna CAUSABAS
dobr2010 = dobr2010.dropna(subset=['CAUSABAS'])
dobr2010_filtered = dobr2010[['DTOBITO','CAUSABAS', 'CODMUNRES','IDADE']]

# Exibir informações do dataframe após a exclusão
dobr2010_filtered.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1136947 entries, 0 to 1136946
Data columns (total 4 columns):
 #   Column     Non-Null Count    Dtype 
---  ------     --------------    ----- 
 0   DTOBITO    1136947 non-null  object
 1   CAUSABAS   1136947 non-null  object
 2   CODMUNRES  1136947 non-null  object
 3   IDADE      1136947 non-null  object
dtypes: object(4)
memory usage: 34.7+ MB


In [5]:
# Arquivo para doenças evitáveis - excluir maiores de 74 anos
dobr2010_filtered2 = dobr2010_filtered.copy()

# Substituir valores '     ' e '-' por '0' na coluna IDADE
dobr2010_filtered2['IDADE'] = dobr2010_filtered2['IDADE'].replace(['     '], '0')

# transformar IDADE em inteiro e excluir valores maiores que 474
dobr2010_filtered2['IDADE'] = dobr2010_filtered2['IDADE'].astype(int)
dobr_filtered3 = dobr2010_filtered2[dobr2010_filtered2['IDADE'] < 475]
dobr_filtered3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 722229 entries, 1 to 1136946
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   DTOBITO    722229 non-null  object
 1   CAUSABAS   722229 non-null  object
 2   CODMUNRES  722229 non-null  object
 3   IDADE      722229 non-null  int64 
dtypes: int64(1), object(3)
memory usage: 27.6+ MB


In [6]:
# Carregar e tratar arquivos de DO de outros anos

# Read the parquet files
dobr2019 = pd.read_parquet('downloads_sim_original/DOBR2019.parquet')
dobr2020 = pd.read_parquet('downloads_sim_original/DOBR2020.parquet')
dobr2021 = pd.read_parquet('downloads_sim_original/DOBR2021.parquet')
dobr2022 = pd.read_parquet('downloads_sim_original/DOBR2022.parquet')

# Concatenate the dataframes
dobr2022 = pd.concat([dobr2019,dobr2020,dobr2021,dobr2022], ignore_index=True)

# Filtrar campos
dobr2022_filtered = dobr2022[['DTOBITO','CAUSABAS', 'CODMUNRES','IDADE']]

# transformar IDADE em inteiro e excluir valores maiores que 474
dobr2022_filtered['IDADE'] = dobr2022_filtered['IDADE'].astype(int)
dobr2022_filtered2 = dobr2022_filtered[dobr2022_filtered['IDADE'] < 475]

# Display the combined dataframe
dobr2022_filtered2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3724693 entries, 1 to 6283539
Data columns (total 4 columns):
 #   Column     Dtype 
---  ------     ----- 
 0   DTOBITO    object
 1   CAUSABAS   object
 2   CODMUNRES  object
 3   IDADE      int64 
dtypes: int64(1), object(3)
memory usage: 142.1+ MB


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dobr2022_filtered['IDADE'] = dobr2022_filtered['IDADE'].astype(int)


In [7]:
# Concatenate the dataframes
dobr = pd.concat([dobr2022_filtered2,dobr_filtered3], ignore_index=True)
dobr.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4446922 entries, 0 to 4446921
Data columns (total 4 columns):
 #   Column     Dtype 
---  ------     ----- 
 0   DTOBITO    object
 1   CAUSABAS   object
 2   CODMUNRES  object
 3   IDADE      int64 
dtypes: int64(1), object(3)
memory usage: 135.7+ MB


In [8]:
# Contador

shape1 = dobr.CAUSABAS.count()

print(f"\033[33m ==> O arquivo de declarações de óbito dos anos de 2019,2020,2021 e 2022 tem o total de {shape1} registros\033[0m")


[33m ==> O arquivo de declarações de óbito dos anos de 2019,2020,2021 e 2022 tem o total de 4446922 registros[0m


In [9]:
# Ajustar os campos
dobr_clean = dobr.copy()

# assegurar CODMUNRES como string
dobr_clean['CODMUNRES'] = '_' + dobr_clean['CODMUNRES'].astype(str).str[:6]

# campo ano_obito formado pelos 4 últimos caracteres de DTOBITO, como número
dobr_clean['ANO_OBITO'] = '_' + dobr_clean['DTOBITO'].str[-4:]

# campo idade_num formado de anos completos, como número (subtrair 400)
dobr_clean['IDADE'] = dobr_clean['IDADE'] - 400

# excluir colunas DTOBITO e IDADE
dobr_clean = dobr_clean.drop(['DTOBITO'], axis=1)

# Exibir as primeiras linhas do DataFrame resultante
dobr_clean.head()

Unnamed: 0,CAUSABAS,CODMUNRES,IDADE,ANO_OBITO
0,I219,_292740,62,_2019
1,I10,_355100,68,_2019
2,X700,_500630,60,_2019
3,C539,_500500,53,_2019
4,V220,_500627,18,_2019


#### Resultados e geração de arquivo DOBR

In [10]:
# Salvar arquivo em parquet
dobr_clean.to_parquet('files_clean/dobr_clean_2010_19a22.parquet')

In [13]:
# Contador

# apresentar valor da diferença entre os números de registros de dobr e dobr_filtered

shape_2010 = dobr2010.shape[0]
shape_2019 = dobr2019.shape[0]
shape_2020 = dobr2020.shape[0]
shape_2021 = dobr2021.shape[0]
shape_2022 = dobr2022.shape[0]
shape_all = shape_2010 + shape_2019 + shape_2020 + shape_2021 + shape_2022


print(f"\033[33m ==> O número de registros de óbitos originais por ano:\033[0m")
print(f"\033[33m * 2010 {shape_2010}\033[0m")
print(f"\033[33m * 2019 {shape_2019}\033[0m")
print(f"\033[33m * 2020 {shape_2020}\033[0m")
print(f"\033[33m * 2021 {shape_2021}\033[0m")
print(f"\033[33m * 2022 {shape_2022}\033[0m")

dif = shape_all - dobr_clean.shape[0]
print(f"\033[33m ==> O número de registros excluídos por apresentar idade maior de 74 anos foi de {dif} registros\033[0m")
print(f"\033[33m ==> O número de registros de óbitos resultantes é de {dobr_clean.shape[0]} registros\033[0m")

[33m ==> O número de registros de óbitos originais por ano:[0m
[33m * 2010 1136947[0m
[33m * 2019 1349801[0m
[33m * 2020 1556824[0m
[33m * 2021 1832649[0m
[33m * 2022 6283540[0m
[33m ==> O número de registros excluídos por apresentar idade maior de 74 anos foi de 7712839 registros[0m
[33m ==> O número de registros de óbitos resultantes é de 4446922 registros[0m


## Carga SIM auxiliar

O SIM traz algumas tabelas auxiliares de CID10 e municípios. 

Não iremos trazemos estas informações, no entanto, porque iremos utilizar dados de municípios concomitante à população do Censo do IBGE e sobre os CIDs iremos consultar a informações já da lista de doenças evitáveis, conforme OCDE.

In [None]:
# # Download de tabela auxiliar de CID10
# cid10 = get_CID10_table()
# cid10.head()

In [None]:
# # Download de tabela auxiliar de CID10
# munic = get_municipios()
# print(munic.head())

## Carga externa ao SIM

Iremos carregar informações de fontes externas sobre população e CIDs de doenças evitáveis.

##### Carga de CIDs doenças evitáveis - SVS

In [19]:
# # Download de tabela tratada de CIDs evitáveis de acordo com documentos da SVS

# url = 'https://docs.google.com/spreadsheets/d/1YWurDqnBDMz4ACOEctY9uuQkEm7uSRAogzZETQrLCXk/edit?usp=drive_link'
# # Convert the Google Sheets URL to a CSV export URL
# csv_url = url.replace('/edit?usp=drive_link', '/export?format=csv')

# # Read the CSV data into a pandas DataFrame
# df = pd.read_csv(csv_url)

# # Now you can work with the DataFrame 'df'
# df.head()


In [20]:
# # Salvar arquivo csv
# df.to_csv('downloads_outros/cid10_evit_svs.csv', index=False)

##### Carga de CIDs doenças evitáveis - OCDE

In [None]:
# # Download de tabela tratada de CIDs evitáveis de acordo com documentos da OCDE
# url = 'https://docs.google.com/spreadsheets/d/1X8AH0zs4PNc_bUpZ3tBvFw2HGpgb9CjShOkwXQ0so_I/edit?usp=sharing'
# # Convert the Google Sheets URL to a CSV export URL
# csv_url = url.replace('/edit?usp=sharing', '/export?format=csv')

# # Read the CSV data into a pandas DataFrame
# ocde_evit = pd.read_csv(csv_url)

# # Now you can work with the DataFrame 'df'
# ocde_evit.head()

Unnamed: 0,avoid_flag,prevent_flag,treat_flag,Group,Causes of deaths,Rationale for inclusion,Range,cid_pai
0,Avoidable mortality,Preventable mortality,,Infectious diseases,Intestinal diseases,Most of these infections can be prevented thro...,(A00-A09),A0
1,Avoidable mortality,Preventable mortality,,Infectious diseases,"Diphtheria, Tetanus, Poliomyelitis",Most of these infections can be prevented thro...,"(A35, A36, A80)",A35
2,Avoidable mortality,Preventable mortality,,Infectious diseases,"Diphtheria, Tetanus, Poliomyelitis",Most of these infections can be prevented thro...,"(A35, A36, A80)",A36
3,Avoidable mortality,Preventable mortality,,Infectious diseases,"Diphtheria, Tetanus, Poliomyelitis",Most of these infections can be prevented thro...,"(A35, A36, A80)",A80
4,Avoidable mortality,Preventable mortality,,Infectious diseases,Whooping cough,Most of these infections can be prevented thro...,(A37),A37


In [23]:
ocde_evit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 346 entries, 0 to 345
Data columns (total 8 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   avoid_flag               346 non-null    object
 1   prevent_flag             189 non-null    object
 2   treat_flag               184 non-null    object
 3   Group                    346 non-null    object
 4   Causes of deaths         346 non-null    object
 5   Rationale for inclusion  346 non-null    object
 6   Range                    346 non-null    object
 7   cid_pai                  346 non-null    object
dtypes: object(8)
memory usage: 21.8+ KB


## População Censo

### Carga de População Censo 


Os dados populacionais são os dos Censos de 2010 e 2022, com variáveis de sexo, raça e faixa etária (para calcular menores de 75 anos).

A fonte de dados para gerar os arquivos ou o endereço do caminho SIDRA, é https://sidra.ibge.gov.br/Tabela/9605.

Nota da v.2 : iremos trazer os dados do Censo sem precisar desagregar por sexo e raça-cor e consideramos que não será necessário trazer dados por UF, estes podem ser agregados depois a partir dos dados de município.

In [72]:
# # Definir a URL
# url = 'https://sidra.ibge.gov.br/geratabela?format=us.csv&name=tabela9606.csv&terr=NCS&rank=-&query=t/9606/n3/all/n6/all/v/allxp/p/all/c86/95251/c2/6794/c287/6653,49108,49109,60040,60041,93098,100362/l/,v%2Bc287,p%2Bt%2Bc86%2Bc2&verComplementos2=false&verComplementos1=false&omitirIndentacao=false&abreviarRotulos=false&exibirNotas=false&agruparNoCabecalho=false'

# # Ler os dados da URL em um DataFrame
# # censo_pop = pd.read_json(url)
# ibge_download_ = pd.read_csv(url, skiprows=3, dtype=str)

# # Exibir as primeiras linhas do DataFrame
# ibge_download_.head()

Unnamed: 0,Ano,Nível,Cód.,Unidade da Federação e Município,Cor ou raça,Sexo,Total,75 a 79 anos,80 a 84 anos,85 a 89 anos,90 a 94 anos,95 a 99 anos,100 anos ou mais
0,2010,UF,11,Rondônia,Total,Total,1562409,13015,7291,3170,1126,330,82
1,2010,UF,12,Acre,Total,Total,733559,5508,3574,1790,737,300,91
2,2010,UF,13,Amazonas,Total,Total,3483985,24686,14803,7829,3405,1249,415
3,2010,UF,14,Roraima,Total,Total,450479,2575,1586,809,324,100,35
4,2010,UF,15,Pará,Total,Total,7581051,62725,37009,18075,8912,3349,899


In [73]:
# Exibir informaçãoes gerais do DataFrame
ibge_download_.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11214 entries, 0 to 11213
Data columns (total 13 columns):
 #   Column                            Non-Null Count  Dtype 
---  ------                            --------------  ----- 
 0   Ano                               11213 non-null  object
 1   Nível                             11201 non-null  object
 2   Cód.                              11194 non-null  object
 3   Unidade da Federação e Município  11194 non-null  object
 4   Cor ou raça                       11194 non-null  object
 5   Sexo                              11194 non-null  object
 6   Total                             11194 non-null  object
 7   75 a 79 anos                      11194 non-null  object
 8   80 a 84 anos                      11194 non-null  object
 9   85 a 89 anos                      11194 non-null  object
 10  90 a 94 anos                      11194 non-null  object
 11  95 a 99 anos                      11194 non-null  object
 12  100 anos ou mais  

In [74]:
# Primeira linha de tratamento para salvar arquivo

# Excluir notas e comentários do arquivo
ibge_download = ibge_download_.dropna(subset=['Total']).reset_index(drop=True)

# Exibir as primeiras linhas do DataFrame
ibge_download.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11194 entries, 0 to 11193
Data columns (total 13 columns):
 #   Column                            Non-Null Count  Dtype 
---  ------                            --------------  ----- 
 0   Ano                               11194 non-null  object
 1   Nível                             11194 non-null  object
 2   Cód.                              11194 non-null  object
 3   Unidade da Federação e Município  11194 non-null  object
 4   Cor ou raça                       11194 non-null  object
 5   Sexo                              11194 non-null  object
 6   Total                             11194 non-null  object
 7   75 a 79 anos                      11194 non-null  object
 8   80 a 84 anos                      11194 non-null  object
 9   85 a 89 anos                      11194 non-null  object
 10  90 a 94 anos                      11194 non-null  object
 11  95 a 99 anos                      11194 non-null  object
 12  100 anos ou mais  

In [80]:
# Segunda linha de tratamento para salvar arquivo

# Excluir colunas de "Cor ou raça" e "Sexo"
ibge_download01 = ibge_download.drop(columns=['Sexo','Cor ou raça'])

# Renomear colunas
ibge_download01.rename(columns={'Unidade da Federação e Município': 'unidade_no'}, inplace=True)

# Exibir informações gerais do dataframe
ibge_download01.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11194 entries, 0 to 11193
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Ano               11194 non-null  object
 1   Nível             11194 non-null  object
 2   Cód.              11194 non-null  object
 3   unidade_no        11194 non-null  object
 4   Total             11194 non-null  object
 5   75 a 79 anos      11194 non-null  object
 6   80 a 84 anos      11194 non-null  object
 7   85 a 89 anos      11194 non-null  object
 8   90 a 94 anos      11194 non-null  object
 9   95 a 99 anos      11194 non-null  object
 10  100 anos ou mais  11194 non-null  object
dtypes: object(11)
memory usage: 962.1+ KB


In [None]:
# Salvar arquivo de população do Censo
ibge_download01.to_parquet('downloads_outros/censo_pop_raw.parquet')

### Tratamento de População Censo Municípios

In [61]:
# Carga de arquivo de População do Censo
censo_pop_raw = pd.read_parquet('downloads_outros/censo_pop_raw.parquet')

In [62]:
censo_pop_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11194 entries, 0 to 11193
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Ano               11194 non-null  object
 1   Nível             11194 non-null  object
 2   Cód.              11194 non-null  object
 3   unidade_no        11194 non-null  object
 4   Total             11194 non-null  object
 5   75 a 79 anos      11194 non-null  object
 6   80 a 84 anos      11194 non-null  object
 7   85 a 89 anos      11194 non-null  object
 8   90 a 94 anos      11194 non-null  object
 9   95 a 99 anos      11194 non-null  object
 10  100 anos ou mais  11194 non-null  object
dtypes: object(11)
memory usage: 962.1+ KB


In [63]:
# Identificar a classificação de unidades federativas
censo_pop_raw.Nível.unique()

array(['UF', 'MU'], dtype=object)

In [64]:
# Apresentar os anos do Censo
censo_pop_raw.Ano.unique()

array(['2010', '2022'], dtype=object)

In [None]:
# # Filtrar os dados apenas de município
# censo_pop_mun = censo_pop_raw[censo_pop_raw['Nível'] == 'MU']
# censo_pop_mun.info()


In [65]:
# Preparar colunas para conseguir valores da população até 74 anos

# Colunas para transformar em inteiro
cols_age = ['Total','75 a 79 anos', '80 a 84 anos', '85 a 89 anos','90 a 94 anos', '95 a 99 anos', '100 anos ou mais']
# para todas as colunas identificar substituir '-' por 0
censo_pop_clean01 = censo_pop_raw.copy()
censo_pop_clean01[cols_age] = censo_pop_clean01[cols_age].replace('-',0)

# transformar todas as colunas definidas para formato integer
censo_pop_clean01[cols_age] = censo_pop_clean01[cols_age].apply(pd.to_numeric, errors='coerce').fillna(0).astype(int)
censo_pop_clean01.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11194 entries, 0 to 11193
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Ano               11194 non-null  object
 1   Nível             11194 non-null  object
 2   Cód.              11194 non-null  object
 3   unidade_no        11194 non-null  object
 4   Total             11194 non-null  int64 
 5   75 a 79 anos      11194 non-null  int64 
 6   80 a 84 anos      11194 non-null  int64 
 7   85 a 89 anos      11194 non-null  int64 
 8   90 a 94 anos      11194 non-null  int64 
 9   95 a 99 anos      11194 non-null  int64 
 10  100 anos ou mais  11194 non-null  int64 
dtypes: int64(7), object(4)
memory usage: 962.1+ KB


In [66]:
# Gerar coluna de população total até 74 anos
cols_age_over75 = ['75 a 79 anos', '80 a 84 anos', '85 a 89 anos','90 a 94 anos', '95 a 99 anos', '100 anos ou mais']

censo_pop_clean02 = censo_pop_clean01.copy()

# Subtrair a população de 75 anos ou mais da população total
censo_pop_clean02['pop_under74'] = censo_pop_clean02['Total'] - censo_pop_clean02[cols_age_over75].sum(axis=1)

# Excluir colunar cols_age_over75 e 0 a 4 anos
censo_pop_clean02.drop(columns=cols_age_over75, inplace=True)

# Renomear coluna Total para pop_total
censo_pop_clean02.rename(columns={'Total': 'pop_total'}, inplace=True)


censo_pop_clean02.head()


Unnamed: 0,Ano,Nível,Cód.,unidade_no,pop_total,pop_under74
0,2010,UF,11,Rondônia,1562409,1537395
1,2010,UF,12,Acre,733559,721559
2,2010,UF,13,Amazonas,3483985,3431598
3,2010,UF,14,Roraima,450479,445050
4,2010,UF,15,Pará,7581051,7450082


In [67]:
# Gerar informação de UF a partir do split de 'Município', com o dividor '('
censo_pop_clean03 = censo_pop_clean02.copy()
censo_pop_clean03['UF'] = censo_pop_clean03['unidade_no'].str.split('(', expand=True)[1].str.replace(')','')
censo_pop_clean03['uf_co'] = '_' + censo_pop_clean03['Cód.'].astype(str).str[:2]
censo_pop_clean03['unidade_no'] = censo_pop_clean03['unidade_no'].str.split('(', expand=True)[0]
censo_pop_clean03.head()


Unnamed: 0,Ano,Nível,Cód.,unidade_no,pop_total,pop_under74,UF,uf_co
0,2010,UF,11,Rondônia,1562409,1537395,,_11
1,2010,UF,12,Acre,733559,721559,,_12
2,2010,UF,13,Amazonas,3483985,3431598,,_13
3,2010,UF,14,Roraima,450479,445050,,_14
4,2010,UF,15,Pará,7581051,7450082,,_15


In [71]:
# Dividir arquivos em UF e Municípios

# Criar arquivo de UF
censo_pop_uf = censo_pop_clean03[censo_pop_clean03['Nível'] == 'UF'].reset_index(drop=True)

# Criar arquivo de Municípios
censo_pop_mun = censo_pop_clean03[censo_pop_clean03['Nível'] == 'MU'].reset_index(drop=True)

In [72]:
censo_pop_uf.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54 entries, 0 to 53
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Ano          54 non-null     object
 1   Nível        54 non-null     object
 2   Cód.         54 non-null     object
 3   unidade_no   54 non-null     object
 4   pop_total    54 non-null     int64 
 5   pop_under74  54 non-null     int64 
 6   UF           0 non-null      object
 7   uf_co        54 non-null     object
dtypes: int64(2), object(6)
memory usage: 3.5+ KB


In [73]:
censo_pop_mun.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11140 entries, 0 to 11139
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Ano          11140 non-null  object
 1   Nível        11140 non-null  object
 2   Cód.         11140 non-null  object
 3   unidade_no   11140 non-null  object
 4   pop_total    11140 non-null  int64 
 5   pop_under74  11140 non-null  int64 
 6   UF           11140 non-null  object
 7   uf_co        11140 non-null  object
dtypes: int64(2), object(6)
memory usage: 696.4+ KB


In [74]:
# Preparar para salvar arquivo de UF
censo_pop_uf2 = censo_pop_uf

# Excluir colunas desnecessárias
censo_pop_uf2.drop(columns=['Cód.','Nível','UF'], inplace=True)

# Renomear coluna unidade_no para uf_no
censo_pop_uf2.rename(columns={'unidade_no': 'uf_no'}, inplace=True)

censo_pop_uf2.head()

Unnamed: 0,Ano,uf_no,pop_total,pop_under74,uf_co
0,2010,Rondônia,1562409,1537395,_11
1,2010,Acre,733559,721559,_12
2,2010,Amazonas,3483985,3431598,_13
3,2010,Roraima,450479,445050,_14
4,2010,Pará,7581051,7450082,_15


In [75]:
censo_pop_mun.head()

Unnamed: 0,Ano,Nível,Cód.,unidade_no,pop_total,pop_under74,UF,uf_co
0,2010,MU,1100015,Alta Floresta D'Oeste,24392,23948,RO,_11
1,2010,MU,1100023,Ariquemes,90353,89037,RO,_11
2,2010,MU,1100031,Cabixi,6313,6180,RO,_11
3,2010,MU,1100049,Cacoal,78574,76947,RO,_11
4,2010,MU,1100056,Cerejeiras,17029,16646,RO,_11


In [76]:
# Preparar para salvar arquivo de Municipios
censo_pop_mun01 = censo_pop_mun.copy()

# Mudar o formato de mun_cod para string e extrair os primeiros 7 dígitos
censo_pop_mun01['mun_cod_sim'] = censo_pop_mun01['Cód.'].astype(str).str[:6]

# Acrescentar um '_' no início do valor da coluna mun_cod
censo_pop_mun01['mun_cod_sim'] = '_' + censo_pop_mun01['mun_cod_sim'].astype(str)

# Renomear coluna unidade_no para uf_no
censo_pop_mun01.rename(columns={'unidade_no': 'mun_no'}, inplace=True)

# Excluir colunas desnecessárias
censo_pop_mun01.drop(columns=['Cód.','Nível'], inplace=True)

# Ordenar as colunas
censo_pop_mun01 = censo_pop_mun01[['Ano','uf_co','UF','mun_cod_sim','mun_no','pop_total','pop_under74']]

censo_pop_mun01.head()

Unnamed: 0,Ano,uf_co,UF,mun_cod_sim,mun_no,pop_total,pop_under74
0,2010,_11,RO,_110001,Alta Floresta D'Oeste,24392,23948
1,2010,_11,RO,_110002,Ariquemes,90353,89037
2,2010,_11,RO,_110003,Cabixi,6313,6180
3,2010,_11,RO,_110004,Cacoal,78574,76947
4,2010,_11,RO,_110005,Cerejeiras,17029,16646


#### Arquivo pronto - censo por municípios e por UF

In [77]:
# Arquivo de População Censo Tratado (pronto para merge)
censo_pop_mun01.to_parquet('files_clean/censo_pop_mun.parquet')

In [78]:
# Salvar arquivo de População do Censo uf
censo_pop_uf.to_parquet('files_clean/censo_pop_uf.parquet')

## Merge de dados de CID e População no arquivo principal

### Merge de dados de CID

In [4]:
ocde_evit = pd.read_csv('downloads_outros/cid10_evit_ocde.csv')
ocde_evit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 346 entries, 0 to 345
Data columns (total 8 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   avoid_flag               346 non-null    object
 1   prevent_flag             189 non-null    object
 2   treat_flag               184 non-null    object
 3   Group                    346 non-null    object
 4   Causes of deaths         346 non-null    object
 5   Rationale for inclusion  346 non-null    object
 6   Range                    346 non-null    object
 7   cid_pai                  346 non-null    object
dtypes: object(8)
memory usage: 21.8+ KB


In [76]:
# Gerar nova tabela com valores únicos de CAUSABAS
dobr_evit_merged_temp = pd.read_parquet('files_clean/dobr_clean_2010_19a22.parquet')


In [77]:
dobr_evit_merged_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4446922 entries, 0 to 4446921
Data columns (total 4 columns):
 #   Column     Dtype 
---  ------     ----- 
 0   CAUSABAS   object
 1   CODMUNRES  object
 2   IDADE      int64 
 3   ANO_OBITO  object
dtypes: int64(1), object(3)
memory usage: 135.7+ MB


In [82]:
# Filtrar apenas anos de 2010 e 2020
dobr_evit_merged_temp01 = dobr_evit_merged_temp[dobr_evit_merged_temp['ANO_OBITO'].isin(['_2010', '_2020'])]
dobr_evit_merged_temp01['ANO_OBITO'].unique()

array(['_2020', '_2010'], dtype=object)

In [84]:
causas_unicas = dobr_evit_merged_temp01['CAUSABAS'].unique()

# Converter para DataFrame
df_causas_unicas = pd.DataFrame(causas_unicas, columns=['CAUSABAS'])

# Exibir as primeiras linhas do DataFrame
df_causas_unicas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10452 entries, 0 to 10451
Data columns (total 1 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   CAUSABAS  10452 non-null  object
dtypes: object(1)
memory usage: 81.8+ KB


In [85]:
# Fazer merge da lista de causas_unicas com a lista de causas evitáveis

df_a = df_causas_unicas
column_a = 'CAUSABAS'
df_b = ocde_evit
column_b = 'cid_pai'
column_return = 'avoid_flag'



# Função para verificar a correspondência e retornar a classificação
def verificar_correspondencia(row):
    for index, row_b in df_b.iterrows():
        if row[column_a].startswith(row_b[column_b]):
            return row_b[column_return]
    return 'causa não evitável'

# Aplicando a função a cada linha do DataFrame A
df_a['classificacao'] = df_a.apply(verificar_correspondencia, axis=1)

print(df_a)

       CAUSABAS        classificacao
0          B342   causa não evitável
1          F102  Avoidable mortality
2          A419   causa não evitável
3          E149  Avoidable mortality
4          E162   causa não evitável
...         ...                  ...
10447  W041      Avoidable mortality
10448  V155      Avoidable mortality
10449  R456       causa não evitável
10450  L303       causa não evitável
10451  D040       causa não evitável

[10452 rows x 2 columns]


In [86]:
# Merge dobr_evit_merged_temp01 and df_a by CAUSABAS
dobr_evit_merged_temp02 = pd.merge(dobr_evit_merged_temp01, df_a, on='CAUSABAS', how='left')

# Display the first few rows of the merged dataframe
dobr_evit_merged_temp02.head()

Unnamed: 0,CAUSABAS,CODMUNRES,IDADE,ANO_OBITO,classificacao
0,B342,_311760,74,_2020,causa não evitável
1,F102,_315140,63,_2020,Avoidable mortality
2,A419,_330455,74,_2020,causa não evitável
3,B342,_310620,57,_2020,causa não evitável
4,E149,_250750,69,_2020,Avoidable mortality


In [87]:
# Mostrar resultados de classificacao
dobr_evit_merged_temp02.groupby('classificacao').count()

Unnamed: 0_level_0,CAUSABAS,CODMUNRES,IDADE,ANO_OBITO
classificacao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Avoidable mortality,978472,978472,978472,978472
causa não evitável,667020,667020,667020,667020


In [88]:
# Manter na base só dados de CID evitáveis
dobr_evit_merged_temp03 = dobr_evit_merged_temp02[dobr_evit_merged_temp02['classificacao']=='Avoidable mortality']


#### Resultados do merge de cid_avoid e dobr

In [89]:
# Salvar arquivo final de DOBR
dobr_evit_merged_temp03.to_parquet('files_clean/dobr_evit_merged_v3.parquet')


In [90]:
# Contador

shape_origin = dobr_evit_merged_temp.CAUSABAS.count()
shape_filt = dobr_evit_merged_temp03.CAUSABAS.count()
dif = shape_origin - shape_filt


print_y(f"O número de óbitos após a limpeza e que constituía a base de dados de DO era de {shape_origin} óbitos")
print_y(f"O número de registros excluídos por apresentar CIDs NÃO EVITÁVEIS foi de {dif} óbitos")
print_y(f"O número de óbitos por CID EVITÁVEIS é de {shape_filt} óbitos")

[33m ==> O número de óbitos após a limpeza e que constituía a base de dados de DO era de 4446922 óbitos[0m
[33m ==> O número de registros excluídos por apresentar CIDs NÃO EVITÁVEIS foi de 3468450 óbitos[0m
[33m ==> O número de óbitos por CID EVITÁVEIS é de 978472 óbitos[0m


### Merge de dados de Municípios ao arquivo principal do SIM

Serão utilizados os arquivos:

* população: 'files_clean/censo_pop_clean.csv'

* sim: 'files_clean/dobr_clean.csv'

Como a população está clivada em Município, Idade (previamente, todos abaixo de 75 anos), Sexo e Raça, estes campos serão utilizados de maneira conjunta para realizar o merge.

In [17]:
# Verificar colunas de população no arquivo censo_pop_clean
censo_mun_temp = pd.read_parquet('files_clean/censo_pop_mun.parquet')
censo_mun_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11140 entries, 0 to 11139
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Ano          11140 non-null  object
 1   uf_co        11140 non-null  object
 2   UF           11140 non-null  object
 3   mun_cod_sim  11140 non-null  object
 4   mun_no       11140 non-null  object
 5   pop_total    11140 non-null  int64 
 6   pop_under74  11140 non-null  int64 
dtypes: int64(2), object(5)
memory usage: 609.3+ KB


In [18]:
censo_mun_temp.head()

Unnamed: 0,Ano,uf_co,UF,mun_cod_sim,mun_no,pop_total,pop_under74
0,2010,_11,RO,_110001,Alta Floresta D'Oeste,24392,23948
1,2010,_11,RO,_110002,Ariquemes,90353,89037
2,2010,_11,RO,_110003,Cabixi,6313,6180
3,2010,_11,RO,_110004,Cacoal,78574,76947
4,2010,_11,RO,_110005,Cerejeiras,17029,16646


In [20]:
# Para verificar o modelo IPES, vamos fazer o merge apenas com dados do Censo de 2010
censo_mun_temp01 = censo_mun_temp.loc[censo_mun_temp['Ano']=='2010']
censo_mun_temp01.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5570 entries, 0 to 5569
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Ano          5570 non-null   object
 1   uf_co        5570 non-null   object
 2   UF           5570 non-null   object
 3   mun_cod_sim  5570 non-null   object
 4   mun_no       5570 non-null   object
 5   pop_total    5570 non-null   int64 
 6   pop_under74  5570 non-null   int64 
dtypes: int64(2), object(5)
memory usage: 348.1+ KB


In [None]:
# Criar um campo string que concatene ANO, CODMUN_SIM, Sexo e cor # Não é preciso fazer o merge com o ano, pois iremos usar o Censo 2010 para todos os anos
# censo_pop_mun_4merge['POP_MERGE'] = '_' + censo_pop_mun_4merge['Ano'].astype(str) + censo_pop_mun_4merge['mun_cod_sim']

# censo_pop_mun_4merge.head()

In [91]:
# Exibir arquivo dobr_clean
dobr_merged_temp = pd.read_parquet('files_clean/dobr_evit_merged_v3.parquet')
dobr_merged_temp.head()


Unnamed: 0,CAUSABAS,CODMUNRES,IDADE,ANO_OBITO,classificacao
1,F102,_315140,63,_2020,Avoidable mortality
4,E149,_250750,69,_2020,Avoidable mortality
11,I619,_330455,66,_2020,Avoidable mortality
13,W849,_330455,58,_2020,Avoidable mortality
14,I10,_330455,68,_2020,Avoidable mortality


In [93]:
dobr_merged_temp.columns

Index(['CAUSABAS', 'CODMUNRES', 'IDADE', 'ANO_OBITO', 'classificacao'], dtype='object')

########## Este bloco de código a seguir retira o CAUSABAS

In [94]:
# Agrupar por CODMUNRES e somar os registros, não contabilizando mais por CAUSABAS

col_group= [
            # 'CAUSABAS', 
            'CODMUNRES', 'ANO_OBITO']
dobr_merged_temp01 = dobr_merged_temp.groupby(col_group)['CAUSABAS'].count().reset_index()

# Renomear o campo CAUSABAS para CONTADOR
dobr_merged_temp01.rename(columns={'CAUSABAS':'CONTADOR'}, inplace=True)

# Exibir as primeiras linhas do dataframe resultante
dobr_merged_temp01.head()

Unnamed: 0,CODMUNRES,ANO_OBITO,CONTADOR
0,_110000,_2010,20
1,_110000,_2020,7
2,_110001,_2010,58
3,_110001,_2020,68
4,_110002,_2010,217


In [95]:
# Verificar o total de óbitos da base antes e depois do groupby (após o groupby foi feita uma totalidade por soma das contagens por registro)
print(dobr_merged_temp['CAUSABAS'].count())
print(dobr_merged_temp01['CONTADOR'].sum())

978472
978472


In [96]:
# Verificação dos nomes das colunas
print(dobr_merged_temp01.columns)
print(censo_mun_temp01.columns)

Index(['CODMUNRES', 'ANO_OBITO', 'CONTADOR'], dtype='object')
Index(['Ano', 'uf_co', 'UF', 'mun_cod_sim', 'mun_no', 'pop_total',
       'pop_under74'],
      dtype='object')


In [97]:
# Definir campos de censo_pop para merge
censo_mun_temp02 = censo_mun_temp01[['mun_cod_sim','pop_under74','UF','mun_no']]

# Realizar o merge dos dataframes
dobr_merged_temp02 = pd.merge(dobr_merged_temp01, censo_mun_temp02, left_on=['CODMUNRES'], right_on=['mun_cod_sim'], how='left')

# Exibir as primeiras linhas do dataframe resultante
dobr_merged_temp02.head()

Unnamed: 0,CODMUNRES,ANO_OBITO,CONTADOR,mun_cod_sim,pop_under74,UF,mun_no
0,_110000,_2010,20,,,,
1,_110000,_2020,7,,,,
2,_110001,_2010,58,_110001,23948.0,RO,Alta Floresta D'Oeste
3,_110001,_2020,68,_110001,23948.0,RO,Alta Floresta D'Oeste
4,_110002,_2010,217,_110002,89037.0,RO,Ariquemes


In [98]:
# Filtrar registros onde pop_under74 não é nulo
dobr_merged_temp03 = dobr_merged_temp02.dropna(subset=['pop_under74']).reset_index(drop=True)

# Exibir os registros filtrados
dobr_merged_temp03.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11117 entries, 0 to 11116
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   CODMUNRES    11117 non-null  object 
 1   ANO_OBITO    11117 non-null  object 
 2   CONTADOR     11117 non-null  int64  
 3   mun_cod_sim  11117 non-null  object 
 4   pop_under74  11117 non-null  float64
 5   UF           11117 non-null  object 
 6   mun_no       11117 non-null  object 
dtypes: float64(1), int64(1), object(5)
memory usage: 608.1+ KB


In [99]:
# Verificar o total de óbitos da base depos da operação acima
print(dobr_merged_temp03['CONTADOR'].sum())

976505


##### Arquivo tratado final

In [100]:
# Salvar arquivo
dobr_merged_temp03.to_parquet('files_clean/dobr_merged_v3.parquet')

In [101]:
# Resultados

obito_origin = dobr_merged_temp.CAUSABAS.count()
obito_final = dobr_merged_temp03.CONTADOR.sum()
dif = obito_origin - obito_final

print_y(f" O número de óbitos após merge com tabela de CIDs evitáveis era de {obito_origin} óbitos ")

print_y(f" Foram excluídos, por apresentar problemas para carga de informações de município, {dif} óbitos ")

print_y(f" O número de óbitos total após filtro de CID evitáveis e inclusão de população do censo é de {obito_final} óbitos ")


# # Filtrar registros onde pop_under74 é null
# dobr_merged_pop_nulos = dobr_merged_pop[dobr_merged_pop['pop_under74'].isnull()]

# # Exibir os registros filtrados
# dobr_merged_pop_nulos['obito_count'].sum()

[33m ==>  O número de óbitos após merge com tabela de CIDs evitáveis era de 978472 óbitos [0m
[33m ==>  Foram excluídos, por apresentar problemas para carga de informações de município, 1967 óbitos [0m
[33m ==>  O número de óbitos total após filtro de CID evitáveis e inclusão de população do censo é de 976505 óbitos [0m


# Etapa 3 - Aplicação de Modelo do HEAT ao Bloco

O modelo HEAT apresenta um framework bem rígido e objetivo para carga de dados.

O dataset precisa estar organizado com os labels e de acordo com a definição presente no template.

E depois precisa ser validado em planilha excel disponibilizada pela organização.

Ajustes: com a identificação da população por sexo e raça, encontramos 37 registros com população 0. Tivemos que excluir estes registros (incluindo os óbitos) no momento da preparação do dataset do heat em razão do modelo não aceitar estes valores.

## Dataset 3 - IEPS BR/uf/Mun


O primeiro dataset que iremos construir tem as seguintes características:

* setting: Brasil
* dimension: UF
* subgroup: município

In [None]:
# # Mostrar colunas do template do HEAT

# import requests
# import openpyxl

# # Baixando o arquivo
# url = 'https://srhdpeuwpubsa.blob.core.windows.net/whdh/HIDR/heat_plus_template_validation.xlsm'
# response = requests.get(url)

# # Salvando o arquivo localmente (você pode escolher outro nome)
# with open('arquivo_excel.xlsm', 'wb') as f:
#     f.write(response.content)

# # Abrindo o arquivo Excel
# workbook = openpyxl.load_workbook('arquivo_excel.xlsm')

# # Selecionando a primeira aba
# sheet = workbook.template
# sheet = workbook['template']

# # Mostrar conteúdo da aba 'template'
# for row in sheet.iter_rows(values_only=True):
#     print(row)



('setting', 'date', 'source', 'indicator_abbr', 'indicator_name', 'dimension', 'subgroup', 'estimate', 'se', 'ci_lb', 'ci_ub', 'population', 'note', 'setting_average', 'iso3', 'favourable_indicator', 'indicator_scale', 'ordered_dimension', 'subgroup_order', 'reference_subgroup')


In [102]:
# Abrir arquivo final de DO após tratamento
heatds_temp = pd.read_parquet('files_clean/dobr_merged_v3.parquet')
heatds_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11117 entries, 0 to 11116
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   CODMUNRES    11117 non-null  object 
 1   ANO_OBITO    11117 non-null  object 
 2   CONTADOR     11117 non-null  int64  
 3   mun_cod_sim  11117 non-null  object 
 4   pop_under74  11117 non-null  float64
 5   UF           11117 non-null  object 
 6   mun_no       11117 non-null  object 
dtypes: float64(1), int64(1), object(5)
memory usage: 608.1+ KB


In [103]:
heatds_temp.head()

Unnamed: 0,CODMUNRES,ANO_OBITO,CONTADOR,mun_cod_sim,pop_under74,UF,mun_no
0,_110001,_2010,58,_110001,23948.0,RO,Alta Floresta D'Oeste
1,_110001,_2020,68,_110001,23948.0,RO,Alta Floresta D'Oeste
2,_110002,_2010,217,_110002,89037.0,RO,Ariquemes
3,_110002,_2020,266,_110002,89037.0,RO,Ariquemes
4,_110003,_2010,15,_110003,6180.0,RO,Cabixi


In [104]:
heatds_temp.columns

Index(['CODMUNRES', 'ANO_OBITO', 'CONTADOR', 'mun_cod_sim', 'pop_under74',
       'UF', 'mun_no'],
      dtype='object')

In [38]:
# # Agregar os dados sem CID e gerar colunas de soma de obito_count e pop_under74
# heat_semCID = heat_.groupby(['UF', 'mun_nome', 'CODMUNRES', 'SEXO', 'RACACOR', 'ANO']).agg({
#     'obito_count': 'sum',
#     'pop_under74': 'sum'
# }).reset_index()



In [105]:
# Gerar o indicador de mortalidade (por 100 mil habitantes) e exibir as primeiras linhas do DataFrame
heatds_temp01 = heatds_temp.copy()

heatds_temp01['mort_ind_mun'] = (heatds_temp01['CONTADOR']/heatds_temp01['pop_under74'])*100000

# Exibir as primeiras linhas do dataframe resultante
heatds_temp01.head()

Unnamed: 0,CODMUNRES,ANO_OBITO,CONTADOR,mun_cod_sim,pop_under74,UF,mun_no,mort_ind_mun
0,_110001,_2010,58,_110001,23948.0,RO,Alta Floresta D'Oeste,242.191415
1,_110001,_2020,68,_110001,23948.0,RO,Alta Floresta D'Oeste,283.948555
2,_110002,_2010,217,_110002,89037.0,RO,Ariquemes,243.718903
3,_110002,_2020,266,_110002,89037.0,RO,Ariquemes,298.752204
4,_110003,_2010,15,_110003,6180.0,RO,Cabixi,242.718447


In [106]:
# Verificar se existe valor infinito ou negativo na coluna mort_ind_mun
heatds_temp01.describe()

  sqr = _ensure_numeric((avg - values) ** 2)


Unnamed: 0,CONTADOR,pop_under74,mort_ind_mun
count,11117.0,11117.0,11117.0
mean,87.838895,33325.22,inf
std,506.484,196466.4,
min,1.0,0.0,12.64063
25%,12.0,5060.0,199.9429
50%,26.0,10620.0,253.463
75%,59.0,22735.0,304.1961
max,28299.0,10878060.0,inf


In [116]:
# Contar e gerar tabela de indicador de mortalidade infinitos [inf]
# registros_inf = heatds_temp01[np.isinf(heatds_temp01['mort_ind_mun'])]
inf_count = np.isinf(heatds_temp01['mort_ind_mun']).sum()

# Exibir os registros filtrados
print(f"Número de valores infinitos em mort_ind_mun: {inf_count}")
# registros_inf

# Exportar registros de indicador de mortalidade infinitos [inf]
# registros_inf.to_csv('exportar/relatorio_reg_mort_ind_inf.csv')

Número de valores infinitos em mort_ind_mun: 5


In [124]:
# Mostrar registros com números infinitos
registros_inf = heatds_temp01[np.isinf(heatds_temp01['mort_ind_mun'])]
registros_inf.head()

Unnamed: 0,CODMUNRES,ANO_OBITO,CONTADOR,mun_cod_sim,pop_under74,UF,mun_no,mort_ind_mun
448,_150475,_2020,39,_150475,0.0,PA,Mojuí dos Campos,inf
8993,_421265,_2020,28,_421265,0.0,SC,Pescaria Brava,inf
9196,_422000,_2020,63,_422000,0.0,SC,Balneário Rincão,inf
9829,_431454,_2020,3,_431454,0.0,RS,Pinto Bandeira,inf
10302,_500627,_2020,9,_500627,0.0,MS,Paraíso das Águas,inf


In [117]:
heatds_temp01.CONTADOR.sum()

976505

In [127]:
# # Limpar a base de registros de indicador de mortalidade infinitos [inf]
heatds_temp02 = heatds_temp01.copy()

# # Substituir valores infinitos por NaN
# heatds_temp02['mort_ind_mun'].replace([np.inf, -np.inf], np.nan, inplace=True)
heatds_temp02['mort_ind_mun_'] = heatds_temp02['mort_ind_mun'].replace([np.inf, -np.inf], np.nan)



In [136]:
# # Renomear colunas
heatds_temp03 = heatds_temp02.drop(columns=['mort_ind_mun'])

heatds_temp03.rename(columns={'mort_ind_mun_': 'mort_ind_mun'}, inplace=True)

heatds_temp03.head()

Unnamed: 0,CODMUNRES,ANO_OBITO,CONTADOR,mun_cod_sim,pop_under74,UF,mun_no,mort_ind_mun
0,_110001,_2010,58,_110001,23948.0,RO,Alta Floresta D'Oeste,242.191415
1,_110001,_2020,68,_110001,23948.0,RO,Alta Floresta D'Oeste,283.948555
2,_110002,_2010,217,_110002,89037.0,RO,Ariquemes,243.718903
3,_110002,_2020,266,_110002,89037.0,RO,Ariquemes,298.752204
4,_110003,_2010,15,_110003,6180.0,RO,Cabixi,242.718447


In [137]:
# Contar registros nulos na coluna mort_ind_mun
nulos_mort_ind_mun = heatds_temp02['mort_ind_mun'].isnull().sum()
print(f"Número de registros nulos em mort_ind_mun: {nulos_mort_ind_mun}")

Número de registros nulos em mort_ind_mun: 0


In [139]:
# Excluir registros com NaN na coluna mort_ind_mun
heatds_temp03.dropna(subset=['mort_ind_mun'], inplace=True)

# Verificar as primeiras linhas do DataFrame atualizado
heatds_temp03.head()

Unnamed: 0,CODMUNRES,ANO_OBITO,CONTADOR,mun_cod_sim,pop_under74,UF,mun_no,mort_ind_mun
0,_110001,_2010,58,_110001,23948.0,RO,Alta Floresta D'Oeste,242.191415
1,_110001,_2020,68,_110001,23948.0,RO,Alta Floresta D'Oeste,283.948555
2,_110002,_2010,217,_110002,89037.0,RO,Ariquemes,243.718903
3,_110002,_2020,266,_110002,89037.0,RO,Ariquemes,298.752204
4,_110003,_2010,15,_110003,6180.0,RO,Cabixi,242.718447


In [None]:
# Renomear coluna

In [140]:
# Comparar os valores antes e depois de excluir valores infinitos de indicador de mortalidade
origem = heatds_temp01.CONTADOR.sum()
final = heatds_temp03.CONTADOR.sum()
dif = final - origem
print_y(f'Antes da criação do indicador de mortalidade, tinhamos registro de {origem} mortes, dada a limpeza de {dif} registros, temos o total final de registros: {final}')

[33m ==> Antes da criação do indicador de mortalidade, tinhamos registro de 976505 mortes, dada a limpeza de -142 registros, temos o total final de registros: 976363[0m


In [74]:
# Verificar se existe valor infinito ou negativo na coluna mort_ind_mun
heatds_temp03.describe()

  sqr = _ensure_numeric((avg - values) ** 2)


Unnamed: 0,CONTADOR,pop_under74,mort_ind_mun
count,27817.0,27817.0,27817.0
mean,91.078405,33297.09,inf
std,510.470539,196376.9,
min,1.0,0.0,12.64063
25%,13.0,5051.0,215.289
50%,27.0,10598.0,267.6182
75%,62.0,22723.0,320.2254
max,28299.0,10878060.0,inf


##### Agrupar por UF para gerar setting e setting-average

De acordo com o template do HEAT, o setting average: "must be consistent for the same combinantion of: setting, year, source and indicator".

Isto implica que os valores para cada setting (UF) não traz interferência nem da dimensão (município) e nem do subgrupo (sexo-raça-cor).

In [195]:
heat_ds_treat1.columns

Index(['CODMUNRES', 'ANO_OBITO', 'POP_MERGE', 'CONTADOR', 'pop_under74', 'UF',
       'mun_no', 'mort_ind_mun'],
      dtype='object')

In [None]:
# # Agrupar por 'UF', 'ANO', e calcular a média de 'mort_ind'
# dobr_grouped_uf = heat_ds_treat2.groupby(['UF',
#                                              'ANO_OBITO',
#                                             #  'SEXO',
#                                             #  'RACACOR'
#                                              ]).agg({'CONTADOR': 'sum',
#                                                     'pop_under74': 'sum',
#                                                     'mort_ind_mun': 'mean'
#                                                 }).reset_index()
# dobr_grouped_uf.rename(columns={'mort_ind_mun': 'mort_ind_uf',
#                                 'CONTADOR': 'obito_count_uf',
#                                 'pop_under74': 'pop_under74_uf',
#                                 }, inplace=True)


# # Exibir as primeiras linhas do DataFrame resultante
# dobr_grouped_uf.head()

In [None]:
# dobr_grouped_uf.describe()

In [None]:
# Salvar arquivo por UF para exportação
# dobr_grouped_uf.to_excel('exportar/dobr_grouped_uf_v2.xlsx', index=False)

In [None]:
# heat_ds_treat2.columns

In [None]:
# # Trazer dados por UF (setting e setting_average)

# # Realizar o merge entre heat_ e uf_sett
# heat_treat00 = pd.merge(heat_ds_treat2, dobr_grouped_uf, on=['UF',
#                                                                 'ANO_OBITO',
#                                                                 # 'SEXO',
#                                                                 # 'RACACOR'
#                                                                 ], how='left')

# # Exibir as primeiras linhas do dataframe resultante
# heat_treat00.head()

In [None]:
# # Teste de aplicação de setting_average (médias por UF)
# filtered_data = heat_treat00[   (heat_treat00['ANO_OBITO'] == '_2022') &
#                                 (heat_treat00['UF'] == 'AC') 
#                                 # & (heat_treat00['SEXO'] == '_1') &
#                                 #(heat_treat00['RACACOR'] == '_4')
#                               ]
# filtered_data.head()

In [166]:
# heat_treat00.columns

Index(['CODMUNRES', 'ANO_OBITO', 'POP_MERGE', 'CONTADOR', 'pop_under74', 'UF',
       'mun_no', 'mort_ind_mun', 'obito_count_uf', 'pop_under74_uf',
       'mort_ind_uf'],
      dtype='object')

In [177]:
# heat_treat00.pop_under74_uf.sum()

74248156186.0

In [174]:
# obito_num = heat_treat00.CONTADOR.sum()
# pop_under74 = heat_treat00.pop_under74.sum()

# print(f"\033[33m ==> Número de mortes: {obito_num} \033[0m")
# print(f"\033[33m ==> Número de população abaixo de 75 anos é de {pop_under74} \033[0m")  


[31m ==> Número de mortes: 534729 [0m
[31m ==> Número de população abaixo de 75 anos é de 194644474.0 [0m


In [None]:
# heat_template = row
# heat_template

##### Criar colunas do dataset

In [141]:
# Agrupar os dados por ano e calcular o número de óbitos e a população abaixo de 74 anos para cada ano
grouped_data = heatds_temp03.groupby('ANO_OBITO').agg({
    'CONTADOR': 'sum',
    'pop_under74': 'sum'
}).reset_index()

# Calcular set_avg_BR para cada ano
grouped_data['set_avg_BR'] = (grouped_data['CONTADOR'] / grouped_data['pop_under74']) * 100000

# Exibir os resultados
print(grouped_data[['ANO_OBITO', 'set_avg_BR']])

  ANO_OBITO  set_avg_BR
0     _2010  257.615194
1     _2020  269.469531


In [197]:
# Realizar o merge entre heat_ds_treat2 e grouped_data usando a coluna ANO_OBITO
heat_ds_treat2 = pd.merge(heat_ds_treat1, grouped_data[['ANO_OBITO', 'set_avg_BR']], on='ANO_OBITO', how='left')

# Exibir as primeiras linhas do dataframe resultante
heat_ds_treat2.head()

Unnamed: 0,CODMUNRES,ANO_OBITO,POP_MERGE,CONTADOR,pop_under74,UF,mun_no,mort_ind_mun,set_avg_BR
0,_110001,_2010,_2010_110001,58,23948.0,RO,Alta Floresta D'Oeste,242.191415,257.615194
1,_110001,_2019,_2022_110001,67,20742.0,RO,Alta Floresta D'Oeste,323.016103,258.919766
2,_110001,_2020,_2022_110001,68,20742.0,RO,Alta Floresta D'Oeste,327.837238,256.542023
3,_110001,_2021,_2022_110001,45,20742.0,RO,Alta Floresta D'Oeste,216.951114,266.310807
4,_110001,_2022,_2022_110001,64,20742.0,RO,Alta Floresta D'Oeste,308.552695,274.720874


In [198]:
# Gerar colunas sem informação ou com informação padronizada
# heat_treat01 = heat_semCID_clean # caso não seja agrupado por UF anteriormente
heat_treat3 = heat_ds_treat2.copy() # caso seja agrupado por UF anteriormente

heat_treat3['setting'] = 'Brasil'
# heat_treat01['setting_average'] = set_avg_BR

heat_treat3['indicator_abbr'] = 'AVM'
heat_treat3['indicator_name'] = 'Avoidable mortality (deaths per 100 000 population)'
heat_treat3['source'] = 'SIM/SUS & Censo/IBGE'
heat_treat3['favourable_indicator'] = 0
heat_treat3['indicator_scale'] = 100000
heat_treat3['ordered_dimension'] = 0
heat_treat3['subgroup_order'] = 0
heat_treat3['reference_subgroup'] = 0
heat_treat3['note'] = ''
heat_treat3['se'] = ''
heat_treat3['ci_lb'] = ''
heat_treat3['ci_ub'] = ''
heat_treat3['iso3'] = 'BRA'


heat_treat3.head()


Unnamed: 0,CODMUNRES,ANO_OBITO,POP_MERGE,CONTADOR,pop_under74,UF,mun_no,mort_ind_mun,set_avg_BR,setting,...,favourable_indicator,indicator_scale,ordered_dimension,subgroup_order,reference_subgroup,note,se,ci_lb,ci_ub,iso3
0,_110001,_2010,_2010_110001,58,23948.0,RO,Alta Floresta D'Oeste,242.191415,257.615194,Brasil,...,0,100000,0,0,0,,,,,BRA
1,_110001,_2019,_2022_110001,67,20742.0,RO,Alta Floresta D'Oeste,323.016103,258.919766,Brasil,...,0,100000,0,0,0,,,,,BRA
2,_110001,_2020,_2022_110001,68,20742.0,RO,Alta Floresta D'Oeste,327.837238,256.542023,Brasil,...,0,100000,0,0,0,,,,,BRA
3,_110001,_2021,_2022_110001,45,20742.0,RO,Alta Floresta D'Oeste,216.951114,266.310807,Brasil,...,0,100000,0,0,0,,,,,BRA
4,_110001,_2022,_2022_110001,64,20742.0,RO,Alta Floresta D'Oeste,308.552695,274.720874,Brasil,...,0,100000,0,0,0,,,,,BRA


In [199]:
heat_treat3.columns

Index(['CODMUNRES', 'ANO_OBITO', 'POP_MERGE', 'CONTADOR', 'pop_under74', 'UF',
       'mun_no', 'mort_ind_mun', 'set_avg_BR', 'setting', 'indicator_abbr',
       'indicator_name', 'source', 'favourable_indicator', 'indicator_scale',
       'ordered_dimension', 'subgroup_order', 'reference_subgroup', 'note',
       'se', 'ci_lb', 'ci_ub', 'iso3'],
      dtype='object')

In [285]:
# # Trazer labels para sexo e raçacor
# heat_treat02 = heat_treat01.copy()

# heat_treat02['SEXO'] = heat_treat02['SEXO'].map({
#                                             '_1':'Homens',
#                                             '_2':'Mulheres'
#                                             })
# heat_treat02['RACACOR'] = heat_treat02['RACACOR'].map({
#                                             '_1':'Branca',
#                                             '_2':'Preta',
#                                             '_3':'Amarela',
#                                             '_4':'Parda',
#                                             '_5':'Indígena',
#                                             '_9':'Sem declaração'
#                                             })

# heat_treat02['subgroup'] = heat_treat02['SEXO'] + ' - raça/cor '  +  heat_treat02['RACACOR']


In [53]:
# heat_treat02['subgroup'].unique()

array(['Homens - raça/cor Parda', 'Mulheres - raça/cor Branca',
       'Mulheres - raça/cor Parda', 'Homens - raça/cor Branca',
       'Homens - raça/cor Indígena', 'Mulheres - raça/cor Indígena',
       'Homens - raça/cor Preta', 'Mulheres - raça/cor Preta',
       'Homens - raça/cor Amarela', 'Mulheres - raça/cor Amarela'],
      dtype=object)

In [286]:
# heat_treat02.columns

Index(['CODMUNRES', 'SEXO', 'RACACOR', 'ANO', 'POP_MERGE', 'obito_count',
       'pop_under74', 'UF', 'mun_nome', 'mort_ind_mun', 'obito_count_uf',
       'pop_under74_uf', 'mort_ind_uf', 'indicator_abbr', 'indicator_name',
       'source', 'favourable_indicator', 'indicator_scale',
       'ordered_dimension', 'subgroup_order', 'reference_subgroup', 'note',
       'se', 'ci_lb', 'ci_ub', 'iso3', 'subgroup'],
      dtype='object')

In [200]:
# Renomear colunas de heat_treat01
heat_treat4 = heat_treat3.rename(columns={
    'ANO_OBITO':'date',
    'pop_under74':'population',
    'UF':'dimension',
    'mun_no':'subgroup',
    'mort_ind_mun':'estimate',
    'set_avg_BR':'setting_average',
    # 'mort_ind_uf':'setting_average'
})

heat_treat4.head()

Unnamed: 0,CODMUNRES,date,POP_MERGE,CONTADOR,population,dimension,subgroup,estimate,setting_average,setting,...,favourable_indicator,indicator_scale,ordered_dimension,subgroup_order,reference_subgroup,note,se,ci_lb,ci_ub,iso3
0,_110001,_2010,_2010_110001,58,23948.0,RO,Alta Floresta D'Oeste,242.191415,257.615194,Brasil,...,0,100000,0,0,0,,,,,BRA
1,_110001,_2019,_2022_110001,67,20742.0,RO,Alta Floresta D'Oeste,323.016103,258.919766,Brasil,...,0,100000,0,0,0,,,,,BRA
2,_110001,_2020,_2022_110001,68,20742.0,RO,Alta Floresta D'Oeste,327.837238,256.542023,Brasil,...,0,100000,0,0,0,,,,,BRA
3,_110001,_2021,_2022_110001,45,20742.0,RO,Alta Floresta D'Oeste,216.951114,266.310807,Brasil,...,0,100000,0,0,0,,,,,BRA
4,_110001,_2022,_2022_110001,64,20742.0,RO,Alta Floresta D'Oeste,308.552695,274.720874,Brasil,...,0,100000,0,0,0,,,,,BRA


In [201]:
heat_treat4.CONTADOR.sum()

2533528

In [202]:
heat_treat4.estimate.describe()

count    27817.000000
mean       268.207663
std         87.673481
min         12.640627
25%        211.782434
50%        263.208494
75%        317.028986
max        940.733772
Name: estimate, dtype: float64

In [203]:
heat_treat4['date'] = heat_treat4['date'].str.replace('_','').astype(int)
heat_treat4.head()

Unnamed: 0,CODMUNRES,date,POP_MERGE,CONTADOR,population,dimension,subgroup,estimate,setting_average,setting,...,favourable_indicator,indicator_scale,ordered_dimension,subgroup_order,reference_subgroup,note,se,ci_lb,ci_ub,iso3
0,_110001,2010,_2010_110001,58,23948.0,RO,Alta Floresta D'Oeste,242.191415,257.615194,Brasil,...,0,100000,0,0,0,,,,,BRA
1,_110001,2019,_2022_110001,67,20742.0,RO,Alta Floresta D'Oeste,323.016103,258.919766,Brasil,...,0,100000,0,0,0,,,,,BRA
2,_110001,2020,_2022_110001,68,20742.0,RO,Alta Floresta D'Oeste,327.837238,256.542023,Brasil,...,0,100000,0,0,0,,,,,BRA
3,_110001,2021,_2022_110001,45,20742.0,RO,Alta Floresta D'Oeste,216.951114,266.310807,Brasil,...,0,100000,0,0,0,,,,,BRA
4,_110001,2022,_2022_110001,64,20742.0,RO,Alta Floresta D'Oeste,308.552695,274.720874,Brasil,...,0,100000,0,0,0,,,,,BRA


In [204]:
# Define the order of columns
column_order = [
    'setting',
    'date',
    'source',
    'indicator_abbr',
    'indicator_name',
    'dimension',
    'subgroup',
    'estimate',
    'se',
    'ci_lb',
    'ci_ub',
    'population',
    'note',
    'setting_average',
    'iso3',
    'favourable_indicator',
    'indicator_scale',
    'ordered_dimension',
    'subgroup_order',
    'reference_subgroup'
    ]  

# Reorder the columns in the DataFrame
heat_treat5 = heat_treat4[column_order]

# Transformar estimate e setting_average em int
heat_treat5['estimate'] = heat_treat5['estimate'].astype(int)
heat_treat5['setting_average'] = heat_treat5['setting_average'].astype(int)


heat_treat5.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27817 entries, 0 to 27816
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   setting               27817 non-null  object 
 1   date                  27817 non-null  int64  
 2   source                27817 non-null  object 
 3   indicator_abbr        27817 non-null  object 
 4   indicator_name        27817 non-null  object 
 5   dimension             27817 non-null  object 
 6   subgroup              27817 non-null  object 
 7   estimate              27817 non-null  int64  
 8   se                    27817 non-null  object 
 9   ci_lb                 27817 non-null  object 
 10  ci_ub                 27817 non-null  object 
 11  population            27817 non-null  float64
 12  note                  27817 non-null  object 
 13  setting_average       27817 non-null  int64  
 14  iso3                  27817 non-null  object 
 15  favourable_indicato

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  heat_treat5['estimate'] = heat_treat5['estimate'].astype(int)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  heat_treat5['setting_average'] = heat_treat5['setting_average'].astype(int)


In [205]:
### Arquivo pronto para exportação
heat_treat5.to_excel('exportar/ds_4val_v2.xlsx', index=False)

In [206]:
heat_treat5.shape[0]

27817

In [181]:
# Gerar arquivo dataset diretamente no arquivo de validação do HEAT

# Carregar o arquivo original
workbook = openpyxl.load_workbook('downloads_outros/heat_plus_template_validation.xlsm', keep_vba=True)

# Apagar a aba 'template'
if 'template' in workbook.sheetnames:
    del workbook['template']

# Carregar o arquivo que será copiado como nova aba
workbook_to_copy = openpyxl.load_workbook('exportar/ds_4val.xlsx')
sheet_to_copy = workbook_to_copy.active

# Copiar a aba para o workbook original
new_sheet = workbook.create_sheet('template')

for row in sheet_to_copy.iter_rows(values_only=True):
    new_sheet.append(row)

# Salvar o arquivo com o novo nome
workbook.save('exportar/heat_plus_template_ds_4val.xlsm')

# Etapa 4 - Reunião de alinhamento - ajustes

# Etapa 5 - Preparação para publicação de resultados