# Exploratory analysis and case study:
## Dataset do Opensus -> Sistema de informação de mortalidade Brasil. 

Ref: https://opendatasus.saude.gov.br/dataset/sim-2020-2021

"The Mortality Information System (SIM), developed by the Ministry of Health in 1975, is the product of the unification of more than forty Death Certificate models used over the years to collect data on mortality in the country. With its long series time, the SIM is a national heritage, since it has fundamental information so that we can know the aspects related to mortality in Brazil and the causes of illness that led to death. It is also one of the main instruments to support the elaboration of public policies more effective health and social security systems aimed at prevention, promotion and health care."


In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")

In [2]:
%reload_ext watermark
%watermark -a "Rodrigo S. Pereira" --iversions

Author: Rodrigo S. Pereira

pandas    : 1.4.2
seaborn   : 0.11.2
matplotlib: 3.5.1
numpy     : 1.22.3



In [3]:
# Load the dataset
data = pd.read_parquet('DO22OPEN.parquet')

In [4]:
data.head()

Unnamed: 0,contador,ORIGEM,TIPOBITO,DTOBITO,HORAOBITO,NATURAL,CODMUNNATU,DTNASC,IDADE,SEXO,...,TPRESGINFO,TPNIVELINV,DTCADINF,MORTEPARTO,DTCONCASO,ALTCAUSA,CAUSABAS_O,TPPOS,TP_ALTERA,CB_ALT
0,1,1,2,14012022,,831.0,316470.0,22051942.0,479.0,1,...,,,,,,,C229,N,,
1,2,1,2,15012022,1350.0,,,17042001.0,420.0,1,...,,,,,,,Y299,N,,
2,3,1,2,19012022,630.0,835.0,352700.0,24061930.0,491.0,1,...,,,,,,,B342,S,,
3,4,1,2,23012022,315.0,835.0,350030.0,6071931.0,490.0,2,...,,,,,,,B342,N,,
4,5,1,2,21012022,2151.0,825.0,250110.0,17121920.0,501.0,1,...,,,,,,,B342,S,,


In [5]:
data.shape

(1031744, 86)

In [6]:
data.columns

Index(['contador', 'ORIGEM', 'TIPOBITO', 'DTOBITO', 'HORAOBITO', 'NATURAL',
       'CODMUNNATU', 'DTNASC', 'IDADE', 'SEXO', 'RACACOR', 'ESTCIV', 'ESC',
       'ESC2010', 'SERIESCFAL', 'OCUP', 'CODMUNRES', 'LOCOCOR', 'CODESTAB',
       'CODMUNOCOR', 'IDADEMAE', 'ESCMAE', 'ESCMAE2010', 'SERIESCMAE',
       'OCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'GRAVIDEZ', 'SEMAGESTAC',
       'GESTACAO', 'PARTO', 'OBITOPARTO', 'PESO', 'TPMORTEOCO', 'OBITOGRAV',
       'OBITOPUERP', 'ASSISTMED', 'EXAME', 'CIRURGIA', 'NECROPSIA', 'LINHAA',
       'LINHAB', 'LINHAC', 'LINHAD', 'LINHAII', 'CAUSABAS', 'CB_PRE',
       'COMUNSVOIM', 'DTATESTADO', 'CIRCOBITO', 'ACIDTRAB', 'FONTE',
       'NUMEROLOTE', 'DTINVESTIG', 'DTCADASTRO', 'ATESTANTE', 'STCODIFICA',
       'CODIFICADO', 'VERSAOSIST', 'VERSAOSCB', 'FONTEINV', 'DTRECEBIM',
       'ATESTADO', 'DTRECORIGA', 'OPOR_DO', 'CAUSAMAT', 'ESCMAEAGR1',
       'ESCFALAGR1', 'STDOEPIDEM', 'STDONOVA', 'DIFDATA', 'NUDIASOBCO',
       'DTCADINV', 'TPOBITOCOR', 'DTCONINV',

Notas: 
    - O conjunto de dados possui em seu total 1031744 registros e 86 variáveis; 
    - Das variáveis presentes no dataset original, podemos excluir "contador", "ORIGEM";
   
Seleção de variáveis para primeira análise: 

    - TIPOBITO: Fetal/Nao Fetal ( Selecionar somente os não Fetal);
    - DTOBITO: Data do óbito formato ddmmaaaa; 
    - DTNASC: Data do nascimento do falecido, formato ddmmaaaa;
    - IDADE: Idade do falecido em minutos, horas, dias, meses ou anos;
    - SEXO: 
    - RACACOR: raça e cor
    - ESTCIV: estado civil
    - ESC2010: nível da escolaridade
    - ESC: Escolaridade por tempo
    - OCUP: Tipo de trabalho que o falecido desenvolveu na maior parte de sua vida
            produtiva.
    - LOCOCOR: Local de ocorrencia do óbito;
    - CODMUNOCOR: código do municipio onde ocorreu o óbito;
    - OBITOGRAV: Óbito na gravidez;
    - OBITOPUERP: Óbito no puerpério
    - LINHAA:
    - LINHAB:
    - LINHAC: 
    - LINHAD:
    - LINHAII:
    - CAUSABAS: Causa básica da DO. 
    - CIRCOBITO: Tipo de morte violenta ou circunstâncias em que se deu a morte não natural.
    - ACIDTRAB: Indica se o evento que desencadeou o óbito está relacionado ao processo de
                trabalho;
    - ASSISTMED: assistencia médica antes da ocorrencia do óbito;
    
    

In [7]:
select_var = ['TIPOBITO', 'DTOBITO', 'DTNASC', 'IDADE', 'SEXO', 'RACACOR', 'ESTCIV','ESC2010',
             'ESC', 'OCUP', 'LOCOCOR', 'CODMUNOCOR', 'OBITOGRAV', 'OBITOPUERP', 'LINHAA', 'LINHAB',
             'LINHAC', 'LINHAD', 'LINHAII', 'CAUSABAS', 'CIRCOBITO', 'ACIDTRAB', 'ASSISTMED']

In [8]:
df = data[select_var]
df.shape

(1031744, 23)

In [9]:
# Verify the value null in all dataframe and that % of total observations: 
count_datas_null = pd.DataFrame(df.isnull().sum().sort_values(), columns=['Total null'])
count_datas_null['%'] = count_datas_null['Total null']/df.shape[0]*100
count_datas_null

Unnamed: 0,Total null,%
TIPOBITO,0,0.0
CAUSABAS,0,0.0
LOCOCOR,0,0.0
SEXO,0,0.0
CODMUNOCOR,0,0.0
DTOBITO,0,0.0
IDADE,17718,1.717286
DTNASC,19701,1.909485
LINHAA,32587,3.158439
RACACOR,38227,3.705086


* For this first analysis, we consider trunced variable with no more with 20% of lost data, however follow the variables: 

In [21]:
select_var = count_datas_null[count_datas_null['%'] < 20].index.values
select_var

array(['TIPOBITO', 'CAUSABAS', 'LOCOCOR', 'SEXO', 'CODMUNOCOR', 'DTOBITO',
       'IDADE', 'DTNASC', 'LINHAA', 'RACACOR', 'ESTCIV', 'ESC', 'ESC2010',
       'OCUP'], dtype=object)

In [23]:
# Filtering the data by select_var: 
df2 = df[select_df.index.values]
df2.head()

Unnamed: 0,TIPOBITO,CAUSABAS,LOCOCOR,SEXO,CODMUNOCOR,DTOBITO,IDADE,DTNASC,LINHAA,RACACOR,ESTCIV,ESC,ESC2010,OCUP
0,2,C229,3,1,352050,14012022,479.0,22051942.0,*J180,1.0,,9.0,9.0,999993.0
1,2,Y299,1,1,355620,15012022,420.0,17042001.0,*S069,1.0,1.0,9.0,9.0,
2,2,B342,1,1,350950,19012022,491.0,24061930.0,*J960,1.0,2.0,3.0,1.0,999993.0
3,2,B342,1,2,350950,23012022,490.0,6071931.0,*J960,1.0,2.0,5.0,5.0,999993.0
4,2,J988,2,1,350950,21012022,501.0,17121920.0,*J960,1.0,3.0,3.0,1.0,621005.0


Do select process for the representative variable, now wee need to work on the change some data for put in better visualization and a post processing of the exploratory data. 

Relation of the select variable and how is the process for apply: 
* TIPOBITO: Change the number 1/2 for fetal and not fetal and drop itens with have fetal mode.

In [32]:
# Ajustment of var TIPOBITO: 
df2.TIPOBITO = df2.TIPOBITO.replace(2, 'Not_Fetal')
df2.TIPOBITO = df2.TIPOBITO.replace(1, 'Fetal')

#removing the "fetal" mode on TIPOBITO of the dataset
df2 = df2[df2.TIPOBITO == 'Not_Fetal']

In [33]:
df2.shape

(1014026, 14)

In [34]:
df2.head()

Unnamed: 0,TIPOBITO,CAUSABAS,LOCOCOR,SEXO,CODMUNOCOR,DTOBITO,IDADE,DTNASC,LINHAA,RACACOR,ESTCIV,ESC,ESC2010,OCUP
0,Not_Fetal,C229,3,1,352050,14012022,479.0,22051942.0,*J180,1.0,,9.0,9.0,999993.0
1,Not_Fetal,Y299,1,1,355620,15012022,420.0,17042001.0,*S069,1.0,1.0,9.0,9.0,
2,Not_Fetal,B342,1,1,350950,19012022,491.0,24061930.0,*J960,1.0,2.0,3.0,1.0,999993.0
3,Not_Fetal,B342,1,2,350950,23012022,490.0,6071931.0,*J960,1.0,2.0,5.0,5.0,999993.0
4,Not_Fetal,J988,2,1,350950,21012022,501.0,17121920.0,*J960,1.0,3.0,3.0,1.0,621005.0
