# Notebook para visualização dos dados brutos escolhidos inicialmente

## Importação das Bibliotecas

In [1]:
import pandas as pd
import matplotlib.pylab as plt
import seaborn as sns
import zipfile
import os

## Visualização dos dados

In [2]:
PATH_ARQUIVO_ZIP = '../data/raw/dados_obitos_sim_2006_2017.zip'

In [3]:
# Extração do zip do arquivo bruto
if os.path.exists(PATH_ARQUIVO_ZIP):
    with zipfile.ZipFile(PATH_ARQUIVO_ZIP, 'r') as zip_ref:
        zip_ref.extractall('../data/raw/')
else:
    print(f'Arquivo {PATH_ARQUIVO_ZIP} não existe. Talvez você esqueceu de executar um dvc pull ...')

In [4]:
# Após extrair o zip, pode-se abrir o .csv com o pandas
df = pd.read_csv('../data/raw/sim_2006_2017.csv')

  df = pd.read_csv('../data/raw/sim_2006_2017.csv')


## EDA

### Entendendo as features

In [5]:
# Número de linhas e colunas
df.shape

(3237593, 51)

In [6]:
# Nome das colunas
df.columns

Index(['ACIDTRAB', 'ASSISTMED', 'ATESTANTE', 'CAUSABAS', 'CAUSABAS_O',
       'CIRCOBITO', 'CIRURGIA', 'CODESTAB', 'CODINST', 'CODMUNOCOR',
       'CODMUNRES', 'DTATESTADO', 'DTCADASTRO', 'DTINVESTIG', 'DTNASC',
       'DTOBITO', 'DTRECEBIM', 'ESC', 'ESCMAE', 'ESTCIV', 'EXAME', 'FONTE',
       'FONTEINV', 'GESTACAO', 'GRAVIDEZ', 'HORAOBITO', 'IDADE', 'IDADEMAE',
       'LINHAA', 'LINHAB', 'LINHAC', 'LINHAD', 'LINHAII', 'LOCOCOR', 'NATURAL',
       'NECROPSIA', 'NUMERODN', 'NUMERODO', 'OBITOGRAV', 'OBITOPARTO',
       'OBITOPUERP', 'OCUP', 'OCUPMAE', 'PARTO', 'PESO', 'QTDFILMORT',
       'QTDFILVIVO', 'RACACOR', 'SEXO', 'TIPOBITO', 'TPPOS'],
      dtype='object')

In [7]:
# Exclusão de quaisquer colunas com 50% ou mais de valores vazios
NA_val = df.isna().sum()
def na_filter(na, threshold = .5):
    col_pass = []
    for i in na.keys():
        if na[i]/df.shape[0]<threshold:
            col_pass.append(i)
    return col_pass

df = df[na_filter(NA_val)]

In [8]:
# Nesse dataset, só existem óbitos não fetais
# Porém, existem algumas colunas que são exclusivas para óbitos fetais.
# Logo elas podem ser descartadas
df["TIPOBITO"].unique()

array([2])

In [9]:
# Remoção de colunas que não convém
df = df.drop(columns=["ATESTANTE", "CAUSABAS_O", "CODESTAB", "CODINST", "CODMUNOCOR",
                      "CODMUNRES", "DTATESTADO", "DTCADASTRO", "DTNASC", "DTRECEBIM", "LINHAA", "LINHAB",
                      "LINHAC", "NECROPSIA", "NUMERODO", "TIPOBITO", "TPPOS"])

In [10]:
# Nome das colunas restantes
df.columns

Index(['ASSISTMED', 'CAUSABAS', 'DTOBITO', 'ESC', 'ESTCIV', 'HORAOBITO',
       'IDADE', 'LOCOCOR', 'NATURAL', 'OCUP', 'RACACOR', 'SEXO'],
      dtype='object')

In [11]:
# Olhada nos dados
# É possível observar as colunas com somente valores NaN
df.head()

Unnamed: 0,ASSISTMED,CAUSABAS,DTOBITO,ESC,ESTCIV,HORAOBITO,IDADE,LOCOCOR,NATURAL,OCUP,RACACOR,SEXO
0,,R092,9022006,9.0,4.0,130.0,463.0,3.0,,999993.0,1.0,1
1,,R98,26012006,2.0,2.0,1130.0,481.0,3.0,,214305.0,,1
2,1.0,R092,19032006,2.0,3.0,1520.0,493.0,3.0,,514105.0,1.0,2
3,1.0,R99,21112006,2.0,1.0,1000.0,489.0,3.0,77.0,214305.0,1.0,1
4,,R98,16042006,9.0,3.0,2130.0,480.0,3.0,,,1.0,2


In [12]:
# Valores únicos de cada variável
# É possivel verificar colunas "redundantes", com pouquíssimos valores distintos
df.nunique(axis=0)

ASSISTMED       3
CAUSABAS     6245
DTOBITO      4383
ESC             7
ESTCIV          6
HORAOBITO    4401
IDADE         250
LOCOCOR         6
NATURAL       237
OCUP         2220
RACACOR         6
SEXO            4
dtype: int64

In [13]:
# Descrição do dataframe
df.describe().apply(lambda s: s.apply(lambda x: format(x, 'f')))

Unnamed: 0,ASSISTMED,DTOBITO,ESC,ESTCIV,IDADE,LOCOCOR,NATURAL,OCUP,RACACOR,SEXO
count,1762473.0,3237593.0,2697753.0,3048594.0,3236944.0,3237591.0,2280507.0,2477521.0,3107476.0,3237593.0
mean,1.933994,15758463.709103,3.611096,2.428918,461.141414,1.548505,803.195749,826337.314797,1.595774,1.444785
std,2.414693,8789155.369934,2.537835,1.429391,54.780199,1.04287,141.681176,265871.134419,1.135078,0.499555
min,1.0,1012006.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0
25%,1.0,8082007.0,2.0,2.0,454.0,1.0,829.0,715210.0,1.0,1.0
50%,1.0,16022016.0,3.0,2.0,469.0,1.0,835.0,999992.0,1.0,1.0
75%,1.0,23102007.0,4.0,3.0,481.0,2.0,835.0,999993.0,1.0,2.0
max,9.0,31122017.0,9.0,9.0,999.0,9.0,999.0,999994.0,9.0,9.0


### Tratamento dos Dados

* A coluna CAUSABAS apresenta a causa básica do óbito de acordo com a CID. Para melhor análise a ideia é classifica-los em suicidio ou não suicídio

* CAUSABAS de X600 a X849 são considerados óbitos por lesão auto provocada


In [14]:
range_suicidio = [f"X{i}" for i in range(600, 850)]
df["SUICIDIO"] = df.apply(lambda row: 1 if row["CAUSABAS"] in range_suicidio else 0, axis=1)
del df["CAUSABAS"]

In [15]:
# Contagens de óbitos por súicidio e por outras causas
df["SUICIDIO"].value_counts()

SUICIDIO
0    3212973
1      24620
Name: count, dtype: int64

In [16]:
# Porcentagem de óbitos por suícidio
(24620 / 3237593) * 100

0.7604414761213037

### Analisando as correlações

In [17]:
from ydata_profiling import ProfileReport
profile = ProfileReport(df, title="Profiling Report")
profile.to_file("eda.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

  annotation = ("{:" + self.fmt + "}").format(val)
(using `df.profile_report(missing_diagrams={"Heatmap": False}`)
If this is problematic for your use case, please report this as an issue:
https://github.com/ydataai/ydata-profiling/issues
(include the error message: 'could not convert string to float: '--'')


Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

In [None]:
df.to_parquet("../data/interim/sim_2006_2017.parquet")