# Análise Exploratória
## SIM-DOEXT

In [18]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

In [19]:
sim_doext = pd.read_csv("assets\Dados\SIM-DOEXT.csv")
sim_doext.head()

Unnamed: 0.1,Unnamed: 0,ACIDENTE_TRABALHO,TIPO_OBITO,CAUSABAS,DATA
0,0,Ignorado,Ignorado,Y240,1996/01/6
1,1,Suicídio,Sim,W740,1996/01/19
2,2,Ignorado,Ignorado,Y090,1996/01/6
3,3,Ignorado,Ignorado,Y240,1996/01/7
4,4,Suicídio,Sim,X599,1996/01/27


In [20]:
sim_doext.rename(columns={'ACIDENTE_TRABALHO':'TIPO_OBITO', 'TIPO_OBITO':'ACIDENTE_TRABALHO'}, inplace=True)
sim_doext.head()

Unnamed: 0.1,Unnamed: 0,TIPO_OBITO,ACIDENTE_TRABALHO,CAUSABAS,DATA
0,0,Ignorado,Ignorado,Y240,1996/01/6
1,1,Suicídio,Sim,W740,1996/01/19
2,2,Ignorado,Ignorado,Y090,1996/01/6
3,3,Ignorado,Ignorado,Y240,1996/01/7
4,4,Suicídio,Sim,X599,1996/01/27


In [22]:
sim_doext.to_csv("assets\Dados\SIM-DOEXT.csv", index=False)

In [7]:
# Extraindo as frequências absolutas dos tipos de óbito (menos "Ignorado")
labels = sim_doext['TIPO_OBITO'].value_counts().index[1:]
values = sim_doext['TIPO_OBITO'].value_counts().values[1:]

# Gráfico de pizza
fig = go.Figure(data=[go.Pie(labels=labels, values=values)])
fig.update(layout_title_text = 'Distribuições dos Tipos de Óbito')
fig.show()

In [8]:
# Extraindo as informações para determinar a quantidade de acidentes de trabalho
labels = sim_doext['ACIDENTE_TRABALHO'].value_counts().index[1:]
values = sim_doext['ACIDENTE_TRABALHO'].value_counts().values[1:]

# Gráfico de pizza
fig = go.Figure(data=[go.Pie(labels=labels, values=values)])
fig.update(layout_title_text = 'Quantidade de óbitos que são (ou não) acidentes')
fig.show()

In [9]:
# Armazenando as maiores frequências de causas não naturais de óbitos
death_freq = sim_doext['CAUSABAS'].value_counts()
death_freq

# Histograma das 30 causas de óbito mais frequentes
fig = px.bar(x=death_freq.index[0:31], y=death_freq.values[0:31], title='Causas de óbito não naturais mais frequentes')
fig.update_xaxes(title_text = "Código da causa do óbito (CID-10)")
fig.update_yaxes(title_text = "Quantidade de óbitos")
fig.show()

In [10]:
# Extraindo o ano em que os óbitos aconteceram
extract_year = lambda x: x.split('/')[0]
sim_doext['ANOOBITO'] = sim_doext['DATA'].apply(extract_year)
sim_doext[['DATA', 'ANOOBITO']].head()

Unnamed: 0,DATA,ANOOBITO
0,1996/01/6,1996
1,1996/01/19,1996
2,1996/01/6,1996
3,1996/01/7,1996
4,1996/01/27,1996


In [11]:
# Armazenando as informações das mortes por acidente por ano
accident_deaths_counts = sim_doext[sim_doext['ACIDENTE_TRABALHO'] == 'Sim'].value_counts(['ANOOBITO']).reset_index(name='QTD').sort_values(by=['ANOOBITO'])
accident_deaths_counts

Unnamed: 0,ANOOBITO,QTD
11,1996,61666
12,1997,61088
21,1998,53443
19,1999,54478
24,2000,51340
25,2001,50849
22,2002,53163
23,2003,53081
18,2004,55292
17,2005,57140


In [12]:
# Histograma
fig = px.bar(accident_deaths_counts, x = 'ANOOBITO', y = 'QTD', title='Quantidade de óbitos causados por acidentes de trabalho ao logo dos anos')
fig.update_xaxes(title_text = "Ano")
fig.update_yaxes(title_text = "Quantidade")
fig.show()

Causas de acidentes a serem analisadas:

* W70: Afogamento
* V87: Acidente de transporte

In [13]:
# Separando os dados
df_drowning = sim_doext[sim_doext.CAUSABAS.str.contains("W70", regex=False)]
df_drowning.head()

Unnamed: 0.1,Unnamed: 0,TIPO_OBITO,ACIDENTE_TRABALHO,CAUSABAS,DATA,ANOOBITO
704,704,Ignorado,Sim,W700,1996/10/25,1996
1394,1394,Ignorado,Sim,W708,1996/01/20,1996
1396,1396,Ignorado,Sim,W708,1996/01/20,1996
1397,1397,Suicídio,Sim,W708,1996/01/20,1996
1398,1398,Suicídio,Sim,W708,1996/01/20,1996


Qual a porcentagem de mortes acidentais por afogamento?

In [14]:
labels = df_drowning['ACIDENTE_TRABALHO'].value_counts().index
values = df_drowning['ACIDENTE_TRABALHO'].value_counts().values

# Gráfico de pizza
fig = go.Figure(data=[go.Pie(labels=labels, values=values)])
fig.update(layout_title_text = 'Quantidade de óbitos por afogamento que são (ou não) acidentes')
fig.show()

Qual a porcentagem de mortes acidentais em acidentes em transportes?

In [15]:
# Separando os dados
df_transport = sim_doext[sim_doext.CAUSABAS.str.contains("V87", regex=False)]
df_transport.head()

Unnamed: 0.1,Unnamed: 0,TIPO_OBITO,ACIDENTE_TRABALHO,CAUSABAS,DATA,ANOOBITO
2503,2503,Ignorado,Sim,V879,1996/02/18,1996
4616,4616,Ignorado,Sim,V878,1996/09/20,1996
6786,6786,Ignorado,Sim,V879,1996/08/27,1996
7217,7217,Ignorado,Sim,V877,1996/10/11,1996
7218,7218,Ignorado,Sim,V877,1996/10/11,1996


In [16]:
labels = df_transport['ACIDENTE_TRABALHO'].value_counts().index
values = df_transport['ACIDENTE_TRABALHO'].value_counts().values

# Gráfico de pizza
fig = go.Figure(data=[go.Pie(labels=labels, values=values)])
fig.update(layout_title_text = 'Quantidade de óbitos por afogamento que são (ou não) acidentes')
fig.show()