In [1]:
import numpy as np
import pandas as pd
from scipy import special
from random import sample
import itertools
from datetime import timedelta
import re

In [2]:
#os dados dos dois primeiros trimestres de 2018 não estão disponíveis da mesma forma na plataforma
arquivoOrigem = 'datasets/result/dados_cat_2018.csv'

nomeArquivoCid = 'datasets/result/2018/dados_cid_2018.csv'
nomeArquivoUF = 'datasets/result/2018/dados_uf_2018.csv'
nomeArquivoCBO = 'datasets/result/2018/dados_cbo_2018.csv'
nomeArquivoAnoMes = 'datasets/result/2018/dados_anoMes_2018.csv'
nomeArquivoCNAE = 'datasets/result/2018/dados_cnae_2018.csv'
nomeArquivoParte = 'datasets/result/2018/dados_parte_2018.csv'
nomeArquivoSexo = 'datasets/result/2018/dados_sexo_2018.csv'
nomeArquivoIdade = 'datasets/result/2018/dados_idade_2018.csv'
nomeArquivoObitos = 'datasets/result/2018/dados_obitos_2018.csv'
nomeArquivoTipoAcidente = 'datasets/result/2018/dados_tipoAcidente_2018.csv'
nomeArquivoNatureza = 'datasets/result/2018/dados_natureza_2018.csv'

In [3]:
columns_types = {'cbo': int, 'cid': str, 'cnae': int, 'obito': str, 'parte': str, 'sexo': str, 
                 'tipo_acidente': str, 'uf_emp': str, 'idade': int, 'anoMes': str}

nomes  = ['cbo', 'cid', 'cnae', 'obito', 'parte', 'sexo', 'tipo_acidente', 'uf_emp', 'idade', 'anoMes']

dados_originais = pd.read_csv(arquivoOrigem, sep = ';', header=0, names=nomes, dtype=columns_types, encoding='utf8')

df_original = pd.DataFrame(data = dados_originais)

In [5]:
df_original.index = range(df_original.shape[0])
df_original.shape[0]   # -> qtde total de acidentes analisados de 2018, deverá ser igual a 241816

241816

In [6]:
#Análise dos 20 CIDs de maior incidência em 2018:
df_cid = pd.DataFrame(df_original['cid'].value_counts())
df_cid.rename(columns={"id": "cid", "cid": "qtde"}, inplace=True)
df_cid_mais = df_cid.head(10).copy()
df_cid_mais.index.name='cid'

df_cid_mais.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, S610 to S611
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   qtde    10 non-null     int64
dtypes: int64(1)
memory usage: 160.0+ bytes


In [7]:
df_cid_mais.head(10)

Unnamed: 0_level_0,qtde
cid,Unnamed: 1_level_1
S610,14499
S934,9349
S626,7158
Z209,6496
S800,5376
S600,5046
S61,4196
S602,3431
T07,3399
S611,3396


In [8]:
df_cid_mais.to_csv(nomeArquivoCid, sep = ';', encoding='UTF-8')

In [10]:
#qtde total de casos de ocorrência no dataFrame com os 10 maiores CIDs por ordem de ocorrência em 2018:
df_cid_mais['qtde'].sum()  # 62346

62346

In [11]:
#Análise das 20 UFs de maior incidência de CAT em 2018:
df_uf = pd.DataFrame(df_original['uf_emp'].value_counts())
df_uf.rename(columns={"uf_emp": "qtde"}, inplace=True)
df_uf_mais = df_uf.head(30).copy()
df_uf_mais.index.name='uf_emp'
df_uf_mais.info()

<class 'pandas.core.frame.DataFrame'>
Index: 27 entries, São Paulo to Amapá
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   qtde    27 non-null     int64
dtypes: int64(1)
memory usage: 432.0+ bytes


In [12]:
df_uf_mais.head(30)

Unnamed: 0_level_0,qtde
uf_emp,Unnamed: 1_level_1
São Paulo,90302
Minas Gerais,24063
Rio Grande do Sul,19774
Paraná,19629
Rio de Janeiro,16096
Santa Catarina,13996
Goiás,6858
Espírito Santo,5721
Bahia,5570
Mato Grosso,5276


In [13]:
#qtde total de casos de ocorrência no dataFrame com os UFs por ordem de ocorrência em 2020:
df_uf_mais['qtde'].sum() #241810

241816

In [14]:
df_uf_mais.to_csv(nomeArquivoUF, sep = ';', encoding='UTF-8')

In [15]:
#Análise das 20 CBOs de maior incidência de CAT em 2018:
df_cbo = pd.DataFrame(df_original['cbo'].value_counts())
df_cbo.rename(columns={"cbo": "qtde"}, inplace=True)
df_cbo_mais = df_cbo.head(10).copy()
df_cbo_mais.index.name='cbo'
df_cbo_mais.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10 entries, 322205 to 514205
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   qtde    10 non-null     int64
dtypes: int64(1)
memory usage: 160.0 bytes


In [16]:
df_cbo_mais.head(10)

Unnamed: 0_level_0,qtde
cbo,Unnamed: 1_level_1
322205,14579
784205,13985
514320,9206
782510,5764
717020,4685
521110,4222
411005,3944
411010,3551
521125,3453
514205,3378


In [17]:
#qtde total de casos de ocorrência no dataFrame com os 20 maiores CBOs por ordem de ocorrência em 2018:
df_cbo_mais['qtde'].sum() #66767

66767

In [18]:
df_cbo_mais.to_csv(nomeArquivoCBO, sep = ';', encoding='UTF-8')

In [19]:
#Análise da incidência dos acidentes em meses de 2018:
df_mes = pd.DataFrame(df_original['anoMes'].value_counts())
df_mes.rename(columns={"anoMes": "qtde"}, inplace=True)
df_mes_mais = df_mes.head(12).copy()
df_mes_mais.index.name='anoMes'

df_mes_mais.head(12)

Unnamed: 0_level_0,qtde
anoMes,Unnamed: 1_level_1
201808,44441
201810,43450
201807,40515
201809,37878
201811,37547
201812,27953
201806,7145
201805,1174
201804,670
201803,498


In [20]:
df_mes_mais.to_csv(nomeArquivoAnoMes, sep = ';', encoding='UTF-8')

In [21]:
#Análise da incidência dos acidentes por CNAE:
df_cnae = pd.DataFrame(df_original['cnae'].value_counts())
df_cnae.rename(columns={"cnae": "qtde"}, inplace=True)

df_cnae_mais = df_cnae.head(10).copy()
df_cnae_mais.index.name='cnae'

df_cnae_mais.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10 entries, 8610 to 3811
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   qtde    10 non-null     int64
dtypes: int64(1)
memory usage: 160.0 bytes


In [22]:
df_cnae_mais.head(10)

Unnamed: 0_level_0,qtde
cnae,Unnamed: 1_level_1
8610,25755
4711,9918
4930,6425
8411,6193
1012,5204
5611,5118
5310,4536
4120,4378
1011,3825
3811,3636


In [24]:
#qtde total de casos de ocorrência no dataFrame com os 20 maiores CNAEs por ordem de ocorrência em 2018:
df_cnae_mais['qtde'].sum() #74988

74988

In [25]:
df_cnae_mais.to_csv(nomeArquivoCNAE, sep = ';', encoding='UTF-8')

In [26]:
#Análise da incidência dos acidentes por parte do corpo atingida:
df_parte = pd.DataFrame(df_original['parte'].value_counts())
df_parte.rename(columns={"parte": "qtde"}, inplace=True)

df_parte_mais = df_parte.head(10).copy()
df_parte_mais.index.name='parte'

df_parte_mais.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, Dedo to Perna (Entre O Torno
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   qtde    10 non-null     int64
dtypes: int64(1)
memory usage: 160.0+ bytes


In [27]:
df_parte_mais.head(10)

Unnamed: 0_level_0,qtde
parte,Unnamed: 1_level_1
Dedo,56395
Pe (Exceto Artelhos),19670
Mao (Exceto Punho ou,17647
Joelho,12950
Partes Multiplas - A,11297
Articulacao do Torno,10300
"Perna (Do Tornozelo,",8763
Antebraco (Entre O P,8514
Ombro,8157
Perna (Entre O Torno,8149


In [28]:
#qtde total de casos de ocorrência no dataFrame com os 20 maiores CNAEs por ordem de ocorrência em 2018:
df_parte_mais['qtde'].sum() #161842

161842

In [29]:
df_parte_mais.to_csv(nomeArquivoParte, sep = ';', encoding='UTF-8')

In [30]:
#Análise da incidência dos acidentes, separados por sexo (M ou F):
df_sexo = pd.DataFrame(df_original['sexo'].value_counts())
df_sexo.rename(columns={"sexo": "qtde"}, inplace=True)

df_sexo_mais = df_sexo.head(5).copy()  # pode haver alguma opção para 'não informado'
df_sexo_mais.index.name='sexo'

df_sexo_mais.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Masculino to Indeterminado
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   qtde    4 non-null      int64
dtypes: int64(1)
memory usage: 64.0+ bytes


In [31]:
df_sexo_mais.head()

Unnamed: 0_level_0,qtde
sexo,Unnamed: 1_level_1
Masculino,160793
Feminino,81007
Não Informado,14
Indeterminado,2


In [33]:
#qtde total de casos de ocorrência no dataFrame com os 20 maiores CNAEs por ordem de ocorrência em 2018:
df_sexo_mais['qtde'].sum() #241816

241816

In [34]:
df_sexo_mais.to_csv(nomeArquivoSexo, sep = ';', encoding='UTF-8')

In [35]:
df_original['idade'].min() #8 ???

8

In [36]:
selecao = df_original['idade'] < 14 # idade mínima para jovem aprendiz é de 14 anos, porém foram encontrados 2 registros < 14
df_min = df_original[selecao]
df_min.head(10)
df_min.shape[0]   

2

In [37]:
df_original['idade'].max()  #92

92

In [38]:
classes = [13, 19, 24, 29, 34, 39, 44, 49, 54, 59, 64, 69, 100]
faixas = pd.cut(df_original.idade, classes)

In [39]:
pd.value_counts(faixas)

(29, 34]     40120
(24, 29]     38948
(34, 39]     37148
(19, 24]     35907
(39, 44]     28131
(44, 49]     21460
(49, 54]     16187
(54, 59]      9797
(13, 19]      8545
(59, 64]      4073
(64, 69]      1123
(69, 100]      375
Name: idade, dtype: int64

In [40]:
labels = ['14 a 19 anos: ', '20 a 24 anos:', '25 a 29 anos:', '30 a 34 anos:', '35 a 39 anos:', '40 a 44 anos:', 
          '45 a 49 anos:', '50 a 54 anos:', '55 a 59 anos:', '60 a 64 anos:', '65 a 69 anos:', '70 a 100 anos:']
faixas_labels = pd.cut(df_original.idade, classes, labels = labels)
pd.value_counts(faixas_labels)

30 a 34 anos:     40120
25 a 29 anos:     38948
35 a 39 anos:     37148
20 a 24 anos:     35907
40 a 44 anos:     28131
45 a 49 anos:     21460
50 a 54 anos:     16187
55 a 59 anos:      9797
14 a 19 anos:      8545
60 a 64 anos:      4073
65 a 69 anos:      1123
70 a 100 anos:      375
Name: idade, dtype: int64

In [41]:
df_faixasEtarias = pd.DataFrame(pd.value_counts(faixas_labels))

In [42]:
df_faixasEtarias.head(10)

Unnamed: 0,idade
30 a 34 anos:,40120
25 a 29 anos:,38948
35 a 39 anos:,37148
20 a 24 anos:,35907
40 a 44 anos:,28131
45 a 49 anos:,21460
50 a 54 anos:,16187
55 a 59 anos:,9797
14 a 19 anos:,8545
60 a 64 anos:,4073


In [43]:
df_faixasEtarias['desc_faixa'] = df_faixasEtarias.index

In [44]:
df_faixasEtarias.head(10)

Unnamed: 0,idade,desc_faixa
30 a 34 anos:,40120,30 a 34 anos:
25 a 29 anos:,38948,25 a 29 anos:
35 a 39 anos:,37148,35 a 39 anos:
20 a 24 anos:,35907,20 a 24 anos:
40 a 44 anos:,28131,40 a 44 anos:
45 a 49 anos:,21460,45 a 49 anos:
50 a 54 anos:,16187,50 a 54 anos:
55 a 59 anos:,9797,55 a 59 anos:
14 a 19 anos:,8545,14 a 19 anos:
60 a 64 anos:,4073,60 a 64 anos:


In [45]:
df_faixasEtarias.index = range(df_faixasEtarias.shape[0])
df_faixasEtarias.index.name = 'id'
df_faixasEtarias.rename(columns={"idade": "qtde"}, inplace=True)
df_faixasEtarias.head(10)

Unnamed: 0_level_0,qtde,desc_faixa
id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,40120,30 a 34 anos:
1,38948,25 a 29 anos:
2,37148,35 a 39 anos:
3,35907,20 a 24 anos:
4,28131,40 a 44 anos:
5,21460,45 a 49 anos:
6,16187,50 a 54 anos:
7,9797,55 a 59 anos:
8,8545,14 a 19 anos:
9,4073,60 a 64 anos:


In [46]:
df_faixasEtarias.to_csv(nomeArquivoIdade, sep = ';', encoding='UTF-8')
df_faixasEtarias['qtde'].sum()

241814

In [47]:
#Análise da incidência de óbitos decorrentes dos acidente:
df_obitos = pd.DataFrame(df_original['obito'].value_counts())
df_obitos.rename(columns={"obito": "qtde"}, inplace=True)

df_obitos_mais = df_obitos.head(5).copy()  # pode haver alguma opção para 'não informado'
df_obitos_mais.index.name='obito'

df_obitos_mais.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, Não to Sim
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   qtde    2 non-null      int64
dtypes: int64(1)
memory usage: 32.0+ bytes


In [48]:
df_obitos_mais.head()

Unnamed: 0_level_0,qtde
obito,Unnamed: 1_level_1
Não,240759
Sim,1057


In [50]:
#qtde total de casos de ocorrência no dataFrame:
df_obitos_mais['qtde'].sum() #241816

241816

In [51]:
df_obitos_mais.to_csv(nomeArquivoObitos, sep = ';', encoding='UTF-8')

In [52]:
#Análise da incidência de tipos de acidentes:
df_tipos = pd.DataFrame(df_original['tipo_acidente'].value_counts())
df_tipos.rename(columns={"tipo_acidente": "qtde"}, inplace=True)

df_tipos_mais = df_tipos.head(20).copy()  # pode haver alguma opção para 'não informado'
df_tipos_mais.index.name='tipo_acidente'

df_tipos_mais.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Típico to Ignorado
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   qtde    4 non-null      int64
dtypes: int64(1)
memory usage: 64.0+ bytes


In [53]:
df_tipos_mais.head(20)

Unnamed: 0_level_0,qtde
tipo_acidente,Unnamed: 1_level_1
Típico,182058
Trajeto,54966
Doença,4786
Ignorado,6


In [55]:
#qtde total de casos de ocorrência no dataFrame:
df_tipos_mais['qtde'].sum() #241816

241816

In [56]:
df_tipos_mais.to_csv(nomeArquivoTipoAcidente, sep = ';', encoding='UTF-8')