In [1]:
import numpy as np
import pandas as pd
from scipy import special
from random import sample
import itertools
from datetime import timedelta
from IPython.display import display
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
import math
import re

In [2]:
arquivoOrigem = 'datasets/result/dados_cat_2020.csv'

nomeArquivoCid = 'datasets/result/2020/dados_cid_2020.csv'
nomeArquivoUF = 'datasets/result/2020/dados_uf_2020.csv'
nomeArquivoCBO = 'datasets/result/2020/dados_cbo_2020.csv'
nomeArquivoAnoMes = 'datasets/result/2020/dados_anoMes_2020.csv'
nomeArquivoCNAE = 'datasets/result/2020/dados_cnae_2020.csv'
nomeArquivoParte = 'datasets/result/2020/dados_parte_2020.csv'
nomeArquivoSexo = 'datasets/result/2020/dados_sexo_2020.csv'
nomeArquivoIdade = 'datasets/result/2020/dados_idade_2020.csv'
nomeArquivoObitos = 'datasets/result/2020/dados_obitos_2020.csv'
nomeArquivoTipoAcidente = 'datasets/result/2020/dados_tipoAcidente_2020.csv'
nomeArquivoNatureza = 'datasets/result/2020/dados_natureza_2020.csv'

In [3]:
columns_types = {'cbo': int, 'cid': str, 'cnae': int, 'obito': str, 'parte': str, 'sexo': str, 
                 'tipo_acidente': str, 'uf_emp': str, 'idade': int, 'anoMes': str}

nomes  = ['cbo', 'cid', 'cnae', 'obito', 'parte', 'sexo', 'tipo_acidente', 'uf_emp', 'idade', 'anoMes']

dados_originais = pd.read_csv(arquivoOrigem, sep = ';', header=0, names=nomes, dtype=columns_types, encoding='utf8')

df_original = pd.DataFrame(data = dados_originais)

In [4]:
df_original.index = range(df_original.shape[0])
df_original.shape[0]   #274414-> qtde total de acidentes analisados de 2020

274414

In [5]:
#Análise dos 20 CIDs de maior incidência em 2020:
df_cid = pd.DataFrame(df_original['cid'].value_counts())
df_cid.rename(columns={"id": "cid", "cid": "qtde"}, inplace=True)
df_cid_mais = df_cid.head(10).copy()
df_cid_mais.index.name='cid'

df_cid_mais.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, S610 to S619
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   qtde    10 non-null     int64
dtypes: int64(1)
memory usage: 160.0+ bytes


In [6]:
df_cid_mais.head(10)

Unnamed: 0_level_0,qtde
cid,Unnamed: 1_level_1
S610,17192
B342,12529
S611,9764
Z209,9535
S626,8547
S934,8089
S600,6497
S800,5198
S900,3657
S619,3540


In [7]:
df_cid_mais.to_csv(nomeArquivoCid, sep = ';', encoding='UTF-8')

In [9]:
#qtde total de casos de ocorrência no dataFrame com os 10 maiores CIDs por ordem de ocorrência em 2020:
df_cid_mais['qtde'].sum()  #84548

84548

In [10]:
#Análise das 10 UFs de maior incidência de CAT em 2020:
df_uf = pd.DataFrame(df_original['uf_emp'].value_counts())
df_uf.rename(columns={"uf_emp": "qtde"}, inplace=True)
df_uf_mais = df_uf.head(30).copy()
df_uf_mais.index.name='uf_emp'
df_uf_mais.info()

<class 'pandas.core.frame.DataFrame'>
Index: 27 entries, São Paulo to Acre
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   qtde    27 non-null     int64
dtypes: int64(1)
memory usage: 432.0+ bytes


In [11]:
df_uf_mais.head(20)

Unnamed: 0_level_0,qtde
uf_emp,Unnamed: 1_level_1
São Paulo,96573
Minas Gerais,30470
Rio Grande do Sul,23945
Paraná,22019
Santa Catarina,17648
Rio de Janeiro,16291
Goiás,8126
Bahia,7276
Mato Grosso,7227
Espírito Santo,6991


In [13]:
#qtde total de casos de ocorrência no dataFrame com os 10 maiores UFs por ordem de ocorrência em 2020:
df_uf_mais['qtde'].sum() #274414

274414

In [14]:
df_uf_mais.to_csv(nomeArquivoUF, sep = ';', encoding='UTF-8')

In [15]:
#Análise das 20 CBOs de maior incidência de CAT em 2020:
df_cbo = pd.DataFrame(df_original['cbo'].value_counts())
df_cbo.rename(columns={"cbo": "qtde"}, inplace=True)
df_cbo_mais = df_cbo.head(10).copy()
df_cbo_mais.index.name='cbo'
df_cbo_mais.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10 entries, 322205 to 521125
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   qtde    10 non-null     int64
dtypes: int64(1)
memory usage: 160.0 bytes


In [16]:
df_cbo_mais.head(10)

Unnamed: 0_level_0,qtde
cbo,Unnamed: 1_level_1
322205,24617
784205,16518
514320,10067
782510,6992
223505,6322
717020,6081
514205,4512
322230,4356
848520,3841
521125,3628


In [18]:
#qtde total de casos de ocorrência no dataFrame com os 20 maiores CBOs por ordem de ocorrência em 2020:
df_cbo_mais['qtde'].sum() #86934

86934

In [19]:
df_cbo_mais.to_csv(nomeArquivoCBO, sep = ';', encoding='UTF-8')

In [20]:
#Análise da incidência dos acidentes em meses de 2020:
df_mes = pd.DataFrame(df_original['anoMes'].value_counts())
df_mes.rename(columns={"anoMes": "qtde"}, inplace=True)
df_mes_mais = df_mes.head(12).copy()
df_mes_mais.index.name='anoMes'

df_mes_mais.head(12)

Unnamed: 0_level_0,qtde
anoMes,Unnamed: 1_level_1
202007,38194
202008,37053
202006,33982
202009,30302
202002,29908
202005,29639
202001,28353
202003,27779
202004,19203
202010,1


In [21]:
df_mes_mais.to_csv(nomeArquivoAnoMes, sep = ';', encoding='UTF-8')

In [22]:
#Análise da incidência dos acidentes por CNAE:
df_cnae = pd.DataFrame(df_original['cnae'].value_counts())
df_cnae.rename(columns={"cnae": "qtde"}, inplace=True)

df_cnae_mais = df_cnae.head(10).copy()
df_cnae_mais.index.name='cnae'

df_cnae_mais.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10 entries, 8610 to 5611
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   qtde    10 non-null     int64
dtypes: int64(1)
memory usage: 160.0 bytes


In [23]:
df_cnae_mais.head(10)

Unnamed: 0_level_0,qtde
cnae,Unnamed: 1_level_1
8610,39135
4711,11004
1012,8851
4930,7493
8411,6755
4120,5257
3811,4478
1011,3945
0,3822
5611,3710


In [25]:
#qtde total de casos de ocorrência no dataFrame com os 20 maiores CNAEs por ordem de ocorrência em 2020:
df_cnae_mais['qtde'].sum() #94450

94450

In [26]:
df_cnae_mais.to_csv(nomeArquivoCNAE, sep = ';', encoding='UTF-8')

In [27]:
#Análise da incidência dos acidentes por parte do corpo atingida:
df_parte = pd.DataFrame(df_original['parte'].value_counts())
df_parte.rename(columns={"parte": "qtde"}, inplace=True)

df_parte_mais = df_parte.head(10).copy()
df_parte_mais.index.name='parte'

df_parte_mais.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, Dedo to Ombro
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   qtde    10 non-null     int64
dtypes: int64(1)
memory usage: 160.0+ bytes


In [28]:
df_parte_mais.head(10)

Unnamed: 0_level_0,qtde
parte,Unnamed: 1_level_1
Dedo,68146
Pe (Exceto Artelhos),21889
Mao (Exceto Punho ou,18810
Aparelho Respiratori,14391
Joelho,11931
Partes Multiplas - A,11016
"Perna (Do Tornozelo,",10125
Olho (Inclusive Nerv,8657
Perna (Entre O Torno,8657
Ombro,8218


In [29]:
#qtde total de casos de ocorrência no dataFrame com os 20 maiores CNAEs por ordem de ocorrência em 2020:
df_parte_mais['qtde'].sum() #181840

181840

In [30]:
df_parte_mais.to_csv(nomeArquivoParte, sep = ';', encoding='UTF-8')

In [31]:
#Análise da incidência dos acidentes, separados por sexo (M ou F):
df_sexo = pd.DataFrame(df_original['sexo'].value_counts())
df_sexo.rename(columns={"sexo": "qtde"}, inplace=True)

df_sexo_mais = df_sexo.head(5).copy()  # pode haver alguma opção para 'não informado'
df_sexo_mais.index.name='sexo'

df_sexo_mais.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Masculino to Indeterminado
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   qtde    4 non-null      int64
dtypes: int64(1)
memory usage: 64.0+ bytes


In [32]:
df_sexo_mais.head()

Unnamed: 0_level_0,qtde
sexo,Unnamed: 1_level_1
Masculino,183684
Feminino,89896
Não Informado,824
Indeterminado,10


In [34]:
#qtde total de casos de ocorrência no dataFrame com os 20 maiores CNAEs por ordem de ocorrência em 2020:
df_sexo_mais['qtde'].sum() #274414

274414

In [35]:
df_sexo_mais.to_csv(nomeArquivoSexo, sep = ';', encoding='UTF-8')

In [37]:
df_original['idade'].min() #10

10

In [39]:
selecao = df_original['idade'] < 14 
df_min = df_original[selecao]
df_min.head(10)
df_min.shape[0]   #2

2

In [40]:
df_original['idade'].max()  #85

85

In [41]:
classes = [13, 19, 24, 29, 34, 39, 44, 49, 54, 59, 64, 69, 100]
faixas = pd.cut(df_original.idade, classes)

In [42]:
pd.value_counts(faixas)

(29, 34]     44257
(24, 29]     43462
(34, 39]     42686
(19, 24]     40627
(39, 44]     34628
(44, 49]     25194
(49, 54]     18685
(54, 59]     11356
(13, 19]      8362
(59, 64]      3823
(64, 69]      1052
(69, 100]      280
Name: idade, dtype: int64

In [43]:
labels = ['14 a 19 anos: ', '20 a 24 anos:', '25 a 29 anos:', '30 a 34 anos:', '35 a 39 anos:', '40 a 44 anos:', 
          '45 a 49 anos:', '50 a 54 anos:', '55 a 59 anos:', '60 a 64 anos:', '65 a 69 anos:', '70 a 100 anos:']
faixas_labels = pd.cut(df_original.idade, classes, labels = labels)
pd.value_counts(faixas_labels)

30 a 34 anos:     44257
25 a 29 anos:     43462
35 a 39 anos:     42686
20 a 24 anos:     40627
40 a 44 anos:     34628
45 a 49 anos:     25194
50 a 54 anos:     18685
55 a 59 anos:     11356
14 a 19 anos:      8362
60 a 64 anos:      3823
65 a 69 anos:      1052
70 a 100 anos:      280
Name: idade, dtype: int64

In [44]:
df_faixasEtarias = pd.DataFrame(pd.value_counts(faixas_labels))

In [45]:
df_faixasEtarias.head(10)

Unnamed: 0,idade
30 a 34 anos:,44257
25 a 29 anos:,43462
35 a 39 anos:,42686
20 a 24 anos:,40627
40 a 44 anos:,34628
45 a 49 anos:,25194
50 a 54 anos:,18685
55 a 59 anos:,11356
14 a 19 anos:,8362
60 a 64 anos:,3823


In [46]:
df_faixasEtarias['desc_faixa'] = df_faixasEtarias.index

In [47]:
df_faixasEtarias.head(10)

Unnamed: 0,idade,desc_faixa
30 a 34 anos:,44257,30 a 34 anos:
25 a 29 anos:,43462,25 a 29 anos:
35 a 39 anos:,42686,35 a 39 anos:
20 a 24 anos:,40627,20 a 24 anos:
40 a 44 anos:,34628,40 a 44 anos:
45 a 49 anos:,25194,45 a 49 anos:
50 a 54 anos:,18685,50 a 54 anos:
55 a 59 anos:,11356,55 a 59 anos:
14 a 19 anos:,8362,14 a 19 anos:
60 a 64 anos:,3823,60 a 64 anos:


In [48]:
df_faixasEtarias.index = range(df_faixasEtarias.shape[0])
df_faixasEtarias.index.name = 'id'
df_faixasEtarias.rename(columns={"idade": "qtde"}, inplace=True)
df_faixasEtarias.head(10)

Unnamed: 0_level_0,qtde,desc_faixa
id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,44257,30 a 34 anos:
1,43462,25 a 29 anos:
2,42686,35 a 39 anos:
3,40627,20 a 24 anos:
4,34628,40 a 44 anos:
5,25194,45 a 49 anos:
6,18685,50 a 54 anos:
7,11356,55 a 59 anos:
8,8362,14 a 19 anos:
9,3823,60 a 64 anos:


In [50]:
df_faixasEtarias.to_csv(nomeArquivoIdade, sep = ';', encoding='UTF-8')
df_faixasEtarias['qtde'].sum() #274412

274412

In [51]:
#Análise da incidência de óbitos decorrentes dos acidente:
df_obitos = pd.DataFrame(df_original['obito'].value_counts())
df_obitos.rename(columns={"obito": "qtde"}, inplace=True)

df_obitos_mais = df_obitos.head(5).copy()  # pode haver alguma opção para 'não informado'
df_obitos_mais.index.name='obito'

df_obitos_mais.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, Não to Sim
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   qtde    2 non-null      int64
dtypes: int64(1)
memory usage: 32.0+ bytes


In [52]:
df_obitos_mais.head()

Unnamed: 0_level_0,qtde
obito,Unnamed: 1_level_1
Não,273146
Sim,1268


In [54]:
#qtde total de casos de ocorrência no dataFrame:
df_obitos_mais['qtde'].sum() #274414

274414

In [55]:
df_obitos_mais.to_csv(nomeArquivoObitos, sep = ';', encoding='UTF-8')

In [56]:
#Análise da incidência de tipos de acidentes:
df_tipos = pd.DataFrame(df_original['tipo_acidente'].value_counts())
df_tipos.rename(columns={"tipo_acidente": "qtde"}, inplace=True)

df_tipos_mais = df_tipos.head(10).copy()  # pode haver alguma opção para 'não informado'
df_tipos_mais.index.name='tipo_acidente'

df_tipos_mais.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, Típico to Doença
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   qtde    3 non-null      int64
dtypes: int64(1)
memory usage: 48.0+ bytes


In [57]:
df_tipos_mais.head(20)

Unnamed: 0_level_0,qtde
tipo_acidente,Unnamed: 1_level_1
Típico,220450
Trajeto,35369
Doença,18595


In [59]:
#qtde total de casos de ocorrência no dataFrame:
df_tipos_mais['qtde'].sum() #274414

274414

In [60]:
df_tipos_mais.to_csv(nomeArquivoTipoAcidente, sep = ';', encoding='UTF-8')