In [1]:
import numpy as np
import pandas as pd
from scipy import special
from random import sample
import itertools
from datetime import timedelta
import math
import fprocessamento as fprocess
from dateutil.relativedelta import *
from datetime import date
from datetime import datetime


In [2]:
listaArquivos2018 = ['datasets/origem/INSS/cat-jul-ago-set-2018.csv', 'datasets/origem/INSS/cat-comp-outnovdez-2018.csv']

nomeArquivoResult2018 = 'datasets/result/dados_cat_2018.csv'
nomeArquivoResult2017 = 'datasets/result/dados_cat_2017A.csv'
    
columns_types = {'agente': str, 'dt_acidente': str, 'cbo': int, 'cbo_desc': str, 'cid': str, 'cid_desc': str, 
                 'cnae': int, 'cnae_desc': str, 'emitente': str, 'especie': str, 'filiacao': str, 
                 'obito': str, 'munic_emp': str, 'natureza': str, 'origem': str, 'parte': str, 'sexo': str, 
                 'tipo_acidente': str, 'uf_acidente': str, 'uf_emp': str, 'dt_afast': str, 'dt_despacho': str, 'dt_acid': str, 
                 'dt_nasc': str, 'dt_emissao': str}

nomes  = ['agente', 'dt_acidente', 'cbo', 'cbo_desc', 'cid', 'cid_desc', 'cnae', 'cnae_desc', 'emitente', 'especie', 
          'filiacao', 'obito', 'munic_emp', 'natureza', 'origem', 'parte', 'sexo', 'tipo_acidente', 'uf_acidente', 'uf_emp', 
          'dt_afast', 'dt_despacho', 'dt_acid', 'dt_nasc', 'dt_emissao']

df_total = pd.DataFrame()
for arq in listaArquivos2018:
    try:
        dados_originais = pd.read_csv(arq, sep = ';', header=0, names=nomes, dtype=columns_types, encoding='iso-8859-1')        
    except:
        dados_originais = pd.read_csv(arq, sep = ';', header=0, names=nomes, dtype=columns_types, encoding='utf-8')
    finally:
        df_item = pd.DataFrame(data = dados_originais, columns=nomes)
        print('Qtde de registros no arquivo {} = {}'.format(arq, df_item.shape[0]))
        df_total = pd.concat([df_total, df_item], ignore_index= True)
        print('Qtde de registros no df_total = {}'.format(df_total.shape[0]))

Qtde de registros no arquivo datasets/origem/INSS/cat-jul-ago-set-2018.csv = 122598
Qtde de registros no df_total = 122598
Qtde de registros no arquivo datasets/origem/INSS/cat-comp-outnovdez-2018.csv = 119218
Qtde de registros no df_total = 241816


In [3]:
df_cat = pd.DataFrame(df_total[['dt_acidente', 'cbo', 'cid', 'cnae', 'obito', 'parte','sexo', 
                                'tipo_acidente', 'uf_emp', 'dt_nasc']])

fprocess.formatarStr(df_cat, ['dt_acidente', 'cid', 'obito', 'parte', 'sexo', 'tipo_acidente', 'uf_emp', 
                     'dt_nasc'])

df_cat.columns.name = 'caracteristica'
df_cat.index.name = "id"
df_cat.index = range(df_cat.shape[0])

In [4]:
df_cat.head()

caracteristica,dt_acidente,cbo,cid,cnae,obito,parte,sexo,tipo_acidente,uf_emp,dt_nasc
0,201801,784205,S681,4763,Não,Dedo,Masculino,Típico,São Paulo,10/12/1982
1,201801,763210,S619,1412,Não,Dedo,Feminino,Típico,Minas Gerais,26/10/1974
2,201801,770105,M842,1621,Não,Antebraco (Entre O P,Masculino,Típico,Paraná,06/02/1970
3,201801,784205,S836,4930,Não,Joelho,Masculino,Típico,Minas Gerais,25/03/1976
4,201801,715615,Z540,4221,Não,"Cabeca, Partes Multi",Masculino,Típico,Maranhão,03/03/1992


In [5]:
df_cat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 241816 entries, 0 to 241815
Data columns (total 10 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   dt_acidente    241816 non-null  object
 1   cbo            241816 non-null  int32 
 2   cid            241816 non-null  object
 3   cnae           241816 non-null  int32 
 4   obito          241816 non-null  object
 5   parte          241816 non-null  object
 6   sexo           241816 non-null  object
 7   tipo_acidente  241816 non-null  object
 8   uf_emp         241816 non-null  object
 9   dt_nasc        241816 non-null  object
dtypes: int32(2), object(8)
memory usage: 16.6+ MB


In [6]:
fprocess.verificarStrInvalida(df_cat, ['cbo', 'cid', 'cnae', 'obito', 'parte', 'sexo', 'tipo_acidente', 'uf_emp', 'dt_nasc'],
                              '{ñ class}')

Dados ausentes, por coluna: 
inválidos em cbo: 0
inválidos em cid: 0
inválidos em cnae: 0
inválidos em obito: 0
inválidos em parte: 6
inválidos em sexo: 0
inválidos em tipo_acidente: 0
inválidos em uf_emp: 0
inválidos em dt_nasc: 3


In [7]:
#apagando os registros com valor nulo de 'parte'
tamanho = df_cat.shape[0] 
df_cat.drop(df_cat[df_cat['parte'] == '{ñ class}'].index, inplace = True)
tamanho_final = df_cat.shape[0] # deve ser igual a 241810
print('Qtde de registros: {}'.format(tamanho_final))

Qtde de registros: 241810


In [8]:
df_cat.fillna(0, inplace = True)
#criando a coluna "idade" a partir da data de nascimento e da data do acidente...
df_cat['idade']= df_cat.apply(lambda row: fprocess.calcularIdade(row.dt_nasc,row.dt_acidente), axis = 1)

df_cat.head(10)                         

caracteristica,dt_acidente,cbo,cid,cnae,obito,parte,sexo,tipo_acidente,uf_emp,dt_nasc,idade
0,201801,784205,S681,4763,Não,Dedo,Masculino,Típico,São Paulo,10/12/1982,35.0
1,201801,763210,S619,1412,Não,Dedo,Feminino,Típico,Minas Gerais,26/10/1974,43.0
2,201801,770105,M842,1621,Não,Antebraco (Entre O P,Masculino,Típico,Paraná,06/02/1970,47.0
3,201801,784205,S836,4930,Não,Joelho,Masculino,Típico,Minas Gerais,25/03/1976,41.0
4,201801,715615,Z540,4221,Não,"Cabeca, Partes Multi",Masculino,Típico,Maranhão,03/03/1992,25.0
5,201801,517420,S420,6822,Não,"Membros Superiores,",Masculino,Trajeto,Goiás,05/01/1966,51.0
6,201801,621005,T925,150,Não,Dedo,Masculino,Típico,Paraná,17/07/1988,29.0
7,201802,783225,S929,4930,Não,Pe (Exceto Artelhos),Masculino,Típico,Rio de Janeiro,12/05/1978,39.0
8,201802,715410,S525,2330,Não,Antebraco (Entre O P,Masculino,Trajeto,São Paulo,26/09/1966,51.0
9,201802,784205,S661,1011,Não,Dedo,Feminino,Típico,Goiás,03/03/1992,25.0


In [9]:
nulos = df_cat[df_cat['idade'].isnull()].shape[0]
print('Qtde de registros com valor nulo de idade: {}'.format(nulos))
# deverá ser igual a 3, já que temos 3 registros com valor inválido em "dt_nasc"

Qtde de registros com valor nulo de idade: 3


In [10]:
#Verificando o que há nesses registros em que não foi possível calcular a idade...
df_nulos = df_cat[df_cat['idade'].isnull()]
df_nulos.head()

caracteristica,dt_acidente,cbo,cid,cnae,obito,parte,sexo,tipo_acidente,uf_emp,dt_nasc,idade
38818,201804,517315,Y28,8411,Não,Dedo,Masculino,Típico,Minas Gerais,{ñ class},
173243,2018/11,322205,Z209,8610,Não,Dedo,Feminino,Típico,Santa Catarina,{ñ class},
203813,2018/11,223147,Z209,8660,Não,Dedo,Masculino,Típico,Rio de Janeiro,{ñ class},


In [11]:
'''Não precisamos da data exata do acidente, apenas do mês e do ano, então podemos manipular a columa dt_acidente 
para obter uma nova coluna anoMes e, depois apagar a primeira (dt_acidente)'''

df_cat['anoMes'] = df_cat['dt_acidente'].apply(lambda x: fprocess.calcularAnoMes(x))
df_cat.drop(['dt_acidente'], axis=1, inplace = True)
df_cat.head()

caracteristica,cbo,cid,cnae,obito,parte,sexo,tipo_acidente,uf_emp,dt_nasc,idade,anoMes
0,784205,S681,4763,Não,Dedo,Masculino,Típico,São Paulo,10/12/1982,35.0,201801
1,763210,S619,1412,Não,Dedo,Feminino,Típico,Minas Gerais,26/10/1974,43.0,201801
2,770105,M842,1621,Não,Antebraco (Entre O P,Masculino,Típico,Paraná,06/02/1970,47.0,201801
3,784205,S836,4930,Não,Joelho,Masculino,Típico,Minas Gerais,25/03/1976,41.0,201801
4,715615,Z540,4221,Não,"Cabeca, Partes Multi",Masculino,Típico,Maranhão,03/03/1992,25.0,201801


In [12]:
condicao = df_cat['anoMes'].str.match('^[0-9]+$') == False
df_itensInvalidos = df_cat[condicao].copy()
df_cat.drop(df_itensInvalidos.index, inplace=True)
print('Qtde de registros: {}'.format(df_cat.shape[0]))

Qtde de registros: 241810


In [13]:
df_cat.head()

caracteristica,cbo,cid,cnae,obito,parte,sexo,tipo_acidente,uf_emp,dt_nasc,idade,anoMes
0,784205,S681,4763,Não,Dedo,Masculino,Típico,São Paulo,10/12/1982,35.0,201801
1,763210,S619,1412,Não,Dedo,Feminino,Típico,Minas Gerais,26/10/1974,43.0,201801
2,770105,M842,1621,Não,Antebraco (Entre O P,Masculino,Típico,Paraná,06/02/1970,47.0,201801
3,784205,S836,4930,Não,Joelho,Masculino,Típico,Minas Gerais,25/03/1976,41.0,201801
4,715615,Z540,4221,Não,"Cabeca, Partes Multi",Masculino,Típico,Maranhão,03/03/1992,25.0,201801


In [14]:
mediaIdades = math.floor(df_cat['idade'].mean())
print('Média de idade dos registros = {}'.format(mediaIdades))

Média de idade dos registros = 35


In [15]:
df_cat.fillna(mediaIdades, inplace=True)

df_cat.isnull().sum()

caracteristica
cbo              0
cid              0
cnae             0
obito            0
parte            0
sexo             0
tipo_acidente    0
uf_emp           0
dt_nasc          0
idade            0
anoMes           0
dtype: int64

In [16]:
#ordenando novamente os índices do dataFrame
df_cat.index = range(df_cat.shape[0])
df_cat.head()

caracteristica,cbo,cid,cnae,obito,parte,sexo,tipo_acidente,uf_emp,dt_nasc,idade,anoMes
0,784205,S681,4763,Não,Dedo,Masculino,Típico,São Paulo,10/12/1982,35.0,201801
1,763210,S619,1412,Não,Dedo,Feminino,Típico,Minas Gerais,26/10/1974,43.0,201801
2,770105,M842,1621,Não,Antebraco (Entre O P,Masculino,Típico,Paraná,06/02/1970,47.0,201801
3,784205,S836,4930,Não,Joelho,Masculino,Típico,Minas Gerais,25/03/1976,41.0,201801
4,715615,Z540,4221,Não,"Cabeca, Partes Multi",Masculino,Típico,Maranhão,03/03/1992,25.0,201801


In [17]:
#apagando a coluna "dt_nasc", que não é mais necessária
df_cat.drop(['dt_nasc'], axis=1, inplace = True)
df_cat.head()

caracteristica,cbo,cid,cnae,obito,parte,sexo,tipo_acidente,uf_emp,idade,anoMes
0,784205,S681,4763,Não,Dedo,Masculino,Típico,São Paulo,35.0,201801
1,763210,S619,1412,Não,Dedo,Feminino,Típico,Minas Gerais,43.0,201801
2,770105,M842,1621,Não,Antebraco (Entre O P,Masculino,Típico,Paraná,47.0,201801
3,784205,S836,4930,Não,Joelho,Masculino,Típico,Minas Gerais,41.0,201801
4,715615,Z540,4221,Não,"Cabeca, Partes Multi",Masculino,Típico,Maranhão,25.0,201801


In [18]:
#separando os acidentes que aconteceram em 2019 dos que aconteceram em 2018:
condicao2018 = df_cat['anoMes'].str.match('^2018[0-9]+') == True
df_cat2018 = df_cat[condicao2018].copy()
df_cat2018.shape[0]  # deverá ser igual a 241810

241810

In [19]:
condicao2017 = df_cat['anoMes'].str.match('^2017[0-9]+') == True
df_cat2017 = df_cat[condicao2017].copy()
df_cat2017.shape[0] 

0

In [20]:
df_cat2018.to_csv(nomeArquivoResult2018, sep = ';', index=False, encoding='utf-8')

In [21]:
if(df_cat2017.shape[0] > 0):
    df_cat2017.to_csv(nomeArquivoResult2017, sep = ';', index=False, encoding='UTF-8')