# PROJETO - Big Data para Dados Públicos
## Professor Maciel Calebe
## Análise de Propagação de Doenças  


### Arthur Boschini da Fonseca, Caio de Camargo Aranha Tieri, Guilherme Farias Caproni
##### Descrição:

Este projeto tem como objetivo empregar os dados dos registros de atendimentos médicos a fim de monitorar e antecipar a disseminação de doenças infecciosas, como a gripe ou a dengue, ao longo do tempo e em diversas áreas geográficas.


##### Database Utilizada
*DATASUS - SRAG 2019*: Disponível em: https://opendatasus.saude.gov.br/dataset/srag-2019

##### Dicionário de Dados
Disponível em: https://d26692udehoye.cloudfront.net/SRAG/2019/dicionario_de_dados_SRAG_hospitalizado_2019.pdf




In [39]:
# Para utilizar recursos do sistema
import os
import sys

# Bibliotecas DASK
import dask
from dask.distributed import Client
import dask.dataframe as dd # similar ao pandas
import dask.multiprocessing

# Para plot
%matplotlib inline
import matplotlib.pyplot as plt

import pandas as pd
import numpy as np

In [40]:
client = Client(n_workers=2, threads_per_worker=1, memory_limit='1GB')
client

Perhaps you already have a cluster running?
Hosting the HTTP server on port 59330 instead


0,1
Connection method: Cluster object,Cluster type: distributed.LocalCluster
Dashboard: http://127.0.0.1:59330/status,

0,1
Dashboard: http://127.0.0.1:59330/status,Workers: 2
Total threads: 2,Total memory: 1.86 GiB
Status: running,Using processes: True

0,1
Comm: tcp://127.0.0.1:59333,Workers: 2
Dashboard: http://127.0.0.1:59330/status,Total threads: 2
Started: Just now,Total memory: 1.86 GiB

0,1
Comm: tcp://127.0.0.1:59346,Total threads: 1
Dashboard: http://127.0.0.1:59349/status,Memory: 0.93 GiB
Nanny: tcp://127.0.0.1:59336,
Local directory: C:\Users\caiog\AppData\Local\Temp\dask-scratch-space\worker-na505rdc,Local directory: C:\Users\caiog\AppData\Local\Temp\dask-scratch-space\worker-na505rdc

0,1
Comm: tcp://127.0.0.1:59347,Total threads: 1
Dashboard: http://127.0.0.1:59351/status,Memory: 0.93 GiB
Nanny: tcp://127.0.0.1:59337,
Local directory: C:\Users\caiog\AppData\Local\Temp\dask-scratch-space\worker-nq5j9rcy,Local directory: C:\Users\caiog\AppData\Local\Temp\dask-scratch-space\worker-nq5j9rcy


In [41]:
df = dd.read_csv('INFLUD19.csv', encoding='latin-1', sep=';', dtype= {'DT_NOTIFIC': 'string', 'SEM_NOT': 'int64', 'DT_SIN_PRI': 'O', 'SEM_PRI': 'int64', 'SG_UF_NOT': 'O', 'ID_REGIONA': 'O', 'CO_REGIONA': 'float64', 'ID_MUNICIP': 'O', 'CO_MUN_NOT': 'int64', 'ID_UNIDADE': 'O', 'CO_UNI_NOT': 'int64', 'CS_SEXO': 'O', 'DT_NASC': 'O', 'NU_IDADE_N': 'int64', 'TP_IDADE': 'int64', 'COD_IDADE': 'int64', 'CS_GESTANT': 'int64', 'CS_RACA': 'float64', 'CS_ESCOL_N': 'float64', 'ID_PAIS': 'O', 'CO_PAIS': 'float64', 'SG_UF': 'O', 'CO_RG_RESI': 'float64', 'ID_MN_RESI': 'O', 'CO_MUN_RES': 'float64', 'CS_ZONA': 'float64', 'SURTO_SG': 'float64', 'NOSOCOMIAL': 'float64', 'AVE_SUINO': 'float64', 'FEBRE': 'float64', 'TOSSE': 'float64', 'GARGANTA': 'float64', 'DISPNEIA': 'float64', 'DESC_RESP': 'float64', 'SATURACAO': 'float64', 'DIARREIA': 'float64', 'VOMITO': 'float64', 'OUTRO_SIN': 'float64', 'OUTRO_DES': 'O', 'PUERPERA': 'float64', 'CARDIOPATI': 'float64', 'HEMATOLOGI': 'float64', 'SIND_DOWN': 'float64', 'HEPATICA': 'float64', 'ASMA': 'float64', 'DIABETES': 'float64', 'NEUROLOGIC': 'float64', 'PNEUMOPATI': 'float64', 'IMUNODEPRE': 'float64', 'RENAL': 'float64', 'OBESIDADE': 'float64', 'OBES_IMC': 'float64', 'OUT_MORBI': 'float64', 'MORB_DESC': 'O', 'VACINA': 'float64', 'DT_UT_DOSE': 'O', 'MAE_VAC': 'float64', 'DT_VAC_MAE': 'O', 'M_AMAMENTA': 'float64', 'DT_DOSEUNI': 'O', 'DT_1_DOSE': 'O', 'DT_2_DOSE': 'O', 'ANTIVIRAL': 'float64', 'TP_ANTIVIR': 'float64', 'OUT_ANTIV': 'O', 'DT_ANTIVIR': 'O', 'HOSPITAL': 'float64', 'DT_INTERNA': 'O', 'SG_UF_INTE': 'O', 'ID_RG_INTE': 'O', 'CO_RG_INTE': 'float64', 'ID_MN_INTE': 'O', 'CO_MU_INTE': 'float64', 'UTI': 'float64', 'DT_ENTUTI': 'O', 'DT_SAIDUTI': 'O', 'SUPORT_VEN': 'float64', 'RAIOX_RES': 'float64', 'RAIOX_OUT': 'O', 'DT_RAIOX': 'O', 'AMOSTRA': 'float64', 'DT_COLETA': 'O', 'TP_AMOSTRA': 'float64', 'OUT_AMOST': 'O', 'REQUI_GAL': 'O', 'IF_RESUL': 'float64', 'DT_IF': 'O', 'POS_IF_FLU': 'float64', 'TP_FLU_IF': 'float64', 'POS_IF_OUT': 'float64', 'IF_VSR': 'float64', 'IF_PARA1': 'float64', 'IF_PARA2': 'float64', 'IF_PARA3': 'float64', 'IF_ADENO': 'float64', 'IF_OUTRO': 'float64', 'DS_IF_OUT': 'O', 'LAB_IF': 'O', 'CO_LAB_IF': 'float64', 'PCR_RESUL': 'float64', 'DT_PCR': 'O', 'POS_PCRFLU': 'float64', 'TP_FLU_PCR': 'float64', 'PCR_FLUASU': 'float64', 'FLUASU_OUT': 'O', 'PCR_FLUBLI': 'float64', 'FLUBLI_OUT': 'O', 'POS_PCROUT': 'float64', 'PCR_VSR': 'float64', 'PCR_PARA1': 'float64', 'PCR_PARA2': 'float64', 'PCR_PARA3': 'float64', 'PCR_PARA4': 'float64', 'PCR_ADENO': 'float64', 'PCR_METAP': 'float64', 'PCR_BOCA': 'float64', 'PCR_RINO': 'float64', 'PCR_OUTRO': 'float64', 'DS_PCR_OUT': 'O', 'LAB_PCR': 'O', 'CO_LAB_PCR': 'float64', 'CLASSI_FIN': 'float64', 'CLASSI_OUT': 'O', 'CRITERIO': 'float64', 'EVOLUCAO': 'float64', 'DT_EVOLUCA': 'O', 'DT_ENCERRA': 'O', 'DT_DIGITA': 'O', 'HISTO_VGM': 'int64', 'PAIS_VGM': 'float64', 'CO_PS_VGM': 'float64', 'LO_PS_VGM': 'O', 'DT_VGM': 'float64', 'DT_RT_VGM': 'float64', 'PCR_SARS2': 'float64', 'PAC_COCBO': 'float64', 'PAC_DSCBO': 'float64'})

In [42]:
df.head()

Unnamed: 0,DT_NOTIFIC,SEM_NOT,DT_SIN_PRI,SEM_PRI,SG_UF_NOT,ID_REGIONA,CO_REGIONA,ID_MUNICIP,CO_MUN_NOT,ID_UNIDADE,...,DT_DIGITA,HISTO_VGM,PAIS_VGM,CO_PS_VGM,LO_PS_VGM,DT_VGM,DT_RT_VGM,PCR_SARS2,PAC_COCBO,PAC_DSCBO
0,10/01/2019,2,06/01/2019,2,MG,BELO HORIZONTE,1449.0,BELO HORIZONTE,310620,UNIDADE DE PRONTO ATENDIMENTO LESTE,...,14/03/2019,0,,,,,,,,
1,03/01/2019,1,01/01/2019,1,SP,GVE I CAPITAL,1331.0,SAO PAULO,355030,HOSP MUN M BOI MIRIM,...,,0,,,,,,,,
2,02/01/2019,1,31/12/2018,1,PE,1,1497.0,RECIFE,261160,IMIP,...,,0,,,,,,,,
3,10/01/2019,2,07/01/2019,2,SP,GVE XVII CAMPINAS,1342.0,CAMPINAS,350950,HOSPITAL MUNICIPAL DR MARIO GATTI CAMPINAS,...,,0,,,,,,,,
4,11/01/2019,2,06/01/2019,2,PE,4,1499.0,CARUARU,260410,SECRETARIA MUNICIPAL DE SAUDE DE CARUARU,...,,0,,,,,,,,


Escolhendo colunas

In [43]:
informacoes_pessoais = df[["DT_NOTIFIC","CS_SEXO", "DT_NASC", "CS_RACA", "SG_UF", "SURTO_SG", "NOSOCOMIAL", ]]
informacoes_pessoais = informacoes_pessoais.rename(columns={"DT_NOTIFIC": "data_registro","CS_SEXO": "sexo", "DT_NASC": "data_nascimento", "CS_RACA": "raca", "SG_UF": "estado", "SURTO_SG": "surto_sindromegripal", "NOSOCOMIAL": "contraiu_no_hospital"})
informacoes_pessoais.head()

Unnamed: 0,data_registro,sexo,data_nascimento,raca,estado,surto_sindromegripal,contraiu_no_hospital
0,10/01/2019,M,17/03/1988,1.0,MG,2.0,2.0
1,03/01/2019,F,30/05/2018,1.0,SP,9.0,
2,02/01/2019,M,07/05/2017,4.0,PE,9.0,9.0
3,10/01/2019,F,15/07/2018,1.0,SP,2.0,2.0
4,11/01/2019,F,15/09/2018,4.0,PE,9.0,9.0


Trocando as legendas do dataframe para valores normais

In [44]:
informacoes_pessoais['raca'] = informacoes_pessoais['raca'].replace({1.0: 'Branca', 2.0: 'Preta', 3.0: 'Amarela', 4.0: 'Parda', 5.0: 'Indígena', 9.0: 'Ignorado'})
informacoes_pessoais['surto_sindromegripal'] = informacoes_pessoais['surto_sindromegripal'].replace({1.0: 'Sim', 2.0: 'Não', 9.0: 'Ignorado'})
informacoes_pessoais['contraiu_no_hospital'] = informacoes_pessoais['contraiu_no_hospital'].replace({1.0: 'Sim', 2.0: 'Não', 9.0: 'Ignorado', np.nan: 'Ignorado'})

In [45]:
def pegames(st):
    return st.split('/')[1]

informacoes_pessoais["mes_registro"] = informacoes_pessoais["data_registro"].apply(pegames, meta=('data_registro', 'str')).astype('int64')

informacoes_pessoais.head()

Unnamed: 0,data_registro,sexo,data_nascimento,raca,estado,surto_sindromegripal,contraiu_no_hospital,mes_registro
0,10/01/2019,M,17/03/1988,Branca,MG,Não,Não,1
1,03/01/2019,F,30/05/2018,Branca,SP,Ignorado,Ignorado,1
2,02/01/2019,M,07/05/2017,Parda,PE,Ignorado,Ignorado,1
3,10/01/2019,F,15/07/2018,Branca,SP,Não,Não,1
4,11/01/2019,F,15/09/2018,Parda,PE,Ignorado,Ignorado,1


Informações de contágio

In [46]:
sintomas = df[["FEBRE", "TOSSE", "GARGANTA", "DISPNEIA", "DESC_RESP", "SATURACAO", "DIARREIA", "VOMITO",  "OUTRO_SIN", "OUTRO_DES"]]
sintomasbinario = df[["FEBRE", "TOSSE", "GARGANTA", "DISPNEIA", "DESC_RESP", "SATURACAO", "DIARREIA", "VOMITO",  "OUTRO_SIN", "OUTRO_DES"]]

In [47]:
sintomas['FEBRE'] = sintomas['FEBRE'].replace({1.0: 'Sim', 2.0: 'Não', 9.0: 'Ignorado'})
sintomas['TOSSE'] = sintomas['TOSSE'].replace({1.0: 'Sim', 2.0: 'Não', 9.0: 'Ignorado'})
sintomas['GARGANTA'] = sintomas['GARGANTA'].replace({1.0: 'Sim', 2.0: 'Não', 9.0: 'Ignorado'})
sintomas['DISPNEIA'] = sintomas['DISPNEIA'].replace({1.0: 'Sim', 2.0: 'Não', 9.0: 'Ignorado'})
sintomas['DESC_RESP'] = sintomas['DESC_RESP'].replace({1.0: 'Sim', 2.0: 'Não', 9.0: 'Ignorado'})
sintomas['SATURACAO'] = sintomas['SATURACAO'].replace({1.0: 'Sim', 2.0: 'Não', 9.0: 'Ignorado'})
sintomas['DIARREIA'] = sintomas['DIARREIA'].replace({1.0: 'Sim', 2.0: 'Não', 9.0: 'Ignorado'})
sintomas['VOMITO'] = sintomas['VOMITO'].replace({1.0: 'Sim', 2.0: 'Não', 9.0: 'Ignorado'})
sintomas['OUTRO_SIN'] = sintomas['OUTRO_SIN'].replace({1.0: 'Sim', 2.0: 'Não', 9.0: 'Ignorado'})
sintomas['OUTRO_DES'] = sintomas['OUTRO_DES'].replace({np.nan: 'sem descrição'})


In [48]:
sintomasbinario['FEBRE'] = sintomasbinario['FEBRE'].replace({1.0: 1, 2.0: 0, 9.0: 'Ignorado'})
sintomasbinario['TOSSE'] = sintomasbinario['TOSSE'].replace({1.0: 1, 2.0: 0, 9.0: 'Ignorado'})
sintomasbinario['GARGANTA'] = sintomasbinario['GARGANTA'].replace({1.0: 1, 2.0: 0, 9.0: 'Ignorado'})
sintomasbinario['DISPNEIA'] = sintomasbinario['DISPNEIA'].replace({1.0: 1, 2.0: 0, 9.0: 'Ignorado'})
sintomasbinario['DESC_RESP'] = sintomasbinario['DESC_RESP'].replace({1.0: 1, 2.0: 0, 9.0: 'Ignorado'})
sintomasbinario['SATURACAO'] = sintomasbinario['SATURACAO'].replace({1.0: 1, 2.0: 0, 9.0: 'Ignorado'})
sintomasbinario['DIARREIA'] = sintomasbinario['DIARREIA'].replace({1.0: 1, 2.0: 0, 9.0: 'Ignorado'})
sintomasbinario['VOMITO'] = sintomasbinario['VOMITO'].replace({1.0: 1, 2.0: 0, 9.0: 'Ignorado'})
sintomasbinario['OUTRO_SIN'] = sintomasbinario['OUTRO_SIN'].replace({1.0: 1, 2.0: 0, 9.0: 'Ignorado'})
sintomasbinario['OUTRO_DES'] = sintomasbinario['OUTRO_DES'].replace({np.nan: 'sem descrição'})



In [49]:

sintomasbinario.head()

Unnamed: 0,FEBRE,TOSSE,GARGANTA,DISPNEIA,DESC_RESP,SATURACAO,DIARREIA,VOMITO,OUTRO_SIN,OUTRO_DES
0,1.0,1.0,0.0,1.0,1.0,1.0,0.0,0.0,1.0,DERRAME PLEURAL
1,1.0,1.0,0.0,1.0,1.0,1.0,0.0,0.0,0.0,sem descrição
2,1.0,1.0,0.0,1.0,1.0,1.0,0.0,0.0,0.0,sem descrição
3,1.0,1.0,Ignorado,1.0,1.0,1.0,0.0,0.0,0.0,sem descrição
4,1.0,0.0,0.0,1.0,1.0,1.0,Ignorado,Ignorado,0.0,sem descrição


In [50]:
sintomasbinario.head(10)

Unnamed: 0,FEBRE,TOSSE,GARGANTA,DISPNEIA,DESC_RESP,SATURACAO,DIARREIA,VOMITO,OUTRO_SIN,OUTRO_DES
0,1.0,1.0,0.0,1.0,1.0,1.0,0.0,0.0,1.0,DERRAME PLEURAL
1,1.0,1.0,0.0,1.0,1.0,1.0,0.0,0.0,0.0,sem descrição
2,1.0,1.0,0.0,1.0,1.0,1.0,0.0,0.0,0.0,sem descrição
3,1.0,1.0,Ignorado,1.0,1.0,1.0,0.0,0.0,0.0,sem descrição
4,1.0,0.0,0.0,1.0,1.0,1.0,Ignorado,Ignorado,0.0,sem descrição
5,1.0,1.0,0.0,1.0,1.0,1.0,0.0,0.0,1.0,ESPIRROS E CORIZA
6,1.0,1.0,0.0,1.0,1.0,1.0,0.0,0.0,0.0,sem descrição
7,1.0,1.0,0.0,1.0,1.0,1.0,0.0,0.0,0.0,sem descrição
8,1.0,1.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,CIANOSE
9,1.0,1.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,sem descrição


Juntando as duas tabelas

In [51]:
#Juntando as duas tabelas: informacoes_pessoais e sintomas
df = dd.concat([informacoes_pessoais, sintomas], axis=1)
df.head()

We're assuming that the indices of each dataframes are 
 aligned. This assumption is not generally safe.


Unnamed: 0,data_registro,sexo,data_nascimento,raca,estado,surto_sindromegripal,contraiu_no_hospital,mes_registro,FEBRE,TOSSE,GARGANTA,DISPNEIA,DESC_RESP,SATURACAO,DIARREIA,VOMITO,OUTRO_SIN,OUTRO_DES
0,10/01/2019,M,17/03/1988,Branca,MG,Não,Não,1,Sim,Sim,Não,Sim,Sim,Sim,Não,Não,Sim,DERRAME PLEURAL
1,03/01/2019,F,30/05/2018,Branca,SP,Ignorado,Ignorado,1,Sim,Sim,Não,Sim,Sim,Sim,Não,Não,Não,sem descrição
2,02/01/2019,M,07/05/2017,Parda,PE,Ignorado,Ignorado,1,Sim,Sim,Não,Sim,Sim,Sim,Não,Não,Não,sem descrição
3,10/01/2019,F,15/07/2018,Branca,SP,Não,Não,1,Sim,Sim,Ignorado,Sim,Sim,Sim,Não,Não,Não,sem descrição
4,11/01/2019,F,15/09/2018,Parda,PE,Ignorado,Ignorado,1,Sim,Não,Não,Sim,Sim,Sim,Ignorado,Ignorado,Não,sem descrição


In [54]:
dfbinario = dd.concat([informacoes_pessoais, sintomasbinario], axis=1)


We're assuming that the indices of each dataframes are 
 aligned. This assumption is not generally safe.


Unnamed: 0,data_registro,sexo,data_nascimento,raca,estado,surto_sindromegripal,contraiu_no_hospital,mes_registro,FEBRE,TOSSE,GARGANTA,DISPNEIA,DESC_RESP,SATURACAO,DIARREIA,VOMITO,OUTRO_SIN,OUTRO_DES
48428,01/11/2019,M,15/06/2019,Ignorado,BA,Não,Não,11,1.0,1.0,Ignorado,1.0,1.0,1.0,1.0,Ignorado,0.0,sem descrição
48429,04/11/2019,F,02/10/2019,Parda,BA,Não,Não,11,1.0,1.0,Ignorado,1.0,1.0,1.0,0.0,,1.0,"CIANOSE, BRONCOASPIRACAO"
48430,24/12/2019,M,18/07/1990,Parda,MG,Não,Não,12,1.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,ADINAMIA
48431,27/12/2019,M,26/03/1955,Branca,MG,Não,Não,12,0.0,1.0,0.0,1.0,1.0,1.0,0.0,0.0,0.0,sem descrição
48432,23/12/2019,M,26/08/1957,Branca,SP,Não,Não,12,1.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,sem descrição
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48523,12/12/2019,M,29/11/2010,Parda,BA,Não,Não,12,1.0,1.0,,1.0,1.0,1.0,0.0,0.0,0.0,sem descrição
48524,05/11/2019,F,07/07/1947,Parda,PA,Não,Ignorado,11,1.0,1.0,0.0,1.0,1.0,1.0,0.0,0.0,0.0,sem descrição
48525,11/04/2020,M,13/12/1947,Parda,SP,Não,Não,4,0.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,sem descrição
48526,31/10/2019,F,07/05/1966,Parda,BA,Não,Não,10,1.0,1.0,Ignorado,1.0,1.0,Ignorado,1.0,Ignorado,Ignorado,sem descrição


### considerando gripe como a presença dos sintomas: febre, garganta, tosse e descresp, ou surto sindrome gripal = sim

In [64]:
dfbinario['e_gripe'] = (df['FEBRE'] == 1) & (df['GARGANTA'] == 1) & (df['TOSSE'] == 1) & (df['DESC_RESP'] == 1) | (df['surto_sindromegripal'] == 'Sim')
dfbinario.head()



data_registro           3102
sexo                    3102
data_nascimento         3095
raca                    3000
estado                  3100
surto_sindromegripal    3102
contraiu_no_hospital    3102
mes_registro            3102
FEBRE                   3093
TOSSE                   3092
GARGANTA                3040
DISPNEIA                3080
DESC_RESP               3076
SATURACAO               3057
DIARREIA                3028
VOMITO                  3032
OUTRO_SIN               2714
OUTRO_DES               3102
e_gripe                 3102
dtype: int64

###

In [68]:

soma = 0
somafalse = 0
for i in dfbinario['e_gripe']:
    if pd.notna(i):
        if i == True:
            soma +=1
        else:
            somafalse +=1
print(soma)
print(somafalse)

3102
44068


In [79]:
total_count = dfbinario.groupby('mes_registro')['data_registro'].count().compute()
gripe_count = dfbinario.groupby('mes_registro')['e_gripe'].count().compute()

percentage = (gripe_count / total_count) * 100
percentage



mes_registro
1     96.463506
2     97.608696
3     97.117632
4     97.074685
5     96.903766
6     97.046305
7     97.536182
8     97.379802
9     97.377909
10    96.788818
11    98.039216
12    97.890752
dtype: float64