#### Os dados, até a data do presente estudo, estão no https://opendatasus.saude.gov.br/dataset/bd-srag-2020
#### O presente arquivo é de 16 de novembro. Atenção: a última barra no gráfico por semana é menor, pois a semana é incompleta! Note também que o crescimento é diferente por cidades.
#### Disclaimer/Aviso Legal: Este notebook tem um fim única e exclusivamente didático, para alunos da FATEC, como uma introdução à Análise de Dados Públicos. Desse modo, está excluída a garantia ou responsabilidade de qualquer tipo, por exemplo, de precisão, confiabilidade, completude e atualidade das informações.

In [None]:
import pandas as pd
low_memory=False
%matplotlib inline
pd.options.display.max_columns = 80
pd.options.display.max_rows = 90

In [None]:
filename = r'C:\Users\fmasa\Downloads\INFLUD-16-11-2020.csv'
df = pd.read_csv(filename, delimiter=';', 
                 usecols='CS_RACA CS_ESCOL_N SEM_NOT DT_NOTIFIC SG_UF_NOT HISTO_VGM PAIS_VGM CARDIOPATI DIABETES OBESIDADE NU_IDADE_N ID_MUNICIP'.split(),
                 encoding='ISO-8859-1',
                 error_bad_lines=False)

In [None]:
df.shape

In [None]:
df.info()

In [None]:
for par in enumerate(df.columns): print (par)

In [None]:
# Tabelas de microdados usam números, faço a correspondência desses números com seus significados
troca_raça = {1:'Branca', 2:'Preta', 3:'Amarela',
              4:'Parda', 5:'Indígena', 9:'Ignorado'}
troca_escolaridade = {0:'Sem', 1:'Fund1', 
                      2:'Fund2', 3:'Médio',
                      4:'Superior', 
                      5:'Não se aplica',
                      9:'Ignorado'}

In [None]:
df.loc[(df.CS_RACA.isnull()), 'CS_RACA'] = 9
df['CS_RACA'] = df['CS_RACA'].apply(lambda x: troca_raça[x])
df.loc[(df.CS_ESCOL_N.isnull()), 'CS_ESCOL_N'] = 9
df['CS_ESCOL_N'] = df['CS_ESCOL_N'].apply(lambda x: troca_escolaridade[x])
df.SEM_NOT = df.SEM_NOT.apply(pd.to_numeric, errors='coerce')
df['DT_NOTIFIC'].dropna(inplace=True)

In [None]:
df.sample(10)

In [None]:
df.groupby('SG_UF_NOT').size().sort_values().tail(5).plot(kind='barh')

In [None]:
df.groupby('CS_RACA').size().sort_values().plot(kind='barh')

In [None]:
df.groupby('CS_RACA').size().sort_values()

In [None]:
df.groupby('CS_ESCOL_N').size().sort_values(ascending=False)

In [None]:
df.query('HISTO_VGM == 1')['HISTO_VGM'].value_counts()

In [None]:
df.query('HISTO_VGM == 1 and PAIS_VGM != "BRASIL"').groupby('PAIS_VGM').size().sort_values(ascending=False).head(10).plot(kind='bar')


In [None]:
df.query('CARDIOPATI == 1')['CARDIOPATI'].value_counts()

In [None]:
df.query('DIABETES == 1')['DIABETES'].value_counts()

In [None]:
df.query('OBESIDADE == 1')['OBESIDADE'].value_counts()

In [None]:
df.query('NU_IDADE_N >= 60')['NU_IDADE_N'].count()

In [None]:
df.groupby('SEM_NOT').size().plot(kind='bar')

In [None]:
df.query('SG_UF_NOT == "RJ"').groupby('SEM_NOT').size().plot(kind='bar')

In [None]:
df.query('ID_MUNICIP == "RIO DE JANEIRO"').groupby('SEM_NOT').size().plot(kind='bar')

In [None]:
df.query('ID_MUNICIP == "NITEROI"').groupby('SEM_NOT').size().plot(kind='bar')