### Importação das bibliotecas

Para utilizar as bibliotecas `pysus`, foi necessário instalá-la previamente.

Nesta célula, estamos importando as seguintes bibliotecas:

In [2]:
from pysus.online_data import SINAN
from pysus.preprocessing.decoders import decodifica_idade_SINAN
import pandas as pd

### Carregando os dados

Baixei os dados disponíveis no banco de dados do SUS, referenta a doença leptospirose no ano de 2018 usando a biblioteca `pysus` usando o método `SINAN.download()`. Em seguida, converti os dados em um DataFrame chamado **dataframe**. Modifiquei a coluna `DT_NOTIFIC` para o formato de data usando o método `pd.to_datetime()`. Por fim, transformei o DataFrame em um arquivo CSV chamado 'Leptospirosis.csv' usando o método `to_csv()` do DataFrame.

In [3]:
path = SINAN.download('Leptospirose', 2018)
dataframe = pd.read_parquet(path)
dataframe['DT_NOTIFIC'] = pd.to_datetime(dataframe['DT_NOTIFIC'])
dataframe.to_csv('Leptospirose.csv', index=False)

### Manipulando os dados

Aqui, usando o método `pd.read_csv()`, li os dados do arquivo CSV 'Leptospirose.csv' gerado anteriormente em um novo DataFrame chamado **dataframe_lepto_2018**. Em seguida, novamente converti a coluna `DT_NOTIFIC` para o formato de data, uma vez que estava dando erro sem esse comando. Então, defini a coluna `DT_NOTIFIC` como o índice do DataFrame usando o método `set_index()`. O data frame obtido pode ser visualizado abaixo do código.



In [4]:
dataframe_lepto_2018 = pd.read_csv('Leptospirose.csv')
dataframe_lepto_2018['DT_NOTIFIC'] = pd.to_datetime(dataframe_lepto_2018['DT_NOTIFIC'])
dataframe_lepto_2018.set_index('DT_NOTIFIC', inplace = True)
dataframe_lepto_2018

Unnamed: 0_level_0,TP_NOT,ID_AGRAVO,SEM_NOT,NU_ANO,SG_UF_NOT,ID_MUNICIP,ID_REGIONA,ID_UNIDADE,DT_SIN_PRI,SEM_PRI,...,DT_RISCO3,DT_RISCO4,CO_MUN_R1,CO_MUN_R2,CO_MUN_R3,CO_MUN_R4,CO_UF_R1,CO_UF_R2,CO_UF_R3,CO_UF_R4
DT_NOTIFIC,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2018-01-01,2,A279,201801,2018,35,355220,1353,2708779,20171222,201751,...,,,,,,,,,,
2018-01-01,2,A279,201801,2018,41,410690,1356,17396,20171230,201752,...,,,,,,,,,,
2018-01-01,2,A279,201801,2018,41,410040,1356,7463529,20171228,201752,...,,,,,,,,,,
2018-01-01,2,A279,201801,2018,43,431680,1609,9004688,20180101,201801,...,,,,,,,,,,
2018-01-01,2,A279,201801,2018,12,120040,1938,6439837,20171225,201752,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2018-12-31,2,A279,201901,2018,31,310620,1449,23140,20181229,201852,...,,,,,,,,,,
2018-12-31,2,A279,201901,2018,52,520870,1779,2506661,20181125,201848,...,,,,,,,,,,
2018-12-31,2,A279,201901,2018,12,120040,1938,6439837,20181222,201851,...,,,,,,,,,,
2018-12-31,2,A279,201901,2018,16,160060,,2021064,20181225,201852,...,,,,,,,,,,


Para melhor visualização dos dados, mantive no DataFrame apenas as variáveis que irei utilizar ao longo do trabalho. Modifiquei o próproprio DataFrame, pois sei que não usarei mais as variáveis excluidas. Contudo, caso necessárias, ainda podem ser acessadas pelo `CSV`. Ficando o DataFrame resumido da seguinte forma:

In [5]:
dataframe_lepto_2018 = dataframe_lepto_2018[['ID_MUNICIP', 'SG_UF', 'NU_IDADE_N', 'CS_SEXO', 'CS_RACA']]
dataframe_lepto_2018

Unnamed: 0_level_0,ID_MUNICIP,SG_UF,NU_IDADE_N,CS_SEXO,CS_RACA
DT_NOTIFIC,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-01-01,355220,35,4028,M,4
2018-01-01,410690,41,4012,F,2
2018-01-01,410040,41,4047,M,4
2018-01-01,431680,43,4032,M,2
2018-01-01,120040,12,4021,M,4
...,...,...,...,...,...
2018-12-31,310620,31,4004,F,4
2018-12-31,520870,52,4019,M,4
2018-12-31,120040,12,4028,F,4
2018-12-31,160060,16,4044,F,4
