## Preparação dos Dados
Nesta etapa, as bibliotecas a serem utilizadas serão importadas e será realizado o webscrapping dos dados.

Caso hajam funções que serão utilizadas no notebook também serão inseridas nesta etapa.

Os dados a serem utilizados neste projeto são retirados da Secretaria de Estado da Saúde do Governo do Estado de São Paulo (http://www.saude.sp.gov.br/cve-centro-de-vigilancia-epidemiologica-prof.-alexandre-vranjac/oldzoonoses/chikungunya/dados-estatisticos)

Neste notebook serão importados os dados referentes à distribuição dos casos notificados e confirmados (autóctones e importados) de Chikungunya, segundo município de residência, por mês de início de sintomas, referentes ao ano de 2023.

Casos autóctones, segundo o Guia para Investigações de Surtos ou Epidemias do Ministério da Saúde (2018), se referem aos casos contraídos pelo enfermo na zona de sua residência. 

Ou seja, o enfermo não "pegou" a doença fora da região de onde reside.

Já casos importados, segundo o Guia para Investigações de Surtos ou Epidemias do Ministério da Saúde (2018), se referem aos casos contraídos fora da zona onde se fez o diagnóstico. O emprego dessa expressão dá a ideia de que é possível situar, com certeza, a origem da infecção em uma zona conhecida.

In [1]:
# Importando bibliotecas
import pandas as pd
import requests
from bs4 import BeautifulSoup
import warnings

warnings.filterwarnings('ignore')

In [2]:
# Lista de funções
def alt_type_int(df, columns):
    df.loc[:, columns] = df.loc[:, columns].astype(int)
    return df.dtypes

def alt_name_not(df, i, month):
    df.columns.values[i] = f"{month}_Not"

def alt_name_auto(df, i, month):
    df.columns.values[i] = f"{month}_Autoc"
    
def alt_name_import(df, i, month):
    df.columns.values[i] = f"{month}_Import"

In [3]:
# Webscrapping do site
response = requests.get("http://www.saude.sp.gov.br/resources/cve-centro-de-vigilancia-epidemiologica/areas-de-vigilancia/doencas-de-transmissao-por-vetores-e-zoonoses/dados/chikung/2022/chikung22_import_autoc_res.htm")
if response.status_code != 200:
    print(f"Erro {response.status_code}")
else:
    print("Request realizada com sucesso!")

Request realizada com sucesso!


In [4]:
# Webscrapping dos dados
soup = BeautifulSoup(response.text, 'html.parser')
table = soup.find('table') # encontra a tag <table>
table

df = pd.read_html(str(table))[0]

# exibe o dataframe
display(df)


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,51,52,53,54,55,56,57,58,59,60
0,Distribuição dos casos notificados e confirmad...,Distribuição dos casos notificados e confirmad...,Distribuição dos casos notificados e confirmad...,Distribuição dos casos notificados e confirmad...,Distribuição dos casos notificados e confirmad...,Distribuição dos casos notificados e confirmad...,Distribuição dos casos notificados e confirmad...,,,,...,,,,,,,,,,
1,DRS,,GVE,,Região de Saúde,Região de Saúde,município,Janeiro,Janeiro,Janeiro,...,,,,,,,,,,
2,,,,,,,,notificados,confirmados,confirmados,...,,,,,,,,,,
3,,,,,,,,,autóctones,importados,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
653,,,,,,,,,,,...,,,,,,,,,,
654,,,,,,,,,,,...,,,,,,,,,,
655,,,,,,,,,,,...,,,,,,,,,,
656,,,,,,,,,,,...,,,,,,,,,,


## Análise de dados
Nesta etapa iremos analisar os dados e também tratá-los conforme sua necessidade.

In [5]:
# Retirar a primeira linha
df = df.drop(0)

In [6]:
# Transformando a linha em nomes das colunas
new_header = df.iloc[0]
df = df[1:]
df = df.rename(columns=new_header)

In [7]:
# Retirando as linhas vazias
df = df.dropna(how='all')

In [8]:
# Retirando as colunas com todas as informações nulas
df.dropna(axis=1, how='all', inplace=True)

In [9]:
# Retirando as duas últimas linhas que não pertencem aos dados da tabela
df = df.iloc[:-2]

In [10]:
# Retirando a última coluna da tabela
df = df.iloc[:, :-3]

In [11]:
# Retirando as 5 primeiras colunas da tabela (fact_municípios)
df = df.iloc[:, 6:]

In [12]:
# Separando a coluna municípios
df[['Num_Municipio', 'Municipio']] = df['município'].str.split(' ', n=1, expand=True)
df.drop('município', axis=1, inplace=True)

In [13]:
df.columns

Index([      'Janeiro',       'Janeiro',       'Janeiro',     'Fevereiro',
           'Fevereiro',     'Fevereiro',         'Março',         'Março',
               'Março',         'Abril',         'Abril',         'Abril',
                'Maio',          'Maio',          'Maio',         'Junho',
               'Junho',         'Junho',         'Julho',         'Julho',
               'Julho',             nan,        'Agosto',             nan,
                   nan,      'Setembro',             nan,             nan,
             'Outubro',             nan,             nan,      'Novembro',
                   nan,             nan,      'Dezembro',             nan,
       'Num_Municipio',     'Municipio'],
      dtype='object')

In [14]:
# Renomeando colunas de casos notificados
alt_name_not(df, 0, 'Janeiro')
alt_name_not(df, 3, 'Fevereiro')
alt_name_not(df, 6, 'Março')
alt_name_not(df, 9, 'Abril')
alt_name_not(df, 12, 'Maio')
alt_name_not(df, 15, 'Junho')
alt_name_not(df, 18, 'Julho')
alt_name_not(df, 21, 'Agosto')
alt_name_not(df, 24, 'Setembro')
alt_name_not(df, 27, 'Outubro')
alt_name_not(df, 30, 'Novembro')
alt_name_not(df, 33, 'Dezembro')

In [15]:
# Renomeando colunas de casos confirmados e Autóctones
alt_name_auto(df, 1, 'Janeiro')
alt_name_auto(df, 4, 'Fevereiro')
alt_name_auto(df, 7, 'Março')
alt_name_auto(df, 10, 'Abril')
alt_name_auto(df, 13, 'Maio')
alt_name_auto(df, 16, 'Junho')
alt_name_auto(df, 19, 'Julho')
alt_name_auto(df, 22, 'Agosto')
alt_name_auto(df, 25, 'Setembro')
alt_name_auto(df, 28, 'Outubro')
alt_name_auto(df, 31, 'Novembro')
alt_name_auto(df, 34, 'Dezembro')

In [16]:
# Renomeando colunas de casos confirmados e importados
alt_name_import(df, 2, 'Janeiro')
alt_name_import(df, 5, 'Fevereiro')
alt_name_import(df, 8, 'Março')
alt_name_import(df, 11, 'Abril')
alt_name_import(df, 14, 'Maio')
alt_name_import(df, 17, 'Junho')
alt_name_import(df, 20, 'Julho')
alt_name_import(df, 23, 'Agosto')
alt_name_import(df, 26, 'Setembro')
alt_name_import(df, 29, 'Outubro')
alt_name_import(df, 32, 'Novembro')
alt_name_import(df, 35, 'Dezembro')

In [17]:
df.columns

Index([     'Janeiro_Not',    'Janeiro_Autoc',   'Janeiro_Import',
          'Fevereiro_Not',  'Fevereiro_Autoc', 'Fevereiro_Import',
              'Março_Not',      'Março_Autoc',     'Março_Import',
              'Abril_Not',      'Abril_Autoc',     'Abril_Import',
               'Maio_Not',       'Maio_Autoc',      'Maio_Import',
              'Junho_Not',      'Junho_Autoc',     'Junho_Import',
              'Julho_Not',      'Julho_Autoc',     'Julho_Import',
             'Agosto_Not',     'Agosto_Autoc',    'Agosto_Import',
           'Setembro_Not',   'Setembro_Autoc',  'Setembro_Import',
            'Outubro_Not',    'Outubro_Autoc',   'Outubro_Import',
           'Novembro_Not',   'Novembro_Autoc',  'Novembro_Import',
           'Dezembro_Not',   'Dezembro_Autoc',  'Dezembro_Import',
          'Num_Municipio',        'Municipio'],
      dtype='object')

In [18]:
# Retirando as duas primeiras linhas para tratamento da tabela
df = df.iloc[2:]

In [19]:
# Resetando index
df.reset_index(inplace=True)

In [20]:
# Selecionando as colunas
df = df.iloc[:, 1:]

In [21]:
# Reindexando as colunas
df = df.reindex(columns=['Municipio', 'Num_Municipio', 'Janeiro_Not', 'Janeiro_Autoc', 'Janeiro_Import',  'Fevereiro_Not', 'Fevereiro_Autoc', 'Fevereiro_Import',  'Março_Not', 'Março_Autoc', 'Março_Import',  'Abril_Not', 'Abril_Autoc', 'Abril_Import',  'Maio_Not', 'Maio_Autoc', 'Maio_Import',  'Junho_Not', 'Junho_Autoc', 'Junho_Import',  'Julho_Not', 'Julho_Autoc', 'Julho_Import',  'Agosto_Not', 'Agosto_Autoc', 'Agosto_Import',  'Setembro_Not', 'Setembro_Autoc', 'Setembro_Import',  'Outubro_Not', 'Outubro_Autoc', 'Outubro_Import',  'Novembro_Not', 'Novembro_Autoc', 'Novembro_Import',  'Dezembro_Not', 'Dezembro_Autoc', 'Dezembro_Import'])

In [22]:
# Verificando nulos
df.isnull().sum()

Num_Municipio       0
Municipio           0
Janeiro_Not         0
Janeiro_Autoc       0
Janeiro_Import      0
Fevereiro_Not       0
Fevereiro_Autoc     0
Fevereiro_Import    0
Março_Not           0
Março_Autoc         0
Março_Import        0
Abril_Not           0
Abril_Autoc         0
Abril_Import        0
Maio_Not            0
Maio_Autoc          0
Maio_Import         0
Junho_Not           0
Junho_Autoc         0
Junho_Import        0
Julho_Not           0
Julho_Autoc         0
Julho_Import        0
Agosto_Not          0
Agosto_Autoc        0
Agosto_Import       0
Setembro_Not        0
Setembro_Autoc      0
Setembro_Import     0
Outubro_Not         0
Outubro_Autoc       0
Outubro_Import      0
Novembro_Not        0
Novembro_Autoc      0
Novembro_Import     0
Dezembro_Not        0
Dezembro_Autoc      0
Dezembro_Import     0
dtype: int64

In [23]:
# Verificando os tipos das colunas
df.dtypes

Num_Municipio       object
Municipio           object
Janeiro_Not         object
Janeiro_Autoc       object
Janeiro_Import      object
Fevereiro_Not       object
Fevereiro_Autoc     object
Fevereiro_Import    object
Março_Not           object
Março_Autoc         object
Março_Import        object
Abril_Not           object
Abril_Autoc         object
Abril_Import        object
Maio_Not            object
Maio_Autoc          object
Maio_Import         object
Junho_Not           object
Junho_Autoc         object
Junho_Import        object
Julho_Not           object
Julho_Autoc         object
Julho_Import        object
Agosto_Not          object
Agosto_Autoc        object
Agosto_Import       object
Setembro_Not        object
Setembro_Autoc      object
Setembro_Import     object
Outubro_Not         object
Outubro_Autoc       object
Outubro_Import      object
Novembro_Not        object
Novembro_Autoc      object
Novembro_Import     object
Dezembro_Not        object
Dezembro_Autoc      object
D

In [24]:
df.columns

Index(['Num_Municipio', 'Municipio', 'Janeiro_Not', 'Janeiro_Autoc',
       'Janeiro_Import', 'Fevereiro_Not', 'Fevereiro_Autoc',
       'Fevereiro_Import', 'Março_Not', 'Março_Autoc', 'Março_Import',
       'Abril_Not', 'Abril_Autoc', 'Abril_Import', 'Maio_Not', 'Maio_Autoc',
       'Maio_Import', 'Junho_Not', 'Junho_Autoc', 'Junho_Import', 'Julho_Not',
       'Julho_Autoc', 'Julho_Import', 'Agosto_Not', 'Agosto_Autoc',
       'Agosto_Import', 'Setembro_Not', 'Setembro_Autoc', 'Setembro_Import',
       'Outubro_Not', 'Outubro_Autoc', 'Outubro_Import', 'Novembro_Not',
       'Novembro_Autoc', 'Novembro_Import', 'Dezembro_Not', 'Dezembro_Autoc',
       'Dezembro_Import'],
      dtype='object')

In [25]:
# Transformando os tipos das colunas de semanas em inteiro 
columns = ['Janeiro_Not', 'Janeiro_Autoc',
       'Janeiro_Import', 'Fevereiro_Not', 'Fevereiro_Autoc',
       'Fevereiro_Import', 'Março_Not', 'Março_Autoc', 'Março_Import',
       'Abril_Not', 'Abril_Autoc', 'Abril_Import', 'Maio_Not', 'Maio_Autoc',
       'Maio_Import', 'Junho_Not', 'Junho_Autoc', 'Junho_Import', 'Julho_Not',
       'Julho_Autoc', 'Julho_Import', 'Agosto_Not', 'Agosto_Autoc',
       'Agosto_Import', 'Setembro_Not', 'Setembro_Autoc', 'Setembro_Import',
       'Outubro_Not', 'Outubro_Autoc', 'Outubro_Import', 'Novembro_Not',
       'Novembro_Autoc', 'Novembro_Import', 'Dezembro_Not', 'Dezembro_Autoc',
       'Dezembro_Import']

for column in columns:
    alt_type_int(df, column)

In [26]:
# Criando dataframes dos casos notificados
df_notificados = df[['Num_Municipio', 'Janeiro_Not', 'Fevereiro_Not', 'Março_Not', 'Abril_Not', 'Maio_Not','Junho_Not', 'Julho_Not', 'Agosto_Not', 'Setembro_Not', 'Outubro_Not', 'Novembro_Not', 'Dezembro_Not' ]]
df_notificados

Unnamed: 0,Num_Municipio,Municipio,Janeiro_Not,Fevereiro_Not,Março_Not,Abril_Not,Maio_Not,Junho_Not,Julho_Not,Agosto_Not,Setembro_Not,Outubro_Not,Novembro_Not,Dezembro_Not
0,350010,Adamantina,0,0,2,0,0,0,3,4,2,1,1,0
1,350020,Adolfo,0,0,0,0,0,0,0,0,0,0,0,0
2,350030,Aguaí,0,0,0,0,0,0,0,0,0,0,0,0
3,350040,Águas da Prata,0,0,0,0,0,0,0,0,0,0,0,0
4,350050,Águas de Lindóia,0,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
640,355700,Votorantim,0,2,0,0,0,0,1,0,0,0,0,1
641,355710,Votuporanga,0,0,0,0,1,0,0,0,0,0,1,0
642,355715,Zacarias,0,0,0,0,0,0,0,0,0,0,0,0
643,355720,Chavantes,0,0,0,0,0,0,0,0,0,0,1,0


In [32]:
# Criando dataframes dos casos confirmados e autóctones
df_conf_auto = df[['Num_Municipio', 'Janeiro_Autoc', 'Fevereiro_Autoc', 'Março_Autoc', 'Abril_Autoc', 'Maio_Autoc','Junho_Autoc', 'Julho_Autoc', 'Agosto_Autoc', 'Setembro_Autoc', 'Outubro_Autoc', 'Novembro_Autoc', 'Dezembro_Autoc' ]]
df_conf_auto

Unnamed: 0,Num_Municipio,Municipio,Janeiro_Autoc,Fevereiro_Autoc,Março_Autoc,Abril_Autoc,Maio_Autoc,Junho_Autoc,Julho_Autoc,Agosto_Autoc,Setembro_Autoc,Outubro_Autoc,Novembro_Autoc,Dezembro_Autoc
0,350010,Adamantina,0,0,0,0,0,0,0,0,0,0,0,0
1,350020,Adolfo,0,0,0,0,0,0,0,0,0,0,0,0
2,350030,Aguaí,0,0,0,0,0,0,0,0,0,0,0,0
3,350040,Águas da Prata,0,0,0,0,0,0,0,0,0,0,0,0
4,350050,Águas de Lindóia,0,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
640,355700,Votorantim,0,0,0,0,0,0,0,0,0,0,0,0
641,355710,Votuporanga,0,0,0,0,0,0,0,0,0,0,0,0
642,355715,Zacarias,0,0,0,0,0,0,0,0,0,0,0,0
643,355720,Chavantes,0,0,0,0,0,0,0,0,0,0,0,0


In [33]:
# Criando dataframes dos casos confirmados e importados
df_conf_import = df[['Num_Municipio', 'Janeiro_Import', 'Fevereiro_Import', 'Março_Import', 'Abril_Import', 'Maio_Import','Junho_Import', 'Julho_Import', 'Agosto_Import', 'Setembro_Import', 'Outubro_Import', 'Novembro_Import', 'Dezembro_Import' ]]
df_conf_import

Unnamed: 0,Num_Municipio,Municipio,Janeiro_Import,Fevereiro_Import,Março_Import,Abril_Import,Maio_Import,Junho_Import,Julho_Import,Agosto_Import,Setembro_Import,Outubro_Import,Novembro_Import,Dezembro_Import
0,350010,Adamantina,0,0,0,0,0,0,1,0,0,0,0,0
1,350020,Adolfo,0,0,0,0,0,0,0,0,0,0,0,0
2,350030,Aguaí,0,0,0,0,0,0,0,0,0,0,0,0
3,350040,Águas da Prata,0,0,0,0,0,0,0,0,0,0,0,0
4,350050,Águas de Lindóia,0,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
640,355700,Votorantim,0,0,0,0,0,0,0,0,0,0,0,0
641,355710,Votuporanga,0,0,0,0,0,0,0,0,0,0,0,0
642,355715,Zacarias,0,0,0,0,0,0,0,0,0,0,0,0
643,355720,Chavantes,0,0,0,0,0,0,0,0,0,0,0,0


## Armazenamento dos dados
Nesta etapa iremos armazenar os três dataframes criados anteriormente.

In [29]:
#df_notificados.to_excel('data/fact_casos_notif_mensal_2022.xlsx', sheet_name='fact.casos_notif_mensal')

In [30]:
#df_conf_auto.to_excel('data/fact_casos_conf_auto_mensal_2022.xlsx', sheet_name='fact.casos_conf_auto_mensal')

In [31]:
#df_conf_import.to_excel('data/fact_casos_conf_import_mensal_2022.xlsx', sheet_name='fact.casos_conf_import_mensal')