## Preparação dos Dados
Nesta etapa, as bibliotecas a serem utilizadas serão importadas e será realizado o webscrapping dos dados.

Caso hajam funções que serão utilizadas no notebook também serão inseridas nesta etapa.

Os dados a serem utilizados neste projeto são retirados da Secretaria de Estado da Saúde do Governo do Estado de São Paulo (http://www.saude.sp.gov.br/cve-centro-de-vigilancia-epidemiologica-prof.-alexandre-vranjac/oldzoonoses/chikungunya/dados-estatisticos)

Neste notebook serão importados os dados referentes à distribuição dos casos notificados e confirmados (autóctones e importados) de Chikungunya, segundo município de residência, por mês de início de sintomas, referentes ao ano de 2023.

Casos autóctones, segundo o Guia para Investigações de Surtos ou Epidemias do Ministério da Saúde (2018), se referem aos casos contraídos pelo enfermo na zona de sua residência. 

Ou seja, o enfermo não "pegou" a doença fora da região de onde reside.

Já casos importados, segundo o Guia para Investigações de Surtos ou Epidemias do Ministério da Saúde (2018), se referem aos casos contraídos fora da zona onde se fez o diagnóstico. O emprego dessa expressão dá a ideia de que é possível situar, com certeza, a origem da infecção em uma zona conhecida.

In [1]:
# Importando bibliotecas
import pandas as pd
import requests
from bs4 import BeautifulSoup

In [2]:
# Lista de funções
def alt_type_int(df, columns):
    df.loc[:, columns] = df.loc[:, columns].astype(int)
    return df.dtypes

def alt_name_not(df, i, month):
    df.columns.values[i] = f"{month}_Not"

def alt_name_auto(df, i, month):
    df.columns.values[i] = f"{month}_Autoc"
    
def alt_name_import(df, i, month):
    df.columns.values[i] = f"{month}_Import"

In [3]:
# Webscrapping do site
response = requests.get("http://www.saude.sp.gov.br/resources/cve-centro-de-vigilancia-epidemiologica/areas-de-vigilancia/doencas-de-transmissao-por-vetores-e-zoonoses/dados/chikung/2023/chikung23_mes.html")
if response.status_code != 200:
    print(f"Erro {response.status_code}")
else:
    print("Request realizada com sucesso!")

Request realizada com sucesso!


In [4]:
# Webscrapping dos dados
soup = BeautifulSoup(response.text, 'html.parser')
table = soup.find('table') # encontra a tag <table>
table

df = pd.read_html(str(table))[0]

# exibe o dataframe
display(df)


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18
0,Distribuição dos casos notificados e confirmad...,Distribuição dos casos notificados e confirmad...,Distribuição dos casos notificados e confirmad...,Distribuição dos casos notificados e confirmad...,Distribuição dos casos notificados e confirmad...,Distribuição dos casos notificados e confirmad...,Distribuição dos casos notificados e confirmad...,Distribuição dos casos notificados e confirmad...,Distribuição dos casos notificados e confirmad...,,,,,,,,,,
1,,,,,Região de Saúde,Região de Saúde,município,Janeiro,Janeiro,Janeiro,Fevereiro,Fevereiro,Fevereiro,Março,Março,Março,total,total,total
2,,DRS,,GVE,,,,notificados,confirmados,confirmados,notificados,confirmados,confirmados,notificados,confirmados,confirmados,notificados,confirmados,confirmados
3,,,,,,,,,autóctones,importados,,autóctones,importados,,autóctones,importados,,autóctones,importados
4,,,,,,,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
648,9,Marília,XIII,ASSIS,35094,OURINHOS,355720 Chavantes,0,0,0,0,0,0,0,0,0,0,0,0
649,14,São João da Boa Vista,XXVI,SÃO JOÃO DA BOA VISTA,35141,BAIXA MOGIANA,355730 Estiva Gerbi,0,0,0,0,0,0,0,0,0,0,0,0
650,Total do Estado,Total do Estado,,,,,,628,45,135,652,69,49,871,95,14,2151,209,198
651,,,,,,,,,,,,,,,,,,,


## Análise de dados
Nesta etapa iremos analisar os dados e também tratá-los conforme sua necessidade.

In [5]:
df = df.drop(0)

In [6]:
# Transformando a linha em nomes das colunas
new_header = df.iloc[0]
df = df[1:]
df = df.rename(columns=new_header)
df

Unnamed: 0,NaN,NaN.1,NaN.2,NaN.3,Região de Saúde,Região de Saúde.1,município,Janeiro,Janeiro.1,Janeiro.2,Fevereiro,Fevereiro.1,Fevereiro.2,Março,Março.1,Março.2,total,total.1,total.2
2,,DRS,,GVE,,,,notificados,confirmados,confirmados,notificados,confirmados,confirmados,notificados,confirmados,confirmados,notificados,confirmados,confirmados
3,,,,,,,,,autóctones,importados,,autóctones,importados,,autóctones,importados,,autóctones,importados
4,,,,,,,,,,,,,,,,,,,
5,9,Marília,XIX,MARÍLIA,35091,ADAMANTINA,350010 Adamantina,0,0,0,0,0,0,2,0,0,2,0,0
6,15,São José do Rio Preto,XXIX,SÃO JOSÉ DO RIO PRETO,35156,JOSÉ BONIFÁCIO,350020 Adolfo,0,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
648,9,Marília,XIII,ASSIS,35094,OURINHOS,355720 Chavantes,0,0,0,0,0,0,0,0,0,0,0,0
649,14,São João da Boa Vista,XXVI,SÃO JOÃO DA BOA VISTA,35141,BAIXA MOGIANA,355730 Estiva Gerbi,0,0,0,0,0,0,0,0,0,0,0,0
650,Total do Estado,Total do Estado,,,,,,628,45,135,652,69,49,871,95,14,2151,209,198
651,,,,,,,,,,,,,,,,,,,


In [7]:
# Retirando as linhas vazias
df = df.dropna(how='all')
df

Unnamed: 0,NaN,NaN.1,NaN.2,NaN.3,Região de Saúde,Região de Saúde.1,município,Janeiro,Janeiro.1,Janeiro.2,Fevereiro,Fevereiro.1,Fevereiro.2,Março,Março.1,Março.2,total,total.1,total.2
2,,DRS,,GVE,,,,notificados,confirmados,confirmados,notificados,confirmados,confirmados,notificados,confirmados,confirmados,notificados,confirmados,confirmados
3,,,,,,,,,autóctones,importados,,autóctones,importados,,autóctones,importados,,autóctones,importados
5,9,Marília,XIX,MARÍLIA,35091,ADAMANTINA,350010 Adamantina,0,0,0,0,0,0,2,0,0,2,0,0
6,15,São José do Rio Preto,XXIX,SÃO JOSÉ DO RIO PRETO,35156,JOSÉ BONIFÁCIO,350020 Adolfo,0,0,0,0,0,0,0,0,0,0,0,0
7,14,São João da Boa Vista,XXVI,SÃO JOÃO DA BOA VISTA,35142,MANTIQUEIRA,350030 Aguaí,0,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
647,15,São José do Rio Preto,XXIX,SÃO JOSÉ DO RIO PRETO,35156,JOSÉ BONIFÁCIO,355715 Zacarias,0,0,0,0,0,0,1,0,0,1,0,0
648,9,Marília,XIII,ASSIS,35094,OURINHOS,355720 Chavantes,0,0,0,0,0,0,0,0,0,0,0,0
649,14,São João da Boa Vista,XXVI,SÃO JOÃO DA BOA VISTA,35141,BAIXA MOGIANA,355730 Estiva Gerbi,0,0,0,0,0,0,0,0,0,0,0,0
650,Total do Estado,Total do Estado,,,,,,628,45,135,652,69,49,871,95,14,2151,209,198


In [8]:
# Retirando as duas últimas linhas que não pertencem aos dados da tabela
df = df.iloc[:-2]
df

Unnamed: 0,NaN,NaN.1,NaN.2,NaN.3,Região de Saúde,Região de Saúde.1,município,Janeiro,Janeiro.1,Janeiro.2,Fevereiro,Fevereiro.1,Fevereiro.2,Março,Março.1,Março.2,total,total.1,total.2
2,,DRS,,GVE,,,,notificados,confirmados,confirmados,notificados,confirmados,confirmados,notificados,confirmados,confirmados,notificados,confirmados,confirmados
3,,,,,,,,,autóctones,importados,,autóctones,importados,,autóctones,importados,,autóctones,importados
5,9,Marília,XIX,MARÍLIA,35091,ADAMANTINA,350010 Adamantina,0,0,0,0,0,0,2,0,0,2,0,0
6,15,São José do Rio Preto,XXIX,SÃO JOSÉ DO RIO PRETO,35156,JOSÉ BONIFÁCIO,350020 Adolfo,0,0,0,0,0,0,0,0,0,0,0,0
7,14,São João da Boa Vista,XXVI,SÃO JOÃO DA BOA VISTA,35142,MANTIQUEIRA,350030 Aguaí,0,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
645,16,Sorocaba,XXXI,SOROCABA,35163,SOROCABA,355700 Votorantim,0,0,0,0,0,0,0,0,0,0,0,0
646,15,São José do Rio Preto,XXIX,SÃO JOSÉ DO RIO PRETO,35157,VOTUPORANGA,355710 Votuporanga,0,0,0,0,0,0,0,0,0,0,0,0
647,15,São José do Rio Preto,XXIX,SÃO JOSÉ DO RIO PRETO,35156,JOSÉ BONIFÁCIO,355715 Zacarias,0,0,0,0,0,0,1,0,0,1,0,0
648,9,Marília,XIII,ASSIS,35094,OURINHOS,355720 Chavantes,0,0,0,0,0,0,0,0,0,0,0,0


In [9]:
# Retirando a última coluna da tabela
df = df.iloc[:, :-3]
df

Unnamed: 0,NaN,NaN.1,NaN.2,NaN.3,Região de Saúde,Região de Saúde.1,município,Janeiro,Janeiro.1,Janeiro.2,Fevereiro,Fevereiro.1,Fevereiro.2,Março,Março.1,Março.2
2,,DRS,,GVE,,,,notificados,confirmados,confirmados,notificados,confirmados,confirmados,notificados,confirmados,confirmados
3,,,,,,,,,autóctones,importados,,autóctones,importados,,autóctones,importados
5,9,Marília,XIX,MARÍLIA,35091,ADAMANTINA,350010 Adamantina,0,0,0,0,0,0,2,0,0
6,15,São José do Rio Preto,XXIX,SÃO JOSÉ DO RIO PRETO,35156,JOSÉ BONIFÁCIO,350020 Adolfo,0,0,0,0,0,0,0,0,0
7,14,São João da Boa Vista,XXVI,SÃO JOÃO DA BOA VISTA,35142,MANTIQUEIRA,350030 Aguaí,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
645,16,Sorocaba,XXXI,SOROCABA,35163,SOROCABA,355700 Votorantim,0,0,0,0,0,0,0,0,0
646,15,São José do Rio Preto,XXIX,SÃO JOSÉ DO RIO PRETO,35157,VOTUPORANGA,355710 Votuporanga,0,0,0,0,0,0,0,0,0
647,15,São José do Rio Preto,XXIX,SÃO JOSÉ DO RIO PRETO,35156,JOSÉ BONIFÁCIO,355715 Zacarias,0,0,0,0,0,0,1,0,0
648,9,Marília,XIII,ASSIS,35094,OURINHOS,355720 Chavantes,0,0,0,0,0,0,0,0,0


In [10]:
# Retirando as 5 primeiras colunas da tabela (fact_municípios)
df = df.iloc[:, 6:]
df

Unnamed: 0,município,Janeiro,Janeiro.1,Janeiro.2,Fevereiro,Fevereiro.1,Fevereiro.2,Março,Março.1,Março.2
2,,notificados,confirmados,confirmados,notificados,confirmados,confirmados,notificados,confirmados,confirmados
3,,,autóctones,importados,,autóctones,importados,,autóctones,importados
5,350010 Adamantina,0,0,0,0,0,0,2,0,0
6,350020 Adolfo,0,0,0,0,0,0,0,0,0
7,350030 Aguaí,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...
645,355700 Votorantim,0,0,0,0,0,0,0,0,0
646,355710 Votuporanga,0,0,0,0,0,0,0,0,0
647,355715 Zacarias,0,0,0,0,0,0,1,0,0
648,355720 Chavantes,0,0,0,0,0,0,0,0,0


In [11]:
# Separando a coluna municípios
df[['Num_Municipio', 'Municipio']] = df['município'].str.split(' ', n=1, expand=True)
df.drop('município', axis=1, inplace=True)
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[['Num_Municipio', 'Municipio']] = df['município'].str.split(' ', n=1, expand=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[['Num_Municipio', 'Municipio']] = df['município'].str.split(' ', n=1, expand=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.drop('município', axis=1, inplace=True)


Unnamed: 0,Janeiro,Janeiro.1,Janeiro.2,Fevereiro,Fevereiro.1,Fevereiro.2,Março,Março.1,Março.2,Num_Municipio,Municipio
2,notificados,confirmados,confirmados,notificados,confirmados,confirmados,notificados,confirmados,confirmados,,
3,,autóctones,importados,,autóctones,importados,,autóctones,importados,,
5,0,0,0,0,0,0,2,0,0,350010,Adamantina
6,0,0,0,0,0,0,0,0,0,350020,Adolfo
7,0,0,0,0,0,0,0,0,0,350030,Aguaí
...,...,...,...,...,...,...,...,...,...,...,...
645,0,0,0,0,0,0,0,0,0,355700,Votorantim
646,0,0,0,0,0,0,0,0,0,355710,Votuporanga
647,0,0,0,0,0,0,1,0,0,355715,Zacarias
648,0,0,0,0,0,0,0,0,0,355720,Chavantes


In [12]:
df.columns

Index(['Janeiro', 'Janeiro', 'Janeiro', 'Fevereiro', 'Fevereiro', 'Fevereiro',
       'Março', 'Março', 'Março', 'Num_Municipio', 'Municipio'],
      dtype='object')

In [13]:
# Renomeando colunas de casos notificados
alt_name_not(df, 0, 'Janeiro')
alt_name_not(df, 3, 'Fevereiro')
alt_name_not(df, 6, 'Março')

In [14]:
# Renomeando colunas de casos confirmados e Autóctones
alt_name_auto(df, 1, 'Janeiro')
alt_name_auto(df, 4, 'Fevereiro')
alt_name_auto(df, 7, 'Março')

In [15]:
# Renomeando colunas de casos confirmados e importados
alt_name_import(df, 2, 'Janeiro')
alt_name_import(df, 5, 'Fevereiro')
alt_name_import(df, 8, 'Março')

In [16]:
df.columns

Index(['Janeiro_Not', 'Janeiro_Autoc', 'Janeiro_Import', 'Fevereiro_Not',
       'Fevereiro_Autoc', 'Fevereiro_Import', 'Março_Not', 'Março_Autoc',
       'Março_Import', 'Num_Municipio', 'Municipio'],
      dtype='object')

In [17]:
# Retirando as duas primeiras linhas para tratamento da tabela
df = df.iloc[2:]
df

Unnamed: 0,Janeiro_Not,Janeiro_Autoc,Janeiro_Import,Fevereiro_Not,Fevereiro_Autoc,Fevereiro_Import,Março_Not,Março_Autoc,Março_Import,Num_Municipio,Municipio
5,0,0,0,0,0,0,2,0,0,350010,Adamantina
6,0,0,0,0,0,0,0,0,0,350020,Adolfo
7,0,0,0,0,0,0,0,0,0,350030,Aguaí
8,0,0,0,0,0,0,0,0,0,350040,Águas da Prata
9,0,0,0,0,0,0,0,0,0,350050,Águas de Lindóia
...,...,...,...,...,...,...,...,...,...,...,...
645,0,0,0,0,0,0,0,0,0,355700,Votorantim
646,0,0,0,0,0,0,0,0,0,355710,Votuporanga
647,0,0,0,0,0,0,1,0,0,355715,Zacarias
648,0,0,0,0,0,0,0,0,0,355720,Chavantes


In [18]:
# Resetando index
df.reset_index(inplace=True)

In [19]:
# Para futuras atualizações
#['Janeiro_Not', 'Janeiro_Autoc', 'Janeiro_Import',  'Fevereiro_Not', 'Fevereiro_Autoc', 'Fevereiro_Import',  'Março_Not', 'Março_Autoc', 'Março_Import',  'Abril_Not', 'Abril_Autoc', 'Abril_Import',  'Maio_Not', 'Maio_Autoc', 'Maio_Import',  'Junho_Not', 'Junho_Autoc', 'Junho_Import',  'Julho_Not', 'Julho_Autoc', 'Julho_Import',  'Agosto_Not', 'Agosto_Autoc', 'Agosto_Import',  'Setembro_Not', 'Setembro_Autoc', 'Setembro_Import',  'Outubro_Not', 'Outubro_Autoc', 'Outubro_Import',  'Novembro_Not', 'Novembro_Autoc', 'Novembro_Import',  'Dezembro_Not', 'Dezembro_Autoc', 'Dezembro_Import']

In [20]:
df = df.reindex(columns=['Municipio', 'Num_Municipio', 'Janeiro_Not', 'Janeiro_Autoc', 'Janeiro_Import', 'Fevereiro_Not', 'Fevereiro_Autoc', 'Fevereiro_Import', 'Março_Not', 'Março_Autoc', 'Março_Import'])
df

Unnamed: 0,Municipio,Num_Municipio,Janeiro_Not,Janeiro_Autoc,Janeiro_Import,Fevereiro_Not,Fevereiro_Autoc,Fevereiro_Import,Março_Not,Março_Autoc,Março_Import
0,Adamantina,350010,0,0,0,0,0,0,2,0,0
1,Adolfo,350020,0,0,0,0,0,0,0,0,0
2,Aguaí,350030,0,0,0,0,0,0,0,0,0
3,Águas da Prata,350040,0,0,0,0,0,0,0,0,0
4,Águas de Lindóia,350050,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
640,Votorantim,355700,0,0,0,0,0,0,0,0,0
641,Votuporanga,355710,0,0,0,0,0,0,0,0,0
642,Zacarias,355715,0,0,0,0,0,0,1,0,0
643,Chavantes,355720,0,0,0,0,0,0,0,0,0


In [21]:
df.isnull().sum()

Municipio           0
Num_Municipio       0
Janeiro_Not         0
Janeiro_Autoc       0
Janeiro_Import      0
Fevereiro_Not       0
Fevereiro_Autoc     0
Fevereiro_Import    0
Março_Not           0
Março_Autoc         0
Março_Import        0
dtype: int64

In [22]:
# Verificando os tipos das colunas
df.dtypes

Municipio           object
Num_Municipio       object
Janeiro_Not         object
Janeiro_Autoc       object
Janeiro_Import      object
Fevereiro_Not       object
Fevereiro_Autoc     object
Fevereiro_Import    object
Março_Not           object
Março_Autoc         object
Março_Import        object
dtype: object

In [23]:
df.columns

Index(['Municipio', 'Num_Municipio', 'Janeiro_Not', 'Janeiro_Autoc',
       'Janeiro_Import', 'Fevereiro_Not', 'Fevereiro_Autoc',
       'Fevereiro_Import', 'Março_Not', 'Março_Autoc', 'Março_Import'],
      dtype='object')

In [24]:
# Transformando os tipos das colunas de semanas em inteiro 
columns = ['Janeiro_Not', 'Janeiro_Autoc', 'Janeiro_Import', 'Fevereiro_Not', 'Fevereiro_Autoc', 'Fevereiro_Import', 'Março_Not', 'Março_Autoc', 'Março_Import']

for column in columns:
    alt_type_int(df, column)

  df.loc[:, columns] = df.loc[:, columns].astype(int)


### DF Notificados

In [25]:
# Criando dataframes dos casos notificados
df_notificados = df[['Num_Municipio', 'Janeiro_Not', 'Fevereiro_Not', 'Março_Not']]
df_notificados

Unnamed: 0,Num_Municipio,Janeiro_Not,Fevereiro_Not,Março_Not
0,350010,0,0,2
1,350020,0,0,0
2,350030,0,0,0
3,350040,0,0,0
4,350050,0,0,0
...,...,...,...,...
640,355700,0,0,0
641,355710,0,0,0
642,355715,0,0,1
643,355720,0,0,0


In [None]:
# Renomeando colunas dos meses
df_notificados

### DF Confirmados e Autóctones


In [26]:
# Criando dataframes dos casos confirmados e autóctones
df_conf_auto = df[['Num_Municipio', 'Janeiro_Autoc', 'Fevereiro_Autoc', 'Março_Autoc']]
df_conf_auto

Unnamed: 0,Num_Municipio,Janeiro_Autoc,Fevereiro_Autoc,Março_Autoc
0,350010,0,0,0
1,350020,0,0,0
2,350030,0,0,0
3,350040,0,0,0
4,350050,0,0,0
...,...,...,...,...
640,355700,0,0,0
641,355710,0,0,0
642,355715,0,0,0
643,355720,0,0,0


### DF Confirmados e Importados


In [27]:
# Criando dataframes dos casos confirmados e importados
df_conf_import = df[['Num_Municipio', 'Janeiro_Import', 'Fevereiro_Import', 'Março_Import']]
df_conf_import

Unnamed: 0,Num_Municipio,Janeiro_Import,Fevereiro_Import,Março_Import
0,350010,0,0,0
1,350020,0,0,0
2,350030,0,0,0
3,350040,0,0,0
4,350050,0,0,0
...,...,...,...,...
640,355700,0,0,0
641,355710,0,0,0
642,355715,0,0,0
643,355720,0,0,0


## Armazenamento dos dados
Nesta etapa iremos armazenar os três dataframes criados anteriormente.

In [28]:
df_notificados.to_excel('data/excel/fact_casos_notif_mensal_2023.xlsx', sheet_name='fact.casos_notif_mensal')

In [29]:
df_conf_auto.to_excel('data/excel/fact_casos_conf_auto_mensal_2023.xlsx', sheet_name='fact.casos_conf_auto_mensal')

In [30]:
df_conf_import.to_excel('data/excel/fact_casos_conf_import_mensal_2023.xlsx', sheet_name='fact.casos_conf_import_mensal')