## Preparação dos Dados

In [None]:
# Importando bibliotecas
import pandas as pd
import requests
from bs4 import BeautifulSoup

In [None]:
# Lista de funções
def alt_type_int(df, columns):
    df.loc[:, columns] = df.loc[:, columns].astype(int)
    return df.dtypes


In [None]:
# Puxando site
response = requests.get("https://www.saude.sp.gov.br/resources/cve-centro-de-vigilancia-epidemiologica/areas-de-vigilancia/doencas-de-transmissao-por-vetores-e-zoonoses/dados/chikung/2023/chikung23_se.html")
if response.status_code != 200:
    print(f"Erro {response.status_code}")
else:
    print("Request realizada com sucesso!")

In [None]:
# Webscrapping dos dados
soup = BeautifulSoup(response.text, 'html.parser')
table = soup.find('table') # encontra a tag <table>
table

df = pd.read_html(str(table))[0]

# exibe o dataframe
display(df)


## Análise de Dados

In [None]:
df = df.drop(0)

In [None]:
# Transformando a linha em nomes das colunas
new_header = df.iloc[0]
df = df[1:]
df = df.rename(columns=new_header)
df

In [None]:
# Retirando as linhas vazias
df = df.dropna(how='all')
df

In [None]:
# Retirando as duas últimas linhas que não pertencem aos dados da tabela
df = df.iloc[:-3]
df

In [None]:
# Retirando a primeira e a última coluna da tabela
df = df.iloc[:, :-1]
df

In [None]:
# Separando a coluna municípios
df[['Num_Municipio', 'Municipio']] = df['município'].str.split(' ', n=1, expand=True)
df.drop('município', axis=1, inplace=True)
df

In [None]:
df.columns

In [None]:
df.columns.values[0] = "Num_DRS"
df = df.rename(columns={'Num_DRS': 'Num_DRS', 'DRS': 'DRS'})
df.columns.values[2] = "Num_GVE"
df = df.rename(columns={'Num_GVE': 'Num_GVE'})
df.columns.values[2] = "Num_GVE"
df = df.rename(columns={'Num_GVE': 'Num_GVE'})
df.columns.values[4] = "Num_Região_Saúde"
df = df.rename(columns={'Num_Região_Saúde': 'Num_Região_Saúde'})
df = df.rename(columns={'município': 'Município'})

In [None]:
df = df.rename(columns=lambda x: x.replace(" ", ""))
df

In [None]:
df.columns

In [None]:
# Resetando index e retirando colunas index e Total
df = df.reset_index().drop(['index'], axis=1)
df

In [None]:
df = df.reindex(columns=['Num_DRS', 'DRS', 'Num_GVE', 'GVE', 'Num_Região_Saúde', 'RegiãodeSaúde', 'Num_Municipio', 'Municipio',
       'SE01', 'SE02', 'SE03', 'SE04', 'SE05', 'SE06', 'SE07', 'SE08', 'SE09',
       'SE10', 'SE11', 'SE12', 'SE13'])

In [None]:
# Verificando nomes das colunas
df.columns

In [None]:
# Verificando nulos
df.isnull().sum()

In [None]:
# Verificando os tipos das colunas
df.dtypes

In [None]:
# Transformando os tipos das colunas de semanas em inteiro 
columns = ['SE01', 'SE02', 'SE03', 'SE04', 'SE05', 'SE06', 'SE07', 'SE08', 'SE09', 'SE10', 'SE11', 'SE12', 'SE13']

for column in columns:
    alt_type_int(df, column)

In [None]:
# # Verificando tipos das colunas
df.dtypes

## Armazenamento de Dados

In [None]:
# Criando tabela dimensão de municípios
dim_municipios = df.iloc[:, :7]
dim_municipios.columns

In [None]:
# Gerando arquivo csv para tabela dimensão de municípios
dim_municipios.to_csv('data/dim.municipios.csv', encoding='utf-8')

In [None]:
# Criando tabela fatos de números de casos
fact_casos = df.iloc[:, list(range(7, len(df.columns)))]
fact_casos

In [None]:
# Gerando arquivo csv para tabela fatos de notificações
fact_casos.to_csv('data/fact.casos.csv', encoding='utf-8')