# Desafio Proposto:
### Escolha um site sobre dados de saúde voltadas para COVID-19 que permita web scraping e identifique as informações que você deseja extrair, como o 
#### 1 - Número de casos separado por estado;
#### 2 - Número de mortes separado por estado;
#### 3 - Faixa etária;
#### 4 - Sexo;
#### 5 - Média móvel (lembrando que talvez tenha que fazer esse item utilizando Python) - Item não obrigatório, porém diferencial.

### Importando Bibliotecas

In [133]:
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
import requests
import pandas as pd

### Obtendo Dados do site

In [134]:
url = "https://news.google.com/covid19/map?hl=pt-BR&gl=BR&ceid=BR%3Apt-419&mid=%2Fm%2F015fr"

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36"}

page = requests.get(url, headers = headers)      # obtém o código HTML da página

In [135]:
#Analisa o HTML usando a Biblioteca BeautifulSoup

soup = BeautifulSoup(page.text, "html.parser")

### Filtrando os Dados

In [136]:
# Obtendo o nome das colunas da Tabela, atrevés da classe:

colunas = []
for colum in soup.find_all("div", class_= "XmCM0b"):
    colunas.append(colum.get_text())
colunas

['Local',
 'Total de casos',
 'Novos casos (1 dia*)',
 'Novos casos (últimos 60 dias)',
 'Casos a cada um milhão de pessoas',
 'Mortes']

In [137]:
# Obtendo o nome dos estados da Tabela, atrevés da classe:

estados = []
for item in soup.find_all("div", class_="pcAJd"):
    estados.append(item.get_text())
len(estados)

29

In [138]:
# Obtendo o número de Óbitos, Casos e etc. Tudo isso atrevés da classe:

numeros = []
for n in soup.find_all("td", class_="l3HOY"):
    numeros.append(n.get_text())

In [139]:
# Veio uma lista com os números, de forma sequêncial, então basta separarmos em subgrupos de 5. 
# A cada 5 elementos, teremos a informação de uma linha completa

subgrupos = [numeros[i:i+5] for i in range(0, len(numeros), 5)]
len(subgrupos)

29

### Criando DF com as Informações Obtidas

In [140]:
df = pd.DataFrame(data = subgrupos, index = estados)
df = df.reset_index()
df.columns = colunas
df

Unnamed: 0,Local,Total de casos,Novos casos (1 dia*),Novos casos (últimos 60 dias),Casos a cada um milhão de pessoas,Mortes
0,Worldwide,674.867.945,45.061,,86.790,6.869.770
1,Brasil,37.020.531,0.0,,175.173,698.928
2,São Paulo,6.452.475,0.0,,146.530,178.915
3,Minas Gerais,4.187.298,0.0,,200.646,65.471
4,Rio Grande do Sul,2.958.495,0.0,,262.127,41.907
5,Paraná,2.916.310,0.0,,263.165,45.989
6,Rio de Janeiro,2.744.390,0.0,,166.719,76.811
7,Santa Catarina,1.983.071,0.0,,276.780,22.699
8,Goiás,1.893.808,0.0,,290.318,28.024
9,Bahia,1.791.129,0.0,,118.406,31.447


### Requisitos 1 e 2: Número de Casos e Mortes por Estado

In [141]:
df = df[['Local', 'Total de casos', 'Mortes']]

In [142]:
df.columns = ['Local', 'Casos', 'Mortes'] #RENOMEANDO AS COLUNAS
df = df.replace('Worldwide', 'Mundo')
df

Unnamed: 0,Local,Casos,Mortes
0,Mundo,674.867.945,6.869.770
1,Brasil,37.020.531,698.928
2,São Paulo,6.452.475,178.915
3,Minas Gerais,4.187.298,65.471
4,Rio Grande do Sul,2.958.495,41.907
5,Paraná,2.916.310,45.989
6,Rio de Janeiro,2.744.390,76.811
7,Santa Catarina,1.983.071,22.699
8,Goiás,1.893.808,28.024
9,Bahia,1.791.129,31.447


#### exportando para csv:

In [143]:
df.to_csv('casos_e_obitos.csv', index=False)

### Requisitos 3 e 4: Sexo e Faixa Etária

#### Observações:

Infelizemente o site anterior não possui os dados da COVID-19 por faixa etária e sexo. 

Pensando nisso, pensei em retirar do site: https://covid.saude.gov.br/, os dados da aba SRAG(Síndrome Respiratória Aguda Grave).
Porém os dados do gráfico estavam em uma tag do tipo <"canvas">. Após pesquisar, encontrei esses dados em csv, então optei por baixar o csv e tratar os dados.
    
Link para download do csv: https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SRAG/2020/INFLUD20-20-02-2023.csv

Efetuei uma breve limpeza removendo as colunas desnecessárias, visto que era um volume de dados muito grande. Optei por fazer pelo Excel essa limpeza, pois estava demorando muito tempo para carregar os dados. Deixando só as colunas: "Sexo", "Idade", "UF".

Os dados foram salvos no arquivo: dados_cov.csv
link: https://drive.google.com/file/d/1I0bJIAQVZ29-KPnmr2xx9-iG8bvRszHD/view?usp=share_link

In [144]:
import pandas as pd

In [145]:
dados = pd.read_csv("dados_cov.csv", sep = ';')

In [146]:
dados.head(5)

Unnamed: 0,SG_UF_NOT,CS_SEXO,NU_IDADE_N
0,MG,F,73
1,BA,F,74
2,SP,M,1
3,SP,M,37
4,CE,M,68


In [147]:
#Renomeando colunas:
dados.columns = ['UF', 'Sexo', 'Idade']
dados

Unnamed: 0,UF,Sexo,Idade
0,MG,F,73
1,BA,F,74
2,SP,M,1
3,SP,M,37
4,CE,M,68
...,...,...,...
1048570,BA,F,2
1048571,MG,M,38
1048572,SP,M,32
1048573,PI,F,26


### Faixa Etárias das Idades:

1 ATE 5 

6 ATE 19 

20 ATE 29

30 ATE 39 

40 ATE 49

50 ATÉ 59

60 ATÉ 69

70 ATE 79

80 ATE 89

90 OU MAIS

## DF - Casos de Síndrome Respiratória Aguda Grave por Faixa Etária e Sexo:

#### Criando faixas etárias:


In [148]:
# Como não existe idade negativa:
dados.Idade = dados.Idade.abs()

In [149]:
# Defininfo faixas:
faixa = [dados.Idade.min(), 5, 19, 29, 39, 49, 59, 69, 79, 89, dados.Idade.max()+1]

In [150]:
# Criando nome das faixas:
labels = ['1 ATE 5', '6 ATE 19', '20 ATE 29', '30 ATE 39', '40 ATE 49', '50 ATÉ 59', '60 ATÉ 69', '70 ATE 79', '80 ATE 89', '90 OU MAIS']

In [151]:
#Criando nova variável:
dados['faixa_etaria'] = pd.cut(dados['Idade'], faixa, labels=labels)
dados

Unnamed: 0,UF,Sexo,Idade,faixa_etaria
0,MG,F,73,70 ATE 79
1,BA,F,74,70 ATE 79
2,SP,M,1,1 ATE 5
3,SP,M,37,30 ATE 39
4,CE,M,68,60 ATÉ 69
...,...,...,...,...
1048570,BA,F,2,1 ATE 5
1048571,MG,M,38,30 ATE 39
1048572,SP,M,32,30 ATE 39
1048573,PI,F,26,20 ATE 29


In [152]:
#Agrupando por de acordo com o Sexo e Faixa Etária

#size() serve para contar o número de elementos em cada grupo.
grupo_sexo_faixa_etaria = dados.groupby(['Sexo', 'faixa_etaria']).size()

#### Legenda coluna [Sexo] 

0 = F = Femino

1 = I = Indefinido

2 = M = Sexo Masculino

In [153]:
# O df ficou na vertical, mas ficaria melhor, se estivesse na horizontal:
df_sexo_e_faixa_etaria = grupo_sexo_faixa_etaria.unstack()
df_sexo_e_faixa_etaria

faixa_etaria,1 ATE 5,6 ATE 19,20 ATE 29,30 ATE 39,40 ATE 49,50 ATÉ 59,60 ATÉ 69,70 ATE 79,80 ATE 89,90 OU MAIS
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
F,24621,16798,23214,43636,60915,83470,85747,71736,49089,16823
I,34,20,8,9,12,24,23,19,7,6
M,31021,18831,22823,63988,95667,109793,97277,77502,42793,10347


#### exportando para csv:

In [154]:
df_sexo_e_faixa_etaria.to_csv('SRAG_idade_sexo.csv', index=False)

## DF - Casos de Síndrome Respiratória Aguda Grave por Estado e Sexo:

In [155]:
uf_e_sexo = dados.groupby(['UF', 'Sexo']).size()

In [156]:
estado_e_sexo = uf_e_sexo.unstack()

In [157]:
# Colocando 0 nos espaços vazios:
estado_e_sexo = estado_e_sexo.fillna(0)
estado_e_sexo

Sexo,F,I,M
UF,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AC,1076.0,0.0,1238.0
AL,5919.0,8.0,6736.0
AM,7243.0,1.0,7962.0
AP,1156.0,1.0,1481.0
BA,17518.0,7.0,21054.0
CE,19820.0,14.0,23390.0
DF,9293.0,0.0,11335.0
ES,3439.0,2.0,4026.0
GO,16820.0,0.0,20829.0
MA,5550.0,3.0,6958.0


#### exportando para csv:

In [158]:
estado_e_sexo.to_csv('SRAG_estado_sexo.csv', index=False)